跟我一起学Python数据处理（八十二）：HTML解析与XPath基础

在Python数据处理的领域中，网页数据的抓取与解析是非常重要的一部分。今天就和大家一起深入学习相关知识，在学习过程中，我也在不断探索，希望我们能共同进步，一起掌握这些实用的技能！

lilye66

3745人浏览 · 2025-02-22 21:30:16

lilye66 · 2025-02-22 21:30:16 发布

跟我一起学Python数据处理（八十二）：HTML解析与XPath基础

一、HTML解析基础

在处理网页数据时，我们常常需要从HTML文档中提取有用的信息。Python提供了很多强大的库来帮助我们完成这个任务，比如lxml库，它能方便地解析HTML文档，获取我们想要的元素。

假设我们有一个简单的HTML文档，结构如下：

<html>
    <body>
        <h2>标题</h2>
        <ul>
            <li>列表项1</li>
            <li>列表项2</li>
        </ul>
        <h3>子标题</h3>
        <ul>
            <li>新列表项1</li>
            <li>新列表项2</li>
        </ul>
    </body>
</html>

在Python中，我们可以这样来解析这个HTML文档：

from lxml import html

# 假设html_content是获取到的HTML文档内容
html_content = """
<html>
    <body>
        <h2>标题</h2>
        <ul>
            <li>列表项1</li>
            <li>列表项2</li>
        </ul>
        <h3>子标题</h3>
        <ul>
            <li>新列表项1</li>
            <li>新列表项2</li>
        </ul>
    </body>
</html>
"""
tree = html.fromstring(html_content)

这里使用html.fromstring()方法将HTML字符串转换为可以操作的树形结构对象tree，后续我们就能通过这个对象来查找和提取元素。

二、利用元素家族关系定位元素

在解析HTML时，了解元素之间的家族关系非常重要，比如通过父元素找子元素，或者通过一个元素找它的兄弟元素等。就像在上面的HTML文档中，h2元素和它后面的ul元素是相邻的兄弟关系。

我们可以使用itersiblings()方法来获取一个元素的所有兄弟元素。例如，想要获取h2元素之后的所有兄弟元素，可以这样写：

h2_element = tree.find('h2')
siblings = list(h2_element.itersiblings())
for sibling in siblings:
    print(sibling.tag)

这段代码先找到h2元素，然后使用itersiblings()方法获取它的兄弟元素，并遍历打印出这些兄弟元素的标签名。不过，有时候获取到的兄弟元素可能包含很多我们不需要的内容，这时候可以像筛选特定标签的兄弟元素，只保留ul、h2、h3标签的兄弟元素：

proper_siblings = [s for s in h2_element.itersiblings() if s.tag in ['ul', 'h2', 'h3']]
for proper_sibling in proper_siblings:
    print(proper_sibling.tag)

通过这种方式，我们就能精准地定位到自己需要的元素，避免获取到过多无用的数据。

三、XPath的强大之处

XPath是一种用于在XML文档（HTML也是一种基于XML的文档）中定位元素的语言。它的功能非常强大，不仅可以像CSS选择器那样选择元素，还能利用文档的结构和元素间的关系来更灵活地定位。而且，大多数网页抓取库都支持XPath，很多选择器方法在库内部实际上也会转化为XPath来执行，这也说明了它的高效性。

比如，XPath有一些常用的语法：

//node_name：选择文档中所有匹配node_name的节点。假设我们想选择HTML文档中的所有div元素，XPath表达式就是//div。
/node_name：选择当前或前序元素中所有匹配node_name的节点。例如，//div/ul表示选择所有div元素内的ul元素。
@attr：选择一个元素的属性。像//div/ul/@class，就是选择所有div中ul元素的class属性。
../：选择父元素。//ul/../就是选择所有ul元素的父元素。
[@attr = "attr_value"]：选择有特定属性值的元素。比如//div[@id = "mylists"]，会选择ID值为“mylists”的div元素。
text()：从节点或元素中选择文本。//div[@id="mylists"]/ul/li/text()可以选择ID为“mylists”的div中的列表项的文本内容。
contains(@attr, "value")：选择属性具有特定值的元素。//div[contains(@id, "list")]会选择所有ID中包含“list”的div元素。
*：通配符。//div/ul/li/*表示选择所有div中ul中列表项的后继元素。
[1,2,3...]、[last()]或[first()]：根据在节点中出现的顺序选择元素。//div/ul/li[3]可以选择所有div中ul里的第三个列表项。

四、XPath实战演练

假设有这样一个HTML页面，我们想要获取页面底部版权信息的文本内容。HTML结构如下：

<html>
    <body>
        <!-- 其他内容 -->
        <footer>
            <div id="copyright">
                © 2024版权所有
            </div>
        </footer>
    </body>
</html>

我们可以使用XPath来定位并获取这个文本内容。首先，根据XPath语法，选择ID为“copyright”的div元素中的文本内容，XPath表达式为//div[@id="copyright"]/text()。在Python中使用lxml库来实现：

from lxml import html

html_content = """
<html>
    <body>
        <!-- 其他内容 -->
        <footer>
            <div id="copyright">
                © 2024版权所有
            </div>
        </footer>
    </body>
</html>
"""
tree = html.fromstring(html_content)
copyright_text = tree.xpath('//div[@id="copyright"]/text()')
print(copyright_text)