解决爬虫中lxml.etree.XMLSyntaxError问题

在使用lxml中的etree.parse()方法解析HTML页面源码的时候，可能会报错：lxml.etree.XMLSyntaxError。出现这个问题的主要原因是：html代码书写不规范，不符合xml解析器的使用规范。解决方法修改代码如下：parser = etree.HTMLParser(encoding="utf-8")tree = etree.parse('XX.html', parser

长庆路吴彦祖

3879人浏览 · 2020-07-28 11:09:47

长庆路吴彦祖 · 2020-07-28 11:09:47 发布

在使用lxml中的etree.parse()方法解析HTML页面源码的时候，可能会报错：lxml.etree.XMLSyntaxError。出现这个问题的主要原因是：html代码书写不规范，不符合xml解析器的使用规范。

解决方法

修改代码如下：

解析本地的HTML源码文件，假设其为：XX.html，根据实际更改。

parser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse('XX.html', parser=parser)

解析从互联网获取的HTML源码数据。

page_text = requests.get(url, headers).text
parser = etree.HTMLParser(encoding="utf-8")
tree = etree.HTML(page_text, parser=parser)

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Nuscenes数据集实战：3D点云检测入门必备的5个数据处理技巧

本文针对Nuscenes数据集在3D点云检测实战中的五大痛点，提供了高效的数据处理技巧。内容涵盖数据加载与IO优化、标注格式转换、多传感器数据对齐、数据采样与增强策略，以及自定义数据管道构建，旨在帮助开发者快速上手，提升模型训练效率。

魔乐社区

从理论到SAS实操：医学统计学高频考点思维导图（含结果解读模板）

本文针对医学统计学学习与应用的痛点，提供了一套从理论到SAS实操的完整解决方案。通过高频考点思维导图，系统梳理了假设检验、线性回归、生存分析和诊断试验评价四大核心模块的逻辑框架与SAS代码实现，并附有可直接套用的结果解读模板，助力医学生和研究者高效掌握数据分析与报告撰写技能。

魔乐社区

RRT-Star算法实战：从零到一实现机器人路径规划（Python代码详解）

本文通过Python代码实战，详细解析了RRT-Star算法在机器人路径规划中的应用。从环境搭建、核心概念代码化到算法实现与参数调优，手把手教你从零构建一个高效的路径规划器，并探讨了其扩展到三维空间及处理运动学约束的进阶方向。

魔乐社区

所有评论(0)

查看更多评论

长庆路吴彦祖

@Z761529849

已为社区贡献1条内容