【网络爬虫】学习笔记：html.parser、lxml、html5lib 三种解析器的区别

html.parser:html.parser 是Python3中的一个解析器，不需要单独安装。（如果不是特殊场景的需要，大都使用这个解释器）lxml：1.与 html.parserxingmu ,lxml的优点：在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。2.（它可以容忍并修正一些问题，例如未闭合的标签、未正确嵌套的标签，以及缺失的头（head）标签或正文（body）标签。）3

X.IO

5740人浏览 · 2022-04-05 10:15:09

X.IO · 2022-04-05 10:15:09 发布

html.parser:

html.parser 是Python3中的一个解析器，不需要单独安装。
（如果不是特殊场景的需要，大都使用这个解释器）

lxml：

1.与 html.parserxingmu ,lxml的优点：在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。
2.（它可以容忍并修正一些问题，例如未闭合的标签、未正确嵌套的标签，以及缺失的头（head）标签或正文（body）标签。）
3.（lxml 也比 html.parser 更快，但是考虑到网络本身的速度将总是你最大的瓶颈，在网页抓取中速度并不是一个必备的优势。）
4.lxml的一个缺点：它必须单独安装，并且依赖第三方的C语言库。
（相对于 html.parser 来说，这可能会导致可移植性和易用性问题。）