【网络爬虫】学习笔记:html.parser、lxml、html5lib 三种解析器的区别
html.parser:html.parser 是Python3中的一个解析器,不需要单独安装。(如果不是特殊场景的需要,大都使用这个解释器)lxml:1.与 html.parserxingmu ,lxml的优点:在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。2.(它可以容忍并修正一些问题,例如未闭合的标签、未正确嵌套的标签,以及缺失的头(head)标签或正文(body)标签。)3
html.parser:
- html.parser 是Python3中的一个解析器,不需要单独安装。
(如果不是特殊场景的需要,大都使用这个解释器)
lxml:
1.与 html.parserxingmu ,lxml的优点:在于解析"杂乱"或者包含错误语法的HTML代码的性能更优一些。
2.(它可以容忍并修正一些问题,例如未闭合的标签、未正确嵌套的标签,以及缺失的头(head)标签或正文(body)标签。)
3.(lxml 也比 html.parser 更快,但是考虑到网络本身的速度将总是你最大的瓶颈,在网页抓取中速度并不是一个必备的优势。)
4.lxml的一个缺点:它必须单独安装,并且依赖第三方的C语言库。
(相对于 html.parser 来说,这可能会导致可移植性和易用性问题。)
html5lib:
1.和 lxml 一样,html5lib 也是一个具有容错性的解释器,它甚至可以容忍语法更糟糕的HTML。
2.它也依赖与外部依赖,并且比 lxml 和 html.parser 都慢。
(尽管如此,如果你处理的是一些杂乱的或者手写的HTML网站,那么该解释器可能是一个不错的选择。)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)