解决爬虫中lxml.etree.XMLSyntaxError问题
在使用lxml中的etree.parse()方法解析HTML页面源码的时候,可能会报错:lxml.etree.XMLSyntaxError。出现这个问题的主要原因是:html代码书写不规范,不符合xml解析器的使用规范。解决方法修改代码如下:parser = etree.HTMLParser(encoding="utf-8")tree = etree.parse('XX.html', parser
·
在使用lxml中的etree.parse()方法解析HTML页面源码的时候,可能会报错:lxml.etree.XMLSyntaxError。出现这个问题的主要原因是:html代码书写不规范,不符合xml解析器的使用规范。
解决方法
修改代码如下:
- 解析本地的HTML源码文件,假设其为:XX.html,根据实际更改。
parser = etree.HTMLParser(encoding="utf-8")
tree = etree.parse('XX.html', parser=parser)
- 解析从互联网获取的HTML源码数据。
page_text = requests.get(url, headers).text
parser = etree.HTMLParser(encoding="utf-8")
tree = etree.HTML(page_text, parser=parser)
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)