python第三方库:使用html2text把html转换为markdown格式
在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。html2text的原理是使用HTMLParser 对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。html2text 安装html2text的地址在:http://www.aaronsw.com/2002/html2text/它是一个网页格式
·
在之前找了很多的库把html转换为markdown的格式,有些库效果并不是非常的好,后面使用了html2text,效果有点提升。
html2text的原理是使用HTMLParser 对html的标签逐一的进行解析,并根据各个标签还原为markdown的格式。
html2text 安装
html2text 的地址在:
http://www.aaronsw.com/2002/html2text/
它是一个网页格式工具,能够在线把网站转换为markdown的格式,下载里面的html2text.py,放到自己的工程里。
github上的地址在:
https://github.com/aaronsw/html2text
html2text 使用
用起来也比起其他的库会来的简单点:
import html2text
article_content = ""
html2text.html2text(article_content)
有的时候html2text 并不能很好的理解我们需要的markdown,好在html2text.py并不是非常的复杂,我们可以在这个源码的基础上在进行相应的修改。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)