99%的人不知道!一款高质量的PDF、电子书开源提取工具
100%开源!一键快速识别PDF文档和电子书!
- 💂 个人网站: IT知识小屋
- 🤟 版权: 本文由【IT学习日记】原创、在CSDN首发、需要转载请联系博主
- 💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦
写在前面
大家好,这里是IT学习日记。今日推荐工具:MinerU工具,获取方式在文后。
1000+优质开源项目推荐进度:41/1000。如需更多类型优质项目推荐,请在文章后留言。
工具简介
MinerU是一款一站式、开源、高质量的数据提取工具,集成了专业的PDF文档提取(Magic-PDF)、网页与电子书提取功能(Magic-Doc)。

Magic-PDF
Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。
核心功能:
-
多种前端模型输入: 兼容多种前端数据输入模型。
-
删除不必要元素: 可删除页眉、页脚、脚注、页码等无关元素。
-
符合阅读顺序的排版: 确保文档格式符合人类阅读习惯。
-
保留原文结构: 完整保留文档的结构和格式,包括标题、段落、列表等。
-
图像和表格提取: 提取图像和表格,并在Markdown中进行展示。
-
公式转换为LaTeX: 自动将公式转换为LaTeX格式。
-
乱码PDF处理: 自动识别并转换乱码PDF。
-
环境支持: 兼容CPU和GPU环境。
-
平台兼容: 支持Windows、Linux和macOS平台。
Magic-PDF功能演示





Magic-PDF项目架构


Magic-Doc
Magic-Doc 是一款先进的网页与电子书提取工具工具,支持将网页及多格式电子书高效转换为 Markdown 格式。
主要功能包括:
-
网页提取
- 精准解析图文、表格及公式信息,支持跨模态提取。
-
电子书文献提取
- 兼容 EPUB、MOBI 等多种格式,全面适配文本和图片内容。
-
语言类型鉴定
- 支持准确识别多达 176 种语言。
Magic-Doc功能演示



源码获取&使用手册
点击下方的【IT学习日记】回复【资源】领取!
如果这篇文章对您有帮助,请一定帮我点个 “关注” 和 “点赞”,这对我非常重要。我将会继续推荐更多优质项目和新闻。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)