• 💂 个人网站: IT知识小屋
  • 🤟 版权: 本文由【IT学习日记】原创、在CSDN首发、需要转载请联系博主
  • 💬 如果文章对你有帮助、欢迎关注、点赞、收藏(一键三连)和订阅专栏哦


写在前面

大家好,这里是IT学习日记。今日推荐工具:MinerU工具,获取方式在文后。

1000+优质开源项目推荐进度:41/1000。如需更多类型优质项目推荐,请在文章后留言。

工具简介

MinerU是一款一站式、开源、高质量的数据提取工具,集成了专业的PDF文档提取(Magic-PDF)、网页与电子书提取功能(Magic-Doc)。

PDF转换

Magic-PDF

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

核心功能:

  • 多种前端模型输入: 兼容多种前端数据输入模型。

  • 删除不必要元素: 可删除页眉、页脚、脚注、页码等无关元素。

  • 符合阅读顺序的排版: 确保文档格式符合人类阅读习惯。

  • 保留原文结构: 完整保留文档的结构和格式,包括标题、段落、列表等。

  • 图像和表格提取: 提取图像和表格,并在Markdown中进行展示。

  • 公式转换为LaTeX: 自动将公式转换为LaTeX格式。

  • 乱码PDF处理: 自动识别并转换乱码PDF。

  • 环境支持: 兼容CPU和GPU环境。

  • 平台兼容: 支持Windows、Linux和macOS平台。

Magic-PDF功能演示

PDF识别

PDF转换

图标转换

公式转换

图片转换

Magic-PDF项目架构

项目架构

流程图

Magic-Doc

Magic-Doc 是一款先进的网页与电子书提取工具工具,支持将网页及多格式电子书高效转换为 Markdown 格式。

主要功能包括:

  • 网页提取

    • 精准解析图文、表格及公式信息,支持跨模态提取。
  • 电子书文献提取

    • 兼容 EPUB、MOBI 等多种格式,全面适配文本和图片内容。
  • 语言类型鉴定

    • 支持准确识别多达 176 种语言。

Magic-Doc功能演示

图文公式转换

多种格式文献转换

176种语言识别

源码获取&使用手册

点击下方的【IT学习日记】回复【资源】领取!

如果这篇文章对您有帮助,请一定帮我点个 “关注”“点赞”,这对我非常重要。我将会继续推荐更多优质项目和新闻。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐