一、MonkeyOCR模型介绍:

MonkeyOCR 是一款用于文档解析的开源 AI 工具,其核心特点是采用了结构识别关系三元组范式,旨在简化模块化方法的多工具管道,同时避免使用大型多模态模型进行全页文档处理的低效性。

主要功能

  1. 文档解析:能够对英文和中文文档进行全面解析,支持 PDF、JPG、JPEG 和 PNG 等多种文件类型。可以提取文档中的文本内容、识别公式(以 LaTeX 格式输出)和表格(以 LaTeX 格式输出),并将结果保存为 Markdown、JSON 等格式。

  2. 单任务识别:支持文本识别、公式识别和表格识别等单任务操作。

  3. 可视化演示:提供在线可视化演示,用户可以上传 PDF 或图像,点击 “Parse (解析)” 按钮,让模型进行结构检测、内容识别和关系预测,最终输出文档的 Markdown 格式版本。还可以选择提示并点击 “Test by prompt”,让模型根据所选提示对图像进行内容识别。

二、云平台操作步骤

1.注册并登录星海智算-GPU算力云平台,内置该模型镜像。

2. 在GPU实例界面中选择创建应用

3. 在镜像市场选择chatterbox并点击部署

 4. 选择区域,GPU、磁盘配置后点击立即部署。

5. 待开机后,启动应用服务 (刚开机后点击启动若是出现502问题,请关闭页面等2-3分钟后再重新启动服务)

打开后界面如下

6. 在文件输入框中上传所需文件图片。

7.点击解析按钮解析文件内容。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐