[Paddle] ERNIE-Layout 使用测试 - 文心多语言跨模态布局增强文档智能大模型
近期遇到需要从电子文档中进行内容提取的需求,突然想到 Paddle 的 ERNIE-Layout 模型,对其进行分析和测试。采用此方法,避免了很笨的 OCR + 正则匹配 的思路。
·
介绍
近期遇到需要从电子文档中进行内容提取的需求,突然想到 Paddle 的 ERNIE-Layout 模型,对其进行分析和测试。
采用此方法,避免了很笨的 OCR + 正则匹配 的思路。
应用场景
- 电子文档
- 对表格类的文档进行内容提取(发票、票据、简历)
- 对文档进行问答
使用方法
- 安装:
- 应用
- 可以外面包一层 django 框架进行服务化;
- https://github.com/PaddlePaddle/FastDeploy 当前未看到关于 ERNIE-Layout 部分的介绍;
问题解决
-
ImportError: cannot import name ‘_registerMatType’ from ‘cv2.cv2’
- https://github.com/opencv/opencv-python/issues/591
```shell pip install --upgrade opencv-python pip install --upgrade opencv-contrib-python pip install --upgrade opencv-python-headless ``` -
ERROR: After October 2020 you may experience errors when installing or updating packages. This is because pip will change the way that it resolves dependency conflicts.
We recommend you use --use-feature=2020-resolver to test your packages with the new resolver before it becomes the default.- 本文在安装和测试的过程中,忽略了此问题;
- 根据官方介绍,可以在 pip install 命令后添加 --use-feature=2020-resolver 去解决;
相关参考
- https://github.com/opencv/opencv-python/issues/591
- https://www.matpool.com/ 注册过程中可用邀请码: r6LeEKPs7ivbaLy
- https://developer.nvidia.com/cuda-11-7-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=20.04&target_type=runfile_local
- https://www.paddlepaddle.org.cn/
- https://aistudio.baidu.com/aistudio/modelsdetail?modelId=23
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐





所有评论(0)