表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。
【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》,

前期文章也介绍了传统视觉的方法进行表格结构识别的方法,【文档智能】轻量级级表格识别算法模型-SLANet

关于表格识别在这里就不做过多的介绍了。

国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别模型,效果还不错,特此记录一下多模态的效果。

  • 训练资源:H100*8
  • 训练数据:200w table image - table html对(html的表示表格的优势,可以准确表示一些复杂表格,如合并单元格等,这点是mardown格式无法做到的。)
  • 模型参数量:7B
  • 自建测评数据TEDS:0.97~0.98

小总结:

  1. 训练数据质量大于一切,含大量数据的超长文本表格目前还不能准确识别,因为笔者训练的是max-length=8192

  2. 模型参数量目前较大,推理速度比较慢。

效果记录
下面的一些case来源于网络的表格截图。

case1


case2


case3


case4


case5


case6


case7

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐