【多模态】一次多模态大模型表格识别解析探索小实践记录

训练数据质量大于一切，含大量数据的超长文本表格目前还不能准确识别，因为笔者训练的是。作为文档智能的重要组成部分，面临着复杂结构和多样化格式的挑战。前期文章也介绍了传统视觉的方法进行表格结构识别的方法，国庆期间，笔者利用一个较长的时间段，训练了一个。模型，效果还不错，特此记录一下多模态的效果。下面的一些case来源于网络的表格截图。关于表格识别在这里就不做过多的介绍了。模型参数量目前较大，推理速度比

余俊晖

2049人浏览 · 2024-10-12 19:43:46

余俊晖 · 2024-10-12 19:43:46 发布

表格识别作为文档智能的重要组成部分，面临着复杂结构和多样化格式的挑战。
《【文档智能 & RAG】RAG增强之路：增强PDF解析并结构化技术路线方案及思路》，

前期文章也介绍了传统视觉的方法进行表格结构识别的方法，【文档智能】轻量级级表格识别算法模型-SLANet

关于表格识别在这里就不做过多的介绍了。

国庆期间，笔者利用一个较长的时间段，训练了一个多模态的表格识别模型，效果还不错，特此记录一下多模态的效果。

训练资源：H100*8
训练数据：200w table image - table html对（html的表示表格的优势，可以准确表示一些复杂表格，如合并单元格等，这点是mardown格式无法做到的。）
模型参数量：7B
自建测评数据TEDS：0.97~0.98

小总结：

训练数据质量大于一切，含大量数据的超长文本表格目前还不能准确识别，因为笔者训练的是max-length=8192。
模型参数量目前较大，推理速度比较慢。

效果记录：
下面的一些case来源于网络的表格截图。

case1

case2

case3

case4

case5

case6

case7

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came

魔乐社区

如何用pyecharts-gallery制作交互式地图？AMap与BMap组件实战教程

pyecharts-gallery是一个基于pyecharts的开源项目，提供了丰富的Echarts官方示例模仿实现，帮助开发者快速掌握交互式数据可视化技能。本文将聚焦于如何利用该项目中的AMap和BMap组件，轻松创建专业级交互式地图应用。## 一、快速入门：项目准备与环境搭建要开始使用pyecharts-gallery制作交互式地图，首先需要获取项目源码。通过以下命令克隆仓库：``