当前,在AI大模型热潮下,OCR技术正迎来新一轮生产力效率变革。

在实际应用中,**大模型加持的OCR可以更准确、灵活应对不同行业复杂多样的文档格式与版式,**助力企业实现业务流程自动化升级,大幅提升运营效率与数据处理准确性。那么,鹅厂的多模态OCR大模型如今进展如何呢?

接下来,我们将通过一篇文章为大家全景展示鹅厂OCR多模态大模型最新技术进展与商业化。

01

技术演进

技术演进 技术路线 解决场景
OCR1.0 多阶段定制 OCR模型 检测 + 识别 + 结构化 全文文字识别 定制场景OCR 结构化提取
OCR2.0(DocLM-Base) 端到端OCR 大模型 单一模型支持检测、识别、结构化几类预定义好的任务
OCR3.0(DocLM-Large) 多模态OCR 模型 单一模型支持,Prompt 驱动(个性化需求)开放式任务,各类复杂场景识别、结构化提取

1.1 OCR 1.0:多阶段技术方案

在深入探讨OCR大模型之前,先回顾一下传统OCR技术的典型流程PPL。

典型OCR流程由文本检测模块、文字角度预测及扭曲矫正模块、文字识别模块、信息提取模块组成,阶段较多,且每个模块都具有一些瓶颈。

  • 文本检测模块:在多行文字套打场景、非规则形状场景以及大小字混合场景中,容易错检、漏检。

  • 角度预测及扭曲矫正模块:在多角度文本混合时易错分。此外,扭曲矫正通常只适用于特定的文本排列模式,如曲线文本。

  • 识别模块:文字重叠、生僻字以及低质量图像时,由于无法基于整图信息结合上下文推测,这一模块的识别能力受限。

  • 信息提取(结构化)模块:该模块通常基于复杂的规则或语义方案,泛化能力较弱,定制工作量大,且扩展性差。

    1.2 OCR 2.0:端到端 OCR 大模型

由于后续模块难以修正前置模块的错误,这导致了错误的累积,使得在处理难度较高的场景时难以获得理想的效果。为了解决这些问题,并提高模型的泛化能力,腾讯优图实验室在 2022 年提出OCR大模型的方案,技术文章被计算机视觉顶会 ICCV 2023 录用。

对于OCR大模型,我们提出了以下三个核心目标:

  1. 端到端解决方案:通过一个统一的模型解决OCR中的链路问题,克服多阶段处理的瓶颈;
  2. 智能化:构建具有更强泛化能力的模型,实现单一模型并支持多种任务,能够有效处理 OCR 识别、KV 结构化提取等任务;
  3. 高效、高精度:OCR 大模型不仅在效果上优于原有多阶段技术方案,通过极致的性能优化,在推理耗时上也具备非常强的技术优势,单 Token 平均耗时低于 1ms。

img

腾讯优图 OCR 大模型(DocLM-Base)

img

KV 结构化示例

1.3 OCR 3.0:多模态 OCR 大模型

常规结构化任务是基于场景或者版式做的定制处理,成本很高。腾讯云OCR文档抽取(基础版),将结构化抽取任务抽象成从图像到结构化抽取文本的多模态翻译任务,解决了常规 K:V 场景的结构化抽取。 但是实际业务还会面临更复杂的情况,包括:多页文档处理、文档多版式需要按照定义的规则输出(同个字段在名称上有较多不同形式的表达)、表格形式提取等,需要多模态大模型的通用图像理解能力。

特别是个性化需求:每个用户对于 OCR 有着自己独特的业务诉求,例如同样是表格,有用户希望按照结构化 KV 输出、Excel 输出、Markdown 输出等等;或者用户希望按照所提供的样例和自定义提取规则进行输出,这需要多模态大模型的Prompt理解能力。

02

领域进展

以 GPT-4o,Mini-GPT4、 LLAVA等为代表;该类模型通过超大规模的视觉语言预训练任务,使得模型具备比较好的图像感知及意图理解能力,这些模型的典型结构为:

img

图片摘自 LLAVA(https://arxiv.org/pdf/2304.08485 )

实现流程:在原生纯文本大模型的基础上,将图像提取视觉特征(图像 Token)作为额外输出。

部分模型实测也具备一定的OCR识别能力,但工业实际应用时发现存在三个主要问题:

  • 精度较低,识字能力偏弱,在常规任务上低于传统OCR模型的表现;
  • 场景受限:仅适用于小分辨率的清晰印刷场景,同时输出形式上存在较大的不确定性;
  • 成本高:推理成本为常规OCR模型的数百倍,不适应于高频的OCR任务。

03

技术要点

3.1 腾讯优图 OCR 大模型技术演进路线

img

腾讯优图实验室对于大规模预训练OCR 模型的探索始于 2019 年,目前的 OCR 大模型属于第五代大规模预训练模型(DocLM v5)。

3.2 高分辨率图像处理

OCR场景分辨率通常较高,部分图像可达到 4K。常规视觉多模态模型的处理尺寸为 224224,或者 448448,无法满足 OCR 需求。

业界也有出现一些处理方案,包括:

1)通过对于大分辨率划分成一些预先定义好的栅格,再针对每个栅格进行视觉编码和融合。

img

图摘自UReaderhttps://mm-chatgpt.oss-cn-zhangjiakou.aliyuncs.com/mplug_owl_demo/released_checkpoint/UReader_Arxiv.pdf

img

图摘自 InternVL(https://arxiv.org/pdf/2404.16821 )

2)或者是对于图像按照转换为动态数量的 tokens。

以上方法可以一定程度上解决大分辨率的问题,但是随之而来的是会导致输入序列特别长,常规 4K 分辨率图像可以达到上万个视觉 Token, 导致模型推理效率的大幅下降以及对于GPU 显存的高需求。

基于对文档类场景的观察,文档图像并非所有的视觉 Token 都具有价值,与问题 Prompt 相关的视觉 Token 一般只有 5% 或者更低,因此有较大幅度的空间可以压缩视觉表达,我们提出内容感知的视觉过滤机制,将与无关视觉信息过滤。如下面这张图,原始图片表达是 9126 个 Token,经过过滤后仅有 330 Token 与问题相关,压缩了 95% 以上的内容。

img

图摘自腾讯优图自研论文:HRVDA: High-Resolution Visual Document Assistant

具体实现流程:图像分完 Patch 后(可理解为将大的图片切分成非常多的小图片)通过一个可插拔的文字内容感知模块过滤非文字图像块得到裁剪后 Token。 裁剪后的Token与指令特征融合,进一步过滤掉与指令无关的标记。最终,精简后的视觉标记和指令被输入到LLM中,生成相应的响应。总体对于视觉 Token 的过滤平均可以达到 90% 以上,大幅缩减了耗时。

img

图摘自腾讯优图自研论文:HRVDA: High-Resolution Visual Document Assistant

可视化操作过程:可以发现,模型在不断将图像特征进行过滤,首先过滤掉非文字部分,然后过滤掉非语义相关部分,最终仅关注与问题相关的图像区域,大幅降低了图像序列长度对于模型效果效果的影响。基于此方案,OCR能力边界轻松从单一的图像处理扩展到了多图处理,适用于复杂多图(如国际发票中,通常具有附页)端到端处理。

img

3.3 文档场景细粒度感知

文档对象对比学习(DoCo),专为VDU(文档智能理解)的下游任务设计。DoCo利用辅助文档多模态编码器获取文档对象的特征,并将其与LVLM视觉编码器生成的视觉特征对齐,从而增强文本密集场景中的视觉表示。对比学习文档对象的视觉整体表示和多模态细粒度特征,可以帮助视觉编码器获取更有效的视觉线索,从而提升LVLMs对文本密集文档的理解。

此外,腾讯优图实验室团队还证明了DoCo作为一种即插即用的预训练方法,可以在不增加推理过程计算复杂度的情况下用于各种LVLMs的预训练。多个VDU基准上的大量实验结果表明,配备DoCo的LVLMs可以实现更优性能,并缩小VDU与通用视觉语言任务之间的差距。

img

图摘自腾讯优图自研文章 Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

常规多模态大模型在文档场景通常很难做到细粒度感知,表现为文字识别错误、理解偏差等情况,我们发现该问题的发生主要是文档视觉特征没有和文本文字、文本坐标框这类文档场景特有的多模态属性进行对齐导致的。

基于此,我们在训练阶段,将文档中的坐标信息、文字信息同时进行编码,并通过对比学习的方式与图像特征进行对齐,增强文档细粒度感知,使得大模型在密集文字场景也取得了比较好的效果。

img

从图表和文档问答的实际表现中可以看出,文档细粒度对比学习在回答精准度上相比于业界常用的 CLIP 技术方案,有比较好的提升。

img

04

文档智能

前文提到传统OCR技术与性能的局限性。

从行业视角看,在物流、出行、金融、零售、医疗、教育、保险等领域,OCR一直有着高频使用需求。而在处理非标准化票据单据、多页合同、复杂文档识别上,传统OCR的准确率往往难以满足业务实际要求,这些技术瓶颈导致企业仍需投入大量人力进行二次核验,严重制约着业务流程自动化进程。

基于腾讯优图多模态OCR大模型,我们正式推出了【文档智能】OCR新能力,打造新一代智能文档处理平台,实现各类文档的高精度识别、智能解析与结构化信息抽取。

img

几点优势总结:

  • 多模态融合解析:支持文本、图像、表格、版式等融合解析,突破传统OCR单模态解析局限。
  • 识别到推理能力跃升:支持"数据抽取→语义理解→业务推理"三级能力跨越,更好的适配复杂业务场景。
  • 基于百亿级参数架构,实现更高性能与识别精度:1)同等参数规模下处理速度行业领先,实现5ms/token的识别效率(平均单文档<2s);2)在固定卡证票据版式中,识别精度高达97%,在版式多变或中英文混排等复杂文档场景,也能保持95%以上的准确率。
  • 便捷易用:无需繁琐模型训练,开箱即用,支持API接入。

以交通物流、医疗保险理赔场景为例:

在(跨境)物流行业,票据单据的智能化处理直接影响企业运转与供应链协同效率及成本控制。腾讯云OCR文档智能针对物流行业核心场景提供一站式解决方案:

  • 大宗货运磅单履约:精准识别重量、车牌、货物类型等关键字段信息,确保运输数据准确录入。
  • 跨境货代提单识别:支持混合排版解析,自动提取提单号、集装箱号、收发件人信息,助力国际物流高效通关。
  • 快递快运隐私面单:高精度识别收、寄件地址等信息,提升分拣效率,减少错派率。
  • 国际invoice识别:国际invoice因企业全球化需求,存在版式多样、自定义差异大等问题,文档智能支持多语言混合、复杂表格、手写备注等多样化信息的高精度识别,泛化性更强。
  • 差异化、模糊单据识别:1)支持全国各省市版式差异、200+保险公司版式、上千种收发货磅单版式;2)支持模糊/破损面单的容错处理 、复杂背景(如塑封反光)下文字识别。

某物流企业接入文档智能产品后,单据处理时效从小时级缩短至分钟级,错误率下降60%,年节省人力成本超千万元,推动企业业务向全流程智能化迈进。

在医疗保险理赔业务中,传统OCR技术难以应对全国各医疗机构出具的非标准化、版式复杂、内容多样、病历字迹潦草的医疗单据(如门诊病历、住院清单、检查报告等)。

文档智能产品基于多模态OCR大模型的深度语义理解+结构化抽取技术,能够精准识别医疗文档中的关键字段(支持全国三甲医院200+版式模板),实现95%+的字段级识别准确率。

  • 报告解析:检验报告、病历报告等文件关键字段提取解析(包括跨机构报告关键字段智能归一化输出 );
  • 医疗表格:支持复杂有线、无线表格字段信息精准抽取。
  • 医疗单据核对:住院发票、费用清单、结算单等单据关键信息自动识别。
  • 诊断证明识别:诊断证明、出院记录、住院病例首页等文件结构化抽取。
  • 医保报销:支持全国100+保险公司版式智能抽取、小字体保单字段信息专项优化。
  • 病历字迹识别:连笔、草书字符精准识别、双栏/跨页内容自动拼接 。

某头部保险公司应用后,理赔材料处理效率提升200% ,人工审核成本降低60%。

05

实测体验

1)复杂文档:对于字段名称理解并映射。

img

2)表格场景:表格可提取结构化及行列信息。

img

3)多页场景:可支持 5 页内文档信息提取,如国际发票、合同文件等。

img

4)Prompt自定义能力:提取固定 Key 内容,按照自定义需求从图中提取关键字段信息。

img

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐