3d7cb982aa00a21b3d3e02fffc920a81.gif

向AI转型的程序员都关注了这个号👇👇👇

前言

文档图像矫正在图像处理领域属于相对冷门但是很有用的一个任务,这个任务的相关文章还是比较少的,DocReal是2024 WACV的最新文档矫正文章,结合了之前一些技术的亮点,还是值得一看的。

paper:DocReal

https://paperswithcode.com/paper/docreal-robust-document-dewarping-of-real

这篇文章建议看两个文章作为背景会更容易理解:

1)paperedge:https://github.com/cvlab-stonybrook/PaperEdge

2)DDCP:图像处理:文档图像矫正DDCP

https://blog.csdn.net/WiSirius/article/details/135752325?spm=1001.2014.3001.5502

一、介绍

文档图像矫正是计算机视觉中的一项重要任务,具有许多实际应用。控制点法(如DDCP)由于其简单高效而备受关注。然而,由于背景噪声和多种变形类型,不准确的控制点预测可能导致不令人满意的性能。为了解决这些问题,提出了一种强大的文档矫正方法,即DocReal,它利用Enet有效地去除背景噪声,并使用注意力增强控制点(AECP)模块更好地捕捉局部变形。此外,通过合成具有3D变形和附加变形类型的2D图像来增强训练数据。提出的方法表现出卓越的矫正精度。

主要贡献如下:

1)提出了一个稳健的文档图像矫正框架,采用 Enet 来有效地消除背景噪音并使用增强注意力控制点(AECP)模块,以更好进行精细矫正。

2)利用 Doc 3D 中的3D图像数据,在Doc3D数据集中用3D变形合成 2D 图像。此外,我们通过添加各种噪声和随机选择的背景来增强训练数据。还通过公式模拟了额外的四种卷曲和折叠变形,以丰富训练数据的变形类型(这部分和DDCP有点像,DDCP的数据生成也是通过公式模拟的—https://github.com/gwxie/Synthesize-Distorted-Image-and-Its-Control-Points)。

二、方法论

基于控制点的DDCP方法仍然面临很大的局限性,特别是在不同的拍摄环境、文本类型和噪声背景下在文本上准确放置控制点时。此任务处理不当可能会导致严重的文本变形和背景残留。为了克服这些挑战,我们从 PaperEdge 方法中汲取灵感,开发了一种新的流程,即 DocReal,它首先使用 Enet 检测文档边缘信息,去除背景噪声并提取文档主体。然后,我们利用注意力增强控制点(AECP)网络来更好地捕获文档的局部变形,与 DDCP 方法相比,预测更准确的控制点。

047ab81a3ba982c04af68d16a67cbe45.png

1.模型结构

1)Enet:

Enet 是一个全卷积的编码器-解码器架构,在编码器中使用 6 个残差块,解码器有 4 个残差块。Enet在合成图像(3D数据)和基于真实图像的弱监督训练(和paperedge训练Enet的方式一样)。

2)AECP:

AECP 包括四个子模块,它们协同工作以提高局部变形的控制点预测精度。第一个子模块(图中的绿色)使用两个卷积(k=3,s=2)提取输入图像 I ∈ R 992×992×3 的浅层特征。第二个子模块包含了4层卷积(k=3)。值得注意的是,这两个子模块都通过注意力模块(CBAM模块)得到增强,该模块利用通道注意力和空间注意力来优先考虑关键信息,例如浅层特征(包括光、阴影和纹理)和深层特征(如表格) 线、文本线和整体变形)。

第三个子模块(图中的黄色)利用空洞卷积金字塔来拓宽全局感受野。膨胀金字塔由六层组成,最大膨胀率为18。将具有不同尺度的六层特征连接起来,然后将它们输入到1×1卷积层中以获得全局变形特征。第四个子模块(图中的橙色)使用两层卷积网络来预测控制点P ∈ R 2×31×31。31 × 31 网格上的每个控制点都有跨越整个文档的 (x, y) 坐标,从而形成一个强大的控制点框架,增强不同环境条件和文本类型下的可读性。

(个人感觉整个AECP网络结构就是在DDCP的网络上加了一个CBAM模块,其它部分都一样,包括空洞卷积连接部分!)

2.损失函数

损失函数和DDCP一样,详细可查看我之前的博客—图像处理:文档图像矫正DDCP

https://blog.csdn.net/WiSirius/article/details/135752325?spm=1001.2014.3001.5502

3.数据合成

有效的文档图像矫正需要具有真实和多样变形的训练数据。然而,DDCP方法的训练数据是由两个函数合成的,导致2D网格与真实世界的变形有显著差异。虽然Doc3D数据集为训练数据提供了丰富而逼真的3D变形,但它不能直接用于训练需要2D数据的控制点网络。

为了克服这个限制,提出了一种新方法,通过以下四个步骤合成具有 3D 变形的 2D 训练数据,如图所示。

1)首先从Doc3D数据集中3D图像的点云中采样31x31的控制点,并将其转换为 3D 网格。

2)其次,在 3D 坐标系中随机设置相机距离和拍摄角度,将 3D 网格中的控制点映射到 2D 控制点。

3)第三,通过将扫描图像的参考点映射到 2D 控制点并插值像素来生成具有 3D 变形的 2D 扭曲图像。

4)后,我们在扫描图像中随机添加各种噪声,例如莫尔图案、指纹、阴影等,以丰富具有随机背景的合成图像。所提出的数据合成方法可以生成大量具有真实且多样化的 3D 变形的 2D 训练数据,这对于训练文档图像去扭曲的控制点网络至关重要。

b2630256b5dab043f100a4b20ed2f7cb.png

4.数据增强

虽然 Doc3D 数据集提供了一系列变形,但它缺乏书籍类型的真正卷曲。为了解决这个问题,论文使用公式模拟书籍的卷曲,并添加额外的折叠变形来增强训练数据,从而实现更稳健的模型性能。

b04ce2b8581432c529a557ce669956a2.png

a7e6da2467c00ecd520fedc24114ac67.png

a5a8b75272683e000677fb6a9b17136a.png

7a14a773fd7d954fc0a3acf782b56c56.png

其中仅修改z轴值,0.5为原始z值,di为控制点到最近线的距离,v为控制卷曲程度的超参数。

5.实验结果

15d5386ec3b1c6d3ac09ab6285798cec.png

8787bc130991425c2264ccb4d7749709.png

总结

个人感觉DocReal结合了paperedge中Enet和DDCP中的控制点思想还是个挺有意思的想法。文章造数据的方法倒是很值得关注,文档矫正很重要的一点是数据精确性,文章造数据的方法很大程度扩充了矫正数据。

机器学习算法AI大数据技术

 搜索公众号添加: datanlp

c0e8b0401249e0864f2a1d427abc57b5.jpeg

长按图片,识别二维码


阅读过本文的人还看了以下文章:

TensorFlow 2.0深度学习案例实战

基于40万表格数据集TableBank,用MaskRCNN做表格检测

《基于深度学习的自然语言处理》中/英PDF

Deep Learning 中文版初版-周志华团队

【全套视频课】最全的目标检测算法系列讲解,通俗易懂!

《美团机器学习实践》_美团算法团队.pdf

《深度学习入门:基于Python的理论与实现》高清中文PDF+源码

《深度学习:基于Keras的Python实践》PDF和代码

特征提取与图像处理(第二版).pdf

python就业班学习视频,从入门到实战项目

2019最新《PyTorch自然语言处理》英、中文版PDF+源码

《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码

《深度学习之pytorch》pdf+附书源码

PyTorch深度学习快速实战入门《pytorch-handbook》

【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》

《Python数据分析与挖掘实战》PDF+完整源码

汽车行业完整知识图谱项目实战视频(全23课)

李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材

笔记、代码清晰易懂!李航《统计学习方法》最新资源全套!

《神经网络与深度学习》最新2018版中英PDF+源码

将机器学习模型部署为REST API

FashionAI服装属性标签图像识别Top1-5方案分享

重要开源!CNN-RNN-CTC 实现手写汉字识别

yolo3 检测出图像中的不规则汉字

同样是机器学习算法工程师,你的面试为什么过不了?

前海征信大数据算法:风险概率预测

【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类

VGG16迁移学习,实现医学图像识别分类工程项目

特征工程(一)

特征工程(二) :文本数据的展开、过滤和分块

特征工程(三):特征缩放,从词袋到 TF-IDF

特征工程(四): 类别特征

特征工程(五): PCA 降维

特征工程(六): 非线性特征提取和模型堆叠

特征工程(七):图像特征提取和深度学习

如何利用全新的决策树集成级联结构gcForest做特征工程并打分?

Machine Learning Yearning 中文翻译稿

蚂蚁金服2018秋招-算法工程师(共四面)通过

全球AI挑战-场景分类的比赛源码(多模型融合)

斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)

python+flask搭建CNN在线识别手写中文网站

中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

7c1f234d0b93aa1105a3903d916bbe50.jpeg

998d84510ec9fd47ba043e9184f71ee1.jpeg

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐