2024年最新深度学习在文档矫正中的应用_弯曲文档校正(1)，最新阿里C C++高级面试题及答案

在我们日常生活中，扫描文档通常无法完整把整个文档拍下来，或者拍出一个规范的矩形，会遇到各种各样的问题，导致扫描的图像有一定形变。这里以小王为例，首先会找到扑克（文档）的四个角的坐标，这里会使用到各种图像处理的办法，图像梯度、边缘检测等算法。我们可以根据左图红框的四点坐标和右图红框的四点坐标得到一个变换矩阵，然后对原图进行仿射变换，得到矫正后的图像。我们可以让原图和偏移场做类似仿射变换的操作，即对原

2401_84973548

509人浏览 · 2024-05-14 15:39:15

2401_84973548 · 2024-05-14 15:39:15 发布

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2.1、形变文档

在我们日常生活中，扫描文档通常无法完整把整个文档拍下来，或者拍出一个规范的矩形，会遇到各种各样的问题，导致扫描的图像有一定形变。这里主要包括弯曲、折叠、褶皱、透视、旋转等。计算机处理规范的文稿非常简单，但是当我们简单把文稿旋转后就会出现一些问题。而面对其它更复杂的变换时，扫描的工作就变得更加困难。

下面左图是计算机比较容易处理的情况，而在处理右侧几张图时，结果不是那么理想。

在这里插入图片描述

为了方便识别，我们会对发生形变的图像进行矫正。这里我们来对比一下传统矫正方法和基于深度学习的矫正方法。

2.2、传统办法

在深度学习流行前，就已经有了相关的对策来解决文档形变的问题。比如下图的扑克牌，有旋转、透视等问题。我们希望可以扑克以一个近似完美矩形的形式单独展现出来。

这里以小王为例，首先会找到扑克（文档）的四个角的坐标，这里会使用到各种图像处理的办法，图像梯度、边缘检测等算法。然后估计扑克的宽高。然后我们可以把图像还原的过程理解为下图：

我们可以根据左图红框的四点坐标和右图红框的四点坐标得到一个变换矩阵，然后对原图进行仿射变换，得到矫正后的图像。之后再对矫正后的图像进行文字识别，这样得到的结果要更加精确。

在上面的例子中，我们对每个像素点进行同样的变换，这样可以很好地解决透视问题。如果面对更加复杂的形变，比如弯曲、折叠等。我们还需要对上面的处理进行调整。

使用传统的办法可以在一定程度上复原图像，但是真实情况远比上面要复杂的多，使用传统办法会遇到各种问题。

三、基于偏移场的方法

深度学习提供了一种新的方法可以对图像进行形变矫正。这个方法类似于上面的仿射变换，但是变换矩阵的获取是通过深度学习来得到的，我们把这个变换矩阵叫做“偏移场”。

3.1、偏移场

偏移场是一个带有方向和大小的图像，它类似于图像梯度。下图是一个偏移场的例子。

偏移场的形状与图像相同，偏移场中每个箭头都是一个向量，包含方向和大小信息。即图像对应位置需要往那个方向偏移，以及偏移量。

在实际操作时会训练一个神经网络，将形变图像作为输入，然后输出偏移场。如下图所示：
在这里插入图片描述

得到偏移场后我们就可以对图像进行矫正。

3.2、文档矫正

我们可以让原图和偏移场做类似仿射变换的操作，即对原图每个像素进行对应的偏移，然后就可以得到矫正后的图像。偏移操作图示如下：

在这里插入图片描述

在上面的例子中，原图只是局部形变这种问题使用传统方法难以处理，而使用偏移场的方式却可以简单解决。相比传统的仿射变换，偏移场可以对每个像素做不同的变换，从而进行更灵活的调整。想褶皱、弯曲等问题可以很好地解决。

有时候矫正后的文档会有部分空缺，因此完整的修复过程还会添加一个填充的操作。填充的方式也有很多，其中一种就是用Inpatienting网络对其填充。具体骤如下：

在这里插入图片描述

现在扫描文稿已经能做到非常智能、可以识别各种复杂文稿。包括手写文稿、词云图片、表格等。这里以合合信息智能文字识别服务平台TextIn为例子，体验一下文稿扫描的功能。

四、实际体验

4.1、规范图片、文稿

我们可以在TextIn体验我们文字识别相关的功能。我们先测试相对标准的图像。这里使用一个表格图像进行测试。

在这里插入图片描述

左侧是用来识别的图像，右侧是识别结果。内容被完美识别出来了，右侧内容可以直接复制。

Vehicledepartment用车部门合合信息 Transporttime用车时间 2020年5月20日 Number ofpassengers乘车人数 14人

Destination目的地上海静安区市北·云立方

Contact联系人合小合 contactnumber联系电话 18888888888 Driver drive safely and on time司机驾车安全、准时性

Car reason(用车事由):公务出行 drive safely安全驾驶pick-up on time接送准时(Check after the car is finished bythe rider.由乘车人用车结束后勾选)

License plate number 车牌号沪M888888 Driver’s name 司机姓名合小安 contact number联系电话021-88888888 Pick-Up Locations 接送地点上海工业园区88号

Person incharge audit用车部门负责人刘杨 Administrativemanager行政部负责人杨周

Vehicledepartment用车部门	合合信息	Transporttime用车时间	2020年5月20日	Number ofpassengers乘车人数
Destination目的地	上海静安区市北·云立方
Contact联系人	合小合	contactnumber联系电话	18888888888	Driver drive safely and on time司机驾车安全、准时性
Car reason(用车事由):公务出行	drive safely安全驾驶pick-up on time接送准时(Check after the car is finished bythe rider.由乘车人用车结束后勾选)
License plate number 车牌号沪M888888	Driver’s name 司机姓名合小安	contact number联系电话021-88888888	Pick-Up Locations 接送地点上海工业园区88号
Person incharge audit用车部门负责人	刘杨	Administrativemanager行政部负责人	杨周

4.2、拍摄文稿

通常文稿扫描都是使用拍摄图片进行。接下来我们尝试用自己拍摄的图像来进行测试，拍照时人为添加一些困难。左侧是被识别图像，这里认为制造了阴影、褶皱等，加大识别难度。右侧则是识别结果，可以看出大致内容被正常识别出来了。

在这里插入图片描述

下面是一部分内容：

以下五个部分:

(1)采样孔:使数字化设备实现对特定图像元素的观测,不受图像其他部分的影响。

(2)图像扫描机构:使采样孔按照预先定义的方式在图像上移动,从而按顺序观测每

一个像素。

(3)光传感器:通过采样检测图像的每一个像素的亮度,通常采用CCD阵列。

(4)量化器:将光传感器输出的连续量转化为整数值。典型的量化器是A/D转换电

路,它产生一个与输入电压或电流成比例的数值。