CN116630984A

CN116630984A - 一种基于印章去除的ocr文字识别方法及系统

Info

Publication number: CN116630984A
Application number: CN202310677858.0A
Authority: CN
Inventors: 梁果敢; 胡代国; 王元婴; 宗云兵
Original assignee: Jinxiandai Information Industry Co ltd
Current assignee: Jinxiandai Information Industry Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-08-22
Anticipated expiration: 2043-06-07
Also published as: CN116630984B

Abstract

本发明涉及光学字符识别技术领域，提供了一种基于印章去除的OCR文字识别方法及系统，包括：基于目标图像，得到第一印章区域和印章是否覆盖文字的第一类别信息；以第一印章区域作为掩膜，使用印章颜色区间，去除掩膜中的印章后，得到第二图像，对第二图像进行印章检测，得到第二印章区域和第二类别信息后，对第二印章区域进行裁剪，获得多个包含印章的子图片，并基于第二类别信息，通过深度学习模型，去除子图片中的印章；对第二图像进行二值化，得到第三图像，并将去除印章后的子图像合并到第三图像上后，检测出文本区域，并进行文字识别；使用语义纠正对文字识别结果进行纠正，得到最终文字识别结果。提高了OCR识别结果的准确性。

Description

一种基于印章去除的OCR文字识别方法及系统

技术领域

本发明属于光学字符识别技术领域，尤其涉及一种基于印章去除的OCR文字识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

现在的OCR技术已经相当成熟，在票据、证件、电子文档等多个领域都有不少应用。但在某些审核材料、证明材料或税务票据等场景下，图像上除了有需要识别的文字，还往往盖着章，有可能对待识别文字进行遮挡，影响识别的准确率，因此在识别文字之前需要把印章干扰去除掉。

传统的去除印章方法主要是根据RGB颜色空间或者HSV颜色空间通过印章与文字的颜色不同加以去除，对于印章颜色与文字颜色相近、很难区分的情况无能为力。有时文字颜色虽然看着与印章颜色有明显区分，但文字的边缘部分某些像素点的RGB通道值跟印章颜色是相同或相近的，使用颜色空间去除印章会对待识别文字造成影响，影响OCR识别结果。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种基于印章去除的OCR文字识别方法及系统，结合深度学习模型和传统颜色空间，保证印章去除精度的同时提高了印章去除的泛化性，同时使用语义纠正对OCR识别结果进行后处理，进一步提高了OCR识别结果的准确性。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种基于印章去除的OCR文字识别方法，其包括：

获取目标图像；

基于所述目标图像，采用目标检测网络，得到第一印章区域和印章是否覆盖文字的第一类别信息；

以第一印章区域作为掩膜，使用印章颜色区间，去除掩膜中的印章后，得到第二图像，对第二图像进行印章检测，得到第二印章区域和第二类别信息后，对第二印章区域进行裁剪，获得多个包含印章的子图片，并基于第二类别信息，通过深度学习模型，去除子图片中的印章；

对第二图像进行二值化，得到第三图像，并将去除印章后的子图像合并到第三图像上后，检测出文本区域，并进行文字识别；

使用语义纠正对文字识别结果进行纠正，得到最终文字识别结果。

进一步地，使用统计获得的印章HSV颜色区间，去除掩膜中的印章后，得到第二图像。

进一步地，若所述第二类别信息为印章未覆盖文字，将子图片像素值置为255。

进一步地，若所述第二类别信息为印章覆盖文字，所述深度学习模型对每个像素进行分类，确定每个像素属于文字还是其它类别，将文字类别的像素点置为0，其它类别的像素点置为255，实现印章的去除。

进一步地，使用基于高斯加权平均的自适应阈值算法对第二图像进行二值化。

进一步地，对所述识别结果，使用生成式预训练语言模型，根据句子上下文判断某个字在句子中出现的可能性，将句子分为通顺的句子和不通顺的句子。

进一步地，对不通顺的句子，从左到右，根据上文，计算每个位置的下一个字符出现的概率，当概率小于预设阈值时，认为该位置是需要进行纠正的位置，得到第一位置集合；同时，从右到左，根据下文，计算每个位置的上一个字符出现的概率，当概率小于预设阈值时，认为该位置是需要进行纠正的位置，得到第二位置集合；取第一位置集合和第二位置集合的相同部分，作为待修改部分，并使用语言模型根据上文预测待修改部分的字符。

本发明的第二个方面提供一种基于印章去除的OCR文字识别系统，其包括：

数据获取模块，其被配置为：获取目标图像；

印章检测模块，其被配置为：基于所述目标图像，采用目标检测网络，得到第一印章区域和印章是否覆盖文字的第一类别信息；

印章去除模块，其被配置为：以第一印章区域作为掩膜，使用印章颜色区间，去除掩膜中的印章后，得到第二图像，对第二图像进行印章检测，得到第二印章区域和第二类别信息后，对第二印章区域进行裁剪，获得多个包含印章的子图片，并基于第二类别信息，通过深度学习模型，去除子图片中的印章；

文字识别模块，其被配置为：对第二图像进行二值化，得到第三图像，并将去除印章后的子图像合并到第三图像上后，检测出文本区域，并进行文字识别；

语义纠正模块，其被配置为：使用语义纠正对文字识别结果进行纠正，得到最终文字识别结果。

本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于印章去除的OCR文字识别方法中的步骤。

本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于印章去除的OCR文字识别方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明提供了一种基于印章去除的OCR文字识别方法，其在OCR文字识别之前首先需要将印章检测出来并加以去除，本实施例使用的去除方法结合了基于Swin Transformer的UNet深度学习模型和传统HSV颜色空间，保证去除精度的同时提高了印章去除的泛化性；同时使用语义纠正对OCR识别结果进行后处理，进一步提高了OCR识别结果的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例一的一种基于印章去除的OCR文字识别方法的流程图；

图2是本发明实施例二的一种基于印章去除的OCR文字识别系统的功能模块图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

术语解释：

OCR：OCR(Optical Character Recognition)是光学字符识别的缩写，是指利用计算机和光学设备等技术将印刷体字符扫描转化为计算机可以识别的文字的过程。

HSV：HSV是一种颜色空间，代表色相、饱和度和亮度。HSV是由Hue(色相)、Saturation(饱和度)和Value(明度)三个分量组成的，可以用来描述颜色的属性。在HSV中，色相表示颜色在色轮上的位置，饱和度表示颜色的纯度，亮度表示颜色的明暗程度。

RGB：RGB是红绿蓝(Red Green Blue)的缩写，是一种加色法，是数字设备(如电脑显示器、数码相机)采用的颜色模式。在RGB模式下，每种颜色的强度可以用0-255之间的数字来表示，三种颜色的组合可以形成16777216种不同的颜色。这种颜色模式最常用于电子设备上的彩色显示。

Swin Transformer：Swin Transformer是一种基于Transformers架构的神经网络模型，它是由微软亚洲研究院(Microsoft Research Asia)开发的，可以用于图像分类、目标检测和语义分割等计算机视觉任务。

UNet：UNet是一种基于卷积神经网络的图像分割模型，通常用于语义分割任务，即将图像中的每个像素分配到相应的类别中。

CSPDarknet67：CSPDarknet67是一种轻量级的卷积神经网络模型，常用于目标检测和图像分类任务。它是在Darknet框架上进行改进的，使用了CSP(Cross Stage Partial)模块来降低模型参数量，同时提高模型的准确率和速度。

Yolov5：Yolov5是一种目标检测算法，是在Yolov4的基础上进行改进和优化的。它采用了一种基于anchor的目标检测方法，能够实现快速高效的目标检测任务。

Swin-UNet:Swin-UNet是一种结合了Swin Transformer和UNet架构的图像分割模型，它在Swin Transformer的基础上使用了解码器和编码器，可以将输入图像分割成多个像素级别的子区域，以获得更准确的语义分割结果。

DB算法：DB(Differentiable Binarization)算法全称可微分二值化处理，基于分割的场景文本检测即把分割方法产生的概率图(热力图)转化为边界框和文字区域。

SVTR算法：传统的文字识别算法通常包含两个模块，即用以提取特征的视觉模块(如CNN，MHSA)，以及用于输出文本的序列模块(如RNN，Attention)。SVTR是基于单个视觉模型的场景文字识别算法，在中英文文字场景识别上都取得了较好的效果。

BCE Loss：二元交叉熵损失函数，用于二分类任务。

Cross Entropy Loss：交叉熵损失函数，既可用于二分类又可用于多分类任务。

Smooth L1 Loss：平滑般的L1损失函数，结合了L1和L2的优点，修改了零点不平滑问题，且比L2 loss对异常值的鲁棒性更强。

GIoU Loss：对常规IoU损失的改进，用于横量模型对于边界框的精确度和回归能力，它不仅考虑了目标边界框之间的IoU，还考虑了目标边界框之间的重叠度和边界框之间的面积差值，从而提高了目标检测的准确性和稳定性。

掩膜：在原图像上选定一块或多块区域对图像进行遮挡，来控制图像处理的区域，选区的区域称为掩膜。

高斯加权平均：高斯加权平均是一种特殊的加权平均，它使用其系数近似高斯分布的模板，因而得名。

二值化：根据所给定的阈值将图像上各像素点置为0或255的过程。

实施例一

本实施例提供了一种基于印章去除的OCR文字识别方法。

本实施例提供的一种基于印章去除的OCR文字识别方法，为了提高OCR的识别结果的准确性，在OCR文字识别之前首先需要将印章检测出来并加以去除，本实施例使用的去除方法结合了基于Swin Transformer的UNet深度学习模型和传统HSV颜色空间，保证去除精度的同时提高了印章去除的泛化性；同时使用语义纠正对OCR识别结果进行后处理，进一步提高OCR识别结果的准确性。

本实施例提供的一种基于印章去除的OCR文字识别方法，如图1所示，包括以下步骤：

步骤1、数据生成：

获取目标图像，即需要进行文字识别的图像。

作为一种实施方式，根据获取到的少量真实样例，使用HSV颜色空间阈值获取只包含印章的图片和背景图。使用PIL库在背景图上生成文字，随机选取一到多个印章覆盖在图片的不同位置，形成模型训练所用的有印章图片以及对应的没有印章的图片，同时生成对应图片的配置文件，包含印章所在区域中心坐标(x,y)，印章宽高w和h，印章是否覆盖文字(0或1)。

步骤2、印章检测：

使用由CSPDarknet53作为骨干网络和三个不同尺度的特征层和检测层组成的Yolov5目标检测网络进行印章检测。检测的同时将目标分为遮盖文字和不遮盖文字两类。

训练过程中使用BCE Loss作为目标检测损失，用于衡量模型对于目标检测的二元分类任务的准确性；

其中，N表示图片中预测目标数，x_i是模型预测的第i个目标的置信度，y_i是其对应的标签(0或1)。

Cross Entropy Loss作为目标分类损失，用于横量模型对物体分类任务的准确性：

其中，N表示图像中检测出的印章个数，C表示印章的类别数，y_i,j是第i个印章属于第j类的标签值(0或1)。

采用Smooth L1 Loss的形式衡量模型对于目标边界框回归任务的准确性；

其中，x,y,w,h分别是检测到印章的中心点坐标和宽高，anchors为预先设定的锚定框，objects是图片中所有检测物体。

使用GIoU Loss用于横量模型对于边界框的精确度和回归能力，它不仅考虑了目标边界框之间的IoU，还考虑了目标边界框之间的重叠度和边界框之间的面积差值，从而提高了目标检测的准确性和稳定性：

其中，GIoU是预测框和真实框之间的广义交并比，c是一个规范化因子，用于规范化GIoU的范围，表示预测框和真实框之间的相交部分的面积，/>表示它们的联合部分的面积，/>表示它们的对角线面积的平方。

对于预测出的检测框使用非极大值抑制确定最终的检测框。

模型预测时不仅返回印章的相对位置信息(第一位置信息)，还返回印章是否覆盖文字的类别信息(第一类别信息)。对于一幅宽高为w_img、h_img的输入图片img，检测到某印章的中心点坐标为x、y，宽高为w、h，模型预测时返回位置信息(x/w_img,y/h_img,w/w_img,h/h_img)，位置信息并不用随图像大小变化而改变。

步骤3、印章去除：

印章检测完毕后，首先根据检测到的印章位置信息，以印章区域(第一印章区域，其以x/w_img,y/h_img为中心，以w/w_img,h/h_img为宽高)作为掩膜，使用统计获得的印章HSV颜色区间(根据获取到的少量真实样例及扩增后的图像统计)，去除掩膜中可能存在的印章，得到第二图像img2(针对去除掩膜中的印章后的原始图像，使用颜色区间，因为部分印章可能无法通过颜色区间去除，所以需要再次进行行检测)。然后对img2进行印章检测(与步骤2的印章检测方法一致)，获取使用HSV颜色空间去除后仍存在的印章的位置信息(即第二位置信息)和类别信息。

基于第二类别信息，对第二次检测到的印章区域(即第二印章区域)进行裁剪，获得多个包含印章的小图片(子图片)，并使用基于高斯加权平均的自适应阈值算法对img2图像进行二值化得到黑白图像img3(第三图像)，二值化方法具体如下：

1)使用滑动窗口将图像分割成23×23的窗口；

2)计算窗口中像素值的标准差作为该窗口的高斯函数标准差σ；

3)计算窗口中每个像素点的权重：

其中，x0,y0为中心点坐标，x,y为待计算点的坐标；

4)计算加权平均值T：

其中，s＝11，w_i,j是(i,j)坐标处的权重，I(i,j)是坐标的像素值；

5)将T-30作为当前窗口的阈值t，当该窗口中心值(x,y)坐标像素值大于等于t时，将其改为255，否则改为0。

图像边缘无法通过窗口计算阈值时，使用距该像素点最近的像素点阈值代替。

然后对检测到的印章小图片类别进行判定，如果印章没有遮盖文字，则将该小图片像素值置为255；如果遮盖了文字，则使用基于Swin Transformer的图像分割模型(即深度学习模型)将印章去除，保留文字信息。

深度学习模型中使用Swin Transformer提取高级特征，使用UNet生成预测掩码，对每个像素进行分类，确定每个像素点属于文字还是其它类别，将文字类别的像素点置为0，其它类别的像素点置为255，实现印章的去除。

相比传统的UNet，Swin-Unet可以从多个颜色空间通道提取特征，还能通过多尺度特征提取和跨阶段连接技术来提高图像分割的精度和效率。

将去除印章后的小图像合并到img3上对应的位置得到img4。因为小图像是根据检测到的印章矩形框裁剪的得到的，会记录其位置信息；图像数据是一个二维矩阵，因此合并时只需要将小图像的矩阵数据替换img3对应位置的数据即可。

步骤4、文字识别：

使用基于DB算法的文本检测模型检测出二值化后的图像img4中的文本区域，然后用基于SVTR的文本识别模型对img4识别文字，最终将原始图像中的文字及其坐标返回出来。

步骤5、语义纠正。

当印章几乎完全将文字覆盖时，印章去除过程中势必会将部分文字信息去除，影响后续的OCR识别，造成识别结果不准确。同时因为OCR文字识别模型不能保证100％的准确率，因此直接使用OCR识别结果会有风险，使用语义纠正模型对识别结果进行纠正能较好地提高结果准确率，降低风险。

使用生成式预训练语言模型根据句子上下文判断某个字在句子中出现的可能性，将句子分为通顺的句子和不通顺的句子。

对不通顺的句子从左到右根据上文计算下一个字符出现的概率p_next，当p_next小于预设阈值p₀时，认为该位置是需要进行纠正的位置，记录位置s_i，表示第i个需要修改的位置。然后从s_i下一个字符开始重复上述过程，得到第一位置集合。

类似地，同时从右到左根据下文计算上一个字符出现的概率p_pre，记录需要纠正的位置，得到第二位置集合。

取两个位置集合中的相同部分作为最终需要修改的部分。使用语言模型根据上文预测待修改部分可能的字符，然后使用分类模型(即生成式预训练语言模型)重新判断是否通顺，如果通顺，则认为修改成功，否则继续修改。

将修改完的结果作为最终的识别结果进行输出。

本实施例提供的一种基于印章去除的OCR文字识别方法，在OCR文字识别之前首先对可能影响到识别结果的印章进行了去除。去除方法采用了传统HSV颜色空间和深度学习相结合的方式，在保证去除效果的同时具有很高的泛化性。

本实施例提供的一种基于印章去除的OCR文字识别方法，还使用语言模型对OCR识别结果进行了纠正，设定较高的修改阈值，不对正确结果进行修改，进一步保证了文字识别的准确性。

实施例二

本实施例提供了一种基于印章去除的OCR文字识别系统，如图2所示，其具体包括：

(1)数据生成模块(即数据获取模块)。

根据少量真实样本，获取各种不同的印章和背景，通过背景和印章随机组合生成新图片，并在新图片上生成文字形成训练数据。根据预先构建的模型结构和生成的数据，训练模型。

(2)印章检测模块。

对输入图像做归一化处理，调整图像大小和通道数，采用以CSPDarknet67为骨干网络的Yolov5检测印章，返回印章区域的坐标位置和印章类别。

(3)印章去除模块。

对检测到的印章区域进行裁剪，根据检测到印章的类别，采用不同的方法将印章去除，并保留文字信息。

首先使用颜色空间的区间阈值去除与文字颜色区分度较大的印章，然后再次进行印章检测。当第二次检测到的印章没有遮盖文字时，则直接将该区域置为白色背景；当印章遮盖到文字时，使用Swin-UNet模型去除。印章去除后，对原图片进行二值化，然后将裁剪去除印章后的图片重新拼接回图片中，完成印章去除。

(4)文字识别模块。

首先使用DB算法的模型进行文本检测，确定图像中文本所在区域，然后对文本区域进行裁剪，使用SVTR算法的模型对裁剪出来的文字图像进行识别。返回图像中所有文字的区域坐标和识别出的文字内容。

(5)语义纠正模块。

当部分文字被印章遮盖严重时，印章去除时仍有可能会影响到文字，对OCR识别结果造成影响。因此需要使用语言模型对OCR识别结果进行纠正，使文字识别结果更加准确。

此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的一种基于印章去除的OCR文字识别方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的一种基于印章去除的OCR文字识别方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于印章去除的OCR文字识别方法，其特征在于，包括：

获取目标图像；

2.如权利要求1所述的一种基于印章去除的OCR文字识别方法，其特征在于，使用统计获得的印章HSV颜色区间，去除掩膜中的印章后，得到第二图像。

3.如权利要求1所述的一种基于印章去除的OCR文字识别方法，其特征在于，若所述第二类别信息为印章未覆盖文字，将子图片像素值置为255。

4.如权利要求1所述的一种基于印章去除的OCR文字识别方法，其特征在于，若所述第二类别信息为印章覆盖文字，所述深度学习模型对每个像素进行分类，确定每个像素属于文字还是其它类别，将文字类别的像素点置为0，其它类别的像素点置为255，实现印章的去除。

5.如权利要求1所述的一种基于印章去除的OCR文字识别方法，其特征在于，使用基于高斯加权平均的自适应阈值算法对第二图像进行二值化。

6.如权利要求1所述的一种基于印章去除的OCR文字识别方法，其特征在于，对所述识别结果，使用生成式预训练语言模型，根据句子上下文判断某个字在句子中出现的可能性，将句子分为通顺的句子和不通顺的句子。

7.如权利要求6所述的一种基于印章去除的OCR文字识别方法，其特征在于，对不通顺的句子，从左到右，根据上文，计算每个位置的下一个字符出现的概率，当概率小于预设阈值时，认为该位置是需要进行纠正的位置，得到第一位置集合；同时，从右到左，根据下文，计算每个位置的上一个字符出现的概率，当概率小于预设阈值时，认为该位置是需要进行纠正的位置，得到第二位置集合；取第一位置集合和第二位置集合的相同部分，作为待修改部分，并使用语言模型根据上文预测待修改部分的字符。

8.一种基于印章去除的OCR文字识别系统，其特征在于，包括：

数据获取模块，其被配置为：获取目标图像；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于印章去除的OCR文字识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于印章去除的OCR文字识别方法中的步骤。