CN111814781B

CN111814781B - 用于对图像块识别结果进行校正的方法、设备和存储介质

Info

Publication number: CN111814781B
Application number: CN201910288895.6A
Authority: CN
Inventors: 夏小洁; 孙俊; 于小亿
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2024-08-27
Anticipated expiration: 2039-04-11
Also published as: JP7487532B2; JP2020173802A; CN111814781A

Abstract

本申请公开了一种用于对图像块的识别结果进行校正的方法和设备以及存储介质。该方法包括：获得识别结果的候选矩阵，该候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；确定树中的要搜索的节点的范围，该树是基于所述树中的每对节点所包含的内容之间的差异的度量来被构建的；以及通过将在所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配，来校正识别结果。

Description

用于对图像块识别结果进行校正的方法、设备和存储介质

技术领域

本公开内容涉及图像校正的领域，并且具体地涉及对图像块的识别结果进行校正的方法。

背景技术

OCR(光学字符识别)技术广泛应用于例如邮政服务、金融、保险、税收等行业，为提高工业及生活效率带来了便利。准确且自动生成的文本识别结果能够提供更多的信息，节约劳动力。利用通用的OCR引擎可以对经过预处理之后的原始文本图像进行识别，得到粗略的识别结果。

发明内容

在下文中给出了关于本公开内容的简要概述，以便提供关于本公开内容的某些方面的基本理解。应当理解，这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分，也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本发明的一个方面，提供了一种用于对图像块的识别结果进行校正的方法，包括：获得识别结果的候选矩阵，其中，候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；确定树中的要搜索的节点的范围，其中，该树是基于树中的每对节点所包含的内容之间的差异的度量来被构建的；以及通过将在所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配，来校正识别结果。

根据本发明的另一个方面，提供了一种用于对图像块的识别结果进行校正的设备，包括：获得装置，其被配置成获得识别结果的候选矩阵，其中，该候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；确定装置，其被配置成确定树中的要搜索的节点的范围，其中，该树是基于树中的每对节点所包含的内容之间的差异的度量来被构建的；以及校正装置，其被配置成通过将在所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配，来校正识别结果。

根据本发明的其它方面，还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。

通过本发明的用于对图像块的识别结果进行校正的方法和设备，使得改进对图像识别结果的校正并且提高校正速度，从而改进了图像识别精度。

通过以下结合附图对本发明的优选实施方式的详细说明，本发明的这些以及其他优点将更加明显。

附图说明

为了进一步阐述本公开内容的以上和其它优点和特征，下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解，这些附图仅描述本公开内容的典型示例，而不应看作是对本公开内容的范围的限定。在附图中：

图1A示出了采用过分割法得到地址图像中各个字符的部分的示例；

图1B示出了使用波束搜索算法得到的粗略识别结果的示例；

图2示出了通过OCR引擎得到的有多个候选的识别结果矩阵的示例；

图3是根据本发明的一个实施方式的用于对图像块的识别结果进行校正的方法的流程图；

图4示意性地示出了BK树的结构；

图5示意性地示出了如何确定BK树中的特定搜索范围；

图6是根据本发明的一个实施方式的用于对图像块的识别结果进行校正的设备的框图；和

图7是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。

具体实施方式

在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤，而省略了与本公开关系不大的其他细节。

如前面所述，利用OCR引擎，可以得到图像的粗略识别结果。然而，受限于OCR引擎的性能，识别结果通常不是特别准确。因此，为了获得更准确的识别结果，并且为了节约劳动力，对识别结果进行自动纠正是令人期望的。

本发明通过提出一种用于对图像中的例如文本的OCR识别结果进行校正的方法改进了图像识别精度。特别地，根据本发明的方法应用距离量度来比较识别结果与现有文本的相似性，同时在校正过程中加快在大型文本库中的搜索过程。

简言之，根据本发明的校正方法包括以下三个阶段：(1)通过OCR引擎获得例如地址的图像的识别结果，将该地址图像分割成若干图像块，并且针对每个图像块提供多个字符候选；(2)构建树来存储现有的准确文本库；(3)在所构建的树中对最佳的匹配识别文本进行搜索来得到最终的校正结果。

下面将结合图3来详细描述根据本发明的一个实施方式的方法300。

方法300开始于步骤301，获得所述识别结果的候选矩阵，其中，所述候选矩阵的每一列代表相对应的图像块的识别结果的多个候选。

具体地，在本实施方式中，可以利用通用OCR引擎获得图像的粗略识别结果。OCR引擎是基于过分割法和波束搜索(beam-Search)方法设计的。为了便于本发明的理解，下面简要介绍这两种方法的基本原理。

过分割法

过分割是指将字符串分割成原语片段，并将原语片段组合成结合字符识别和上下文的字符。它通常分为两个步骤：连通分量标记和粘连字符分割。首先，必须对地址图像进行预处理，如降噪、归一化和二值化。然后，可以获得该地址图像的连通分量。通过对这些连通分量和轮廓线的分析，可以采用过分割法得到地址图像中各个字符的部分，如图1A所示。每个分段可以例如通过训练的卷积神经网络(CNN)模型来识别。

波束搜索算法

在得到地址图像的所有分段和CNN模型的相应识别结果后，可以通过波束搜索算法得到组合结果和最终结果。波束搜索算法是一种路径评估和搜索算法。路径评估函数基于贝叶斯决策，其综合了多种上下文，包括字符分类、几何上下文和语言上下文。不同的组合风格对应不同的路径。一种改进的波束搜索算法将剪枝策略分为两个阶段，使得有效地找到具有最大路径评估得分的路径。最后通过最大得分的路径得到最终的识别结果，如图1B所示。

图2示出了通过以上方法得到的步骤301中的候选矩阵的示例。对于每个图像块，将提供与图2所示的矩阵中每一列相对应的多个字符候选。

优选地，候选矩阵的每一列中的各个候选按照置信度从高到低排列。

接下来，在步骤302中，确定树中的要搜索的节点的范围，其中，基于树中的每对节点所包含的内容之间的差异的度量来构建该树。

具体地，在本实施方式中，可以例如基于BK树结构来构建树，用以存储现有的准确真值文本。

本领域技术人员应理解，在不同的OCR应用场景中，已经存在的领域知识或者真值文本候选通常较容易收集。例如，如果任务是识别发票、收据上的公司名字，则可以从税务部门得到所有注册的合法公司名；如果任务是识别快递单、信封上的地址，则可以从官方邮政系统得到所有准确的地址条目。

在本实施方式中，利用所得到的领域知识，可以优选地基于最长公共子序列(Longest Common Subsequence,LCS)来构建BK树结构，同时使得加快基于BK树的搜索的速度。为了便于本发明的理解，下面简要介绍B树的基本原理。

BK树

BK树是由Walter Austin Burkhard和Robert M.Keller提出的，因此也称为Burkhard-Keller Tree。它主要被用在拼写纠错，模糊匹配和字典中的字符串近似度比较等等。通常使用距离量度d(x,y)来计算BK树邻近节点之间的距离。最常用在BK树中的距离量度是levenshtein距离。该距离也称为编辑距离，即字符串距离量度，以用于比较两个字符序列。编辑距离表示两个由单字符组成的字符串通过插入、删除或替换而转换为对方的最小步数。

用公式表示，两个字符串a,b(字符长度分别是|a|和|b|)之间的编辑距离可ED_a,b(|a|,|b|)表示如下：

当建立BK树的时候，首先选择一个根节点，该根节点可以是任意的元素a。然后计算待插入的节点与该根节点之间的距离。某个节点下的第k层的子树的所有元素与该节点元素之间的距离为k。图4示出了简单的BK树的结构。

根据一个优选的实施方式，可以利用例如最长公共子序列来构建BK树。为了便于本发明的理解，下面简要介绍最长公共子序列。

最长公共子序列

LCS，即最长公共子序列，其用于找到所有序列的最长公共子序列的一组序列(通常只有两个序列)。不同于最长公共子串(Longest Common Substring),连续子序列的位置不一定在原始序列中是相同的。在本实施方式中，LCS用来比较BK树结构中的任意节点元素与特定的字符串。

例如，两个序列如下定义：X＝(x₁,x₂,…,x_m)和Y＝(y₁,y₂,…,y_n)。X的前缀可以表示为X_1,2,...,m，Y的前缀可以表示为_Y1,2,...,n。用LCS(X_i,Y_j)表示前缀为X_i和Y_j得到的最长公共子序列的集合。该集合可以由如下公式计算：

为了找到X_i和Y_j的最长公共子序列，首先比较元素x_i和y_j。如果它们相等，LCS(X_i,Y_j)可以表示为LCS(X_i-1,Y_j-1)加x_i。如果不相等，则LCS(X_i,Y_j)为LCS(X_i,Y_j-1)和LCS(X_i-1,Y_j)中较大的一个。

用一个二维数列C[i][j]来记录LCS(X_i,Y_j)。C[i][j]的递归公式可以表示为：

如之前所述，可以收集一些现有知识领域的OCR应用场景。以日本地址手写识别为例，首先，收集整个日本官方邮局的主干地址作为真值文本地址库。它们是不同的地址条目，例如“北海道札幌市中央区円山西町”、“埼玉県所沢市金山町”、“熊本県玉名郡玉東町原倉”等。接下来选择一个任意的地址串来作为根节点。然后，计算下一个插入的地址串与根节点之间的LCS距离。以此类推，依次将地址库中的所有地址条目组成最终的BK树。

下面详细说明在步骤302中如何确定BK树中的搜索范围。

如上文所述，原始OCR引擎会将识别文本图像分割成多个块，每个块都有多个识别候选。用k表示识别候选的个数。在k个候选中，候选字符排名(rank)越高，则正确的可能性越大。

用二维数列列C[i][j]来记录有多个候选的识别结果矩阵A和BK树中特定的字符串b之间的加权LCS距离。递归公式如下所示：

其中f(i,j)为LCS长度的权重。根据式(4)和(5)，如果识别结果矩阵A中有匹配的字符，且该字符的可能性高，则相应地LCS长度的权重将接近1。相反，如果没有匹配的字符，则LCS长度的权重将非常低，这里作为示例而给出了一个值-999999。

在获取了原始OCR引擎的每个识别块的多字符候选识别结果后，可以在BK树的特定范围内的节点之中搜索最佳匹配字符串，以作为校正结果。图5展示了如何确定BK树中的特定搜索范围。

具体地，在本实施方式中，确定搜索范围的步骤如下:(1)设置一个搜索距离阈值n，其中n是正整数，例如5；(2)计算候选识别结果矩阵A与BK树的根节点之间的LCS长度；(3)将该根节点的所有子节点的父节点与其子节点之间的LCS长度d(A,B)≥n-d的节点添加到搜索范围内。

本领域技术人员应理解，由于n的设置，许多子节点和子树可以在搜索过程中被去除，这使得整个查询过程遍历不超过所有节点的5％到8％，因此效率远高于暴力枚举。

最后，在步骤303中，通过将在所确定的范围内的所有节点所包含的内容与所述候选矩阵进行匹配，来校正所述识别结果。

具体地，在本实施方式中，重复进行上述用于确定搜索范围的步骤(2)、(3)，直到BK树结束。然后，对搜索结果的候选进行排序，LCS长度越大，则对应的匹配度越高。通过这种方式，可以找到最佳匹配的文本作为校正结果。

以上所讨论的方法可以完全由计算机可执行的程序来实现，也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时，或者将计算机可执行的程序载入可运行程序的硬件设备时，则实现了下文将要描述的用于对图像块的识别结果进行校正的设备。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要，但是应当注意，虽然这些设备可以执行前文所描述的方法，但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。

图6示出了根据本发明的一个实施方式的用于对图像块的识别结果进行校正的设备600，其包括获得装置601、确定装置602和校正装置603。其中，获得装置601用于获得所述识别结果的候选矩阵，其中，所述候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；确定装置602用于确定树中的要搜索的节点的范围，其中，所述树是基于所述树中的每对节点所包含的内容之间的差异的度量来被构建的；和校正装置603用于通过将在所确定的范围内的所有节点所包含的内容与所述候选矩阵进行匹配，来校正所述识别结果。

图6所示的用于对图像块的识别结果进行校正的设备600对应于图3所示的方法300。因此，用于对图像块的识别结果进行校正的设备600中的各装置的相关细节已经在对图3的用于对图像块的识别结果进行校正的方法300的描述中详细给出，在此不再赘述。

上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图7所示的通用计算机700)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图7是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图7所示，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等等时所需的数据。CPU 701、ROM 702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706(包括键盘、鼠标等等)、输出部分707(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分708(包括硬盘等)、通信部分709(包括网络接口卡比如LAN卡、调制解调器等)。通信部分709经由网络比如因特网执行通信处理。根据需要，驱动器710也可连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施方式的方法。

相应地，被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

通过以上描述，本公开的实施方式提供了以下的技术方案，但不限于此。

附记1.一种用于对图像块的识别结果进行校正的方法，包括：

获得识别结果的候选矩阵，其中，该候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；

确定树中的要搜索的节点的范围，其中，该树是基于树中的每对节点所包含的内容之间的差异的度量来被构建的；以及

通过将在所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配，来校正识别结果。

附记2.如附记1的方法，其中，候选矩阵的每一列中的各个候选按照置信度从高到低排列。

附记3.如附记1或2的方法，其中，树是基于最长公共子序列LCS来被构建的，并且其中，差异的度量是LCS长度。

附记4.如附记3的方法，其中，确定树中的要搜索的节点的范围还包括：

计算树中的根节点所包含的内容和候选矩阵之间的加权LCS长度与预定阈值之间的差值；和

将具有大于或等于该差值的LCS长度的子节点包含在搜索范围中。

附记5.如附记4的方法，其中，在匹配的情况下，加权LCS长度的权重基于针对相应的图像块所选取的候选的数目以及候选矩阵中的待匹配的候选在所选取的候选数目中的排序。

附记6.如附记4的方法，其中，在不匹配的情况下，权重为负无穷。

附记7.如附记5或6的方法，其中，将所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配还包括：计算在搜索范围内的每个节点所包含的内容与候选矩阵之间的加权LCS长度。

附记8.如附记7的方法，其中，校正识别结果还包括：基于所计算的搜索范围内的每个节点所包含的内容与候选矩阵之间的一个或更多个加权LCS长度，校正识别结果。

附记9.如附记1或2的方法，其中，该树是Burkhard-Keller树。

附记10.如附记1或2的方法，其中，识别结果是通过光学字符识别(OCR)引擎来获得的。

附记11.如附记10的方法，其中，OCR引擎利用过分割法和波束搜索算法。

附记12.一种用于对图像块的识别结果进行校正的设备，包括：

获得装置，其被配置成获得识别结果的候选矩阵，其中，该候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；

确定装置，其被配置成确定树中的要搜索的节点的范围，其中，该树是基于树中的每对节点所包含的内容之间的差异的度量来被构建的；以及校正装置，其被配置成通过将在所确定的范围内的所有节点所包含的内容与候选矩阵进行匹配，来校正识别结果。

附记13.如附记12的设备，其中，候选矩阵的每一列中的各个候选按照置信度从高到低排列。

附记14.如附记12或13的设备，其中，树是基于最长公共子序列LCS来被构建的，并且其中，差异的度量是LCS长度。

附记15.如附记14的设备，其中，确定装置还被配置成：

附记16.如附记15的设备，其中，在匹配的情况下，加权LCS长度的权重基于针对相应的图像块所选取的候选的数目以及候选矩阵中的待匹配的候选在所选取的候选数目中的排序。

附记17.如附记15的设备，其中，在不匹配的情况下，权重为负无穷。

附记18.如附记16或17的设备，其中，校正装置还被配置成：

基于所计算的搜索范围内的每个节点所包含的内容与候选矩阵之间的一个或更多个加权LCS长度，校正识别结果。

附记19.如附记12或13的设备，其中，该树是Burkhard-Keller树。

附记20.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上虽然结合附图详细描述了本发明的实施方式，但是应当明白，上面所描述的实施方式只是被配置为说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1.一种用于对图像块的识别结果进行校正的方法，包括：

获得所述识别结果的候选矩阵，其中，所述候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；

确定树中的要搜索的节点的范围，其中，所述树是基于所述树中的每对节点所包含的内容之间的差异的度量来被构建的；以及

通过将在所确定的范围内的所有节点所包含的内容与所述候选矩阵进行匹配，来校正所述识别结果，

其中，所述树是基于最长公共子序列LCS来被构建的，并且其中，所述差异的度量是LCS长度，以及

其中，确定树中的要搜索的节点的范围还包括：

计算所述树中的根节点所包含的内容和所述候选矩阵之间的加权LCS长度与预定阈值之间的差值；和

将具有大于或等于所述差值的LCS长度的子节点包含在所述范围中。

2.根据权利要求1所述的方法，其中，所述候选矩阵的每一列中的各个候选按照置信度从高到低排列。

3.根据权利要求1或2所述的方法，其中，所述加权LCS长度通过如下计算：

在匹配的情况下，所述加权LCS长度的权重基于针对相应的图像块所选取的候选的数目以及所述候选矩阵中的待匹配的候选在所选取的候选数目中的排序；和

在不匹配的情况下，所述权重为负无穷。

4.根据权利要求3所述的方法，其中，将所确定的范围内的所有节点所包含的内容与所述候选矩阵进行匹配还包括：计算在所述范围内的每个节点所包含的内容与所述候选矩阵之间的加权LCS长度。

5.根据权利要求4所述的方法，其中，校正所述识别结果还包括：基于所计算的所述范围内的每个节点所包含的内容与所述候选矩阵之间的一个或更多个加权LCS长度，校正所述识别结果。

6.根据权利要求1或2所述的方法，其中，所述树是Burkhard-Keller树。

7.一种用于对图像块的识别结果进行校正的设备，包括：

获得装置，其被配置成获得所述识别结果的候选矩阵，其中，所述候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；

确定装置，其被配置成确定树中的要搜索的节点的范围，其中，所述树是基于所述树中的每对节点所包含的内容之间的差异的度量来被构建的；以及

校正装置，其被配置成通过将在所确定的范围内的所有节点所包含的内容与所述候选矩阵进行匹配，来校正所述识别结果，

其中，所述确定装置还被配置成：

8.一种计算机可读存储介质，所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序：

获得图像块的识别结果的候选矩阵，其中，所述候选矩阵的每一列代表相对应的图像块的识别结果的多个候选；

其中，确定树中的要搜索的节点的范围还包括：