WO2019071660A1

WO2019071660A1 - 票据信息识别方法、电子装置及可读存储介质

Info

Publication number: WO2019071660A1
Application number: PCT/CN2017/108735
Authority: WO
Inventors: 王健宗; 韩茂琨; 刘鹏; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-10-09
Filing date: 2017-10-31
Publication date: 2019-04-18
Anticipated expiration: 2020-04-09
Also published as: CN107798299A; CN107798299B

Abstract

本申请涉及一种票据信息识别方法、电子装置及可读存储介质，该方法包括：根据预先确定的待识别字段与区域识别模型的映射关系，确定票据图片中各个待识别字段对应的区域识别模型，调用对应的区域识别模型对票据图片的行字符区域进行区域识别，从票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别。本申请能降低票据信息识别的错误率。

Description

票据信息识别方法、电子装置及可读存储介质

本申请基于巴黎公约申明享有2017年10月9日递交的申请号为CN201710930679.8、名称为“票据信息识别方法、电子装置及可读存储介质”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请涉及计算机技术领域，尤其涉及一种票据信息识别方法、电子装置及可读存储介质。

背景技术

如今随着经济的发展和人们生活水平的提高，越来越多的人选择购买医疗、商业、金融等保险。为了改善用户的保险理赔体验，提升保险理赔效率，目前，有些保险公司推出了自助理赔业务，比如用户在进行医疗保险理赔过程中，只需要将门诊或住院票据拍照上传到保险公司系统，保险公司业务员会将用户上传的票据图片上的信息录入到理赔系统中，以进行下一步操作，这种自助理赔方式大大方便了用户进行理赔的过程，然而，这种自助理赔方式在带来了便捷的理赔过程的同时，却增加了保险公司业务人员的工作压力，问题主要表现在需要花费大量的人力来处理用户上传的票据图像，效率低下，且数据录入的错误率居高不下。

发明内容

本申请的目的在于提供一种票据信息识别方法、电子装置及可读存储介质，旨在提高票据信息识别效率和降低票据信息识别的错误率。

为实现上述目的，本申请第一方面提供一种电子装置，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的票据信息识别系统，所述票据信息识别系统被所述处理器执行时实现如下步骤：

在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；

根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。

此外，为实现上述目的，本申请第二方面提供一种票据信息识别方法，所述票据信息识别方法包括：

步骤一、在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；

步骤二、根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。

进一步地，为实现上述目的，本申请第三方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有票据信息识别系统，所述票据信息识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如下步骤：

本申请提出的票据信息识别方法、系统及可读存储介质，通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别，识别出包含字符信息且固定宽度为预设值的小框，并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域，调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度，这样，可以将字符信息具体到更小的子区域，并对包含字符信息的各个子区域有一个很好的逼近，在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多，从而降低票据信息识别的错误率。

附图说明

图1为本申请票据信息识别系统10较佳实施例的运行环境示意图；

图2为本申请票据信息识别方法一实施例的流程示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本申请提供一种票据信息识别系统。请参阅图1，是本申请票据信息识别系统10较佳实施例的运行环境示意图。

在本实施例中，所述的票据信息识别系统10安装并运行于电子装置1中。该电子装置1可包括，但不仅限于，存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器11至少包括一种类型的可读存储介质，所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据，例如所述票据信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或处理数据，例如执行所述票据信息识别系统10等。

所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面，例如待处理的票据图片、识别出的字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。

所述票据信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令，该至少一个计算机可读指令可被所述处理器12执行，以实现本申请各实施例。

其中，上述票据信息识别系统10被所述处理器12执行时实现如下步骤：

步骤S1，在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。

本实施例中，票据信息识别系统10接收用户通过终端设备2发送的待识别处理的票据图片，该票据图片包括与医疗、商业、金融等保险相关的票据图片，如门诊或住院票据图片。例如，接收用户在手机、平板电脑、自助终端设备等终端设备中预先安装的客户端上发送来的票据图片，或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的票据图片。

预先根据待识别字段的不同类型预设有与之对应的区域识别模型，例如，针对文本类字段对应预设有第一识别模型，针对数字类字段对应预设有第二识别模型，针对日期/时间类字段对应预设有第三识别模型，针对货币类字段对应预设有第四识别模型，等等。这样，在收到待处理的票据图片后，根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等) 与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型，针对各个所述待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如，16个像素宽度)的小框即目标框，并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中，在确定各个待识别字段对应的区域识别模型时可包括：

A1、在收到待处理的票据图片后，利用预先训练的票据图片识别模型对收到的图片中的票据类别进行识别，并输出票据类别的识别结果(例如，医疗票据的类别包括门诊票据，住院票据，以及其他类票据)。

A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正；在一种可选的实施方式中，所述预先确定的矫正规则为：用霍夫变换(Hough)的概率算法找出票据图像中尽可能多的小段直线；从找出的小段直线中确定出所有偏水平的直线，并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连，按照x坐标值大小分为若干类，或者，将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连，按照y坐标值大小分为若干类；将属于一类的所有水平直线作为一个目标类直线，并通过最小二乘法找出最接近各个目标类直线的长直线；计算出各个长直线的斜率，计算出各个长直线的斜率的中位数和均值，比较计算出的斜率的中位数和均值的大小以确定出较小者，并根据确定出的较小者调整图像倾角，以将收到的票据图片矫正为正常无倾角的图片。

A3、根据预先确定的票据类别与待识别字段的映射关系，确定识别的票据类别对应的待识别字段；

A4、根据预先确定的待识别字段与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型。

在一种可选的实施方式中，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量(例如，10万)的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量(例如，16个)的像素，设置第二预设数量(例如，10个)的不同高宽比的且固定宽度为预设值(例如，16个像素宽度)的小框；

C3、在各个票据图片样本上对包含该待识别字段的部分或者全部字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例(例如，80％)的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于等于预设阈值(例如，98％)，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。

步骤S2，根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。

本实施例中，在利用区域识别模型识别出各个待识别字段的目标行字符区域后，可根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对识别出的各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息，完成整个票据图片的字符信息识别。

在一种可选的实施方式中，所述字符识别模型为时间递归神经网络模型(Long-Short Term Memory，LSTM)，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量(例如，10万)的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，字体为黑色，背景为白色，并将各个票据图片样本的名称命名为其所包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y(例如，8:2)的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入时间递归神经网络模型进行模型训练，每隔一段时间或预设次数的迭代(例如每进行1000次迭代)，对训练得到的模型使用第二数据集进行测试，以评估当前训练的模型效果。测试时，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并和测试的票据图片样本的名称做对比，以计算识别的结果和标注结果的误差，误差计算采用编辑距离作为计算标准。若训练得到的模型在测试时对票据图片样本的字符信息识别误差出现发散，则调整训练参数并重新训练，使训练时模型对票据图片样本的字符信息识别的误差能够收敛。当误差收敛后，结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。

与现有技术相比，本实施例通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别，识别出包含字符信息且固定宽度为预设值的小框，并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域，调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度，这样，可以将字符信息具体到更小的子区域，并对包含字符信息的各个子区域有一个很好的逼近，在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多，从而降低票据信息识别的错误率。

在一可选的实施例中，在上述图1的实施例的基础上，所述票据图片识别模型为深度卷积神经网络模型(例如，该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型)，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示：

表1

其中：Layer Name表示每一层的名称，Input表示输入层，Conv表示模型的卷积层，Conv1表示模型的第1个卷积层，MaxPool表示模型的最大值池化层，MaxPool1表示模型的第1个最大值池化层，Fc表示模型中的全连接层，Fc1表示模型中第1个全连接层，Softmax表示Softmax分类器；Batch Size表示当前层的输入图像数目；Kernel Size表示当前层卷积核的尺度(例如，Kernel Size可以等于3，表示卷积核的尺度为3x3)；Stride Size表示卷积核的移动步长，即做完一次卷积之后移动到下一个卷积位置的距离；Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是，本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。

所述票据图片识别模型的训练过程如下：

B1、为每一个预设票据类别(例如，预设票据类别可包括门诊票据和住院票据2种)准备预设数量(例如，1000张)的标注有对应的票据类别的票据图片样本；本实施例中，在训练之前，针对票据图片样本还做如下处理：

根据其高宽比信息以及印章的位置判断票据图片的转置情况，并做翻转调整：当高宽比大于1时，说明票据图片高宽颠倒，若印章位置在票据图片左侧，则对票据图像做顺时针旋转九十度处理，若印章位置在票据图片右侧，则对票据图像做逆时针旋转九十度处理；当高宽比小于1时，说明票据图片高宽未颠倒，若印章位置在票据图片下侧，则对票据图像做顺时针旋转一百八十度处理。

找出标注存在严重问题的数据，比如关键位置信息缺失或超出整张图片范围，以及印章标注位置位于票据中央等明显标注错误的数据，对这些数据进行清理，确保数据标注准确无误。

对经过翻转后的标注数据做修正，每个对象的标注数据指的是框出这个对象的矩形框的位置信息，用这个矩形框的左上角坐标(xmin，ymin)和右下角坐标(xmax，ymax)四个数来表示，如果xmax<xmin，则颠倒二者位置，对y坐标做同样的处理，以确保max>min。

这样，能保证进行模型训练的票据图片样本均为高宽未颠倒且标注准确无误的票据图片，以利于后续的模型训练更加准确有效。

B2、将每一个预设票据类别对应的票据图片样本分为第一比例(例如，80％)的训练子集和第二比例(例如，20％)的验证子集，将各个训练子集中的票据图片样本进行混合以得到训练集，并将各个验证子集中的票据图片样本进行混合以得到验证集；

B3、利用所述训练集训练所述票据图片识别模型；

B4、利用所述验证集验证训练的所述票据图片识别模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加每一个预设票据类别对应的票据图片样本的数量，并重新执行步骤B2、B3、B4。

如图2所示，图2为本申请票据信息识别方法一实施例的流程示意图，该票据信息识别方法包括以下步骤：

步骤S10，在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。

预先根据待识别字段的不同类型预设有与之对应的区域识别模型，例如，针对文本类字段对应预设有第一识别模型，针对数字类字段对应预设有第二识别模型，针对日期/时间类字段对应预设有第三识别模型，针对货币类字段对应预设有第四识别模型，等等。这样，在收到待处理的票据图片后，根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等)与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型，针对各个所述待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如，16个像素宽度)的小框即目标框，并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中，在确定各个待识别字段对应的区域识别模型时可包括：

步骤S20，根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。

在一可选的实施例中，在上述实施例的基础上，所述票据图片识别模型为深度卷积神经网络模型(例如，该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型)，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示：

表1

所述票据图片识别模型的训练过程如下：

B3、利用所述训练集训练所述票据图片识别模型；

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有票据信息识别系统，所述票据信息识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如上述实施例中的票据信息识别方法的步骤，该票据信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件来实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上参照附图说明了本申请的优选实施例，并非因此局限本申请的权利范围。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本领域技术人员不脱离本申请的范围和实质，可以有多种变型方案实现本申请，比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本申请的技术构思之内所作的任何修改、等同替换和改进，均应在本申请的权利范围之内。

Claims

一种电子装置，其特征在于，所述电子装置包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的票据信息识别系统，所述票据信息识别系统被所述处理器执行时实现如下步骤：

在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；

根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
如权利要求1所述的电子装置，其特征在于，所述根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型包括：

A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别，并输出票据类别的识别结果；

A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正；

A3、根据预先确定的票据类别与待识别字段的映射关系，确定识别的票据类别对应的待识别字段；

A4、根据预先确定的待识别字段与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型。
如权利要求1所述的电子装置，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求2所述的电子装置，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求1所述的电子装置，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。
如权利要求2所述的电子装置，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。
如权利要求2所述的电子装置，其特征在于，所述票据图片识别模型为深度卷积神经网络模型，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成；所述票据图片识别模型的训练过程如下：

S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本；

S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集，将各个训练子集中的票据图片样本进行混合以得到训练集，并将各个验证子集中的票据图片样本进行混合以得到验证集；

S3、利用所述训练集训练所述票据图片识别模型；

S4、利用所述验证集验证训练的所述票据图片识别模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加每一个预设票据类别对应的票据图片样本的数量，并重新执行步骤S2、S3、S4。
一种票据信息识别方法，其特征在于，所述票据信息识别方法包括：

步骤一、在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；

步骤二、根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
如权利要求8所述的票据信息识别方法，其特征在于，所述根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型包括：

A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别，并输出票据类别的识别结果；

A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正；

A3、根据预先确定的票据类别与待识别字段的映射关系，确定识别的票据类别对应的待识别字段；

A4、根据预先确定的待识别字段与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型。
如权利要求8所述的票据信息识别方法，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求9所述的票据信息识别方法，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求8所述的票据信息识别方法，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。
如权利要求9所述的票据信息识别方法，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。
如权利要求9所述的票据信息识别方法，其特征在于，所述票据图片识别模型为深度卷积神经网络模型，该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成；所述票据图片识别模型的训练过程如下：

S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本；

S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集，将各个训练子集中的票据图片样本进行混合以得到训练集，并将各个验证子集中的票据图片样本进行混合以得到验证集；

S3、利用所述训练集训练所述票据图片识别模型；

S4、利用所述验证集验证训练的所述票据图片识别模型的准确率，若准确率大于或者等于预设准确率，则训练结束，或者，若准确率小于预设准确率，则增加每一个预设票据类别对应的票据图片样本的数量，并重新执行步骤S2、S3、S4。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有票据信息识别系统，所述票据信息识别系统可被至少一个处理器执行，以使所述至少一个处理器执行如下步骤：

在收到待处理的票据图片后，根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型，针对各个待识别字段，调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别，从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框，并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域；

根据预先确定的待识别字段与字符识别模型的映射关系，确定各个所述待识别字段对应的字符识别模型，针对各个所述待识别字段的目标行字符区域，调用对应的字符识别模型进行字符识别，以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
如权利要求15所述的计算机可读存储介质，其特征在于，所述根据预先确定的待识别字段与区域识别模型的映射关系，确定所述票据图片中各个待识别字段对应的区域识别模型包括：

A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别，并输出票据类别的识别结果；

A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正；

A3、根据预先确定的票据类别与待识别字段的映射关系，确定识别的票据类别对应的待识别字段；

A4、根据预先确定的待识别字段与区域识别模型的映射关系，确定各个所述待识别字段对应的区域识别模型。
如权利要求15所述的计算机可读存储介质，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求16所述的计算机可读存储介质，其特征在于，所述区域识别模型为卷积神经网络模型，针对一个待识别字段对应的区域识别模型的训练过程如下：

C1、针对该待识别字段，获取预设数量的票据图片样本；

C2、在各个票据图片样本上每隔第一预设数量的像素，设置第二预设数量的不同高宽比且固定宽度为预设值的小框；

C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记；

C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集，并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集；

C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片，并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片；

C6、利用提取的各个待训练的样本图片进行模型训练，以生成所述区域识别模型，并利用各个待验证的样本图片对生成的所述区域识别模型进行验证；

C7、若验证通过率大于或等于预设阈值，则训练完成，或者，若验证通过率小于预设阈值，则增加票据图片样本的数量，并重复执行步骤C2、C3、C4、C5、C6。
如权利要求15所述的计算机可读存储介质，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。
如权利要求16所述的计算机可读存储介质，其特征在于，所述字符识别模型为时间递归神经网络模型LSTM，针对一个待识别字段对应的字符识别模型的训练过程如下：

D1、针对该待识别字段，获取预设数量的票据图片样本，票据图片样本中仅包含一行该待识别字段的字符信息，并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息；

D2、将所述票据图片样本按照X：Y的比例分成第一数据集和第二数据集，第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量，将第一数据集作为训练集，第二数据集作为测试集，其中，X大于0，Y大于0；

D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练，每隔预设时间或预设次数的迭代，使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别，并将字符信息识别结果与测试的票据图片样本的名称进行比对，以计算字符信息识别结果的误差；若训练得到的模型对票据图片样本的字符信息识别的误差出现发散，则调整预设训练参数并重新训练模型，直至误差出现收敛，则结束模型训练，生成的模型作为最终的该待识别字段对应的字符识别模型。