[go: up one dir, main page]

CN113837167A - 一种文本图像识别方法、装置、设备及存储介质 - Google Patents

一种文本图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113837167A
CN113837167A CN202111012920.1A CN202111012920A CN113837167A CN 113837167 A CN113837167 A CN 113837167A CN 202111012920 A CN202111012920 A CN 202111012920A CN 113837167 A CN113837167 A CN 113837167A
Authority
CN
China
Prior art keywords
text
language
branch
network
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111012920.1A
Other languages
English (en)
Other versions
CN113837167B (zh
Inventor
高大帅
李健
武卫东
陈明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN202111012920.1A priority Critical patent/CN113837167B/zh
Publication of CN113837167A publication Critical patent/CN113837167A/zh
Application granted granted Critical
Publication of CN113837167B publication Critical patent/CN113837167B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例涉及数据处理技术领域,具体涉及一种文本图像识别方法、装置、设备及存储介质,旨在缩短多语种识别任务的开发周期以及提升多语种识别性能。所述方法包括:通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。

Description

一种文本图像识别方法、装置、设备及存储介质
技术领域
本申请实施例涉及数据处理技术领域,具体而言,涉及一种文本图像识别方法、装置、设备及存储介质。
背景技术
在光学字符识别领域,多语种识别是一个前沿热点和难点,多语种识别就是识别出图片中的不同语种的文字,在生产生活和教学培训等各个领域有着广泛的应用场景,例如在双语菜单和双语教学中的使用。现有的多语种识别方法有两种,一种是使用三个独立的分支,首先进行文字行检测,然后对文字进行语种分类,在对分类后的文字进行识别。另一种是训练一个统一的多语种识别模型,首先进行文字检测,然后直接输入统一的多语种识别模型中进行识别。
现有技术中,第一种方法的三个分支相互独立,分开进行训练,相互之间没有交互,没有利用端到端的优势,导致识别效率及效果较差。第二种方法需要预先使用多语种样本训练模型,当新增语种时,就需要对整个模型进行重新训练,并且语种之间数据不均衡,导致模型的开发周期较长及识别效果较差。
发明内容
本申请实施例提供一种文本图像识别方法、装置、设备及存储介质,旨在缩短多语种识别任务的开发周期以及提升多语种识别性能。
本申请实施例第一方面提供一种文本图像识别方法,所述方法包括:
通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;
通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;
通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;
通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;
根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
可选地,所述方法是基于多语种文本图像识别网络实现的,所述多语种文本图像识别网络的构建步骤包括:
将所述共享主干网络作为所述多语种文本图像识别网络的特征提取网络;
将所述文字行检测分支及所述文字行识别分支作为所述多语种文本图像识别网络的文字识别网络;
在所述文字识别网络中添加所述语种分类分支;
分别为所述文字行检测分支、所述语种分类分支,所述文字行识别分支选择合适的损失函数,根据上述函数构建多任务损失函数;
通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络。
可选地,对不同的分支选用合适的损失函数,对所述多语种文本图像识别网络进行训练,包括:
收集多张包含多种语言文字的图片,将所述多张包含多种语言文字的图片放入同一个集合中,得到训练集;
将所述训练集输入所述多语种文本图像识别网络中,所述训练集中的图片上的文字行位置信息、语种信息以及文本信息为预先获取的;
所述多语种文本图像识别网络识别出所述训练集中的图片上的文字行所在位置、语种类别以及文字识别结果;
将所述文字行所在位置、语种类别以及文字识别结果与所述文字行位置信息、语种信息以及文本信息进行对比,将对比得到的差值传入所述多任务损失函数中,对所述多语种文本图像识别网络的参数进行调整,得到训练好的所述多语种文本图像识别网络。
可选地,当需要对一个新语种进行识别时,所述方法还包括:
在所述文字识别网络中添加所述新语种对应的文字行识别分支;
在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络。
可选地,在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络,包括:
当所述新语种为字符较多的语种时,选择数量较多的图片对所述语种分类分支以及文字行识别分支进行训练;
当所述新语种为字符较少的语种时,选择数量较少的图片对所述语种分类分支以及文字行识别分支进行训练。
本申请实施例第二方面提供一种多文本图像识别装置,所述装置包括:
图像识别模块,用于通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;
文字行检测模块,用于通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;
特征提取模块,用于通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;
语种分类模块,用于通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;
文字行识别模块,用于根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
可选地,所述方法是基于多语种文本图像识别网络实现的,所述多语种文本图像识别网络的构建步骤包括:
将所述共享主干网络作为所述多语种文本图像识别网络的特征提取网络;
将所述文字行检测分支及所述文字行识别分支作为所述多语种文本图像识别网络的文字识别网络;
在所述文字识别网络中添加所述语种分类分支;
分别为所述文字行检测分支、所述语种分类分支,所述文字行识别分支选择合适的损失函数,根据上述函数构建多任务损失函数;
通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络。
可选地,通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络,包括:
收集多张包含多种语言文字的图片,将所述多张包含多种语言文字的图片放入同一个集合中,得到训练集;
将所述训练集输入所述多语种文本图像识别网络中,所述训练集中的图片上的文字行位置信息、语种信息以及文本信息为预先获取的;
所述多语种文本图像识别网络识别出所述训练集中的图片上的文字行所在位置、语种类别以及文字识别结果;
将所述文字行所在位置、语种类别以及文字识别结果与所述文字行位置信息、语种信息以及文本信息进行对比,将对比得到的差值传入所述多任务损失函数中,对所述多语种文本图像识别网络的参数进行调整,得到训练好的所述多语种文本图像识别网络。
可选地,所述装置还包括:
文字行识别分支添加子模块,用于在所述文字识别网络中添加所述新语种对应的文字行识别分支;
模型训练子模块,用于在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络。
可选地,所述模型训练子模块包括:
第一模型训练子模块,用于当所述新语种为字符较多的语种时,选择数量较多的图片对所述语种分类分支以及文字行识别分支进行训练;
第二模型训练子模块,用于当所述新语种为字符较少的语种时,选择数量较少的图片对所述语种分类分支以及文字行识别分支进行训练。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的文本图像识别方法,通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。本申请中,将文字行检测分支、语种分类分支以及文字行识别分支放入同一个网络中进行端到端的学习,充分利用了端到端的多任务互补的优势,在新增语种时,只需要单独新增对应的文字行识别分支以及修改语种分类分支,不需要重新对整个网络进行训练,从而缩短了多语种识别任务的开发周期以及提升了多语种识别的性能。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的文本图像识别方法的流程图;
图2是本申请一实施例提出的多语种文本图像识别网络构建流程图;
图3是本申请一实施例提出的文本图像识别装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的文本图像识别方法的流程图。
如图1所示,该方法包括以下步骤:
S11:通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图。
本实施例中,待识别文本图像就是含有文本的图片,其中的文本是多语种的文本,在一张图中可以同时存在多个不同语种的文本。共享主干网络用于从待识别文本图像中提取出其中的文本特征,共享特征图是从待识别文本图像中提取出的特征图像,可以准确反映出文字在待识别文本图像中的区域位置。
本实施例中,共享主干网络是一个共享CNN(卷积神经网络)骨架,相当于整个多语种文本图像识别网络的主干和骨架,该共享主干网络提取待识别文本图像得到共享特征图,进行分析,并确定其中包含了文字的区域位置。该网络可以识别出所有语种的文字在图片上的范围,并进行进一步的特征提取。
示例地,待识别文本图像中可以同时包含中文、英文、俄文等,共享CNN骨架可以选用resnet50,resnet101等网络。
S12:通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息。
本实施例中,文字行检测分支是通过文字行识别算法,识别出共享特征图中的文字行所在的位置,作为文字行的位置信息,该文字行检测算法属于OCR(光学字符)识别算法的一种。
示例地,文字行检测算法可以使用ABCnet中使用的贝塞尔曲线回归算法等。
S13:通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征。
本实施例中,共享主干网络会根据文字行检测分支检测到的文字行的位置信息,对该位置的文字行进行特征提取,得到文字行在CNN骨架上的roi特征,就是从图片中框选出的文字行的图像特征,得到这一部分的文本的特征向量。
示例地,在一张图片中框选出了3行文字,则共享主干网络就将框选的3行文字的图片特征进行提取,得到这3行文字的文本特征向量。
S14:通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息。
本实施例中,语种分类分支通过语种分类算法对文本特征进行分类,得到文本特征对应的语种类别信息,该语种类别信息显示了输入的文本特征属于哪一种语言,当该文本特征中包含多种语言时,可以将这些特征按照对应的语言进行分类。
示例地,语种分类算法可以选择softmax交叉熵损失算法,当文本特征对应的文字为包含“你好”,“hello”时,语种分类分支通过语种分类算法得到“你好”属于中文,“hello”属于英文。
S15:根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
本实施例中,文字行识别分支是通过文字行识别算法对文本特征进行识别,得到文字识别结果。文字行识别算法也是OCR识别算法的一种。对于不同的语种,有着单独的文字行识别算法,即对于不同的语种,会有这单独的文字行识别分支。
示例地,文字行识别算法可以采用CRNN_CTC算法。当文本特征中包含中文“你好”,和英文“hello”时,文字行识别算法使用中文识别分支识别出文本图像中的文字为“你好”,使用英文分支识别出文本图像中的文字为“hello”。
本实施例中,通过一个合适的CNN骨架进行特征提取,然后通过文字行检测分支,语种分类分支和文字行识别分支得到文字的位置,语种信息和文字识别结果。以CNN网络为骨架,在其中加入了分支网络,通过端到端的方式,即将多语种的文字行检测、语种分类、文字行识别放置在同一个深度学习网络中进行解决,实现了各个子网络之间的互补,提升了文字识别的准确率。
在本申请的另一个实施例中,所述方法是基于多语种文本图像识别网络实现的,所述多语种文本图像识别网络的构建步骤包括:
S21:将所述共享主干网络作为所述多语种文本图像识别网络的特征提取网络。
本实施例中,多语种文本图像识别网络是一个端到端的深度学习网络,将多语种的文本图像输入该网络中,输出图像中的文字行位置,语种类别,文字行识别结果。
本实施例中,图像数据输入该网络中后,首先进入的是该网络中的的共享主干网络,共享主干网络是该网络的一个子网络,该共享主干网络会提取输入图像中的特征图。共享主干网络可以选择resnet50网络。
S22:将所述文字行检测分支及所述文字行识别分支作为所述多语种文本图像识别网络的文字识别网络。
本实施例中,文字行检测分支以及文字行识别分支设置于同一个网络中,即文字识别网络中,文字识别网络是多语种文本图像识别网络中的一个子网络,文字识别网络会对输入的图像进行文字行检测以及文字行识别。
示例地,文字行检测采用ABCnet中的贝塞尔曲线回归算法,文本识别分支采用CRNN_CTC算法。
本实施例中,在网络构建时,可以根据待识别文本图像上语种的数量来设置文字行识别分支的数量,例如待识别文本图像上语种的数量为3种,则在文字识别网络中加入3个文字行识别分支,每个分支负责一种语言的文字行识别。
S23:在所述文字识别网络中添加所述语种分类分支。
本实施例中,将语种分类分支加入文字识别网络中,语种分类分支可以采用含有残差模块的softmax交叉熵损失。
S24:分别为所述文字行检测分支、所述语种分类分支,所述文字行识别分支选择合适的损失函数,根据上述函数构建多任务损失函数。
本实施例中,需要为每个分支选择合适的损失函数,以达到对每个分支的最佳训练效果,这些损失函数以一定的系数加和可以得到多任务损失函数。
示例地,文字行检测分支使用L_det_loss损失函数,语种分类分支使用L_cls_loss损失函数,文字行识别分支使用L_CTC_loss损失函数。多任务损失函数为total_loss=0.5*L_det_loss(文字行检测损失函数)+0.1*L_cls_loss(语种分类损失函数)+1.0*L_CTC_loss(文字行识别损失函数)。其中,0.5,1,1.0是通过实验得到系数值。
S25:通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络。
本实施例中,在模型的基本结构构造完成之后,需要对多语种文本图像识别网络进行整体训练,利用训练样本结合多任务损失函数对多语种文本图像识别网络进行训练,得到训练好的所述多语种文本图像识别网络。
本实施例中,将文字行检测分支,语种分类分支,文字行识别分支设置在同一个网络中进行端到端的学习,提升了文字识别的性能,为各个分支选择了适合的损失函数并构造了多任务损失函数,达到了更好的训练效果,提升了模型的性能。
如图2所示,图2是本申请一实施例提出的多语种文本图像识别网络构建流程图。图中首先选择合适的共享CNN骨架作为共享主干网络,再选择合适的文字行检测算法作为文字行检测分支,共享主干网络根据文字行检测分支检测出的文字行位置信息提取出文字行特征,得到文字行在CNN骨架上的roi特征,将语种分类算法加入语种分类分支中进行语种分类分支的设置,将文字行识别算法加入文字行识别分支中进行文字行识别分支的设置。
在本申请的另一个实施例中,通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络,包括:
S31:收集多张包含多种语言文字的图片,将所述多张包含多种语言文字的图片放入同一个集合中,得到训练集。
本实施例中,训练集中的包含多种语言文字的图片可从网络上进行收集,将收集到的数据放入同一个集合中,得到训练集。另外,为了对模型的效果进行验证,还可以将少量的样本放入另一个集合中,作为测试集。
示例地,使用文本图像仿真工具获取多语种样本10万行,这10万行样本以图片的形式进行存储,得到10万张包含多语种文字的图片。随机选取9.5万张图片作为训练集,剩下的5千张图片作为测试集。
S32:将所述训练集输入所述多语种文本图像识别网络中,所述训练集中的图片上的文字行位置信息、语种信息以及文本信息为预先获取的。
本实施例中,将训练集输入多语种文本图像识别网络中,此时的模型是未训练的,需要通过训练集中的样本来调整自身的参数。训练集中的图片上的文字行位置信息、语种信息以及文本信息是在文本图像仿真时就预先获取的信息。
S33:所述多语种文本图像识别网络识别出所述训练集中的图片上的文字行所在位置、语种类别以及文字识别结果。
S34:将所述文字行所在位置、语种类别以及文字识别结果与所述文字行位置信息、语种信息以及文本信息进行对比,将对比得到的差值传入所述多任务损失函数中,对所述多语种文本图像识别网络的参数进行调整,得到训练好的所述多语种文本图像识别网络。
本实施例中,可以在TensorFlow深度学习框架下,通过多任务损失函数来调整多语种文本图像识别网络的网络参数,得到训练好的所述多语种文本图像识别网络。
在网络完成之后,将测试集中的图片输入训练好的多语种文本图像识别网络中进行训练,对训练的结果进行评估。
在本申请的另一个实施例中,需要对一个新语种进行识别时,所述方法还包括:
S41:在所述文字识别网络中添加所述新语种对应的文字行识别分支。
本实施例中,当需要对一个新语种进行识别时,可以在现有的多语种文本图像识别网络的基础上,在该网络中的文字识别网络中加入新语种对应的文字行识别分支。
示例地,当需要识别两个新语种时,例如阿拉伯语和德语,则在文字识别网络中加入这个两个新语种对应的文字行识别分支。
S42:在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络。
本实施例中,可以在保证已经训练好的模型参数不变的情况下,使用包含新语种文字的图片对语种分类分支及新增加的两个文字行识别分支进行单独训练,训练完成后,则完成了多语种文本图像识别网络的更新,更新后的多语种文本识别网络就具备了识别新增语种的能力。
示例地,新增语种为阿拉伯语和德语,则将包含有阿拉伯语和德语的图片输入多语种文本图像识别网络中,该网络中的语种分类分支经过训练会对阿拉伯语和德语进行分类,该网络中的两个文字行识别分支经过训练后会分别对阿拉伯语和德语进行识别。
本实施例中,当需要新增识别语种时,就在网络中新增加两个独立的文字行识别分支,使用新的训练数据对文字行识别分支和语言分类分支进行单独训练,不会改变模型原有的参数,不需要再对模型进行统一训练,缩短了多语种识别任务的开发周期。
在本申请的另一个实施例中,在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络,包括:
S51:当所述新语种为字符较多的语种时,选择数量较多的图片对所述语种分类分支以及文字行识别分支进行训练。
S52:当所述新语种为字符较少的语种时,选择数量较少的图片对所述语种分类分支以及文字行识别分支进行训练。
本实施例中,当新语种为字符较多的语种时,为了保证模型的性能,训练文字行识别分支和语种分类分支时需要收集较多的训练样本,这样能保证模型学习到尽可能多的字符,保证识别效果。当新语种为字符较少的语种时,就收集少量的训练样本,同样可以保证训练效果。
示例地,当新语种为中文时,因为中文为字符较多的语种,就收集较多的训练样本训练文字行识别分支以及语种分类分支,如2万张包含中文的样本。当新语种为英文时,因为英文只包含了26个字母以及一些字符,则可以收集少量的样本对文字行识别分支以及语种分类分支进行训练,例如5千张包含英文的样本。
本实施例中,对每个语言使用了不同的文字行识别分支,每个分支可以专注于该分支对应的语言样本的学习,保证了训练的效率,并且不会出现样本不均的问题,提升了多语种识别的性能。
基于同一发明构思,本申请一实施例提供一种文本图像识别装置。参考图3,图3是本申请一实施例提出的文本图像识别装置300的示意图。如图3所示,该装置包括:
图像识别模块301,用于通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;
文字行检测模块302,用于通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;
特征提取模块303,用于通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;
语种分类模块304,用于通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;
文字行识别模块305,用于根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
可选地,所述方法是基于多语种文本图像识别网络实现的,所述多语种文本图像识别网络的构建步骤包括:
将所述共享主干网络作为所述多语种文本图像识别网络的特征提取网络;
将所述文字行检测分支及所述文字行识别分支作为所述多语种文本图像识别网络的文字识别网络;
在所述文字识别网络中添加所述语种分类分支;
分别为所述文字行检测分支、所述语种分类分支,所述文字行识别分支选择合适的损失函数,根据上述函数构建多任务损失函数;
通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络。
可选地,通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络,包括:
收集多张包含多种语言文字的图片,将所述多张包含多种语言文字的图片放入同一个集合中,得到训练集;
将所述训练集输入所述多语种文本图像识别网络中,所述训练集中的图片上的文字行位置信息、语种信息以及文本信息为预先获取的;
所述多语种文本图像识别网络识别出所述训练集中的图片上的文字行所在位置、语种类别以及文字识别结果;
将所述文字行所在位置、语种类别以及文字识别结果与所述文字行位置信息、语种信息以及文本信息进行对比,将对比得到的差值传入所述多任务损失函数中,对所述多语种文本图像识别网络的参数进行调整,得到训练好的所述多语种文本图像识别网络。
可选地,所述装置还包括:
文字行识别分支添加子模块,用于在所述文字识别网络中添加所述新语种对应的文字行识别分支;
模型训练子模块,用于在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络。
可选地,所述模型训练子模块包括:
第一模型训练子模块,用于当所述新语种为字符较多的语种时,选择数量较多的图片对所述语种分类分支以及文字行识别分支进行训练;
第二模型训练子模块,用于当所述新语种为字符较少的语种时,选择数量较少的图片对所述语种分类分支以及文字行识别分支进行训练。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的文本图像识别方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的文本图像识别方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的文本图像识别方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种文本图像识别方法,其特征在于,所述方法包括:
通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;
通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;
通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;
通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;
根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法是基于多语种文本图像识别网络实现的,所述多语种文本图像识别网络的构建步骤包括:
将所述共享主干网络作为所述多语种文本图像识别网络的特征提取网络;
将所述文字行检测分支及所述文字行识别分支作为所述多语种文本图像识别网络的文字识别网络;
在所述文字识别网络中添加所述语种分类分支;
分别为所述文字行检测分支、所述语种分类分支,所述文字行识别分支选择合适的损失函数,根据上述函数构建多任务损失函数;
通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络。
3.根据权利要求2所述的方法,其特征在于,通过所述多任务损失函数对所述多语种文本图像识别网络进行整体训练,得到训练好的所述多语种文本图像识别网络,包括:
收集多张包含多种语言文字的图片,将所述多张包含多种语言文字的图片放入同一个集合中,得到训练集;
将所述训练集输入所述多语种文本图像识别网络中,所述训练集中的图片上的文字行位置信息、语种信息以及文本信息为预先获取的;
所述多语种文本图像识别网络识别出所述训练集中的图片上的文字行所在位置、语种类别以及文字识别结果;
将所述文字行所在位置、语种类别以及文字识别结果与所述文字行位置信息、语种信息以及文本信息进行对比,将对比得到的差值传入所述多任务损失函数中,对所述多语种文本图像识别网络的参数进行调整,得到训练好的所述多语种文本图像识别网络。
4.根据权利要求2所述的方法,其特征在于,当需要对一个新语种进行识别时,所述方法还包括:
在所述文字识别网络中添加所述新语种对应的文字行识别分支;
在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络。
5.根据权利要求3所述的方法,其特征在于,在保证现有模型参数不变的情况下,使用包含所述新语种的图片对所述语种分类分支以及文字行识别分支进行训练,得到训练好的所述多语种文本图像识别网络,包括:
当所述新语种为字符较多的语种时,选择数量较多的图片对所述语种分类分支以及文字行识别分支进行训练;
当所述新语种为字符较少的语种时,选择数量较少的图片对所述语种分类分支以及文字行识别分支进行训练。
6.一种文本图像识别装置,其特征在于,所述装置包括:
图像识别模块,用于通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;
文字行检测模块,用于通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;
特征提取模块,用于通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;
语种分类模块,用于通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;
文字行识别模块,用于根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至5任一所述的方法中的步骤。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一所述的方法的步骤。
CN202111012920.1A 2021-08-31 2021-08-31 一种文本图像识别方法、装置、设备及存储介质 Active CN113837167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111012920.1A CN113837167B (zh) 2021-08-31 2021-08-31 一种文本图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111012920.1A CN113837167B (zh) 2021-08-31 2021-08-31 一种文本图像识别方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113837167A true CN113837167A (zh) 2021-12-24
CN113837167B CN113837167B (zh) 2025-03-28

Family

ID=78961765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111012920.1A Active CN113837167B (zh) 2021-08-31 2021-08-31 一种文本图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113837167B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357174A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 基于ocr和机器学习的代码分类系统及方法
CN115661827A (zh) * 2022-09-23 2023-01-31 北京捷通鸿泰科技有限公司 一种文本图像识别方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163151A (zh) * 2019-05-23 2019-08-23 北京迈格威科技有限公司 人脸模型的训练方法、装置、计算机设备和存储介质
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110766050A (zh) * 2019-09-19 2020-02-07 北京捷通华声科技股份有限公司 模型生成方法、文本识别方法、装置、设备及存储介质
CN111242129A (zh) * 2020-01-03 2020-06-05 创新工场(广州)人工智能研究有限公司 一种用于端到端的文字检测与识别的方法和装置
CN111488826A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112883966A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质
EP3832541A2 (en) * 2020-07-24 2021-06-09 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for recognizing text

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163151A (zh) * 2019-05-23 2019-08-23 北京迈格威科技有限公司 人脸模型的训练方法、装置、计算机设备和存储介质
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110766050A (zh) * 2019-09-19 2020-02-07 北京捷通华声科技股份有限公司 模型生成方法、文本识别方法、装置、设备及存储介质
WO2021102754A1 (zh) * 2019-11-27 2021-06-03 深圳市欢太科技有限公司 数据处理方法、装置和存储介质
CN111242129A (zh) * 2020-01-03 2020-06-05 创新工场(广州)人工智能研究有限公司 一种用于端到端的文字检测与识别的方法和装置
CN111488826A (zh) * 2020-04-10 2020-08-04 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
EP3832541A2 (en) * 2020-07-24 2021-06-09 Beijing Baidu Netcom Science And Technology Co. Ltd. Method and apparatus for recognizing text
CN111931057A (zh) * 2020-08-18 2020-11-13 中国科学院深圳先进技术研究院 一种自适应输出的序列推荐方法和系统
CN112883966A (zh) * 2021-02-24 2021-06-01 北京有竹居网络技术有限公司 图像字符识别方法、装置、介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨俊, 陈明, 张晓平: "基于视觉检测技术的微文字识别系统设计", 测控技术, no. 09, 18 September 2003 (2003-09-18) *
王德青;吾守尔・斯拉木;许苗苗;: "场景文字识别技术研究综述", 计算机工程与应用, no. 18, 7 August 2020 (2020-08-07) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357174A (zh) * 2022-03-18 2022-04-15 北京创新乐知网络技术有限公司 基于ocr和机器学习的代码分类系统及方法
CN115661827A (zh) * 2022-09-23 2023-01-31 北京捷通鸿泰科技有限公司 一种文本图像识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113837167B (zh) 2025-03-28

Similar Documents

Publication Publication Date Title
CN110414683B (zh) 数学题解答方法及装置
CN108121702B (zh) 数学主观题评阅方法及系统
KR102410752B1 (ko) 분류모델 생성을 통한 이미지 인식 및 처리 방법, 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
CN107301163B (zh) 包含公式的文本语义解析方法及装置
CN112149386B (zh) 一种事件抽取方法、存储介质及服务器
CN108052504B (zh) 数学主观题解答结果的结构分析方法及系统
CN110516240B (zh) 一种基于Transformer的语义相似度计算模型DSSM技术
Zhu An educational approach to machine learning with mobile applications
CN114358579B (zh) 评阅方法、评阅装置、电子设备以及计算机可读存储介质
CN113837167B (zh) 一种文本图像识别方法、装置、设备及存储介质
KR20250018144A (ko) 콘텐츠를 위한 태깅 방법 및 그 시스템
CN114153951A (zh) 用于实现金融领域实体识别和情感分析的方法、装置、处理器及其计算机可读存储介质
CN111242114A (zh) 文字识别方法及装置
CN113434686B (zh) 一种基于多重语义信息的资讯分类方法及系统
CN117009595A (zh) 文本段落获取方法及其装置、存储介质、程序产品
CN112668342A (zh) 基于孪生网络的远程监督关系抽取降噪系统
CN117974081B (zh) 一种基于ai大模型的模拟面试教学方法及其系统
Pinaso et al. Edge Impulse potential to enhance object recognition through machine learning
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备
CN107992482B (zh) 数学主观题解答步骤的规约方法及系统
CN118675098A (zh) 基于大模型的人与物交互检测方法、系统及电子设备
CN110059628A (zh) 图像识别方法、装置、设备及存储介质
CN112328812B (zh) 基于自调参数的领域知识抽取方法与系统、电子设备
CN111680708A (zh) 一种给图片加标签的方法和系统
CN116486426A (zh) 文档的处理方法及装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant