CN111753840A

CN111753840A - 一种同城物流配送名片下单技术

Info

Publication number: CN111753840A
Application number: CN202010570280.5A
Authority: CN
Inventors: 李思远; 覃飞宇; 朱冠军; 张罡
Original assignee: Beijing Tongcheng Biying Technology Co Ltd
Current assignee: Beijing Tongcheng Biying Technology Co Ltd
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2020-10-09

Abstract

本发明实施例公开了一种基于深度分词网络的自然语言处理技术文字下单方法。该方法应用于配送平台，所述方法包括：获取用户输入的文字下单数据，其中，所述文字下单数据包括收件人、收件地点、收件人电话；根据该数据，利用深度分词网络处理技术，获取其中的姓名、地址和电话信息；然后利用该数据生成下单数据，用于订单的配送。随着互联网技术的普及与发展，电子商务和网络购物蓬勃发展，作为重要的支撑业务，快递行业发展迅速，各快递服务企业的业务量快速增长，快递服务需要严格满足客户对配送时效性的要求，如何保证时效性，不仅需要交通工具、快递人员的及时“就位”，更需要有一个便捷快速的下单方式，以保证各环节的人员能及时获取到有效的信息。本发明实施例简化了订单下单过程中数据录入过程。

Description

一种同城物流配送名片下单技术

所属技术领域

本专利涉及数字图像处理领域和自然语言处理领域。

背景技术

在互联网高速发展的今天，我们都离不开物流。在用户下单时，发现很多用户的寄件/收件信息可以在外卖小票或名片中获得。用户需要对照这些信息手动输入寄件/收件人的姓名、省市区街道地址、电话信息到APP上。而且这些信息中有的内容繁杂，很容易看错导致输入错误，整个过程繁杂且效率低下。

因此，用户通过拍照从图片中提取所需信息并完成快速下单的技术就成为迫切需要。本专利可以让用户通过“名片识别”的方式，将名片/小票上的内容识别出对应的寄件/收件人信息文字，快速填到对应栏中。这使得平均寄件下单时间从5分钟减少到10秒，大大提升寄件的用户体验。

名片/小票识别一般存在几大挑战。其一是文本是由多个文字甚至是多行文字拼接组成，没有明显边界，文本框内除了笔画，其余部分均是背景，给识别特征提取带来难度；其二是文本可能是由若干汉字、英文或标点符号混合在一起，长度变化大，由于网络感知野受限，定位边框(Bounding Boxes)本身困难；其三是如果边框贴合精度不够，会直接导致后续的文字识别错误；其四是获取的所有文本内容繁杂，可能包含多个电话号码，多个地址，给从中选择出手机号码和地址带来了困难。为了解决这些问题，本专利为名片识别下单技术搭建了光学字符识别(Optical Character Recognition，OCR)和自然语言处理(NaturalLanguage Processing，NLP)结合的系统。OCR识别在文本检测上运用了CTPN检测网络，通过应用情景高相关的数据集和针对性的网络训练来提升名片中各尺度的文字检测/提取能力，检测完整性和准确性。在文本识别方面，运用了CRnn的网络结构，同时，同样使用应用情景高相关的数据集和针对性的网络训练使得网络在名片字体上具有更好的识别能力。在得到所有信息后，使用NLP技术从中提取姓名，手机号码和地址信息。

发明内容：

步骤一：文本检测

待识别图像首先会经过深度神经网络结构CTPN进行文本检测，它能有效的检测出复杂场景的横向文字分布。该网络结构首先使用VGG16网络作为特征提取器，然后使用3*3的滑动窗口在特征图上获取特征向量。最后利用LSTM和全连接神经网络对特征向量做特征变换后，经过RPN网络获得文字区域。

步骤二：文本识别

得到了质量保证的文字区域，就可以进行文本识别。将步骤一中的每一个横向文字区域作为一个输入，传送到卷积神经网络中提取字符特征，最后将字符特征与字典里的字符特征做多尺度匹配。多尺度匹配会涉及到单个字符的概率，多字符组合对应概率等多参数计算得到的最优解作为结果返回。

步骤三：分析文本

将步骤二中所获得的文本根据换行符来进行分割，同时将表情符号、空格等信息过滤。然后使用分词工具将所有文本进行分词，再综合分词工具的词性、根据字典进行搜索关键字得到的词性和使用正则表达式的方法得到的词性进行词性标注。这样分词后的词就可以得到不同的标签(包括区县，市，省，村庄，道路，楼号，层号，单元，数次，字符串，标点符号，人名等)。因为有的词可能有不同的语义，所以会有多个标签，比如“朝阳”这个词，它可能是北京市的一个区县，也可能是辽宁省的一个地级市。这样就需要对词进行多词义歧义消除，根据语义频率的大小，只留取频率最大的语义。

歧义消除后对处理后的词根据标签进行同义词的拼接，具体方法主要是合并相同主标签的词，经过前面几步的操作，每个分词都添加了不同的词性标签，如果标签相同，则合并，只留一个，(例如“收餐”标签为n，“人”的标签也为n，标签都是n，将两词相连，组成“收餐人”)，此过程还会将数字和号楼、单元、楼层等进行合并。

步骤四：识别/组成下单信息

在完成步骤三后，根据正则表达式抽取手机号码并计算电话的分数，选择电话分数最高的信息，电话分数的计算为句子中数字的个数除以总的句子长度。如果获取到多个电话，且电话分数一样，取第一个。如果为小票系统将获取电话分机号，获取方法如下：

截取手机号码所在行的手机号码后的信息

使用正则表达式对所截取的信息进行匹配，若匹配到2-4位的数字，则为分机号，否则为空。

对除了包含手机号码信息的所有句子计算地址分数和姓名分数，地址分数计算方法如下：

将所有地址标签组成一个列表。

获取当前句子中所有单词的标签。

对句子中所有单词进行判断，如果其标签在地址列表中，分数加一，最后返回句子的总得分。

本专利对小票的信息会进行特殊处理，因为在大多数外卖小票中，地址是由多行组成，

对于小票地址信息的处理具体如下：

选取地址得分list中分数最高的句子。

查看被选取句子的前一句，地址得分是否大于0，若大于0，将两句合成。

查看被选取句子的后两句，如果分数大于0，且新组成的句子长度不大于3，合成新句子。

合成句子之后，重新进行分词和标注(包括词典标注词性，关键字搜索和正则表达式标注词性，多词义歧义消除，同义词拼接等)，生成新句子。

若不是小票，则选取地址得分列表中，得分最高的句子作为地址句子。然后从当前地址句子中提取出POI和详细地址成分。具体方法如下：

对当前句子所有词的标签重新按照词典进行匹配，将所有标签配成三个位置标记ADDR-B：地址开始；POI-E：POI结束；DET-E：详细地址结束。

对三个位置标记分别选取频率最大的位置信息，然后比较三者位置的大小，在地址开始和POI结束中选择位置index在左的置为idx0，在POI结束和详细地址结束中选择index在右的置为idx2，idx1等于POI结束。

通过前两步的操作，将位置设置为句子中idx0到idx1+1的内容，详细地址为句子中idx1+1到idx2+1的内容。

至此地址信息获取完毕。

姓名分数计算方法与地址类似，只是计数的评判标准将地址标签换为人名标签，最后得到分数再除以句子的长度。在得到所有句子的姓名得分后，选取分数最高的句子，从中提取姓名。具体方法是查看句子的得分是否大于预先设定的阈值，大于的话选取句子中标签为“nr”的词作为姓名。

附图说明

图1：本发明整体流程图。

图2：图像文字识别网络结构图。

图3(a)，(b)：图像文字定位。

图4(a)，(b)：图像文字识别。

图5：名片下单流程示意图。

图6：小票下单流程示意图。

具体实施方式

本专利的方法是更有效更便捷地帮助用户下单，前提是拍摄的照片包含寄件/收件等信息。为了实施本专利的方法，首先利用软件拍摄得到图片，然后运用本专利所提出的方法，获取寄件/收件人信息。对于不同类型的图片，比如外卖小票和名片等，本专利的方法都可以给出识别结果，为了使实验结果更加清晰，下面将用图片说明2种图片类型的测试结果。

说明：

以下图5和图6是两张图片测试结果，每张图片测试流程如箭头所示，第一张是未经处理的图片，第二张是经过OCR获取的所有文本信息，最后一张找到了文本信息中的姓名，电话，位置信息和详细地址。

主要参考文献

【1】Tian Z，Huang W，He T，et al.Detecting Text in Natural Image withConnectionist Text Proposal Network[C]//European Conference on ComputerVision.Springer，Cham，2016.

【2】Shi B，Bai X，Belongie S.Detecting Oriented Text in Natural Imagesby Linking Segments[C]//2017 IEEE Conference on Computer Vision and PatternRecognition(CVPR).IEEE，2017.

【3】Zhu A，Wang G，Dong Y，et al.Detecting text in natural scene imageswith conditional clustering and convolution neural network[J].Journal ofelectronic imaging，2015，24(5)：053019.1-053019.10.

【4】Shi B，Bai X，Yao C.An End-to-End Trainable Neural Network forImage-based Sequence Recognition and Its Application to Scene TextRecognition[J].2015

Claims

1.一种下单方法，应用于配送平台，其特征在于，所述方法包括：

获取用户输入的下单文字，其中，所述下单文字数据包括人物姓名、地址和联系电话，客户端将该数据上传至服务器。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

用户上传的文字下单数据，将数据存储信息同步至文字识别服务器，其中，所述文字存储信息包括所述文字信息的存储位置。

3.一种命名实体识别方法，应用于文字下单数据识别，其特征在于，所述方法包括：

步骤一：模型设计

本文设计了一种基于Bilstm+crf模型，模型的结构如图1所示，将数据输入双向lstm后提取语义特征，双向lstm每个节点上会输出当前字对应各标注的对数概率值，如下图所示的[1.5，0.9，0.1，0.08，0.05]，分别对应PER-B，PER-I，ORG-B，ORG-I，O，即姓名开始，姓名内部，机构开始，机构内部，非实体标签的概率，最后将这些结果输进crf层，在crf层采用维特比算法解码，将具有最大得分的序列作为预测输出，从而得到最终的标注结果。

步骤二：模型训练

模型的训练主要分为以下两个环节。

1.首先下载命名实体识别公开语料，对数据进行简单处理，分割成类似如下图2所示，其中v表示动词，PER表示人名，B表示实体开始，I表示实体内部等。将数据准备好，放入模型中训练至收敛。也可以直接下载开源模型使用。

2.在本地数据中进行测试。经过测试发现模型对特殊姓名的提取尚存在问题，如图3所示，该图为存在标注问题的样本。

步骤三：设计信息提取规则

通过上一个步骤的训练，核心的识别模型已基本可用。下面将要设计一个提取逻辑来将各要素依次识别出。分为以下五个部分：

1.通过观察大量线上用户输入文本内容，发现用户电话的提取相对较为固定，可以设置一个正则表达式来匹配，比如：

r’(\+？0？86\D*？)？(1[-\s]？[3-9][-\s]？(\d[-\s]？){9})’

因此可以先将电话号提取出，并去除掉无关字符。

2.下一步提取姓名，可以根据模型的标注结果直接提取出姓名。但是经过测试发现，文本中可能出现多个姓名的标注结果，通过观察规律，消岐方法可采用常用后缀(如老师、先生、收)以及上下文特征等对姓名进行过滤，找出我们关注的姓名实体。

3.提取详细地址。在进行详细地址提取之前，为减少干扰，需要将前面提取到的电话号，姓名信息移除，并将无用的词去掉(如“电话号”，“姓名”)。若直接使用模型标注结果进行地址内容的提取，则可能会遗漏掉低阶地址元素，为保证地址提取的完整性，我们对模型的标注结果进行进一步的处理：搜集大量地址特征字、词，制作特征字典，通过字典寻找地址边界。具体方法如下：

a.遍历每一个分词段，使用特征字典打分。

b.对于分数超过阈值的首个词段，标记为地址信息开始。

c.对于标注结果为非地址且打分小于阈值的首个词段，标记为地址信息的结束。

通过以上步骤定位出地址的区间位置。

4.从详细地址中提取地标信息(POI)

本部分主要从详细地址中提取出其中的关键地标信息，如从“西北旺东路中关村软件园博彦科技大厦C座”中提取出“博彦科技大厦”或“博彦科技大厦C座”，为减少复杂性，依然利用模型标注结果进行提取，步骤如下：

a.选出标注结果为’ORG’或‘nt’的实体，优先选择组织机构名称。

b.若步骤a中实体非空，则选出其中长度最大的实体返回，否则转步骤c

c.取出标注结果为’LOC’或’ns’的实体，取其中长度最大的结果返回，若实体列表为空，则返回空字符串。

5.对提取结果进行清洗

为确保信息提取的整洁性，可以进一步去除一些无效信息，比如电话号中的非数字，姓名中的数字、字母，地址中的标点符号等。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将得到的下单数据发送到用户端，用户可以对得到的下单数据进行修正，然后完成最后下单过程。