WO2019071660A1 - 票据信息识别方法、电子装置及可读存储介质 - Google Patents
票据信息识别方法、电子装置及可读存储介质 Download PDFInfo
- Publication number
- WO2019071660A1 WO2019071660A1 PCT/CN2017/108735 CN2017108735W WO2019071660A1 WO 2019071660 A1 WO2019071660 A1 WO 2019071660A1 CN 2017108735 W CN2017108735 W CN 2017108735W WO 2019071660 A1 WO2019071660 A1 WO 2019071660A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- ticket
- identified
- picture
- model
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Definitions
- the present application relates to the field of computer technologies, and in particular, to a ticket information identification method, an electronic device, and a readable storage medium.
- the purpose of the present application is to provide a ticket information identification method, an electronic device, and a readable storage medium, which are intended to improve the efficiency of ticket information identification and reduce the error rate of ticket information recognition.
- a first aspect of the present application provides an electronic device, where the electronic device includes a memory and a processor, where the memory stores a ticket information recognition system operable on the processor, and the ticket information
- the identification system implements the following steps when executed by the processor:
- the area recognition model After receiving the picture of the ticket to be processed, determining a region recognition model corresponding to each field to be identified in the ticket image according to a predetermined mapping relationship between the field to be identified and the region identification model, and calling corresponding to each field to be identified
- the area recognition model performs area recognition on the line character area of the ticket picture, and identifies a target frame containing the character information and having a fixed width as a preset value from the ticket picture, and the included character information is in the same line.
- the frames are spliced together in the order of recognition to form a target line character region containing character information;
- a second aspect of the present application provides a ticket information identification method, where the ticket information identification method includes:
- Step 1 After receiving the picture of the bill to be processed, determining the area recognition model corresponding to each field to be identified in the ticket picture according to the mapping relationship between the predetermined field to be identified and the area identification model, for each field to be identified, Invoking a corresponding area recognition model to perform area recognition on the line character area of the ticket picture, identifying a target frame containing the character information and having a fixed width as a preset value from the ticket picture, and placing the included character information in the same
- the target boxes of the rows are stitched together in the order of recognition. Forming a target line character area containing character information;
- Step 2 Determine, according to a predetermined mapping relationship between the to-be-identified field and the character recognition model, a character recognition model corresponding to each of the to-be-identified fields, and call a corresponding character recognition model for each of the target line character regions of the to-be-identified field Character recognition is performed to respectively identify character information included in a target line character region of each of the to-be-identified fields.
- a third aspect of the present application provides a computer readable storage medium storing a ticket information identification system, the ticket information identification system being executable by at least one processor, Taking the at least one processor to perform the following steps:
- the area recognition model After receiving the picture of the ticket to be processed, determining a region recognition model corresponding to each field to be identified in the ticket image according to a predetermined mapping relationship between the field to be identified and the region identification model, and calling corresponding to each field to be identified
- the area recognition model performs area recognition on the line character area of the ticket picture, and identifies a target frame containing the character information and having a fixed width as a preset value from the ticket picture, and the included character information is in the same line.
- the frames are spliced together in the order of recognition to form a target line character region containing character information;
- the area recognition model corresponding to each field to be identified in the ticket image is used to identify the area of each line to be recognized in the line character area of the ticket picture, and identify A small frame containing character information and a fixed width is a preset value, and the small boxes containing the character information in the same line are sequentially stitched to form a target line character area containing character information, and the character recognition model corresponding to the field to be identified is called. Character recognition is performed on the target line character area.
- the identified line character area containing the character information is the width of the unified fixed preset value, the character information can be specific to the smaller sub-area, and the sub-area containing the character information has a good approximation.
- the target line character area when character recognition is performed by the character recognition model there are much less interference factors than the character information, thereby reducing the error rate of the ticket information recognition.
- FIG. 1 is a schematic diagram of an operating environment of a preferred embodiment of the ticket information identification system 10 of the present application;
- FIG. 2 is a schematic flowchart diagram of an embodiment of a method for identifying a bill information according to the present application.
- FIG. 1 is a schematic diagram of an operating environment of a preferred embodiment of the ticket information identification system 10 of the present application.
- the ticket information identification system 10 is installed and operated in the electronic device 1.
- the electronic device 1 may include, but is not limited to, a memory 11, a processor 12, and a display 13.
- Figure 1 shows only the electronic device 1 with components 11-13, but it should be understood that not all illustrated components may be implemented, and more or fewer components may be implemented instead.
- the memory 11 comprises at least one type of readable storage medium, which in some embodiments may be an internal storage unit of the electronic device 1, such as a hard disk or memory of the electronic device 1.
- the memory 11 may also be an external storage device of the electronic device 1 in other embodiments, such as a plug-in hard disk equipped on the electronic device 1, a smart memory card (SMC), and a secure digital device. (Secure Digital, SD) card, flash card, etc.
- SMC smart memory card
- SD Secure Digital
- flash card etc.
- the memory 11 may also include both an internal storage unit of the electronic device 1 and an external storage device.
- the memory 11 is used to store application software and various types of data installed in the electronic device 1, such as program codes of the ticket information recognition system 10, and the like.
- the memory 11 can also be used to temporarily store data that has been output or is about to be output.
- the processor 12 in some embodiments, may be a central processing unit (CPU), a microprocessor or other data processing chip for running program code or processing data stored in the memory 11, for example
- the ticket information recognition system 10 and the like are executed.
- the display 13 in some embodiments may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode) touch sensor, or the like.
- the display 13 is for displaying information processed in the electronic device 1 and a user interface for displaying visualization, such as a bill picture to be processed, recognized character information, and the like.
- the components 11-13 of the electronic device 1 communicate with one another via a system bus.
- the ticket information identification system 10 includes at least one computer readable instruction stored in the memory 11, the at least one computer readable instruction being executable by the processor 12 to implement various embodiments of the present application.
- Step S1 After receiving the picture of the bill to be processed, determining, according to a predetermined mapping relationship between the field to be identified and the area identification model, an area recognition model corresponding to each field to be identified in the ticket picture, for each field to be identified, Invoking a corresponding area recognition model to perform area recognition on the line character area of the ticket picture, identifying a target frame containing the character information and having a fixed width as a preset value from the ticket picture, and placing the included character information in the same
- the target frames of the rows are stitched together in the order of recognition to form a target line character region containing character information.
- the ticket information identification system 10 receives a bill picture of the to-be-identified processing sent by the user through the terminal device 2, and the bill picture includes a bill picture related to insurance, medical, financial, and the like, such as an outpatient or hospital bill picture.
- a bill picture related to insurance, medical, financial, and the like such as an outpatient or hospital bill picture.
- receiving a picture of a ticket sent by a user on a client installed in a terminal device such as a mobile phone, a tablet computer, or a self-service terminal device
- receiving the user to send the message on a browser system in a terminal such as a mobile phone, a tablet computer, or a self-service terminal device.
- a region identification model corresponding to the type of the field to be identified is pre-configured, for example, a first recognition model is pre-set for the text class field, and a second recognition model is preset for the digital class field, for the date/ The time class field is pre-set with a third recognition model, the fourth recognition model is pre-set for the currency class field, and so on.
- the method may include:
- the pre-trained bill picture recognition model is used to identify the bill type in the received picture, and output the identification result of the bill category (for example, the category of the medical bill includes the outpatient bill, Hospitalization bills, as well as other types of notes).
- A2 Performing a tilt correction on the received ticket image by using a predetermined correction rule; in an optional implementation manner, the predetermined correction rule is: using a Hough probability algorithm to find the ticket As many small straight lines as possible in the image; all straight lines are determined from the found small straight lines, and the straight lines whose x coordinate values are not much different in the determined straight line are sequentially connected in the order of the corresponding y coordinate values.
- the size of the x coordinate value it is divided into several classes, or the straight lines whose y coordinate values are not much different in the determined straight line are sequentially connected in the order of the corresponding x coordinate values, and are classified into several classes according to the size of the y coordinate value; All horizontal lines belonging to a class are used as a target class line, and the longest line closest to each target class line is found by least squares method; the slope of each long line is calculated, and the median of the slopes of each long line is calculated. Mean, compare the median and mean of the calculated slope to determine the smaller one, and adjust the image tilt according to the smaller one to determine the received bill No inclination correction is normal piece of the picture.
- A3. Determine, according to a mapping relationship between the predetermined ticket category and the to-be-identified field, a field to be identified corresponding to the identified ticket category;
- A4. Determine, according to a predetermined mapping relationship between the to-be-identified field and the area recognition model, an area recognition model corresponding to each of the to-be-identified fields.
- the area recognition model is a convolutional neural network model
- the training process for the area recognition model corresponding to a field to be identified is as follows:
- the ticket picture sample containing the character information of the to-be-identified field is classified into the first training set, and the ticket picture sample that does not include the character information of the to-be-identified field is classified into the second training set;
- C6 performing model training by using the extracted sample images to be trained to generate the region recognition model, and verifying the generated region recognition model by using each sample image to be verified;
- verification pass rate is greater than or equal to a preset threshold (for example, 98%), the training is completed, or if the verification pass rate is less than the preset threshold, increase the number of ticket picture samples, and repeat steps C2, C3, and C4. , C5, C6.
- a preset threshold for example, 98%)
- Step S2 determining, according to a predetermined mapping relationship between the to-be-identified field and the character recognition model, a character recognition model corresponding to each of the to-be-identified fields, and target line characters for each of the to-be-identified fields
- the area is called by the corresponding character recognition model for character recognition to respectively identify the character information included in the target line character area of each of the to-be-identified fields.
- the character recognition corresponding to each of the to-be-identified fields may be determined according to a predetermined mapping relationship between the to-be-identified field and the character recognition model.
- a model in response to the identified target line character regions of each of the to-be-identified fields, calling a corresponding character recognition model for character recognition to respectively identify character information included in a target line character region of each of the to-be-identified fields, completing the entire The character information of the ticket picture is identified.
- the character recognition model is a Long-Short Term Memory (LSTM), and the training process for a character recognition model corresponding to a field to be identified is as follows:
- the ticket picture sample contains only one line of character information of the to-be-identified field, the font is black, the background is white, and each ticket is The name of the picture sample is named as the character information of the field to be identified contained therein;
- the bill picture samples are divided into a first data set and a second data set according to a ratio of X:Y (for example, 8:2), and the number of bill picture samples in the first data set is larger than the bill picture sample in the second data set.
- Quantity the first data set as a training set, and the second data set as a test set, where X is greater than 0 and Y is greater than 0;
- the sample of the bill image in the first data set is sent to the time recurrent neural network model for model training, and the second data is used for the trained model every certain period of time or a preset number of iterations (for example, every 1000 iterations).
- the set is tested to evaluate the effect of the currently trained model.
- the trained model is used to identify the character information of the ticket image sample in the second data set, and compares with the name of the tested ticket picture sample to calculate the error of the recognition result and the labeling result, and the error calculation uses the editing distance. As a calculation standard.
- the training model obtains divergence of the character information recognition error of the ticket picture sample during the test, the training parameters are adjusted and retrained, so that the error of the character information recognition of the ticket picture sample can be converged during the training. After the error converges, the model training is ended, and the generated model is used as the final character recognition model corresponding to the to-be-identified field.
- the area identification model corresponding to each to-be-identified field in the ticket picture performs area identification on each line character area in the ticket picture, and identifies the character information and the fixed width.
- a small frame of preset values, and the small boxes containing the character information in the same row are sequentially stitched to form a target line character region containing character information, and the character recognition model corresponding to the field to be recognized is called to the target line character region.
- the target line character area when character recognition is performed by the character recognition model, there are much less interference factors than the character information, thereby reducing the error rate of the ticket information recognition.
- the ticket picture recognition model is a deep convolutional neural network model (eg, the deep convolutional neural network model may be in a CaffeNet environment)
- the selected deep convolutional neural network SSD (Single Shot MultiBox Detector) algorithm model the deep convolutional neural network model consists of one input layer, 13 convolutional layers, 5 pooling layers, 2 fully connected layers, One classification layer is formed.
- Table 1 The detailed structure of the deep convolutional neural network model is shown in Table 1 below:
- Layer Name indicates the name of each layer
- Input indicates the input layer
- Conv indicates the convolution layer of the model
- Conv1 indicates the first convolution layer of the model
- MaxPool indicates the maximum pooling layer of the model
- MaxPool1 indicates the model.
- Fc represents the fully connected layer in the model
- Fc1 represents the first fully connected layer in the model
- Softmax represents the Softmax classifier
- Batch Size represents the number of input images of the current layer
- Kernel Size represents the current layer volume
- the scale of the kernel (for example, the Kernel Size can be equal to 3, indicating that the scale of the convolution kernel is 3x3)
- the Stride Size indicates the moving step size of the convolution kernel, that is, the distance moved to the next convolution position after one convolution is completed.
- Pad Size indicates the size of the image fill in the current network layer.
- pooling mode of the pooling layer in this embodiment includes, but is not limited to, Mean pooling, Max pooling, Overlapping, L2pooling, Local Contrast. Normalization, Stochasticpooling, Def-pooling, and more.
- the training process of the ticket picture recognition model is as follows:
- the transposition of the bill picture is determined, and the flip adjustment is made: when the aspect ratio is greater than 1, the height and width of the bill picture are reversed, and if the stamp position is on the left side of the bill picture, the bill is The image is rotated clockwise by ninety degrees. If the stamp position is on the right side of the bill image, the bill image is rotated counterclockwise by ninety degrees. When the aspect ratio is less than 1, the bill image height and width are not reversed. The position is on the lower side of the ticket picture, and the ticket image is rotated clockwise by one hundred and eighty degrees.
- the annotation data of each object refers to the position information of the rectangular frame of the object, and the coordinates of the upper left corner of the rectangle (xmin, ymin) and the coordinates of the lower right corner (xmax, Ymax) indicates four numbers. If xmax ⁇ xmin, reverse the position and do the same for the y coordinate to ensure max>min.
- the sample picture of the ticket for the model training is a picture of the ticket whose height and width are not reversed and marked accurately, so as to facilitate the subsequent model training to be more accurate and effective.
- FIG. 2 is a schematic flowchart of a method for identifying a ticket information according to an embodiment of the present invention.
- the method for identifying a ticket information includes the following steps:
- Step S10 After receiving the picture of the ticket to be processed, determining, according to the mapping relationship between the field to be identified and the area identification model, the area recognition model corresponding to each field to be identified in the ticket picture, for each field to be identified, Invoking a corresponding area recognition model to perform area recognition on the line character area of the ticket picture, identifying a target frame containing the character information and having a fixed width as a preset value from the ticket picture, and placing the included character information in the same
- the target frames of the rows are stitched together in the order of recognition to form a target line character region containing character information.
- the ticket information identification system 10 receives a bill picture of the to-be-identified processing sent by the user through the terminal device 2, and the bill picture includes a bill picture related to insurance, medical, financial, and the like, such as an outpatient or hospital bill picture.
- a bill picture related to insurance, medical, financial, and the like such as an outpatient or hospital bill picture.
- receiving a picture of a ticket sent by a user on a client installed in a terminal device such as a mobile phone, a tablet computer, or a self-service terminal device
- receiving the user to send the message on a browser system in a terminal such as a mobile phone, a tablet computer, or a self-service terminal device.
- a region identification model corresponding to the type of the field to be identified is pre-configured, for example, a first recognition model is pre-set for the text class field, and a second recognition model is preset for the digital class field, for the date/ The time class field is pre-set with a third recognition model, the fourth recognition model is pre-set for the currency class field, and so on.
- a predetermined mapping relationship between the to-be-identified field such as a text class field, a numeric class field, a date/time class field, a currency class field, and the like
- An area recognition model corresponding to each of the to-be-identified fields For each of the to-be-identified fields, the corresponding area recognition model is called to perform area recognition on the line character area of the ticket picture, and the character information is recognized from the ticket picture and the fixed width is a preset value (for example, 16 pieces)
- the small frame of the pixel width is the target frame, and the small boxes containing the character information in the same line are stitched together in order to form a target line character region containing character information.
- the method may include:
- the pre-trained bill picture recognition model is used to identify the bill type in the received picture, and output the identification result of the bill category (for example, the category of the medical bill includes the outpatient bill, Hospitalization bills, as well as other types of notes).
- A2 Performing a tilt correction on the received ticket image by using a predetermined correction rule; in an optional implementation manner, the predetermined correction rule is: using a Hough probability algorithm to find the ticket As many small straight lines as possible in the image; all straight lines are determined from the found small straight lines, and the straight lines whose x coordinate values are not much different in the determined straight line are sequentially connected in the order of the corresponding y coordinate values.
- the size of the x coordinate value it is divided into several classes, or the straight lines whose y coordinate values are not much different in the determined straight line are sequentially connected in the order of the corresponding x coordinate values, and are classified into several classes according to the size of the y coordinate value; All horizontal lines belonging to a class are used as a target class line, and the longest line closest to each target class line is found by least squares method; the slope of each long line is calculated, and the median of the slopes of each long line is calculated. Mean, compare the median and mean of the calculated slope to determine the smaller one, and adjust the image tilt according to the smaller one to determine the received bill No inclination correction is normal piece of the picture.
- A3. Determine, according to a mapping relationship between the predetermined ticket category and the to-be-identified field, a field to be identified corresponding to the identified ticket category;
- A4. Determine, according to a predetermined mapping relationship between the to-be-identified field and the area recognition model, an area recognition model corresponding to each of the to-be-identified fields.
- the area recognition model is a convolutional neural network model
- the training process for the area recognition model corresponding to a field to be identified is as follows:
- the ticket picture sample containing the character information of the to-be-identified field is classified into the first training set, and the ticket picture sample that does not include the character information of the to-be-identified field is classified into the second training set;
- C6 performing model training by using the extracted sample images to be trained to generate the region recognition model, and verifying the generated region recognition model by using each sample image to be verified;
- verification pass rate is greater than or equal to a preset threshold (for example, 98%), the training is completed, or if the verification pass rate is less than the preset threshold, increase the number of ticket picture samples, and repeat steps C2, C3, and C4. , C5, C6.
- a preset threshold for example, 98%)
- Step S20 Determine, according to a predetermined mapping relationship between the to-be-identified field and the character recognition model, a character recognition model corresponding to each of the to-be-identified fields, and call a corresponding character recognition model for each of the target line character regions of the to-be-identified field.
- Character recognition to identify each of the to-be-identified words The character information contained in the target line character area of the segment.
- the character recognition corresponding to each of the to-be-identified fields may be determined according to a predetermined mapping relationship between the to-be-identified field and the character recognition model.
- a model in response to the identified target line character regions of each of the to-be-identified fields, calling a corresponding character recognition model for character recognition to respectively identify character information included in a target line character region of each of the to-be-identified fields, completing the entire The character information of the ticket picture is identified.
- the character recognition model is a Long-Short Term Memory (LSTM), and the training process for a character recognition model corresponding to a field to be identified is as follows:
- the ticket picture sample contains only one line of character information of the to-be-identified field, the font is black, the background is white, and each ticket is The name of the picture sample is named as the character information of the field to be identified contained therein;
- the bill picture samples are divided into a first data set and a second data set according to a ratio of X:Y (for example, 8:2), and the number of bill picture samples in the first data set is larger than the bill picture sample in the second data set.
- Quantity the first data set as a training set, and the second data set as a test set, where X is greater than 0 and Y is greater than 0;
- the sample of the bill image in the first data set is sent to the time recurrent neural network model for model training, and the second data is used for the trained model every certain period of time or a preset number of iterations (for example, every 1000 iterations).
- the set is tested to evaluate the effect of the currently trained model.
- the trained model is used to identify the character information of the ticket image sample in the second data set, and compares with the name of the tested ticket picture sample to calculate the error of the recognition result and the labeling result, and the error calculation uses the editing distance. As a calculation standard.
- the training model obtains divergence of the character information recognition error of the ticket picture sample during the test, the training parameters are adjusted and retrained, so that the error of the character information recognition of the ticket picture sample can be converged during the training. After the error converges, the model training is ended, and the generated model is used as the final character recognition model corresponding to the to-be-identified field.
- the area identification model corresponding to each to-be-identified field in the ticket picture performs area identification on each line character area in the ticket picture, and identifies the character information and the fixed width.
- a small frame of preset values, and the small boxes containing the character information in the same row are sequentially stitched to form a target line character region containing character information, and the character recognition model corresponding to the field to be recognized is called to the target line character region.
- the target line character area when character recognition is performed by the character recognition model, there are much less interference factors than the character information, thereby reducing the error rate of the ticket information recognition.
- the ticket picture recognition model is a deep convolutional neural network model (for example, the deep convolutional neural network model may be selected based on a CaffeNet environment) Deep Spool (Single Shot MultiBox Detector) algorithm model, the deep convolutional neural network model consists of 1 input layer, 13 convolutional layers, 5 pooling layers, 2 fully connected layers, 1 classification Layer composition.
- the detailed structure of the deep convolutional neural network model is shown in Table 1 below:
- Layer Name indicates the name of each layer
- Input indicates the input layer
- Conv indicates the convolution layer of the model
- Conv1 indicates the first convolution layer of the model
- MaxPool indicates the maximum pooling layer of the model
- MaxPool1 indicates the model.
- Fc represents the fully connected layer in the model
- Fc1 represents the first fully connected layer in the model
- Softmax represents the Softmax classifier
- Batch Size represents the number of input images of the current layer
- Kernel Size represents the current layer volume
- the scale of the kernel (for example, the Kernel Size can be equal to 3, indicating that the scale of the convolution kernel is 3x3)
- the Stride Size indicates the moving step size of the convolution kernel, that is, the distance moved to the next convolution position after one convolution is completed.
- Pad Size indicates the size of the image fill in the current network layer.
- pooling mode of the pooling layer in this embodiment includes, but is not limited to, Mean pooling, Max pooling, Overlapping, L2pooling, Local Contrast. Normalization, Stochasticpooling, Def-pooling, and more.
- the training process of the ticket picture recognition model is as follows:
- the preset ticket category may include two types of outpatient bills and hospital bills
- preparing a preset number for example, 1000 sheets
- the bill image sample is processed as follows:
- the transposition of the bill picture is determined, and the flip adjustment is made: when the aspect ratio is greater than 1, the height and width of the bill picture are reversed, and if the stamp position is on the left side of the bill picture, the bill is The image is rotated clockwise by ninety degrees. If the stamp position is on the right side of the bill image, the bill image is rotated counterclockwise by ninety degrees. When the aspect ratio is less than 1, the bill image height and width are not reversed. The position is on the lower side of the ticket picture, and the ticket image is rotated clockwise by one hundred and eighty degrees.
- the annotation data of each object refers to the position information of the rectangular frame of the object, and the coordinates of the upper left corner of the rectangle (xmin, ymin) and the coordinates of the lower right corner (xmax, Ymax) indicates four numbers. If xmax ⁇ xmin, reverse the position and do the same for the y coordinate to ensure max>min.
- the sample picture of the ticket for the model training is a picture of the ticket whose height and width are not reversed and marked accurately, so as to facilitate the subsequent model training to be more accurate and effective.
- the present application also provides a computer readable storage medium storing a ticket information identification system, the ticket information identification system being executable by at least one processor to cause the at least one processor.
- the foregoing embodiment method can be implemented by means of software plus a necessary general hardware platform, and can also be implemented by hardware, but in many cases, the former is A better implementation.
- the technical solution of the present application which is essential or contributes to the prior art, may be embodied in the form of a software product stored in a storage medium (such as ROM/RAM, disk,
- the optical disc includes a number of instructions for causing a terminal device (which may be a mobile phone, a computer, a server, an air conditioner, or a network device, etc.) to perform the methods described in various embodiments of the present application.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本申请涉及一种票据信息识别方法、电子装置及可读存储介质,该方法包括:根据预先确定的待识别字段与区域识别模型的映射关系,确定票据图片中各个待识别字段对应的区域识别模型,调用对应的区域识别模型对票据图片的行字符区域进行区域识别,从票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别。本申请能降低票据信息识别的错误率。
Description
本申请基于巴黎公约申明享有2017年10月9日递交的申请号为CN201710930679.8、名称为“票据信息识别方法、电子装置及可读存储介质”中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
本申请涉及计算机技术领域,尤其涉及一种票据信息识别方法、电子装置及可读存储介质。
如今随着经济的发展和人们生活水平的提高,越来越多的人选择购买医疗、商业、金融等保险。为了改善用户的保险理赔体验,提升保险理赔效率,目前,有些保险公司推出了自助理赔业务,比如用户在进行医疗保险理赔过程中,只需要将门诊或住院票据拍照上传到保险公司系统,保险公司业务员会将用户上传的票据图片上的信息录入到理赔系统中,以进行下一步操作,这种自助理赔方式大大方便了用户进行理赔的过程,然而,这种自助理赔方式在带来了便捷的理赔过程的同时,却增加了保险公司业务人员的工作压力,问题主要表现在需要花费大量的人力来处理用户上传的票据图像,效率低下,且数据录入的错误率居高不下。
发明内容
本申请的目的在于提供一种票据信息识别方法、电子装置及可读存储介质,旨在提高票据信息识别效率和降低票据信息识别的错误率。
为实现上述目的,本申请第一方面提供一种电子装置,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的票据信息识别系统,所述票据信息识别系统被所述处理器执行时实现如下步骤:
在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
此外,为实现上述目的,本申请第二方面提供一种票据信息识别方法,所述票据信息识别方法包括:
步骤一、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起
形成包含字符信息的目标行字符区域;
步骤二、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
进一步地,为实现上述目的,本申请第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:
在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;
根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
本申请提出的票据信息识别方法、系统及可读存储介质,通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
图1为本申请票据信息识别系统10较佳实施例的运行环境示意图;
图2为本申请票据信息识别方法一实施例的流程示意图。
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时
应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本申请提供一种票据信息识别系统。请参阅图1,是本申请票据信息识别系统10较佳实施例的运行环境示意图。
在本实施例中,所述的票据信息识别系统10安装并运行于电子装置1中。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器11至少包括一种类型的可读存储介质,所述存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。所述存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括所述电子装置1的内部存储单元也包括外部存储设备。所述存储器11用于存储安装于所述电子装置1的应用软件及各类数据,例如所述票据信息识别系统10的程序代码等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行所述票据信息识别系统10等。
所述显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。所述显示器13用于显示在所述电子装置1中处理的信息以及用于显示可视化的用户界面,例如待处理的票据图片、识别出的字符信息等。所述电子装置1的部件11-13通过系统总线相互通信。
所述票据信息识别系统10包括至少一个存储在所述存储器11中的计算机可读指令,该至少一个计算机可读指令可被所述处理器12执行,以实现本申请各实施例。
其中,上述票据信息识别系统10被所述处理器12执行时实现如下步骤:
步骤S1,在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。
本实施例中,票据信息识别系统10接收用户通过终端设备2发送的待识别处理的票据图片,该票据图片包括与医疗、商业、金融等保险相关的票据图片,如门诊或住院票据图片。例如,接收用户在手机、平板电脑、自助终端设备等终端设备中预先安装的客户端上发送来的票据图片,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的票据图片。
预先根据待识别字段的不同类型预设有与之对应的区域识别模型,例如,针对文本类字段对应预设有第一识别模型,针对数字类字段对应预设有第二识别模型,针对日期/时间类字段对应预设有第三识别模型,针对货币类字段对应预设有第四识别模型,等等。这样,在收到待处理的票据图片后,根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等)
与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型,针对各个所述待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如,16个像素宽度)的小框即目标框,并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中,在确定各个待识别字段对应的区域识别模型时可包括:
A1、在收到待处理的票据图片后,利用预先训练的票据图片识别模型对收到的图片中的票据类别进行识别,并输出票据类别的识别结果(例如,医疗票据的类别包括门诊票据,住院票据,以及其他类票据)。
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;在一种可选的实施方式中,所述预先确定的矫正规则为:用霍夫变换(Hough)的概率算法找出票据图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像倾角,以将收到的票据图片矫正为正常无倾角的图片。
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
在一种可选的实施方式中,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量(例如,16个)的像素,设置第二预设数量(例如,10个)的不同高宽比的且固定宽度为预设值(例如,16个像素宽度)的小框;
C3、在各个票据图片样本上对包含该待识别字段的部分或者全部字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
步骤S2,根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符
区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
本实施例中,在利用区域识别模型识别出各个待识别字段的目标行字符区域后,可根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对识别出的各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,完成整个票据图片的字符信息识别。
在一种可选的实施方式中,所述字符识别模型为时间递归神经网络模型(Long-Short Term Memory,LSTM),针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y(例如,8:2)的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入时间递归神经网络模型进行模型训练,每隔一段时间或预设次数的迭代(例如每进行1000次迭代),对训练得到的模型使用第二数据集进行测试,以评估当前训练的模型效果。测试时,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并和测试的票据图片样本的名称做对比,以计算识别的结果和标注结果的误差,误差计算采用编辑距离作为计算标准。若训练得到的模型在测试时对票据图片样本的字符信息识别误差出现发散,则调整训练参数并重新训练,使训练时模型对票据图片样本的字符信息识别的误差能够收敛。当误差收敛后,结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
与现有技术相比,本实施例通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
在一可选的实施例中,在上述图1的实施例的基础上,所述票据图片识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述票据图片识别模型的训练过程如下:
B1、为每一个预设票据类别(例如,预设票据类别可包括门诊票据和住院票据2种)准备预设数量(例如,1000张)的标注有对应的票据类别的票据图片
样本;本实施例中,在训练之前,针对票据图片样本还做如下处理:
根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整:当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于票据中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
对经过翻转后的标注数据做修正,每个对象的标注数据指的是框出这个对象的矩形框的位置信息,用这个矩形框的左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax)四个数来表示,如果xmax<xmin,则颠倒二者位置,对y坐标做同样的处理,以确保max>min。
这样,能保证进行模型训练的票据图片样本均为高宽未颠倒且标注准确无误的票据图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设票据类别对应的票据图片样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
B3、利用所述训练集训练所述票据图片识别模型;
B4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤B2、B3、B4。
如图2所示,图2为本申请票据信息识别方法一实施例的流程示意图,该票据信息识别方法包括以下步骤:
步骤S10,在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域。
本实施例中,票据信息识别系统10接收用户通过终端设备2发送的待识别处理的票据图片,该票据图片包括与医疗、商业、金融等保险相关的票据图片,如门诊或住院票据图片。例如,接收用户在手机、平板电脑、自助终端设备等终端设备中预先安装的客户端上发送来的票据图片,或接收用户在手机、平板电脑、自助终端设备等终端中的浏览器系统上发送来的票据图片。
预先根据待识别字段的不同类型预设有与之对应的区域识别模型,例如,针对文本类字段对应预设有第一识别模型,针对数字类字段对应预设有第二识别模型,针对日期/时间类字段对应预设有第三识别模型,针对货币类字段对应预设有第四识别模型,等等。这样,在收到待处理的票据图片后,根据预先确定的待识别字段(如文本类字段、数字类字段、日期/时间类字段、货币类字段等等)与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型,针
对各个所述待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值(例如,16个像素宽度)的小框即目标框,并将所包含的字符信息处于同一行的小框按照先后顺序拼接在一起形成包含字符信息的目标行字符区域。其中,在确定各个待识别字段对应的区域识别模型时可包括:
A1、在收到待处理的票据图片后,利用预先训练的票据图片识别模型对收到的图片中的票据类别进行识别,并输出票据类别的识别结果(例如,医疗票据的类别包括门诊票据,住院票据,以及其他类票据)。
A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;在一种可选的实施方式中,所述预先确定的矫正规则为:用霍夫变换(Hough)的概率算法找出票据图像中尽可能多的小段直线;从找出的小段直线中确定出所有偏水平的直线,并将确定出的直线中x坐标值相差不大的直线按对应的y坐标值的大小顺序依次相连,按照x坐标值大小分为若干类,或者,将确定出的直线中y坐标值相差不大的直线按对应的x坐标值的大小顺序依次相连,按照y坐标值大小分为若干类;将属于一类的所有水平直线作为一个目标类直线,并通过最小二乘法找出最接近各个目标类直线的长直线;计算出各个长直线的斜率,计算出各个长直线的斜率的中位数和均值,比较计算出的斜率的中位数和均值的大小以确定出较小者,并根据确定出的较小者调整图像倾角,以将收到的票据图片矫正为正常无倾角的图片。
A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;
A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
在一种可选的实施方式中,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:
C1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本;
C2、在各个票据图片样本上每隔第一预设数量(例如,16个)的像素,设置第二预设数量(例如,10个)的不同高宽比的且固定宽度为预设值(例如,16个像素宽度)的小框;
C3、在各个票据图片样本上对包含该待识别字段的部分或者全部字符信息的小框进行标记;
C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;
C5、分别从第一训练集和第二训练集中提取出第一预设比例(例如,80%)的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;
C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;
C7、若验证通过率大于等于预设阈值(例如,98%),则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
步骤S20,根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字
段的目标行字符区域包含的字符信息。
本实施例中,在利用区域识别模型识别出各个待识别字段的目标行字符区域后,可根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对识别出的各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息,完成整个票据图片的字符信息识别。
在一种可选的实施方式中,所述字符识别模型为时间递归神经网络模型(Long-Short Term Memory,LSTM),针对一个待识别字段对应的字符识别模型的训练过程如下:
D1、针对该待识别字段,获取预设数量(例如,10万)的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,字体为黑色,背景为白色,并将各个票据图片样本的名称命名为其所包含的该待识别字段的字符信息;
D2、将所述票据图片样本按照X:Y(例如,8:2)的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;
D3、将第一数据集中的票据图片样本送入时间递归神经网络模型进行模型训练,每隔一段时间或预设次数的迭代(例如每进行1000次迭代),对训练得到的模型使用第二数据集进行测试,以评估当前训练的模型效果。测试时,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并和测试的票据图片样本的名称做对比,以计算识别的结果和标注结果的误差,误差计算采用编辑距离作为计算标准。若训练得到的模型在测试时对票据图片样本的字符信息识别误差出现发散,则调整训练参数并重新训练,使训练时模型对票据图片样本的字符信息识别的误差能够收敛。当误差收敛后,结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
与现有技术相比,本实施例通过票据图片中各个待识别字段对应的区域识别模型对各个待识别字段在所述票据图片中的行字符区域进行区域识别,识别出包含字符信息且固定宽度为预设值的小框,并将所包含的字符信息处于同一行的小框按顺序拼接形成包含字符信息的目标行字符区域,调用与待识别字段对应的字符识别模型对该目标行字符区域进行字符识别。由于识别出的包含字符信息的行字符区域为统一固定预设值的宽度,这样,可以将字符信息具体到更小的子区域,并对包含字符信息的各个子区域有一个很好的逼近,在利用字符识别模型进行字符识别时的目标行字符区域中除字符信息之外的其它干扰因素会少很多,从而降低票据信息识别的错误率。
在一可选的实施例中,在上述实施例的基础上,所述票据图片识别模型为深度卷积神经网络模型(例如,该深度卷积神经网络模型可以为在CaffeNet的环境下选取的基于深度卷积神经网络SSD(Single Shot MultiBox Detector)算法模型),该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成。所述深度卷积神经网络模型的详细结构如下表1所示:
表1
其中:Layer Name表示每一层的名称,Input表示输入层,Conv表示模型的卷积层,Conv1表示模型的第1个卷积层,MaxPool表示模型的最大值池化层,MaxPool1表示模型的第1个最大值池化层,Fc表示模型中的全连接层,Fc1表示模型中第1个全连接层,Softmax表示Softmax分类器;Batch Size表示当前层的输入图像数目;Kernel Size表示当前层卷积核的尺度(例如,Kernel Size可以等于3,表示卷积核的尺度为3x3);Stride Size表示卷积核的移动步长,即做完一次卷积之后移动到下一个卷积位置的距离;Pad Size表示对当前网络层之中的图像填充的大小。需要说明的是,本实施例中池化层的池化方式包括但不限于Mean pooling(均值采样)、Max pooling(最大值采样)、Overlapping(重叠采样)、L2pooling(均方采样)、Local Contrast Normalization(归一化采样)、Stochasticpooling(随即采样)、Def-pooling(形变约束采样)等等。
所述票据图片识别模型的训练过程如下:
B1、为每一个预设票据类别(例如,预设票据类别可包括门诊票据和住院票据2种)准备预设数量(例如,1000张)的标注有对应的票据类别的票据图片样本;本实施例中,在训练之前,针对票据图片样本还做如下处理:
根据其高宽比信息以及印章的位置判断票据图片的转置情况,并做翻转调整:当高宽比大于1时,说明票据图片高宽颠倒,若印章位置在票据图片左侧,则对票据图像做顺时针旋转九十度处理,若印章位置在票据图片右侧,则对票据图像做逆时针旋转九十度处理;当高宽比小于1时,说明票据图片高宽未颠倒,若印章位置在票据图片下侧,则对票据图像做顺时针旋转一百八十度处理。
找出标注存在严重问题的数据,比如关键位置信息缺失或超出整张图片范围,以及印章标注位置位于票据中央等明显标注错误的数据,对这些数据进行清理,确保数据标注准确无误。
对经过翻转后的标注数据做修正,每个对象的标注数据指的是框出这个对象的矩形框的位置信息,用这个矩形框的左上角坐标(xmin,ymin)和右下角坐标(xmax,ymax)四个数来表示,如果xmax<xmin,则颠倒二者位置,对y坐标做同样的处理,以确保max>min。
这样,能保证进行模型训练的票据图片样本均为高宽未颠倒且标注准确无误的票据图片,以利于后续的模型训练更加准确有效。
B2、将每一个预设票据类别对应的票据图片样本分为第一比例(例如,80%)的训练子集和第二比例(例如,20%)的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;
B3、利用所述训练集训练所述票据图片识别模型;
B4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤B2、B3、B4。
此外,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如上述实施例中的票据信息识别方法的步骤,该票据信息识别方法的步骤S10、S20、S30等具体实施过程如上文所述,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上参照附图说明了本申请的优选实施例,并非因此局限本申请的权利范围。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。另外,虽然在
流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本领域技术人员不脱离本申请的范围和实质,可以有多种变型方案实现本申请,比如作为一个实施例的特征可用于另一实施例而得到又一实施例。凡在运用本申请的技术构思之内所作的任何修改、等同替换和改进,均应在本申请的权利范围之内。
Claims (20)
- 一种电子装置,其特征在于,所述电子装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的票据信息识别系统,所述票据信息识别系统被所述处理器执行时实现如下步骤:在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
- 如权利要求1所述的电子装置,其特征在于,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
- 如权利要求1所述的电子装置,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求2所述的电子装置,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求1所述的电子装置,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
- 如权利要求2所述的电子装置,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
- 如权利要求2所述的电子装置,其特征在于,所述票据图片识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成;所述票据图片识别模型的训练过程如下:S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本;S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;S3、利用所述训练集训练所述票据图片识别模型;S4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤S2、S3、S4。
- 一种票据信息识别方法,其特征在于,所述票据信息识别方法包括:步骤一、在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;步骤二、根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
- 如权利要求8所述的票据信息识别方法,其特征在于,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述 待识别字段对应的区域识别模型。
- 如权利要求8所述的票据信息识别方法,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求9所述的票据信息识别方法,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求8所述的票据信息识别方法,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅 包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
- 如权利要求9所述的票据信息识别方法,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
- 如权利要求9所述的票据信息识别方法,其特征在于,所述票据图片识别模型为深度卷积神经网络模型,该深度卷积神经网络模型由1个输入层、13个卷积层、5个池化层、2个全连接层、1个分类层构成;所述票据图片识别模型的训练过程如下:S1、为每一个预设票据类别准备预设数量的标注有对应的票据类别的票据图片样本;S2、将每一个预设票据类别对应的票据图片样本分为第一比例的训练子集和第二比例的验证子集,将各个训练子集中的票据图片样本进行混合以得到训练集,并将各个验证子集中的票据图片样本进行混合以得到验证集;S3、利用所述训练集训练所述票据图片识别模型;S4、利用所述验证集验证训练的所述票据图片识别模型的准确率,若准确率大于或者等于预设准确率,则训练结束,或者,若准确率小于预设准确率,则增加每一个预设票据类别对应的票据图片样本的数量,并重新执行步骤S2、S3、S4。
- 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有票据信息识别系统,所述票据信息识别系统可被至少一个处理器执行,以使所述至少一个处理器执行如下步骤:在收到待处理的票据图片后,根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型,针对各个待识别字段,调用对应的区域识别模型对所述票据图片的行字符区域进行区域识别,从所述票据图片上识别出包含字符信息且固定宽度为预设值的目标框,并将所包含的字符信息处于同一行的目标框按照识别的先后顺序拼接在一起形成包含字符信息的目标行字符区域;根据预先确定的待识别字段与字符识别模型的映射关系,确定各个所述待识别字段对应的字符识别模型,针对各个所述待识别字段的目标行字符区域,调用对应的字符识别模型进行字符识别,以分别识别出各个所述待识别字段的目标行字符区域包含的字符信息。
- 如权利要求15所述的计算机可读存储介质,其特征在于,所述根据预先确定的待识别字段与区域识别模型的映射关系,确定所述票据图片中各个待识别字段对应的区域识别模型包括:A1、利用预先训练的票据图片识别模型对收到的票据图片的票据类别进行识别,并输出票据类别的识别结果;A2、利用预先确定的矫正规则对收到的票据图片进行倾斜矫正;A3、根据预先确定的票据类别与待识别字段的映射关系,确定识别的票据类别对应的待识别字段;A4、根据预先确定的待识别字段与区域识别模型的映射关系,确定各个所述待识别字段对应的区域识别模型。
- 如权利要求15所述的计算机可读存储介质,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求16所述的计算机可读存储介质,其特征在于,所述区域识别模型为卷积神经网络模型,针对一个待识别字段对应的区域识别模型的训练过程如下:C1、针对该待识别字段,获取预设数量的票据图片样本;C2、在各个票据图片样本上每隔第一预设数量的像素,设置第二预设数量的不同高宽比且固定宽度为预设值的小框;C3、在各个票据图片样本上对包含该待识别字段的字符信息的小框进行标记;C4、将包含该待识别字段的字符信息的票据图片样本归入第一训练集,并将不包含该待识别字段的字符信息的票据图片样本归入第二训练集;C5、分别从第一训练集和第二训练集中提取出第一预设比例的票据图片样本作为待训练的样本图片,并将第一训练集和第二训练集中剩余的票据图片样本作为待验证的样本图片;C6、利用提取的各个待训练的样本图片进行模型训练,以生成所述区域识别模型,并利用各个待验证的样本图片对生成的所述区域识别模型进行验证;C7、若验证通过率大于或等于预设阈值,则训练完成,或者,若验证通过率小于预设阈值,则增加票据图片样本的数量,并重复执行步骤C2、C3、C4、C5、C6。
- 如权利要求15所述的计算机可读存储介质,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集,第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
- 如权利要求16所述的计算机可读存储介质,其特征在于,所述字符识别模型为时间递归神经网络模型LSTM,针对一个待识别字段对应的字符识别模型的训练过程如下:D1、针对该待识别字段,获取预设数量的票据图片样本,票据图片样本中仅包含一行该待识别字段的字符信息,并将各个票据图片样本的名称命名为其包含的该待识别字段的字符信息;D2、将所述票据图片样本按照X:Y的比例分成第一数据集和第二数据集, 第一数据集中的票据图片样本数量大于第二数据集中的票据图片样本数量,将第一数据集作为训练集,第二数据集作为测试集,其中,X大于0,Y大于0;D3、将第一数据集中的票据图片样本送入预设的时间递归神经网络模型进行模型训练,每隔预设时间或预设次数的迭代,使用训练得到的模型对第二数据集中的票据图片样本进行字符信息识别,并将字符信息识别结果与测试的票据图片样本的名称进行比对,以计算字符信息识别结果的误差;若训练得到的模型对票据图片样本的字符信息识别的误差出现发散,则调整预设训练参数并重新训练模型,直至误差出现收敛,则结束模型训练,生成的模型作为最终的该待识别字段对应的字符识别模型。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710930679.8A CN107798299B (zh) | 2017-10-09 | 2017-10-09 | 票据信息识别方法、电子装置及可读存储介质 |
| CN201710930679.8 | 2017-10-09 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2019071660A1 true WO2019071660A1 (zh) | 2019-04-18 |
Family
ID=61533966
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/CN2017/108735 Ceased WO2019071660A1 (zh) | 2017-10-09 | 2017-10-31 | 票据信息识别方法、电子装置及可读存储介质 |
Country Status (2)
| Country | Link |
|---|---|
| CN (1) | CN107798299B (zh) |
| WO (1) | WO2019071660A1 (zh) |
Cited By (29)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110147791A (zh) * | 2019-05-20 | 2019-08-20 | 上海联影医疗科技有限公司 | 文字识别方法、装置、设备及存储介质 |
| CN110298347A (zh) * | 2019-05-30 | 2019-10-01 | 长安大学 | 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法 |
| CN110503105A (zh) * | 2019-09-02 | 2019-11-26 | 苏州美能华智能科技有限公司 | 字符识别方法、训练数据获取方法、装置和介质 |
| CN110766050A (zh) * | 2019-09-19 | 2020-02-07 | 北京捷通华声科技股份有限公司 | 模型生成方法、文本识别方法、装置、设备及存储介质 |
| CN110941717A (zh) * | 2019-11-22 | 2020-03-31 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
| CN110991456A (zh) * | 2019-12-05 | 2020-04-10 | 北京百度网讯科技有限公司 | 票据识别方法及装置 |
| CN111192031A (zh) * | 2019-12-26 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 电子票据的生成方法、装置、电子设备及可读存储介质 |
| CN111223481A (zh) * | 2020-01-09 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息提取方法、装置、计算机可读存储介质及电子设备 |
| CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
| CN111325207A (zh) * | 2020-03-05 | 2020-06-23 | 中国银行股份有限公司 | 基于预处理的票据识别方法及装置 |
| CN111414908A (zh) * | 2020-03-16 | 2020-07-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
| CN111666932A (zh) * | 2020-05-27 | 2020-09-15 | 平安科技(深圳)有限公司 | 单据审核方法、装置、计算机设备及存储介质 |
| CN111695558A (zh) * | 2020-04-28 | 2020-09-22 | 深圳市跨越新科技有限公司 | 基于YoloV3模型的物流运单图片摆正方法及系统 |
| CN111738326A (zh) * | 2020-06-16 | 2020-10-02 | 中国工商银行股份有限公司 | 句粒度标注训练样本生成方法及装置 |
| CN111814833A (zh) * | 2020-06-11 | 2020-10-23 | 浙江大华技术股份有限公司 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
| CN112270224A (zh) * | 2020-10-14 | 2021-01-26 | 招商银行股份有限公司 | 保险责任解析方法、装置及计算机可读存储介质 |
| CN112633275A (zh) * | 2020-12-22 | 2021-04-09 | 航天信息股份有限公司 | 一种基于深度学习的多票据混拍图像校正方法及系统 |
| CN112686262A (zh) * | 2020-12-28 | 2021-04-20 | 广州博士信息技术研究院有限公司 | 一种基于图像识别技术的手册提取结构化数据并快速归档的方法 |
| CN112699871A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 字段内容识别方法、系统、设备及计算机可读存储介质 |
| CN113205041A (zh) * | 2021-04-29 | 2021-08-03 | 百度在线网络技术(北京)有限公司 | 结构化信息提取方法、装置、设备和存储介质 |
| CN113283421A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 信息识别方法、装置、设备及存储介质 |
| CN113408516A (zh) * | 2021-06-25 | 2021-09-17 | 京东数科海益信息科技有限公司 | 票据识别设备及方法 |
| CN113553883A (zh) * | 2020-04-24 | 2021-10-26 | 上海高德威智能交通系统有限公司 | 一种票据图像识别方法、装置及电子设备 |
| CN113762292A (zh) * | 2020-06-03 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 一种训练数据获取方法、装置及模型训练方法、装置 |
| CN114241502A (zh) * | 2021-11-30 | 2022-03-25 | 中国电信股份有限公司 | 报告单的检测方法、装置、电子设备及计算机可读介质 |
| CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
| CN111626279B (zh) * | 2019-10-15 | 2023-06-02 | 西安网算数据科技有限公司 | 一种负样本标注训练方法及高度自动化的票据识别方法 |
| CN118134576A (zh) * | 2024-05-08 | 2024-06-04 | 山东工程职业技术大学 | 基于人工智能的数字电子发票管理方法及系统 |
| CN120544212A (zh) * | 2025-07-28 | 2025-08-26 | 重庆百望九赋软件服务有限公司 | 一种财税文本数据校验方法及系统 |
Families Citing this family (46)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
| CN108595544A (zh) * | 2018-04-09 | 2018-09-28 | 深源恒际科技有限公司 | 一种文档图片分类方法 |
| CN108564035B (zh) | 2018-04-13 | 2020-09-25 | 杭州睿琪软件有限公司 | 识别单据上记载的信息的方法及系统 |
| CN108629560A (zh) * | 2018-04-18 | 2018-10-09 | 平安科技(深圳)有限公司 | 任务派发方法、电子设备及存储介质 |
| CN108664897A (zh) * | 2018-04-18 | 2018-10-16 | 平安科技(深圳)有限公司 | 票据识别方法、装置及存储介质 |
| CN108717543B (zh) * | 2018-05-14 | 2022-01-14 | 北京市商汤科技开发有限公司 | 一种发票识别方法及装置、计算机存储介质 |
| CN110674831B (zh) * | 2018-06-14 | 2023-01-06 | 佛山市顺德区美的电热电器制造有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
| CN110619252B (zh) * | 2018-06-19 | 2022-11-04 | 百度在线网络技术(北京)有限公司 | 识别图片中表单数据的方法、装置、设备及存储介质 |
| CN108846379A (zh) * | 2018-07-03 | 2018-11-20 | 南京览笛信息科技有限公司 | 面单识别方法、系统、终端设备及存储介质 |
| CN108960245B (zh) * | 2018-07-13 | 2022-04-19 | 广东工业大学 | 轮胎模具字符的检测与识别方法、装置、设备及存储介质 |
| CN109214382A (zh) * | 2018-07-16 | 2019-01-15 | 顺丰科技有限公司 | 一种基于crnn的票据信息识别算法、设备及存储介质 |
| CN109255300B (zh) * | 2018-08-14 | 2023-12-01 | 中国平安财产保险股份有限公司 | 票据信息提取方法、装置、计算机设备及存储介质 |
| CN109214385B (zh) * | 2018-08-15 | 2021-06-08 | 腾讯科技(深圳)有限公司 | 数据采集方法、数据采集装置及存储介质 |
| CN109271980A (zh) * | 2018-08-28 | 2019-01-25 | 上海萃舟智能科技有限公司 | 一种车辆铭牌全信息识别方法、系统、终端及介质 |
| CN109492143A (zh) * | 2018-09-21 | 2019-03-19 | 平安科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备及存储介质 |
| CN109784339A (zh) * | 2018-12-13 | 2019-05-21 | 平安普惠企业管理有限公司 | 图片识别测试方法、装置、计算机设备及存储介质 |
| CN109815949A (zh) * | 2018-12-20 | 2019-05-28 | 航天信息股份有限公司 | 基于神经网络的发票公示方法和系统 |
| CN109858275A (zh) * | 2018-12-20 | 2019-06-07 | 航天信息股份有限公司 | 基于神经网络的发票公示方法和系统 |
| CN109598272B (zh) * | 2019-01-11 | 2021-08-06 | 北京字节跳动网络技术有限公司 | 字符行图像的识别方法、装置、设备及介质 |
| CN109858420A (zh) * | 2019-01-24 | 2019-06-07 | 国信电子票据平台信息服务有限公司 | 一种票据处理系统和处理方法 |
| CN109902737A (zh) * | 2019-02-25 | 2019-06-18 | 厦门商集网络科技有限责任公司 | 一种票据分类方法及终端 |
| CN110119741B (zh) * | 2019-04-08 | 2022-09-27 | 浙江大学宁波理工学院 | 一种有背景的卡证图像信息识别方法 |
| CN110956739A (zh) | 2019-05-09 | 2020-04-03 | 杭州睿琪软件有限公司 | 一种票据识别方法及装置 |
| CN110288755B (zh) * | 2019-05-21 | 2023-05-23 | 平安银行股份有限公司 | 基于文本识别的发票检验方法、服务器及存储介质 |
| CN110334596B (zh) * | 2019-05-30 | 2024-02-02 | 平安科技(深圳)有限公司 | 发票图片汇总方法、电子装置及可读存储介质 |
| CN110490193B (zh) * | 2019-07-24 | 2022-11-08 | 西安网算数据科技有限公司 | 单个字符区域检测方法及票据内容识别方法 |
| CN110503054B (zh) * | 2019-08-27 | 2022-09-23 | 广东工业大学 | 文本图像的处理方法及装置 |
| CN110598686B (zh) * | 2019-09-17 | 2023-08-04 | 携程计算机技术(上海)有限公司 | 发票的识别方法、系统、电子设备和介质 |
| CN110866495B (zh) * | 2019-11-14 | 2022-06-28 | 杭州睿琪软件有限公司 | 票据图像识别方法及装置和设备、训练方法和存储介质 |
| CN111104481B (zh) * | 2019-12-17 | 2023-10-10 | 东软集团股份有限公司 | 一种识别匹配字段的方法、装置及设备 |
| CN111242790B (zh) * | 2020-01-02 | 2020-11-17 | 平安科技(深圳)有限公司 | 风险识别方法、电子装置及存储介质 |
| CN111461099A (zh) * | 2020-03-27 | 2020-07-28 | 重庆农村商业银行股份有限公司 | 一种票据识别的方法、系统、设备及可读存储介质 |
| CN111695559B (zh) * | 2020-04-28 | 2023-07-18 | 深圳市跨越新科技有限公司 | 基于YoloV3模型的运单图片信息打码方法及系统 |
| CN111563502B (zh) * | 2020-05-09 | 2023-12-15 | 腾讯科技(深圳)有限公司 | 图像的文本识别方法、装置、电子设备及计算机存储介质 |
| CN111695439B (zh) * | 2020-05-20 | 2024-05-10 | 平安科技(深圳)有限公司 | 图像结构化数据提取方法、电子装置及存储介质 |
| CN111931664B (zh) * | 2020-08-12 | 2024-01-12 | 腾讯科技(深圳)有限公司 | 混贴票据图像的处理方法、装置、计算机设备及存储介质 |
| CN112115932B (zh) * | 2020-08-19 | 2023-11-14 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
| CN112308036A (zh) * | 2020-11-25 | 2021-02-02 | 杭州睿胜软件有限公司 | 票据识别方法、装置及可读存储介质 |
| CN112434689B (zh) * | 2020-12-01 | 2025-03-14 | 天冕信息技术(深圳)有限公司 | 识别图片中信息的方法、装置、设备及存储介质 |
| CN114627456A (zh) * | 2020-12-10 | 2022-06-14 | 航天信息股份有限公司 | 一种票据文本信息检测方法、装置及系统 |
| CN113205049A (zh) * | 2021-05-07 | 2021-08-03 | 开放智能机器(上海)有限公司 | 一种单据识别方法以及识别系统 |
| CN113762152A (zh) * | 2021-09-07 | 2021-12-07 | 上海盈策信息技术有限公司 | 一种票据校验方法、系统、设备以及介质 |
| CN114419654A (zh) * | 2021-12-21 | 2022-04-29 | 汇承金融科技服务(南京)有限公司 | 一种银行业务回单的识别方法和识别装置 |
| CN114627479A (zh) * | 2022-02-15 | 2022-06-14 | 远光软件股份有限公司 | 结构化文本的提取方法、装置、存储介质及计算机设备 |
| CN115294576A (zh) * | 2022-08-09 | 2022-11-04 | 中国平安人寿保险股份有限公司 | 基于人工智能的数据处理方法、装置、计算机设备及介质 |
| CN116702024B (zh) * | 2023-05-16 | 2024-05-28 | 见知数据科技(上海)有限公司 | 流水数据类型识别方法、装置、计算机设备和存储介质 |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104112128A (zh) * | 2014-06-19 | 2014-10-22 | 中国工商银行股份有限公司 | 应用于票据影像字符识别的数字图像处理系统及方法 |
| CN105260733A (zh) * | 2015-09-11 | 2016-01-20 | 北京百度网讯科技有限公司 | 用于处理图像信息的方法和装置 |
| CN105654127A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 基于端到端的图片文字序列连续识别方法 |
| CN107220648A (zh) * | 2017-04-11 | 2017-09-29 | 平安科技(深圳)有限公司 | 理赔单据的字符识别方法及服务器 |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120201472A1 (en) * | 2011-02-08 | 2012-08-09 | Autonomy Corporation Ltd | System for the tagging and augmentation of geographically-specific locations using a visual data stream |
| US9398210B2 (en) * | 2011-02-24 | 2016-07-19 | Digimarc Corporation | Methods and systems for dealing with perspective distortion in connection with smartphone cameras |
| US8582873B2 (en) * | 2011-06-16 | 2013-11-12 | Tandent Vision Science, Inc. | Use of an object database in an image process |
-
2017
- 2017-10-09 CN CN201710930679.8A patent/CN107798299B/zh active Active
- 2017-10-31 WO PCT/CN2017/108735 patent/WO2019071660A1/zh not_active Ceased
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104112128A (zh) * | 2014-06-19 | 2014-10-22 | 中国工商银行股份有限公司 | 应用于票据影像字符识别的数字图像处理系统及方法 |
| CN105260733A (zh) * | 2015-09-11 | 2016-01-20 | 北京百度网讯科技有限公司 | 用于处理图像信息的方法和装置 |
| CN105654127A (zh) * | 2015-12-30 | 2016-06-08 | 成都数联铭品科技有限公司 | 基于端到端的图片文字序列连续识别方法 |
| CN107220648A (zh) * | 2017-04-11 | 2017-09-29 | 平安科技(深圳)有限公司 | 理赔单据的字符识别方法及服务器 |
Cited By (44)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN110147791A (zh) * | 2019-05-20 | 2019-08-20 | 上海联影医疗科技有限公司 | 文字识别方法、装置、设备及存储介质 |
| CN110298347A (zh) * | 2019-05-30 | 2019-10-01 | 长安大学 | 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法 |
| CN110298347B (zh) * | 2019-05-30 | 2022-11-01 | 长安大学 | 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法 |
| CN110503105A (zh) * | 2019-09-02 | 2019-11-26 | 苏州美能华智能科技有限公司 | 字符识别方法、训练数据获取方法、装置和介质 |
| CN110766050A (zh) * | 2019-09-19 | 2020-02-07 | 北京捷通华声科技股份有限公司 | 模型生成方法、文本识别方法、装置、设备及存储介质 |
| CN110766050B (zh) * | 2019-09-19 | 2023-05-23 | 北京捷通华声科技股份有限公司 | 模型生成方法、文本识别方法、装置、设备及存储介质 |
| CN111626279B (zh) * | 2019-10-15 | 2023-06-02 | 西安网算数据科技有限公司 | 一种负样本标注训练方法及高度自动化的票据识别方法 |
| CN110941717B (zh) * | 2019-11-22 | 2023-08-11 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
| CN110941717A (zh) * | 2019-11-22 | 2020-03-31 | 深圳马可孛罗科技有限公司 | 客票规则解析方法、装置、电子设备及计算机可读介质 |
| CN110991456B (zh) * | 2019-12-05 | 2023-07-07 | 北京百度网讯科技有限公司 | 票据识别方法及装置 |
| CN110991456A (zh) * | 2019-12-05 | 2020-04-10 | 北京百度网讯科技有限公司 | 票据识别方法及装置 |
| CN111192031B (zh) * | 2019-12-26 | 2023-06-23 | 腾讯科技(深圳)有限公司 | 电子票据的生成方法、装置、电子设备及可读存储介质 |
| CN111192031A (zh) * | 2019-12-26 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 电子票据的生成方法、装置、电子设备及可读存储介质 |
| CN111223481B (zh) * | 2020-01-09 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 信息提取方法、装置、计算机可读存储介质及电子设备 |
| CN111223481A (zh) * | 2020-01-09 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息提取方法、装置、计算机可读存储介质及电子设备 |
| CN111259889A (zh) * | 2020-01-17 | 2020-06-09 | 平安医疗健康管理股份有限公司 | 图像文本识别方法、装置、计算机设备及计算机存储介质 |
| CN111325207A (zh) * | 2020-03-05 | 2020-06-23 | 中国银行股份有限公司 | 基于预处理的票据识别方法及装置 |
| CN111414908A (zh) * | 2020-03-16 | 2020-07-14 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
| CN111414908B (zh) * | 2020-03-16 | 2023-08-29 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中字幕字符的识别方法及装置 |
| CN113553883A (zh) * | 2020-04-24 | 2021-10-26 | 上海高德威智能交通系统有限公司 | 一种票据图像识别方法、装置及电子设备 |
| CN111695558B (zh) * | 2020-04-28 | 2023-08-04 | 深圳市跨越新科技有限公司 | 基于YoloV3模型的物流运单图片摆正方法及系统 |
| CN111695558A (zh) * | 2020-04-28 | 2020-09-22 | 深圳市跨越新科技有限公司 | 基于YoloV3模型的物流运单图片摆正方法及系统 |
| CN111666932A (zh) * | 2020-05-27 | 2020-09-15 | 平安科技(深圳)有限公司 | 单据审核方法、装置、计算机设备及存储介质 |
| CN111666932B (zh) * | 2020-05-27 | 2023-07-14 | 平安科技(深圳)有限公司 | 单据审核方法、装置、计算机设备及存储介质 |
| CN113762292A (zh) * | 2020-06-03 | 2021-12-07 | 杭州海康威视数字技术股份有限公司 | 一种训练数据获取方法、装置及模型训练方法、装置 |
| CN113762292B (zh) * | 2020-06-03 | 2024-02-02 | 杭州海康威视数字技术股份有限公司 | 一种训练数据获取方法、装置及模型训练方法、装置 |
| CN111814833A (zh) * | 2020-06-11 | 2020-10-23 | 浙江大华技术股份有限公司 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
| CN111814833B (zh) * | 2020-06-11 | 2024-06-07 | 浙江大华技术股份有限公司 | 票据处理模型的训练方法及图像处理方法、图像处理设备 |
| CN111738326A (zh) * | 2020-06-16 | 2020-10-02 | 中国工商银行股份有限公司 | 句粒度标注训练样本生成方法及装置 |
| CN112270224A (zh) * | 2020-10-14 | 2021-01-26 | 招商银行股份有限公司 | 保险责任解析方法、装置及计算机可读存储介质 |
| CN112633275A (zh) * | 2020-12-22 | 2021-04-09 | 航天信息股份有限公司 | 一种基于深度学习的多票据混拍图像校正方法及系统 |
| CN112633275B (zh) * | 2020-12-22 | 2023-07-18 | 航天信息股份有限公司 | 一种基于深度学习的多票据混拍图像校正方法及系统 |
| CN112699871B (zh) * | 2020-12-23 | 2023-11-14 | 平安银行股份有限公司 | 字段内容识别方法、系统、设备及计算机可读存储介质 |
| CN112699871A (zh) * | 2020-12-23 | 2021-04-23 | 平安银行股份有限公司 | 字段内容识别方法、系统、设备及计算机可读存储介质 |
| CN112686262A (zh) * | 2020-12-28 | 2021-04-20 | 广州博士信息技术研究院有限公司 | 一种基于图像识别技术的手册提取结构化数据并快速归档的方法 |
| CN113205041A (zh) * | 2021-04-29 | 2021-08-03 | 百度在线网络技术(北京)有限公司 | 结构化信息提取方法、装置、设备和存储介质 |
| CN113283421A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 信息识别方法、装置、设备及存储介质 |
| CN113283421B (zh) * | 2021-06-24 | 2024-03-01 | 中国平安人寿保险股份有限公司 | 信息识别方法、装置、设备及存储介质 |
| CN113408516A (zh) * | 2021-06-25 | 2021-09-17 | 京东数科海益信息科技有限公司 | 票据识别设备及方法 |
| CN114241502A (zh) * | 2021-11-30 | 2022-03-25 | 中国电信股份有限公司 | 报告单的检测方法、装置、电子设备及计算机可读介质 |
| CN114328831A (zh) * | 2021-12-24 | 2022-04-12 | 江苏银承网络科技股份有限公司 | 票据信息识别与纠错方法及装置 |
| CN118134576A (zh) * | 2024-05-08 | 2024-06-04 | 山东工程职业技术大学 | 基于人工智能的数字电子发票管理方法及系统 |
| CN120544212A (zh) * | 2025-07-28 | 2025-08-26 | 重庆百望九赋软件服务有限公司 | 一种财税文本数据校验方法及系统 |
| CN120544212B (zh) * | 2025-07-28 | 2025-09-26 | 重庆百望九赋软件服务有限公司 | 一种财税文本数据校验方法及系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| CN107798299A (zh) | 2018-03-13 |
| CN107798299B (zh) | 2020-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019071660A1 (zh) | 票据信息识别方法、电子装置及可读存储介质 | |
| CN107766809B (zh) | 电子装置、票据信息识别方法和计算机可读存储介质 | |
| WO2019174130A1 (zh) | 票据识别方法、服务器及计算机可读存储介质 | |
| CN109829453B (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
| US11710210B1 (en) | Machine-learning for enhanced machine reading of non-ideal capture conditions | |
| WO2019037259A1 (zh) | 电子装置、发票分类的方法、系统及计算机可读存储介质 | |
| CN111814785B (zh) | 发票识别方法及相关模型的训练方法以及相关设备、装置 | |
| WO2019205376A1 (zh) | 车损判定方法、服务器及存储介质 | |
| CN111144400B (zh) | 身份证信息的识别方法、装置、终端设备及存储介质 | |
| CN110288755A (zh) | 基于文本识别的发票检验方法、服务器及存储介质 | |
| CN112612911A (zh) | 一种图像处理方法、系统、设备及介质、程序产品 | |
| CN113011473B (zh) | 模型优化方法、模型优化装置和电子设备 | |
| CN112989768B (zh) | 连线题批改方法、装置、电子设备及存储介质 | |
| CN114332883A (zh) | 发票信息识别方法、装置、计算机设备及存储介质 | |
| CN112508005B (zh) | 用于处理图像的方法、装置、设备以及存储介质 | |
| WO2021174869A1 (zh) | 用户图片数据的处理方法、装置、计算机设备及存储介质 | |
| CN114495146A (zh) | 图像文本检测方法、装置、计算机设备及存储介质 | |
| CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
| CN114297720A (zh) | 一种图像脱敏方法、装置、电子设备及存储介质 | |
| CN111178200B (zh) | 一种仪表盘指示灯的识别方法及计算设备 | |
| CN113538291B (zh) | 卡证图像倾斜校正方法、装置、计算机设备和存储介质 | |
| CN111950354A (zh) | 印章归属国识别方法、装置及电子设备 | |
| US20200160080A1 (en) | Detecting magnetic ink character recognition codes | |
| CN110852229A (zh) | 图像中文本区域的位置确定方法、装置、设备及存储介质 | |
| CN114842486A (zh) | 一种手写化学结构式识别方法、系统、存储介质以及设备 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17928326 Country of ref document: EP Kind code of ref document: A1 |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 29/09/2020) |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 17928326 Country of ref document: EP Kind code of ref document: A1 |