[go: up one dir, main page]

RU2828605C1 - Method of binding fields of conditionally rigid business documents during their recognition - Google Patents

Method of binding fields of conditionally rigid business documents during their recognition Download PDF

Info

Publication number
RU2828605C1
RU2828605C1 RU2024103922A RU2024103922A RU2828605C1 RU 2828605 C1 RU2828605 C1 RU 2828605C1 RU 2024103922 A RU2024103922 A RU 2024103922A RU 2024103922 A RU2024103922 A RU 2024103922A RU 2828605 C1 RU2828605 C1 RU 2828605C1
Authority
RU
Russia
Prior art keywords
document
information
graphic
documents
recognition
Prior art date
Application number
RU2024103922A
Other languages
Russian (ru)
Inventor
Елена Игоревна Гайер
Даниил Павлович Маталов
Олег Анатольевич Славин
Алексей Валерьевич Богомолов
Original Assignee
Общество с ограниченной ответственностью "СМАРТ ЭНДЖИНС СЕРВИС"
Filing date
Publication date
Application filed by Общество с ограниченной ответственностью "СМАРТ ЭНДЖИНС СЕРВИС" filed Critical Общество с ограниченной ответственностью "СМАРТ ЭНДЖИНС СЕРВИС"
Application granted granted Critical
Publication of RU2828605C1 publication Critical patent/RU2828605C1/en

Links

Images

Abstract

FIELD: methods of recognizing documents.
SUBSTANCE: in the method of associating fields of conditionally rigid business documents during their recognition on a digitized paper version of a document, graphic primitives are determined taking into account information on the mutual arrangement of graphic primitives in each reference document, namely minimum distances from the middle of each of the four edges of the reference document to the nearest point of each graphic primitive, minimum distances from each of the four corners of the reference document to the nearest point of each graphic primitive, based on the mutual arrangement of graphic primitives, the digital image of the current document is identified with the digital image of one of the reference documents stored in a predetermined database of reference documents. Further, the information is recognized and the formal correctness of filling the document is checked.
EFFECT: high quality of document recognition.
1 cl, 1 dwg

Description

Изобретение относится к информатике, а именно - к способам распознавания документов.The invention relates to computer science, namely to methods of document recognition.

Наиболее близким аналогом заявляемого изобретения является способ нейросетевого контроля текстовых данных на изображениях документов (патент на изобретение РФ №2806012), согласно которому осуществляют подачу на вход входного изображения текстового поля, причем для изображения известно, что в оригинальном документе текстовая информация на нем обладает свойством А, также известна ширина изображения текстового поля, при этом входное поле изображения в цветном пространстве RGB, содержащее текстовое поле документа, обрабатывают нейросетевым детектором контроля текстовых данных по следующему алгоритму: изображение поля преобразуют в одноканальное, после чего поступает на вход обученной полносверточной нейронной сети; на выходе нейронная сеть ставит в соответствие для каждой вертикальной линии, соответствующей середине рецептивного поля, значения и оценки уверенности для двух возможных классов: класс при котором свойство в текстовом поле отсутствует; класс А, при котором свойство в текстовом поле присутствует; производят подсчет сумм и значений оценок уверенности для двух возможных классов по всем вертикальным линиям изображения текстового поля: производят проверку на наличие в изображении аномалии, при этом если в рассматриваемом текстовом поле аномалия не найдена, то изображение рассматриваемого текстового поля обладает свойством А, если в рассматриваемом текстовом поле аномалия найдена, то изображение текстового поля считается обладающим свойством А при наличии аномалии, если выполнено условие в других случаях изображение текстового поля не обладает свойством А. Недостатком этого технического решения является ориентация на учет только текстовых полей изображения, хотя во многих документах (прежде всего, в деловых документах, предназначенных для обмена данными с организациями и физическими лицами) содержатся и другие примитивы - QR-коды, штрих-коды, слова статического текста, отрезки (линии подчеркивания), бар-коды, пометки (чек-боксы).The closest analogue of the claimed invention is a method for neural network control of text data on document images (patent for invention of the Russian Federation No. 2806012), according to which an input image of a text field is fed to the input, wherein it is known for the image that in the original document the text information on it has property A, the width of the text field image is also known, and the input image field in the RGB color space, containing the text field of the document, is processed by a neural network detector for control of text data according to the following algorithm: the image of the field is converted into a single-channel one, after which it is fed to the input of a trained fully convolutional neural network; at the output, the neural network associates for each vertical line corresponding to the middle of the receptive field, values and confidence estimates for two possible classes: a class for which the property in the text field is absent; class A, for which the property in the text field is present; calculate the sums and values of confidence estimates for two possible classes along all vertical lines of the text field image: check for the presence of an anomaly in the image, and if an anomaly is not found in the text field in question, then the image of the text field in question has property A, if an anomaly is found in the text field in question, then the image of the text field is considered to have property A in the presence of an anomaly, if the condition is met in other cases the image of the text field does not have property A. The disadvantage of this technical solution is its focus on taking into account only the text fields of the image, although many documents (primarily business documents intended for data exchange with organizations and individuals) also contain other primitives - QR codes, bar codes, static text words, segments (underlining lines), bar codes, marks (check boxes).

Технической задачей заявляемого изобретения является развитие методов автоматического распознавания цифровых документов.The technical objective of the claimed invention is to develop methods for automatic recognition of digital documents.

Решение технической задачи достигается за счет того, что формируется база данных эталонных документов, содержащая информацию о взаимном расположении графических примитивов в эталонном документе и указаниями на тип информации, содержащейся в каждом графическом примитиве: QR-код, штрих-код, отрезок, бар-код, тип - текстовая, цифровая или комбинированная - и язык информации в каждом чек-боксе; бумажная версия документа оцифровывается, тем самым формируется цифровой образ документа, на цифровом образе документа определяются графические примитивы, к которым относятся QR-коды, штрих-коды, слова статического текста, отрезки, бар-коды, чек-боксы; на основании взаимного расположения графических примитивов цифровой образ документа отождествляется с цифровым образом одного из эталонных документов, хранящихся в заранее сформированной базе данных эталонных документов, содержащей информацию о взаимном расположении графических примитивов в эталонном документе и указаниями на тип информации, содержащейся в каждом графическом примитиве: QR-коды, штрих-коды, отрезки, бар-коды, тип - текстовая, цифровая или комбинированная - и язык информации в каждом чек-боксе; по результатам отождествления распознается информация в каждом чек-боксе; проводится формальная корректность заполнения документа как соответствие распознанной информации ожидаемой информации; если формальная корректность подтверждается, то документ считается успешно распознанным и информация из документа заносится в таблицу «номер документа - графический примитив - информация, содержащаяся в графическом примитиве», иначе - документ направляется на ручную обработку, причем информация о взаимном расположении графических примитивов в каждом эталонном документе, хранящемся в базе данных эталонных документов, содержит: минимальные расстояния от середины каждого из четырех ребер эталонного документа до ближайшей точки каждого графического примитива, минимальные расстояния от каждого из четырех углов эталонного документа до ближайшей точки каждого графического примитива.The solution to the technical problem is achieved by forming a database of reference documents containing information on the relative position of graphic primitives in the reference document and indications of the type of information contained in each graphic primitive: QR code, bar code, segment, bar code, type - text, digital or combined - and the language of the information in each check box; the paper version of the document is digitized, thereby forming a digital image of the document, graphic primitives are defined on the digital image of the document, which include QR codes, bar codes, static text words, segments, bar codes, check boxes; based on the relative position of graphic primitives, the digital image of the document is identified with the digital image of one of the reference documents stored in a pre-formed database of reference documents containing information on the relative position of graphic primitives in the reference document and indications of the type of information contained in each graphic primitive: QR codes, bar codes, segments, bar codes, type - text, digital or combined - and the language of the information in each check box; based on the results of the identification, the information in each check box is recognized; the formal correctness of filling out the document is carried out as the correspondence of the recognized information to the expected information; if the formal correctness is confirmed, then the document is considered to be successfully recognized and the information from the document is entered into the table “document number - graphic primitive - information contained in the graphic primitive”, otherwise - the document is sent for manual processing, and the information about the mutual arrangement of graphic primitives in each reference document stored in the database of reference documents contains: the minimum distances from the middle of each of the four edges of the reference document to the closest point of each graphic primitive, the minimum distances from each of the four corners of the reference document to the closest point of each graphic primitive.

Технический результат, достигаемый указанной совокупностью признаков, заключается в повышении качества распознавания документов.The technical result achieved by the specified set of features consists in improving the quality of document recognition.

Разработанный способ ориентирован на повышение качества распознавания условно жестких деловых документов за счет привязки полей при их распознавании. Условно жестким деловым документом считается документ, имеющий жесткую структуру, характеризуемую наличием примитивов с четким расположением в документе, а задача распознавания документа может быть сведена только к распознаванию информации, находящейся в QR-кодах, штрих-кодах, бар-кодах и чек-боксах, а также в словах статического текста.The developed method is aimed at improving the quality of recognition of conditionally rigid business documents by linking fields during their recognition. A conditionally rigid business document is a document that has a rigid structure, characterized by the presence of primitives with a clear location in the document, and the task of document recognition can be reduced only to the recognition of information contained in QR codes, bar codes, bar codes and check boxes, as well as in words of static text.

Реализация заявленного способа заключается в следующем (см. фигуру).The implementation of the claimed method is as follows (see figure).

Оцифрованный документ определяется как совокупность полей и статической информации. Причем многие документы характеризуются относительно простой структурой и ограниченным словарем статических текстов. Поля документа (области распознавания) определяются как объект, который ограничен несколькими статическими элементами, такими как слова статического текста, отрезки (линии подчеркивания); бар-коды, пометки (чек-боксы).A digital document is defined as a set of fields and static information. Many documents are characterized by a relatively simple structure and a limited vocabulary of static texts. Document fields (recognition areas) are defined as an object that is limited by several static elements, such as words of static text, segments (underlining lines); bar codes, marks (check boxes).

Извлечение информации из распознанных деловых документов имеет ряд особенностей: малый объем словаря слов статического текста; возможное значительное число ошибок распознавания; возможные ошибки детектирования графических элементов.Extraction of information from recognized business documents has a number of features: small volume of the dictionary of words of static text; possible significant number of recognition errors; possible errors in detection of graphic elements.

Постановка задачи распознавания документа состоит в следующем. На основании распознавания текстовых объектов и найденных графических примитивов найти границы полей (областей заполнения) и извлечь информацию из областей полей.The formulation of the document recognition problem is as follows. Based on the recognition of text objects and found graphic primitives, find the boundaries of the fields (fill areas) and extract information from the field areas.

Распознавание образа документа реализуется в виде следующих этапов:Document image recognition is implemented in the following stages:

нормализация образа страницы, в том числе, поиск области документа и его приведение к прямоугольному виду;normalization of the page image, including searching for a document area and converting it to a rectangular form;

распознавание слов;word recognition;

извлечение графических объектов;extraction of graphic objects;

классификация типа документа;document type classification;

поиск локальных особенностей;search for local features;

поиск границ полей документа известного типа с помощью границ локальных особенностей;search for the boundaries of fields of a document of a known type using the boundaries of local features;

извлечение или распознавание содержимого полей в найденных границах с помощью атрибутов полей;extracting or recognizing the contents of fields within the found boundaries using field attributes;

постобработка распознанных полей с помощью словарных моделей.post-processing of recognized fields using dictionary models.

Критерием качества решения задачи распознавания является извлечение информации из границ максимального числа полей с наименьшим числом ошибок для каждого поля. Извлекаемая информация может иметь вид не только набора символов, но и границ найденного поля.The criterion for the quality of the recognition task solution is the extraction of information from the boundaries of the maximum number of fields with the least number of errors for each field. The extracted information may be in the form of not only a set of characters, but also the boundaries of the found field.

В документы, при создании которых использовалась жесткая форма, в процессе печати и оцифровке в изображении этих документов могут быть внесены неустранимые искажения:In documents created using a rigid form, irreparable distortions may be introduced into the image of these documents during the printing and digitization process:

замятия страниц, приводящие к сильному искажению геометрической формы страницы и областей изображения;page jams, resulting in severe distortion of the geometric shape of the page and image areas;

применение шрифтов и других статических элементов малого размера, что приводит к значительным потерям точек, которые могли бы быть взяты в качестве ключевых (опорных) точек и т.п.the use of fonts and other small static elements, which leads to significant losses of points that could be taken as key (reference) points, etc.

Способ привязки полей условно жестких деловых документов при их распознавании, характеризующийся тем, что:A method for linking fields of conditionally rigid business documents during their recognition, characterized by the fact that:

на оцифрованной бумажной версии (цифровом образе) документа (информация о взаимном расположении графических примитивов в каждом эталонном документе, хранящемся в базе данных эталонных документов, содержит: минимальные расстояния от середины каждого из четырех ребер эталонного документа до ближайшей точки каждого графического примитива, минимальные расстояния от каждого из четырех углов эталонного документа до ближайшей точки каждого графического примитива) определяются графические примитивы, к которым относятся QR-коды, штрих-коды, слова статического текста, отрезки, бар-коды, чек-боксы;on the digitalized paper version (digital image) of the document (information on the relative position of graphic primitives in each reference document stored in the database of reference documents contains: minimum distances from the middle of each of the four edges of the reference document to the closest point of each graphic primitive, minimum distances from each of the four corners of the reference document to the closest point of each graphic primitive) graphic primitives are determined, which include QR codes, bar codes, static text words, segments, bar codes, check boxes;

на основании взаимного расположения графических примитивов (углы и нормализованные расстояния между ними) цифровой образ текущего документа отождествляется с цифровым образом одного из эталонных документов, хранящихся в заранее сформированной базе данных эталонных документов. База данных эталонных документов содержит информацию о взаимном расположении графических примитивов в каждом эталонном документе, а также указания на тип информации, содержащейся в каждом графическом примитиве: QR-коды, штрих-коды, отрезки, бар-коды, тип -текстовая, цифровая или комбинированная - и язык информации в каждом чек-боксе.Based on the mutual arrangement of graphic primitives (angles and normalized distances between them), the digital image of the current document is identified with the digital image of one of the reference documents stored in a previously formed database of reference documents. The database of reference documents contains information on the mutual arrangement of graphic primitives in each reference document, as well as indications of the type of information contained in each graphic primitive: QR codes, bar codes, segments, bar codes, type - text, digital or combined - and the language of the information in each check box.

Текущий цифровой образ документа отождествляется с одним из образов, хранимым в базе данных, по результатам отождествления распознается информация в каждом чек-боксе - априорные сведения об информации повышают качество распознавания.The current digital image of the document is identified with one of the images stored in the database, and based on the results of the identification, the information in each checkbox is recognized - a priori information about the information improves the quality of recognition.

Затем проводится проверка формальной корректности заполнения документа как соответствие распознанной информации ожидаемой информации.Then the formal correctness of the document filling is checked as the correspondence of the recognized information to the expected information.

Если формальная корректность подтверждается, то информация из документа заносится в таблицу «номер документа - графический примитив -информация, содержащаяся в графическом примитиве», иначе - документ направляется на ручную обработку.If the formal correctness is confirmed, then the information from the document is entered into the table “document number - graphic primitive - information contained in the graphic primitive”, otherwise the document is sent for manual processing.

Качество заявляемого способа проверено на собственном тестовом датасете, содержащем 418 изображений условно жесткого документа. Документы были напечатаны на листах размера А4 и оцифрованы камерами мобильных устройств в различных условиях освещения и съемки. В процессе оцифровки образы документов были подвергнуты проективным искажениям и нелинейным деформациям листов.The quality of the claimed method was tested on our own test dataset containing 418 images of a conventionally rigid document. The documents were printed on A4 sheets and digitized by mobile device cameras under various lighting and shooting conditions. During the digitization process, the document images were subjected to projective distortions and nonlinear deformations of the sheets.

В качестве альтернативного способа распознавания использовался SDK Smart Document Engine (https://smartengines.com/).As an alternative recognition method, the Smart Document Engine SDK (https://smartengines.com/) was used.

В результате показано, что средняя точность распознавания одной пометки увеличилась с 87.85% до 88.94%) - то есть на тестовом датасете доля ошибок распознавания пометок уменьшилась более, чем в 2 раза.As a result, it was shown that the average accuracy of recognizing one mark increased from 87.85% to 88.94%) - that is, on the test dataset, the proportion of mark recognition errors decreased by more than 2 times.

Этим доказано достижение заявленного технического результата.This proves the achievement of the stated technical result.

Claims (1)

Способ привязки полей условно жестких деловых документов при их распознавании, характеризующийся тем, что: формируется база данных эталонных документов, содержащая информацию о взаимном расположении графических примитивов в эталонном документе и с указаниями на тип информации, содержащейся в каждом графическом примитиве: QR-код, штрихкод, отрезок, бар-код, тип: текстовая, цифровая или комбинированная, и язык информации в каждом чек-боксе; бумажная версия документа оцифровывается, тем самым формируется цифровой образ документа, на цифровом образе документа определяются графические примитивы, к которым относятся QR-коды, штрихкоды, слова статического текста, отрезки, бар-коды, чек-боксы; на основании взаимного расположения графических примитивов цифровой образ документа отождествляется с цифровым образом одного из эталонных документов, хранящихся в заранее сформированной базе данных эталонных документов, содержащей информацию о взаимном расположении графических примитивов в эталонном документе и с указаниями на тип информации, содержащейся в каждом графическом примитиве: QR-коды, штрихкоды, отрезки, бар-коды, тип: текстовая, цифровая или комбинированная, и язык информации в каждом чек-боксе; по результатам отождествления распознается информация в каждом чек-боксе; проводится формальная корректность заполнения документа как соответствие распознанной информации ожидаемой информации; если формальная корректность подтверждается, то документ считается успешно распознанным и информация из документа заносится в таблицу «номер документа - графический примитив - информация, содержащаяся в графическом примитиве», иначе документ направляется на ручную обработку, причем информация о взаимном расположении графических примитивов в каждом эталонном документе, хранящемся в базе данных эталонных документов, содержит: минимальные расстояния от середины каждого из четырех ребер эталонного документа до ближайшей точки каждого графического примитива, минимальные расстояния от каждого из четырех углов эталонного документа до ближайшей точки каждого графического примитива.A method for linking fields of conditionally rigid business documents during their recognition, characterized by the fact that: a database of reference documents is formed, containing information on the mutual arrangement of graphic primitives in the reference document and with indications of the type of information contained in each graphic primitive: QR code, barcode, segment, barcode, type: text, digital or combined, and the language of the information in each checkbox; the paper version of the document is digitized, thereby forming a digital image of the document, graphic primitives are determined on the digital image of the document, which include QR codes, barcodes, words of static text, segments, barcodes, checkboxes; based on the mutual arrangement of graphic primitives, the digital image of the document is identified with the digital image of one of the reference documents stored in a pre-formed database of reference documents containing information on the mutual arrangement of graphic primitives in the reference document and with indications of the type of information contained in each graphic primitive: QR codes, barcodes, segments, barcodes, type: text, digital or combined, and the language of the information in each checkbox; based on the results of the identification, the information in each checkbox is recognized; the formal correctness of filling out the document is carried out as the correspondence of the recognized information to the expected information; if the formal correctness is confirmed, then the document is considered to be successfully recognized and the information from the document is entered into the table “document number - graphic primitive - information contained in the graphic primitive”, otherwise the document is sent for manual processing, and the information about the mutual arrangement of graphic primitives in each reference document stored in the database of reference documents contains: the minimum distances from the middle of each of the four edges of the reference document to the closest point of each graphic primitive, the minimum distances from each of the four corners of the reference document to the closest point of each graphic primitive.
RU2024103922A 2024-02-16 Method of binding fields of conditionally rigid business documents during their recognition RU2828605C1 (en)

Publications (1)

Publication Number Publication Date
RU2828605C1 true RU2828605C1 (en) 2024-10-14

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060164682A1 (en) * 2005-01-25 2006-07-27 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US8326015B2 (en) * 2008-01-18 2012-12-04 Mitek Systems, Inc. Methods for mobile image capture and processing of documents
RU2652946C1 (en) * 2016-12-11 2018-05-03 Общество с ограниченной ответственностью "Технологии" Method of recognition of payment documents
RU2695489C1 (en) * 2018-03-23 2019-07-23 Общество с ограниченной ответственностью "Аби Продакшн" Identification of fields on an image using artificial intelligence
US20200019768A1 (en) * 2016-06-07 2020-01-16 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document field detection and parsing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060164682A1 (en) * 2005-01-25 2006-07-27 Dspv, Ltd. System and method of improving the legibility and applicability of document pictures using form based image enhancement
US8326015B2 (en) * 2008-01-18 2012-12-04 Mitek Systems, Inc. Methods for mobile image capture and processing of documents
US20200019768A1 (en) * 2016-06-07 2020-01-16 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document field detection and parsing
RU2652946C1 (en) * 2016-12-11 2018-05-03 Общество с ограниченной ответственностью "Технологии" Method of recognition of payment documents
RU2695489C1 (en) * 2018-03-23 2019-07-23 Общество с ограниченной ответственностью "Аби Продакшн" Identification of fields on an image using artificial intelligence

Similar Documents

Publication Publication Date Title
CN109376658B (en) OCR method based on deep learning
US10943105B2 (en) Document field detection and parsing
CN110399798B (en) Discrete picture file information extraction system and method based on deep learning
Awel et al. Review on optical character recognition
US20210343030A1 (en) Scalable, flexible and robust template-based data extraction pipeline
US8045798B2 (en) Features generation and spotting methods and systems using same
US9922247B2 (en) Comparing documents using a trusted source
Marinai Introduction to document analysis and recognition
Elzobi et al. IESK-ArDB: a database for handwritten Arabic and an optimized topological segmentation approach
CN112508011A (en) OCR (optical character recognition) method and device based on neural network
US8340425B2 (en) Optical character recognition with two-pass zoning
WO2011051817A2 (en) System and method for increasing the accuracy of optical character recognition (ocr)
KR102627591B1 (en) Operating Method Of Apparatus For Extracting Document Information AND Apparatus Of Thereof
Kišš et al. Brno mobile OCR dataset
US12046066B2 (en) Data extraction from short business documents
CN113762160B (en) Date extraction method and device, computer equipment and storage medium
Moussa et al. Fractal-based system for Arabic/Latin, printed/handwritten script identification
CN111414917A (en) Identification method of low-pixel-density text
RU2828605C1 (en) Method of binding fields of conditionally rigid business documents during their recognition
CN116311292A (en) Document image information extraction method, device, computer equipment and storage medium
RU2597163C2 (en) Comparing documents using reliable source
Smitha et al. Document image analysis using imagemagick and tesseract-ocr
Choudhury et al. Recognition of handwritten Bangla numerals using adaptive coefficient matching technique
Lu et al. Word searching in document images using word portion matching
Ashraf et al. An analysis of optical character recognition (ocr) methods