[go: up one dir, main page]

KR20170136970A - Method and apparatus for scanned documents classification - Google Patents

Method and apparatus for scanned documents classification Download PDF

Info

Publication number
KR20170136970A
KR20170136970A KR1020170025024A KR20170025024A KR20170136970A KR 20170136970 A KR20170136970 A KR 20170136970A KR 1020170025024 A KR1020170025024 A KR 1020170025024A KR 20170025024 A KR20170025024 A KR 20170025024A KR 20170136970 A KR20170136970 A KR 20170136970A
Authority
KR
South Korea
Prior art keywords
image
document
training
descriptor
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020170025024A
Other languages
Korean (ko)
Inventor
안드레이 부트
세르게이 자발리신
일리야 쿠릴린
미카엘 리차코프
Original Assignee
에스프린팅솔루션 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스프린팅솔루션 주식회사 filed Critical 에스프린팅솔루션 주식회사
Priority to EP17173814.9A priority Critical patent/EP3252669B1/en
Priority to US15/609,296 priority patent/US10796144B2/en
Publication of KR20170136970A publication Critical patent/KR20170136970A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00567Handling of original or reproduction media, e.g. cutting, separating, stacking
    • H04N1/00641Sorting, reordering or inverting
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00567Handling of original or reproduction media, e.g. cutting, separating, stacking
    • H04N1/00631Ejecting or stacking
    • H04N1/00633Ejecting or stacking selectively to one of a plurality of output trays
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

본 개시는 문서 처리 및 관리 분야에 관한 것으로, 특히, 문서 하드 카피 이미지를 분류하되, 문서 하드 카피의 이미지 기술자를 이용하여 자동으로 분류하는 방법 및 장치에 관한 것이다. 추출된 이미지 기술자에 기초하여 문서 하드 카피 이미지의 클래스 확률을 추정하기 위해 복수의 트레이닝 된 분류자가 사용되고, 문서 하드 카피 이미지의 가장 확률 높은 클래스는 추정된 클래스 확률을 사용하여 트레이닝 된 메타 분류자에 의해 결정되며 문서 하드 카피 이미지와 가장 확률 높은 클래스의 하드 카피 이미지는 할당 수단에 입력되며, 마지막으로, 트레이닝 된 메타 분류자에 의해 결정된 가장 확률 높은 클래스가 분류 수단에 의해 문서 하드 카피 이미지에 할당되어 분류된 문서 하드 카피 이미지를 얻게 된다. This disclosure relates to the field of document processing and management and, more particularly, to a method and apparatus for classifying document hardcopy images, and automatically classifying them using image descriptors of hardcopy documents. A plurality of trained classifiers are used to estimate the class probability of the document hard copy image based on the extracted image descriptor and the most probable class of document hard copy images is determined by the meta classifier trained using the estimated class probability And the hardcopy image of the document and the hardcopy image of the most probable class are input to the allocation means. Finally, the most probable class determined by the trained meta classifier is assigned to the document hardcopy image by the classification means and classified A hard copy image of the document is obtained.

Description

스캔 문서 분류 방법 및 장치 {METHOD AND APPARATUS FOR SCANNED DOCUMENTS CLASSIFICATION}[0001] METHOD AND APPARATUS FOR SCANNED DOCUMENTS CLASSIFICATION [0002]

본 개시는 문서 처리 및 관리 분야에 관한 것으로, 특히, 문서 하드 카피 이미지를 분류하는 방법, 장치, 및 문서 하드 카피를 분류하는 시스템에 관한 것이다.This disclosure relates to the field of document processing and management, and more particularly to a method, apparatus, and system for classifying document hardcopy.

전자 문서 관리 분야의 혁신적 진보에도 불구하고 각종 비즈니스 문서는 여전히 하드 카피 형태로 제공된다. 하드 카피로 존재하는 일반 사무용 문서는 회계, 법률 문서, 개인 정보, 공식 우편 등과 관련이 있다. 일반적으로 테이블, 우표, 로고, 팩시밀리 또는 서명이 그러한 문서에 첨부될 수 있다. 많은 수의 문서 하드 카피는 우편, 팩스 및 택배 배달 서비스를 통해 조직에 전달된다. 이러한 전달 시 서류의 분류는 수동으로 이루어지는 것이 대부분이다.Despite the breakthrough advances in electronic document management, business documents are still available in hard copy. General office documents that exist in hard copy relate to accounting, legal documents, personal information, and official mail. Typically, tables, stamps, logos, facsimiles, or signatures may be attached to such documents. A large number of hardcopy documents are delivered to the organization through mail, fax, and courier delivery services. In most cases, the classification of documents is done manually.

따라서 좀더 효율적으로 문서 이미지를 해석한 자동 문서 분류 방식이 요구된다. Therefore, an automatic document classification method which analyzes a document image more efficiently is required.

본 개시의 일 실시예는 문서 하드 카피 이미지를 분석하여 클래스를 결정한 후 이를 자동으로 출력 용지함으로 분류하는 방법 및 장치를 제공한다.One embodiment of the present disclosure provides a method and apparatus for analyzing a hard copy image of a document to determine a class and automatically classifying it into an output tray.

본 개시의 목적은 종래 기술로부터 공지된 해결책에 관한 상기한 단점을 제거하거나 완화시키는 것이다.The object of the present disclosure is to eliminate or mitigate the above-mentioned disadvantages of the known solutions from the prior art.

보다 구체적으로, 본 개시의 목적은 분류된 문서 하드 카피 이미지에 기초하여 문서 하드 카피 이미지를 분류하고 문서 하드 코드를 분류하며, 각 문서 하드 카피에 대한 시나리오를 추가로 처리하기 위한 툴을 제공하는 것이다. 하나의 예시적인 시나리오는 청구서, 송장 및 재무 보고서가 계좌 부서로 전송되어야 하는데 반해, 메일은 수신자가 수령인에게 전달해야 한다.More specifically, the purpose of this disclosure is to provide a tool for classifying document hardcopy images based on classified document hardcopy images, classifying document hardcodes, and further processing scenarios for each document hardcopy . One exemplary scenario is that invoices, invoices, and financial reports must be sent to the account department, while mail must be delivered to the recipient by the recipient.

전술한 바와 같이, 본 개시를 사용함으로써 달성된 기술적 결과는 문서 하드 카피 이미지의 자동 분류를 가능하게 하는 것이다.As described above, the technical result achieved by using this disclosure is to enable automatic classification of hard copy images of documents.

본 개시의 제 1 태양에 따르면, 문서 하드 카피 이미지를 분류하는 방법이 제공된다. 이 방법은 문서 하드 카피 이미지를 제공하는 것으로 시작된다. 하드 카피 이미지에는 이미지 특징이 있다. 문서 하드 카피 이미지는 그 다음 제 1 세트의 이미지 기술자 추출기에 입력된다. 제 1 세트의 이미지 기술자 추출기는 문서 하드 카피 이미지로부터 이미지 기술자를 추출한다. 각 이미지 기술자는 문서 하드 카피 이미지의 이미지 기능을 설명한다. 그 후, 추출 된 이미지 기술자에 기초하여 문서 하드 카피 이미지의 클래스 확률을 추정하기 위해 복수의 트레이닝된 분류자가 사용된다. 다음으로, 문서 하드 카피 이미지의 가장 가능성이 높은 클래스는 추정 된 클래스 확률을 사용하여 트레이닝 된 메타 - 분류자에 의해 결정된다. 문서 하드 카피 이미지 및 문서 하드 카피 이미의 가장 가능한 클래스는 할당 수단에 더 입력된다. 마지막으로, 트레이닝 된 메타 - 분류자에 의해 결정된 가장 가능성 높은 클래스가 분류 수단에 의해 문서 하드 카피 이미지에 할당되어 분류된 문서 하드 카피 이미지를 얻는다.According to a first aspect of the present disclosure, a method of classifying a hard copy image of a document is provided. This method begins by providing a hardcopy image of the document. Hardcopy images have an image feature. The document hard copy image is then input to the first set of image descriptor extractors. The first set of image descriptor extractors extract image descriptors from the document hard copy images. Each image descriptor describes the image function of a hard copy image of a document. A plurality of trained classifiers are then used to estimate the class probability of the document hard copy image based on the extracted image descriptor. Next, the most likely class of the hardcopy image of the document is determined by the meta-classifier trained using the estimated class probability. The most probable class of document hardcopy images and document hardcopy are further input into the allocation means. Finally, the most probable class determined by the trained meta-classifier is assigned to the document hardcopy image by the classification means to obtain the classified hardcopy image of the document.

복수의 트레이닝 된 분류자 및 트레이닝 된 메타 분류자는 다음의 단계들에 의해 이루어진다.The plurality of trained classifiers and the trained meta classifiers are accomplished by the following steps.

트레이닝 이미지 및 클래스 라벨을 포함하는 트레이닝 세트를 메모리에 저장하는 단계를 포함하되, 상기 클래스 라벨은 상기 트레이닝 이미지와 관련되고, 각각의 트레이닝 이미지는 트레이닝 이미지 특징을 포함하며; 상기 메모리에 저장된 상기 트레이닝 세트의 트레이닝 이미지를 제 2 세트의 이미지 기술자 추출기에 입력하는 단계; 각 트레이닝 이미지의 트레이닝 이미지 특징을 기술하는 제 2 세트의 이미지 기술자 추출기 세트에 의해 트레이닝 이미지 기술자를 추출하는 단계; 상기 제 2 세트의 이미지 기술자 추출기에 의해 추출 된 상기 트레이닝 이미지 기술자 및 상기 트레이닝 이미지와 연관된 클래스 라벨을 사용하여 분류자 트레이닝 수단에 의해 상기 트레이닝 된 복수의 분류자를 얻는 단계; 복수의 트레이닝 된 분류자에 의한 트레이닝 이미지의 클래스 확률을 추정하는 단계와 복수의 트레이닝 된 분류자에 의해 추정된 클래스 확률 및 트레이닝 이미지와 연관된 클래스 라벨에 기초하여 메타 분류자 트레이닝 수단에 의해 트레이닝 된 메타 분류자를 획득하는 단계.Storing a training set including a training image and a class label in a memory, wherein the class label is associated with the training image, each training image comprising a training image feature; Inputting a training image of the training set stored in the memory to a second set of image descriptor extractors; Extracting a training image descriptor by a second set of image descriptor extractor sets describing training image features of each training image; Obtaining the trained plurality of classifiers by the classifier training means using the training image descriptor extracted by the image descriptor extractor of the second set and the class label associated with the training image; Estimating a class probability of a training image by a plurality of trained classifiers; estimating a class probability estimated by a plurality of trained classifiers and a meta classifier trained by a classifier training means based on a class label associated with the training image; Acquiring a classifier.

일 실시 예에서, 복수의 트레이닝 된 분류자의 수가 이미지 기술자 추출기의 제 2 세트 이미지 기술자 추출기 내의 수와 동일하고, 복수의 트레이닝된 분류자 각각은 제 2 세트의 이미지 기술자 추출기들 중 하나와 연관된다.In one embodiment, the number of the plurality of trained classifiers equals the number in the second set of image descriptor extractors of the image descriptor extractor, and each of the plurality of trained classifiers is associated with one of the second set of image descriptor extractors.

일부 실시 예에서, 제 1 및 제 2 세트의 이미지 기술자 추출기 내의 이미지 기술자 추출기는 SLBP (spatial local binary pattern) 추출기, GRLH (grayscale runlength histogram) 추출기 및 BMMFV (Bernoulli Mixture Model Fisher) 추출기를 포함한다.In some embodiments, the image descriptor extractor in the first and second sets of image descriptor extractors includes a spatial local binary pattern (SLBP) extractor, a grayscale runlength histogram (GRLH) extractor, and a BMMFV (Bernoulli Mixture Model Fisher) extractor.

이미지 기술자 및 트레이닝 이미지 기술자의 각각은 정수, 실수 또는 이진수의 수치 벡터 일 수 있다. 문서 하드 카피 이미지 및 트레이닝 이미지의 클래스는 정수 또는 텍스트 레이블 일 수 있다. 이미지 특징 및 트레이닝 이미지 특징은 각각 문서 하드 카피 이미지 및 트레이닝 이미지의 형태, 텍스처 및 / 또는 컬러와 관련될 수 있다.Each of the image descriptor and the training image descriptor may be a numeric vector of integer, real, or binary number. The document hardcopy image and the class of the training image may be integer or text labels. The image features and training image features may each be associated with the document hard copy image and the shape, texture and / or color of the training image.

일 실시 예에서, 문서 하드 카피 이미지를 제공하는 단계는 스캐너, 팩시밀리 머신, 포토 카메라, 비디오 카메라, 리더 혹은 무선 또는 유선 통신 네트워크를 통해 문서 하드 카피 이미지를 얻는 단계를 포함한다.In one embodiment, providing the document hard copy image comprises obtaining a document hard copy image via a scanner, a facsimile machine, a photocamera, a video camera, a reader, or a wireless or wired communication network.

일 실시 예에서, 제 1 및 제 2 세트 이미지 기술자 추출기는 동일한 이미지 기술자 추출기 세트이다.In one embodiment, the first and second set image descriptor extractors are the same set of image descriptor extractors.

일 실시 예에서, 트레이닝 된 다중 분류자는 지원 벡터 머신 (SVM)이다.In one embodiment, the trained multiple classifier is a support vector machine (SVM).

문서 하드 카피 이미지의 클래스 확률을 추정하는 것은 특정 클래스에 속하는 문서 하드 카피 이미지의 확률을 나타내는 실수의 벡터를 얻는 것을 포함 할 수 있다.Estimating the class probability of a hard copy image of a document may include obtaining a vector of real numbers that represents the probability of a hard copy image belonging to a particular class.

트레이닝 된 메타 - 분류자에 의해 가장 가능성 높은 클래스를 결정하는 단계는, 복수의 트레이닝 된 분류자에 의해 추정된 복수의 확률 벡터를 단일 벡터로 연결하는 단계; 상기 SVM 및 연결된 복수의 확률 벡터를 사용하여 상기 문서 하드 카피 이미지의 클래스 확률을 추정하는 단계; 가능성이 가장 높은 클래스를 가장 가능성이 많은 클래스로 선택합니다.Determining the most probable class by the trained meta-classifier comprises concatenating a plurality of probabilistic vectors estimated by the plurality of trained classifiers into a single vector; Estimating a class probability of the document hard copy image using the SVM and a plurality of connected probability vectors; Select the most likely class as the most likely class.

상기 트레이닝 세트를 저장하는 단계는, 상기 트레이닝 세트를 수신하는 단계; 상기 트레이닝 이미지의 무작위 서브 세트 및 상기 트레이닝 세트로부터의 클래스 라벨을 선택하는 단계; 및 상기 랜덤 서브셋을 상기 메모리에 저장하는 단계를 더 포함하는 방법.Wherein storing the training set comprises: receiving the training set; Selecting a random subset of the training image and a class label from the training set; And storing the random subset in the memory.

SLBP 추출기에 의해 이미지 기술자 또는 트레이닝 - 이미지 기술자를 추출하는 단계는 문서 하드 카피 이미지 또는 각각의 트레이닝 이미지를 복수의 수평 및 수직 스트라이프로 재귀적으로 세분하는 단계; 각 스트라이프를 동일한 크기로 다운 샘플링하는 단계; 각각의 다운 샘플링된 스트라이프의 각 픽셀에 대한 로컬 바이너리 패턴 (LBP)을 추출하는 단계; 각 다운 샘플링 된 스트라이프에 대한 이진 패턴 히스토그램을 계산하는 단계; 상기 계산 된 이진 패턴 히스토그램들을 상기 이미지 기술자 또는 트레이닝 - 이미지 기술자로 연결시키는 단계; 이미지 기술자 또는 트레이닝 - 이미지 기술자를 정규화하는 단계를 포함한다.The step of extracting the image descriptor or the training-image descriptor by the SLBP extractor comprises recursively subdividing the document hard copy image or each training image into a plurality of horizontal and vertical stripes; Downsampling each stripe to the same size; Extracting a local binary pattern (LBP) for each pixel of each downsampled stripe; Calculating a binary pattern histogram for each downsampled stripe; Coupling the computed binary pattern histograms to the image descriptor or the training-image descriptor; Normalizing the image descriptor or the training-image descriptor.

GRLH 추출기에 의해 이미지 기술자 또는 트레이닝 - 이미지 기술자를 추출하는 단계는, 문서 하드 카피 이미지 또는 각각의 트레이닝 이미지를 다운 샘플링하는 단계; 상기 다운 샘플링 된 하드 카피 이미지 또는 트레이닝 이미지를 복수의 수평 및 수직 스트라이프들로 재귀적으로 재분할하는 단계; 수평, 수직, 대각선 및 대각선 방향으로 스트라이프의 각 라인에 대해 유사한 휘도의 런 길이를 추출하는 단계; 각 스트라이프, 휘도 값 및 길이에 대한 런 길이 히스토그램 계산; 상기 계산 된 런 길이 히스토그램을 상기 이미지 기술자 또는 트레이닝 - 이미지 기술자로 연결하는 단계; 이미지 기술자 또는 트레이닝 - 이미지 기술자를 정규화하는 단계를 포함한다.The step of extracting the image descriptor or the training-image descriptor by the GRLH extractor comprises: downsampling the document hard copy image or each training image; Recursively subdividing the downsampled hardcopy image or training image into a plurality of horizontal and vertical stripes; Extracting run lengths of similar luminance for each line of the stripe in the horizontal, vertical, diagonal, and diagonal directions; Run length histogram calculation for each stripe, luminance value and length; Linking the calculated run length histogram to the image descriptor or the training-image descriptor; Normalizing the image descriptor or the training-image descriptor.

BMMFV 추출기에 의해 이미지 기술자 또는 트레이닝 - 이미지 기술자를 추출하는 단계는, 문서 하드 카피 이미지 또는 각각의 트레이닝 이미지를 다운 샘플링하는 단계; 상기 다운 샘플링 된 하드 카피 이미지 또는 트레이닝 이미지를 복수의 수평 및 수직 스트라이프들로 재귀적으로 재분할하는 단계; 각 스트라이프에 대한 바이너리 로컬 기술자를 추출하는 단계; 주성분 분석 알고리즘 (PCA)을 이용하여 추출 된 이진 로컬 기술자의 차원을 감소시키는 단계; 차원적으로 감소된 로컬 기술자에 대한 베르누이 혼합 모델을 계산하는 단계; 계산된 베르누이 혼합물 모델에 기초하여 피셔 벡터를 계산하는 단계; 계산된 피셔 벡터의 파워 정규화 및 L2 정규화 단계; 각 스트라이프에 대한 정규화된 피셔 벡터를 이미지 기술자 또는 트레이닝 - 이미지 기술자로 연결하는 단계를 포함한다. 2 진 로컬 기술자는 BRISK 또는 ORB 기술자 중 하나 일 수 있다.The step of extracting the image descriptor or the training-image descriptor by the BMMFV extractor comprises: downsampling the document hard copy image or each training image; Recursively subdividing the downsampled hardcopy image or training image into a plurality of horizontal and vertical stripes; Extracting a binary local descriptor for each stripe; Reducing the dimension of the extracted binary local descriptor using a principal component analysis algorithm (PCA); Computing a Bernoulli mixture model for the dimensionally reduced local descriptor; Calculating a Fisher vector based on the calculated Bernoulli mixture model; Power normalization and L2 normalization of the calculated Fischer vector; And linking the normalized fisher vector for each stripe to an image descriptor or a training-image descriptor. The binary local descriptor may be one of the BRISK or ORB descriptors.

본 개시의 제 2 태양에 따르면, 문서 하드 카피 이미지를 분류하는 장치가 제공된다. 이 장치는 본 개시의 제 1 태양에 따른 방법을 수행하는데 사용된다. 이를 위해, 장치는 분류 모듈 및 트레이닝 모듈을 포함한다.According to a second aspect of the present disclosure, an apparatus is provided for classifying a hard copy image of a document. This apparatus is used to perform the method according to the first aspect of the present disclosure. To this end, the device comprises a classification module and a training module.

분류 모듈은 문서 하드 카피 이미지를 분류하는데 사용되며, 제 1 세트의 이미지 기술자 추출기, 복수의 트레이닝 된 분류자, 트레이닝 된 메타 - 분류자 및 할당 수단을 포함한다. 제 1 세트의 이미지 기술자 추출기는 제 1 세트의 이미지 기술자 추출기에 입력된 문서 하드 카피 이미지에 대한 이미지 기술자를 추출하도록 구성된다. 문서 하드 카피 이미지에는 이미지 기능이 있으며 각 이미지 기술자는 이미지 기능을 설명합니다. 상기 복수의 트레이닝된 분류자는 제 1 세트의 이미지 기술자 추출기에 의해 추출된 이미지 기술자를 사용하여 문서 하드 카피 이미지의 클래스 확률을 추정하도록 구성된다. 트레이닝 된 메타 - 분류자는 복수의 트레이닝 된 분류자에 의해 추정된 클래스 확률을 이용하여 문서 하드 카피 이미지의 가장 가능성 높은 클래스를 결정하도록 구성된다. 상기 할당 수단은 트레이닝 된 메타 - 분류자에 의해 결정된 가장 가능성 높은 클래스를 상기 문서 하드 카피 이미지에 할당하여 분류 된 문서 하드 카피 이미지를 얻도록 구성된다.The classification module is used to classify the document hard copy images and includes a first set of image descriptor extractors, a plurality of trained classifiers, a trained meta-classifier, and assignment means. The first set of image descriptor extractors are configured to extract an image descriptor for the document hard copy image input to the first set of image descriptor extractors. Document hardcopy images have an image function, and each image descriptor describes the image function. The plurality of trained classifiers are configured to estimate a class probability of a document hard copy image using an image descriptor extracted by a first set of image descriptor extractors. The trained meta-classifier is configured to determine the most probable class of the document hard copy image using the class probabilities estimated by the plurality of trained classifiers. The assignment means is configured to assign the most probable class determined by the trained meta-classifier to the document hardcopy image to obtain a classified document hardcopy image.

트레이닝 모듈은 상기 복수의 트레이닝 된 분류 자 및 트레이닝 된 메타 - 분류자를 획득하기 위해 사용되고, 메모리, 이미지 기술자 추출기의 제 2 세트, 분류 자 트레이닝 수단 및 메타 - 분류 자 트레이닝 수단을 포함한다. 메모리는 트레이닝 이미지 및 클래스 라벨을 포함하는 트레이닝 세트를 저장하도록 구성된다. 클래스 레이블은 트레이닝 이미지와 관련이 있으며 각 트레이닝 이미지에는 트레이닝 이미지 특징이 있다. 제 2 세트의 이미지 기술자 추출기는 메모리에 저장된 트레이닝 세트의 트레이닝 이미지를 수신하고 트레이닝 이미지 기술자를 추출하도록 구성된다. 각 트레이닝 이미지 기술자는 각 트레이닝 이미지의 트레이닝 이미지 특징을 설명한다. 분류 자 트레이닝 수단은 제 2 세트의 이미지 기술자 추출기에 의해 추출된 트레이닝 이미지 기술자와 트레이닝 이미지와 연관된 클래스 라벨을 사용하여 트레이닝된 다중 분류자를 획득하도록 구성된다. 상기 복수의 트레이닝 된 분류자는 트레이닝 이미지의 클래스 확률을 추정한다. 메타 - 분류자 트레이닝 수단은 상기 복수의 트레이닝 된 분류 자에 의해 추정된 클래스 확률 및 트레이닝 이미지와 연관된 클래스 라벨을 사용하여 트레이닝 된 메타 분류자를 획득하도록 구성된다.The training module is used to obtain the plurality of trained classifiers and the trained meta-classifiers, and includes a memory, a second set of image descriptor extractors, classifier training means and meta-classifier training means. The memory is configured to store a training set comprising a training image and a class label. The class label is associated with the training image, and each training image has a training image feature. The second set of image descriptor extractors are configured to receive the training images of the training set stored in the memory and to extract the training image descriptors. Each training image descriptor describes the training image features of each training image. The classifier training means is configured to acquire a training multiple classifier using the training image descriptor extracted by the second set of image descriptor extractors and the class label associated with the training image. The plurality of trained classifiers estimate the class probability of the training image. The meta-classifier training means is configured to obtain a classifier trained by the plurality of trained classifiers and a classifier trained using a class label associated with the training image.

본 개시의 제 2 태양에 따른 디바이스의 실시 예는 본 개시의 제 1 태양에 따른 방법의 실시 예와 유사하다.An embodiment of the device according to the second aspect of the present disclosure is similar to the embodiment of the method according to the first aspect of the present disclosure.

본 개시의 제 3 태양에 따르면, 문서 하드 카피들을 분류하는 시스템이 제공된다. 이 시스템은 하드 카피 분류 장치 및 이미지 처리 시스템을 포함한다.According to a third aspect of the present disclosure, a system for classifying document hard copies is provided. The system includes a hard copy classification apparatus and an image processing system.

하드 카피 분류 장치는 문서 하드 카피용 입력 용지함, 문서 하드 카피 이미지를 포착하도록 구성된 이미지 포착 수단; 각각의 문서 하드 카피 이미지의 할당 된 클래스를 디스플레이하도록 구성된 통보 표시자; 정렬된 문서 하드 카피에 대한 하나 이상의 출력 분리 수거함.The hard copy classification apparatus comprises an input tray for hard copying of the document, image capturing means configured to capture a hard copy image of the document; A notification indicator configured to display an assigned class of each document hard copy image; One or more output separation cartridges for sorted document hardcopy.

이미지 처리 시스템은 클래스를 각각의 문서의 하드 카피 이미지에 할당하도록 구성된 본 개시의 제 2 태양에 따른 디바이스와, 각 문서의 하드 카피 이미지에 할당된 것에 따라 출력 용지함을 할당하도록 구성된 라우팅 모듈을 포함한다. 특히, 라우팅 모듈은 하드 카피 분류 장치로부터 복수의 출력 용지함 및 비어 있지 않은 출력 용지함에 관한 정보 및 장치로부터 할당된 클래스를 갖는 하드 카피 이미지를 본 개시의 제 2 양태에 따른 장치로부터 수신하고, 본 개시 각각의 문서 하드 카피 이미지의 할당 된 클래스 및 비어 있지 않은 출력 용지함의 수에 따라 출력 용지함의 수를 각 문서 하드 카피에 할당하며, 문서 하드 카피를 입력 용지함에서 지정된 출력 용지함으로 경로를 설정한다.The image processing system includes a device according to the second aspect of the present disclosure configured to assign a class to a hardcopy image of each document and a routing module configured to assign an output tray as assigned to a hardcopy image of each document . In particular, the routing module receives from the hard copy sorting device a plurality of output trays and information about non-empty output trays and a hard copy image having a class assigned from the device from the device according to the second aspect of the present disclosure, Assigns the number of output trays to each document hard copy according to the assigned class of each document hard copy image and the number of non-empty output trays, and sets the hard copy of the document from the input tray to the designated output tray.

촬상 수단은 스캐너, 팩시밀리, 포토 카메라, 비디오 카메라, 저장 매체로부터 이미지 파일을 판독하기 위한 판독기, 인터넷을 통해 이미지 파일을 수신하기 위한 입력 유닛 중 하나 일 수 있다. 알림 표시기는 LCD 디스플레이 또는 LED 표시기 중 하나 일 수 있다.The imaging means may be one of a scanner, a facsimile, a photocamera, a video camera, a reader for reading an image file from a storage medium, and an input unit for receiving an image file via the Internet. The alert indicator may be one of an LCD display or an LED indicator.

일 실시 예에서, 통지 표시자는 출력 용지함을 비울 필요성을 표시하도록 더 구성된다.In one embodiment, the notification indicator is further configured to indicate the need to empty the output tray.

본 개시의 다른 특징 및 이점은 다음의 상세한 설명을 읽고 첨부 된 도면에 의해 명백해질 것이다.Other features and advantages of the present disclosure will become apparent from the following detailed description and the accompanying drawings.

본 개시에 따라 이미지와 기술자를 분석한 것에 기초하여 효율적으로 문서 이미지를 해석한 자동 문서 분류 방식이 가능하다. An automatic document classification method in which a document image is efficiently analyzed based on analysis of an image and a descriptor according to the present disclosure is possible.

이하, 본 개시의 요지를 첨부 도면을 참조하여 설명한다.
도 1은 본 개시의 일실시예에 따라 스캔 된 문서 하드 카피를 분류하기 위한 시스템을 도시한다.
도 2는 본 개시의 일실시예에 따른 문서 하드 카피 분류 장치를 도시한다.
도 3은 본 개시의 일실시예에 따른 트레이닝 모듈의 흐름도이다.
도 4는 본 개시의 일실시예에 따른 예측 모듈의 흐름도이다.
도 5는 본 개시의 일실시예에 따른 하드 카피 정렬 모듈의 흐름도이다.
도 6은 본 개시의 일실시예에 따른 이미지 공간 피라미드 서브 디비전 프로세스를 도시한다.
도 7은 본 개시의 일실시예에 따른 LBP 추출 프로세스를 도시한다.
도 8은 본 개시의 일실시예에 따른 GRLH 추출 프로세스를 도시한다.
Hereinafter, the gist of the present disclosure will be described with reference to the accompanying drawings.
FIG. 1 illustrates a system for classifying scanned document hard copies in accordance with one embodiment of the present disclosure.
Figure 2 shows a document hard copy classification apparatus according to an embodiment of the present disclosure.
3 is a flow diagram of a training module in accordance with one embodiment of the present disclosure;
4 is a flow diagram of a prediction module in accordance with one embodiment of the present disclosure;
5 is a flow diagram of a hard copy sorting module in accordance with one embodiment of the present disclosure;
Figure 6 illustrates an image space pyramid subdivision process according to one embodiment of the present disclosure.
Figure 7 illustrates an LBP extraction process in accordance with one embodiment of the present disclosure.
Figure 8 illustrates a GRLH extraction process in accordance with one embodiment of the present disclosure.

아래에서는 첨부한 도면을 참조하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 개시의 실시예를 상세히 설명한다. 그러나 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 개시를 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art can easily carry out the present invention. However, the present disclosure may be embodied in many different forms and is not limited to the embodiments described herein. In order that the present disclosure may be more fully understood, the same reference numbers are used throughout the specification to refer to the same or like parts.

명세서에서 사용되는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 구성 요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만 사용된다. The terms used in the specification may be used to describe various components, but the components should not be limited by terms. Terms are used only for the purpose of distinguishing one component from another.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 어떤 부분이 다른 부분과 "연결"되어 있다고 함은 어떤 부분이 다른 부분과 신호 송수신을 통해 데이터 통신을 수행할 수 있는 상태가 되어 있는 경우를 포함한다. Throughout the specification, when a part is referred to as being "connected" to another part, it includes not only "directly connected" but also "electrically connected" with another part in between . The fact that a part is "connected" to another part includes the case where a part is in a state where it can perform data communication with another part through signal transmission / reception.

또한, 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 비 배타적(non-exclusive)인 포함을 커버하는 것으로 해석되고, 방법을 설명하는 각 단계 또는 프로세스는, 기재된 단계들만을 포함하는 것은 아니고, 명확히 포함되지 않거나 또는 단계, 프로세서에 내제되는 다른 단계들도 포함할 수 있다. 유사하게, "포함하는"으로 진행되는 하나 또는 그 이상의 장치들 또는 서브-시스템 또는 구성 요소들 또는 구조들 또는 구성 요소들은, 다른 장치, 다른 서브-시스템, 다른 구성 요소들, 다른 구조들, 추가적인 서브-시스템들 또는 추가적인 구성 요소들의 존재를 부정할 수 없다.In addition, the expression that a part "includes" some element is interpreted as covering a non-exclusive inclusion, and each step or process describing the method does not include only the steps described, But it is not explicitly included or may include other steps that are inherent in the step or processor. Similarly, one or more devices or sub-systems or components or structures or components proceeding to "comprising " may include other devices, other sub-systems, other components, other structures, Sub-systems or additional components.

다르게 정의되지 않는 한, 본 명세서에 사용된 모든 기술적 및 과학적 용어는 일반적으로 본 발명이 속하는 통상의 기술자에 의해 이해되는 것과 동일한 의미를 갖는다. 본 명세서에서 제공하는 전자 장치, 방법 및 실시예는 예시적으로 보여주기 위한 것이고, 권리 범위를 제한하기 위한 것은 아니다. Unless otherwise defined, all technical and scientific terms used herein have the same meaning as commonly understood by one of ordinary skill in the art to which this invention belongs. The electronic devices, methods and embodiments provided herein are for illustrative purposes only and are not intended to limit the scope of the rights.

이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다. "예시적인"이라는 단어는 본 명세서에서 "예 또는 예시로서 사용된"의 의미로 사용된다. 본 명세서에서 "예시적인" 것으로 설명된 임의의 실시 예는 반드시 일 것이나 다른 실시 예에 비해 이점을 갖는 것으로 해석되어서는 안된다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail with reference to the accompanying drawings. The word "exemplary" is used herein to mean "used as an example or example. &Quot; Any embodiment described herein as "exemplary " is by no means necessarily to be interpreted as having advantages over other embodiments.

문서 분류에 있어서 문서 하드 카피는 이미지 (시각적) 기능 및 텍스트 (내용이 의미 있는) 기능을 기초로 다양한 방법을 사용하여 수행될 수 있다. 예를 들어, N. Chen, D. Blostein, International Journal of Document Analysis and Recognition, vol. 1에서 "문서 이미지 분류 조사 : 문제 서술, 분류자 구조 및 성능 평가"와 같은 많은 접근 방법이 있다. 문서 분석 및 인식 국제저널, 볼륨 10, iss. 1, 1-16 페이지, 2007 년 6 월 - 은 문서 분류에 있어 필수 정보인 텍스트 정보에 중점을 두고 있다. 그러나 문서에 있는 텍스트의 양이 비교적 적거나, 없거나 또는 인식하기 어려운 손으로 쓴 텍스트 만 포함하는 등 비즈니스 문서에 대한 많은 상황이 존재하는 것이 사실이다. 따라서, 예를 들어 미국 특허 제8,831,361호 및 미국 특허 제8,462,394호에 개시된 것과 같은 종래 기술의 해결책 중 일부는 분류 정확도를 향상시키기 위해 시각 정보와 함께 텍스트 정보를 사용하는 것을 제안한다. 그러나 이러한 해결책은 텍스트 분석을 위한 광학 문자 인식 단계를 수행할 필요가 있기 때문에 계산량이 많이 늘어난다. In document classification, hard copies of documents can be performed using a variety of methods based on image (visual) functionality and text (content-meaningful) functionality. For example, N. Chen, D. Blostein, International Journal of Document Analysis and Recognition, vol. 1, there are many approaches such as "document image classification search: problem description, classifier structure and performance evaluation". Document analysis and recognition International Journal, Volume 10, iss. 1, pp. 1-16, June 2007 - focuses on textual information, which is essential for document classification. It is true, however, that there are many situations for business documents, such as containing only handwritten text, where the amount of text in the document is relatively small, missing, or hard to recognize. Accordingly, some of the prior art solutions, such as those disclosed in, for example, U.S. Patent No. 8,831,361 and U.S. Patent No. 8,462,394, suggest using textual information with visual information to improve classification accuracy. However, this solution requires a lot of computation because it needs to perform the optical character recognition step for text analysis.

다른 접근 방식은 문서 레이아웃 추출이 필요하며 문서 레이아웃은 바이너리 (또는 보다 복잡한) 트리의 형태로 제공된다. 하나의 예가 미국 특허 제 8,744,183호에 개시되어 있다. 이 접근 방식의 가장 큰 단점은 복잡한 문서에서의 레이아웃 추출의 어려움과 때로는 견고성의 결여이다. 예를 들어, 흰 종이에 잘 인쇄 된 문서의 경우 머리글, 바닥글 및 내용 블록을 쉽게 결정할 수 있다. 그러나 문서에 혼합표가 있거나 배경 그래픽이 포함된 경우 이러한 결정을 수행하는 것이 어렵거나 거의 불가능하다.Another approach requires document layout extraction and document layout is provided in the form of a binary (or more complex) tree. One example is disclosed in U.S. Patent No. 8,744,183. The main drawback of this approach is the difficulty and sometimes the lack of robustness in layout extraction in complex documents. For example, headings, footers, and content blocks can easily be determined for well-printed documents on white paper. However, it is difficult or almost impossible to make such a decision if the document contains mixed tables or background graphics.

이미지 특징 기반의 방법은 모든 문서 레이아웃 및 배경 작업에 보다 강력한 방법을 제공한다. 보다 구체적으로, 이들 방법은 문서 이미지 기술자 추출을 위한 3 개의 주요 파이프 라인, 즉 공간 로컬 바이너리 패턴, 그레이 스케일 런 길이(runlength) 히스토그램 및 피셔 벡터를 포함한다.The image feature-based method provides a more robust method for all document layout and background work. More specifically, these methods include three main pipelines for document image descriptor extraction: a spatial local binary pattern, a gray scale runlength histogram, and a Fisher vector.

Local Binary Patterns (LBPs)는 최근 얼굴 인식에 매우 널리 사용되고 있지만 문서 분류에는 거의 적용되지 않고 있다. 기존의 방법은 주로 스캔된 문서의 전체 이미지 또는 문서 특정 부분에 대한 LBP 추출에 중점을 둔다 (T. Ojala, M. Pietikainen, M. Maenpaa, "다중 해상도 그레이 스케일 및 회전 불변식 텍스처 분류 바이너리 패턴 ", PAMI, 2010).Local Binary Patterns (LBPs) are widely used for face recognition in recent years, but they are rarely applied to document classification. Conventional methods mainly focus on extracting LBPs for the entire image or a specific portion of the document in the scanned document (T. Ojala, M. Pietikainen, M. Maenpaa, "Multi Resolution Grayscale and Revolutionary Invariant Texture Classification Binary Pattern & , PAMI, 2010).

런 길이 히스토그램에 기초한 문서 이미지 기술자는 미국 특허 제 8,249,343 호에 논의되어 있으며, 문서 이미지 기술자는 특히 바이너리 문서용으로 설계되었다. 그러나, 미국 특허 제 8,249,343호에서 공개된 문서 이미지 기술자의 명백한 단점은 그것이 단순한 흑백 비즈니스 문서에만 적용될 수 있다는 것, 즉 그레이 스케일 이미지 기술자로서는 사용될 수 없다는 것이다.Document image descriptors based on run-length histograms are discussed in U.S. Patent No. 8,249,343, and document image descriptors are specifically designed for binary documents. However, an obvious disadvantage of the document image descriptor disclosed in U.S. Patent No. 8,249,343 is that it can only be applied to simple monochrome business documents, i.e. not used as a grayscale image descriptor.

전술한 바와 같이, 피셔 벡터는 또한 문서 이미지 기술자를 추출하기 위해 사용된다. 피셔 벡터를 기반으로 한 이미지 분류는 J. Sanchez, F. Perronnin, T. Mensink, J. Verbeek, International Journal of Computer Vision pp.105를 참조할 수 있다. 피셔 벡터로 추출 된 문서 이미지 기술자의 예가 US 8,532,399에 기술되어 있다.As described above, the Fischer vector is also used to extract the document image descriptor. The image classification based on the Fischer vector can be found in J. Sanchez, F. Perronnin, T. Mensink, J. Verbeek, International Journal of Computer Vision pp.105. An example of a document image descriptor extracted with a Fischer vector is described in US 8,532,399.

또한, 전술한 접근법 및 방법에 기초한 문서 분류를 위한 각각의 수단의 일부 예는 미국 특허 제 5,435,544호, 미국 특허 제 5,525,031호 및 미국 특허 제 5,602,973호에 제시되어 있다. 프린터의 전형적인 메일 박스는 복수의 출력 분리 수거함을 가지며, 미국 특허 5,295,181호에 기술된 바와 같이 인쇄된 하드 카피를 사용자 또는 사용자 그룹의 사전 정의된 유사성에 따라 분류할 수 있다. 그러한 정렬의 주요 단점은 상기 관련성이 미리 설정되고 프린터로 전송되는 모든 문서가 가지고 있다는 것이다. 선호도는 모든 문서에 인쇄해야 하는 바코드를 사용하여 결정된다. 따라서 바코드가 없는 문서는 인식되지 않는다. 또한, 출력 분리 수거함의 수는 가능한 문서 클래스 수를 제한하게 된다.In addition, some examples of each means for document classification based on the approaches and methods described above are set forth in U.S. Pat. No. 5,435,544, U.S. Pat. No. 5,525,031 and U.S. Pat. No. 5,602,973. A typical mailbox of a printer has a plurality of output bins and can classify printed hard copies as described in U.S. Patent No. 5,295,181 according to predefined similarities of users or groups of users. The main disadvantage of such an arrangement is that the relevance is pre-set and all documents sent to the printer have. The preference is determined using the barcode that must be printed on all documents. Therefore, documents without barcodes are not recognized. In addition, the number of output separation boxes limits the number of possible document classes.

도 1은 본 개시의 일 실시 예에 따른 문서 하드 카피들을 분류하기 위한 시스템 (100)을 나타낸다. FIG. 1 illustrates a system 100 for classifying document hard copies in accordance with an embodiment of the present disclosure.

도시된 바와 같이, 시스템 (100)은 스캐닝 장치 (101), 이미지 처리 시스템 (102), 하드 카피 분류 장치 (107), 인쇄 장치 (108) 및 저장 장치 (109)를 포함한다. 일반적으로, 스캐닝 장치 (101)는 포토 카메라, 이미지 파일을 갖는 미디어 저장 장치 등과 같이 이미지 획득하는데 적합한 다른 수단을 수반하거나 이들로 대체 될 수 있다. 이미지 처리 시스템 (102)은 문서 하드 카피 이미지를 분류하기 위한 장치(103) 및 라우팅 모듈 (106)을 포함한다. 문서 하드 카피 이미지를 분류하기 위한 장치 (103)는 트레이닝 모듈 (104)과 분류 모듈 (105)을 포함한다. As shown, the system 100 includes a scanning device 101, an image processing system 102, a hard copy sorting device 107, a printing device 108 and a storage device 109. In general, the scanning device 101 may be accompanied or replaced by other means suitable for image acquisition, such as a photocamera, a media storage device with an image file, and the like. The image processing system 102 includes an apparatus 103 and a routing module 106 for classifying document hard copy images. An apparatus 103 for classifying a hard copy image of a document comprises a training module 104 and a classification module 105.

트레이닝 모듈 (104) 복수의 트레이닝 된 분류자를 획득하고, 트레이닝 된 메타 분류자를 얻기 위해 메타 분류자를 트레이닝시키기 위한 분류자 트레이닝 수단을 포함한다. 트레이닝 모듈 (104)은 도 3을 참조하여 보다 상세하게 설명될 것이다. The training module 104 includes classifier training means for acquiring a plurality of trained classifiers and training the meta classifier to obtain a trained meta classifier. The training module 104 will be described in more detail with reference to FIG.

분류 모듈 (105)은 문서 하드 카피 이미지들을 분류하기 위해 사용되며, 도 3을 참조하여 아래에서 보다 상세히 설명될 것이다. 라우팅 모듈(106)은 각각의 문서 하드 카피 이미지마다 할당된 클래스에 따라 출력 용지함을 각 문서 하드 카피에 할당하도록 한다.The classification module 105 is used to classify hard copy images of documents and will be described in more detail below with reference to FIG. The routing module 106 allows the output tray to be assigned to each document hard copy according to the assigned class for each document hard copy image.

각 문서 하드 카피 이미지에 할당된 클래스는 각 할당된 클래스에 따라 하드 카피 정렬(소팅)을 수행하기 위해 하드 카피 분류 장치(107)로 전송된다. 상기 하드 카피 정렬은 복수의 문서 하드 카피를 트레이닝 세트에 의해 정의된 적절한 클래스와 관련된 세트로 분리하는 것을 포함한다. 트레이닝 세트는 트레이닝 이미지와 할당된 클래스 레이블로 구성된다. 사용자 선호도나 선택에 따라, 문서의 전자 카피는 인쇄 장치 (108)에 의해 인쇄되거나, 저장 장치 (109)에 의해 저장되거나, 인터넷, 로컬 네트워크 또는 팩스 (110)와 같은 다른 수단을 통해 공유 될 수 있다.The class assigned to each document hard copy image is sent to hard copy sorting device 107 to perform hard copy sorting (sorting) according to each assigned class. The hard copy alignment includes separating a plurality of document hard copies into sets related to the appropriate classes defined by the training set. A training set consists of a training image and an assigned class label. Depending on user preferences or selections, the electronic copy of the document may be printed by the printing device 108, stored by the storage device 109, or shared by other means, such as the Internet, a local network, have.

시스템 (100)의 임의의 모듈은 단일 오프라인 장치에서 결합되거나 별도로 분리되거나, 데이터 교환을 위해 유선 네트워크 또는 무선 시스템에 의해 접속되거나, 서브 시스템에서 다른 시스템과 결합될 수 있다. 예를 들어, 스캐닝 장치 (101)는 이미지 처리 시스템 (102) 또는 인쇄 장치(108)를 포함할 수 있고, 복합기(MFP)와 같은 다기능 주변 장치에 내장될 수 있다. 이미지 처리 시스템 (102)은 이미지 기술자 추출, 분류자 트레이닝 및 하드 카피 분류를 위한 명령을 갖는 프로세서 및 메모리로 구현될 수 있다. 다른 실시 예에서, 이미지 처리 시스템 (102)의 모듈은 시스템 온 칩 (SoC)을 사용하여 하드웨어로 구현될 수 있다. 당업자에게 자명한 바와 같이, 시스템 (100)은 각 사전 정의된 클래스에 대한 사용자 기호 및 시나리오에 따라 재구성되거나 변경될 수 있다. 예를 들어, 인쇄 장치(108)는 상이한 사용자 또는 부서간에 분산된 인쇄 장치의 네트워크로 나타낼 수 있다. 문서 하드 카피 이미지의 각 클래스에는 사전 정의된 시나리오 또는 필요한 조치 목록이 있는 시나리오가 수반된다. 예를 들어, 예측된 클래스 인보이스를 사용하여 문서를 하드 카피 정렬한 후에 스캔한 사본을 회계 부서에 위치한 프린터에 전자 메일을 통해 회계 부서 책임자에게 인쇄한다. 로컬 또는 원격 저장소, 사진 또는 비디오 카메라 또는 다른 이미지 캡처 장치와 같은 다른 적절한 장치를 통해 문서 이미지를 시스템에 입력함으로써 스캐닝 장치 (101) 및 하드 카피 분류 장치(107)없이 시스템 (100)을 구현하는 것이 가능하다.Any module of the system 100 may be combined in a single off-line device, separated separately, connected by a wired network or wireless system for data exchange, or combined with other systems in a subsystem. For example, the scanning device 101 may include an image processing system 102 or a printing device 108, and may be embedded in a multifunction peripheral such as a multifunction peripheral (MFP). The image processing system 102 may be implemented with a processor and memory having instructions for image descriptor extraction, classifier training, and hard copy classification. In another embodiment, the modules of image processing system 102 may be implemented in hardware using a system-on-chip (SoC). As will be appreciated by those skilled in the art, the system 100 may be reconfigured or modified in accordance with user preferences and scenarios for each predefined class. For example, the printing device 108 may represent a network of printing devices distributed between different users or departments. Each class of document hardcopy image is accompanied by a scenario with a predefined scenario or list of necessary actions. For example, after hardcopy sorting a document using a predicted class invoice, the scanned copy is printed to the accounting department manager via e-mail to the printer located in the accounting department. Implementing the system 100 without the scanning device 101 and the hard copy classifier 107 by inputting a document image to the system via a local or remote repository, a photo or other appropriate device such as a video camera or other image capture device It is possible.

또한, "이미지 기술자" 또는 "비주얼 기술자"라는 용어는 본 명세서에서 당업자에게 공지된 일반적인 의미로 사용되며, 전체 이미지 또는 각 이미지 영역의 기본 특성에 대한 설명과 관련된다. 이러한 이미지 기술자는 특정 애플리케이션에 따라 임의의 형태로 제공될 수 있다. 예를 들어, 이미지 기술자는 정수, 실수 또는 이진수의 수치 벡터 일 수 있지만, 이에 한정되는 것은 아니다.Also, the terms "image descriptor" or "visual descriptor" are used herein in the generic sense known to those skilled in the art and relate to the description of the entire image or the basic characteristics of each image area. Such an image descriptor may be provided in any form depending on the specific application. For example, the image descriptor may be an integer, real or binary numeric vector, but is not limited thereto.

도 2는 본 개시의 일 실시 예에 따른 하드 카피 분류 장치(200)를 도시한다. 하드 카피 분류 장치(200)는 적어도 스캐닝 및 하드 카피 분류 장치의 기능을 실행하며, 문서 하드 카피가 이루어지기 위한 적어도 하나의 입력 용지함(201) 및 출력 용지함(203)을 포함한다. 디스플레이 및 제어 패널(204)은 선택적이며 통지 표시자에 의해 대체 될 수 있다. FIG. 2 illustrates a hard copy classification apparatus 200 according to one embodiment of the present disclosure. The hard copy sorting apparatus 200 includes at least one input tray 201 and an output tray 203 for performing at least the functions of the scanning and hard copy sorting apparatus, and hard copying of documents. The display and control panel 204 is optional and can be replaced by a notification indicator.

사용자가 복수의 문서 하드 카피를 입력 용지함(201)에 넣고, 패널(204)을 통해 특정 정렬 모드를 선택하거나 디폴트 정렬 모드를 사용하면, 정렬된 문서 하드 카피를 출력 용지함(203)에서 수신한다. 문서 하드 카피 이미지는 스캐너, 팩시밀리, 포토 카메라, 비디오 카메라, 저장 매체로부터 이미지 파일을 판독하기 위한 판독기 및 인터넷을 통해 이미지 파일을 수신하는 입력 유닛 장치 중 하나 일 수 있는 이미지 캡쳐 수단에 의해 캡쳐된다. When a user places a plurality of document hard copies in the input tray 201 and selects a specific alignment mode through the panel 204 or uses the default alignment mode, the user receives an aligned document hard copy at the output tray 203. The document hardcopy image is captured by an image capture means, which may be a scanner, a facsimile, a photocamera, a video camera, a reader for reading the image file from the storage medium, and an input unit device for receiving the image file via the Internet.

분류 모드는 현재의 분류 프로세스에 대한 바람직한 분류자 또는 분류자의 조합 및 문서 하드 카피 이미지의 각 클래스 (여기서는 줄여서 "하드 카피 클래스"라고도 함)에 대해 할당된 출력 용지함의 목록을 포함하는 분류 파라미터 세트 또는 그러한 클래스들의 그룹을 위해 지정된 정렬 카테고리를 결정한다. 따라서, 분류 프로세스는 하드 카피 클래스 예측에 기초하여 그 클래스에 대해 할당된 적절한 출력 용지함에 하드 카피를 배치함으로써 적용된다. The classification mode is a set of classification parameters including a list of output trays assigned for each class of the hardcopy image (here also abbreviated as "hard copy class") of the desired classifier or classifier for the current classification process or And determines the sort category specified for the group of such classes. Thus, the classification process is applied by placing a hard copy on an appropriate output bin assigned for that class based on the hardcopy class prediction.

클래스는 예를 들어 하드 카피 이미지가 분류되는 종류를 의미할 수 있다. 예를 들어 하드 카피 이미지 분류에 의한 제 1 클래스는 '평가서', 제 2 클래스는 '계약서', 제 3 클래스는 '인보이스'와 같이 할당될 수 있다. A class can be, for example, a kind in which a hard copy image is classified. For example, the first class based on hard copy image classification may be assigned an 'evaluation form', a second class 'contract', and a third class 'invoice'.

하드 카피 분류 장치(200)가 단지 하나의 출력 용지함(203)을 갖는 경우에는, 2 개의 실시예가 가능하다. 제 1 실시 예는 모든 하드 카피를 단일 출력 용지함으로 출력하는 하드 카피의 분류만을 가정한다. 제 2 실시 예는 입력 하드 코드가 동일한 클래스를 가질 동안에만 출력 용지함으로 하드 카피를 출력하는 것이다. 현재의 하드 카피와 이전의 하드 카피의 클래스가 다른 경우, 하드 카피 분류 장치 (200)는 (예를 들어, 패널 (204)을 통해) 사용자에게 출력 용지함(203)을 비우고 그 안에 모든 하드 카피를 수동으로 대응하는 하드 카피 묶음에 넣도록 촉구한다. 그런 다음 정렬 프로세스가 진행된다. 당연히, 단지 하나의 용지함을 갖는 하드 카피 분류 장치(200)는 자동 용지 공급기를 갖는 임의의 스캐너 또는 MFP 일 수 있다. 하드 카피 분류 장치 (200)는 이미지 처리 시스템 (102), 인쇄 또는 저장 장치 (108 및 109)를 각각 포함하는 다른 시스템 모듈을 포함할 수 있다.In the case where the hard copy sorting apparatus 200 has only one output tray 203, two embodiments are possible. The first embodiment only assumes the classification of a hard copy to output all hard copies to a single output bin. The second embodiment is to output the hard copy to the output tray only while the input hard code has the same class. If the current hard copy and the previous hard copy class are different, the hard copy classifier 200 empties the output tray 203 to the user (e.g., via panel 204) and places all hard copies Manually prompts to put in the corresponding hard copy bundle. The alignment process then proceeds. Of course, the hard copy sorting apparatus 200 with only one tray can be any scanner or MFP with an automatic paper feeder. Hard copy classification device 200 may include other system modules each including image processing system 102, printing or storage devices 108 and 109,

트레이닝 모듈 (300) 및 분류 모듈 (400)은 도 3 및 도 4를 참조하여 설명 될 것이다. The training module 300 and the classification module 400 will be described with reference to Figs. 3 and 4. Fig.

트레이닝 모듈 (300)은 분류 모듈 (400) 이전에 선택적으로 이용되어 시스템 (100)을 사용자 정의 트레이닝 데이터 세트에 적응시킨다. 트레이닝 모듈 (300)은 새로운 하드 카피 클래스 또는 클래스들이 시스템 (100)에 추가될 때 재차 이용된다.The training module 300 is optionally used prior to the classification module 400 to adapt the system 100 to a user-defined training data set. The training module 300 is used again when a new hard copy class or class is added to the system 100. [

트레이닝 모듈 (300) 동작은 사용자 - 라벨링 된 하드 카피 이미지에 따른 분류자 트레이닝에 기초한다. 여기서 라벨은 숫자 또는 텍스트, 예를 들어 "1", "2", "3", "4"또는 "청구서", "이메일", "보고서"등 일 수 있다. 사용자는 미리 각 이미지에 라벨을 지정한다. Training module 300 operation is based on classifier training according to a user-labeled hardcopy image. Here, the label may be a number or text, such as "1", "2", "3", "4" or "bill", "email", "report" The user pre-labels each image.

트레이닝 모듈(300)은 트레이닝 이미지 및 할당된 라벨로 구성된 트레이닝 세트를 수신하고, 트레이닝 세트의 랜덤 서브 세트를 선택하고, 랜덤 서브 세트를 메모리(301)에 저장한다. 분류자 트레이닝은 복수의 분류자(기술자 추출기 당 하나의 분류자) 및 메타 분류자에 대해 개별적으로 적용된다. 본 개시의 일 실시 예에서, 3 개의 이미지 기술자 추출기, 즉 공간 로컬 바이너리 패턴 (SLBP) (305), 그레이 스케일 런 길이 히스토그램 (GRLH) (306) 및 베르누이 혼합 모델 피셔 벡터 (BMMFV) 기반의 종합 로컬 기술자가 사용된다. 트레이닝 된 분류자는 분류 모듈 (105)에서 이용된다. 트레이닝 세트 및 원하는 클래스의 양을 변경함으로써 상이한 분류 시나리오에 대한 분류자 세트를 트레이닝하는 것이 가능하다.The training module 300 receives a training set consisting of a training image and an assigned label, selects a random subset of the training set, and stores the random subset in memory 301. Classifier training is applied separately for a plurality of classifiers (one classifier per descriptor extractor) and a meta classifier. In one embodiment of the present disclosure, three image descriptor extractors, namely a spatial local binary pattern (SLBP) 305, a grayscale run length histogram (GRLH) 306 and a Bernoulli mixed model Fisher Vector (BMMFV) Descriptor is used. The trained classifier is used in the classification module 105. It is possible to train a set of classifiers for different classification scenarios by changing the training set and the amount of classes desired.

도 3을 참조하여 본 개시의 일 실시예에 따른 트레이닝 모듈의 동작을 설명하도록 한다. The operation of the training module according to one embodiment of the present disclosure will be described with reference to FIG.

1. 먼저, 트레이닝 세트를 메모리(301)에 저장한다. 상기 저장은 상기 트레이닝 세트를 수신하는 것과 관련되어 있는데, 트레이닝 세트로부터 랜덤 서브 세트를 선택하는 단계 및 랜덤 서브 세트를 메모리(301)에 저장하는 단계를 포함한다.1. First, the training set is stored in the memory 301. The storage is associated with receiving the training set, comprising selecting a random subset from the training set and storing the random subset in the memory 301. [

2. 그 후, 3 개의 이미지 기술자 추출기, 즉 공간 로컬 바이너리 패턴 추출기 (SLBP) (305), 그레이 스케일 런 길이 히스토그램 추출기(GRLH) (306) 및 베르누이 혼합 모델 피셔 벡터 (BMMFV) 기반의 종합 로컬 기술자 기반의 추출기(307)로 대변되는 이미지 기술자 추출기에 의해 메모리(301)로부터 트레이닝 이미지(303)가 수신된다.2. Thereafter, three image descriptor extractors, namely a spatial local binary pattern extractor (SLBP) 305, a grayscale run length histogram extractor (GRLH) 306 and a Bernoulli mixed model Fisher Vector (BMMFV) The training image 303 is received from the memory 301 by the image descriptor extractor represented by the base-based extractor 307.

3. 이미지 기술자 추출기(305, 306, 307)를 이용하여 트레이닝 이미지 (303)에 대한 트레이닝 이미지 기술자(308, 309, 310)가 추출된다. 3. Training image descriptors 308, 309, and 310 for the training image 303 are extracted using the image descriptor extractors 305, 306, and 307.

4. 그 후, 복수의 트레이닝된 분류자(312, 313, 314)는 트레이닝용 트레이닝 세트(302)로부터 추출된 트레이닝 이미지 기술자(308, 309 및 310) 및 클래스 라벨 (304)을 이용하는 하나 이상의 분류자 트레이닝 수단(311)을 사용하여 학습(트레이닝)된다. 본 개시의 일 실시 예에서, 분류자 학습(트레이닝)은 SVM (Support Vector Machines)을 통해 구현된다.The plurality of trained classifiers 312,31,3 and 314 may then be trained using training image descriptors 308,309 and 310 extracted from the training training set 302 and one or more classifications using class labels 304. [ Is trained using the self-training means 311. In one embodiment of the present disclosure, the classifier training is implemented via SVM (Support Vector Machines).

5. 다음에, 트레이닝된 분류자(312, 313, 314)를 사용하여 이미지(303)의 클래스 확률(315, 316, 317)이 추정된다. 클래스 확률은 하드 카피 이미지가 특정 클래스에 속할 확률을 나타내는 실수의 수치 벡터이다.5. The class probabilities 315, 316, and 317 of the image 303 are then estimated using the trained classifiers 312, 313, and 314. The class probability is a real number vector representing the probability that a hardcopy image belongs to a particular class.

6. 마지막으로, 메타 - 분류자(319)는 트레이닝을 위해 트레이닝 세트(302)로부터의 클래스 확률들(315, 316 및 317) 및 클래스 라벨들(304)을 이용하는 메타 - 분류자 트레이닝 수단(318)을 사용하여 트레이닝된다. 본 개시의 일 실시 예에서, 메타 - 분류자는 SVM을 통해 구현된다. 클래스 확률은 단일 벡터로 연결된다.6. Finally, the meta-classifier 319 includes meta-classifier training means 318 that uses class probabilities 315, 316, and 317 and class labels 304 from the training set 302 for training ). ≪ / RTI > In one embodiment of the present disclosure, the meta-classifier is implemented via SVM. Class probabilities are linked by a single vector.

트레이닝 된 분류자(312, 313, 314)는 분류 모듈(105)에서 이용된다. 사용자는 트레이닝 모듈(104)에 업데이트되거나 새로운 트레이닝 세트를 보충함으로써 시스템 동작 동안 분류자(312, 313, 314)를 수정 또는 재 트레이닝 할 수 있다.The trained classifiers 312, 313 and 314 are used in the classification module 105. The user may modify or retrain the classifier 312, 313, 314 during system operation by updating the training module 104 or supplementing the new training set.

도 4를 참조하여 본 개시의 일 실시예에 따른 분류 모듈(400)의 동작을 설명하도록 한다.The operation of the classification module 400 according to one embodiment of the present disclosure will now be described with reference to FIG.

1. 먼저, 문서 하드 카피 이미지(401)가 이미지 기술자 추출기(402, 403, 404)에 제공된다.1. First, a document hard copy image 401 is provided to the image descriptor extractors 402, 403 and 404.

2. 이미지 기술자 추출기(402, 403, 404)는 각각 이미지 기술자(405, 406, 407)를 추출한다. 본 개시의 일 실시 예에서, 이미지 기술자 추출기는 SLBP, GRLH 및 BMMFV이다. 이미지 기술자 추출기 405, 406, 407, 305, 306, 307는 동일할 수 있다.2. The image descriptor extractors 402, 403, and 404 extract the image descriptors 405, 406, and 407, respectively. In one embodiment of the present disclosure, the image descriptor extractors are SLBP, GRLH, and BMMFV. The image descriptor extractors 405, 406, 407, 305, 306, 307 may be the same.

3. 그 후, 복수의 트레이닝 된 분류자 408, 409, 410는 클래스 확률 411, 412 및 413을 각각 추정한다. 본 개시의 일 실시 예에서, 다중 분류자는 SVM (Support Vector Machines)을 통해 구현된다. 트레이닝 된 분류자 408, 409, 410 및 312, 313, 314는 동일하다는 것에 유의해야 한다.3. The plurality of trained classifiers 408, 409, and 410 then estimate class probabilities 411, 412, and 413, respectively. In one embodiment of the present disclosure, multiple classifiers are implemented via Support Vector Machines (SVM). It should be noted that the trained classifiers 408, 409, 410 and 312, 313, 314 are the same.

4. 다음으로, 트레이닝 된 메타 분류자(414)는 단일 벡터로 연결된 클래스 확률들(411, 412, 413)을 이용하여 가장 가능성이 큰 클래스(415)를 결정한다. 본 개시의 일 실시 예에서, 트레이닝 된 메타 - 분류자는 SVM을 통해 구현된다. 트레이닝 된 메타 분류자 (414 및 319)는 동일하다는 것에 유의해야 한다.4. The trained meta classifier 414 then determines the most probable class 415 using the class probabilities 411, 412, 413 associated with a single vector. In one embodiment of the present disclosure, the trained meta-classifier is implemented via an SVM. It should be noted that the trained meta classifiers 414 and 319 are the same.

5. 최종적으로, 가장 가능성 있는 클래스(415)가 할당 수단을 이용하여 하드 카피 이미지 (401)에 할당되고, 이는 분류된 하드 카피(417)를 산출하게 된다.5. Finally, the most probable class 415 is assigned to the hard copy image 401 using the allocation means, which yields the classified hard copy 417.

도 5는 본 개시의 일실시예에 따라 장치(200)에 대한 분류 프로세스(500)를 도시한다. FIG. 5 illustrates a classification process 500 for a device 200 in accordance with one embodiment of the present disclosure.

분류 프로세스는 하드 카피가 입력 용지함(201)에 삽입되는 동안 계속되고 입력 용지함이 비면 중단된다(단계 501). 입력 용지함(201)으로부터 각각의 입력 하드 카피는 스캔되고 분류된다 (단계 502). 장치(200)가 단계 503에서 결정된 하나의 출력 용지함(203)을 갖는 경우, 장치(200)는 입력 문서가 동일한 클래스를 가질 때까지 단계 502 및 506을 통해 입력 하드 카피를 하나씩 수신하여 스캔한다. 현재 문서와 이전 문서의 클래스가 상이하고 단계 504의 결과가 아니오(No)이면, 장치(200)는 출력 용지함(203)에 있는 모든 문서를 대응 클래스 묶음에 수동으로 넣고 출력 용지함(203)을 비우도록 사용자에게 촉구하여 알린다 (단계 507 및 510). 단계 503에서 결정된 적어도 2개 이상의 출력 용지함들 (203) 및 단계 505의 결과에 따라 출력 용지함들 (203)의 양이 미리 정의된 클래스들 또는 정렬 카테고리보다 적은 경우, 장치 (200)는 최초 N-1 개의 클래스 (N은 출력 용지함의 수)를 별도의 용지함으로, 나머지 모든 클래스를 마지막 용지함으로 변환한다 (단계 502, 505, 508 및 509). 출력 용지함들 (203)의 양이 미리 정의된 클래스들 또는 정렬 카테고리들과 동일하거나 더 큰 경우에, 각각의 하드 카피는 현재 문서 클래스에 대해 지정된 적절한 출력 용지함(203)으로 출력되어야 한다.The sorting process continues while the hard copy is inserted into the input tray 201, and the input tray is blanked (step 501). Each input hard copy from the input tray 201 is scanned and sorted (step 502). If the device 200 has one output tray 203 determined in step 503, the device 200 receives and scans the input hard copies one by one through steps 502 and 506 until the input document has the same class. If the current document is different from the class of the previous document and the result of step 504 is No, the device 200 manually puts all the documents in the output tray 203 into the corresponding class bundle and empties the output tray 203 (Steps 507 and 510). If the amount of output trays 203 is less than the predefined classes or alignment category according to at least two output trays 203 determined at step 503 and the result of step 505, One class (N is the number of output trays) is converted to a separate tray and all the remaining classes are converted to the last tray (steps 502, 505, 508 and 509). If the amount of output trays 203 is equal to or greater than the predefined classes or sort categories, each hard copy should be output to the appropriate output tray 203 designated for the current document class.

트레이닝 (300) 및 분류(400) 모듈의 일 실시 예에 따르면, 분류 작업을 처리하기 위해 3개의 상이한 분류 방법이 적용될 수 있다. 이들 모두는 2개의 단계, 즉 대응하는 분류자(408, 409, 410)를 사용하여 이미지 기술자(405, 406, 407)의 추출 및 이미지 기술자의 분류로 나뉜다. 3개의 알고리즘 모두는 다른 설정을 가진 SVM 분류자를 이용한다. 이미지 기술자 추출기는 공간 로컬 바이너리 패턴 402 (SLBP), 그레이 스케일 런 길이 히스토그램 403 (GRLH) 및 Bernoulli Mixture Model Fisher 벡터 404 (BMMFV)를 기반으로 하는 종합 로컬 기술자이다. According to one embodiment of the training 300 and classification 400 modules, three different classification methods may be applied to process the classification operation. All of these are divided into two steps: extraction of the image descriptors 405, 406, 407 and classification of the image descriptor using the corresponding classifiers 408, 409, 410. All three algorithms use an SVM classifier with different settings. The image descriptor extractor is a comprehensive local descriptor based on the Spatial Local Binary Pattern 402 (SLBP), Grayscale Run Length Histogram 403 (GRLH), and Bernoulli Mixture Model Fisher Vector 404 (BMMFV).

도 6은 본 개시의 일 실시예에 따라 공간 로컬 바이너리 패턴 (SLBP)에 기초한 이미지 기술자의 추출을 도시한다. SLBP는 다음과 같이 추출된다. 먼저, 스캔 된 문서(601)의 입력 이미지는 그레이 스케일 이미지로 변환되어, 이미지 세분 프로세스를 사용하여 복수의 서브 이미지(602 및 603)로 분할되고, 각각의 이미지는 여러 개의 수직 및 수평 스트라이프들로 서브-분할된다. 그 다음, 모든 이미지들 (601, 602 및 603) (총 13 개의 이미지들 또는 스트라이프들)은 필요한 경우 100x100의 픽셀 크기로 다운 스케일링되고, 이들 이미지들의 각 픽셀은 수학식 1에 따라 로컬 바이너리 패턴 (LBP)으로 변환된다. 스케일링은 쌍 선형 변환을 사용하여 수행된다.Figure 6 illustrates extraction of an image descriptor based on a spatial local binary pattern (SLBP) according to one embodiment of the present disclosure. SLBP is extracted as follows. First, the input image of the scanned document 601 is converted to a grayscale image, divided into a plurality of sub-images 602 and 603 using an image subdivision process, and each image is divided into a plurality of vertical and horizontal stripes Sub-divided. All images 601, 602, and 603 (a total of 13 images or stripes) are then downscaled to a pixel size of 100x100 if necessary, and each pixel of these images is transformed into a local binary pattern LBP). Scaling is performed using a bilinear transform.

Figure pat00001
(수학식 1)
Figure pat00001
(1)

여기서 gi는 i 번째 인접 픽셀의 강도이고 수학식 2에 따라 s(g0, gi)는 픽셀 강도를 비교하는 함수이며 이진 코드를 반환한다. Where g i is the intensity of the ith neighboring pixel and s (g 0 , g i ) is a function that compares pixel intensities according to equation (2) and returns a binary code.

Figure pat00002
(수학식 2)
Figure pat00002
(2)

도 7은 본 개시의 일 실시 예에 따른 LBP 추출 프로세스를 도시한다. 도 7에 도시된 바와 같이, LBP는 중앙 픽셀과 그 이웃들 사이의 3 픽셀 마진을 갖는 반 시계 방향(701)의 상부 좌측 픽셀로부터 시작하는 패턴 요소의 추출에 의해 수치 이진 시퀀스로 변환된다. 추출된 1과 0은 부호없는 바이트 (703)로 해석되는 8 비트 패턴 (702)을 형성한다. 이들 바이트는 8-빈(bin) 히스토그램으로 결합되고 [0; 1] 범위에서 정규화된다. 최종 서술자의 길이는 (13 개의 하위 이미지) x (8-빈 히스토그램) = 104 가 된다.Figure 7 illustrates an LBP extraction process in accordance with one embodiment of the present disclosure. As shown in FIG. 7, the LBP is converted to a numeric binary sequence by extraction of the pattern elements starting from the upper left pixel of the counterclockwise direction 701 with a 3 pixel margin between the center pixel and its neighbors. The extracted 1's and 0's form an 8-bit pattern 702 that is interpreted as unsigned byte 703. These bytes are combined into an 8-bin histogram and [0; 1]. The length of the final descriptor is (13 sub-images) x (8-bin histogram) = 104.

각 하위 이미지의 픽셀 크기는 100x100 이므로 히스토그램 값은 정수에서 104에 의해 나눠서 [0; 1] 내의 실수로 변환할 수 있다. 스케일링의 목적은 각 히스토그램 밴드에 대해 다양한 레벨의 디테일을 제공하는 것이다. 이렇게 하면 작은 줄무늬로 세부 정보를 보존할 수 있을 뿐 만 아니라 노이즈도 제거할 수 있다.Since the pixel size of each subimage is 100x100, the histogram value is divided by 10 4 in the integer to [0; 1] can be converted to a real number. The purpose of scaling is to provide various levels of detail for each histogram band. This not only preserves details with small stripes, but also removes noise.

도 8은 본 개시의 일실시예에 따른 GRLH 추출 프로세스를 도시한다.Figure 8 illustrates a GRLH extraction process in accordance with one embodiment of the present disclosure.

GRLH 추출기는 공간적으로 지역화된 그레이 스케일 런 길이를 적용한다. 이는 다음과 같이 계산된다. The GRLH extractor applies a spatially localized gray scale run length. This is calculated as follows.

먼저, 스캔된 문서의 입력 이미지는 그레이 스케일 이미지로 변환되고 사전 정의된 크기로 다운 샘플링된다. 본 개시의 일 실시 예에서, 소정의 크기는 5x105 픽셀과 동일하다. 그런 다음, 도 6에서 서술한 공간 피라미드를 사용하여 복수의 서브 이미지로 분할된다. 각 이미지는 그레이 스케일 런 길이 인코딩으로 처리된다. 런은 사전 정의 된 값보다 작은 인접 픽셀의 밝기 변화가 있는 픽셀 시퀀스이므로 이미지 라인 801에서 R1-R4로 명명된 모든 런 802는 도 8에서 볼 수 있는 바와 같이 픽셀을 반복하면서 이웃하는 픽셀의 높은 분산을 찾는 것에 의해 찾을 수 있다. First, the input image of the scanned document is converted to a grayscale image and downsampled to a predefined size. In one embodiment of the present disclosure, the predetermined size is equal to 5 x 10 pixels. Then, it is divided into a plurality of sub-images using the spatial pyramid described in Fig. Each image is processed in grayscale run length encoding. Since a run is a pixel sequence with a brightness change of an adjacent pixel that is less than a predefined value, all runs 802, labeled R1-R4 on the image line 801, repeat the pixel as seen in Figure 8, Can be found by looking for.

GRLH 추출기는 30 이라는 임계값을 사용하여 이웃하는 런을 구분한다. 런 길이는 로그 스케일을 사용하여 양자화되고 현재 런과 이전 런의 평균 픽셀 값 간의 차이에 따라 두 개의 9 빈(bin) 히스토그램에 저장된다. 현재 런이 이전 런보다 밝은 경우 첫 번째 막대 그래프 또는 두 번째 막대 그래프에 저장된다. GRLH 추출기는 가로, 세로, 대각선 및 반대각선 방향에 대한 선 히스토그램을 계산한다. 모든 서브 이미지, 방향 및 밝기로부터의 히스토그램은 1512 바이트 크기의 단일 특징 벡터로 연결된다. 최종 특징 벡터는 [0; 1] 범위에서 정규화된다. The GRLH extractor uses a threshold of 30 to distinguish neighboring runs. The run length is quantized using a logarithmic scale and stored in two 9 bin histograms according to the difference between the average pixel value of the current run and the previous run. If the current run is lighter than the previous run, it is stored in the first histogram or the second histogram. The GRLH extractor calculates line histograms for the horizontal, vertical, diagonal, and anti-diagonal directions. The histograms from all sub-images, directions and brightness are linked to a single feature vector of size 1512 bytes. The final feature vector is [0; 1].

바이너리 대신에 그레이 스케일 이미지를 사용하면 이진화 알고리즘이 밝기 분리 임계치를 잘못 추정하는 경우 이미지 내용을 완전히 파괴할 수 있는 이진화 단계를 피할 수 있다. 예로써, 문서 이미지의 대비가 낮거나 텍스트가 겹치는 이미지가 아주 많을 때 매우 유용하다. 일반적인 예는 잡지를 들 수 있다. 이진 이미지 기반 기술자와는 달리, 본 개시는 각 방향을 따라 몇몇 종류의 로컬 이진화를 수행하기 때문에 앞서 언급한 문제가 발생하지 않으며, 이는 로컬 이진화가 작은 세부 내용에 대해서 상당히 민감한 퍼포먼스를 보이기 때문이다.Using a grayscale image instead of a binary avoids a binarization step that can completely destroy the image content if the binarization algorithm incorrectly estimates the brightness separation threshold. As an example, this is very useful when the contrast of the document image is low or there are a lot of overlapping images. A common example is a magazine. Unlike binary image-based descriptors, the present invention does not cause the aforementioned problems because the present disclosure performs some kind of local binarization along each direction, as local binarization exhibits fairly sensitive performance for small details.

Bernoulli Mixture Model (BMMFV)을 기반으로 피셔 벡터로 모아진 로컬 기술자 (P. Viola, M. Jones, CVPR 2001, 2001 IEEE 컴퓨터 학회 논문집, "단순 특징의 부스트 된 캐스케이드를 이용한 빠른 객체 검출" 참조, 2001년, Uchida, Yusuke 및 Shigeyuki Sakazawa, "이진 특성의 피셔 벡터를 이용한 이미지 검색", ACPR (Pattern Recognition), 2013 제 2 회 IAPR 아시아 컨퍼런스 IEEE)는 다음과 같은 방법에 의해 얻어진다. Based on the Bernoulli Mixture Model (BMMFV), a local technician gathered as a Fisher vector (P. Viola, M. Jones, CVPR 2001, 2001 IEEE Computer Society, "Fast Object Detection Using Boosted Cascade of Simple Features," 2001 , Uchida, Yusuke and Shigeyuki Sakazawa, "Image Retrieval Using Fisher Vector of Binary Characteristics", ACPR (Pattern Recognition), 2013 2nd IAPR Asia Conference IEEE) is obtained by the following method.

일단, 입력 이미지에서 로컬 기술자 X {x1, ..., xt, ..., xT}를 추출하고 PCA (Principal Component Analysis)를 사용하여 T / 2 차원 공간에 투영한다. 로컬 기술자 유형에 대한 특별한 요구 사항은 없지만 제안된 구현은 BRISK (이진 Robust Invariant Scalable Keypoints) 또는 ORB (Oriented Robust Binary Independent Elementary Features) 기술자를 사용한다 (E. Rublee, V. Rabaud, K. Konolige, G Bradski, "ORB : SIFT 또는 SURF에 대한 효율적인 대안", Computer Vision (ICCV), 2011 IEEE 국제 회의, IEEE 2011). 그런 다음 BMM 모델의 구성 요소의 수를 N으로 하고, D를 N이라고 할 때 Bernoulli 혼합 모델 (BMM) λ={wi, μid, i = 1..N, d = 1..D} 이 트레이닝(학습)된다. 이 모델을 사용하여 모듈은 각 로컬 기술자에 대한 피셔 점수를 다음 수학식 3과 같이 계산한다.Once the local descriptors X {x 1 , ..., x t , ..., x T } are extracted from the input image and projected into a T / 2 dimensional space using PCA (Principal Component Analysis). There is no specific requirement for the local descriptor type, but the proposed implementation uses BRISK (Binary Robust Invariant Scalable Keypoints) or ORB (E. Rublee, V. Rabaud, K. Konolige, G. Bradski, "ORB: Efficient Alternatives to SIFT or SURF", Computer Vision (ICCV), 2011 IEEE International Conference, IEEE, 2011). Then the Bernoulli mixture model (BMM) λ = {w i , μ id , i = 1..N, d = 1..D}, where N is the number of components of the BMM model, Training. Using this model, the module calculates the Fisher score for each local descriptor as: < EMI ID = 3.0 >

Figure pat00003
(수학식 3)
Figure pat00003
(3)

여기서, T는 이미지로부터 추출된 이진 특징의 수이고, γt (i) = p (i | xs, λ)이다. 그런 다음, 모듈은 수학식 4와 같이 Fisher 행렬을 얻는다.Here, T is the number of binary features extracted from the image and γ t (i) = p (i | x s , λ). The module then obtains the Fisher matrix as shown in equation (4).

Figure pat00004
(수학식 4)
Figure pat00004
(4)

마지막으로, 피셔 벡터

Figure pat00005
는 정규화된 피셔 점수 연결
Figure pat00006
(i = 1..N, d = 1..D) 로 얻어진다.Finally,
Figure pat00005
Normalized Fischer score connection
Figure pat00006
(i = 1..N, d = 1..D).

피셔 벡터는 파워 정규화 (각 벡터 값의 제곱근을 취함) 및 L2 정규화 (각 벡터 값을 벡터 유클리드 표준으로 나눔)로 더 정규화된다. Fisher 벡터

Figure pat00007
가 주어지면, 파워-정규화 된 벡터 f (z)는
Figure pat00008
(α= 0.5)와 같이 계산된다. The Fischer vector is further normalized by power normalization (taking the square root of each vector value) and L 2 normalization (dividing each vector value by the vector Euclidean standard). Fisher vector
Figure pat00007
Given the power-normalized vector f (z), the power-normalized vector f
Figure pat00008
(? = 0.5).

파워 정규화 이후에, L2 정규화는 f(z)에 대해 수행되어, 이진 특징 세트의 최종 피셔 벡터 기술자가 된다. BMMFV 추출기는 각 하위 이미지 601 및 602 (총 5 개의 하위 이미지)마다 하나의 피셔 (Fisher) 벡터를 가져와서 모두 단일 특징 벡터 기술자로 연결한다.After power normalization, L 2 normalization is performed on f (z) to become the final Fisher vector descriptor of the binary feature set. The BMMFV extractor fetches one Fisher vector for each sub-image 601 and 602 (a total of five sub-images) and concatenates them all into a single feature vector descriptor.

잘 알려진 가우스 혼합 모델 (GMM) 대신 BMM을 사용하려는 이유는 GMM이 임의의 실수 값의 분포인 정규 분포의 상단에서 작동하도록 설계되었다는 것 때문이다. 많은 수의 기술자도 실수 값인데 이 경우 GMM을 사용하는 것이 정상이다. 그러나 BRISK 및 ORB와 같은 이진 기술자는 GMM과 일치하지 않으며 Bernoulli 분포와는 일치한다.The reason for using BMM instead of the well-known Gauss Mixing Model (GMM) is that the GMM is designed to operate at the top of the normal distribution, which is a distribution of arbitrary real numbers. A large number of descriptors are also real numbers, and in this case it is normal to use GMMs. However, binary descriptors such as BRISK and ORB are not consistent with the GMM and are consistent with the Bernoulli distribution.

일단 특징 벡터가 얻어지면 SVM (Support Vector Machine)을 사용하여 분류된다. SLBP 및 GRLH의 경우에, SVM들 (408 및 409)은 다음의 교차 커널을 이용한다. Once the feature vectors are obtained, they are classified using SVM (Support Vector Machine). In the case of SLBP and GRLH, SVMs 408 and 409 use the following crossover kernel.

Figure pat00009
(수학식 5)
Figure pat00009
(5)

그리고 BMMFV SVM 410은 다음의 선형 커널 (수학식 6)을 사용한다.And the BMMFV SVM 410 uses the following linear kernel (Equation 6).

Figure pat00010
(수학식 6)
Figure pat00010
(6)

두 경우 모두 SVM 매개 변수 C (비용)는 10으로 설정된다.In both cases the SVM parameter C (cost) is set to 10.

각 SVM은 이미지 클래스의 수에 해당하는 클래스 확률의 벡터를 제공한다. 이 벡터들은 하나의 벡터로 연결되어 새로운 특징 벡터로 취급된다. 이 특징 벡터는

Figure pat00011
커널을 갖는 SVM 인 메타 분류자를 사용하여 이미지 클래스의 예측에 사용된다.Each SVM provides a vector of class probabilities corresponding to the number of image classes. These vectors are connected as a single vector and treated as a new feature vector. This feature vector
Figure pat00011
It is used to predict the image class using a meta classifier, which is an SVM with a kernel.

Figure pat00012
(수학식 7)
Figure pat00012
(7)

여기서 K는 분류자의 수이고 N은 가능한 클래스의 수이다. 메타 - 분류자의 출력은 크기 N의 확률 벡터이다.Where K is the number of classifiers and N is the number of possible classes. The output of the meta-classifier is a probability vector of size N.

요약하면, 본 개시는 1) 복수의 트레이닝 된 분류자, 2) 메타 - 분류자 및 3) 하드 카피 분류 장치를 사용하여 하드 카피 이미지 기술자 추출 및 분류를 위한 모듈 세트를 도입한다. 이미지 기술자 추출기는 공간 로컬 바이너리 패턴 추출기, 그레이 스케일 런 길이 히스토그램 추출기 및 베르누이 (Bernoulli) 혼합 모델 피셔 벡터 추출기를 포함한다. 모든 추출기는 이진, 정수 또는 실수 형식의 이미지 특징을 사용하므로 레이아웃 기반 방법에 필수적인 문서 레이아웃을 추출하기가 어려운 경우에 유용하다. 따라서, 본 개시는 문서 내용에 있어서 어떠한 제한이 있더라도 응용가능하다. In summary, the present disclosure introduces a set of modules for hard copy image descriptor extraction and classification using 1) a plurality of trained classifiers, 2) a meta-classifier, and 3) a hard copy classifier. The image descriptor extractor includes a spatial local binary pattern extractor, a grayscale run length histogram extractor, and a Bernoulli mixed model fisher vector extractor. All extractors use binary, integer, or real-valued image features, which is useful when it is difficult to extract document layouts that are essential to layout-based methods. Thus, the present disclosure is applicable even if there are any limitations on the document contents.

LBP를 기반으로 한 기존의 접근법에 비해 공간 로컬 바이너리 패턴 (SLBP)의 주요 개선 사항 (예 : T. Ojala, M. Pietikainen, M. Maenpaa, "다중 바이너리 솔루션의 로컬 바이너리를 사용한 다중 해상도 그레이 스케일 및 회전 불변 텍스처 분류 패턴 ", PAMI, 2010 및 Hongming Zhang, Wen Gao, Xilin Chen, Debin Zhao,"공간 히스토그램 특징을 사용한 물체 감지 ", Image and Vision Computing, 24 권, 4 월 1 일, 2006 년 4 월, 327-341 페이지, ISSN 0262-8856)은 제안된 구현이 블록 리스케일링과 결합된 입력 이미지의 재귀 블록 기반 공간 서브 분할을 사전 정의 된 크기에 적용하여 히스토그램 정규화를 피할 수 있고 각 이미지 블록이 여러 배율로 처리된다.Major improvements to the Spatial Local Binary Pattern (SLBP) compared to existing approaches based on LBP (eg T. Ojala, M. Pietikainen, M. Maenpaa, "Multi-resolution grayscale using local binaries of multiple binary solutions and Rotation Invariant Texture Classification Pattern ", PAMI, 2010 and Hongming Zhang, Wen Gao, Xilin Chen, Debin Zhao," Object Detection Using Spatial Histogram Features ", Image and Vision Computing, Volume 24, April 1, 2006 , Pp. 327-341, ISSN 0262-8856) suggests that the proposed implementation can avoid the histogram normalization by applying a recursive block-based spatial subdivision of the input image combined with block rescaling to a predefined size, And processed at a magnification.

제안된 그레이 스케일 런 길이 히스토그램의 개념은 기존의 접근법에 가깝지만, 본 개시는 이진화 단계를 포함하지 않는데, 이는 간단한 흑백 문서뿐만 아니라 복잡한 문서 이미지에서도 시스템(100)을 사용할 수 있도록 한다. 따라서 분류가 완전히 불가능한 이진화 오류를 피할 수 있게 한다. Although the concept of the proposed gray scale run length histogram is close to the conventional approach, the present disclosure does not include a binarization step, which allows the system 100 to be used in simple black and white documents as well as in complex document images. This makes it possible to avoid binarization errors that are completely impossible to classify.

베르누이 혼합 모형 피셔 벡터 (BMMFV)에 관해서는, 그 개념은 예를 들면 다음과 같이 기술되어있다. J. Sanchez, F. Perronnin, T. Mensink, J. Verbeek, "피셔 벡터로 이미지 분류 : 이론과 실습" , International Journal of Computer Vision 105, pp 222,245, 2013에 개시되어 있다. 본 개시는 개념 자체를 하드 카피 분류 문제로 추정한다. 공지된 접근법 대신에, 본 개시는 피셔 벡터를 베르누이 혼합 모델 및 공간 스트라이프 기반 서브 분할과 결합하여 회전, 레이아웃 변경 등과 같은 다양한 문서 변환에 대한 분류 정확성 및 분류자 강건성을 현저하게 향상시킨다. 베르누이 혼합 모델을 사용하면, 기존 모델 대부분의 일반적인 선택인 가우시안 혼합 모델을 사용하는 것이 아닌 ORB 나 BRISK와 같은 이진 이미지 기술자를 사용하는 경우에 더 정확하다. As for the Bernoulli mixed model fisher vector (BMMFV), the concept is described as follows, for example. J. Sanchez, F. Perronnin, T. Mensink, J. Verbeek, "Image Classification as a Fisher Vector: Theory and Practice", International Journal of Computer Vision 105, pp. 222, The present disclosure estimates the concept itself as a hardcopy classification problem. Instead of a known approach, the present disclosure combines a Fisher vector with a Bernoulli mixture model and spatial stripe-based subdivision to significantly improve classification accuracy and classifier robustness for various document transformations such as rotation, layout changes, and the like. Using the Bernoulli blend model is more accurate when using binary image descriptors such as ORB or BRISK, rather than using the Gaussian blend model, which is the most common choice of existing models.

SLBP (Spatial Local Binary Pattern), GRLH (Grayscale Run Length Histograms) 및 BMMFV (Bernoulli Mixture Model Fisher Vectors)는 매우 다른 이미지 기술자 추출기이므로 다른 이미지 특징을 추출하는 경향이 있다. 따라서 이러한 분류자를 조합한 세 추출기의 상단에 있는 메타 분류자를 사용하면 분류 정확도를 높일 수 있다. The SLBP (Grayscale Run Length Histograms) and BMMFV (Bernoulli Mixture Model Fisher Vectors) are very different image descriptor extractors and tend to extract other image features. Therefore, using the meta classifier at the top of the three extractors combining these classifiers can improve classification accuracy.

본 개시는 유연한 분류자 활용 방식을 제안하고자 한다. 최종 사용자에게 다양한 수의 분류 프로파일을 제공하기 위해 3 개의 분류자 또는 하나의 분류자를 모두 사용할 수 있다. 예를 들어, GRLH는 레이아웃이 고정된 문서의 빠른 분류에 적용될 수 있으며, BMMFV는 유연한 레이아웃 분류에 적합하고, 메타 분류는 충분한 정확도로 이미지를 분류할 수 없는 복잡한 경우를 위한 완벽한 해결책이다.This disclosure seeks to propose a flexible classifier utilization approach. All three classifiers or one classifier may be used to provide the end user with a different number of classification profiles. For example, GRLH can be applied to fast classification of fixed layout documents, BMMFV is suitable for flexible layout classification, and meta classification is the perfect solution for complex cases where the image can not be classified with sufficient accuracy.

본 개시는 스캔 된 문서 분류 또는 하드 카피 정렬 문제에 효율적으로 적용될 수 있다. 제안된 시스템(100)은 왜곡, 회전, 낮은 콘트라스트 및 다른 것과 같은 문서 왜곡이 제공되더라도 고정밀 또는 고정 레이아웃의 문서를 높은 정확도로 분류 할 수 있다. 제안된 시스템(100)은 MFP, 스마트 폰, 서버 기반 솔루션 중 임의의 하나로 임베딩 될 수 있거나 독립형 애플리케이션으로서 적용될 수 있다. 높은 분류 속도 및 멀티 코어 기반 처리는 복수의 문서에 대해 제안된 시스템(100)을 사용할 수 있게 한다. 제안된 하드 카피 소싱 장치(200)는 사용자 상호 작용 없이, 높은 분류 속도로 문서 다발을 자동으로 분류할 수 있다.The present disclosure can be efficiently applied to scanned document classification or hard copy alignment problems. The proposed system 100 can classify high precision or fixed layout documents with high accuracy, even if the document distortion such as distortion, rotation, low contrast and others is provided. The proposed system 100 may be embedded in any one of an MFP, smartphone, server-based solution, or may be applied as a standalone application. The high classification speed and multi-core based processing enable the proposed system 100 for multiple documents. The proposed hardcopy sourcing apparatus 200 can automatically classify a document bundle at a high classification speed, without user interaction.

본 개시의 다른 양태는 도면의 고려 및 본 개시의 일 실시 예의 후속하는 설명으로부터 명백해질 것이다. 당업자는 본 개시의 다른 실시 예가 가능하고 본 개시의 개념을 벗어나지 않으면서 본 개시의 세부 사항이 여러 태양에서 변형될 수 있음을 알 것이다. 따라서, 도면 및 설명은 본질적으로 예시적인 것으로 간주되어야 하며 제한적이지 않은 것으로 간주되어야 한다. 첨부된 청구 범위에서, 단수 형태의 구성 요소에 대한 언급은 명시적으로 다르게 명시되지 않는 한, 복수의 그러한 구성 요소의 존재를 배제하지 않는다.Other aspects of the disclosure will become apparent from consideration of the drawings and the following description of one embodiment of the present disclosure. Those skilled in the art will recognize that other embodiments of the disclosure are possible and that the details of the disclosure may be modified in various ways without departing from the concept of the disclosure. Accordingly, the drawings and description are to be regarded as illustrative in nature, and not as restrictive. In the appended claims, reference to an element in the singular form does not exclude the presence of a plurality of such elements, unless expressly stated otherwise.

100; 시스템
101; Storage Device
102; Image processing system
103; Device for classifying hardcopies
104; Training Module
105; Classification Module
106; Routing Module
107; Hardcopy sorting apparatus
108; Printing Device
109; storage device
110; Internet/LAN/Fax
200; 하드 카피 소싱 장치
100; system
101; Storage Device
102; Image processing system
103; Device for classifying hardcopies
104; Training Module
105; Classification Module
106; Routing Module
107; Hardcopy sorting apparatus
108; Printing Device
109; 저장 장치
110; Internet / LAN / Fax
200; Hard copy sourcing device

Claims (19)

이미지 특징을 포함하는 문서 하드 카피 이미지를 제공하는 단계;
제 1 세트의 이미지 기술자 추출기에 의해 상기 문서 하드 카피 이미지의 이미지 특징을 기술하는 이미지 기술자를 추출하는 단계;
상기 이미지 기술자에 기초하여 복수의 트레이닝 된 분류자에 의해 상기 문서 하드 카피 이미지의 클래스 확률을 추정하는 단계;
상기 추정 된 클래스 확률에 기초하여 트레이닝된 메타 분류자에 의해 상기 문서 하드 카피 이미지의 가장 확률 높은 클래스를 결정하는 단계;
상기 문서 하드 카피 이미지 및 상기 가장 확률 높은 클래스의 상기 문서 하드 카피 이미지를 할당 수단에 입력하는 단계; 및
상기 할당 수단에 의해, 상기 트레이닝 된 메타 분류자에 의해 결정된 가장 가능성 높은 클래스를 상기 문서 하드 카피 이미지에 할당하여 분류된 문서 하드 카피 이미지를 얻는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
Providing a hardcopy image of a document comprising image features;
Extracting an image descriptor describing an image feature of the document hard copy image by a first set of image descriptor extractors;
Estimating a class probability of the document hard copy image by a plurality of trained classifiers based on the image descriptor;
Determining a most probable class of the document hardcopy image by a meta classifier trained based on the estimated class probability;
Inputting the document hard copy image and the document hard copy image of the most probable class into the allocation means; And
Assigning, by the assigning means, the most probable class determined by the trained meta classifier to the document hardcopy image to obtain a classified document hardcopy image. ≪ Desc / How to.
제 1 항에 있어서,
상기 복수의 트레이닝 된 분류자 및 상기 트레이닝 된 메타 분류자는,
트레이닝 이미지 특징을 포함하는 트레이닝 이미지 및 클래스 라벨을 포함하는 트레이닝 세트를 메모리에 저장하는 단계를 포함하되, 상기 클래스 라벨은 상기 트레이닝 이미지와 관련되고,
제 2 세트의 이미지 기술자 추출기에 의해 상기 트레이닝 이미지의 트레이닝 이미지 특징을 기술하는 트레이닝 이미지 기술자를 추출하는 단계;
분류자 트레이닝 수단에 의해, 상기 트레이닝 이미지 기술자와 상기 트레이닝 이미지와 연관된 클래스 라벨을 사용하여 상기 복수의 트레이닝된 분류자를 얻는 단계;
상기 복수의 트레이닝 된 분류자에 의한 상기 트레이닝 이미지의 클래스 확률을 추정하는 단계; 및
메타 분류자 트레이닝 수단에 의해, 상기 추정된 클래스 확률 및 상기 트레이닝 이미지와 관련된 상기 클래스 라벨에 기초하여 상기 트레이닝 된 메타 분류자를 획득하는 단계에 의해 얻어지는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
The method according to claim 1,
Wherein the plurality of trained classifiers and the trained meta classifiers comprise:
CLAIMS What is claimed is: 1. A method comprising: storing a training set in a memory, the training set including a training image and a class label including a training image feature, wherein the class label is associated with the training image,
Extracting a training image descriptor describing a training image feature of the training image by a second set of image descriptor extractors;
Obtaining, by classifier training means, the plurality of trained classifiers using the training image descriptor and a class label associated with the training image;
Estimating a class probability of the training image by the plurality of trained classifiers; And
By the meta classifier training means, obtaining the trained meta classifier based on the estimated class probability and the class label associated with the training image.
제 2 항에 있어서, 상기 복수의 트레이닝 된 분류자의 수는 상기 제 2 세트의 이미지 기술자 추출기 내의 이미지 기술자 추출기의 수와 동일하고, 상기 복수의 트레이닝 된 분류자 각각은 상기 제 2 세트의 이미지 기술자 분류자 중 하나에 관련된 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The method of claim 2, wherein the number of the plurality of trained classifiers is equal to the number of image descriptor extractors in the second set of image descriptor extractors, Lt; RTI ID = 0.0 > 1, < / RTI > 제 2 항에 있어서, 상기 제 1 및 제 2 세트의 이미지 기술자 추출기 내의 각각의 이미지 기술자 추출기는 공간 로컬 바이너리 패턴 (SLBP) 추출기, 그레이 스케일 런 길이 히스토그램 추출기 (grayscale runlength histogram) 및 베르누이 혼합 모델 피셔 (Bernoulli Mixture Model Fisher) 벡터 (BMMFV) 추출기 중 적어도 하나를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The apparatus of claim 2, wherein each image descriptor extractor in the first and second set of image descriptor extractors comprises a spatial local binary pattern (SLBP) extractor, a grayscale runlength histogram and a Bernoulli mixed model fisher Bernoulli Mixture Model Fisher) vector (BMMFV) extractor. ≪ Desc / Clms Page number 21 > 제 4 항에 있어서, 상기 공간 로컬 바이너리 패턴 (SLBP) 추출기에 의해 상기 이미지 기술자 또는 트레이닝 이미지 기술자를 추출하는 단계는,
문서 하드 카피 이미지 또는 각각의 트레이닝 이미지를 복수의 수평 및 수직 스트라이프들로 재귀적으로 재분할하는 단계;
상기 각 스트라이프를 동일한 크기로 다운 샘플링하는 단계;
각각의 다운 샘플링된 스트라이프의 각 픽셀에 대한 로컬 바이너리 패턴 (LBP)을 추출하는 단계;
각각의 다운 샘플링된 스트라이프에 대한 이진 패턴 히스토그램을 계산하는 단계;
상기 계산된 이진 패턴 히스토그램을 상기 이미지 기술자 또는 트레이닝 이미지 기술자로 연결하는 단계;
상기 이미지 기술자 또는 상기 트레이닝 이미지 기술자를 정규화하는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
5. The method of claim 4, wherein extracting the image descriptor or training image descriptor by the spatial local binary pattern (SLBP)
Recursively subdividing the document hard copy image or each training image into a plurality of horizontal and vertical stripes;
Downsampling each of the stripes to the same size;
Extracting a local binary pattern (LBP) for each pixel of each downsampled stripe;
Calculating a binary pattern histogram for each downsampled stripe;
Linking the computed binary pattern histogram to the image descriptor or the training image descriptor;
And normalizing the image descriptor or the training image descriptor. ≪ Desc / Clms Page number 19 >
제 4 항에 있어서, 상기 GRLH 추출기에 의해 상기 이미지 기술자 또는 상기 트레이닝 이미지 기술자를 추출하는 단계는,
상기 문서 하드 카피 이미지 또는 각각의 트레이닝 이미지를 다운 샘플링하는 단계;
다운 샘플링 된 상기 문서 하드 카피 이미지 또는 트레이닝 이미지를 복수의 수평 및 수직 스트라이프들로 재귀적으로 재분할하는 단계;
가로, 세로, 대각선 및 반대각선 방향으로 스트라이프의 각 라인에 대해 유사한 밝기의 런 길이를 추출하는 단계;
상기 각 스트라이프, 상기 밝기 및 길이에 대한 런 길이 히스토그램을 계산하는 단계;
상기 계산 된 런 길이 히스토그램을 상기 이미지 기술자 또는 트레이닝 이미지 기술자로 연결하는 단계; 및
상기 이미지 기술자 또는 트레이닝 이미지 기술자를 정규화하는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
5. The method of claim 4, wherein extracting the image descriptor or the training image descriptor by the GRLH extractor comprises:
Down sampling the document hard copy image or each training image;
Recursively subdividing the down-sampled document hardcopy image or training image into a plurality of horizontal and vertical stripes;
Extracting run lengths of similar brightness for each line of the stripe in the horizontal, vertical, diagonal, and anti-diagonal directions;
Calculating a run length histogram for each of the stripes, the brightness, and the length;
Linking the calculated run length histogram to the image descriptor or the training image descriptor; And
And normalizing the image descriptor or the training image descriptor. ≪ Desc / Clms Page number 21 >
제 4 항에 있어서, 상기 BMMFV 추출기에 의해 상기 이미지 기술자 또는 트레이닝 이미지 기술자를 추출하는 단계는,
문서 하드 카피 이미지 또는 각 트레이닝 이미지를 다운 샘플링하는 단계;
다운 샘플링 된 상기 문서 하드 카피 이미지 또는 트레이닝 이미지를 복수의 수평 및 수직 스트라이프들로 재귀적으로 재분할하는 단계;
각각의 스트라이프에 대한 이진 로컬 기술자를 추출하는 단계;
주성분 분석 알고리즘 (PCA)을 사용하여 추출된 이진 로컬 기술자의 차원을 줄이는 단계;
차원적으로 감소 된 상기 로컬 기술자에 대한 베르누이 혼합 모델을 계산하는 단계;
상기 계산된 베르누이 혼합 모델에 기초하여 피셔 벡터를 계산하는 단계;
상기 계산 된 피셔 벡터의 파워 정규화 및 L2 정규화를 수행하는 단계;
각 스트라이프에 대한 정규화 된 피셔 벡터를 상기 이미지 기술자 또는 상기 트레이닝 이미지 기술자로 연결하는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
5. The method of claim 4, wherein extracting the image descriptor or training image descriptor by the BMMFV extractor comprises:
Down sampling the document hard copy image or each training image;
Recursively subdividing the down-sampled document hardcopy image or training image into a plurality of horizontal and vertical stripes;
Extracting a binary local descriptor for each stripe;
Reducing the dimension of the extracted binary local descriptor using a principal component analysis algorithm (PCA);
Computing a Bernoulli mixture model for the dimensionally reduced local descriptor;
Calculating a Fisher vector based on the calculated Bernoulli mixture model;
Performing power normalization and L2 normalization of the calculated Fischer vector;
And concatenating the normalized Fischer vector for each stripe with the image descriptor or the training image descriptor.
제 2 항에 있어서, 상기 이미지 기술자 및 상기 트레이닝 이미지 기술자 각각은 정수, 실수 또는 이진수의 수치 벡터 인 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The method of claim 2, wherein each of the image descriptor and the training image descriptor is a numeric vector of integer, real, or binary numbers. 제 2 항에 있어서, 상기 이미지 특징은 상기 문서 하드 카피 이미지의 형태, 질감 및 색상 중 적어도 하나와 관련되고 상기 트레이닝 이미지 특징은 상기 트레이닝 이미지의 형태, 질감 및 색상 중 적어도 하나와 관련되는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The method of claim 2, wherein the image feature is associated with at least one of a shape, texture and color of the document hard copy image and wherein the training image feature is associated with at least one of a shape, How to categorize a hardcopy image of a document. 제 2 항에 있어서, 상기 제 1 및 제 2 세트의 이미지 기술자 추출기는 동일한 이미지 기술자 추출기 세트 인 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The method of claim 2, wherein the first and second sets of image descriptor extractors are the same set of image descriptor extractors. 제 2 항에 있어서, 상기 문서 하드 카피 이미지 및 상기 트레이닝 이미지의 클래스는 정수 또는 텍스트 라벨인 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.3. The method of claim 2, wherein the document hard copy image and the class of the training image are integer or text labels. 제 2 항에 있어서, 상기 트레이닝 세트를 저장하는 단계는,
상기 트레이닝 세트를 수신하는 단계;
상기 트레이닝 세트로부터 상기 트레이닝 이미지의 무작위 서브 세트 및 상기 클래스 라벨을 선택하는 단계; 및
상기 무작위 서브 세트를 메모리에 저장하는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
3. The method of claim 2, wherein storing the training set comprises:
Receiving the training set;
Selecting a random subset of the training image and the class label from the training set; And
Storing the random subset in a memory. ≪ Desc / Clms Page number 21 >
제 1 항에 있어서, 상기 복수의 트레이닝 된 분류자는 SVM (support vector machine) 인 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.2. The method of claim 1, wherein the plurality of trained classifiers is a support vector machine (SVM). 제 13 항에 있어서, 상기 트레이닝 된 메타 분류자에 의해 가장 확률 높은 클래스를 결정하는 단계는,
상기 복수의 트레이닝 된 분류자에 의해 추정된 복수의 확률 벡터를 단일 벡터로 연결하는 단계;
상기 SVM 및 상기 단일 벡터를 사용하여 상기 문서 하드 카피 이미지의 클래스 확률을 추정하는 단계; 및
상기 추정된 확률에 기초하여 가장 높은 값의 확률을 가진 클래스를 상기 가장 확률 높은 클래스로서 선택하는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.
14. The method of claim 13, wherein determining the most probable class by the trained meta classifier comprises:
Concatenating a plurality of probabilistic vectors estimated by the plurality of trained classifiers into a single vector;
Estimating a class probability of the document hard copy image using the SVM and the single vector; And
Selecting a class with the highest probability as the most probable class based on the estimated probability. ≪ Desc / Clms Page number 19 >
제 1 항에 있어서, 상기 문서 하드 카피 이미지의 클래스 확률을 추정하는 단계는 특정 클래스에 속하는 문서 하드 카피 이미지의 확률을 나타내는 실수 벡터를 얻는 단계를 포함하는 것을 특징으로 하는 문서 하드 카피 이미지를 분류하는 방법.2. The method of claim 1, wherein estimating the class probability of the document hard copy image comprises obtaining a real vector representing a probability of a document hard copy image belonging to a specific class. Way. 문서 하드 카피 이미지의 이미지 특징을 기술하는 이미지 특징을 포함하는 상기 문서 하드 카피 이미지를 분류하기 위한 분류 모듈로서, 상기 분류 모듈은제 1 세트의 이미지 기술자 추출기에 입력 된 상기 문서 하드 카피 이미지에 대한 이미지 기술자를 추출하도록 구성된 제 1 세트의 이미지 기술자 추출기를 포함하고,
상기 이미지 기술자를 사용하여 상기 문서 하드 카피 이미지의 클래스 확률을 추정하도록 구성된 복수의 트레이닝된 분류자;
상기 추정된 클래스 확률을 이용하여 상기 문서 하드 카피 이미지의 가장 확률 높은 클래스를 결정하는 트레이닝 된 메타 분류자;
상기 가장 확률 높은 클래스를 상기 문서 하드 카피 이미지에 할당하여 분류된 문서 하드 카피 이미지를 얻도록 구성된 할당 수단을 포함하는 것을 특징으로 하는 문서 하드 카피 이미지 분류 장치.
A classification module for classifying a document hardcopy image comprising image features describing an image feature of the document hardcopy image, the classification module comprising: an image processor for generating an image for the document hardcopy image input to the first set of image descriptor extractors, A first set of image descriptor extractors configured to extract descriptors,
A plurality of trained classifiers configured to estimate a class probability of the document hard copy image using the image descriptor;
A trained meta classifier for determining the most probable class of the hardcopy image of the document using the estimated class probability;
And assigning means for assigning the most probable class to the document hardcopy image to obtain a classified document hardcopy image.
제 16 항에 있어서,
상기 복수의 트레이닝 된 분류자 및 상기 트레이닝 된 메타 분류자를 얻기위한 트레이닝 모듈을 더 포함하되, 상기 트레이닝 모듈은
트레이닝 이미지 및 상기 트레이닝 이미지와 관련된 클래스 라벨을 포함하는 트레이닝 세트를 저장하도록 구성된 메모리를 포함하되, 상기 트레이닝 이미지는 트레이닝 이미지 특징을 포함하며,
상기 메모리에 저장된 상기 트레이닝 세트의 트레이닝 이미지를 수신하고 각 트레이닝 이미지의 트레이닝 이미지 특징을 기술하는 상기 트레이닝 이미지 기술자를 추출하도록 구성된 제 2 세트의 이미지 기술자 추출기;
상기 제 2 세트의 이미지 기술자 추출기에 의해 추출 된 상기 트레이닝 이미지 기술자 및 상기 트레이닝 이미지와 관련된 클래스 라벨을 사용하여 트레이닝 된 복수의 분류자를 획득하도록 구성된 분류자 트레이닝 수단을 포함하고, 상기 복수의 트레이닝 된 분류자는 상기 트레이닝 이미지의 클래스 확률을 추정하도록 구성되며, 및
상기 복수의 트레이닝 된 분류자에 의해 추정된 클래스 확률 및 상기 트레이닝 이미지와 관련된 클래스 라벨을 이용하여 트레이닝 된 메타 분류자를 획득하도록 구성된 메타 분류자 트레이닝 수단을 포함하는 것을 특징으로 하는 문서 하드 카피 이미지 분류 장치.
17. The method of claim 16,
Further comprising a training module for obtaining the plurality of trained classifiers and the trained meta classifier,
A memory configured to store a training set comprising a training image and a class label associated with the training image, wherein the training image comprises a training image feature,
A second set of image descriptor extractors configured to receive the training images of the training set stored in the memory and to extract the training image descriptors describing the training image features of each training image;
And classifier training means configured to obtain a plurality of classifiers trained using the training image descriptor extracted by the image descriptor extractor of the second set and the class label associated with the training image, Wherein the training image is configured to estimate a class probability of the training image, and
Classifier training means configured to obtain a trained meta classifier using a class probability estimated by the plurality of trained classifiers and a class label associated with the training image, .
문서 하드 카피 들을 분류하기 위한 시스템으로서,
하드 카피 분류 장치를 포함하되, 상기 하드 카피 분류 장치는
문서 하드 카피를 적재하기 위한 입력 용지함,
상기 문서 하드 카피의 이미지를 캡쳐하도록 구성된 이미지 캡쳐 수단,
상기 문서 하드 카피 이미지의 각각에 대하여 할당된 클래스를 디스플레이하도록 구성된 통보 표시자,
분류 된 상기 문서 하드 카피를 위한 하나 이상의 출력 용지함을 포함하고,
이미지 처리 시스템을 포함하되, 상기 이미지 처리 시스템은,
상기 클래스를 상기 각각의 문서 하드 카피 이미지에 할당하도록 구성된 문서 하드 카피 이미지를 분류하기 위한 장치,
상기 각각의 문서 하드 카피 이미지에 할당된 클래스에 따라 상기 출력 용지함을 상기 각각의 문서 하드 카피에 할당하도록 구성된 라우팅 모듈을 포함하되,
상기 라우팅 모듈은, 상기 하드 카피 분류 장치로부터 출력 용지함의 수 및 비어 있지 않은 출력 용지함 수에 관한 정보 및 상기 문서 하드 카피 이미지는 상기 문서 하드 카피 이미지를 분류하기 위한 상기 장치로부터 상기 할당된 클래스를 갖는 문서 하드 카피 이미지를 수신하고,
각각의 문서 하드 카피 이미지의 할당 된 클래스 및 비어 있지 않은 출력 용지함의 수에 따라 출력 용지함의 수를 각 문서 하드 카피에 할당하고,
문서 하드 카피를 상기 입력 용지함에서 상기 할당된 출력 용지함으로 경로 변경하는 것을 특징으로 하는 문서 하드 카피 들을 정렬하기 위한 시스템.
A system for classifying document hard copies,
A hard copy classification apparatus, wherein the hard copy classification apparatus comprises:
An input tray for loading document hard copies,
Image capture means configured to capture an image of the document hard copy,
A notification indicator configured to display an assigned class for each of the document hard copy images,
And at least one output tray for the hard copy of the classified document,
An image processing system, comprising:
An apparatus for classifying a document hardcopy image configured to assign the class to each document hardcopy image,
And a routing module configured to assign the output tray to each of the document hardcopy according to a class assigned to each of the document hardcopy images,
Wherein the routing module is adapted to receive information about the number of output trays and the number of non-empty output trays from the hard copy classification apparatus and the document hard copy image, wherein the document hard copy image has the assigned class from the apparatus for classifying the document hard copy image Receiving a hard copy image of the document,
Assigning the number of output trays to each document hard copy according to the assigned class of each document hard copy image and the number of non-empty output trays,
And redirecting a hard copy of the document from the input tray to the assigned output tray.
제 18 항에 있어서, 상기 이미지 캡쳐 수단은 스캐너, 팩시밀리, 포토 카메라, 비디오 카메라, 저장 매체로부터 이미지 파일을 판독하기 위한 판독기, 인터넷을 통해 상기 이미지 파일을 수신하기 위한 입력 유닛 중 어느 하나 인 것을 특징으로 하는 문서 하드 카피 들을 정렬하기 위한 시스템.19. The apparatus according to claim 18, wherein the image capturing means is any one of a scanner, a facsimile, a photo camera, a video camera, a reader for reading an image file from a storage medium, and an input unit for receiving the image file via the Internet A system for sorting hard copy documents.
KR1020170025024A 2016-06-02 2017-02-24 Method and apparatus for scanned documents classification Withdrawn KR20170136970A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP17173814.9A EP3252669B1 (en) 2016-06-02 2017-05-31 Method and device for classifying scanned documents
US15/609,296 US10796144B2 (en) 2016-06-02 2017-05-31 Method and device for classifying scanned documents

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2016121715 2016-06-02
RU2016121715A RU2630743C1 (en) 2016-06-02 2016-06-02 Method and device for classification of images of printed copies of documents and sorting system of printed copies of documents

Publications (1)

Publication Number Publication Date
KR20170136970A true KR20170136970A (en) 2017-12-12

Family

ID=59893822

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170025024A Withdrawn KR20170136970A (en) 2016-06-02 2017-02-24 Method and apparatus for scanned documents classification

Country Status (2)

Country Link
KR (1) KR20170136970A (en)
RU (1) RU2630743C1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358122A (en) * 2021-12-03 2022-04-15 南京莱斯信息技术股份有限公司 Method and system for distributing information on demand

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8462394B2 (en) * 2008-08-05 2013-06-11 Xerox Corporation Document type classification for scanned bitmaps
US8532399B2 (en) * 2010-08-20 2013-09-10 Xerox Corporation Large scale image classification
US8831361B2 (en) * 2012-03-09 2014-09-09 Ancora Software Inc. Method and system for commercial document image classification
RU2571545C1 (en) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Content-based document image classification

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358122A (en) * 2021-12-03 2022-04-15 南京莱斯信息技术股份有限公司 Method and system for distributing information on demand

Also Published As

Publication number Publication date
RU2630743C1 (en) 2017-09-12

Similar Documents

Publication Publication Date Title
EP3252669B1 (en) Method and device for classifying scanned documents
US9311531B2 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US8249343B2 (en) Representing documents with runlength histograms
US9542752B2 (en) Document image compression method and its application in document authentication
US8699789B2 (en) Document classification using multiple views
US8520941B2 (en) Method and system for document image classification
US7272269B2 (en) Image processing apparatus and method therefor
US7623712B2 (en) Image processing method and apparatus
US8224095B2 (en) Image processing apparatus, image forming apparatus, image processing system, and image processing method
US20160259973A1 (en) Systems and methods for classifying objects in digital images captured using mobile devices
US10140510B2 (en) Machine print, hand print, and signature discrimination
US9167129B1 (en) Method and apparatus for segmenting image into halftone and non-halftone regions
RU2603495C1 (en) Classification of document images based on parameters of colour layers
US20080310715A1 (en) Applying a segmentation engine to different mappings of a digital image
KR20170136970A (en) Method and apparatus for scanned documents classification
US20240202517A1 (en) Document processing with efficient type-of-source classification
US11288536B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
JP5157848B2 (en) Image processing apparatus, image processing method, computer program, and information recording medium
KR20150130253A (en) Method of extracting adaptive unstructured personal information in image for data loss prevention and apparatus for performing the method
JP7705468B2 (en) Information processing system, document type identification method, model generation method and program

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20170224

PG1501 Laying open of application
PN2301 Change of applicant

Patent event date: 20190614

Comment text: Notification of Change of Applicant

Patent event code: PN23011R01D

PC1203 Withdrawal of no request for examination