[go: up one dir, main page]

JP3039427B2 - Character extraction method and method - Google Patents

Character extraction method and method

Info

Publication number
JP3039427B2
JP3039427B2 JP9062094A JP6209497A JP3039427B2 JP 3039427 B2 JP3039427 B2 JP 3039427B2 JP 9062094 A JP9062094 A JP 9062094A JP 6209497 A JP6209497 A JP 6209497A JP 3039427 B2 JP3039427 B2 JP 3039427B2
Authority
JP
Japan
Prior art keywords
character
contour
contact
contours
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP9062094A
Other languages
Japanese (ja)
Other versions
JPH10240861A (en
Inventor
昌昭 上谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9062094A priority Critical patent/JP3039427B2/en
Publication of JPH10240861A publication Critical patent/JPH10240861A/en
Application granted granted Critical
Publication of JP3039427B2 publication Critical patent/JP3039427B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は光学式文字読み取り
装置における文字切り出し技術に関し、特に、互いに接
触した文字に対する文字切り出し方式及び方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting technique in an optical character reading apparatus, and more particularly, to a character extracting method and a character extracting method for characters in contact with each other.

【0002】[0002]

【従来の技術】文字切り出し技術は、光学式文字読み取
り装置などで、光学的走査などの画像入力方式で取り込
まれ電子化された画像から、読み取らせるべき文字を切
り出すために用いられている。従来の文字切り出し方式
として、例えば特開平6−203201号公報には、隣
接文字が接近、重複した文字列を少ない処理量で高性能
に認識可能とするため、文字の切り出し候補を、電子化
された画像に対してラベリング処理を行うことにより求
め、その切り出し候補が漢字の偏やつくりである場合を
想定して、文字の切り出し候補を組み合わせた時の文字
らしさ(妥当性)を示す評価関数を定義し、その評価関
数が最適になる場合の組み合わせを以て、文字切り出し
結果とする方法及び装置が提案されている。
2. Description of the Related Art The character segmentation technique is used by an optical character reader or the like to extract a character to be read from an image captured and digitized by an image input method such as optical scanning. As a conventional character segmentation method, for example, Japanese Patent Application Laid-Open No. 6-203201 discloses that character segmentation candidates are digitized in order to enable high-performance recognition of a character string in which adjacent characters approach and overlap with a small amount of processing. Is evaluated by performing labeling processing on the image, and assuming that the cut-out candidates are biased or made up of kanji, an evaluation function indicating the character-likeness (validity) when combining the character cut-out candidates is calculated. A method and an apparatus have been proposed in which a character extraction result is defined by a combination in which the evaluation function is defined and the evaluation function is optimized.

【0003】他の文字切り出し位置を検出する従来の方
式としては、電子化された画像に対して射影パターンを
取り、その射影パターンの高さがある値以下になる箇
所、あるいは射影パターンの谷間のうち最も深い位置を
探すことにより、切り出し位置を検出する方式が提案さ
れている。例えば文献(情報処理学会論文誌、33巻、
第9号、第1083頁、「文字構造情報に基づく高精度
な文字切り出し処理を用いた文書処理システム」)の記
載(第1085頁右段中程の「6.接触文字の分離処
理」の項)が参照される。
As another conventional method for detecting a character cut-out position, a projection pattern is obtained from an electronic image and a height of the projection pattern becomes a certain value or less, or a valley of the projection pattern. A method of detecting a cutout position by searching for a deepest position has been proposed. For example, literature (Information Processing Society of Japan, 33 volumes,
No. 9, page 1083, “Document processing system using high-precision character segmentation processing based on character structure information” (see “6. Separation processing of contact characters” in the middle of the right column on page 1085) Referenced.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、上記し
た従来方式は下記記載の問題点を有している。
However, the above-mentioned conventional system has the following problems.

【0005】まず、上記特開平6−203201号公報
に記載されている文字切り出し方式では、偏とつくりか
らなるような、複数の部分から構成される文字の切り出
しを行うことはできるものの、文字同士が接触した場合
には、その接触した箇所を分離することができない。
[0005] First, in the character extraction method described in Japanese Patent Application Laid-Open No. 6-203201, it is possible to extract a character composed of a plurality of parts, such as a biased and unstructured character. However, if they come into contact with each other, the contacted parts cannot be separated.

【0006】また、上記文献に記載されている方式で
は、文字の接触が点状ではなく面状になっている場合に
は、適切な文字切り出し位置候補を求めることは困難で
ある。さらに、ハイフンなどのように、射影パターンが
広い範囲にわたって一様で変動が少ない文字が存在する
場合に、適切な切り出し位置候補を抽出することが困難
である、あるいは冗長な文字切り出し位置候補を抽出し
てしまう、という問題点を有している。
Further, in the method described in the above document, it is difficult to obtain an appropriate character cutout position candidate when character contact is not point-like but planar. Furthermore, when there are characters such as hyphens whose projection pattern is uniform and has little variation over a wide range, it is difficult to extract an appropriate cutout position candidate, or a redundant character cutout position candidate is extracted. Has the problem that

【0007】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、接触した文字を
適正に切り出すことを可能とした文字切り出し方式及び
方法を提供することにある。
SUMMARY OF THE INVENTION Accordingly, the present invention has been made in view of the above problems, and an object of the present invention is to provide a character extracting method and a character extracting method capable of appropriately extracting a contacted character.

【0008】本発明の他の目的は、過剰な切り出しを行
うことのない文字切り出し方式及び方法を提供すること
にある。
Another object of the present invention is to provide a character extracting method and method that does not perform excessive extracting.

【0009】さらに、本発明の他の目的は、ハードウェ
アによる実現を容易とした文字切り出し方式を提供する
ことにある。
It is another object of the present invention to provide a character segmenting method which can be easily realized by hardware.

【0010】[0010]

【課題を解決するための手段】[Means for Solving the Problems]

【0011】また、本発明の文字切り出し方法は、
(a)光学的に取り込まれ電子化された文字行画像を連
結する画素塊(「連結画素塊」という)に分割し、
(b)前記連結画素塊の輪郭線を検出し輪郭線の数及び
輪郭線座標を求め、(c)求められた前記輪郭線の数、
前記輪郭線の内/外の種別、及び前記輪郭線の位置を参
照して所定の文字接触判定条件と比較することにより文
字接触の有無を判定し、(d)接触があると判定された
場合には、内輪郭線の端点から予め定められた所定の距
離を上限として文字列方向に画素を追跡走査し、外側輪
郭線との交差位置、もしくは予め定められた所定の距離
だけ離れた位置を、文字の端点と設定し、(e)設定さ
れた文字端点に対して前記文字行の並びと垂直方向に文
字切り出し境界を設定する、上記(a)〜(e)の工程
を含むことを特徴とする。
Further, the character extracting method of the present invention comprises:
(A) Dividing an optically captured and digitized character line image into pixel blocks to be connected (referred to as “connected pixel blocks”),
(B) detecting the contour of the connected pixel block to determine the number of contours and the contour coordinates; (c) determining the determined number of contours;
The presence / absence of character contact is determined by comparing the inside / outside type of the outline and the position of the outline with a predetermined character contact determination condition. (D) When it is determined that there is a contact The pixel is tracked and scanned in the character string direction with a predetermined distance as an upper limit from the end point of the inner contour line, and an intersection position with the outer contour line or a position separated by a predetermined distance is determined. (E) setting a character end point and setting a character cutout boundary in the vertical direction with respect to the set character end point and the arrangement of the character lines. And

【0012】[発明の概要]本発明の概要を以下に説明
する。本発明においては、接触判定及び文字切り出し位
置推定を行うための判断材料を求める手段(輪郭追跡部
3、輪郭種別判別部4、輪郭端点検出部5)、接触の有
無を判定する手段(文字接触判定部6)、接触があると
判定された場合に文字切り出し位置を探索する手段(文
字端検出部7)、及び、文字の境界を設定する手段(文
字切り出し位置設定部8)、を備える。本発明において
は、切り出し位置候補について、内輪郭の位置から一意
に推定される箇所のみを選ぶため、冗長な候補が発生し
ない、という作用効果を奏する。また、本発明によれ
ば、接触の判定を行ってから文字の分離を行うことによ
り、不必要な切り出し処理を回避することができるとい
う作用効果を奏する。
[Outline of the Invention] The outline of the present invention will be described below. In the present invention, means for determining a contact for performing contact determination and character cutout position estimation (contour tracking section 3, contour type discriminating section 4, contour end point detecting section 5), means for determining the presence or absence of contact (character contact) The determining unit 6) includes means for searching for a character cutout position when it is determined that there is a contact (character end detecting unit 7), and means for setting a character boundary (character cutout position setting unit 8). In the present invention, for the cutout position candidate, only a position uniquely estimated from the position of the inner contour is selected, so that there is an operational effect that redundant candidates do not occur. Further, according to the present invention, by performing the separation of the characters after the determination of the contact, there is an operational effect that unnecessary cutout processing can be avoided.

【0013】[0013]

【発明の実施の形態】本発明の実施の形態について、図
面を参照して詳細に説明する。図1は、本発明の実施の
形態の構成をブロック図にて示したものである。図1を
参照すると、本発明は、その好ましい実施の形態におい
て、(a)光学的走査などの手段により取り込まれ電子
化された文字行画像を格納する画像格納部1と、(b)
文字行画像を個々の連結画素塊に分離する画像分割部2
と、(c)連結画素魂に対して輪郭追跡処理を行い輪郭
線を検出する輪郭追跡部3と、(d)輪郭追跡部で得ら
れた輪郭線の内輪郭と外輪郭の判別を行う、輪郭種別判
別部4と、(e)輪郭線の端点を検出する、輪郭端点検
出部5と、(f)輪郭線の数、輪郭線の端点位置、輪郭
線の種別から接触の有無を判定する、文字接触判定部6
と、(g)輪郭端点座標から文字端を検出する文字端検
出部7と、(h)文字端の位置に、文字行と垂直方向に
文字の切り出し境界を設定する、文字切り出し境界設定
部8と、(i)各モジュールの動作制御を行う、全体制
御部9と、を備えて構成されている。
Embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention. Referring to FIG. 1, in a preferred embodiment of the present invention, (a) an image storage unit 1 for storing a digitized character line image captured by means such as optical scanning, and (b)
Image dividing unit 2 for separating a character line image into individual connected pixel blocks
(C) a contour tracing unit 3 that performs contour tracing processing on the connected pixel soul to detect a contour, and (d) discriminates an inner contour and an outer contour of the contour obtained by the contour tracing unit. A contour type discriminating unit 4, (e) a contour end point detecting unit 5 for detecting an end point of the contour line, and (f) a judgment of the presence / absence of contact based on the number of contour lines, a contour end point position, and a contour line type. , Character contact determination unit 6
(G) a character end detecting unit 7 for detecting a character end from the coordinates of a contour end point; and (h) a character cutout boundary setting unit 8 for setting a character cutout boundary at a position of a character end in a direction perpendicular to a character line. And (i) an overall control unit 9 for controlling the operation of each module.

【0014】このうち、画像格納部1は、光学的走査等
の手段により取り込まれ、OCR(Optical C
haracter Reader;光学的文字読み取
り)装置などで一般に用いられている公知の文字行切り
出し技術を用いて切り出された文字行画像を、電子化さ
れた形態で格納する。
The image storage unit 1 is fetched by means such as optical scanning and is stored in an OCR (Optical C).
A character line image cut out using a known character line cutout technique generally used in a character reader (optical character reading) device or the like is stored in an electronic form.

【0015】画像分割部2は、画像格納部1に格納され
ている電子化された文字行画像を読み込み、ラベリング
などの手法により個別の連結画素塊に分割する。
The image division unit 2 reads the digitized character line image stored in the image storage unit 1 and divides it into individual connected pixel blocks by a method such as labeling.

【0016】輪郭追跡部3は、分割された連結画素塊に
対して輪郭追跡処理を施し、輪郭線の数や追跡方向、輪
郭線の外接矩形座標値などの情報を求める。
The contour tracing unit 3 performs a contour tracing process on the divided connected pixel blocks to obtain information such as the number of contour lines, a tracing direction, and circumscribed rectangle coordinate values of the contour lines.

【0017】輪郭種別判別部4は、輪郭追跡によって得
られた輪郭情報の追跡方向から、その輪郭線が内側輪郭
線であるか外側輪郭線であるかを判定する。
The contour type discriminating unit 4 determines whether the contour is an inner contour or an outer contour from the tracking direction of the contour information obtained by the contour tracing.

【0018】輪郭端点検出部5は、輪郭追跡によって得
られた輪郭線の端点を検出する。
The contour end point detector 5 detects the end points of the contour line obtained by the contour tracing.

【0019】文字接触判定部6は、輪郭線の数、内側輪
郭線と外側輪郭線の端点座標、を参照し、文字の接触の
有無を判定する。
The character contact judging section 6 judges the presence or absence of character contact with reference to the number of contour lines and the coordinates of the end points of the inner contour line and the outer contour line.

【0020】文字端点検出部7は、内側輪郭線の端点か
ら文字行方向に沿って画素の追跡を行い、外側輪郭線と
の交差位置、もしくは所定の距離だけ離れた位置を文字
の端点と設定する。
The character end point detecting section 7 tracks pixels along the character line direction from the end point of the inner contour line, and sets an intersection position with the outer contour line or a position separated by a predetermined distance as a character end point. I do.

【0021】文字切り出し境界設定部8は、設定された
文字端点の外側を通る垂直線を文字切り出し境界として
設定する。
The character cutout boundary setting section 8 sets a vertical line passing outside the set character end point as a character cutout boundary.

【0022】全体制御部9は、画素分割部2によって生
成された各々の連結画素塊に対して文字切り出しを行う
ための制御を含む、モジュール全体の動作制御を行う。
The overall control unit 9 controls the operation of the entire module including the control for extracting characters from each connected pixel block generated by the pixel dividing unit 2.

【0023】図2は、本発明の実施の形態の処理動作を
説明するためのフローチャートである。図1及び図2を
参照して、本発明の実施の形態の動作について説明す
る。なお、上記各部(モジュール)の制御は全体制御部
9によって行われる。
FIG. 2 is a flowchart for explaining the processing operation of the embodiment of the present invention. The operation of the embodiment of the present invention will be described with reference to FIGS. The control of each unit (module) is performed by the overall control unit 9.

【0024】画像格納部1に格納された文字行画像は、
画像分割部2によって個々の連結画素塊に分割される
(ステップ102)。
The character line image stored in the image storage unit 1 is
The image is divided by the image dividing unit 2 into individual connected pixel blocks (step 102).

【0025】分割されたそれぞれの連結画素塊に対し
て、文字接触判定に用いるための情報を求めるために、
輪郭追跡部3を用いて輪郭追跡処理を行い、輪郭線情報
を求める(ステップ104)。
In order to obtain information for use in character contact determination for each of the divided connected pixel blocks,
Contour tracing processing is performed using the contour tracing unit 3 to obtain contour line information (step 104).

【0026】さらに輪郭種別判別部4及び輪郭端点検出
部5を用いて、輪郭線の内側/外側の種別の判定、各輪
郭線の端点の検出を行う(ステップ105)。
Further, using the contour type discriminating section 4 and the contour end point detecting section 5, the inside / outside type of the contour line is determined, and the end point of each contour line is detected (step 105).

【0027】こうして得られた輪郭線に関する情報を参
照して、連結画素塊に対して接触判定処理を行い(ステ
ップ106)、接触があると判定された連結画素塊に対
しては、文字端点の検出(ステップ107)及び文字境
界の設定(ステップ108)を行う。
Referring to the information on the contour line obtained in this way, a contact determination process is performed on the connected pixel block (step 106). Detection (step 107) and setting of character boundaries (step 108) are performed.

【0028】全ての連結画素塊に対して、上記の接触判
定処理が行われたことが確認できたら(ステップ103
のNo分岐)、処理を終了する(ステップ109)。な
お、上記各ステップは情報処理装置にてプログラムを実
行させることによって実現することができる他、専用ハ
ードウェア装置、もしくはソフトウェアとハードウェア
装置の協同によっても実現することができる。
If it is confirmed that the above-described contact determination processing has been performed on all the connected pixel blocks (step 103)
No branch), and the process ends (step 109). Each of the above steps can be realized by executing a program in the information processing device, or can be realized by a dedicated hardware device or a cooperation of software and a hardware device.

【0029】[0029]

【実施例】上記した本発明の実施の形態について更に詳
細に説明すべく、本発明の実施例を図面を参照して以下
に説明する。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram showing an embodiment of the present invention;

【0030】図1を参照して、文字接触判定部6は、連
結画素塊の文字の接触の有無を判定する。この判定に
は、輪郭線の数、輪郭線の種類(内/外)、輪郭線の位
置が引数として参照され、以下に示す判定式に基づいて
接触の有無が判定される。
Referring to FIG. 1, character contact determination section 6 determines whether or not a character in the connected pixel block has touched. In this determination, the number of contour lines, the type of contour line (inside / outside), and the position of the contour line are referred to as arguments, and the presence / absence of contact is determined based on the following determination formula.

【0031】接触文字数が2文字であるとの前提であれ
ば、判定式としては次式(1)の判定式を用いることが
できる。
Assuming that the number of touching characters is two, the following equation (1) can be used as the equation.

【0032】(内輪郭数=1)かつ(外輪郭数=1)か
つ(内輪郭が外輪郭の左半分もしくは右半分に収まって
いる)ならば、「接触がある」、と判定し、それ以外の
場合、「接触はない」と判定する。…(1)
If (the number of inner contours = 1), (the number of outer contours = 1) and (the inner contour is contained in the left half or the right half of the outer contour), it is determined that "there is a contact". Otherwise, it is determined that there is no contact. … (1)

【0033】これ以外にも判定式としては、次式(2)
の判定式を用いることもできる。
Other than the above, the following equation (2)
Can be used.

【0034】{(内輪郭数=1)または(内輪郭数=
2)}かつ(外輪郭数=1)かつ{(内輪郭数=1の
時、内輪郭が外輪郭の左半分もしくは右半分に収まって
いる)または(内輪郭数=2の時、内輪郭同士の水平方
向の重なりが所定の割合以内に収まっている)}なら
ば、「接触がある」と判定し、それ以外の場合、「接触
はない」と判定する。…(2)
{(The number of inner contours = 1) or (the number of inner contours =
2)} and (the number of outer contours = 1) and {(when the number of inner contours = 1, the inner contour falls within the left half or right half of the outer contour) or (when the number of inner contours = 2, the inner contour Horizontal direction
If the overlap of the directions is within a predetermined ratio), it is determined that “there is contact”, and otherwise, it is determined that there is no contact. … (2)

【0035】さらに接触文字数が3以上の場合を想定し
た場合の判定式は、次式(3)のように定義することが
できる。
Further, a determination formula when assuming that the number of contact characters is three or more can be defined as the following formula (3).

【0036】(内輪郭数=1)かつ(外輪郭数=1)か
つ(内輪郭線の左端と外輪郭線の左端との距離が、外輪
郭線の横幅の1/3以内である)かつ(内輪郭線の右端
と外輪郭線の右端との距離が外輪郭線の横幅の1/3以
内である)ならば、「接触がある」と判定し、それ以外
の場合、「接触はない」と判定する。…(3)
(The number of inner contours = 1), (the number of outer contours = 1) and (the distance between the left end of the inner contour and the left end of the outer contour is within 1/3 of the width of the outer contour) and If (the distance between the right end of the inner contour line and the right end of the outer contour line is within 1/3 of the width of the outer contour line), it is determined that "there is a contact", otherwise, "there is no contact" Is determined. … (3)

【0037】接触文字数の仮定を行わずに、内輪郭線だ
けで接触判定を行う判定式を定義してもよい。例えば以
下に示す判定式(4)を用いることができる。この場
合、接触している文字数を考慮する必要がなくなる。
It is also possible to define a determination formula for determining the contact only with the inner contour line without assuming the number of contact characters. For example, the following determination formula (4) can be used. In this case, there is no need to consider the number of characters in contact.

【0038】(内輪郭数≧1)ならば、「接触がある」
と判定し、それ以外の場合、接触がないと判定する。…
(4)
If (the number of inner contours ≧ 1), “there is contact”
Otherwise, it is determined that there is no contact. …
(Four)

【0039】そして、これらの複数の判定式を適宜組み
合わせた判定式も同様にして用いる。
A judgment formula obtained by appropriately combining a plurality of these judgment formulas is used in the same manner.

【0040】そして文字接触があると判定された場合に
は、文字端検出部7により文字端点の検出を行う。以下
では、左端の場合を例にとって説明する。
When it is determined that there is a character touch, the character end point is detected by the character end detecting unit 7. Hereinafter, the case of the left end will be described as an example.

【0041】輪郭端点検出部5によって求められた内輪
郭の左端点を基準にして、左側に向かって画素の探索を
行い、外輪郭と交差する位置を求める。別途指示する距
離以内に交差位置が見つかれば、その位置を文字端点と
定義する。右端についても同様に文字端点の位置を定義
する。
With reference to the left end point of the inner contour obtained by the contour end point detector 5, pixels are searched toward the left side, and a position intersecting with the outer contour is obtained. If an intersection position is found within the distance specified separately, that position is defined as a character end point. Similarly, the position of the character end point is defined for the right end.

【0042】ここで、文字端検出部7において別途指定
する距離とは、文字の太さを参照にして設定する値であ
る。手書き文字の場合には、筆記具、印刷文字の場合に
は、印刷フォントに及び文字の大きさ、に関する情報を
参照して設定する。より具体的には、例えばサインペン
などの筆記具を対象とする場合には、好ましくは2mm
程度の長さに相当する画素数に設定し、またワープロで
印刷された文書などを対象とする場合には、好ましくは
0.5mm程度の長さに設定される。ここでmm(ミリ
メートル)という表現を用いているのは、取り込んだ画
像の解像度に応じて画素数に換算した時の数値は変化す
るためである。
Here, the distance separately specified in the character edge detecting section 7 is a value set with reference to the thickness of the character. In the case of handwritten characters, the setting is made with reference to writing implements, and in the case of printed characters, information relating to print fonts and character sizes. More specifically, when targeting a writing instrument such as a felt-tip pen, for example, it is preferably 2 mm.
The number of pixels is set to about the same length, and when a document printed by a word processor or the like is targeted, the length is preferably set to about 0.5 mm. Here, the expression of mm (millimeter) is used because the numerical value when converted into the number of pixels changes according to the resolution of the captured image.

【0043】本実施例について、さらに具体例を以って
説明するため、以下では、判定式(2)を用いる場合を
例にとって、具体的な入力文字列パターンを想定し、本
実施例の動作を説明する。
The present embodiment will be described in further detail with reference to a specific example. In the following, a specific input character string pattern is assumed, taking the case of using the decision formula (2) as an example, and the operation of the present embodiment. Will be described.

【0044】例えば図3(A)に示すような“120”
という接触文字が入力された場合を例に取って説明す
る。なお、図3(B)は、図3(A)の文字パターンを
部分的に拡大して示したものであり、301は内輪郭
線、302は外輪郭線、303は内輪郭線左端、304
は文字左端、305は内輪郭線右端、306は文字右
端、307は文字境界を示している。
For example, "120" as shown in FIG.
The case where the contact character is input will be described as an example. FIG. 3B is a partially enlarged view of the character pattern of FIG. 3A, wherein 301 is an inner contour, 302 is an outer contour, 303 is the left end of the inner contour, and 304 is
Indicates the left end of the character, 305 indicates the right end of the inner contour line, 306 indicates the right end of the character, and 307 indicates the character boundary.

【0045】“120”という文字パターンは、まず画
像分割部2によって“1”と“20”の2画素塊に分割
される(図2のステップ102)。次に“1”のパター
ンに対して、輪郭追跡処理と輪郭端点を求める処理が行
われる(図2のステップ104、105)。
The character pattern "120" is first divided by the image dividing section 2 into two pixel blocks "1" and "20" (step 102 in FIG. 2). Next, a contour tracking process and a process for finding a contour end point are performed on the pattern “1” (steps 104 and 105 in FIG. 2).

【0046】“1”のパターンでは、外輪郭数=1、内
輪郭線=0となる。この場合、式(2)の文字接触条件
に合致しないため、文字接触判定部6は接触文字が存在
しないものと判定し、この文字の分離は行わず、次のパ
ターンの処理に移る(ステップ106の「No」分
岐)。
In the pattern of “1”, the number of outer contours = 1 and the inner contour = 0. In this case, since the character contact condition of Expression (2) is not met, the character contact determination unit 6 determines that there is no contact character, does not separate the character, and proceeds to the processing of the next pattern (step 106). “No” branch).

【0047】次に、“20”の部分に対して輪郭情報を
調べる。この場合、外輪郭線=1、内輪郭線=1、そし
て“0”の内輪郭は“20”のほぼ右半分に位置する。
これは上式(2)に示す文字接触判定条件に合致するた
め、文字の接触が存在するものと判定される(ステップ
106の「Yes」分岐)。
Next, contour information is checked for the portion "20". In this case, the outer contour = 1, the inner contour = 1, and the inner contour of “0” is located substantially in the right half of “20”.
Since this satisfies the character contact determination condition shown in the above equation (2), it is determined that there is a character contact ("Yes" branch in step 106).

【0048】“20”からは“0”の内輪郭301が検
出され、この左端から左側に黒画素の追跡を行い、外輪
郭302と交差する点を求める(ステップ107)。こ
の位置が、文字(“0”)の左端304に相当する。切
り出し境界307は、この文字左端に沿って文字列方向
に垂直に設定する(ステップ108)。右端に対しても
同様に切り出し位置を求めることができる(ステップ1
07、108)。但し、この場合、文字切り出しのため
の境界は設定されるが、境界線の右側には画素が存在し
ないため、結果として切り出し処理は行わなくてよい。
An inner contour 301 of "0" is detected from "20", black pixels are tracked from the left end to the left side, and a point intersecting the outer contour 302 is obtained (step 107). This position corresponds to the left end 304 of the character (“0”). The cutout boundary 307 is set perpendicular to the character string direction along the left end of the character (step 108). The cutout position can be similarly obtained for the right end (step 1).
07, 108). However, in this case, a boundary for character extraction is set, but there is no pixel on the right side of the boundary, so that the extraction processing need not be performed as a result.

【0049】また別の例として、図4(A)に示すよう
な“140”という接触パターンが入力された場合の、
本実施例の動作について説明する。最初に“1”と“4
0”に分かれるのは、上記“120”の場合と同様であ
り、“1”の部分についての接触判定結果も同様であ
る。なお、図4(B)は、図4(A)の文字パターンを
部分的に拡大して示したものであり、図4(B)におい
て、401は内輪郭線、402は外輪郭線、403は内
輪郭線左端、404は文字左端、405は内輪郭線右
端、406は文字右端、407は文字境界を示してい
る。
As another example, when a contact pattern “140” as shown in FIG.
The operation of the present embodiment will be described. First, “1” and “4”
It is the same as in the case of the above-mentioned “120”, and the same is true of the contact determination result for the part of “1.” Note that FIG. 4B shows the character pattern of FIG. In FIG. 4B, 401 is an inner contour, 402 is an outer contour, 403 is an inner contour left end, 404 is a character left end, and 405 is an inner contour right end. , 406 indicate the right end of the character, and 407 indicates the character boundary.

【0050】次に“40”の部分に対しての輪郭情報を
調べる。この場合、“4”の上部が閉じている場合は、
内輪郭は2個存在することになる。内輪郭の隣接関係に
ついて判定し、重なりが所定の値以内であるため、接触
があると判定される。“4”の上部が離れている場合
は、上記した“120”の場合と同じにある。
Next, contour information for the portion "40" is examined. In this case, if the top of “4” is closed,
There will be two inner contours. The adjacency relationship of the inner contour is determined, and it is determined that there is a contact because the overlap is within a predetermined value. If the upper part of “4” is far away, it is the same as the case of “120” described above.

【0051】検出された“0”の内輪郭の左端から左側
に追跡を行い外輪郭との交差点を求めるが、この場合、
所定の距離以内に外輪郭との交差が見つからない。この
場合は、別途定めた所定の距離を以て文字分離位置とす
る。
Tracking is performed to the left from the left end of the detected inner contour of “0” to find an intersection with the outer contour. In this case,
No intersection with the outer contour is found within a predetermined distance. In this case, the character separation position is set at a predetermined distance separately determined.

【0052】次に、上記判定式(3)を用いた場合につ
いて、例を挙げて説明する。図5(A)に示すような
“502”という接触パターンが入力された場合の動作
について説明する。この例では、画像分割部2は、個々
の連結画素塊に分割できないので、そのまま次のステッ
プにデータを渡す。なお、図5(B)は、図5(A)の
文字パターンを部分的に拡大して示したものであり、図
5(B)において、501は内輪郭線、502は外輪郭
線、503は内輪郭線左端、504は文字左端、505
は内輪郭線右端、506は文字右端、507は文字左境
界である。
Next, the case where the above-mentioned judgment formula (3) is used will be described with reference to an example. The operation when the contact pattern “502” as shown in FIG. 5A is input will be described. In this example, since the image division unit 2 cannot divide the image into individual connected pixel blocks, the image division unit 2 passes the data to the next step as it is. 5B is a partially enlarged view of the character pattern of FIG. 5A. In FIG. 5B, reference numeral 501 denotes an inner contour, 502 denotes an outer contour, and 503 denotes a contour. Is the left end of the inner contour line, 504 is the left end of the character, 505
Is the right end of the inner contour line, 506 is the right end of the character, and 507 is the left boundary of the character.

【0053】輪郭情報を調べると、外輪郭数=1、内輪
郭数=1である。内輪郭線は真ん中の文字の一部である
ので、内輪郭線の左端と右端は、判定式(3)の条件を
満たす。従ってこのパターンは接触文字と判定され、文
字切り出し処理に送られる。この例では真ん中の文字の
端点が左右とも切り出し位置として検出される。
When examining the contour information, the number of outer contours = 1 and the number of inner contours = 1. Since the inner contour is a part of the middle character, the left end and the right end of the inner contour satisfy the condition of the determination formula (3). Therefore, this pattern is determined to be a contact character and sent to the character cutout processing. In this example, the end point of the middle character is detected as a cutout position on both the left and right sides.

【0054】ラベリング処理を含む輪郭線追跡処理、輪
郭種別判定処理、輪郭線の端点座標検出処理は、汎用プ
ロセッサ上でソフトウェア的に行うことも可能であり、
また画像メモリと演算装置を持った専用ハードウェアと
して実現することも可能である。さらに輪郭追跡部3に
おける輪郭追跡処理は、画素分割部2におけるラベリン
グ処理の部分処理として同時に行う、あるいは機能モジ
ュールを兼用することが可能である。
The contour tracing processing including the labeling processing, the contour type determination processing, and the contour end point coordinate detection processing can be performed by software on a general-purpose processor.
It can also be realized as dedicated hardware having an image memory and an arithmetic device. Further, the contour tracing process in the contour tracing unit 3 can be performed simultaneously as a partial process of the labeling process in the pixel dividing unit 2, or can be used as a function module.

【0055】上記した本発明の実施例においては、切り
出し位置候補についても、内輪郭の位置から一意に推定
される箇所のみを選ぶため、冗長な候補が発生しない、
という作用効果を奏する。
In the above-described embodiment of the present invention, since only a position uniquely estimated from the position of the inner contour is selected for the cutout position candidate, no redundant candidate is generated.
This has the operational effect of:

【0056】また、上記した本発明の実施例において
は、接触の判定を行ってから文字の分離を行うことによ
り、不必要な切り出し処理を回避することができるとい
う作用効果を奏する。
In the above-described embodiment of the present invention, the character is separated after the determination of contact is made, so that an unnecessary cutout process can be avoided.

【0057】[0057]

【発明の効果】以上説明したように、本発明によれば、
下記記載の効果を奏する。
As described above, according to the present invention,
The following effects are obtained.

【0058】本発明の第1の効果は、文字の接触形態の
影響を受けないため、従来方式よりも、多くの接触パタ
ーンに対して文字切り出しが行える、ということであ
る。
The first effect of the present invention is that the character can be cut out for more contact patterns than in the conventional method because it is not affected by the contact form of the character.

【0059】本発明の第2の効果は、(a)冗長な文字
切り出し処理を行わないこと、及び(b)ハードウェア
化が容易であること、から、高速に文字切り出し処理を
行うことが可能である、ということである。
The second effect of the present invention is that (a) redundant character extraction processing is not performed, and (b) hardware can be easily implemented, so that character extraction processing can be performed at high speed. That is,

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態の構成を示すブロック図で
ある。
FIG. 1 is a block diagram showing a configuration of an embodiment of the present invention.

【図2】本発明の実施の形態の動作を説明するためのフ
ローチャートである。
FIG. 2 is a flowchart illustrating an operation of the exemplary embodiment of the present invention.

【図3】本発明の一実施例の動作を説明するための図で
ある。
FIG. 3 is a diagram for explaining the operation of one embodiment of the present invention.

【図4】本発明の一実施例の動作を説明するための図で
ある。
FIG. 4 is a diagram for explaining the operation of one embodiment of the present invention.

【図5】本発明の一実施例の動作を説明するための図で
ある。
FIG. 5 is a diagram for explaining the operation of one embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 画像格納部 2 画像分割部 3 輪郭追跡部 4 輪郭種別判別部 5 輪郭端点検出部 6 文字接触判定部 7 文字端検出部 8 文字切り出し境界設定部 9 全体制御部 101 全体制御部11が画像格納部1から文字行画像
を取り込み、文字切り出し処理を開始するステップ 102 画像分割部2が文字行画像を個々の連結画素塊
に分割するステップ 103 全体制御部11によって全ての連結画素に対し
て処理が行われたかの判定が行われるステップ 104 輪郭追跡部3、輪郭種別判別部4、内輪郭左端
によって連結画素塊の輪郭情報を求めるステップ 105 内輪郭左端検出部4及び内輪郭右端検出部5が
内輪郭の左端及び右端を検出するステップ 106 外輪郭左端検出部6及び外輪郭右端検出部7が
外輪郭の左端及び右端を検出するステップ 107 文字接触判定部9が接触判定を行うステップ 108 文字切り出し境界設定部10が文字の切り出し
境界を設定するステップ 109 全体制御部11が文字切り出し結果を後段の処
理に送り、文字切り出し処理を終了するステップ 301 内輪郭線 302 外輪郭線 303 内輪郭線左端 304 文字左端 305 内輪郭線右端 306 文字右端 307 文字境界 401 内輪郭線 402 外輪郭線 403 内輪郭線左端 404 文字左端 405 内輪郭線右端 406 文字右端 407 文字境界 501 内輪郭線 502 外輪郭線 503 内輪郭線左端 504 文字左端 505 内輪郭線右端 506 文字右端 507 文字左境界 508 文字右境界
DESCRIPTION OF SYMBOLS 1 Image storage part 2 Image division part 3 Outline tracking part 4 Outline type discrimination part 5 Outline end point detection part 6 Character contact judgment part 7 Character end detection part 8 Character cutout boundary setting part 9 Overall control part 101 Overall control part 11 stores an image. A step of fetching a character line image from the unit 1 and starting a character segmentation process 102 a step of the image dividing unit 2 dividing the character line image into individual connected pixel blocks 103 a process for all connected pixels by the overall control unit 11 Step 104 in which it is determined whether or not the processing has been performed. Step 104 for determining the outline information of the connected pixel block by the outline tracking section 3, outline type determination section 4, and inner outline left end. 105 Inner outline left end detection section 4 and inner outline right end detection section 5 determine the inner outline. Step 106 for detecting the left and right edges of the outer contour The step for detecting the left and right edges of the outer contour by the outer contour left edge detector 6 and the outer contour right edge detector 7 107 Step in which the character contact determination section 9 makes contact determination 108 Step in which the character cutout boundary setting section 10 sets a character cutout boundary 109 The overall control section 11 sends the character cutout result to the subsequent processing, and ends the character cutout processing. Step 301 Inner outline 302 Outer outline 303 Inner outline left end 304 Character left end 305 Inner outline right end 306 Character right end 307 Character boundary 401 Inner outline 402 Outer outline 403 Inner outline left end 404 Character left end 405 Inner outline right end 406 Right end of character 407 Character boundary 501 Inner outline 502 Outer outline 503 Inner outline left 504 Character left end 505 Inner outline right end 506 Character right end 507 Character left boundary 508 Character right boundary

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】(a)光学的に取り込まれ電子化された文
字行画像を連結する画素塊(「連結画素塊」という)に
分割し、 (b)前記連結画素塊の輪郭線を検出し輪郭線の数及び
輪郭線座標を求め、 (c)求められた前記輪郭線の数、前記輪郭線の内/外
の種別、及び前記輪郭線の位置を参照して所定の文字接
触判定条件と比較することにより文字接触の有無を判定
し、 (d)文字接触があると判定された場合には、内輪郭線
の端点から予め定められた所定の距離を上限として文字
列方向に画素を追跡走査し、外側輪郭線との交差位置、
もしくは予め定められた所定の距離だけ離れた位置を、
文字の端点と設定し、 (e)設定された文字端点に対して前記文字行の並びと
垂直方向に文字切り出し境界を設定する、 上記(a)〜(e)の工程を含むことを特徴とする文字
切り出し方法。
(A) dividing a character line image optically captured and digitized into a pixel block to be connected (hereinafter referred to as "connected pixel block"); and (b) detecting an outline of the connected pixel block. Determining the number of contours and the coordinates of the contours; and (c) determining a predetermined character contact determination condition by referring to the determined number of contours, the type of inside / outside of the contours, and the position of the contours. The presence or absence of a character contact is determined by comparison. (D) If it is determined that there is a character contact, pixels are tracked in a character string direction with a predetermined distance as an upper limit from an end point of the inner contour line. Scan, and the intersection with the outer contour,
Or a position separated by a predetermined distance,
(E) setting a character cutout boundary in a direction perpendicular to the set of character lines with respect to the set character end point, comprising the steps of (a) to (e) described above. Character extraction method.
JP9062094A 1997-02-28 1997-02-28 Character extraction method and method Expired - Fee Related JP3039427B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9062094A JP3039427B2 (en) 1997-02-28 1997-02-28 Character extraction method and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9062094A JP3039427B2 (en) 1997-02-28 1997-02-28 Character extraction method and method

Publications (2)

Publication Number Publication Date
JPH10240861A JPH10240861A (en) 1998-09-11
JP3039427B2 true JP3039427B2 (en) 2000-05-08

Family

ID=13190135

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9062094A Expired - Fee Related JP3039427B2 (en) 1997-02-28 1997-02-28 Character extraction method and method

Country Status (1)

Country Link
JP (1) JP3039427B2 (en)

Also Published As

Publication number Publication date
JPH10240861A (en) 1998-09-11

Similar Documents

Publication Publication Date Title
Antonacopoulos Page segmentation using the description of the background
JPH09179937A (en) Automatic identification method of sentence image boundaries
JP6900164B2 (en) Information processing equipment, information processing methods and programs
JP3943638B2 (en) Automatic recognition method of drop word in document image without using OCR
JP4704601B2 (en) Character recognition method, program, and recording medium
JP5322517B2 (en) Image processing apparatus and method
JPH07105312A (en) Method and apparatus for removing dust of character image in optical character reader
JPH10171922A (en) Ruled line erasing device and recording medium
JP3039427B2 (en) Character extraction method and method
JP3798179B2 (en) Pattern extraction device and character segmentation device
Hanmandlu et al. A structural approach for segmentation of handwritten Hindi text
JP2861860B2 (en) Address line extraction device
JP4242962B2 (en) Character extractor
JP4878057B2 (en) Character recognition method, program, and recording medium
JP3466899B2 (en) Character recognition device and method, and program storage medium
JP4078045B2 (en) Image processing apparatus, method, program, and storage medium
JP3190794B2 (en) Character segmentation device
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
JP4159071B2 (en) Image processing method, image processing apparatus, and computer-readable recording medium storing program for realizing the processing method
JP3133797B2 (en) Character recognition method and apparatus
JP2580976B2 (en) Character extraction device
JP2576080B2 (en) Character extraction method
JP3077929B2 (en) Character extraction method
JP2000000524A (en) Method for identifying picture post card and picture postcard identification device
JP2982221B2 (en) Character reader

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080303

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090303

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100303

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110303

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120303

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130303

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130303

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140303

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees