WO1997004409A1 - Dispositif de recherche de fichiers - Google Patents
Dispositif de recherche de fichiers Download PDFInfo
- Publication number
- WO1997004409A1 WO1997004409A1 PCT/JP1996/001954 JP9601954W WO9704409A1 WO 1997004409 A1 WO1997004409 A1 WO 1997004409A1 JP 9601954 W JP9601954 W JP 9601954W WO 9704409 A1 WO9704409 A1 WO 9704409A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- character
- character string
- similar
- image data
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
Definitions
- the present invention relates to a file search device that incorporates information described in documents and the like into a computer as data of a computer, and organizes and utilizes the information by using a function of the computer.
- This conventional file search system uses an image scanner! Scan ⁇ to use the image data obtained by one scan as one image data, and prompt the user to enter a search keyword for each image data or for a predetermined number of image data groups. Is stored together with a search keyword.
- this conventional file search device when searching for a document image of a predetermined document, a user inputs a keyword to be searched, and a keyword to be searched by a search means provided in the file search device. By searching for image data having the same or partially the same search key, desired image data is searched for.
- Searching for partially identical search keywords means, for example, image data At the time of storage, the search keyword entered as "@ Inc.” could be searched for even with the same "@@" keyword.
- a file search device incorporating a character recognition device has been proposed for the purpose of compressing the amount of data to be stored.
- the text search device When retrieving the information described in «, etc., the text search device incorporating this character recognition device automatically discriminates the text portion of the document from the photo, ⁇ , etc., and the text recognition device uses the character recognition device for the text portion. Converts text, photos, pictures, etc. into image data and converts text into text data, with a small storage capacity! It was designed to store information such as ⁇ . Also in this file detection, when storing image data and character data, a search keypad for searching them is input.
- the conventional file search device can respond to a request for searching using unexpected keywords. Did not. For this reason, it is difficult to flexibly utilize the information already stored.
- the conventional file search device that converts and stores partial character data described above had to confirm or correct the result of conversion by the character recognition device by the user when importing information. . It took time and effort to store the information to confirm and correct this character recognition. Also, if information was stored with incorrect character recognition, there was a risk that the original information would be lost.
- an object of the present invention is to provide a file search device that can easily store information described in documents and the like, and is easy and reliable to search.
- a file search device comprises:
- Image input means for inputting characters, symbols, and graphics as image data
- storage means for storing the image data read by the image input means as image data
- Range designating means for designating a predetermined portion of the image data displayed by the display means as a range
- Character recognition means for converting an array of pixels within the range specified by the range specification means into character data
- the similar sentence ⁇ assigns a rank to character strings similar to a predetermined character string according to the similarity probability.
- the search means sets the character string input by the user as the first doctor, sets the similar character string ⁇ by the similar character string ⁇ unit as ⁇ M with a rank, and puts the sentence in the rank m. It is characterized by searching ⁇ .
- the similar character string ⁇ refers to a corresponding file of a predetermined character and a character similar thereto and performs similar character string ⁇ S.
- the similar character string part is characterized by searching for a character having a shape similar to the input character and searching for a similar character string according to a similarity rule.
- the similar character string section searches for a character similar to the input character and converts the similar character string into ⁇ according to a character transformation rule based on printing and reading. Also, the file search device of the present invention
- the image in the range specified by the range specifying means is converted into a character string by the character recognition means, and the converted character string is set as a search target and It is characterized in that a search means is provided for searching the character string to be searched from the character data whose range is specified and converted by the character recognition means.
- the range specifying means specifies the same range of all image data by specifying the range of one image data.
- FIG. 1 is a block diagram showing an example of the configuration of a file search device according to the present invention and the flow of its processing.
- FIG. 2 is a diagram showing an example of a screen by the display means of the file search device of the present invention.
- FIG. 3 is an explanatory diagram showing a search process by the search means of the file search device of the present invention.
- FIG. 1 shows a configuration of a file search device according to an embodiment of the present invention and a flow of processing thereof.
- the file detection device of this difficult form includes an image input unit 1, a storage unit 2, a display unit 3, a range designation unit 4, a character recognition unit 5, a search unit 6, and an editing unit 7. Have.
- the image input means 1 is composed of various components. If the information described in the documents or the like can be input as image data, the image scanner 1a, a cable connected to another convenience store network 1b, etc. However, the distance may be different from that of a multifunction machine (not shown) of a fax and a copier.
- the display means 3 of the present H form is separate from the display device 8 such as a monitor and the like.
- the display means 3 is a control means for transmitting image data to the display device 8 and performing display control, and is described below.
- the means may include a display device.
- the range specifying means 4, the searching means 6, and the editing means 7 are independent of the input device 9 such as a board and a mouse, and will be described below as control means for performing range designation, search, and editing.
- each may include input means such as a keyboard.
- the processing flow of the file search device having the above configuration will be described below.
- all information described in documents and the like is captured as image data.
- a document or the like is placed on a scanning surface of the image scanner 1a or the like, and all the characters, figures, photos, etc., written on the document or the like are read by optical reading of the image scanner 1a and the image data ( It is stored in the image data file 10 of the storage means 2 as a data record of the pixel array.
- image data obtained by one scanning of the image scanner 1a is stored as one image data.
- information which has already been converted into image data may be input to the image data file 10 via the cable 1b.
- the display means 3 extracts the image data from the image data file 10 and displays it on the display device 8.
- one image data is displayed as one page, and is displayed in a file format with headings according to a predetermined classification.
- a desired image data portion can be quickly opened by clicking a heading with a mouse or the like.
- the display means 3 includes “high-speed page turning”, “enlargement / reduction / rotation”. Provide functions such as 'browsing', 'marking' and 'comment'.
- a portion to be searched in the image data is specified by the range specifying means 4.
- the user designates a frame 11 of a search range as shown in FIG. 2 on the image data by using an input means such as a mouse while watching the display device 8. This is because in a standard form such as a form, for example, the title is described at a predetermined position, and if the title includes a key word to be searched, only that part is included in the search range 1 If it is surrounded by 1, efficient searches can be performed with a small number of searches.
- the entire image data can be surrounded by the search range frame 11 by the range specifying means 4 so that all of the image data can be obtained. Can be searched for.
- the range specifying means 4 can specify the same range of all the image data by specifying the range of one image data.
- the title portion of all forms can be searched by enclosing the title part of one form with the frame 11 of the search range. This function is particularly effective when searching an image data file 10 that stores only image data of a standard document.
- the specified search range is stored in the range specification file 12 of the storage means 2.
- the array of pixels in the portion specified by the range specifying means 4 is converted into character data by the character recognizing means 5.
- the character recognizing means 5 extracts the image data from the image data file 10 with reference to the range specification file 12 and The array of pixels within the specified search range is converted into character data while referring to the dictionary file 13.
- the converted character data is stored in a character data file 14. These converted character data form a set of character strings to be searched.
- the search means 6 prompts the user to input a character string to be searched. From the set of character strings in the character data file 14 described above, the input character string and characters similar to the input character string are input. Search for a column.
- FIG. 3 shows the flow of the search by the search means 6.
- the search means 6 of the present embodiment is characterized in that not only an input character string but also a character string similar to the input character string is searched. This will be described below with reference to a specific example.
- the search means 6 of the present device has a similar character string ⁇ section 15 for generating a character string similar to the input character string. For example, if the character “middle” is input, the similar character string portion 15 selects “cow”, “noon”, “instep”, etc., which are similar to the character, and generates the similar character string. And
- the first similar character selection method is a correspondence file of a predetermined character and similar characters. Is prepared in advance, and similar characters are selected with reference to the corresponding file. For example, for “medium”, “noon”, “cow”, “ka”, etc. are stored in the corresponding file as characters that are misidentified in advance, and when the character “medium” is input, "Noon", "cow"
- a character having a shape similar to the input character is selected using a character shape rule that determines the character based on the character outline, line density, and the like. For example, when the character “Middle” is input, “Noon”, “Cow”, “Instep”, etc., whose shape is similar to this, are selected according to similar rules. If the rules for reading the sentence can also be shared with the character recognition means 5, they are shared.
- the third similar character selection method is to select characters similar to the input character according to a character deformation rule that prepares a large number of examples of characters ⁇ B by printing and reading. For example, the number “1” is sometimes misunderstood as the English letter “i” or “1” or the symbol "(J, etc. In this case, select “i”, ⁇ (el), and “CJ as similar characters.
- the search means 6 of the present apparatus uses a similar “interim settlement” as well as “interim settlement”.
- "Interim settlement” is also strings to be searched.
- These character strings to be searched are matched with the character strings in the character data file 14 one by one, and the same character strings are searched.
- the search means 6 preferably has the possibility of erroneous recognition of a predetermined character as a probability value, and ranks similar character strings.
- the search string that matches the search target string as it is is given the highest priority, and then the search is performed from similar strings that are likely to be misidentified, and the possibility of misidentification when displaying the results is also high. Display something about As shown in Fig. 3, the search result shows that Displays nl, n 2, n 3... and highlights the corresponding character string.
- character recognition is performed only on the portion of the image data that includes the search key code, and the character string input for the search is determined without considering whether the result of the character recognition is correct.
- image data containing the corresponding character string is detected.
- the search means 6 is similar to the entire character string to be searched. Although ⁇ is searched for, the present invention is not limited to this, and the search means 6 may search for a part of a character string input for search or a similar character string.
- the present file search device it is possible to perform a search using a method different from the method of inputting a search target character string by the user as described above.
- This search method focuses on a predetermined character string in predetermined image data, and has a character string identical to this character string. This is a method of searching for image data.
- the different search methods are described below.
- This search is exactly the same as the above-described search for inputting a character string up to forming a set of character strings 14 to be searched.
- the character string to be searched is converted into a character string by the range specifying means 4 and the character recognizing means 5.
- the character string recognized by the character recognizing means 5 is used as it is as a search target character string, even if the character string is incorrectly recognized.
- a predetermined pixel array in the image data is converted into character data by the character recognizing means 5, and by using this, the editing can be performed, such as copying into a word processing sentence. .
- the editing means 7 of the present apparatus designates a predetermined range by the range designation means 4 while referring to the image data displayed by the display means 3, and this is designated by the character recognition means 5. To convert it to characters.
- This character data is stored in the editing data file 17 and can be used for editing text such as a word processor.
- a predetermined range of the image data can be cut out by the range specifying means 4 and stored as it is in the edited data file 17 so as to be incorporated into a text such as a word processor. This makes it possible to utilize the information stored in each image stored as image data, and to create new ⁇ information from conventional information as needed.
- the file retrieval device can store various document information as it is in the form of image data by means of the image input means. And no need to perform character recognition. Therefore, the information of the document can be stored first, and the information of the document can be stored quickly.
- a range to be searched is specified by the range specifying means, and character recognition is performed by the character recognizing means on an array of pixels within the range.
- the result of character recognition is a character string to be searched without checking or correcting its correctness.
- a character string input for search by the search means and a character string similar to the character string are set as search target character strings, and a character string corresponding to these is detected from the searched character string.
- a predetermined portion of the image data is cut out as necessary, and the portion is converted not only as image data but also into character data by character recognition means and edited by character editing means. Can be easily utilized. ⁇ Possibility of industrial use
- the file search device of the present invention can be applied as a database device for image data.
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Character Discrimination (AREA)
Description
明 細 書 ファイル検索装置 技術分野
本発明は、 書類等に記載された情報をコンピュータのデータとしてコンビユー 夕に取り込み、 コンピュータの機能を利用してそれらの情報を整理および活用す るファイル検索装置に関する。
背景技術
近年のコンビュ一夕技術の 達により、書類等に記載された情報をコンピュータ のデータとしてコンピュー夕に取り込み、 等の保管場所を させるととも に、情報の有 ¾活用を図る技術の開発が行われている。
上記技術開発の結果として、 イメージスキャナを内蔵し、 « 等に言 Bigした情 報をィメージデータとして入力して格納しておくフアイル検索装置が既に提案さ れている。 この従来のフアイノレ検索装置は、 イメージスキャナによって!^をス キャンし、 一回のスキヤンによって得られたイメージデータを 1イメージデータ とし、各イメージデータごとに、 あるいは所定数のイメージデータ群ごとに検索 用のキーヮードをユーザに入力させ、各イメージデータを検索用のキーヮードと ともに格納するものであつた。
この従来のフアイル検索装置によれば、所定の書類のィメ一ジデー夕を検索す るときは、 ユーザが検索したいキーワードを入力し、 ファイル検索装置に備えた 検索手段によつて検索したいキーワードと同一または部分的に同一の検索用キ一 ヮードを有するイメージデータを検索することによって、 所望のイメージデータ を探し出すようにしていた。
部分的に同一の検索用キーワードを検索するとは、 たとえば、 イメージデータ
格納時に 「〇〇株式会社」 と入力した検索用キーワードは、 部分的に同一の 「〇 〇」 なるキーヮードによっても検索されるというようなものであった。
また、 これに関連して類似のキーヮードを検索する技術も多数提案されている。 たとえば、 「A B C株式会社」 なるキーワードが入力された場合、 「エービーシ 一株式会社」、 「株式会社 A B C」、 「 (株) A B C」等の一般的な表現方法 を考慮した類似の検索用キーワードも検索される技術が提案されていた。
さらに上記フアイル検索装置の改良装置として、格納するデータの量を圧縮す る目的で、文字認識装置を内蔵したファィノレ検索装置も提案されていた。
この文字認識装置を内蔵したフアイノレ検索装置は、 « 等に記載された情報を 取り込むときに、書面の文章部分と写真、 麵等の部分を自動判別し、文章部分 については文字認識装置によって文字データに変換し、写真、 画等の部分はィ メージデータとして取り込み、文章部分を文字デー夕に変換することによって、 少ない記憶容量で! ^等の情報を格納するようにしたものであった。 このフアイ ル検 置においても、 イメージデータと文字データを格納するときに、 そ れを検索する場合の検索用キーヮ一ドを入力するようにしていた。
しかしながら、上記従来のフアイノレ検索装置は、 イメージデータ等を格納する 際に検索用キーヮードを入力しなければならなかったが、 この検索用キーヮード の入力 は人手と時間がかかるため、 ¾ϋな情報の格納の妨げとなつていた。 また、 部分的に同一の検索用キ一ヮ一ドゃ、 表 ¾ ^似のキ一ヮ一ド等が検索 可能とは言え、 ユーザは、 将来の検索時のキーワードの可食 を考慮しつつ、 各 イメージデータにもっとも相応し L、検索用キーヮ一ドを入力しなければならなか つたため、情報を格納する時のユーザの負担力大きかった。 また、 キーワードの 設定の巧拙によっても、 検索が困難に、 あるいは容易になった。
また、上記キーワードの設定の巧拙の問題を除いても、従来のファイル検索装 置では、予想しなかったキーヮードによって検索したい要望に応えることができ
なかった。 このため、 すでに格納した情報の柔軟な活用を図ることが困難であつ
—方、上記一部文字データに変換して格納する従来のファイル検索装置は、情 報を取り込むときに、文字認識装置による変換の結果をユーザによつて確認また は修正しなければならなかった。 この文字認識の確認および修正のために、情報 を格納するのに時間と労力力《かかっていた。 また、万一誤った文字認識のまま情 報が格納された場合には、 元の情報が失われる危険性もあった。
上記種々の点から、従来のファイル検織置では、 情報の格納力く容易ではなく、 また、所望の情報を的確かつ迅速に探し出すことができないという課題があつた。 そこで、本発明は、書類等に記載した情報を容易に格納でき、 かつ、検索が容 易 ·確実なフアイル検索装置を提供することを目的とする。
発明の開示
上記目的を誠するために、 本発明によるファイル検索装置は、
文字、記号、 および図形をイメージデータとして入力するイメージ入力手段と、 前記ィメ一ジ入力手段によつて読み込まれたィメ一ジデータを、 ィメージデー 夕のまま記憶する記憶手段と、
1ページに 1イメージデータを表示するフアイル形式で前記ィメージデータを 表示する表示手段と、
前記表示手段によって表示されたイメージデータの所定部分を範囲として指定 する範囲指定手段と、
前記範囲指定手段によつて指定された範囲内の画素の配列を文字デー夕に変換 する文字認識手段と、
前記文字認識手段によって変換された文字データを文字データとして編集する : ^"^段と、
を有していることを特徵とする。
また、本発明のフアイノレ検索装置は、
所定の文字列に類似する文字列を^^する類似文字列 部を有し、 ユーザに検索しょうとする文字列を入力させ、 入力された文字列と、 この入力 された文字列に対して前言 似文字列 «部によつて された類似文字列とを 検索対象として、前記範囲指定手段と文字認識手段とによって範囲指定および文 字変換された文字データカヽら、前記検索対象の文字列を検索する検索手段を備え たことを特徴とする。
また、本発明のファィル検雜置は、
前言 3 似文^^^^部が、 所定の文字列に類似する文字列に類似の確率に応じ て順位を付し、
前記検索手段が、前記ユーザによって入力された文字列を第一醫とし、前記 類似文字列^^部によって^^された類似文字列を順位付きの^ Mとして、 m の順位に文?^を検索することを特徴とする。
また、本発明のフアイル検難置は、
前 似文字列^^部が、 所定の文字とそれに類似する文字の対応ファイルを 参照して類似文字列を^ Sすることを特徴とする。
また、本発明のファイル検索装置は、
前言 2 似文字列 部が、形 似のルールにより、 入力された文字と形状が 類似する文字を検索して類似文字列を^ ¾することを特徴とする。
また、本発明のファイル検索装置は、
前言 似文字列 部が、 印刷.読み取りによる文字変形ルールにより、入力 された文字に類似する文字を検索して類似文字列を^^することを特徴とする。 また、 本発明のフアイル検索装置は、
前記範囲指定手段によつて指定した範囲のィメ一ジを前記文字認識手段によつ て文字列に変換し、 この変換した文字列を検索対象として、前記範囲指定手段と
文字認識手段とによつて範囲指定および文字変換された文字デー夕から、前記検 索対象の文字列を検索する検索手段を備えたことを特徵とする。
また、 本発明のフアイル検索装置は、
前記範囲指定手段が、一つのイメージデータの範囲を指定することにより、 す ベてのィメ一ジデータの同一の範囲を指定することを特徵とする。
而の簡単な 明
第 1 図は、 本発明によるフアイノレ検索装置の一構成例とその処理の流れを示し たブロック図、 第 2 図は、 本発明のファイル検索装置の表示手段による一画面例 を示した図、 第 3 図は、 本発明のファイル検索装置の検索手段による検索の処理 を示した説明図である。
発明を するための最良の形態
次に本発明の実施の形態について添付の図面を用いて以下に説明する。
第 1図は、 本発明の一 形態によるフアイノレ検索装置の構成とその処理の流 れを示している。
本難形態のファイル検雜置は、 イメージ入力手段 1と、 記憶手段 2と、表 示手段 3と、 範囲指定手段 4と、 文字認識手段 5と、検索手段 6と、編集手段 7 と、 を有している。
イメージ入力手段 1は、 種々の構成力河能であり、書類等に記載した情報をィ メージデータとして入力可能なものなら、 イメージスキャナ 1 a、 他のコンビュ 一夕ゃネットワークに接続したケーブル 1 b、 図示しないファックスとコピー機 の複合機等の L、ずれでもよい。
本 H½形態の表示手段 3は、 モニタ一等の表示装置 8と別個 ¾5:のものであつ て、 表示装置 8に画像データを送って表示制御を行う制御手段として以下に説明 する力く、 表示手段としては表示装置を含むものであってもよい。
また同様に、 本実施形態の範囲指定手段 4と検索手段 6と編集手段 7は、 キー
ボードやマウス等の入力装置 9と独立のものであって、 それぞれ範囲指定、 検索、 編集を行う制御手段として以下に説明するが、 それぞれキーボード等の入力手段 を含むものであってもよい。
次に上記構成のファィル検索装置の処理の流れについて、 以下に説明する。 本 ¾ϋ形態のフアイル検索装置では、書類等に記載した情報をすベてィメ一ジ データとして取り込む。 具体的には、書類等をイメージスキャナ 1 a等のスキヤ ニング面に載せ、 イメージスキャナ 1 aの光学的な読み取りによって書類等に記 載された文字、 図形、 写真等をすベてイメージデータ (画素の配列を記録したデ 一夕) として記憶手段 2のイメージデータファイル 1 0に格納する。 この場合、 イメージスキャナ 1 aの 1回のスキャニングによって取得するイメージデータを 1イメージデータとして格納する。 イメージスキャナ 1 aによらない場合、 すで にィメージデータ化した情報をケープル 1 bを介してィメ一ジデー夕ファイル 1 0に入力してもよい。
ここで、 注目すべきこととしては、本 形態のフアイノレ検索装置によれば、 情報を取り込むときに、 将来イメージデータを検索するための検索用キーヮード を入力しなくてもよいこと力挙げられる。 これにより、 ユーザは:^ ¾の書類を機 械的に素早く格納することができる。 なお、 このようにして格納した情報の検索 については後述する。
表示手段 3は、 イメージデータファイル 1 0からイメージデータを取り出し、 表示装置 8によってこれを表示する。 この表示手段 3による表示は、 第 2図に例 示するように、 1イメージデータを 1ページとして表示し、 所定の分類に従って 見出しを付したファイル形式で表示する。 このファイル形式の表示は、 見出しを マウス等でクリックすることにより、素早く所望のイメージデータの部分を開く ことができる。
また、 好ましくは、 表示手段 3は、 「高速べ一ジめくり」、 「拡大縮小 ·回転
'ブラウジング」、 「マーキング」、 「コメント」等の諸機能を備えるようにす る。
次に所定の情報、 すなわち、 所定のイメージデータを検索する方法について以 下に説明する。
本 態のファィル検索装置による検索では、最初に範囲指定手段 4によつ てイメージデ一夕の検索される部分を指定する。 実際には、 ユーザが表示装置 8 を見ながら、 マウス等の入力手段を用いて、 イメージデータ上に第 2図に示すよ うな検索範囲の枠 1 1を指定する。 これは、 帳票等の定型的な では、 たとえ ばタイトルは所定の位置に記載されており、 タイトルに検索しょうとするキーヮ 一ドが含まれている場合は、 その部分のみを検索範囲の枠 1 1によって囲めば、 少ない検 によって効率的に検索を行うことができる。
求めるキ一ワードが決まった部分 (位置) に記載されていない場合には、範囲 指定手段 4によってイメージデータの全体を検索範囲の枠 1 1によつて囲むよう にすれば、各ィメージデータのすべての部分について検索を行うことができる。 なお、本^!形態による範囲指定手段 4は、 一つのイメージデータの範囲を指 定することにより、 すべてのイメージデータの同一の範囲を指定することができ る。 この機能を利用することにより、 上言己した帳票の場合、一つの帳票のタイト ル部分を検索範囲の枠 1 1によって囲むことにより、 すべての帳票のタイトル部 分を検索することができる。 この機能は、 定型の書類のイメージデータのみを格 納しているィメージデータフアイル 1 0を検索するときに特に有効である。 このようにして、 指定された検索範囲は、 記憶手段 2の範囲指定ファイル 1 2 に格納される。
次に、範囲指定手段 4によって範囲指定された部分の画素の配列を、文字認識 手段 5によって文字データに変換する。 文字認識手段 5は、 範囲指定ファイル 1 2を参照して、 イメージデータファイル 1 0からイメージデータを取り出し、 指
定された検索範囲内の画素の配列を、辞書ファイル 1 3を参照しながら文字デー 夕に変換する。
変換された文字データは、文字データファイル 1 4に格納される。 これらの変 換された文字データは、 検索される文字列の集合となる。
次に、 検索手段 6によって、検索しょうとする文字列をユーザに入力させ、上 記文字データファイル 1 4の文字列の集合から、 入力された文字列、 および入力 された文字列に類似する文字列を検索する。
第 3図は、検索手段 6による検索の流れを示している。 本 形態の検索手段 6は、 入力された文字列のみならず、 入力された文字列に類似する文字列も検索 する点に特徴がある。 このことを具体的な例を示して以下に説明する。
たとえば、漢字の 「中間決算」 という文字列を含むイメージデータを検索しよ うとする場合、 「中間決算」なる文字列は、上記文字認識手段 5によって誤って 認識されて文字データファイル 1 4に格納されている可食 がある。 たとえば、 「中」 は 「牛」、 「午」、 「甲」等に、 「間」 は 「問」、 「関」、 「門」等に、 「決」 は 「法」、 「沫」、 「痍」等に、 「算」 は 「筧」、 「篦」等に誤って認識 される可食 がある。
したがって、 「中間決算」なる文字列は上記文字の組^:として文字データフ アイル 1 4に格納されている可食 がある。 これら誤って認識されている文字列 は、 「中間決算」 という文字列によって検索されない。
これに対して、 本装置の検索手段 6は、 入力された文字列に類似する文字列を 生成する類似文字列^^部 1 5を有している。 この類似文字列 部 1 5は、 た とえば「中」の文字が入力されたとすると、 これに類似する 「牛」、 「午」、 「甲」等を選出し、 類似文字列を構成する要素とする。
上記類似文字を選出する方法として、 ここでは 3つの方法がある。
第 1の類似文字選出方法は、 所定の文字とそれに類似する文字の対応ファイル
を予め用意しておき、 この対応ファイルを参照して類似文字を選出する。 たとえ ば、 「中」 に対しては 「午」、 「牛」、 「甲」等を予め誤認される文字として対 応ファイルに格納しておき、 「中」 なる文字が入力された場合に、 「午」、 「牛」
、 「甲」等の文字を選出する。 この対応ファイルは、 文字認識手段 5と共用でき る場合は、 これを共用する。
第 2の類似文字選出方法は、 文字の輪郭、線密度等によって文字を確定する文 字形状のルールを使って、入力された文字に形状が類似する文字を選出する。 た とえば、 「中」 なる文字が入力された場合に、 これに形状が類似する 「午」、 「牛」、 「甲」等を形 似のルールによって選出する。 この文^^読のルール も、文字認識手段 5と共用できる場合は、 これを共用する。
第 3の類似文字選出方法は、 印刷 ·読み取りによる文字^ B例を多数用意した 文字変形ルールにより、 入力された文字に類似する文字を選出する。 たとえば、 数字の 「1」 なる文字は、 印刷 ·読み取りの具合によって英文字の 「i」、 「1」 、記号の 「 (J等に誤認されることがあるので、 「1」が入力された場合は 「i」 、 Π (エル) 」、 「 CJ を類似文字として選出する。
このようにして、 たとえば漢字の 「中間決算」 なる文字列が検索対象の文字列 として入力された場合は、 本装置の検索手段 6は、 「中間決算」 の他に、 類似の 「牛間決算」、 「中問決算」、 「中間法算」、 …をも検索対象の文字列とする。 これら検索対象の文字列については、逐一文字データファイル 1 4の文字列と照 合し、 同一文字列を検索する。
この場合、 検索手段 6は好ましくは、 所定の文字の誤認の可能性を確率値とし て有し、類似文字列に順位を付しておく。 これにより、 検索対象文字列とそのま ま一致する文字列を最優先に検索し、 次に誤認される可能性が高い類似文字列か ら検索し、結果を表示する際にも誤認の可能性について何らかの表示をする。 検索結果は、 第 3図に示すように、該当する文字列力 <含まれるイメージデータ
n l , n 2 , n 3 …を表示し、 該当する文字列の部分を強調表示する。 これらの 検索された結果は、記憶手段 2の検索デー夕ファイル 1 6 (第 1図参照) に格納 される。
上記検索方法によれば、 イメージデータの検索キーヮ一ドが含まれる部分のみ を文字認識し、 かつ、文字認識の結果の正否を検討することなく、検索のために 入力した文字列と、 これに類似文字列とを検索対象として、該当する文字列を含 むイメージデータを検出する。 これにより、 第一に文字認識の処 S»を少なくし、 第二に文字認識の結果を検討する労力を省き、 第三に検索しょうとする文字列を 含むィメージデータを漏れなく検出することができる。
なお、上記説明では、 検索手段 6は検索しょうとする文字列の全体に類似する 類似文?^を検索しているが、 本発明はこれに限られず、検索手段 6は、検索の ために入力した文字列の一部分について検索対象や類似文字列を^^するように することもできる。
すなわち、 たとえば検索しょうとするキーワードが「A B C株式会ネ: fcjだとす ると、 「A B」や「A B C」や 「A * * * *会社」や 「A」のみの入力文字によ つて「A B C株式会社」検索するようにすることができる。
また、類似文字列についても、 たとえば検索しょうとするキーワードが「中間 決算」だとすると、 「中間決算」 の 「中」 を指定し、 「中」 に類似する 「午」、 「牛」、 「甲」 を含む文字列「午間決算」、 「牛間決算」、 「甲間決算」等を類 似文字列として検索するようにすることができる。 むろん、上記文字の指定は、 ュ一ザの指定によつて任意の 2文字あるいは 3文字を類似文字に置き換えるよう にすることができる。
また、本ファイル検索装置によれば、 上述したようなユーザ一力く検索対象文字 列を入力する方法と異なる方法の検索も可能である。 この検索方法は、 所定のィ メ―ジデータ中の所定の文字列に注目し、 この文字列と同一の文字列を有するィ
メージデータを検索する方法である。 以下に、 その異なる検索方法について説明 する。
この検索では、検索される文字列の集合 1 4を形成するところまでは、上記文 字列を入力する検索と全く同様である。 次に、 検索しょうとする文字列を範囲指 定手段 4および文字認識手段 5によって文字デ一夕に変換する。 この場合、文字 認識手段 5によつて認識された文字列をそのまま、 誤つて認識された場合も含め てそのまま検索対象の文字列とする。
たとえば、 「中間決算」 なる文字列を検索しょうとする場合、 「中間決算」が 文字認識手段 5によって「牛間決算」 に認識されたとすると、 「牛間決算」のま ま検索対象の文字列とする。 これは、検索される方の文字列の集合 1 4において も 「中間決算」 は同一の文字認識手段 5によって 「牛間決算」 と誤認されている 確率が極めて高く、 「牛間決算」 を検索すれば所望のイメージデータを探し当て ることができるからである。検索結果の表示と格納は上記文字列を入力する検索 と全く同様に行う。
以上が本フアイノレ検索装置による検索である。 ところで、 本ファイル検^ ¾置 は、 文字認識手段 5によってィメージデータ中の所定の画素の配列を文字データ 変換し、 これを利用して、 ワープロの文中にコピーするなど編集を行うことがで きる。
第 1図に示すように、本装置の編集手段 7は、 表示手段 3によって表示された イメージデータを参照しながら、 範囲指定手段 4によって所定範囲を指定し、 こ れを文字認識手段 5によつて文字デ一夕に変換する。 この文字デ一夕は編集デー 夕ファイル 1 7に格納され、 ワープロ等の文章の編集に使用することができる。 また、 範囲指定手段 4によってイメージデータの所定範囲を切り取り、 これをそ のまま編集データファイル 1 7に格納し、 ワープロ等の文章への編入に供するこ ともできる。
これにより、 ィメージデータとして格納された各 M«®上の情報を活用でき、 必要に応じて、 従来の情報から新いゝ情報を作成することができる。
2L の説明から明らかなように、本発明によるフアイノレ検索装置は、 イメージ 入力手段によつて各種の書類の情報をそのままイメージデータの形で格納でき、 のように情報格納時に検索用キーヮードを付したり、 文字認識を行ったりす る必要がない。 このため、 «的に書類の情報を格納でき、 の情報を素早く 格納することができる。
また、 本発明によるファイル検 置は、範囲指定手段によって検索される範 囲を指定し、 その範囲内の画素の配列について文字認識手段によつて文字認識を 行う。文字認識の結果は、 その正否を検査'修正することなく、検索される文字 列とする。 一方、 検索手段によって検索用に入力された文字列と、 これに類似す る文字列とを検索対象の文字列とし、 これらに相当する文字列を前記検索される 文字列の中から検出する。 これにより、 文字認識の処 を少なく し、 かつ、文 字認識の結果を検査する労力を省き、 さらに検索しようとする文字列を含むィメ 一ジデータをすベて漏れなく検出することができる。
また、 イメージデータ中の文字列を指定し、 これと同一の文字列を含むィメー ジデータを検索する検索によれば、 印刷や読み取りの具合による文字認識の誤り をそのまま利用し、 少ない処 によって確実に求めるイメージデータを探し当 てることができる。
さらに、 本ファイル検索装置によれば、 必要に応じてイメージデータの所定部 分を切り取り、 その部分をイメージデータとしてのみでなく、 文字認識手段によ つて文字デー夕に変換し、 編集手段によってこれを容易に活用することができる。 库業上の利用の可能性
本発明のフアイノレ検索装置は、 イメージデータのデー夕べ一ス装置として適用 することができる。
Claims
1. 文字、記号、 および図形をイメージデータとして入力するイメージ入力 手段と、
前記ィメ一ジ入力手段によつて読み込まれたィメージデ一夕を、 ィメージデー 夕のまま記憶する記憶手段と、
1ページに 1ィメージデータを表示するフアイル形式で前記ィメ一ジデータを 表示する表示手段と、
前記表示手段によって表示されたイメージデータの所定部分を範囲として指定 する範囲指定手段と、
前記範囲指定手段によつて指定された範囲内の画素の配列を文字データに変換 する文字認識手段と、
前記文字認識手段によって変換された文字データを文字データとして編集する 編宋" ^段と、
を有していることを特徴とするフアイル検索装置。
2. 所定の文字列に類似する文字列を^^する類似文字列 «部を有し、 ユーザに検索しょうとする文字列を入力させ、 入力された文字列と、 この入力 された文字列に対して前記類似文字列^^部によつて生成された類似文字列とを 検索対象として、前記範囲指定手段と文字認識手段とによつて範囲指定および文 字変換された文字デ一夕から、前記検索対象の文字列を検索する検索手段を備え たことを特徵とする請求の範囲第 1 項に記載のファイル検索装置。
3. 前記類似文字列生成部は、 所定の文字列に類似する文字列に類似の確率 に応じて順位を付し、
前記検索手段は、前記ユーザによって入力された文字列を第一纖とし、前記 類似文字列^^部によって された類似文字列を順位付きの^ として、
の順位に文字列を検索することを特徴とする請求の範囲第 2 項に記載のファイル
4. 前 似文字列 部は、所定の文字とそれに類似する文字の対応ファ ィルを参照して類似文字列を することを特徴とする請求の範囲第 2項に記載 のファイル検索装置 0
5. 前 似文字列 «部は、形 似のルールにより、入力された文字と 形状力類似する文字を検索して類似文字列を^^することを特徴とする請求の範 囲第 2項に記載のフアイル検索装置。
6 . 前言 a¾似文字列^^部は、 印刷 ·読み取りによる文字麵ルールにより、 入力された文字に類似する文字を検索して類似文字列を^^することを特徴とす る請求の範囲第 2項に記載のフアイル検索装置。
7. 前記範囲指定手段によつて指定した範囲のィメージを前記文字認識手段 によって文字列に変換し、 この変換した文字列を検索対象として、前記範囲指定 手段と文字認識手段とによつて範囲指定および文字変換された文字デー夕から、 前記検索対象の文字列を検索する検索手段を備えたことを特徴とする請求の範囲 第 1項に記載のフアイル検 置。
8. 前記範囲指定手段は、一つのィメージデータの範囲を指定することによ り、 すべてのイメージデータの同一の範囲を指定することを特徵とする請求の範 囲第 1項ないし第 7項の t、ずれかに記載のフアイル検 置。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP7181850A JPH0934903A (ja) | 1995-07-18 | 1995-07-18 | ファイル検索装置 |
| JP7/181850 | 1995-07-18 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO1997004409A1 true WO1997004409A1 (fr) | 1997-02-06 |
Family
ID=16107922
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP1996/001954 Ceased WO1997004409A1 (fr) | 1995-07-18 | 1996-07-12 | Dispositif de recherche de fichiers |
Country Status (3)
| Country | Link |
|---|---|
| JP (1) | JPH0934903A (ja) |
| CN (1) | CN1165571A (ja) |
| WO (1) | WO1997004409A1 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| USRE42413E1 (en) | 2000-04-27 | 2011-05-31 | Bayard Chimney Rock Llc | Web search engine with graphic snapshots |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11191112A (ja) * | 1997-12-25 | 1999-07-13 | Ebara Corp | テンプレートによる文字抽出方法 |
| JP2001034627A (ja) * | 1999-07-19 | 2001-02-09 | Hitachi Ltd | レセプト点検方法およびシステム並びにレセプト点検プログラムを格納した記憶媒体 |
| JP3669626B2 (ja) * | 2000-06-06 | 2005-07-13 | 松下電器産業株式会社 | 検索装置、記録媒体およびプログラム |
| US6944344B2 (en) | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
| CN100370459C (zh) * | 2005-12-08 | 2008-02-20 | 华为技术有限公司 | 一种减少分页数据检索时间的方法及装置 |
| KR20150006740A (ko) * | 2013-07-09 | 2015-01-19 | 류중하 | 문자에 대한 기호 이미지 구성 방법, 및 기호 이미지에 대한 대응되는 문자의 분석 방법 |
| JP2014026660A (ja) * | 2013-09-12 | 2014-02-06 | Toppan Printing Co Ltd | データ生成装置およびデータ生成方法 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63280374A (ja) * | 1987-05-13 | 1988-11-17 | Hitachi Ltd | 情報の検索・表示方法 |
| JPH0512345A (ja) * | 1991-06-28 | 1993-01-22 | Toshiba Corp | 画像記憶装置 |
| JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
| JPH07121547A (ja) * | 1993-10-21 | 1995-05-12 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
| JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
-
1995
- 1995-07-18 JP JP7181850A patent/JPH0934903A/ja active Pending
-
1996
- 1996-07-12 WO PCT/JP1996/001954 patent/WO1997004409A1/ja not_active Ceased
- 1996-07-12 CN CN96190752A patent/CN1165571A/zh active Pending
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63280374A (ja) * | 1987-05-13 | 1988-11-17 | Hitachi Ltd | 情報の検索・表示方法 |
| JPH0512345A (ja) * | 1991-06-28 | 1993-01-22 | Toshiba Corp | 画像記憶装置 |
| JPH06162098A (ja) * | 1992-11-24 | 1994-06-10 | Fujitsu Ltd | 類義語生成処理方法 |
| JPH07121547A (ja) * | 1993-10-21 | 1995-05-12 | Matsushita Electric Ind Co Ltd | 情報検索装置 |
| JPH07152774A (ja) * | 1993-11-30 | 1995-06-16 | Hitachi Ltd | 文書検索方法および装置 |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| USRE42413E1 (en) | 2000-04-27 | 2011-05-31 | Bayard Chimney Rock Llc | Web search engine with graphic snapshots |
| USRE46967E1 (en) | 2000-04-27 | 2018-07-24 | Mineral Lassen Llc | System, apparatus, method, and computer program product for indexing a file |
Also Published As
| Publication number | Publication date |
|---|---|
| CN1165571A (zh) | 1997-11-19 |
| JPH0934903A (ja) | 1997-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3298676B2 (ja) | 知覚可能情報セグメントのアクセス方法 | |
| US6353840B2 (en) | User-defined search template for extracting information from documents | |
| JP4118349B2 (ja) | 文書選択等の方法及び文書サーバ | |
| US5781914A (en) | Converting documents, with links to other electronic information, between hardcopy and electronic formats | |
| US6917438B1 (en) | Information input device | |
| US7797150B2 (en) | Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database | |
| CN101178725A (zh) | 用于信息检索的设备、方法和计算机程序产品 | |
| JP2006146954A (ja) | 情報処理装置および文書の探索方法 | |
| US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
| JP2023007268A (ja) | 特許用文章生成装置、特許用文章生成方法、および特許用文章生成プログラム | |
| US20060217958A1 (en) | Electronic device and recording medium | |
| WO1997004409A1 (fr) | Dispositif de recherche de fichiers | |
| US9672438B2 (en) | Text parsing in complex graphical images | |
| JP7651962B2 (ja) | 情報処理装置、情報処理システム、情報処理方法、及びプログラム | |
| JP2024003769A (ja) | 文字認識システム、コンピュータによる文字の認識方法、および文字検索システム | |
| JP3979288B2 (ja) | 文書検索装置および文書検索プログラム | |
| JPH1021043A (ja) | アイコン生成方法、ドキュメント検索方法及びドキュメント・サーバー | |
| Alzuru et al. | Quality-Aware Human-Machine Text Extraction for Biocollections using Ensembles of OCRs | |
| Adar et al. | On-the-fly Hyperlink Creation for Page Images. | |
| JP2007011683A (ja) | 文書管理支援装置 | |
| JP2007052613A (ja) | 翻訳装置、翻訳システムおよび翻訳方法 | |
| JP2024110307A (ja) | 情報処理システム、サービス提供システム、情報抽出方法、プログラム、端末装置 | |
| JPH05298374A (ja) | デジタル複写機 | |
| Balasubramanian et al. | Textual search in graphics stream of PDF | |
| JP2007142631A (ja) | 画像形成装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| WWE | Wipo information: entry into national phase |
Ref document number: 96190752.5 Country of ref document: CN |
|
| AK | Designated states |
Kind code of ref document: A1 Designated state(s): CN GB SG |