[go: up one dir, main page]

JP2009015395A - Dictionary construction support device and dictionary construction support program - Google Patents

Dictionary construction support device and dictionary construction support program Download PDF

Info

Publication number
JP2009015395A
JP2009015395A JP2007173412A JP2007173412A JP2009015395A JP 2009015395 A JP2009015395 A JP 2009015395A JP 2007173412 A JP2007173412 A JP 2007173412A JP 2007173412 A JP2007173412 A JP 2007173412A JP 2009015395 A JP2009015395 A JP 2009015395A
Authority
JP
Japan
Prior art keywords
dictionary
expression
regular expression
output
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007173412A
Other languages
Japanese (ja)
Inventor
Kyoko Makino
恭子 牧野
Toshiyuki Kano
敏行 加納
Rumi Hayakawa
ルミ 早川
Saori Kurata
早織 倉田
Shigeru Matsumoto
茂 松本
Kunitake So
国威 祖
Hiroshi Taira
博司 平
Hiroko Taniguchi
裕子 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2007173412A priority Critical patent/JP2009015395A/en
Publication of JP2009015395A publication Critical patent/JP2009015395A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】自然言語処理の知識のないユーザや、全ての技術情報の開示対象とできないユーザに対する文字列パターンマッチ処理用の辞書情報の構築を支援する。
【解決手段】辞書構築支援装置1の正規表現生成部14は正規表現生成ルールデータベースを参照しユーザ指定文字列の形態素解析結果の記述を、正規表現で記述される辞書登録該当表現および辞書登録除外表現に変換する。ユーザ向け出力生成部15は、ユーザ向け出力生成ルールを参照して辞書登録該当表現および辞書登録除外表現を、正規表現で記述されない表現に変換して、ユーザ端末装置2に出力する。これにより、辞書登録表現のノウハウを含む辞書登録該当表現や辞書登録除外表現を得て辞書情報への登録対象とすることができるとともに、自然言語処理の知識が少なく、全ての技術情報の開示対象とできないユーザにとって適した出力を行なうことができる。
【選択図】 図1
[PROBLEMS] To support the construction of dictionary information for character string pattern matching processing for a user who does not have knowledge of natural language processing or a user who cannot disclose all technical information.
A regular expression generation unit 14 of a dictionary construction support apparatus 1 refers to a regular expression generation rule database to describe a description of a morpheme analysis result of a user-specified character string, a dictionary registration corresponding expression described in regular expressions, and a dictionary registration exclusion. Convert to representation. The user output generation unit 15 refers to the user output generation rule, converts the dictionary registration corresponding expression and the dictionary registration exclusion expression into expressions not described in regular expressions, and outputs the converted expressions to the user terminal device 2. As a result, it is possible to obtain dictionary registration corresponding expressions and dictionary registration exclusion expressions including know-how of dictionary registration expressions, and make them subject to registration in dictionary information. Also, there is little knowledge of natural language processing and disclosure of all technical information Output suitable for users who cannot.
[Selection] Figure 1

Description

本発明は、文字列パターンマッチ処理用の辞書を作成するための辞書構築支援装置および辞書構築支援プログラムに関する。   The present invention relates to a dictionary construction support apparatus and a dictionary construction support program for creating a dictionary for character string pattern matching processing.

従来の文字列パターンマッチ処理用の辞書構築を支援するために、ユーザが入力した表現を解析し、予め用意した言い換え表現に変換するものがある。例えば、特許文献1に開示されるように、ユーザが入力した表現に形態素解析および構文解析を行って品詞と構文パターンを判定し、品詞活用に応じて予め用意した言い換えパターンを参照して辞書登録用の表現を得るものがある。
特開2003−173338号公報
In order to support the construction of a conventional dictionary for character string pattern matching processing, there is one that analyzes an expression input by a user and converts it into a paraphrase expression prepared in advance. For example, as disclosed in Patent Document 1, morphological analysis and syntactic analysis are performed on expressions input by a user to determine part of speech and syntax patterns, and dictionary registration is performed by referring to paraphrase patterns prepared in advance according to part of speech utilization. There is something to get a representation for.
JP 2003-173338 A

しかしながら、形態素解析および構文解析の処理結果や、言い換え表現の記述に使用する正規表現は、自然言語処理の知識がないユーザには解読が難しいという問題がある。   However, the processing results of morphological analysis and syntactic analysis, and regular expressions used for describing paraphrased expressions have a problem that it is difficult for a user who does not have knowledge of natural language processing to decipher them.

また、自然言語処理の知識のあるユーザが使う場合であっても、言い換え表現に含まれる技術情報を開示することが適切ではないユーザの場合に、開示してもよい範囲のみに出力情報を制御する手段がないという問題があった。   In addition, even if a user who has knowledge of natural language processing uses it, if it is not appropriate to disclose technical information included in the paraphrase expression, output information is controlled only to the extent that it may be disclosed. There was a problem that there was no means to do.

そこで、本発明の目的は、自然言語処理の知識のないユーザや、全ての技術情報の開示対象とできないユーザに対する文字列パターンマッチ処理用の辞書情報の構築を支援することが可能な辞書構築支援装置および辞書構築支援プログラムを提供することにある。   Accordingly, an object of the present invention is to provide dictionary construction support that can support construction of dictionary information for character string pattern matching processing for users who do not have knowledge of natural language processing or who cannot be disclosed all technical information. It is to provide a device and a dictionary construction support program.

すなわち、本発明に係わる辞書構築支援装置は、辞書情報への登録用の文字列を入力する入力手段と、入力した文字列の形態素解析処理を行なう形態素解析手段と、形態素解析正規表現パターンと辞書登録正規表現パターンとを関連付けて記憶する第1のパターン記憶手段と、辞書登録正規表現パターンと出力用正規表現パターンとを関連付けて記憶する第2のパターン記憶手段とを備え、形態素解析結果のうち、第1のパターン記憶手段に記憶される形態素解析正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる辞書登録正規表現パターンに変換し、当該変換結果のうち、第2のパターン記憶手段に記憶される辞書登録正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる出力用正規表現パターンに変換し、当該変換結果の記述を、正規表現を含まない記述に変換して出力することを特徴とする。   That is, the dictionary construction support apparatus according to the present invention includes an input unit for inputting a character string for registration in dictionary information, a morpheme analysis unit for performing a morpheme analysis process on the input character string, a morpheme analysis regular expression pattern, and a dictionary. A first pattern storage means for storing the registered regular expression pattern in association with the first pattern storage means; a second pattern storage means for storing the dictionary registered regular expression pattern and the output regular expression pattern in association with each other; The portion that matches the morphological analysis regular expression pattern stored in the first pattern storage means is converted into a dictionary registered regular expression pattern that is associated with the matching pattern, and the second pattern storage means of the conversion result A regular expression for output that associates a part that matches the dictionary registered regular expression pattern stored in Into a turn, the description of the conversion result, and outputs by converting the description which does not contain a regular expression.

本発明によれば、自然言語処理の知識のないユーザや、全ての技術情報の開示対象とできないユーザに対する文字列パターンマッチ処理用の辞書情報の構築を支援することができる。   According to the present invention, it is possible to support the construction of dictionary information for character string pattern matching processing for a user who does not have knowledge of natural language processing or a user who cannot be disclosed all technical information.

以下図面により本発明の実施形態について説明する。
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図である。図2は、本発明の第1の実施形態にしたがった文書処理装置のユーザ端末装置の構成例を示すブロック図である。
図1に示すように、辞書構築支援装置1は、装置全体の処理を司る制御部11、記憶装置12、形態素解析部13、正規表現生成部14、ユーザ向け出力生成部15および入出力インタフェース16を備え、それぞれがバス17を介して相互に接続される。
Embodiments of the present invention will be described below with reference to the drawings.
(First embodiment)
First, a first embodiment of the present invention will be described.
FIG. 1 is a block diagram showing a configuration example of a dictionary construction support device of a document processing device according to the first embodiment of the present invention. FIG. 2 is a block diagram showing a configuration example of the user terminal device of the document processing device according to the first embodiment of the present invention.
As shown in FIG. 1, the dictionary construction support apparatus 1 includes a control unit 11, a storage device 12, a morpheme analysis unit 13, a regular expression generation unit 14, a user output generation unit 15, and an input / output interface 16 that are responsible for processing of the entire apparatus. Are connected to each other via a bus 17.

記憶装置12は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置である。記憶装置12は、制御部11、形態素解析部13、正規表現生成部14、ユーザ向け出力生成部15による制御用のプログラムに加え、正規表現生成ルールデータベースを記憶するための正規表現ルール記憶部31やユーザ向け出力生成ルールデータベースを記憶するための出力ルール記憶部32を有する。これらのルールデータベースについては後述する。また、記憶装置12は、制御部11、形態素解析部13、正規表現生成部14、ユーザ向け出力生成部15による各種処理のワークメモリとしても機能する。   The storage device 12 is a storage device configured by hardware such as a hard disk drive or a nonvolatile memory device. The storage device 12 includes a regular expression rule storage unit 31 for storing a regular expression generation rule database in addition to a control program by the control unit 11, the morpheme analysis unit 13, the regular expression generation unit 14, and the user output generation unit 15. And an output rule storage unit 32 for storing an output generation rule database for users. These rule databases will be described later. The storage device 12 also functions as a work memory for various processes performed by the control unit 11, the morphological analysis unit 13, the regular expression generation unit 14, and the user output generation unit 15.

形態素解析部13は、ユーザにより入力されたユーザ指定文字列に対する形態素解析処理を行なう。形態素解析処理は、入力された文字列を単語に区切り、品詞を付与する処理である。   The morpheme analysis unit 13 performs a morpheme analysis process on the user-specified character string input by the user. The morpheme analysis process is a process of dividing an input character string into words and adding parts of speech.

正規表現生成部14は、記憶装置12の正規表現ルール記憶部31に記憶された正規表現生成ルールデータベースを参照し、ユーザ指定文字列を形態素解析処理した結果を辞書登録表現に変換し、この変換結果を記憶装置12に記憶する。正規表現生成部14は、ルール取得部41、マッチ判定部42、辞書登録表現変換部43、除外表現判定部44、除外表現処理部45を有する。これらの機能については後述する。   The regular expression generation unit 14 refers to the regular expression generation rule database stored in the regular expression rule storage unit 31 of the storage device 12, converts the result of the morphological analysis processing of the user-specified character string into a dictionary registration expression, and converts this conversion The result is stored in the storage device 12. The regular expression generation unit 14 includes a rule acquisition unit 41, a match determination unit 42, a dictionary registered expression conversion unit 43, an exclusion expression determination unit 44, and an exclusion expression processing unit 45. These functions will be described later.

ユーザ向け出力生成部15は、記憶装置12の出力ルール記憶部32に記録されたユーザ向け出力生成ルールデータベースを参照し、辞書登録表現をユーザ向け出力表現に変換し、この変換結果を記憶装置12に記録する。ユーザ向け出力生成部15は、ルール取得部51、マッチ判定部52、出力変換部53、形態素解析記号処理部54、正規表現展開処理部55を有する。これらの機能については後述する。   The user output generation unit 15 refers to the user output generation rule database recorded in the output rule storage unit 32 of the storage device 12, converts the dictionary registration expression into the user output expression, and the conversion result is stored in the storage device 12. To record. The user output generation unit 15 includes a rule acquisition unit 51, a match determination unit 52, an output conversion unit 53, a morpheme analysis symbol processing unit 54, and a regular expression expansion processing unit 55. These functions will be described later.

ユーザ端末装置2は、辞書データを作成するユーザが取り扱う端末装置である。ユーザ端末装置2は、装置全体の処理を司る制御部21、記憶装置22、表示装置23、入力装置24および通信インタフェース25を備え、それぞれがバス26を介して相互に接続される。   The user terminal device 2 is a terminal device handled by a user who creates dictionary data. The user terminal device 2 includes a control unit 21 that controls processing of the entire device, a storage device 22, a display device 23, an input device 24, and a communication interface 25, which are connected to each other via a bus 26.

記憶装置22は、例えばハ−ドディスクドライブや不揮発性メモリ装置などのハードウェアで構成された記憶装置であり、制御用のプログラムを記憶する。また、記憶装置22は、制御部21による各種処理のワークメモリとしても機能する。
表示装置23は例えば液晶ディスプレイであり、ユーザが作成する辞書の表示を行なう。入力装置24は例えばキーボードやマウスであり、辞書データの新規作成にかかる操作を受け付ける。
通信インタフェース25は、ケーブルを介して辞書構築支援装置1と接続され、ユーザ端末装置2において作成された辞書データや辞書構築支援装置1の処理結果などのやり取りを行なう。また、通信インタフェース25は外部記憶装置とケーブルを介して接続可能であり、この外部記憶装置との間で辞書データを入出力することもできる。
The storage device 22 is a storage device configured by hardware such as a hard disk drive or a non-volatile memory device, and stores a control program. The storage device 22 also functions as a work memory for various processes performed by the control unit 21.
The display device 23 is a liquid crystal display, for example, and displays a dictionary created by the user. The input device 24 is a keyboard or a mouse, for example, and accepts an operation related to new creation of dictionary data.
The communication interface 25 is connected to the dictionary construction support device 1 via a cable, and exchanges dictionary data created in the user terminal device 2 and processing results of the dictionary construction support device 1. The communication interface 25 can be connected to an external storage device via a cable, and dictionary data can be input / output to / from the external storage device.

図3は、本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶される正規表現生成ルールデータベースの構成例を表形式で示す図である。この正規表現生成ルールデータベースでは、形態素解析結果、辞書登録用該当表現、辞書登録用除外表現が関連付けられて管理される。
正規表現生成ルールデータベースにおける形態素解析結果は、ユーザ指定文字列を形態素解析した結果のパターンであり、形態素解析結果に含まれる文字列パターンが正規表現で記述されたものである。正規表現生成ルールデータベースにおける辞書登録該当表現は、ユーザ指定文字列を形態素解析処理した結果に対して、辞書に該当表現として登録する文字列パターンが正規表現で記述されたものである。また、正規表現生成ルールデータベースにおける辞書登録除外表現は、ユーザ指定文字列を形態素解析処理した結果および辞書登録該当表現に対して、辞書登録該当表現に該当する表現のうち、パターンマッチしたとの判定から除外したい表現がある場合に、その文字列パターンの正規表現が記述されるものである。
FIG. 3 is a diagram showing, in tabular form, a configuration example of a regular expression generation rule database stored in the storage device of the dictionary construction support device according to the first embodiment of the present invention. In the regular expression generation rule database, morphological analysis results, corresponding expressions for dictionary registration, and exclusion expressions for dictionary registration are managed in association with each other.
The morpheme analysis result in the regular expression generation rule database is a pattern resulting from morphological analysis of a user-specified character string, and a character string pattern included in the morpheme analysis result is described in regular expressions. The dictionary registered corresponding expression in the regular expression generation rule database is obtained by describing, as a regular expression, a character string pattern registered as a corresponding expression in the dictionary with respect to the result of the morphological analysis processing of the user-specified character string. In addition, the dictionary registration exclusion expression in the regular expression generation rule database is a pattern matching among the expressions corresponding to the dictionary registration corresponding expression for the result of morphological analysis processing of the user-specified character string and the dictionary registration corresponding expression. When there is an expression to be excluded from, a regular expression of the character string pattern is described.

図3に示した正規表現生成ルールデータベースの一行目では、正規表現生成ルールにより変換の対象となる形態素解析結果正規表現パターン「-は\[付属語\]」、その辞書登録該当表現「-[はもが]\[付属語\]」が格納され、辞書登録除外表現は格納されない。また、二行目では、形態素解析結果「\[形容詞\]-[いし]」、辞書登録該当表現「\[形容詞\]-[あ-ん]*」および辞書登録除外表現「\[形容詞\]-(くない|からず)」が格納される。 In the first line of the regular expression generation rule database shown in FIG. 3, the morpheme analysis result regular expression pattern “-ha \ [attached word \]” to be converted by the regular expression generation rule, the dictionary registration corresponding expression “-[ Homoga] \ [Attachment word \] "is stored, and dictionary registration exclusion expressions are not stored. In the second line, the morphological analysis result “\ [adjective \]-[Ishi]”, the dictionary registration corresponding expression “\ [adjective \]-[A-n] * ”, and the dictionary registration exclusion expression “\ [adjective \ ]-(Not | not) "is stored.

図4は、本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶されるユーザ向け出力生成ルールデータベースの構成例を表形式で示す図である。ユーザ向け出力生成ルールデータベースでは、辞書登録表現およびユーザ向け出力が関連付けられて管理される。
ユーザ向け出力生成ルールデータベースにおける辞書登録表現は、辞書登録該当表現および辞書登録除外表現として生成された文字列を記述するものである。また、ユーザ向け出力生成ルールデータベースユーザ向け出力は、辞書登録該当表現もしくは辞書登録除外表現をユーザ向けに変換した文字列を記述するものである。
FIG. 4 is a diagram showing, in tabular form, a configuration example of a user output generation rule database stored in the storage device of the dictionary construction support device according to the first embodiment of the present invention. In the user output generation rule database, dictionary registration expressions and user output are associated and managed.
The dictionary registration expression in the user output generation rule database describes a character string generated as a dictionary registration corresponding expression and a dictionary registration exclusion expression. Further, the user output generation rule database user output describes a character string obtained by converting a dictionary registration corresponding expression or a dictionary registration exclusion expression for a user.

図4に示したユーザ向け出力生成ルールデータベースの一行目では、ユーザ向け出力生成ルールにより変換の対象となる辞書登録表現パターン「-[はもが]\[付属語\]」、そのユーザ向け出力表現「(は|も|が)\[付属語\]」が格納される。
二行目では、辞書登録表現パターン「\[形容詞\]-[あ-ん]*」、ユーザ向け出力表現「\[形容詞\]-(い|かった|くて)」が格納される。三行目では、辞書登録表現パターン「\[形容詞\]-(くない|からず)」、そのユーザ向け出力表現「\[形容詞\]-(くない|からず)」が格納される。
In the first line of the user output generation rule database shown in FIG. 4, the dictionary registered expression pattern “-[Hamoga] \ [Attachment \]” to be converted by the user output generation rule, the output for the user The expression “(ha | also |) \ [attached word \]” is stored.
In the second line, a dictionary registration expression pattern “\ [adjective \]-[an-] * ” and an output expression “\ [adjective \]-(I | Kat | kute)” for the user are stored. In the third line, a dictionary registration expression pattern “\ [adjective \]-(not | not)” and an output expression “\ [adjective \]-(not | not)” for the user are stored.

次に、図1および図2に示した構成の文書処理装置の動作について説明する。図5は、本発明の第1の実施形態にしたがった文書処理装置の処理動作の一例を示すフローチャートである。
まず、ユーザ端末装置2の入力装置24に対する操作によりユーザ指定文字列を含む辞書構造が入力されると(ステップS1)、制御部21はこの文書データを記憶装置22に記憶する。
Next, the operation of the document processing apparatus having the configuration shown in FIGS. 1 and 2 will be described. FIG. 5 is a flowchart showing an example of the processing operation of the document processing apparatus according to the first embodiment of the present invention.
First, when a dictionary structure including a user-specified character string is input by an operation on the input device 24 of the user terminal device 2 (step S1), the control unit 21 stores this document data in the storage device 22.

制御部21は、入力装置24に辞書構築支援処理要求にかかる操作がなされると、記憶装置22に記憶されたユーザ指定文字列を含む辞書構造から、辞書構造の行単位で、ユーザ指定文字列を取得し、通信インタフェース25を介して辞書構築支援装置1に出力する。   When an operation related to the dictionary construction support processing request is performed on the input device 24, the control unit 21 changes the user-specified character string from the dictionary structure including the user-specified character string stored in the storage device 22 in units of lines of the dictionary structure. Is output to the dictionary construction support apparatus 1 via the communication interface 25.

図6は、本発明の第1の実施形態にしたがった辞書構築支援装置が入力する指定文字列を含む辞書構造の一例を示す図である。
図6に示した辞書構造は、概念クラス「良い」、キー概念「問題なし」、ユーザ指定文字列「問題はない」を含む。キー概念は、ユーザ指定文字列が文書中に存在する場合に、その文書に含まれる情報として判定する概念の名前である。概念クラスは、キー概念をグループ化したものであり、概念クラスには1つ以上のキー概念が対応する。辞書構造は、この構造に限定せず、例えば、概念クラスがない構造でもよい。
FIG. 6 is a diagram showing an example of a dictionary structure including a designated character string input by the dictionary construction support apparatus according to the first embodiment of the present invention.
The dictionary structure shown in FIG. 6 includes a concept class “good”, a key concept “no problem”, and a user-specified character string “no problem”. The key concept is a name of a concept that is determined as information included in a document when a user-specified character string exists in the document. The concept class is a group of key concepts, and one or more key concepts correspond to the concept class. The dictionary structure is not limited to this structure, and may be a structure having no concept class, for example.

辞書構築支援装置1の入出力インタフェース16がユーザ端末装置2からのユーザ指定文字列を入力すると、形態素解析部13はこのユーザ指定文字列を形態素解析し、文字列を単語に区切り、品詞を付与する(ステップS2)。
形態素解析部13は、図6に示した文字列「問題はない」を入力すると、形態素解析結果「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」を得る。
When the input / output interface 16 of the dictionary construction support apparatus 1 inputs a user-specified character string from the user terminal device 2, the morpheme analysis unit 13 performs morphological analysis on the user-specified character string, divides the character string into words, and gives parts of speech. (Step S2).
When the morphological analysis unit 13 inputs the character string “no problem” shown in FIG. 6, the morphological analysis result “/ problem [noun] -is [an adjunct] / na [adjective] -i [utilization ending]” is obtained. obtain.

そして、正規表現生成部14は、形態素解析部13で得られたユーザ指定文字列の形態素解析結果から、辞書登録用の正規表現を生成する(ステップS3)。   Then, the regular expression generation unit 14 generates a regular expression for dictionary registration from the morphological analysis result of the user-specified character string obtained by the morpheme analysis unit 13 (step S3).

ここで、正規表現生成部14によるステップS4の処理である正規表現生成処理の詳細について説明する。図7は、本発明の第1の実施形態にしたがった辞書構築支援装置による正規表現生成処理の一例を示すフローチャートである。図8は、本発明の第1の実施形態にしたがった辞書構築支援装置による正規表現生成処理によるデータ遷移の一例を示す図である。   Here, the details of the regular expression generation process which is the process of step S4 by the regular expression generation unit 14 will be described. FIG. 7 is a flowchart showing an example of regular expression generation processing by the dictionary construction support apparatus according to the first embodiment of the present invention. FIG. 8 is a diagram showing an example of data transition by the regular expression generation process by the dictionary construction support device according to the first embodiment of the present invention.

正規表現生成部14は、正規表現生成処理を行なうために、ステップS2の処理で得られた形態素解析結果の記述を辞書登録該当表現初期状態および辞書登録除外表現初期状態としてそれぞれ定める(ステップS41)。そして、正規表現生成部14のルール取得部41は、記憶装置12に記憶された正規表現生成ルールデータベースから最上段のルールを取得する(ステップS42)。   In order to perform the regular expression generation process, the regular expression generation unit 14 determines the description of the morpheme analysis result obtained in the process of step S2 as the dictionary registration corresponding expression initial state and the dictionary registration exclusion expression initial state (step S41). . Then, the rule acquisition unit 41 of the regular expression generation unit 14 acquires the uppermost rule from the regular expression generation rule database stored in the storage device 12 (step S42).

次に、正規表現生成部14のマッチ判定部42は、取得したルールの形態素解析結果正規表現パターンが、ユーザ指定文字列の形態素解析結果に正規表現としてパターンマッチするかを判定する(ステップS43)。
正規表現生成部14の辞書登録表現変換部43は、マッチすると判定した場合は(ステップS43のYES)、辞書登録該当表現初期状態の記述におけるマッチする部分を、正規表現生成ルールデータベースから取得したルールの形態素解析結果正規表現パターンと関連付けられる辞書登録該当表現に変換し、辞書登録除外表現初期状態の記述におけるマッチする部分を、正規表現生成ルールデータベースから取得したルールの形態素解析結果正規表現パターンと関連付けられる辞書登録除外表現に変換する(ステップS44)。
Next, the match determination unit 42 of the regular expression generation unit 14 determines whether the morphological analysis result regular expression pattern of the acquired rule matches the morphological analysis result of the user-specified character string as a regular expression (step S43). .
When it is determined that the dictionary registration expression conversion unit 43 of the regular expression generation unit 14 matches (YES in Step S43), the rule that acquired the matching portion in the description of the initial state of the dictionary registration corresponding expression from the regular expression generation rule database The morpheme analysis result is converted to a dictionary-relevant expression that is associated with the regular expression pattern, and the matching part in the initial description of the dictionary-excluded expression is associated with the regular expression pattern of the rule obtained from the regular expression generation rule database The dictionary registration exclusion expression is converted (step S44).

正規表現生成部14は、ステップS44の処理後またはステップS43の処理で「NO」と判定した場合は、正規表現生成ルールデータベースに次のルールがあるかを判定する(ステップS45)。
正規表現生成部14は、次のルールがあると判定した場合は(ステップS45のYES)、ステップS42の処理に戻って正規表現生成ルールデータベースにおける1段下のルールを取得する。また、正規表現生成部14が次のルールがないと判定した場合は(ステップS45のNO)、除外表現判定部44は、ステップS44の処理で得られた辞書登録除外表現変換結果が辞書登録該当表現変換結果と同一かを判定する(ステップS46)。
If it is determined “NO” after the process of step S44 or the process of step S43, the regular expression generation unit 14 determines whether the regular expression generation rule database includes the next rule (step S45).
If the regular expression generation unit 14 determines that there is the next rule (YES in step S45), the regular expression generation unit 14 returns to the process of step S42 and acquires the next lower rule in the regular expression generation rule database. When the regular expression generation unit 14 determines that there is no next rule (NO in step S45), the exclusion expression determination unit 44 determines that the dictionary registration exclusion expression conversion result obtained in the process of step S44 corresponds to the dictionary registration. It is determined whether the result is the same as the expression conversion result (step S46).

正規表現生成部14の除外表現判定部44がステップS46の処理で「YES」と判定した場合は、除外表現処理部45は、ステップS44の処理で得られた辞書登録除外表現変換結果を消去して(ステップS47)、残った辞書登録該当表現変換結果を辞書登録該当表現として出力する。   When the excluded expression determination unit 44 of the regular expression generation unit 14 determines “YES” in the process of step S46, the excluded expression processing unit 45 deletes the dictionary registration excluded expression conversion result obtained in the process of step S44. (Step S47), the remaining dictionary registration corresponding expression conversion result is output as a dictionary registration corresponding expression.

一方、正規表現生成部14の除外表現判定部44がステップS46の処理で「NO」と判定した場合は、除外表現処理部45は、ステップS44の処理で得られた辞書登録除外表現変換結果を辞書登録除外表現として出力し、辞書登録該当表現変換結果を辞書登録該当表現として出力する。   On the other hand, if the exclusion expression determination unit 44 of the regular expression generation unit 14 determines “NO” in the process of step S46, the exclusion expression processing unit 45 uses the dictionary registration exclusion expression conversion result obtained in the process of step S44. The dictionary registration exclusion expression is output, and the dictionary registration corresponding expression conversion result is output as the dictionary registration corresponding expression.

正規表現生成部14は、図8に示したように、形態素解析結果の記述が「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」である場合には、同じ記述を辞書登録該当表現初期状態および辞書登録除外表現初期状態の記述とする。
この場合、形態素解析結果の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」における「-は[付属語]」は図3に示した正規表現生成ルールデータベースの一行目の形態素解析結果正規表現パターン「-は\[付属語\]」とマッチするので、辞書登録表現変換部43は、ステップS44の処理により、辞書登録該当表現初期状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」に含まれる「-は[付属語]」を図3に示した正規表現生成ルールデータベースの一行目の形態素解析結果正規表現パターンと関連付けられる辞書登録該当表現「-[はもが]\[付属語\]」に変換する。
As shown in FIG. 8, the regular expression generation unit 14, when the description of the morphological analysis result is “/ problem [noun] -is [attachment] / na [adjective] -i [utilization ending]”. The same description is used as the description of the dictionary registration corresponding expression initial state and the dictionary registration exclusion expression initial state.
In this case, in the description of the morphological analysis result “/ problem [noun]-is an [adjunct] / na [adjective] -i [utilization ending]”, “-is an [adjunct]” is the regular expression generation shown in FIG. Since the regular expression pattern “-ha \ [attached word \]” in the first line of the rule database is matched, the dictionary registration expression conversion unit 43 performs a description “ / Problem [Noun]-is an [adjunct] / na [adjective] -i [utilization ending] "-" [adjunct] "is the first line morpheme of the regular expression generation rule database shown in FIG. It is converted into a dictionary registered corresponding expression “-[Hamoga] \ [Attachment word \]” associated with the regular expression pattern of the analysis result.

また、この一行目の形態素解析結果正規表現パターンと関連付けられる辞書登録除外表現は空欄であるが、この場合、辞書登録表現変換部43は、ステップS44の処理により、辞書登録除外表現初期状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」の「-は[付属語]」を図3に示した正規表現生成ルールデータベースの一行目の形態素解析結果正規表現パターンと関連付けられる辞書登録該当表現「-[はもが]\[付属語\]」に変換する。   In addition, the dictionary registration exclusion expression associated with the regular expression pattern of the morpheme analysis result on the first line is blank. In this case, the dictionary registration expression conversion unit 43 performs the description of the initial state of the dictionary registration exclusion expression by the process of step S44. Morphological analysis of the first line of the regular expression generation rule database showing "-is an [adjunct]" in "/ problem [noun]-is an [adjunct] / na [adjective] -i [utilization ending]" Result It is converted to the dictionary registered corresponding expression “-[Hamoga] \ [Attachment word \]” associated with the regular expression pattern.

さらに、形態素解析結果の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」における「[形容詞]-い」は図3に示した正規表現生成ルールデータベースの二行目の形態素解析結果正規表現パターン「\[形容詞\]-[いし]」とマッチするので、辞書登録表現変換部43は、ステップS44の処理により、辞書登録該当表現初期状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」に含まれる「[形容詞]-い」を図3に示した正規表現生成ルールデータベースの二行目の形態素解析結果正規表現パターンと関連付けられる辞書登録該当表現「\[形容詞\]-[あ-ん]*」に変換し、辞書登録該当表現除外状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」の「[形容詞]い」を図3に示した正規表現生成ルールデータベースの同じく二行目の形態素解析結果正規表現パターンと関連付けられる辞書登録除外表現「\[形容詞\]-(くない|からず)」に変換する。 Furthermore, in the description of the morphological analysis result “/ problem [noun] -is [adjunct] / na [adjective] -i [utilization ending]”, “[adjective] -i” is the regular expression generation rule database shown in FIG. Since the morpheme analysis result regular expression pattern “\ [adjectives \]-[Ishi]” in the second line of “” is matched, the dictionary registration expression conversion unit 43 performs a description “ / Problem [Noun]-is an [adjective] / na [adjective] -i [utilization ending]] and the [morpheme] in the second line of the regular expression generation rule database shown in FIG. The result of the analysis is converted to the dictionary registration corresponding expression “\ [adjective \]-[an] * ” associated with the regular expression pattern, and the description of the dictionary registration corresponding expression exclusion state “/ problem [noun]-is an [adjunct]” / [[Adjective] -i [utilization ending] "" [adjective] "is the same two lines in the regular expression generation rule database shown in FIG. Morphological analysis result dictionary registration exclude representations associated with the regular expression pattern "\ [adjective \] - (wards | Cala'n)" of converting into.

このような変換がなされることにより、図8に示すように、正規表現生成部14の辞書登録表現変換部43は、辞書登録該当表現初期状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」をもとに、辞書登録該当表現変換結果の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」を得る。 By performing such conversion, as shown in FIG. 8, the dictionary registration expression conversion unit 43 of the regular expression generation unit 14 describes the initial state “/ problem [noun] − ] / Na [adjective] -i [utilization ending] ”, description of the corresponding dictionary conversion result“ / problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [ Get the adjective \]-[an-] * \ [utilization ending \] ".

また、図8に示すように、辞書登録表現変換部43は、辞書登録除外表現初期状態の記述「/問題[名詞]-は[付属語]/な[形容詞]-い[活用語尾]」のをもとに、辞書登録除外表現変換結果の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」を得る。   Further, as shown in FIG. 8, the dictionary registration expression conversion unit 43 reads the description of the initial state of the dictionary registration exclusion expression “/ problem [noun] -is [attachment] / na [adjective] -i [utilization ending]”. Based on the description of the dictionary registration exclusion expression conversion result "/ problem \ [noun \]-[Hamoga] \ [adjunct \] / na \ [adjectives \]-(not | not) \ [ Take advantage ending \] ".

そして、図8に示すように、正規表現生成部14は、辞書登録除外表現変換結果の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」を辞書登録除外表現として出力し、辞書登録該当表現変換結果の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」を辞書登録該当表現として出力する。以上で、ステップS3の処理の詳細の説明を終わる。 Then, as shown in FIG. 8, the regular expression generation unit 14 describes the description of the dictionary registration exclusion expression conversion result “/ problem \ [noun \]-[hamamo] \ [attachment \] / na \ [adjective \ ]-(Not | Kazuzazu) \ [Utilization ending \] "is output as a dictionary registration exclusion expression, and the description of the dictionary registration corresponding expression conversion result" / problem \ [noun \]-[hamamo] \ [included] Word \] / na \ [adjective \]-[an-] * \ [utilization ending \] "is output as a dictionary registered corresponding expression. This is the end of the detailed description of the processing in step S3.

制御部11は、正規表現生成部14から出力された辞書登録該当表現および辞書登録除外表現をユーザ向け出力生成部15へ出力する。ユーザ向け出力生成部15は、入力された辞書登録該当表現および辞書登録除外表現をもとにユーザ向け出力生成処理を行なう(ステップS4)。   The control unit 11 outputs the dictionary registration corresponding expression and the dictionary registration exclusion expression output from the regular expression generation unit 14 to the user output generation unit 15. The user output generation unit 15 performs a user output generation process based on the input dictionary registration corresponding expression and dictionary registration exclusion expression (step S4).

図9は、本発明の第1の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理の一例を示すフローチャートである。図10は、本発明の第1の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理によるデータ遷移の一例を示す図である。   FIG. 9 is a flowchart showing an example of an output generation process for the user by the dictionary construction support apparatus according to the first embodiment of the present invention. FIG. 10 is a diagram showing an example of data transition by the output generation process for the user by the dictionary construction support apparatus according to the first embodiment of the present invention.

ユーザ向け出力生成部15は、ユーザ向け出力生成処理を行なうために、正規表現生成部14による出力結果である辞書登録該当表現および辞書登録除外表現をそれぞれユーザ向け出力該当表現初期状態およびユーザ向け出力除外表現初期状態とする(ステップS51)。ユーザ向け出力生成部15のルール取得部51は、記憶装置12に記憶されたユーザ向け出力生成ルールデータベースから最上段のルールを取得する(ステップS52)。   The user output generation unit 15 outputs the dictionary registration corresponding expression and the dictionary registration exclusion expression, which are output results from the regular expression generation unit 14, to the user output corresponding expression initial state and the user output, respectively, in order to perform user output generation processing. The excluded expression initial state is set (step S51). The rule acquisition unit 51 of the user output generation unit 15 acquires the uppermost rule from the user output generation rule database stored in the storage device 12 (step S52).

次に、ユーザ向け出力生成部15のマッチ判定部52は、取得済みルールの辞書登録表現の記述が、ステップS51の処理結果であるユーザ向け出力該当表現初期状態やユーザ向け出力除外表現初期状態に含まれるかを判定する(ステップS53)。
ユーザ向け出力生成部15の出力変換部53は、ステップS53の処理で「YES」と判定した場合は、ユーザ向け出力該当表現初期状態およびユーザ向け出力除外表現初期状態の記述のうち取得済みルールの一致する部分を、ユーザ向け出力生成ルールデータベース上で関連付けられるユーザ向け出力の記述に変換する(ステップS54)。
Next, the match determination unit 52 of the user output generation unit 15 sets the description of the dictionary registration expression of the acquired rule to the user output corresponding expression initial state or the user output exclusion expression initial state which is the processing result of step S51. It is determined whether it is included (step S53).
If the output conversion unit 53 of the output generation unit for user 15 determines “YES” in the process of step S53, the output conversion unit 53 of the acquired rule among the descriptions of the initial output corresponding expression for the user and the initial expression for the output exclusion expression for the user. The matching part is converted into a description of the user output associated on the user output generation rule database (step S54).

ユーザ向け出力生成部15は、ステップS54の処理後またはステップS53の処理で「NO」と判定した場合は、ユーザ向け出力生成ルールデータベース上の一段下のルールがあるかを判定する(ステップS55)。
ユーザ向け出力生成部15は、一段下のルールがある場合は(ステップS55のYES)、ステップS53に戻って、次のルールに関して処理を繰り返す。
一方、ユーザ向け出力生成部15が一段下のルールがないと判定した場合は(ステップS55のNO)、出力変換部53は、ユーザ向け出力の該当表現および除外表現を確定する。
The user output generation unit 15 determines whether or not there is a lower-level rule on the user output generation rule database after the process of step S54 or the determination of “NO” in the process of step S53 (step S55). .
If there is a next lower rule (YES in step S55), the user output generation unit 15 returns to step S53 and repeats the process for the next rule.
On the other hand, when the user output generation unit 15 determines that there is no lower rule (NO in step S55), the output conversion unit 53 determines the corresponding expression and the exclusion expression of the user output.

ユーザ向け出力生成部15の出力変換部53は、図8に示したように、辞書登録該当表現の記述が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」である場合には、この記述を図10に示すようにユーザ向け出力該当表現初期状態の記述とする。
この場合、ユーザ向け出力該当表現初期状態の記述における「-[はもが]\[付属語\]」は図4に示したユーザ向け出力ルールデータベースの一行目の辞書登録表現「-[はもが]\[付属語\]」とマッチするので、出力変換部53は、ステップS54の処理により、ユーザ向け出力該当表現初期状態の記述「-[はもが]\[付属語\]」を図4に示したユーザ向け生成ルールデータベースの一行目の辞書登録表現と関連付けられるユーザ向け出力「-(は|も|が)\[付属語\]」に変換する。
As shown in FIG. 8, the output conversion unit 53 of the user output generation unit 15 has a description of the corresponding dictionary registration corresponding to “/ problem \ [noun \]-[hamamo] \ [attached word \] / In the case of \ [adjective \]-[an] * \ [utilization ending \] ", this description is a description of the initial state of the output corresponding expression for the user as shown in FIG.
In this case, “-[Homoga] \ [Attachment \]” in the description of the initial state of the corresponding output expression for the user is the dictionary registration expression “-[Homoga] in the first line of the output rule database for the user shown in FIG. ”\ [Attached word \]”, the output conversion unit 53 adds the description “-[Homoga] \ [attached word \]” of the output corresponding expression initial state for the user by the process of step S54. The user-generated output “-(ha | also | is) \ [attached word \]” associated with the dictionary registration expression in the first line of the user generation rule database shown in FIG. 4 is converted.

また、ユーザ向け出力該当表現初期状態の記述における「\[形容詞\]-[あ-ん]*」は図4に示したユーザ向け出力ルールデータベースの二行目の辞書登録表現「\[形容詞\]-[あ-ん]*」とマッチするので、出力変換部53は、ステップS54の処理により、ユーザ向け出力該当表現初期状態の記述「\[形容詞\]-[あ-ん]*」を図4に示したユーザ向け生成ルールデータベースの一行目の辞書登録表現と関連付けられるユーザ向け出力「\[形容詞\]-(い|かった|くて)」に変換する。 Also, “\ [adjective \]-[an] * ” in the description of the initial state of the corresponding output expression for the user is the dictionary registration expression “\ [adjective \” on the second line of the user output rule database shown in FIG. ]-[Ann] * ”, the output conversion unit 53 outputs the description“ \ [adjective \]-[Ann] * ”of the output corresponding expression initial state for the user by the process of step S54. The output is converted into a user output “\ [adjective \]-(I | Kat | Kute)” associated with the dictionary registration expression on the first line of the user generation rule database shown in FIG.

ユーザ向け出力生成部15の出力変換部53は、図8に示したように、辞書登録除外表現の記述が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」である場合には、この記述を図10に示すようにユーザ向け出力除外表現初期状態の記述とする。   As shown in FIG. 8, the output conversion unit 53 of the user output generation unit 15 has a description of the dictionary registration exclusion expression “/ problem \ [noun \]-[hamamo] \ [attached word \] / In the case of \ [adjective \]-(not | not) \ [utilized ending \] ", this description is the description of the output exclusion expression initial state for the user as shown in FIG.

この場合、ユーザ向け出力除外表現初期状態の記述における「-[はもが]\[付属語\]」は図4に示したユーザ向け出力ルールデータベースの一行目の辞書登録表現「-[はもが]\[付属語\]」とマッチするので、出力変換部53は、ステップS54の処理により、ユーザ向け出力除外表現初期状態の記述に含まれる「-[はもが]\[付属語\]」を図4に示したユーザ向け生成ルールデータベースの一行目の辞書登録表現と関連付けられるユーザ向け出力「-(は|も|が)\[付属語\]」に変換する。   In this case, “-[Homoga] \ [Attachment word \]” in the description of the user output exclusion expression initial state is the dictionary registration expression “-[Hamoga” on the first line of the user output rule database shown in FIG. ”\ [Attached word \]”, the output converting unit 53 performs the process of step S54 to add “-[Homoga] \ [attached word \” included in the description of the output exclusion expression initial state for the user. ] ”Is converted into a user output“-(ha | also |) ”\ [attachment word]] associated with the dictionary registration expression in the first line of the user generation rule database shown in FIG.

また、ユーザ向け出力該当表現初期状態の記述における「\[形容詞\]-(くない|からず)」は図4に示したユーザ向け出力ルールデータベースの三行目の辞書登録表現「\[形容詞\]-(くない|からず)」とマッチするので、出力変換部53は、ステップS54の処理により、ユーザ向け出力該当表現初期状態の記述「\[形容詞\]-(くない|からず)」を図4に示したユーザ向け生成ルールデータベースの三行目の辞書登録表現と関連付けられるユーザ向け出力「\[形容詞\]-(くない|からず)」に変換する。   In addition, “\ [adjectives \]-(not | karazazu)” in the description of the initial state corresponding to the user output corresponding expression is “\ [adjective” in the third line of the user output rule database shown in FIG. \ "-(Not | not)", the output conversion unit 53 performs the process of step S54 to describe the initial state corresponding to the user output corresponding expression "\ [adjective \]-(not | not ) "Is converted into a user output" \ [adjective \]-(not | not) "associated with the dictionary registration expression on the third line of the user generation rule database shown in FIG.

つまり、図10に示すように、出力変換部53は、ユーザ向け出力該当表現初期状態の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」をもとに、該当表現「/問題\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-(い|かった|くて)\[活用語尾\]」を得る。 That is, as shown in FIG. 10, the output conversion unit 53 describes the initial state of the output corresponding expression for the user “/ problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \ ]-[A-n] * \ [utilization ending \] ", the corresponding expression" / problem \ [noun \]-(ha | mo | ga) \ [adjunct \] / na \ [adjective \] ]-(I | Kat | Kute) \ [Utilization ending \] ".

また、図10に示すように、出力変換部53は、ユーザ向け出力除外表現初期状態の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」をもとに、除外表現「/問題\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」を得る。   Also, as shown in FIG. 10, the output conversion unit 53 describes the initial state of the output exclusion expression for the user “/ problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \ ]-(Not | Kazuzazu) \ [Utilization ending \] ", the exclusion expression" / problem \ [noun \]-(ha | mo |) "\ [adjunct \] / na \ [adjective \]-(Not | not) \ [utilization ending \] ".

該当表現および除外表現の確定後、形態素解析記号処理部54は、ステップS54の処理結果である該当表現および除外表現から形態素解析結果記号およびバックスラッシュ\の記号を削除する(ステップS56)。   After the corresponding expression and the excluded expression are determined, the morpheme analysis symbol processing unit 54 deletes the morpheme analysis result symbol and the backslash \ symbol from the corresponding expression and the excluded expression that are the processing results of step S54 (step S56).

形態素解析記号処理部54は、図10に示したように、ステップS54の処理結果である該当表現の記述が「/問題\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-(い|かった|くて)\[活用語尾\]」である場合には、この記述から形態素解析結果記号およびバックスラッシュ\の記号を除いた該当表現「問題(は|も|が)な(い|かった|くて)」を得る。
また、形態素解析記号処理部54は、図10に示したように、ステップS54の処理結果である除外表現の記述が「/問題\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」である場合には、この記述から形態素解析結果記号およびバックスラッシュ\の記号を除いた除外表現「問題(は|も|が)な(くない|からず)」を得る。
As shown in FIG. 10, the morphological analysis symbol processing unit 54 stores the description of the corresponding expression as the processing result of step S54 as “/ problem \ [noun \]-(ha | also |) | [attachment \]”. / Na \ [adjective \]-(I | Kat | kute) \ [practical ending \] ", the corresponding expression" problem excluding the morphological analysis result symbol and backslash \ symbol from this description (Has also | is |
Further, as shown in FIG. 10, the morphological analysis symbol processing unit 54 indicates that the description of the exclusion expression as the processing result of step S54 is “/ problem \ [noun \]-(ha | also | \] / Na \ [adjectives \]-(not | deletion | not use) \ [utilization ending \] ", the mnemonic analysis result symbol and backslash \ symbol are excluded from this description. (Has | is not (not | not)) ”.

ユーザ向け出力生成部15の正規表現展開処理部55は、ステップS56の処理結果である該当表現や除外表現の正規表現ORを展開する(ステップS57)。
正規表現展開処理部55は、図10に示したように、ステップS56の処理結果である該当表現の記述が「問題(は|も|が)な(い|かった|くて)」である場合には、この記述からユーザ向け出力該当表現「問題はない」、「問題もない」、「問題がない」、「問題はなかった」、「問題もなかった」、「問題がなかった」、「問題はなくて」、「問題もなくて」および「問題がなくて」を得る。
The regular expression expansion processing unit 55 of the user output generation unit 15 expands the regular expression OR of the corresponding expression and the excluded expression, which is the processing result of step S56 (step S57).
As shown in FIG. 10, the regular expression expansion processing unit 55 has a description of the corresponding expression as a processing result of step S56 as “problem (ha | also | In this case, the corresponding output for the user is “no problem”, “no problem”, “no problem”, “no problem”, “no problem”, “no problem” , Get "no problem", "no problem" and "no problem".

また、正規表現展開処理部55は、図10に示したように、ステップS56の処理結果である除外表現の記述が「問題(は|も|が)な(くない|からず)」である場合には、この記述からユーザ向け出力該当表現「問題はなくない」、「問題もなくない」、「問題がなくない」、「問題はなからず」、「問題もなからず」および「問題がなからず」を得る。以上でステップS4の処理の詳細の説明を終わる。   Further, as shown in FIG. 10, the regular expression development processing unit 55 indicates that the description of the excluded expression, which is the processing result of step S56, is “problem (is | is also | is not | not |)”. In this case, the output corresponding expressions for the user are “no problem”, “no problem”, “no problem”, “no problem”, “no problem” and “ Get no problem ". This is the end of the detailed description of the process in step S4.

ユーザ向け出力生成部15は、ステップS56の処理結果であるユーザ向け出力該当表現、ユーザ向け出力除外表現を、入出力インタフェース16を介してユーザ端末装置2に出力する。   The user output generation unit 15 outputs the user output corresponding expression and the user output exclusion expression, which are the processing results of step S <b> 56, to the user terminal device 2 via the input / output interface 16.

ユーザ端末装置2の通信インタフェース25が、辞書構築支援装置1からのユーザ向け出力該当表現およびユーザ向け出力除外表現を入力すると、制御部21は、この情報を記憶装置22に記憶する。制御部21は、記憶装置22に記憶されたユーザ向け出力該当表現およびユーザ向け出力除外表現を取得し、入力辞書構造と合わせて、表示装置23に出力する(ステップS5)。   When the communication interface 25 of the user terminal device 2 receives the user output corresponding expression and the user output exclusion expression from the dictionary construction support apparatus 1, the control unit 21 stores this information in the storage device 22. The control unit 21 acquires the user output corresponding expression and the user output exclusion expression stored in the storage device 22, and outputs them to the display device 23 together with the input dictionary structure (step S5).

図11は、本発明の第1の実施形態にしたがったユーザ端末装置にて表示されるユーザ向け出力画面の一例を示す図である。
辞書構築支援装置1の制御部11は、正規表現生成部14による処理結果の辞書登録該当表現および辞書登録除外表現を、ステップS1の処理で入力したユーザ指定文字列の辞書構造と合わせて、記憶装置12に辞書情報として保存する(ステップS6)。
FIG. 11 is a diagram illustrating an example of an output screen for a user displayed on the user terminal device according to the first embodiment of the present invention.
The control unit 11 of the dictionary construction support apparatus 1 stores the dictionary registration corresponding expression and the dictionary registration exclusion expression of the processing result by the regular expression generation unit 14 together with the dictionary structure of the user-specified character string input in the process of step S1. It is stored as dictionary information in the device 12 (step S6).

図12は、本発明の第1の実施形態にしたがった辞書構築支援装置に保存される辞書情報の一例を示す図である。
図12に示した例は、概念クラス、キー概念、ユーザ指定文字列、辞書登録該当表現、辞書登録除外表現がそれぞれ1つずつの例である。辞書情報の1行分は、図12に示した内容で構成される。辞書情報では、図12に示した内容の行が複数あってもよい。
例えば、同じ概念クラス名で複数のキー概念の行が存在してもよい。さらに、同じ概念クラス名、同じキー概念クラス名で、複数の「ユーザ指定文字列、辞書登録該当表現、辞書登録除外表現」の行が存在してもよい。
FIG. 12 is a diagram showing an example of dictionary information stored in the dictionary construction support apparatus according to the first embodiment of the present invention.
The example shown in FIG. 12 is an example in which there is one concept class, one key concept, one user-specified character string, one dictionary registration corresponding expression, and one dictionary registration exclusion expression. One line of dictionary information consists of the contents shown in FIG. In the dictionary information, there may be a plurality of lines having the contents shown in FIG.
For example, a plurality of key concept rows may exist with the same concept class name. Further, a plurality of “user-specified character strings, dictionary registration corresponding expressions, dictionary registration exclusion expressions” may exist with the same concept class name and the same key concept class name.

以上のように、本発明の第1の実施形態にしたがった文書処理装置の辞書構築支援装置では、ユーザが入力したユーザ指定文字列を、辞書登録表現に関するノウハウをまとめた正規表現生成ルールデータベースを参照し辞書登録表現に変換するので、自然言語処理の知識や辞書登録表現に関するノウハウの少ないユーザにも高度な辞書情報が構築できる。   As described above, in the dictionary construction support apparatus of the document processing apparatus according to the first embodiment of the present invention, the regular expression generation rule database in which the user-specified character strings input by the user are gathered together with the know-how related to the dictionary registration expressions. Since it is referred to and converted into a dictionary registration expression, advanced dictionary information can be constructed even for users who have little knowledge of natural language processing and know-how about dictionary registration expressions.

また、この辞書構築支援装置は、ユーザ向け出力生成処理を行って、ユーザ向け出力に変換された辞書登録表現を表示するので、自然言語処理の知識の少ないユーザにも理解しやすい出力を行なえる。さらに、この辞書構築支援装置は、辞書登録表現をユーザに直接見せないようにしているで、技術ノウハウを隠蔽することができる。   In addition, since this dictionary construction support device performs an output generation process for the user and displays the dictionary registration expression converted into the output for the user, it can perform an output that is easy to understand even for a user with little knowledge of natural language processing. . Furthermore, this dictionary construction support apparatus is able to hide the technical know-how because the dictionary registration expression is not directly shown to the user.

(第2の実施形態)
次に、本発明の第2の実施形態について説明する。なお、以下の各実施形態に係る文書処理装置の構成のうち、図1や図2に示したものと同一部分の説明は省略する。
図13は、本発明の第2の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図である。
本発明の第2の実施形態にしたがった辞書構築支援装置1は、第1の実施形態と比較して、正規表現生成部14に代わり、辞書登録表現生成部60を備える。また、記憶装置12は、第1の実施形態と比較して、正規表現生成第2ルールデータベースを記憶するための正規表現第2ルール記憶部33を有する。この実施形態では、第1の実施形態で説明した正規表現ルール記憶部31に記憶される正規表現生成ルールデータベースを正規表現生成第1ルールデータベースと称する。
(Second Embodiment)
Next, a second embodiment of the present invention will be described. Note that, in the configuration of the document processing apparatus according to each embodiment described below, the description of the same parts as those shown in FIGS. 1 and 2 is omitted.
FIG. 13 is a block diagram showing a configuration example of the dictionary construction support device of the document processing device according to the second embodiment of the present invention.
The dictionary construction support apparatus 1 according to the second embodiment of the present invention includes a dictionary registered expression generation unit 60 instead of the regular expression generation unit 14 as compared with the first embodiment. In addition, the storage device 12 includes a regular expression second rule storage unit 33 for storing a regular expression generation second rule database, as compared with the first embodiment. In this embodiment, the regular expression generation rule database stored in the regular expression rule storage unit 31 described in the first embodiment is referred to as a regular expression generation first rule database.

辞書登録表現生成部60は、ルール取得部61、マッチ判定部62、辞書登録表現変換部63、辞書登録表現生成部64、除外表現判定部65、除外表現処理部66を有する。これらの機能については後述する。   The dictionary registration expression generation unit 60 includes a rule acquisition unit 61, a match determination unit 62, a dictionary registration expression conversion unit 63, a dictionary registration expression generation unit 64, an exclusion expression determination unit 65, and an exclusion expression processing unit 66. These functions will be described later.

図14は、本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶される正規表現生成第2ルールデータベースの構成例を表形式で示す図である。
この正規表現生成第2ルールデータベースでは、形態素解析結果、辞書登録表現が関連付けられて管理される。
FIG. 14 is a diagram showing, in a tabular form, a configuration example of the regular expression generation second rule database stored in the storage device of the dictionary construction support device according to the first embodiment of the present invention.
In the regular expression generation second rule database, morphological analysis results and dictionary registration expressions are managed in association with each other.

正規表現生成第2ルールデータベースにおける形態素解析結果正規表現パターンは、第1の実施形態で説明したようにユーザ指定文字列の形態素解析結果を正規表現生成第1ルールデータベースと照合することで変換して辞書登録該当表現および辞書登録除外表現を得た場合に、これらの表現の同義語や表記ゆれの有無の判別のための照合対象となる文字列パターンが正規表現で記述されたものである。
また、正規表現生成第2ルールデータベースにおける辞書登録表現は、ユーザ指定文字列に対して、辞書情報に該当表現や除外表現として登録する文字列パターンが正規表現で記述されたものである。
The morpheme analysis result regular expression pattern in the regular expression generation second rule database is converted by comparing the morpheme analysis result of the user-specified character string with the regular expression generation first rule database as described in the first embodiment. When a dictionary registration corresponding expression and a dictionary registration exclusion expression are obtained, a character string pattern to be collated for determining the presence or absence of synonyms or notation of these expressions is described in a regular expression.
Moreover, the dictionary registration expression in the regular expression generation second rule database is a character string pattern that is registered in the dictionary information as a corresponding expression or an exclusion expression for the user-specified character string.

図14に示した正規表現生成第2ルールデータベースの一行目では、形態素解析結果正規表現パターン「/(問題|トラブル)\[名詞\]」および辞書登録該当表現「/(問題|トラブル)\[名詞\]」が格納される。また、二行目では、形態素解析結果正規表現パターン「/(な|無)\[形容詞\]」および辞書登録該当表現「/(な|無)\[形容詞\]」が格納される。   In the first line of the regular expression generation second rule database shown in FIG. 14, the morphological analysis result regular expression pattern “/ (problem | trouble) \ [noun \]” and the dictionary registered corresponding expression “/ (problem | trouble) \ [ Noun \] "is stored. In the second line, the morphological analysis result regular expression pattern “/ (na | no) \ [adjectives \]” and the dictionary registration corresponding expression “/ (na | no) \ [adjectives \]” are stored.

次に、本発明の第2の実施形態にしたがった文書処理装置の処理動作について説明する。図15は、本発明の第2の実施形態にしたがった文書処理装置の処理動作の一例を示すフローチャートである。   Next, the processing operation of the document processing apparatus according to the second embodiment of the present invention will be described. FIG. 15 is a flowchart showing an example of the processing operation of the document processing apparatus according to the second embodiment of the present invention.

まず、第1の実施形態で説明したステップS1およびS2の処理がなされる。そして、辞書登録表現生成部60は、形態素解析部13で得られたユーザ指定文字列の形態素解析結果から、辞書登録用の正規表現を生成する(ステップS11)。   First, steps S1 and S2 described in the first embodiment are performed. Then, the dictionary registration expression generation unit 60 generates a regular expression for dictionary registration from the morpheme analysis result of the user-specified character string obtained by the morpheme analysis unit 13 (step S11).

ここで、辞書登録表現生成部60によるステップS11の処理である辞書登録表現生成処理の詳細について説明する。図16は、本発明の第2の実施形態にしたがった辞書構築支援装置による辞書登録表現生成処理の一例を示すフローチャートである。図17は、本発明の第2の実施形態にしたがった辞書構築支援装置による辞書登録表現生成処理によるデータ遷移の一例を示す図である。   Here, the details of the dictionary registration expression generation process which is the process of step S11 by the dictionary registration expression generation unit 60 will be described. FIG. 16 is a flowchart showing an example of dictionary registration expression generation processing by the dictionary construction support apparatus according to the second embodiment of the present invention. FIG. 17 is a diagram showing an example of data transition by dictionary registration expression generation processing by the dictionary construction support apparatus according to the second embodiment of the present invention.

辞書登録表現生成部60は、辞書登録表現生成処理を行なうために、ステップS2の処理で得られた形態素解析結果の記述を辞書登録該当表現初期状態および辞書登録除外表現初期状態としてそれぞれ定める(ステップS61)。
そして、辞書登録表現生成部60のルール取得部61は、記憶装置12に記憶された正規表現生成第1ルールデータベースから最上段のルールを取得する(ステップS62)。
In order to perform the dictionary registration expression generation process, the dictionary registration expression generation unit 60 determines the description of the morpheme analysis result obtained in the process of step S2 as the dictionary registration corresponding expression initial state and the dictionary registration exclusion expression initial state (step S61).
And the rule acquisition part 61 of the dictionary registration expression production | generation part 60 acquires the uppermost rule from the regular expression production | generation 1st rule database memorize | stored in the memory | storage device 12 (step S62).

次に、辞書登録表現生成部60のマッチ判定部62は、取得したルールの形態素解析結果正規表現パターンが、ユーザ指定文字列の形態素解析結果に正規表現としてパターンマッチするかを判定する(ステップS63)。
辞書登録表現生成部60の辞書登録表現変換部63は、マッチすると判定した場合は(ステップS63のYES)、辞書登録該当表現初期状態の記述におけるマッチする部分を、正規表現生成第1ルールデータベースから取得したルールの形態素解析結果正規表現パターンと関連付けられる辞書登録該当表現に変換し、辞書登録除外表現初期状態の記述におけるマッチする部分を、正規表現生成第1ルールデータベースから取得したルールの形態素解析結果正規表現パターンと関連付けられる辞書登録除外表現に変換する(ステップS64)。
Next, the match determination unit 62 of the dictionary registered expression generation unit 60 determines whether the morphological analysis result regular expression pattern of the acquired rule matches the morphological analysis result of the user-specified character string as a regular expression (step S63). ).
If the dictionary registration expression conversion unit 63 of the dictionary registration expression generation unit 60 determines that there is a match (YES in step S63), the matching part in the description of the dictionary registration corresponding expression initial state is extracted from the regular expression generation first rule database. Morphological analysis result of the rule obtained by converting to the dictionary registered corresponding expression associated with the regular expression pattern of the acquired rule, and the matching part in the description of the initial state of the dictionary registration excluded expression obtained from the regular expression generation first rule database Conversion into a dictionary registration exclusion expression associated with the regular expression pattern is performed (step S64).

辞書登録表現生成部60は、ステップS64の処理後またはステップS63の処理で「NO」と判定した場合は、正規表現生成第1ルールデータベースに次のルールがあるかを判定する(ステップS65)。
辞書登録表現生成部60は、次のルールがあると判定した場合は(ステップS65のYES)、ステップS62の処理に戻って正規表現生成第1ルールデータベースにおける1段下のルールを取得する。また、辞書登録表現生成部60が次のルールがないと判定した場合は(ステップS65のNO)、除外表現判定部65は、ステップS64の処理で得られた辞書登録除外表現変換結果が辞書登録該当表現変換結果と同一かを判定する(ステップS66)。
If it is determined “NO” after the process of step S64 or the process of step S63, the dictionary registration expression generation unit 60 determines whether there is a next rule in the regular expression generation first rule database (step S65).
If it is determined that there is the next rule (YES in step S65), the dictionary registration expression generation unit 60 returns to the process in step S62 and acquires the next lower rule in the regular expression generation first rule database. If the dictionary registration expression generation unit 60 determines that there is no next rule (NO in step S65), the exclusion expression determination unit 65 determines that the dictionary registration exclusion expression conversion result obtained in step S64 is the dictionary registration. It is determined whether the result is the same as the corresponding expression conversion result (step S66).

除外表現判定部65がステップS66の処理で「YES」と判定した場合は、除外表現処理部66は、ステップS64の処理で得られた辞書登録除外表現変換結果を消去して(ステップS67)、残った辞書登録該当表現変換結果を辞書登録該当表現として出力する。
一方、除外表現判定部65がステップS66の処理で「NO」と判定した場合は、除外表現処理部66は、ステップS64の処理で得られた辞書登録除外表現変換結果を辞書登録除外表現として出力し、辞書登録該当表現変換結果を辞書登録該当表現として出力する。
If the excluded expression determination unit 65 determines “YES” in the process of step S66, the excluded expression processing unit 66 deletes the dictionary registration excluded expression conversion result obtained in the process of step S64 (step S67). The remaining dictionary registered corresponding expression conversion result is output as a dictionary registered corresponding expression.
On the other hand, if the exclusion expression determination unit 65 determines “NO” in the process of step S66, the exclusion expression processing unit 66 outputs the dictionary registration exclusion expression conversion result obtained in the process of step S64 as a dictionary registration exclusion expression. Then, the dictionary registration corresponding expression conversion result is output as the dictionary registration corresponding expression.

そして、辞書登録表現生成部60のルール取得部61は、記憶装置12に記憶された正規表現生成第2ルールデータベースから最上段のルールを取得する(ステップS68)。   And the rule acquisition part 61 of the dictionary registration expression production | generation part 60 acquires the uppermost rule from the regular expression production | generation 2nd rule database memorize | stored in the memory | storage device 12 (step S68).

次に、辞書登録表現生成部60のマッチ判定部62は、取得したルールの形態素解析結果正規表現パターンの記述が、除外表現処理部66による出力結果に正規表現としてパターンマッチするかを判定する(ステップS69)。   Next, the match determination unit 62 of the dictionary registered expression generation unit 60 determines whether the description of the acquired morphological analysis result regular expression pattern of the rule matches the output result from the exclusion expression processing unit 66 as a regular expression ( Step S69).

辞書登録表現生成部60の辞書登録表現生成部64は、マッチすると判定した場合は(ステップS69のYES)、除外表現処理部66により出力された辞書登録該当表現や辞書登録除外表現の記述におけるマッチする部分を、正規表現生成第2ルールデータベースから取得したルールの形態素解析結果正規表現パターンと関連付けられる辞書登録表現に変換する(ステップS70)。   If the dictionary registration expression generation unit 64 of the dictionary registration expression generation unit 60 determines that there is a match (YES in step S69), it matches in the description of the dictionary registration corresponding expression and dictionary registration exclusion expression output by the exclusion expression processing unit 66. The part to be converted is converted into a dictionary registered expression associated with the regular expression pattern of the morphological analysis result of the rule acquired from the regular expression generation second rule database (step S70).

辞書登録表現生成部60は、ステップS70の処理後またはステップS69の処理で「NO」と判定した場合は、正規表現生成第2ルールデータベースに次のルールがあるかを判定する(ステップS71)。
辞書登録表現生成部60は、次のルールがあると判定した場合は(ステップS71のYES)、ステップS68の処理に戻って正規表現生成第2ルールデータベースにおける1段下のルールを取得する。また、辞書登録表現生成部60が次のルールがないと判定した場合は(ステップS71のNO)、辞書登録表現生成部60は、辞書登録表現生成結果を確定する。
If it is determined as “NO” after the process of step S70 or the process of step S69, the dictionary registration expression generation unit 60 determines whether there is a next rule in the regular expression generation second rule database (step S71).
If it is determined that there is the next rule (YES in step S71), the dictionary registration expression generation unit 60 returns to the process in step S68 and acquires the next lower rule in the regular expression generation second rule database. When the dictionary registration expression generation unit 60 determines that there is no next rule (NO in step S71), the dictionary registration expression generation unit 60 determines the dictionary registration expression generation result.

図17に示したように、除外表現処理部66により出力された辞書登録該当表現が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」である場合、この記述における「/問題\[名詞\]」は図14に示した正規表現生成第2ルールデータベースの一行目の形態素解析結果正規表現パターン「/(問題|トラブル)\[名詞\]」とマッチするので、辞書登録表現生成部64は、ステップS70の処理により、辞書登録該当表現の記述の先頭の「/問題\[名詞\]」を図14に示した正規表現生成第2ルールデータベースの一行目の形態素解析結果正規表現パターンと関連付けられる辞書登録表現「/(問題|トラブル)\[名詞\]」に変換する。 As shown in FIG. 17, the corresponding expression registered in the dictionary output by the excluded expression processing unit 66 is “/ problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \]-". [A-n] * \ [utilization ending \] ", the" / problem \ [noun \] "in this description is the normal result of the morphological analysis in the first line of the regular expression generation second rule database shown in FIG. Since it matches the expression pattern “/ (problem | trouble) \ [noun \]”, the dictionary registration expression generation unit 64 performs the process of step S70 to add “/ problem \ [noun \” at the beginning of the description of the corresponding dictionary registration expression. ] ”Is converted into a dictionary registered expression“ / (problem | trouble) \ [noun \] ”associated with the regular expression pattern in the first line of the regular expression generation second rule database shown in FIG.

さらに、図17に示したように、除外表現処理部66により出力された辞書登録該当表現の記述における「/な\[形容詞\]」は図14に示した正規表現生成第2ルールデータベースの二行目の形態素解析結果正規表現パターン「/(な|無)\[形容詞\]」とマッチするので、辞書登録表現生成部64は、ステップS70の処理により、辞書登録該当表現の記述の「/な\[形容詞\]」を図14に示した正規表現生成第2ルールデータベースの二行目の形態素解析結果正規表現パターンと関連付けられる辞書登録表現「/(な|無)\[形容詞\]」に変換する。   Further, as shown in FIG. 17, “/ na \ [adjectives \]” in the description of the corresponding dictionary registered output outputted by the excluded expression processing unit 66 is the second in the regular expression generation second rule database shown in FIG. Since the morphological analysis result of the line matches the regular expression pattern “/ (NA | NONE) \ [Adjective \]”, the dictionary registration expression generation unit 64 performs “// "\ (Adjective \]" is the dictionary registered expression "/ (NA | NONE) \ [adjective \]" associated with the regular expression pattern of the second morpheme analysis result in the second rule database of the regular expression generation shown in FIG. Convert to

このような変換がなされることで、図17に示すように、辞書登録表現生成部60の辞書登録表現生成部64は、辞書登録該当表現の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」をもとに、辞書登録表現生成結果(該当表現)の記述「/(問題|トラブル)\[名詞\]-[はもが]\[付属語\]/(な|無)\[形容詞\]-[あ-ん]*\[活用語尾\]」を得る。 By performing such conversion, as shown in FIG. 17, the dictionary registration expression generation unit 64 of the dictionary registration expression generation unit 60 describes the description “/ problem \ [noun \]-[mohama] of the dictionary registration corresponding expression. ) \ [Adjunct \] / na \ [adjective \]-[an-] * \ [utilization ending \] ", the description of the dictionary registration expression generation result (corresponding expression)" / (problem | Trouble) \ [Noun \]-[Hamoga] \ [Adjunct \] / (Na | None) \ [Adjectives \]-[Ahn] * \ [Utilized ending \] ".

さらに、図17に示したように、除外表現処理部66により出力された辞書登録除外表現が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」である場合、この記述における「/問題\[名詞\]」は図14に示した正規表現生成第2ルールデータベースの一行目の形態素解析結果正規表現パターン「/(問題|トラブル)\[名詞\]」とマッチするので、辞書登録表現生成部64は、ステップS70の処理により、辞書登録除外表現の記述の先頭の「/問題\[名詞\]」を図14に示した正規表現生成第2ルールデータベースの一行目の形態素解析結果正規表現パターンと関連付けられる辞書登録表現「/(問題|トラブル)\[名詞\]」に変換する。   Further, as shown in FIG. 17, the dictionary registration exclusion expression output by the exclusion expression processing unit 66 is “/ problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \". ]-(Not | Kazuzazu) \ [Utilized ending \] ", the" / problem \ [noun \] "in this description is the morpheme in the first line of the regular expression generation second rule database shown in FIG. Since the analysis result matches the regular expression pattern “/ (problem | trouble) \ [noun \]”, the dictionary registration expression generation unit 64 performs “S / problem \” at the beginning of the description of the dictionary registration exclusion expression by the process of step S70. [Noun \] "is converted into the dictionary registered expression" / (problem | trouble) \ [noun \] "associated with the regular expression pattern of the morphological analysis result of the first line of the regular expression generation second rule database shown in FIG. .

さらに、図17に示したように、除外表現処理部66により出力された辞書登録除外表現の記述における「/な\[形容詞\]」は図14に示した正規表現生成第2ルールデータベースの二行目の形態素解析結果正規表現パターン「/(な|無)\[形容詞\]」とマッチするので、辞書登録表現生成部64は、ステップS70の処理により、辞書登録除外表現の記述の「/な\[形容詞\]」を図14に示した正規表現生成第2ルールデータベースの二行目の形態素解析結果正規表現パターンと関連付けられる辞書登録表現「/(な|無)\[形容詞\]」に変換する。   Further, as shown in FIG. 17, “/ na \ [adjectives \]” in the description of the dictionary registration exclusion expression output by the exclusion expression processing unit 66 is the second in the regular expression generation second rule database shown in FIG. Since the morpheme analysis result of the line matches the regular expression pattern “/ (NA | NONE) \ [adjective \]”, the dictionary registration expression generation unit 64 performs the process of step S70 to describe “// "\ (Adjective \]" is the dictionary registered expression "/ (NA | NONE) \ [adjective \]" associated with the regular expression pattern of the second morpheme analysis result in the second rule database of the regular expression generation shown in FIG. Convert to

つまり、図17に示すように、辞書登録表現生成部60の辞書登録表現生成部64は、辞書登録除外表現の記述「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」をもとに、辞書登録表現生成結果(除外表現)の記述「/(問題|トラブル)\[名詞\]-[はもが]\[付属語\]/(な|無)\[形容詞\]-(くない|からず)\[活用語尾\]」を得る。以上で、ステップS11の処理の詳細の説明を終わる。   That is, as illustrated in FIG. 17, the dictionary registration expression generation unit 64 of the dictionary registration expression generation unit 60 performs the description of the dictionary registration exclusion expression “/ problem \ [noun \]-[hamamo] \ [attached word \]”. Based on / na \ [adjective \]-(not | deletion | kazuzazu) \ [utilization ending \] ", the description of the dictionary registration expression generation result (exclusion expression)" / (problem | trouble) \ [noun \] -[Hamoga] \ [Adjunct \] / (Na | None) \ [Adjectives \]-(Not | Kazurashi) \ [Utilized ending \] ". This is the end of the detailed description of the processing in step S11.

制御部11は、辞書登録表現生成部60から出力された辞書登録表現生成結果をユーザ向け出力生成部15へ出力する。
以後は、第1の実施形態で説明したステップS5以降の処理に移行する。図18は、本発明の第2の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理によるデータ遷移の一例を示す図である。
The control unit 11 outputs the dictionary registration expression generation result output from the dictionary registration expression generation unit 60 to the user output generation unit 15.
Thereafter, the process proceeds to step S5 and subsequent steps described in the first embodiment. FIG. 18 is a diagram showing an example of data transition by the output generation process for the user by the dictionary construction support apparatus according to the second embodiment of the present invention.

以上説明したように、第2の実施形態にしたがった文書処理装置の辞書構築支援装置は、第1の実施形態で説明した処理に加え、同義語や表記ゆれにも対応した辞書登録表現を得ることができるので、辞書情報の精度がより向上する。   As described above, the dictionary construction support device of the document processing device according to the second embodiment obtains a dictionary registration expression corresponding to synonyms and notation fluctuations in addition to the processing described in the first embodiment. Therefore, the accuracy of the dictionary information is further improved.

(第3の実施形態)
次に、本発明の第3の実施形態について説明する。図19は、本発明の第3の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図である。
本発明の第3の実施形態にしたがった辞書構築支援装置1の記憶装置12は、第1の実施形態と比較して、出力ルール記憶部32に替えて、作成済みの文書データの集合である文書データベースを記憶するための文書データ記憶部34を有する。
また、辞書構築支援装置1は、第1の実施形態と異なり、ユーザ向け出力生成部15の替わりに、ユーザ向け出力抽出部70を備える。ユーザ向け出力抽出部70は、文書取得部71、マッチ判定部72およびリスト生成部73を有する。これらの機能については後述する。
(Third embodiment)
Next, a third embodiment of the present invention will be described. FIG. 19 is a block diagram showing a configuration example of the dictionary construction support device of the document processing device according to the third embodiment of the present invention.
The storage device 12 of the dictionary construction support device 1 according to the third embodiment of the present invention is a set of already created document data, instead of the output rule storage unit 32, as compared with the first embodiment. A document data storage unit 34 for storing a document database is provided.
Further, unlike the first embodiment, the dictionary construction support apparatus 1 includes a user output extraction unit 70 instead of the user output generation unit 15. The user output extraction unit 70 includes a document acquisition unit 71, a match determination unit 72, and a list generation unit 73. These functions will be described later.

次に、本発明の第3の実施形態にしたがった文書処理装置の処理動作について説明する。この実施形態では、第1の実施形態で説明したステップS1からS3の処理の実行後、ステップS4の処理であるユーザ向け出力生成処理の替わりにユーザ向け出力抽出処理を行なう。   Next, the processing operation of the document processing apparatus according to the third embodiment of the present invention will be described. In this embodiment, the user output extraction process is performed instead of the user output generation process which is the process of step S4 after the execution of the processes of steps S1 to S3 described in the first embodiment.

図20は、本発明の第3の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理の一例を示すフローチャートである。
ユーザ向け出力抽出部70は、ユーザ向け出力抽出処理を行なうために、正規表現生成部14による出力結果である辞書登録該当表現および辞書登録除外表現をそれぞれユーザ向け出力該当表現初期状態およびユーザ向け出力除外表現初期状態とする(ステップS81)。
ユーザ向け出力抽出部70の文書取得部71は、記憶装置12の文書データ記憶部34に文書データベースに含まれる第一の文書データを取得する(ステップS82)。
FIG. 20 is a flowchart showing an example of an output generation process for a user by the dictionary construction support apparatus according to the third embodiment of the present invention.
The user output extraction unit 70 outputs the dictionary registration corresponding expression and the dictionary registration exclusion expression, which are output results from the regular expression generation unit 14, to the user output corresponding expression initial state and the user output, respectively, in order to perform the user output extraction process. The excluded expression initial state is set (step S81).
The document acquisition unit 71 of the user output extraction unit 70 acquires the first document data included in the document database in the document data storage unit 34 of the storage device 12 (step S82).

次に、ユーザ向け出力抽出部70のマッチ判定部72は、取得済み文書データの記述が、ステップS51の処理結果であるユーザ向け出力該当表現初期状態やユーザ向け出力除外表現初期状態の記述にマッチするか否かを判定する(ステップS83)。   Next, the match determination unit 72 of the user output extraction unit 70 matches the description of the acquired document data with the description of the user output corresponding expression initial state or the user output exclusion expression initial state as the processing result of step S51. It is determined whether or not to perform (step S83).

ユーザ向け出力抽出部70のリスト生成部73は、ステップS83の処理で「YES」と判定した場合は、取得済みの文書データの記述のうち、ユーザ向け出力該当表現初期状態およびユーザ向け出力除外表現初期状態の記述とマッチする記述を、ユーザ向け出力抽出結果として出力する(ステップS84)。
ユーザ向け出力抽出部70は、ステップS84の処理後またはステップS83の処理で「NO」と判定した場合で、次の文書があると判定した場合は(ステップS85のYES)、ステップS82の処理に戻って文書データベースにおける次の文書を取得し、取得した文書に対してステップS83以降の処理を行う。
If the list generation unit 73 of the user output extraction unit 70 determines “YES” in the process of step S83, the user output corresponding expression initial state and the user output exclusion expression in the acquired description of the document data. A description that matches the description in the initial state is output as an output extraction result for the user (step S84).
If the user-oriented output extraction unit 70 determines “NO” after the process in step S84 or in the process in step S83, and determines that there is a next document (YES in step S85), the user output extraction unit 70 proceeds to the process in step S82. Returning, the next document in the document database is acquired, and the processing from step S83 is performed on the acquired document.

例えば、文書データ記憶部34に記憶される文書データベースに「問題はない」、「問題もなかった」、「問題がなくて」、「問題はなくない」、「問題がなくない」との記述がそれぞれ含まれており、ユーザ向け出力該当表現初期状態の記述が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」でユーザ向け出力除外表現初期状態の記述が「/問題\[名詞\]-[はもが]\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」である場合、文書データ中の「問題はない」、「問題もなかった」、「問題がなくて」がユーザ向け出力該当表現初期状態の記述にマッチするので、リスト生成部73は、ステップS84の処理により、ユーザ向け出力抽出結果の該当表現として「問題はない」、「問題もなかった」、「問題がなくて」を出力する。 For example, a description of “no problem”, “no problem”, “no problem”, “no problem”, “no problem” in the document database stored in the document data storage unit 34 Is included, and the description of the corresponding output initial state for the user is "/ problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \]-[an] * The description of the initial state of output exclusion expression for users is \ / problem \ [noun \]-[hamamo] \ [adjunct \] / na \ [adjective \]-(not | Kazuzazu) \ [Usage Suffix \] "," No problem "," No problem ", and" No problem "in the document data match the description of the output corresponding expression initial state for the user Therefore, the list generation unit 73 performs “no problem”, “no problem”, and “no problem” as corresponding expressions of the output extraction result for the user by the process of step S84. Forces.

また、文書データ中の「問題はなくない」、「問題がなくない」を形態素解析処理した結果がユーザ向け出力除外表現初期状態の記述にマッチするので、リスト生成部73は、ステップS84の処理により、ユーザ向け出力抽出結果の除外表現として「問題はなくない」、「問題がなくない」を出力する。   Further, since the result of the morphological analysis processing of “no problem” and “no problem” in the document data matches the description of the output exclusion expression initial state for the user, the list generation unit 73 performs the process of step S84. Thus, “no problem” and “no problem” are output as exclusion expressions for the output extraction result for the user.

また、ユーザ向け出力抽出部70は、文書データ記憶部34に含まれる文書データの記述のうち、出力するユーザ向け出力抽出結果の記述を含む文である表現例を、当該表現例が記述される文書データのIDとあわせた情報として抽出する。ユーザ向け出力抽出部70は、ステップS84の処理結果であるユーザ向け出力抽出結果の該当表現、除外表現、および表現例の情報を、入出力インタフェース16を介してユーザ端末装置2に出力する。   Further, the user output extraction unit 70 describes an expression example, which is a sentence including a description of the output extraction result for the user to be output, among the descriptions of the document data included in the document data storage unit 34. It is extracted as information combined with the document data ID. The user output extraction unit 70 outputs information on the corresponding expression, the excluded expression, and the expression example of the user output extraction result, which is the processing result of step S84, to the user terminal device 2 via the input / output interface 16.

ユーザ端末装置2の通信インタフェース25が、辞書構築支援装置1からのユーザ向け出力抽出結果および表現例を入力すると、制御部21は、この情報を記憶装置22に記憶する。制御部21は、記憶装置22に記憶されたユーザ向け出力抽出結果の該当表現、除外表現、および表現例を取得し、入力辞書構造と合わせて、表示装置23に出力する。
図21は、本発明の第3の実施形態にしたがったユーザ端末装置にて表示されるユーザ向け出力画面の一例を示す図である。
When the communication interface 25 of the user terminal device 2 inputs the user output extraction result and expression example from the dictionary construction support device 1, the control unit 21 stores this information in the storage device 22. The control unit 21 acquires the corresponding expression, the excluded expression, and the expression example of the output extraction result for the user stored in the storage device 22, and outputs them to the display device 23 together with the input dictionary structure.
FIG. 21 is a diagram showing an example of an output screen for the user displayed on the user terminal device according to the third embodiment of the present invention.

以上説明したように、本発明の第3の実施形態にしたがった文書処理装置の辞書構築支援装置1は、ユーザ向け出力抽出部70が、正規表現生成部14の出力結果と作成済み文書データとのパターンマッチ処理を実施し、マッチした表現をユーザ向け出力として出力する。よって、第1の実施形態のようにユーザ向け出力生成ルールデータベースを構築しなくても、正規表現生成部14による処理結果をもとにユーザ向け出力の表現を抽出することが可能となる。このユーザ向け出力の表現は、正規表現をもとに生成されたものではなく、文書データ記憶部34に記憶される作成済み文書データの記述そのものであるので、第1の実施形態と比較して、ユーザにより理解されやすい出力を得ることが可能となる。   As described above, in the dictionary construction support device 1 of the document processing device according to the third embodiment of the present invention, the user output extraction unit 70 includes the output result of the regular expression generation unit 14, the created document data, The pattern matching process is executed, and the matched expression is output as an output for the user. Therefore, it is possible to extract a user output expression based on the processing result by the regular expression generation unit 14 without constructing a user output generation rule database as in the first embodiment. This representation of the output for the user is not generated based on the regular expression, but is a description of the prepared document data stored in the document data storage unit 34, so that it is compared with the first embodiment. It becomes possible to obtain an output that can be easily understood by the user.

ところで、図21に示したような画面上で該当表現もしくは除外表現として出力される表現は、文字コード順で並べてもよく、文書データ記憶部34に記憶される文書データ中でマッチした数の多い順に並べてもよい。また、文書データ記憶部34に記憶される文書データでマッチした数が予め設定した数値以上である場合のみを出力対象としてもよい。   By the way, the expressions output as the corresponding expressions or the excluded expressions on the screen as shown in FIG. 21 may be arranged in the character code order, and the number of matches in the document data stored in the document data storage unit 34 is large. You may arrange in order. Further, only the case where the number of matches in the document data stored in the document data storage unit 34 is equal to or greater than a preset numerical value may be output.

(第4の実施形態)
次に、本発明の第4の実施形態について説明する。図22は、本発明の第4の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図である。
本発明の第4の実施形態にしたがった文書処理装置の辞書構築支援装置1は、第1の実施形態と比較して、辞書登録表現を確認するための検索処理を行なうための検索処理部18をさらに備える。検索処理部18は、辞書登録表現取得部81と辞書登録表現マッチ判定部82を有する。
(Fourth embodiment)
Next, a fourth embodiment of the present invention will be described. FIG. 22 is a block diagram showing a configuration example of the dictionary construction support device of the document processing device according to the fourth embodiment of the present invention.
Compared to the first embodiment, the dictionary construction support apparatus 1 of the document processing apparatus according to the fourth embodiment of the present invention performs a search processing unit 18 for performing a search process for confirming a dictionary registration expression. Is further provided. The search processing unit 18 includes a dictionary registration expression acquisition unit 81 and a dictionary registration expression match determination unit 82.

図23は、本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録判別処理の一例を示すフローチャートである。この辞書登録判別処理は、第1の実施形態で説明したような辞書情報の構築およびユーザ向け出力の後になされる処理である。図24は、本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録判別処理によるデータ遷移の一例を示す図である。
まず、ユーザ端末装置2の入力装置24に対する操作により辞書情報の登録有無確認用のユーザ指定文字列を含む辞書構造が入力されると、制御部21はこの文書データを記憶装置22に記憶する。
制御部21は、入力装置24に辞書情報の登録有無確認要求にかかる操作がなされると、記憶装置22に記憶された登録有無確認用のユーザ指定文字列を含む辞書構造からユーザ指定文字列を取得し、通信インタフェース25を介して辞書構築支援装置1に出力する。
辞書構築支援装置1の入出力インタフェース16がユーザ端末装置2からのユーザ指定文字列を入力すると、形態素解析部13はこのユーザ指定文字列を形態素解析し、文字列を単語に区切り、品詞を付与する(ステップS91)。
FIG. 23 is a flowchart illustrating an example of a dictionary registration determination process by the dictionary construction support apparatus according to the fourth embodiment of the present invention. This dictionary registration determination process is a process performed after the dictionary information is constructed and output for the user as described in the first embodiment. FIG. 24 is a diagram showing an example of data transition by dictionary registration determination processing by the dictionary construction support apparatus according to the fourth embodiment of the present invention.
First, when a dictionary structure including a user-specified character string for checking whether or not dictionary information is registered is input by an operation on the input device 24 of the user terminal device 2, the control unit 21 stores this document data in the storage device 22.
When an operation relating to a registration information confirmation request for dictionary information is performed on the input device 24, the control unit 21 obtains a user-specified character string from the dictionary structure including the user-specified character string for registration presence / absence confirmation stored in the storage device 22. It is acquired and output to the dictionary construction support apparatus 1 via the communication interface 25.
When the input / output interface 16 of the dictionary construction support apparatus 1 inputs a user-specified character string from the user terminal device 2, the morpheme analysis unit 13 performs morphological analysis on the user-specified character string, divides the character string into words, and gives parts of speech. (Step S91).

次に、検索処理部18の辞書登録表現取得部81は、記憶装置12に記憶された辞書情報から、1行分の情報を取得する(ステップS92)。そして、辞書登録表現マッチ判定部82は、取得済みの辞書登録該当表現および辞書登録除外表現がユーザ入力文字列の形態素解析結果のそれぞれとマッチするか判定する(ステップS93)。
辞書登録表現マッチ判定部82は、ステップS93の処理でマッチすると判定した場合には(ステップS93のYES)、辞書登録該当表現および辞書登録除外表現のうちマッチする表現とマッチしない表現に区別して記憶装置12のバッファ領域に保存し、マッチ結果を示すメッセージ情報を生成する(ステップS94)。
Next, the dictionary registration expression acquisition unit 81 of the search processing unit 18 acquires information for one line from the dictionary information stored in the storage device 12 (step S92). Then, the dictionary registration expression match determination unit 82 determines whether the acquired dictionary registration corresponding expression and dictionary registration exclusion expression match each of the morphological analysis results of the user input character string (step S93).
If the dictionary registration expression match determination unit 82 determines that there is a match in the process of step S93 (YES in step S93), the dictionary registration expression match determination unit 82 distinguishes and stores the expression that does not match the matching expression among the dictionary registration corresponding expression and the dictionary registration exclusion expression. The message information indicating the match result is generated in the buffer area of the device 12 (step S94).

検索処理部18は、ステップS94の処理後またはステップS93の処理で「NO」と判定した場合は、辞書情報に次の辞書行があるかを判定する(ステップS95)。
検索処理部18は、次の辞書行があると判定した場合は(ステップS95のYES)、ステップS92の処理に戻って辞書情報における1段下の表現を取得する。また、検索処理部18は、次の辞書行がないと判定した場合は(ステップS95のNO)、辞書情報の全ての行に関する処理が終了したとして、バッファ領域に保存された情報を、入力文字列の辞書構造およびマッチ結果を示すメッセージ情報と関連付けた検索処理結果を生成する。検索処理部18は、この検索処理結果をもとに、ユーザ向けの辞書登録検索処理結果を生成して、入出力インタフェース16を介してユーザ端末装置2に出力する。
When it is determined “NO” after the process of step S94 or the process of step S93, the search processing unit 18 determines whether there is a next dictionary line in the dictionary information (step S95).
If the search processing unit 18 determines that there is a next dictionary line (YES in step S95), the search processing unit 18 returns to the process in step S92 and acquires the expression one step lower in the dictionary information. If the search processing unit 18 determines that there is no next dictionary line (NO in step S95), the search processing unit 18 determines that the processing related to all the lines of the dictionary information has been completed, and uses the information stored in the buffer area as input characters. A search processing result associated with the dictionary information of the column and message information indicating the match result is generated. The search processing unit 18 generates a dictionary registration search process result for the user based on the search process result, and outputs it to the user terminal device 2 via the input / output interface 16.

ユーザ端末装置2の通信インタフェース25が、辞書構築支援装置1からのユーザ向け出力該当表現およびユーザ向け出力除外表現を入力すると、制御部21は、この情報を記憶装置22に記憶する。制御部21は、記憶装置22に記憶されたユーザ向け出力該当表現およびユーザ向け出力除外表現を取得し、入力辞書構造と合わせて、表示装置23に出力する(ステップS5)。   When the communication interface 25 of the user terminal device 2 receives the user output corresponding expression and the user output exclusion expression from the dictionary construction support apparatus 1, the control unit 21 stores this information in the storage device 22. The control unit 21 acquires the user output corresponding expression and the user output exclusion expression stored in the storage device 22, and outputs them to the display device 23 together with the input dictionary structure (step S5).

ユーザ指定文字列が「マシントラブルもなくない」であって、概念クラスが「良い」で、キー概念が「問題なし」である場合で、辞書情報の1行目の該当表現が「/(問題|トラブル)\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-[あ-ん]*\[活用語尾\]」で、除外表現が「/(問題|トラブル)\[名詞\]-(は|も|が)\[付属語\]/な\[形容詞\]-(くない|からず)\[活用語尾\]」である場合には、入力文字列は、辞書情報の1行目の除外表現にマッチする。この場合の検索処理結果は、図24に示すように、辞書該当行「1」、概念クラス、キー概念、辞書該当行の該当表現、辞書該当行の除外表現、およびマッチ結果「除外表現にマッチ」となる。 When the user-specified character string is “no machine trouble”, the concept class is “good”, and the key concept is “no problem”, the corresponding expression on the first line of the dictionary information is “/ (problem). | Trouble) \ [noun \]-(ha | mo | ga) \ [adjunct \] / na \ [adjectives \]-[a-n] * \ [utilization ending \] " (Problem | Trouble) \ [Noun \]-(Ha | Mor |) \ [Adjunct \] / Na \ [Adjective \]-(Not | Karazazu) \ [Utilization End \] " The input character string matches the exclusion expression on the first line of the dictionary information. As shown in FIG. 24, the search processing result in this case includes the dictionary corresponding line “1”, the concept class, the key concept, the corresponding expression of the corresponding dictionary line, the excluded expression of the corresponding dictionary line, and the match result “matched excluded expression”. "

この結果、ユーザ端末装置2への表示対象、つまりユーザ向けの辞書登録検索処理結果は、ユーザ指定文字列「マシントラブルもなくない」および出力メッセージ「概念クラス『良い』、キー概念『問題なし』の除外表現として『トラブルもなくない』が登録されています。」となる。   As a result, the display target on the user terminal device 2, that is, the dictionary registration search processing result for the user, the user-specified character string “no machine trouble” and the output message “concept class“ good ”, key concept“ no problem ” "There is no trouble" is registered as an exclusion expression. "

ここで、辞書登録検索処理の変形例について説明する。図25は、本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録検索処理結果の一例を示す図である。
本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録検索処理結果は、図24に示したような構成に限らず、図25に示すように、辞書情報のうち登録有無確認用の入力文字列に該当する行の該当表現および除外表現の記述に対し、ユーザ向け出力生成部15によるユーザ向け出力の該当表現および除外表現の生成、およびこれらの表現に対し、第1の実施形態で説明したステップS5の処理である記号削除およびステップS6の処理である正規表現OR展開を行なって得たユーザ向け出力該当表現、ユーザ向け出力除外表現をユーザ指定文字列、概念クラスおよびキー概念と合わせて出力してもよい。
Here, a modified example of the dictionary registration search process will be described. FIG. 25 is a diagram showing an example of a dictionary registration search process result by the dictionary construction support apparatus according to the fourth embodiment of the present invention.
The dictionary registration search processing result by the dictionary construction support apparatus according to the fourth embodiment of the present invention is not limited to the configuration shown in FIG. 24, but as shown in FIG. For the description of the corresponding expression and the excluded expression of the line corresponding to the input character string, the generation of the corresponding expression and the excluded expression of the user output by the user output generation unit 15, and the first embodiment for the generation of these expressions The user-applicable output expressions and user-excluded expressions obtained by performing the symbol deletion process of step S5 and the regular expression OR expansion process of step S6 described in step S5 are user-specified character strings, concept classes, and key concepts. You may output together.

また、図20に示した例は、出力される辞書登録行が1行の場合を示しているが、出力される辞書登録行は複数でもよい。さらに、複数行が出力される場合は、辞書情報として登録された順番で出力するだけではなくて、本発明の第3の実施形態で説明したような作成済みの文書データを検索し、マッチする文書数が多い順番でソートして出力してもよい。   The example shown in FIG. 20 shows a case where the number of dictionary registration lines to be output is one, but there may be a plurality of dictionary registration lines to be output. Further, when a plurality of lines are output, not only the order of registration as dictionary information is output, but also the created document data as described in the third embodiment of the present invention is searched and matched. You may sort and output in order with the largest number of documents.

以上説明したように、本発明の第4の実施形態にしたがった文書処理装置の辞書構築支援装置1は、第1の実施形態で説明した処理に加え、検索処理部18の処理により、ユーザが辞書情報として登録しようとしている表現が既に登録されているか否かを検索するので、ユーザは、辞書情報に登録しようとしている表現が既に登録されているか否かを容易に確認することが可能となる。   As described above, the dictionary construction support apparatus 1 of the document processing apparatus according to the fourth embodiment of the present invention allows the user to execute the search processing unit 18 in addition to the process described in the first embodiment. Since it is searched whether or not the expression to be registered as dictionary information has already been registered, the user can easily confirm whether or not the expression to be registered in the dictionary information has already been registered. .

なお、各実施形態では、辞書構築支援装置およびユーザ端末装置を用いて辞書構築を行なうと説明したが、辞書構築支援装置およびユーザ端末装置の機能をすべて有する単一の装置を用いて辞書構築を行ってもよい。   In each embodiment, it has been described that the dictionary construction is performed using the dictionary construction support device and the user terminal device. However, the dictionary construction is performed using a single device having all the functions of the dictionary construction support device and the user terminal device. You may go.

なお、この発明は前記実施形態そのままに限定されるものではなく実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を省略してもよい。更に、異なる実施形態に亘る構成要素を適宜組み合せてもよい。   The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, some components may be omitted from all the components shown in the embodiment. Furthermore, you may combine suitably the component covering different embodiment.

また、実施形態に記載した手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウェア手段)として、例えば磁気ディスク(フレキシブルディスク、ハードディスク等)、光ディスク(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ等)等の記録媒体に格納し、また通信媒体により伝送して頒布することもできる。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウェア手段(実行プログラムのみならずテーブルやデータ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウェア手段を構築し、このソフトウェア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスクや半導体メモリ等の記憶媒体を含むものである。   In addition, the method described in the embodiment is a program (software means) that can be executed by a computer (computer), such as a magnetic disk (flexible disk, hard disk, etc.), an optical disk (CD-ROM, DVD, MO, etc.), It can be stored in a recording medium such as a semiconductor memory (ROM, RAM, flash memory, etc.), or transmitted and distributed by a communication medium. Note that the program stored on the medium side includes a setting program that configures in the computer software means (including not only the execution program but also a table and data structure) to be executed by the computer. A computer that implements this apparatus reads a program recorded on a recording medium, constructs software means by a setting program as the case may be, and executes the processing described above by controlling the operation by this software means. The recording medium referred to in this specification is not limited to distribution, but includes a storage medium such as a magnetic disk or a semiconductor memory provided in a computer or a device connected via a network.

本発明の第1の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図。1 is a block diagram showing a configuration example of a dictionary construction support device of a document processing device according to a first embodiment of the present invention. 本発明の第1の実施形態にしたがった文書処理装置のユーザ端末装置の構成例を示すブロック図。1 is a block diagram showing a configuration example of a user terminal device of a document processing device according to a first embodiment of the present invention. 本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶される正規表現生成ルールデータベースの構成例を表形式で示す図。The figure which shows the structural example of the regular expression production | generation rule database memorize | stored in the memory | storage device of the dictionary construction assistance apparatus according to the 1st Embodiment of this invention in a table format. 本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶されるユーザ向け出力生成ルールデータベースの構成例を表形式で示す図。The figure which shows the structural example of the output generation rule database for users memorize | stored in the memory | storage device of the dictionary construction assistance apparatus according to the 1st Embodiment of this invention in a table format. 本発明の第1の実施形態にしたがった文書処理装置の処理動作の一例を示すフローチャート。5 is a flowchart showing an example of processing operation of the document processing apparatus according to the first embodiment of the present invention. 本発明の第1の実施形態にしたがった辞書構築支援装置が入力する指定文字列を含む辞書構造の一例を示す図。The figure which shows an example of the dictionary structure containing the designated character string which the dictionary construction assistance apparatus according to the 1st Embodiment of this invention inputs. 本発明の第1の実施形態にしたがった辞書構築支援装置による正規表現生成処理の一例を示すフローチャート。The flowchart which shows an example of the regular expression production | generation process by the dictionary construction assistance apparatus according to the 1st Embodiment of this invention. 本発明の第1の実施形態にしたがった辞書構築支援装置による正規表現生成処理によるデータ遷移の一例を示す図。The figure which shows an example of the data transition by the regular expression production | generation process by the dictionary construction assistance apparatus according to the 1st Embodiment of this invention. 本発明の第1の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理の一例を示すフローチャート。The flowchart which shows an example of the output production | generation process for users by the dictionary construction assistance apparatus according to the 1st Embodiment of this invention. 本発明の第1の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理によるデータ遷移の一例を示す図。The figure which shows an example of the data transition by the output production | generation process for users by the dictionary construction assistance apparatus according to the 1st Embodiment of this invention. 本発明の第1の実施形態にしたがったユーザ端末装置にて表示されるユーザ向け出力画面の一例を示す図。The figure which shows an example of the output screen for users displayed on the user terminal device according to the first embodiment of the present invention. 本発明の第1の実施形態にしたがった辞書構築支援装置に保存される辞書情報の一例を示す図。The figure which shows an example of the dictionary information preserve | saved at the dictionary construction assistance apparatus according to the 1st Embodiment of this invention. 本発明の第2の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図。The block diagram which shows the structural example of the dictionary construction assistance apparatus of the document processing apparatus according to the 2nd Embodiment of this invention. 本発明の第1の実施形態にしたがった辞書構築支援装置の記憶装置に記憶される正規表現生成第2ルールデータベースの構成例を表形式で示す図。The figure which shows the structural example of the regular expression production | generation 2nd rule database memorize | stored in the memory | storage device of the dictionary construction assistance apparatus according to the 1st Embodiment of this invention in a table format. 本発明の第2の実施形態にしたがった文書処理装置の処理動作の一例を示すフローチャート。10 is a flowchart showing an example of processing operation of the document processing apparatus according to the second embodiment of the present invention. 本発明の第2の実施形態にしたがった辞書構築支援装置による辞書登録表現生成処理の一例を示すフローチャート。The flowchart which shows an example of the dictionary registration expression production | generation process by the dictionary construction assistance apparatus according to the 2nd Embodiment of this invention. 本発明の第2の実施形態にしたがった辞書構築支援装置による辞書登録表現生成処理によるデータ遷移の一例を示す図。The figure which shows an example of the data transition by the dictionary registration expression production | generation process by the dictionary construction assistance apparatus according to the 2nd Embodiment of this invention. 本発明の第2の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理によるデータ遷移の一例を示す図。The figure which shows an example of the data transition by the output production | generation process for users by the dictionary construction assistance apparatus according to the 2nd Embodiment of this invention. 本発明の第3の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図。The block diagram which shows the structural example of the dictionary construction assistance apparatus of the document processing apparatus according to the 3rd Embodiment of this invention. 本発明の第3の実施形態にしたがった辞書構築支援装置によるユーザ向け出力生成処理の一例を示すフローチャート。The flowchart which shows an example of the output production | generation process for users by the dictionary construction assistance apparatus according to the 3rd Embodiment of this invention. 本発明の第3の実施形態にしたがったユーザ端末装置にて表示されるユーザ向け出力画面の一例を示す図。The figure which shows an example of the output screen for users displayed on the user terminal device according to the 3rd Embodiment of this invention. 本発明の第4の実施形態にしたがった文書処理装置の辞書構築支援装置の構成例を示すブロック図。The block diagram which shows the structural example of the dictionary construction assistance apparatus of the document processing apparatus according to the 4th Embodiment of this invention. 本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録判別処理の一例を示すフローチャート。The flowchart which shows an example of the dictionary registration discrimination | determination process by the dictionary construction assistance apparatus according to the 4th Embodiment of this invention. 本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録判別処理によるデータ遷移の一例を示す図。The figure which shows an example of the data transition by the dictionary registration discrimination | determination process by the dictionary construction assistance apparatus according to the 4th Embodiment of this invention. 本発明の第4の実施形態にしたがった辞書構築支援装置による辞書登録検索処理結果の一例を示す図。The figure which shows an example of the dictionary registration search process result by the dictionary construction assistance apparatus according to the 4th Embodiment of this invention.

符号の説明Explanation of symbols

1…辞書構築支援装置、2…ユーザ端末装置、11,21…制御部、12,22…記憶装置、13…形態素解析部、14…正規表現生成部、15…ユーザ向け出力生成部、16…入出力インタフェース、17,26…バス、23…表示装置、24…入力装置、25…通信インタフェース、31…正規表現ルール記憶部、32…出力ルール記憶部、33…正規表現第2ルール記憶部、34…文書データ記憶部、41,51,61…ルール取得部、42,52,62…マッチ判定部、43,63…辞書登録表現変換部、44,64…除外表現判定部、45,65…除外表現処理部、53…出力変換部、54…形態素解析記号処理部、55…正規表現展開処理部、60…辞書登録表現生成部、70…ユーザ向け出力抽出部、81…辞書登録表現取得部、82…辞書登録表現マッチ判定部。   DESCRIPTION OF SYMBOLS 1 ... Dictionary construction assistance apparatus, 2 ... User terminal device, 11, 21 ... Control part, 12, 22 ... Memory | storage device, 13 ... Morphological analysis part, 14 ... Regular expression production | generation part, 15 ... Output generation part for users, 16 ... Input / output interface, 17, 26 ... bus, 23 ... display device, 24 ... input device, 25 ... communication interface, 31 ... regular expression rule storage unit, 32 ... output rule storage unit, 33 ... regular expression second rule storage unit, 34 ... Document data storage unit, 41, 51, 61 ... Rule acquisition unit, 42, 52, 62 ... Match determination unit, 43, 63 ... Dictionary registration expression conversion unit, 44, 64 ... Exclusion expression determination unit, 45, 65 ... Exclusion expression processing unit, 53... Output conversion unit, 54... Morpheme analysis symbol processing unit, 55... Regular expression expansion processing unit, 60 ... dictionary registration expression generation unit, 70. , 82 ... dictionary registration expression match determination unit.

Claims (4)

形態素解析正規表現パターンと辞書登録正規表現パターンとを関連付けて記憶する第1のパターン記憶手段と、
前記辞書登録正規表現パターンと出力用正規表現パターンとを関連付けて記憶する第2のパターン記憶手段と、
辞書情報への登録用の文字列を入力する入力手段と、
前記入力した文字列の形態素解析処理を行なう形態素解析手段と、
前記形態素解析結果のうち、前記第1のパターン記憶手段に記憶される形態素解析正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる辞書登録正規表現パターンに変換する第1の変換手段と、
前記第1の変換手段による変換結果のうち、前記第2のパターン記憶手段に記憶される辞書登録正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる出力用正規表現パターンに変換する第2の変換手段と、
前記第2の変換手段による変換結果の記述を、正規表現を含まない記述に変換する第3の変換手段と、
前記第3の変換手段による変換結果を出力する出力手段と
を備えたことを特徴とする辞書構築支援装置。
First pattern storage means for storing a morphological analysis regular expression pattern and a dictionary registered regular expression pattern in association with each other;
Second pattern storage means for storing the dictionary registered regular expression pattern and the output regular expression pattern in association with each other;
An input means for inputting a character string for registration in dictionary information;
Morpheme analysis means for performing morpheme analysis processing of the input character string;
Of the morpheme analysis result, a first conversion unit that converts a portion that matches a morpheme analysis regular expression pattern stored in the first pattern storage unit into a dictionary registered regular expression pattern that is associated with the matching pattern; ,
Of the conversion result by the first conversion means, a part that matches the dictionary registered regular expression pattern stored in the second pattern storage means is converted into an output regular expression pattern that is associated with the matching pattern. Two conversion means;
Third conversion means for converting the description of the conversion result by the second conversion means into a description not including a regular expression;
A dictionary construction support apparatus comprising: output means for outputting a conversion result obtained by the third conversion means.
形態素解析正規表現パターンと辞書登録正規表現パターンとを関連付けて記憶するパターン記憶手段と、
作成済みの文書情報を記憶する文書情報記憶手段と、
辞書情報への登録用の文字列を入力する入力手段と、
前記入力した文字列の形態素解析処理を行なう形態素解析手段と、
前記形態素解析結果のうち、前記パターン記憶手段に記憶される形態素解析正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる辞書登録正規表現パターンに変換する変換手段と、
前記文書情報記憶手段に記憶される文書情報のうち前記変換手段による変換結果と適合する記述を抽出する抽出手段と、
前記抽出手段による抽出結果を出力する出力手段と
を備えたことを特徴とする辞書構築支援装置。
Pattern storage means for storing a morphological analysis regular expression pattern and a dictionary registered regular expression pattern in association with each other;
Document information storage means for storing the created document information;
An input means for inputting a character string for registration in dictionary information;
Morpheme analysis means for performing morpheme analysis processing of the input character string;
Of the morpheme analysis results, a conversion unit that converts a portion that matches the morphological analysis regular expression pattern stored in the pattern storage unit into a dictionary registered regular expression pattern that is associated with the matching pattern;
Extraction means for extracting a description that matches the conversion result by the conversion means from the document information stored in the document information storage means;
A dictionary construction support apparatus comprising: output means for outputting an extraction result by the extraction means.
前記第2の変換手段による変換結果である辞書登録正規表現パターンを前記入力した文字列に関わる辞書情報として記憶する辞書情報記憶手段と、
前記辞書情報への登録有無確認用の文字列を入力する第2の入力手段と、
前記第2の入力手段により入力した文字列が前記辞書情報記憶手段に記憶される辞書情報の辞書登録正規表現パターンと適合するか否かを判別する判別手段と、
前記判別手段による判別結果を出力する判別結果出力手段とをさらに備えた
ことを特徴とする請求項1に記載の辞書構築支援装置。
Dictionary information storage means for storing a dictionary registration regular expression pattern as a conversion result by the second conversion means as dictionary information related to the input character string;
Second input means for inputting a character string for confirming whether or not to register in the dictionary information;
Discriminating means for discriminating whether or not the character string input by the second input means matches the dictionary registration regular expression pattern of the dictionary information stored in the dictionary information storage means;
The dictionary construction support apparatus according to claim 1, further comprising: a discrimination result output unit that outputs a discrimination result by the discrimination unit.
形態素解析正規表現パターンと辞書登録正規表現パターンとを関連付けて記憶する第1のパターン記憶手段と、前記辞書登録正規表現パターンと出力用正規表現パターンとを関連付けて記憶する第2のパターン記憶手段とを備えたコンピュータを制御するためのプログラムであって、
前記コンピュータを、
辞書情報への登録用の文字列を入力する入力手段、
前記入力した文字列の形態素解析処理を行なう形態素解析手段、
前記形態素解析結果のうち、前記第1のパターン記憶手段に記憶される形態素解析正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる辞書登録正規表現パターンに変換する第1の変換手段、
前記第1の変換手段による変換結果のうち、前記第2のパターン記憶手段に記憶される辞書登録正規表現パターンに適合する部分を、当該適合するパターンと関連付けられる出力用正規表現パターンに変換する第2の変換手段、
前記第2の変換手段による変換結果の記述を、正規表現を含まない記述に変換する第3の変換手段、
前記第3の変換手段による変換結果を出力する出力手段として機能させるようにした辞書構築支援プログラム。
First pattern storage means for storing a morphological analysis regular expression pattern and a dictionary registered regular expression pattern in association with each other; and a second pattern storage means for storing the dictionary registration regular expression pattern and an output regular expression pattern in association with each other. A program for controlling a computer comprising:
The computer,
An input means for inputting a character string for registration in dictionary information,
Morphological analysis means for performing morphological analysis processing of the input character string,
Of the morpheme analysis result, a first conversion unit that converts a portion that matches the morpheme analysis regular expression pattern stored in the first pattern storage unit into a dictionary registered regular expression pattern that is associated with the matching pattern;
Of the conversion result by the first conversion means, a part that matches the dictionary registered regular expression pattern stored in the second pattern storage means is converted into an output regular expression pattern that is associated with the matching pattern. 2 conversion means,
Third conversion means for converting the description of the conversion result by the second conversion means into a description not including a regular expression;
A dictionary construction support program that functions as output means for outputting a conversion result by the third conversion means.
JP2007173412A 2007-06-29 2007-06-29 Dictionary construction support device and dictionary construction support program Withdrawn JP2009015395A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007173412A JP2009015395A (en) 2007-06-29 2007-06-29 Dictionary construction support device and dictionary construction support program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007173412A JP2009015395A (en) 2007-06-29 2007-06-29 Dictionary construction support device and dictionary construction support program

Publications (1)

Publication Number Publication Date
JP2009015395A true JP2009015395A (en) 2009-01-22

Family

ID=40356260

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007173412A Withdrawn JP2009015395A (en) 2007-06-29 2007-06-29 Dictionary construction support device and dictionary construction support program

Country Status (1)

Country Link
JP (1) JP2009015395A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208754A (en) * 2011-03-30 2012-10-25 Tokyo Electric Power Co Inc:The Information processing device, update method for updating database, and program for updating database
CN109376360A (en) * 2018-10-29 2019-02-22 广东小天才科技有限公司 Method and device for assisting in learning language
JP2020135095A (en) * 2019-02-14 2020-08-31 富士ゼロックス株式会社 Information processing device and program
JP2021527268A (en) * 2018-06-13 2021-10-11 オラクル・インターナショナル・コーポレイション User interface for regular expression generation
US11941018B2 (en) 2018-06-13 2024-03-26 Oracle International Corporation Regular expression generation for negative example using context

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208754A (en) * 2011-03-30 2012-10-25 Tokyo Electric Power Co Inc:The Information processing device, update method for updating database, and program for updating database
JP2021527268A (en) * 2018-06-13 2021-10-11 オラクル・インターナショナル・コーポレイション User interface for regular expression generation
JP7393358B2 (en) 2018-06-13 2023-12-06 オラクル・インターナショナル・コーポレイション User interface for regular expression generation
US11941018B2 (en) 2018-06-13 2024-03-26 Oracle International Corporation Regular expression generation for negative example using context
CN109376360A (en) * 2018-10-29 2019-02-22 广东小天才科技有限公司 Method and device for assisting in learning language
CN109376360B (en) * 2018-10-29 2023-10-20 广东小天才科技有限公司 Method and device for assisting in learning language
JP2020135095A (en) * 2019-02-14 2020-08-31 富士ゼロックス株式会社 Information processing device and program
JP7271987B2 (en) 2019-02-14 2023-05-12 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Similar Documents

Publication Publication Date Title
JP4940973B2 (en) Logical structure recognition processing program, logical structure recognition processing method, and logical structure recognition processing apparatus
KR20130111211A (en) Generating text manipulation programs using input-output examples
JPS6375835A (en) Apparatus for generating intended code, program, list and design document
JP4502615B2 (en) Similar sentence search device, similar sentence search method, and program
JP6417791B2 (en) Application test support apparatus, data processing method thereof, and program
JP2019021341A (en) Application test support apparatus, data processing method thereof, and program
KR20080086456A (en) Text editing method and system with find and replace function leveraging derivatives of find and replace input
JP2009015395A (en) Dictionary construction support device and dictionary construction support program
US7676357B2 (en) Enhanced Chinese character/Pin Yin/English translator
JP2010134922A (en) Similar word determination method and system
JP5600826B1 (en) Unstructured data processing system, unstructured data processing method and program
US20170010778A1 (en) Action design apparatus and computer readable medium
JP5718084B2 (en) Grammar creation support program for speech recognition
JP4845523B2 (en) Character processing apparatus, method, program, and recording medium
JP2010256977A (en) Information retrieval apparatus and program
US20250238593A1 (en) Computer-readable recording medium storing information processing program and information processing method
JP5600700B2 (en) Translation model generation apparatus, method, and program
JP2006031385A (en) Retrieval system by voice input and method and program
JP7790449B2 (en) Information processing device, information processing system, information processing method, and program
JP5097454B2 (en) Data input device, method, and program
JP2001109740A (en) Chinese document creation device and Chinese document creation method
JP6075042B2 (en) Language processing apparatus, language processing method, and program
JP5767784B2 (en) Information processing apparatus, character string candidate determination method, and program
JP6267971B2 (en) Source code analysis support device, source code analysis support method
JP4395620B2 (en) Display control apparatus and program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100907