[go: up one dir, main page]

JP2006004366A - Machine translation system and computer program therefor - Google Patents

Machine translation system and computer program therefor Download PDF

Info

Publication number
JP2006004366A
JP2006004366A JP2004182858A JP2004182858A JP2006004366A JP 2006004366 A JP2006004366 A JP 2006004366A JP 2004182858 A JP2004182858 A JP 2004182858A JP 2004182858 A JP2004182858 A JP 2004182858A JP 2006004366 A JP2006004366 A JP 2006004366A
Authority
JP
Japan
Prior art keywords
sentence
machine translation
input sentence
input
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004182858A
Other languages
Japanese (ja)
Inventor
Mitsuo Shimohata
光夫 下畑
Eiichiro Sumida
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004182858A priority Critical patent/JP2006004366A/en
Publication of JP2006004366A publication Critical patent/JP2006004366A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 翻訳可能な文の範囲を拡大できる機械翻訳装置を提供する。
【解決手段】 機械翻訳システム32は、入力文30を翻訳する機械翻訳システムであって、翻訳可能文からなるコーパス46と、入力文を翻訳する第1の機械翻訳装置42とを含む。機械翻訳装置は、訳文の訳質の指標を出力する。機械翻訳システム32はさらに、訳質が悪い場合には入力文30と類似した文をコーパス46から検索する類似文検索部48と、類似文検索部48により検索された文を翻訳する第2の機械翻訳装置50とを含む。
【選択図】 図1
PROBLEM TO BE SOLVED: To provide a machine translation device capable of expanding a range of sentences that can be translated.
A machine translation system (32) is a machine translation system for translating an input sentence (30), and includes a corpus (46) composed of translatable sentences and a first machine translation device (42) for translating the input sentence. The machine translation device outputs an index of the translation quality of the translation. The machine translation system 32 further includes a similar sentence search unit 48 that searches the corpus 46 for a sentence similar to the input sentence 30 when the translation quality is poor, and a second sentence that translates the sentence searched by the similar sentence search unit 48. Machine translation device 50.
[Selection] Figure 1

Description

この発明は機械翻訳技術に関し、特に、話し言葉のように機械翻訳が困難な文を多く含む原文に対する翻訳性能を向上させるための技術に関する。   The present invention relates to a machine translation technique, and more particularly to a technique for improving translation performance for an original sentence including many sentences that are difficult to machine translate such as spoken language.

音声翻訳は、音声発話をリアルタイムで翻訳して音声で出力することを目的とする。その構成技術には、音声認識、機械翻訳、及び音声合成がある。   The purpose of speech translation is to translate speech utterances in real time and output them as speech. The constituent technologies include speech recognition, machine translation, and speech synthesis.

音声翻訳における機械翻訳部は、音声認識部から出力される発話文を翻訳対象とする。しかしこれらの文は話し言葉特有の性質を有するため、その翻訳には困難が伴う。例えば、話し言葉発話には言いよどみ、言直し、繰返し、助詞省略などのような不適格性が多く出現する。これらの現象は形態素解析及び構文解析などの処理の精度低下を招く。加えて、話し言葉では様々な待遇表現が多用されるという点も言語現象を複雑にしている。例えば、話し言葉においては、「して下さい」「していただけませんか」「をお願いします」等と書き言葉ではあまり見られない様々な文末表現が出現する。   The machine translation unit in the speech translation uses the utterance sentence output from the speech recognition unit as a translation target. However, because these sentences have spoken language specific properties, their translation is difficult. For example, spoken language utterances often have ineligibility such as stagnation, rephrasing, repetition, and omission of particles. These phenomena lead to a decrease in accuracy of processing such as morphological analysis and syntax analysis. In addition, the language phenomenon is complicated by the fact that various treatment expressions are frequently used in spoken language. For example, in spoken language, various expressions appearing at the end of the sentence, such as “Please do”, “Can you please do it”, “Please do it”, etc.

また音声認識に由来する問題点として、音声認識部から得られる発話が翻訳処理に適した「文」であるとは限らないことが挙げられる。音声認識では無音区間により発話を分割する。しかし話し言葉では、文中に長い無音区間が出現したり、文と文との間に短い無音区間が出現したりすることが多い。そのため、音声認識部から得られる発話は、意味的にまとまりのある文とは限らない。   Further, as a problem derived from voice recognition, it is mentioned that the utterance obtained from the voice recognition unit is not necessarily a “sentence” suitable for translation processing. In speech recognition, utterances are divided by silent intervals. However, in spoken language, a long silent section often appears in a sentence, or a short silent section often appears between sentences. Therefore, the utterance obtained from the voice recognition unit is not necessarily a sentence that is semantically organized.

こうした問題を解決するための一つの手段は、いわゆる前処理と呼ばれる技術である。これは、機械翻訳に与える前に、機械翻訳に有利な文となるように入力文を書換える技術をいう。これはまた、前編集とも呼ばれる。   One means for solving these problems is a so-called pretreatment technique. This is a technique for rewriting an input sentence so as to become a sentence advantageous to machine translation before being given to machine translation. This is also called pre-editing.

前処理に関し、非特許文献1は、省略要素の補完、冗長表現の簡素化、構文組替えなどの変換規則を人手で作成し、入力文に適用することを試みている。また非特許文献2は、機械翻訳に与えられた長文の入力文を短文に分割することで機械翻訳の精度の向上を試みている。非特許文献3は、構文解析の失敗を導く現象として、倒置、省略、挿入、及び強調を取上げ、これらの現象を解消する書換え規則を適用することで構文解析の成功率向上を図っている。さらに非特許文献4は、表現の簡素化及び重要でない語の削除など、局所的な書換え規則を入力文に適用している。さらに非特許文献5は、無音区間の情報と、認識された発話のn−グラムとを利用して、意味的にまとまりのある文を得るために発話単位の接合及び分割を試みている。   Regarding preprocessing, Non-Patent Document 1 attempts to manually create conversion rules such as complement of omitted elements, simplification of redundant expressions, and syntax recombination, and apply them to input sentences. Non-Patent Document 2 attempts to improve the accuracy of machine translation by dividing a long input sentence given to machine translation into short sentences. Non-Patent Document 3 takes up inversion, omission, insertion, and emphasis as phenomena that lead to failure in parsing, and attempts to improve the success rate of parsing by applying rewrite rules that eliminate these phenomena. Furthermore, Non-Patent Document 4 applies local rewriting rules to the input sentence, such as simplification of expression and deletion of unimportant words. Furthermore, Non-Patent Document 5 attempts to join and divide utterance units in order to obtain semantically coherent sentences using silent section information and recognized utterance n-grams.

白井諭他3名、「日英機械翻訳における原文自動書き換え型翻訳方式とその効果」、情報処理学会論文誌、36(1)、12−21、1995年Satoshi Shirai and three others, "Automatic Rewriting Translation Method and Its Effects in Japanese-English Machine Translation", IPSJ Journal, 36 (1), 12-21, 1995 金淵培他1名、「日英機械翻訳のための日本語長文自動短文分割と主語の補完」、情報処理学会論文誌、35(6)、1018−1028、1994年Kim Jin-Hae et al., "Automatic short sentence segmentation and subject complementation for Japanese-English machine translation", Transactions of Information Processing Society of Japan, 35 (6), 1018-1028, 1994 吉見毅彦他2名、「頑健な英日機械翻訳システム実現のための原文自動前編集」、自然言語処理、7(4)、99−118、2000年Yasuhiko Yoshimi and two others, "Automatic text pre-editing for the realization of a robust English-Japanese machine translation system", Natural Language Processing, 7 (4), 99-118, 2000 ヤマモト、K.、「パラフレーザとトランスファとの相互作用による機械翻訳」、第19回計算機言語国際大会(COLING−2002)、pp.1107−1113、2002年(Yamamoto, K., "Machine Translation by Interaction between Paraphraser and Transfer." In Proc. of the 19th International Conference on Computational Linguistics (COLING-2002), pp. 1107-1113, 2002.)Yamamoto, K. et al. "Machine Translation by Interaction between Parafraser and Transfer", 19th International Computer Language Convention (COLING-2002), pp. 1107-1113, 2002 (Yamamoto, K., "Machine Translation by Interaction between Paraphraser and Transfer." In Proc. Of the 19th International Conference on Computational Linguistics (COLING-2002), pp. 1107-1113, 2002.) 竹澤寿幸他1名、「発話単位の分割または接合による言語処理単位への変換手法」、自然言語処理、6(2)、80003−95、1999年Toshiyuki Takezawa and 1 other, "Conversion method to language processing units by dividing or joining speech units", natural language processing, 6 (2), 80003-95, 1999

タケザワ、T.他4名、「実世界における旅行会話の言語翻訳のための、広範囲のバイリンガルコーパスに向けて」第3回LREC−2002予稿集、pp.147−152、2002年(Takezawa, T. et al., "Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World", In Proc. of the 3rd LREC, pp. 147-152, 2002)Takezawa, T. Four others, “Towards a broad bilingual corpus for language translation of travel conversations in the real world”, 3rd LREC-2002 Proceedings, pp. 147-152, 2002 (Takezawa, T. et al., "Toward a Broad-coverage Bilingual Corpus for Speech Translation of Travel Conversations in the Real World", In Proc. Of the 3rd LREC, pp. 147-152, 2002 ) タケザワ、T.他1名、「コーパスベースの発話翻訳のための機械翻訳を用いた2言語対話の収集」、Eurospeech−2003、pp.2757−2760、2003年(Takezawa, T. et al., "Collecting Machine-Translation-Aided Bilingual Dialogues for Corpus-Based Speech Translation." In Eurospeech-2003, pp. 2757-2760, 2003)Takezawa, T. Another one, “Collecting bilingual dialogues using machine translation for corpus-based speech translation”, Eurospech-2003, pp. 2757-2760, 2003 (Takezawa, T. et al., "Collecting Machine-Translation-Aided Bilingual Dialogues for Corpus-Based Speech Translation." In Eurospeech-2003, pp. 2757-2760, 2003) キクイ、G.他3名、「発話間翻訳のためのコーパスの作成」、Eurospeech−2003予稿集、pp.381−384、2003(Kikui, G. et al., "Creating Corpora for Speech-to-Speech Translation." In Eurospeech-2003, pp. 381-384, 2003)Kikui, G. 3 other authors, “Creating a corpus for inter-utterance translation”, Eurospeech-2003 Proceedings, pp. 381-384, 2003 (Kikui, G. et al., "Creating Corpora for Speech-to-Speech Translation." In Eurospeech-2003, pp. 381-384, 2003)

しかし、上記した従来の技術では、前編集のための書換え規則を用意するために大きなコストがかかるという問題点がある。また、従来技術の大部分では、構文解析の情報も要するため、構文解析が正しく行なえないと正しい前処理を行なうことができないという問題点もある。話し言葉では、既に説明したように不適格性を含む入力文が大部分であり、構文解析の精度を高くすることはむずかしく、その点で上記した従来技術を話し言葉翻訳に有効に適用することは困難である。   However, the above-described conventional technique has a problem that a large cost is required to prepare a rewrite rule for pre-editing. In addition, since most of the prior art also requires syntax analysis information, there is a problem that correct preprocessing cannot be performed unless the syntax analysis can be performed correctly. In spoken language, the majority of input sentences with ineligibility are already explained, and it is difficult to improve the accuracy of parsing, and in that respect it is difficult to effectively apply the above-mentioned conventional technology to spoken language translation. It is.

それゆえに本発明の目的は、話し言葉のように不適格性を多く含む入力文を対象とする場合であっても翻訳可能な文の範囲を拡大できる機械翻訳システムを提供することである。   Therefore, an object of the present invention is to provide a machine translation system that can expand the range of sentences that can be translated even when an input sentence including many incompatibility such as spoken language is targeted.

本発明の第1の局面に係る機械翻訳システムは、第1の言語の入力文を第2の言語に翻訳するための機械翻訳システムであって、第2の言語への翻訳が可能であるとして予め選択された、第1の言語の複数の文を含む第1のコーパスと、入力文を第2の言語に翻訳するための第1の機械翻訳手段と、第1の機械翻訳手段による訳文の訳質の指標を出力するための指標出力手段と、指標出力手段の出力する指標が訳質が悪いことを示す所定の条件に合致することに応答して、入力文と所定の関係にある文を第1のコーパスから検索するための検索手段と、検索手段により検索された文を第2の言語に翻訳するための第2の機械翻訳手段とを含む。   The machine translation system according to the first aspect of the present invention is a machine translation system for translating an input sentence in a first language into a second language, and is capable of translation into the second language. A pre-selected first corpus including a plurality of sentences in a first language, a first machine translation means for translating an input sentence into a second language, and a translated sentence by the first machine translation means An index output means for outputting an index of translation quality, and a sentence in a predetermined relationship with the input sentence in response to the index output by the index output means meeting a predetermined condition indicating that the translation quality is poor Search means for searching from the first corpus, and second machine translation means for translating the sentence searched by the search means into the second language.

第1の機械翻訳手段の訳質の指標により訳質が悪い場合、入力文に対し所定の関係にある文を第1のコーパスから検索し、その文を第2の機械翻訳手段によって翻訳して入力文に対する訳文とする。第1のコーパス中の文は翻訳可能として選ばれた文であるから、第2の機械翻訳手段により翻訳できる可能性が高い。第1の機械翻訳手段の訳質が悪い場合でも、入力文と所定の関係にある文に対する翻訳で訳文が置換えられるので、訳質が悪い翻訳をそのまま出力することが避けられる。その結果、機械翻訳システムで翻訳可能な入力文の範囲を、第1の機械翻訳手段により翻訳可能な文の範囲と比較して広げることができる。   If the translation quality is poor due to the translation quality index of the first machine translation means, a sentence having a predetermined relationship with the input sentence is searched from the first corpus, and the sentence is translated by the second machine translation means. This is a translation for the input sentence. Since the sentence in the first corpus is a sentence selected as translatable, there is a high possibility that it can be translated by the second machine translation means. Even when the translation quality of the first machine translation means is poor, the translation is replaced by translation for a sentence having a predetermined relationship with the input sentence, so that it is possible to avoid outputting a translation with a poor translation quality as it is. As a result, the range of input sentences that can be translated by the machine translation system can be expanded compared with the range of sentences that can be translated by the first machine translation means.

好ましくは、検索手段は、指標出力手段の出力する指標が所定の条件に合致していることに応答して、入力文との間で所定の算出方式に従い算出される類似度によって最も入力文と類似していると判定される文を第1のコーパスから検索するための類似文検索手段を含む。   Preferably, in response to the fact that the index output by the index output means matches a predetermined condition, the search means determines that the input sentence is the most similar to the input sentence according to the similarity calculated between the input sentence and the input sentence according to a predetermined calculation method. Similar sentence search means for searching the sentence determined to be similar from the first corpus is included.

第1の機械翻訳手段による訳質が悪い場合、入力文に対し最も類似している文を第1のコーパスから検索しそれを第2の機械翻訳手段により翻訳する。入力文に最も類似している文を第2の機械翻訳手段で訳すため、その結果得られる訳文は入力文に対する訳文と同様の内容を表す。第1の機械翻訳手段による訳質の悪い翻訳をそのまま出さず、かつ第2の機械翻訳によって得られた、入力文とほぼ同じ内容の訳文を出力できる。   When the translation quality by the first machine translation means is poor, a sentence that is most similar to the input sentence is retrieved from the first corpus and translated by the second machine translation means. Since the sentence most similar to the input sentence is translated by the second machine translation means, the translation obtained as a result represents the same content as the translation for the input sentence. A translation having poor translation quality by the first machine translation means can be output as it is, and a translation having almost the same content as the input sentence obtained by the second machine translation can be output.

さらに好ましくは、類似文検索手段は、第1のコーパスに含まれる複数の文の各々と、入力文との間の共通部分に基づいて定義される類似度を算出するための類似度算出手段と、類似度算出手段により算出された類似度に基づき、最も入力文と類似していると判定された文を第1のコーパスより抽出するための手段とを含む。   More preferably, the similar sentence search means includes a similarity calculation means for calculating a similarity defined based on a common part between each of the plurality of sentences included in the first corpus and the input sentence. And means for extracting, from the first corpus, a sentence determined to be most similar to the input sentence based on the similarity calculated by the similarity calculation means.

入力文と第1のコーパスの各文とが類似しているか否かが、入力文との間の共通部分に基づいて定義される類似度で表される。実験結果から、このように定義した類似度により、入力文とよく似た内容の文を第1のコーパスから検索できることが分かっている。   Whether or not the input sentence and each sentence of the first corpus are similar is represented by a similarity defined based on a common part between the input sentence and the first sentence. From the experimental results, it is known that a sentence having a content very similar to the input sentence can be searched from the first corpus with the similarity defined as described above.

より好ましくは、類似度算出手段は、入力文の単語数、候補文の単語数、及び入力文及び候補文に共通する単語数を算出するための単語数算出手段と、入力文と、類似度の算出対象となる候補文との間の類似度を、次の式
適合率=(入力文と候補文に共通する単語数)/候補文の単語数
再現率=(入力文と候補文に共通する単語数)/入力文の単語数
で定義される適合率と再現率との双方の関数として算出するための手段を含む。
More preferably, the similarity calculation means includes a word number calculation means for calculating the number of words of the input sentence, the number of words of the candidate sentence, and the number of words common to the input sentence and the candidate sentence, the input sentence, The similarity between the candidate sentence that is the target of the calculation of the following formula: relevance rate = (number of words common to the input sentence and candidate sentence) / number of words in the candidate sentence recall = (common to input sentence and candidate sentence) The number of words to be calculated) / the number of words in the input sentence.

適合率と再現率との関数を用いれば、入力文と候補文との間で共通する部分の大きさを的確に表した類似度を算出できる。   By using the function of the relevance ratio and the recall ratio, it is possible to calculate a similarity that accurately represents the size of the common part between the input sentence and the candidate sentence.

単語数算出手段は、入力文の単語数、候補文の単語数、並びに入力文及び候補文に共通する単語数を、各単語の種類に従って予め定められる重みを乗じて算出するための手段を含んでもよい。   The word number calculation means includes means for calculating the number of words in the input sentence, the number of words in the candidate sentence, and the number of words common to the input sentence and the candidate sentence by multiplying by a predetermined weight according to the type of each word. But you can.

単語の種類によって、文の内容を表す際の重みを変える。その結果、例えば文の内容を表す上で重要な種類の単語と、そうでない単語との重みを区別でき、目的に応じて適切な候補文を検索するための類似度が算出できる。   Depending on the type of word, the weight for expressing the content of the sentence is changed. As a result, for example, it is possible to distinguish the weights of the types of words that are important in expressing the content of the sentence and the words that are not so, and to calculate the similarity for searching for an appropriate candidate sentence according to the purpose.

好ましくは、算出するための手段は、入力文の単語数、候補文の単語数並びに入力文及び候補文に共通する単語数を、内容語には予め定める第1の重みを、機能語には予め定める第2の重みを、それぞれ乗じて算出するための手段を含み、第2の重みは、第1の重みよりも小さな正の値である。   Preferably, the means for calculating includes the number of words in the input sentence, the number of words in the candidate sentence, the number of words common to the input sentence and the candidate sentence, a predetermined first weight for the content word, and a function word Means for multiplying each of the predetermined second weights by calculation is included, and the second weight is a positive value smaller than the first weight.

内容語の方が、機能語と比較して文の内容を表す上でより重要と考えられる。そこでこのように内容語に対する第1の重みを機能語に対する第2の重みより大きくすることで、文の内容に重点をおいて入力文に類似する候補文を検索できる。   Content words are considered more important for expressing the content of sentences compared to function words. Thus, by making the first weight for the content word larger than the second weight for the function word, candidate sentences similar to the input sentence can be searched with emphasis on the content of the sentence.

さらに好ましくは、単語数算出手段は、入力文の単語数、候補文の単語数、並びに入力文及び候補文に共通する単語数を、文中のn−グラム数(n>0)により算出するための手段を含む。nの値は実験により定めることが好ましく、例えばn=1でもよく、n=2でもよい。   More preferably, the word number calculating means calculates the number of words in the input sentence, the number of words in the candidate sentence, and the number of words common to the input sentence and the candidate sentence from the number of n-grams in the sentence (n> 0). Including means. The value of n is preferably determined by experiment. For example, n = 1 may be used, and n = 2 may be used.

このようにn−グラムによって単語数を算出すると良い結果が得られることが実験により分かっている。   Experiments have shown that good results can be obtained by calculating the number of words using n-grams.

好ましくは、単語数算出手段は、入力文の単語数及び候補文の単語数をそれぞれ算出するための手段と、入力文及び候補文に共通する単語数を、入力文及び候補文の双方に共通して、一致した順序で出現する単語数により算出するための手段とを含む。   Preferably, the word number calculating means shares the number of words common to the input sentence and the candidate sentence with respect to the means for calculating the number of words in the input sentence and the number of words in the candidate sentence, respectively. And means for calculating by the number of words appearing in the matched order.

共通単語数をこのように算出した場合にも比較的良い結果が得られることが実験により分かっている。   Experiments have shown that relatively good results can be obtained even when the number of common words is calculated in this way.

さらに好ましくは、類似度算出手段は、入力文と、候補文との間の類似度を以下の式
類似度=2×適合率×再現率/(適合率+再現率)
に従って算出するための手段を含む。
More preferably, the similarity calculation means calculates the similarity between the input sentence and the candidate sentence by the following expression: similarity = 2 × matching rate × recall rate / (matching rate + recall rate)
Means for calculating according to:

このようにして定めた類似度を用いて検索した文は、入力文に対し類似した内容を表すものであることが多いことが実験により分かった。従ってこの類似度を用いることで第1の機械翻訳手段では良好な翻訳が得られない場合でも、入力文と同様の内容を表す訳文を第2の機械翻訳手段の翻訳により得ることができる。   Experiments have shown that sentences searched using the similarity determined in this way often represent contents similar to the input sentence. Therefore, by using this similarity, even when the first machine translation means cannot obtain a good translation, a translation representing the same content as the input sentence can be obtained by translation of the second machine translation means.

より好ましくは、類似文検索手段はさらに、入力文に含まれない内容語を含む候補文を抽出するための手段による抽出の対象から除外するための手段を含む。   More preferably, the similar sentence search means further includes means for excluding the candidate sentence including the content word not included in the input sentence from the extraction target by the means for extracting.

このように入力文に含まれない内容語は、文の意味に対し不必要な限定を付加するものであることが多い。そうした内容語を含む候補文を除外することで、最終的に得られる訳文が入力文の内容を的確に伝えるものとなる確率を上げることができる。   Thus, content words that are not included in the input sentence often add unnecessary limitations to the meaning of the sentence. By excluding candidate sentences including such content words, it is possible to increase the probability that the finally obtained translated sentence accurately conveys the contents of the input sentence.

好ましくは、抽出するための手段は、類似度算出手段により算出された類似度に基づき、最も入力文と類似していると判定され、かつ入力文に含まれない内容語を含まない候補文であって、かつ以下の条件
(1)入力文に含まれる内容語のうち、候補文にない内容語が1語以内である、又は
(2)入力文と共通する内容語が2語以上である、
のいずれかを充足する候補文を第1のコーパスより抽出するための手段を含む。
Preferably, the means for extracting is a candidate sentence that is determined to be most similar to the input sentence based on the similarity calculated by the similarity calculation means and does not include a content word that is not included in the input sentence. And the following conditions: (1) Among the content words included in the input sentence, there are no more than one word in the candidate sentence, or (2) there are two or more content words in common with the input sentence ,
Means for extracting from the first corpus a candidate sentence that satisfies any of the above.

実験では、このような条件を付した場合に最もよい結果が得られた。   In the experiment, the best results were obtained under such conditions.

さらに好ましくは、第1の機械翻訳手段は、互いに良好な訳である第1の言語の文と第2の言語の文とからなる用例を複数個含む2言語用例コーパスと、所定の類似基準に従って入力文との間で最も類似している第1の言語の文を含む用例を2言語用例コーパスから検索するための手段と、検索するための手段により検索された第1の言語の文の対訳である第2の言語の文を、検索するための手段により検索された第1の言語の文及び入力文の間の相違に基づき修正することにより、入力文の翻訳を行なう用例翻訳手段とを含み、指標出力手段は、検索するための手段によって検索された第1の言語の文と入力文との間で定義される所定の類似度が、予め定める基準を充足しているか否かを判定し、判定結果を指標として出力するための手段を含む。   More preferably, the first machine translation means is in accordance with a bilingual example corpus including a plurality of examples including a sentence in the first language and a sentence in the second language, which are favorable translations, and a predetermined similarity criterion. Means for retrieving an example including a sentence in the first language most similar to the input sentence from the bilingual example corpus, and translation of the sentence in the first language retrieved by the means for retrieving An example translation means for translating an input sentence by correcting a sentence in the second language that is based on a difference between the sentence in the first language searched by the means for searching and the input sentence And the index output means determines whether or not a predetermined similarity defined between the sentence in the first language searched by the means for searching and the input sentence satisfies a predetermined criterion. And means for outputting the judgment result as an index Including.

第1の機械翻訳手段として用例翻訳手段を用いることで、用例翻訳における用例文検索の過程で得られた類似度を訳質の指標として用いることが可能になる。訳質を評価するために独立した機能モジュールは必要ない。   By using the example translation unit as the first machine translation unit, it is possible to use the similarity obtained in the example sentence search process in the example translation as an index of translation quality. No separate functional module is required to assess translation quality.

より好ましくは、第1の機械翻訳手段と第2の機械翻訳手段とが同一の機械翻訳手段により実現される。   More preferably, the first machine translation unit and the second machine translation unit are realized by the same machine translation unit.

第1の機械翻訳手段と第2の機械翻訳手段とを同一の機械翻訳手段により実現することで、翻訳に必要な資源の増大を防ぎながら、翻訳可能な文の範囲を広げることができる。   By realizing the first machine translation unit and the second machine translation unit using the same machine translation unit, it is possible to expand the range of sentences that can be translated while preventing an increase in resources necessary for translation.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの機械翻訳システムとして動作させるものである。   When executed by a computer, the computer program according to the second aspect of the present invention causes the computer to operate as one of the machine translation systems described above.

本実施の形態に係る機械翻訳システムは、音声翻訳において、翻訳が困難と判定される発話文について、予め準備した翻訳可能文のコーパスからその文に類似する文を検索することにより、機械翻訳可能な文の範囲を拡大させるシステムである。以下、この実施の形態に係る機械翻訳システムの構成及び動作の順に説明する。なお、以下の説明において同一の部品には同一の参照番号を付してある。それらの名称及び機能もそれぞれ同一である。従ってそれらについての詳細な説明は繰返さない。   The machine translation system according to the present embodiment is capable of machine translation by searching for a sentence similar to the sentence from a corpus of translatable sentences prepared in advance for an utterance sentence determined to be difficult to translate in speech translation. It is a system that expands the scope of simple sentences. Hereinafter, the configuration and operation of the machine translation system according to this embodiment will be described in order. In the following description, the same parts are denoted by the same reference numerals. Their names and functions are also the same. Therefore, detailed description thereof will not be repeated.

なお、以下の実施の形態のシステムの構成の説明中では、予備実験の結果に従って予め決定したパラメータ値を用いている。それらの予備実験は日本語を対象として行なっており、実験では2種類の日本語コーパスを用いた。入力文の集合である発話コーパスと、入力文との類似文を検索する基となる候補文の集合体である候補文コーパスとである。   In the following description of the system configuration of the embodiment, parameter values determined in advance according to the results of preliminary experiments are used. These preliminary experiments were conducted in Japanese, and two types of Japanese corpus were used in the experiments. An utterance corpus, which is a set of input sentences, and a candidate sentence corpus, which is a set of candidate sentences that serve as a basis for searching similar sentences to the input sentence.

発話コーパスには、旅行中のある状況を想定して行なわれた対話を書き起こして作成した発話コーパス(非特許文献7)から抽出した437文の異なり文を用いた(第1の発話コーパス)。非特許文献7の発話コーパスのうち、第1の発話コーパス以外の部分(第2の発話コーパス)は最後に説明する実験に使用している。候補文コーパスには、旅行会話の基本的な表現を収録したコーパス(非特許文献8記載)を使用した(第1の基本表現コーパス)。第1の基本表現コーパスには異なりで176,145文が含まれている。   As the utterance corpus, 437 different sentences extracted from the utterance corpus (Non-patent Document 7) created by writing a dialogue performed assuming a certain situation while traveling (first utterance corpus) are used. . Of the utterance corpus of Non-Patent Document 7, the part other than the first utterance corpus (second utterance corpus) is used in the experiment described last. As the candidate sentence corpus, a corpus (described in Non-Patent Document 8) containing basic expressions of travel conversation was used (first basic expression corpus). The first basic expression corpus is different and includes 176,145 sentences.

[構成]
図1は、本発明の一実施の形態に係る機械翻訳システム32のブロック図である。図1を参照して、この機械翻訳システム32は、日本語の入力文30を英語に翻訳することを試み、翻訳可能であれば出力文34を出力し、さらに翻訳が不可能であるか否かを示す翻訳可否信号36を出力するものである。後述するようにこの機械翻訳システム32は、コンピュータシステム及びその上で実行されるコンピュータプログラムにより実現可能である。
[Constitution]
FIG. 1 is a block diagram of a machine translation system 32 according to an embodiment of the present invention. Referring to FIG. 1, this machine translation system 32 attempts to translate a Japanese input sentence 30 into English, outputs an output sentence 34 if it can be translated, and whether or not further translation is possible. The translation availability signal 36 indicating that is output. As will be described later, the machine translation system 32 can be realized by a computer system and a computer program executed thereon.

機械翻訳システム32は、用例に基づく機械翻訳システム(用例翻訳システム)であって、日本語の文(これを用例文と呼ぶ。)とそれに対する英語の訳との対を多数含むコンピュータ読取可能な2言語用例コーパス(以下単に「用例コーパス」と呼ぶ。)40と、入力文30に類似する日本語文を用例コーパス40の中で検索し、検索された日本語文に対する英語訳を、入力文30と検索された用例文との相違に基づいて修正することによって入力文30の翻訳を行ない翻訳結果58を出力するとともに、検索された用例文と入力文30との類似度が所定の値を上回っているか否かを表す判定信号を出力するための機械翻訳装置42とを含む。なお機械翻訳装置42で使用する類似度は正の値であり、値が小さいほど用例文と入力文30とが類似していることを示す。   The machine translation system 32 is an example-based machine translation system (example translation system), and is computer-readable including a large number of pairs of Japanese sentences (referred to as example sentences) and corresponding English translations. A bilingual example corpus (hereinafter simply referred to as “example corpus”) 40 and a Japanese sentence similar to the input sentence 30 are searched in the example corpus 40, and an English translation of the searched Japanese sentence is referred to as an input sentence 30. The input sentence 30 is translated by correcting the difference based on the difference from the searched example sentence, and the translation result 58 is output. The similarity between the searched example sentence and the input sentence 30 exceeds a predetermined value. And a machine translation device 42 for outputting a determination signal indicating whether or not there is. The similarity used in the machine translation device 42 is a positive value, and the smaller the value, the more similar the example sentence and the input sentence 30 are.

本実施の形態では、用例翻訳を用いているため、入力文とよく似た用例文が見つかれば訳質の高い翻訳が得られる可能性が高い。用例文が入力文に似ていなければ、一般的に訳質が低くなる。そこで、この類似度を翻訳結果の訳質の指標として用いる。   Since the example translation is used in the present embodiment, it is highly possible that a translation with high translation quality can be obtained if an example sentence very similar to the input sentence is found. If the example sentence does not resemble the input sentence, the translation quality is generally low. Therefore, this similarity is used as an index of the translation quality of the translation result.

機械翻訳装置42は、この検索にあたって、入力文30と用例文との間の類似度を、単語を単位とした編集距離(入力文30を用例文に変換するまでに必要な、単語の削除、挿入、及び置換数)に基づいて算出する。従って本実施の形態では、一致する文同士の類似度は0となる。判定信号60は、検索された用例文の類似度が規定の基準を上回っている場合、すなわち検索された用例文と入力文30とがそれほど類似していない場合には論理1レベルとなり、それ以外の場合には論理0レベルとなる。さらにこの編集距離は、単語の意味的な距離により補正される。すなわち、意味的に近い関係にある2語の置換は、その意味的な距離が近いほど編集距離が小さくなるように補正される。機械翻訳システム32は、この補正処理を行なうために、コンピュータ読取可能なシソーラス44を含む。すなわち、意味的に近い関係にある2語の置換は、シソーラス上の各語の階層の差の大きさに応じて重みを減少させる。   In this search, the machine translation device 42 sets the similarity between the input sentence 30 and the example sentence to an edit distance in units of words (deletion of a word necessary for converting the input sentence 30 into an example sentence, Calculate based on the number of insertions and substitutions). Accordingly, in the present embodiment, the similarity between matching sentences is zero. The determination signal 60 is at a logic 1 level when the similarity of the searched example sentence exceeds a prescribed standard, that is, when the searched example sentence and the input sentence 30 are not very similar, otherwise In this case, the logic level is zero. Furthermore, this edit distance is corrected by the semantic distance of the word. In other words, replacement of two words that are close in meaning is corrected so that the edit distance decreases as the semantic distance decreases. The machine translation system 32 includes a computer-readable thesaurus 44 for performing this correction process. In other words, replacement of two words that are in a semantically close relationship reduces the weight according to the magnitude of the difference between the levels of each word on the thesaurus.

機械翻訳システム32はさらに、予め準備された、翻訳可能な文の集まりからなるコンピュータ読取可能な翻訳可能文コーパス46と、入力文30と判定信号60とを受けるように接続され、判定信号60が論理1レベルであるとき(すなわち機械翻訳装置42による翻訳が不可能と判定されたとき)に、入力文30に最も類似する文であってかつ類似度が所定の値より小さい類似文62を翻訳可能文コーパス46から検索して出力し、あわせて上記した条件を充足する類似文62が検索されたか否かを示す検索結果信号64を出力するための類似文検索部48とを含む。検索結果信号64は、上記した条件を充足する文があったときには論理0レベルをとり、なかったときには論理1レベルをとる。   The machine translation system 32 is further connected to receive a computer-readable translatable sentence corpus 46 comprising a set of translatable sentences prepared in advance, an input sentence 30 and a decision signal 60. When the logic level is 1 (that is, when it is determined that translation by the machine translation device 42 is impossible), the similar sentence 62 which is the most similar to the input sentence 30 and whose similarity is smaller than a predetermined value is translated. And a similar sentence search unit 48 for outputting a search result signal 64 indicating whether or not the similar sentence 62 satisfying the above-described conditions has been searched. The search result signal 64 takes a logic 0 level when there is a sentence satisfying the above condition, and takes a logic 1 level when there is no sentence.

機械翻訳システム32はさらに、用例コーパス40及び日本語シソーラス44に接続され、かつ機械翻訳装置42から判定信号60を、類似文検索部48から類似文62及び検索結果信号64を、それぞれ受けるように接続され、検索結果信号64が論理0レベルであるとき(すなわち所定の条件を充足する類似文62が検索されたとき)に、機械翻訳装置42と同様にして用例コーパス40及び日本語シソーラス44を用いて類似文62に対する用例翻訳を行ない、翻訳結果66及び翻訳ができたか否かを表す翻訳可否信号68を出力するための機械翻訳装置50とを含む。翻訳可否信号68は、機械翻訳装置50による翻訳が不可能である場合には論理1レベルをとり、可能である場合には論理0レベルをとる。翻訳可能文コーパス46に、機械翻訳装置50では翻訳できない文が入っている可能性もあるため、このように翻訳可否信号68により実際に機械翻訳装置50による翻訳ができたか否かを表示する。   The machine translation system 32 is further connected to the example corpus 40 and the Japanese thesaurus 44, and receives the determination signal 60 from the machine translation device 42, and the similar sentence 62 and the search result signal 64 from the similar sentence search unit 48, respectively. When the search result signal 64 is logic 0 level (that is, when a similar sentence 62 satisfying a predetermined condition is searched), the example corpus 40 and the Japanese thesaurus 44 are set in the same manner as the machine translation device 42. And a machine translation device 50 for performing an example translation on the similar sentence 62 and outputting a translation result 66 and a translation availability signal 68 indicating whether or not the translation is completed. The translation enable / disable signal 68 takes a logic 1 level when translation by the machine translation apparatus 50 is impossible, and takes a logic 0 level when translation is possible. Since there is a possibility that the translatable sentence corpus 46 contains a sentence that cannot be translated by the machine translation apparatus 50, the translation possibility signal 68 displays whether or not the translation by the machine translation apparatus 50 has actually been performed.

機械翻訳システム32はさらに、翻訳可否信号68と検索結果信号64とをそれぞれ受けるように接続された二つの入力を持つANDゲート54と、機械翻訳装置42からの翻訳結果58と機械翻訳装置50からの翻訳結果66とを受けるように接続され、判定信号60が論理0レベルのときは翻訳結果58を、それ以外のときには翻訳結果66を、それぞれ選択して出力文34として出力するための選択部52とを含む。   The machine translation system 32 further includes an AND gate 54 having two inputs connected to receive the translation enable / disable signal 68 and the search result signal 64, the translation result 58 from the machine translation device 42, and the machine translation device 50, respectively. A selection unit for selecting the translation result 58 when the determination signal 60 is at a logic 0 level, and selecting the translation result 66 when the determination signal 60 is at a logic 0 level and outputting it as the output sentence 34. 52.

図2は、図1に示す類似文検索部48による処理を説明するための模式図である。図2を参照して、一般に、機械翻訳システム32への入力文は、用例コーパス40(図1参照)を用いた用例翻訳が可能な文からなる翻訳可能文集合80と、翻訳が不可能な文からなる翻訳不能文集合82とに分けられる。図1に示す機械翻訳装置42による入力文30の翻訳が不能と判定された場合、すなわち入力文30が翻訳不能文集合82に属する場合、類似文検索部48の類似文検索技術84によって、予め準備した翻訳可能文コーパス46から、入力文30に類似した文を検索する。すなわち、類似文検索技術84は、翻訳不能文90、92、94、96、98等を、(もしあれば)それらに類似する翻訳可能文100、102、又は104に置換することにより、本来翻訳不能文であった入力文30の翻訳を可能とする技術である。これにより、機械翻訳システム32による翻訳可能な文の範囲が広がることになる。   FIG. 2 is a schematic diagram for explaining processing by the similar sentence search unit 48 shown in FIG. Referring to FIG. 2, generally, an input sentence to the machine translation system 32 includes a translatable sentence set 80 composed of sentences that can be used for example translation using the example corpus 40 (see FIG. 1), and cannot be translated. It is divided into a non-translatable sentence set 82 composed of sentences. When it is determined that the input sentence 30 cannot be translated by the machine translation device 42 shown in FIG. 1, that is, when the input sentence 30 belongs to the untranslatable sentence set 82, the similar sentence search technique 48 of the similar sentence search unit 48 performs in advance. A sentence similar to the input sentence 30 is searched from the prepared translatable sentence corpus 46. That is, the similar sentence search technique 84 replaces the non-translatable sentences 90, 92, 94, 96, 98, etc. with the translatable sentences 100, 102, or 104 similar to them (if any), thereby originally translating them. This is a technique that enables translation of an input sentence 30 that was an impossible sentence. As a result, the range of sentences that can be translated by the machine translation system 32 is expanded.

図3は、図1に示す類似文検索部48の構成を示す図である。図3を参照して、類似文検索部48は、入力文30と翻訳可能文コーパス46中の全ての文とを順次選択するための選択部110と、選択部110の出力する文に対して形態素解析を行なうための形態素解析部112と、形態素解析部112が形態素解析を行なう際に使用する単語情報を記憶するためのコンピュータ読取可能な辞書114と、形態素解析部112による入力文30の解析結果を第1の出力に、翻訳可能文コーパス46の各文の解析結果を第2の出力に、それぞれ分岐させるための分岐部116と、分岐部116の第1の出力に接続され、分岐部116から出力される入力文30の形態素解析結果を記憶するための入力文記憶部118と、分岐部116の第2の出力に接続され、翻訳可能文コーパス46の各文(以下「候補文」と呼ぶ。)に対する形態素解析結果と、入力文記憶部118に記憶された入力文30に対する形態素解析結果との間で類似度を算出するための類似度算出部120とを含む。   FIG. 3 is a diagram showing the configuration of the similar sentence search unit 48 shown in FIG. Referring to FIG. 3, the similar sentence search unit 48 selects the input sentence 30 and all the sentences in the translatable sentence corpus 46 in order, and the sentence output from the selection unit 110. A morpheme analysis unit 112 for performing morpheme analysis, a computer-readable dictionary 114 for storing word information used when the morpheme analysis unit 112 performs morpheme analysis, and an analysis of the input sentence 30 by the morpheme analysis unit 112 The branching unit 116 for branching the result to the first output and the analysis result of each sentence of the translatable sentence corpus 46 to the second output are connected to the first output of the branching unit 116. Each sentence (hereinafter “candidate sentence”) of the translatable sentence corpus 46 is connected to an input sentence storage unit 118 for storing the morphological analysis result of the input sentence 30 output from 116 and the second output of the branching unit 116. Comprising a morphological analysis result, the similarity calculating unit 120 for calculating a similarity between the morphological analysis result of the input sentence 30, which is stored in the input sentence storage section 118 for called.) And.

形態素解析部112が行なう形態素解析では、数字列は特殊記号を用いて汎化される。名詞には地名、組織名、人名などの属性情報が付与されるので、これらの名詞も属性情報を用いて汎化される。類似文検索処理で2語が一致していると認定されるためには、語の基本形か属性情報が一致し、かつ品詞も一致することが必要十分条件である。   In the morpheme analysis performed by the morpheme analysis unit 112, the numeric string is generalized using a special symbol. Since nouns are given attribute information such as place names, organization names, and personal names, these nouns are also generalized using the attribute information. In order to determine that two words match in the similar sentence search process, it is necessary and sufficient that the basic form or attribute information of the words match and the parts of speech also match.

本実施の形態では、類似度算出部120による類似度算出は、入力文30と候補文との間の共通部分が入力文30と候補文との双方に対して占める比率を基として行なう。共通部分が双方の文に対して占める比率が高いほど、入力文30に対するその候補文の類似度が高くなる。本実施の形態では、類似度としてF値を用いる。F値は以下の式(1)により定義される。   In the present embodiment, the similarity calculation by the similarity calculation unit 120 is performed based on the ratio of the common part between the input sentence 30 and the candidate sentence to both the input sentence 30 and the candidate sentence. The higher the ratio of the common part to both sentences, the higher the similarity of the candidate sentence with respect to the input sentence 30. In this embodiment, an F value is used as the similarity. The F value is defined by the following equation (1).

F値=2PR/(P+R) (1)
ただし
P(適合率)=入力文と候補文に共通する単語数/候補文の単語数
R(再現率)=入力文と候補文に共通する単語数/入力文の単語数
2文間の共通部分の定義としては、一般にn−グラム、単語列、単語集合の3方式がよく用いられる。本実施の形態では、n−グラムを用いて共通部分を定義する。この方式については後述する。
F value = 2PR / (P + R) (1)
However, P (relevance rate) = number of words common to input sentence and candidate sentence / number of words of candidate sentence R (reproduction rate) = number of words common to input sentence and candidate sentence / number of words of input sentence Common between two sentences In general, three methods of n-gram, word string, and word set are often used as the definition of the portion. In this embodiment, the common part is defined using n-grams. This method will be described later.

図3を参照して、本実施の形態ではさらに、共通する単語数の算出においては、内容語に対する機能語の重みを変えている。この重みは正の値である。またこの重みは可変であることが望ましい。そのために類似文検索部48は、類似度算出部120に接続され、機能語に対する重みを記憶し類似度算出部120に与えるための機能語重み記憶部128を含む。   Referring to FIG. 3, in the present embodiment, the weight of the function word with respect to the content word is changed in calculating the number of common words. This weight is a positive value. It is desirable that this weight is variable. For this purpose, the similar sentence search unit 48 includes a function word weight storage unit 128 that is connected to the similarity calculation unit 120 and stores weights for the function words and gives them to the similarity calculation unit 120.

類似文検索部48はさらに、類似度算出部120によって、翻訳可能文コーパス46に含まれる各文と入力文30との間で算出された類似度を形態素解析結果とともに記憶するための記憶部122と、入力文記憶部118に記憶された入力文30の形態素解析結果と、記憶部122に記憶された、翻訳可能文コーパス46の各文の形態素解析結果とに基づいて、入力文30にない内容語を含む候補文を除外する処理を行なうための除外処理部124と、除外処理部124による除外がされなかった候補文のうちで、入力文30に最も類似する候補文であって、かつ(1)入力文に含まれる内容語のうち、候補文にない内容語が1語以内であるか、又は(2)入力文と共通する内容語が2語以上であること、という条件を満たすものを類似文62として出力するとともに、上記条件を満たす類似文が存在したか否かを検索結果信号64として出力するための選択処理部126と、判定信号60の値が論理1レベルである場合に、類似文検索部48の各機能部を制御して、入力文30と最も類似する文を翻訳可能文コーパス46から検索するように動作させるためのシーケンス制御部130とを含む。   The similar sentence search unit 48 further stores a similarity calculated between each sentence included in the translatable sentence corpus 46 and the input sentence 30 by the similarity calculation unit 120 together with a morphological analysis result. And the input sentence 30 based on the morphological analysis result of the input sentence 30 stored in the input sentence storage unit 118 and the morpheme analysis result of each sentence of the translatable sentence corpus 46 stored in the storage unit 122. Of the candidate sentence that has not been excluded by the exclusion processing unit 124 for performing the process of excluding the candidate sentence including the content word, the candidate sentence that is most similar to the input sentence 30, and (1) Among the content words included in the input sentence, the condition words that the content word not included in the candidate sentence is one word or less, or (2) the content words common to the input sentence are two or more words are satisfied. Things are similar 6 And a selection processing unit 126 for outputting as a search result signal 64 whether or not there is a similar sentence satisfying the above conditions, and a similar sentence search when the value of the determination signal 60 is a logic 1 level. And a sequence control unit 130 for controlling each functional unit of the unit 48 to operate to search the translatable sentence corpus 46 for a sentence most similar to the input sentence 30.

類似文検索部48による類似文の検索では、上記したように様々な条件を課したり、特定の方式を採用したりしている。これは、実際に種々の実験をした結果、上記した条件を課したり方式を採用したりしたことにより得られた類似文から、最終的に入力文30に対する好ましい訳文を得ることができる可能性が高いということが判明したためである。以下、各条件について説明する。   In the similar sentence search by the similar sentence search unit 48, various conditions are imposed as described above, or a specific method is adopted. This is because there is a possibility that a favorable translation for the input sentence 30 can be finally obtained from similar sentences obtained by imposing the above-mentioned conditions and adopting the method as a result of actually performing various experiments. This is because it has been found that is high. Hereinafter, each condition will be described.

なお、以下の説明では類似文について種々の評価をしている。その評価基準を図4に示す。評価基準は、対話の場面においてどの程度まで入力文の代用文としての役割を果たすかという観点により定めた。図4に示すように、評価ランクは、代用できる度合いが高い順にA1,A2,B1,B2の4段階である。検索された文のうちA1,A2ランクの文が類似文として適切とされ、B1,B2の文は不適切とされる。   In the following description, various evaluations are made for similar sentences. The evaluation criteria are shown in FIG. The evaluation criteria were determined from the viewpoint of how much to serve as a substitute sentence for the input sentence in the dialogue scene. As shown in FIG. 4, the evaluation rank has four levels of A1, A2, B1, and B2 in descending order of the degree of substitution. Of the retrieved sentences, sentences of rank A1 and A2 are appropriate as similar sentences, and sentences of B1 and B2 are inappropriate.

図4中、「代用文としての評価」は、検索された文を入力文の代用文として用いた場合に果たす役割の目安を表す。代用文としての適性は主に「意味的差異」を判断基準とし、丁寧度などの副次的情報は評価対象としない。   In FIG. 4, “evaluation as a substitute sentence” represents an indication of a role to be played when a searched sentence is used as a substitute sentence of an input sentence. Appropriateness as a substitute sentence is mainly based on “semantic differences” and does not evaluate secondary information such as politeness.

評価例を図5に示す。例1の候補文は、表現の違いはあるものの入力文と同じ意味を表しており、評価はA1となる。例2の候補文は複文からなる入力文の主文部分であり、主要な部分を捉えているといえる。ただし、主文の要求の原因を示す副文が欠落しているために評価A2となる。例3の候補文は複文からなる入力文の副文部分であり、主要部分を表していないため評価B1となる。例4の候補文は主文を捉えているが重要な目的語が欠落しているため評価B1となる。例5の候補文は「明日は」という入力文にない条件を付加している。このような条件は、会話においては重大かつ発見が困難な誤解である。従って例5の評価はB2となる。例6の候補文はモダリティという基本レベルで入力文と異なるため、評価はB2となる。   An evaluation example is shown in FIG. The candidate sentence of Example 1 represents the same meaning as the input sentence although there is a difference in expression, and the evaluation is A1. The candidate sentence of Example 2 is the main sentence part of the input sentence composed of compound sentences, and can be said to capture the main part. However, since the sub sentence indicating the cause of the main sentence request is missing, the evaluation is A2. The candidate sentence of Example 3 is a sub-sentence part of the input sentence composed of compound sentences, and does not represent the main part, so the evaluation is B1. Although the candidate sentence of Example 4 captures the main sentence, it is evaluated as B1 because an important object is missing. The candidate sentence of Example 5 adds a condition not included in the input sentence “Tomorrow is”. Such a condition is a misunderstanding that is serious and difficult to find in conversation. Therefore, the evaluation of Example 5 is B2. Since the candidate sentence of Example 6 is different from the input sentence at the basic level of modality, the evaluation is B2.

<類似度算出方式>
類似文検索部48の類似度算出部120による類似度算出の基本方式として、前述したとおりF値を用いる。その差異の入力文と候補文との共通部分の定義として、n−グラム、単語列、又は単語集合を用いるものがある。本実施の形態ではn−グラムを用いている。以下、n−グラムを用いた類似度算出方式について説明する。
<Similarity calculation method>
As described above, the F value is used as a basic method of similarity calculation by the similarity calculator 120 of the similar sentence search unit 48. As a definition of the common part between the input sentence and the candidate sentence of the difference, there is one that uses an n-gram, a word string, or a word set. In this embodiment, n-grams are used. Hereinafter, a similarity calculation method using n-grams will be described.

n−グラムによる方式では、入力文と候補文とで共通するn−グラムを基に類似度を算出する。この算出では各n−グラムに対して重み付けを行なう。本実施の形態では、この重みとして、BLEUと呼ばれる翻訳文自動評価方式で採用されているものと同じ式を採用した。すなわち本実施の形態では、例えば適合率Pは以下の式で算出される。   In the n-gram method, the similarity is calculated based on the n-gram common to the input sentence and the candidate sentence. In this calculation, each n-gram is weighted. In the present embodiment, the same formula as that adopted in the translated sentence automatic evaluation method called BLEU is adopted as the weight. That is, in this embodiment, for example, the precision P is calculated by the following equation.

Figure 2006004366
ただしpnは各nにおける適合率を表しており、下式で表される。
Figure 2006004366
However p n represents the suitability index for each n, represented by the following formula.

Figure 2006004366
Count(x)は候補文x中の頻度、Countclip(x)は、入力文中のxの頻度と候補文中のxの頻度のいずれか少ない方を表す。再現率もこれと同様の考え方で算出される。
Figure 2006004366
Count (x) represents the frequency in the candidate sentence x, and Count clip (x) represents the lesser of the frequency of x in the input sentence or the frequency of x in the candidate sentence. The recall is also calculated using the same concept.

なお、本実施の形態ではn−グラムとしてバイグラムまでを用いる。nの大きさは、適用対象となる翻訳のドメインの性質(構成単語数)によって異なる。旅行会話などであれn=2まで、新聞記事などの場合であればn=4程度がよいと考えられる。   In this embodiment, up to bigrams are used as n-grams. The size of n varies depending on the nature (number of constituent words) of the translation domain to be applied. In the case of travel conversations and the like, up to n = 2, and in the case of newspaper articles, it is considered that n = 4 is good.

比較のため、類似度算出方式として、共通部分の定義として単語列を用いる方式(最長共通単語列に基づく方式)について説明する。この方式は、入力文と候補文との間でDP(Dynamic Programming)マッチングを行なって得られる最長共通単語列を利用して類似度を算出する。端的に言えば、語順を考慮した上での共通単語を抽出するという方式である。   For comparison, as a similarity calculation method, a method using a word string as a common part definition (a method based on the longest common word string) will be described. In this method, the similarity is calculated using the longest common word string obtained by performing DP (Dynamic Programming) matching between the input sentence and the candidate sentence. In short, it is a method of extracting a common word in consideration of the word order.

DPマッチングを利用した方式では、編集距離を用いる方式が多く用いられるが、ここでは「共通部分に基づく類似度」を基本としているため、この最長共通単語列について考える。編集距離と最長共通単語列は相補的な関係にあり、入力文との編集距離が最も大きい候補文は最長共通単語列が短くなるという性質がある。なお、予備実験において、編集距離に基づく方式と最長共通単語列に基づく方式とではほとんど性能差がないことが判明している。   In the method using DP matching, a method using an edit distance is often used, but here, since the “similarity based on the common part” is the basis, the longest common word string is considered. The edit distance and the longest common word string have a complementary relationship, and the candidate sentence having the longest edit distance from the input sentence has the property that the longest common word string becomes shorter. In preliminary experiments, it has been found that there is almost no performance difference between the method based on the edit distance and the method based on the longest common word string.

また、3基本方式のうち、単語集合に基づくものは、文を単語集合とみなし、入力文と候補文との両方で共通する単語数を共通部分とする方式である。この方式は、n−グラム方式においてn=1とした場合に相当する。   Of the three basic methods, a method based on a word set is a method in which a sentence is regarded as a word set and the number of words common to both the input sentence and the candidate sentence is a common part. This method corresponds to a case where n = 1 in the n-gram method.

図6に、各基本方式によるF値算出例を示す。なお、図6の単語列方式において、共通単語として「です」が除外されているが、これは「です」の位置が入力文と候補文との間で大きく異なっており、DPマッチングの過程で採用されなかったためである。   FIG. 6 shows an F value calculation example according to each basic method. In the word string method of FIG. 6, “Da” is excluded as a common word, but this is because the position of “Da” is greatly different between the input sentence and the candidate sentence. It was because it was not adopted.

<入力文にない内容語を含む候補文の除外>
除外処理部124では、入力文にない内容語を含んだ候補文は類似文として採用されず除外されている。これは、予備実験より、そのような候補文は入力文の代用とならない場合が多く生じることが判明したためである。余剰内容語を含む候補文は、入力文の文意をさらに限定したものであることが多く、その場合には入力文を候補文と置換えると誤解を生じる危険性が高い。
<Exclusion of candidate sentences containing content words that are not in the input sentence>
In the exclusion processing unit 124, candidate sentences including content words not included in the input sentence are excluded without being adopted as similar sentences. This is because preliminary experiments have shown that such candidate sentences often do not substitute for input sentences. In many cases, candidate sentences including surplus content words further limit the meaning of the input sentence. In this case, there is a high risk of misunderstanding if the input sentence is replaced with the candidate sentence.

図7に、余剰内容語を含むことで不適切となる候補文の例を示す。例1では、候補文には「現金」という内容語が加わり「クレジットカード」が欠落している。この例では、入力文と候補文との意味は全く異なったものとなっている。例2では、候補文の方に「七時」という内容語が追加されているが、これにより入力文の文意に重大な制約条件を付与してしまっている。例3の場合にも、候補文に加わっている「中華」という内容語は、入力文の文意に不適切な制約を課してしまっている。   FIG. 7 shows an example of a candidate sentence that becomes inappropriate by including surplus content words. In Example 1, the candidate sentence includes the content word “cash” and lacks “credit card”. In this example, the meanings of the input sentence and the candidate sentence are completely different. In example 2, the content word “seven o'clock” is added to the candidate sentence, which gives a serious constraint to the meaning of the input sentence. In the case of Example 3 as well, the content word “Chinese Chinese” added to the candidate sentence imposes inappropriate restrictions on the meaning of the input sentence.

上記した各基本方式について余剰内容語を含む候補文を検索対象とする方式(余剰内容語あり)としない方式(余剰内容語なし)で類似文を検索し、評価を行なった。ここで、内容語は名詞、動詞、形容詞、数字、ローマ字などと定義し、機能語は、判定詞、助詞、助動詞、接続詞、副詞、感動詞などと定義している。サ変動詞「する」はほとんど具体的意味を表していないと考えられるので、機能語として扱った。実験結果を図8に示す。   For each of the basic methods described above, similar sentences were searched and evaluated by a method (with surplus content words) and a method (with no surplus content words) in which candidate sentences including surplus content words are to be searched. Here, the content words are defined as nouns, verbs, adjectives, numbers, Roman letters, and the like, and the function words are defined as judgment words, particles, auxiliary verbs, conjunctions, adverbs, impression verbs, and the like. The sub-verb “suru” is considered to be a function word because it is considered to have little concrete meaning. The experimental results are shown in FIG.

図8を参照して、どの方式を用いても、余剰内容語を含まないという制約を課すことにより、検索精度に8%の改善が見られる。   Referring to FIG. 8, no matter which method is used, an improvement of 8% can be seen in the search accuracy by imposing a restriction that no surplus content word is included.

<内容語と機能語の重み付け>
話し言葉を対象として、共通単語により2文間の類似度を測る場合、内容語と比較すると機能語の価値は低いと考えられる。その理由として、話し言葉では助詞の欠落や多様な文末表現により表されるように、機能語の多様性が大きいことが挙げられる。同じ意味を表す機能語が多様な表現をとる場合、入力文と候補文との間における機能語の一致度の大小は有効な指標とはならない。また、旅行会話のように会話内容が大体定まっているドメインでは、含まれる内容語によりそれらの関係、格関係や修飾関係、はほとんど一意に定まることが多い。例えば、(泥棒、私、財布、盗む)という内容語を含む文には、理論的には様々な意味の文が考えられるが、実際には「泥棒が私の財布を盗んだ」という文以外はほとんど起こりえない。つまり、内容語集合により自ずとそれらの関係が限定されるなら、機能語の果たす役割は小さくなる。
<Weighting of content words and function words>
When measuring the similarity between two sentences using a common word for spoken language, it is considered that the value of the function word is low compared to the content word. The reason is that the spoken language has a large variety of function words, as indicated by the lack of particles and various end-of-sentence expressions. When function words representing the same meaning take various expressions, the magnitude of the degree of coincidence between the function words between the input sentence and the candidate sentence is not an effective index. Also, in a domain where conversation contents are roughly determined, such as travel conversations, the relations, case relations, and modification relations are often almost uniquely determined by the contained content words. For example, a sentence containing the content word (thief, me, purse, steal) can theoretically have various meanings, but it is actually a sentence other than "the thief stole my purse" Can hardly happen. That is, if the relationship is naturally limited by the content word set, the function word plays a smaller role.

以上から、類似文の検索のための類似度の算出においては、内容語に対する重みと比較すると機能語の重みを小さくすることが望ましいと考えられる。実際に、内容語の重みを1とし、機能語の重みを内容語と同じ1とした場合と0.4とした場合とで、検索精度を比較する実験を行なった。n−グラム方式のバイグラムにおいては、バイグラムを構成する2単語が共に機能語である場合だけ重みを0.4、それ以外の場合を1とした。実験結果を図9に示す。   From the above, in calculating the similarity for searching for similar sentences, it is considered desirable to reduce the weight of the function word as compared with the weight for the content word. Actually, an experiment was conducted in which the retrieval accuracy was compared between the case where the content word weight is 1 and the function word weight is 1 which is the same as the content word, and 0.4. In the bigram of the n-gram system, the weight is set to 0.4 only when the two words constituting the bigram are both function words, and 1 is set otherwise. The experimental results are shown in FIG.

図9を参照して、いずれの方式においても検索精度が1〜2%程度向上している。端的にいえば、機能語の重みを減らすことで主要な情報を多く共通する候補文を優先する効果がある。この効果が現れた事例を図10に示す。   Referring to FIG. 9, the search accuracy is improved by about 1 to 2% in any method. In short, reducing the weight of function words has an effect of giving priority to candidate sentences that share a lot of main information. An example in which this effect appears is shown in FIG.

図10において、検索文中の共通単語を太字で表している。機能語の重みを減らすことにより、文末部分が異なるものの主要な情報を全て含んだ文を出力することができている。   In FIG. 10, common words in search sentences are shown in bold. By reducing the weight of the function word, it is possible to output a sentence including all the main information although the sentence end portion is different.

実験により、基本方式にn−グラム方式を採用した上で、入力文にない内容語を含む候補文の除外と機能語の重み減少とを採用した場合に、最も高い正解率が得られた。本実施の形態の構成は、その場合に対応している。なお、この処理での機能語の重みの値(本実施の形態では0.4)は図3に示す機能語重み記憶部128に記憶される。   Through experiments, the highest accuracy rate was obtained when the n-gram method was adopted as the basic method, and the exclusion of candidate sentences including content words not included in the input sentence and the weight reduction of function words were adopted. The configuration of the present embodiment corresponds to that case. Note that the function word weight value (0.4 in this embodiment) in this process is stored in the function word weight storage unit 128 shown in FIG.

<選択処理部126による候補文の選択>
候補文の集合として用いる翻訳可能文コーパス46は、入力文30として現れる発話を全て網羅しているわけではない。翻訳可能文コーパス46中の文では代用できない入力文30が与えられる場合も多いと考えられる。従って、検索された文を類似文として認定する条件を設け、類似度が高い文であっても条件を満足しない場合は類似文として選択しないようにする必要がある。前述したとおり、選択処理部126は、次の二つの条件のいずれかを満たす候補文のみを類似文として選択する。以下、これら条件を採用した理由について説明する。
<Selection of candidate sentence by selection processing unit 126>
The translatable sentence corpus 46 used as a set of candidate sentences does not cover all utterances that appear as the input sentence 30. It is considered that there are many cases where the input sentence 30 that cannot be substituted by the sentence in the translatable sentence corpus 46 is given. Therefore, it is necessary to provide a condition for recognizing the retrieved sentence as a similar sentence and not select it as a similar sentence if the condition is not satisfied even if the sentence has a high degree of similarity. As described above, the selection processing unit 126 selects only candidate sentences satisfying one of the following two conditions as similar sentences. Hereinafter, the reason for adopting these conditions will be described.

(1)入力文と比較して候補文に不足している内容語の数が1語以下
(2)入力文と候補文とで共通する語数が2語以上
入力文では、入力文にない内容語を持つ候補文は除外するというヒューリスティックを導入した。従って、検索された候補文が持つ内容語集合は常に入力文30の内容語集合の部分集合である。検索された候補文の内容語集合を基に類似度を考えると、最も一致度が高いのは両文の内容語集合が一致する場合である。そして、検索された文に不足する内容語の数が増加するに従って類似度が下がっていく。
(1) The number of content words missing in the candidate sentence compared to the input sentence is one word or less. (2) The number of words common to the input sentence and the candidate sentence is two words or more. Introduced a heuristic to exclude candidate sentences with words. Therefore, the content word set included in the retrieved candidate sentence is always a subset of the content word set of the input sentence 30. Considering the similarity based on the content word set of the retrieved candidate sentences, the highest degree of coincidence is when the content word sets of both sentences match. Then, the similarity decreases as the number of content words lacking in the retrieved sentence increases.

検索された候補文について、入力文と比較して不足している内容語の数と、その正解率との関係を図11に示す。入力文と検索された候補文との間で内容語集合が一致している場合は正解率は89.1%という高い値となっている。不足する内容語の数が増えると正解率が大きく減少していく。不足内容語数が2以上の場合には正解率が50%を下回り、十分な精度といえない。そこで、上記した(1)の条件を課すことにした。   FIG. 11 shows the relationship between the number of content words that are deficient compared to the input sentence and the accuracy rate of the retrieved candidate sentences. When the content word sets match between the input sentence and the retrieved candidate sentence, the correct answer rate is a high value of 89.1%. As the number of shortage content words increases, the correct answer rate decreases greatly. When the number of deficient content words is 2 or more, the correct answer rate is less than 50%, which is not sufficient accuracy. Therefore, the above condition (1) is imposed.

次に、条件(2)について考える。類似文は入力文の大意を表す文であればよいという観点から考えると、検索された候補文と入力文との、大意を表す部分についての内容語が共通していれば、他の部分の内容語が共通していなくても十分であると考えられる。従って、候補文と入力文とで共通する内容語の数(以下「共通内容語数」)により類似文の判定ができると考えられる。   Next, condition (2) will be considered. Considering from the viewpoint that the similar sentence may be a sentence that expresses the meaning of the input sentence, if the content words for the parts that express the meaning of the retrieved candidate sentence and the input sentence are common, It is considered sufficient that the content words are not common. Therefore, it is considered that a similar sentence can be determined based on the number of content words common to the candidate sentence and the input sentence (hereinafter, “number of common content words”).

図12に、共通内容語数と、それに対する検索された候補文の正解率との関係を示す。図12から、大きな傾向として、共通内容語数が増えると正解率は向上する。ただしその傾きは緩やかである。不足している内容語数に関する条件(1)では、境界の正解率は58.8%であった。そこで、図12から、この正解率に近い条件として、共通内容語数が2語以上の候補文のみ、類似文として選択することとする。共通内容語数が2語の場合の正解率は、63.0%である。   FIG. 12 shows the relationship between the number of common content words and the correct answer rate of the retrieved candidate sentences. From FIG. 12, as a large tendency, the correct answer rate improves as the number of common content words increases. However, the inclination is gentle. Under condition (1) regarding the number of content words that are insufficient, the accuracy rate of the boundary was 58.8%. Therefore, from FIG. 12, as a condition close to the correct answer rate, only candidate sentences with two or more common content words are selected as similar sentences. The correct answer rate when the number of common content words is 2 is 63.0%.

[動作]
以上に構成を述べた本実施の形態に係る機械翻訳システム32は、以下のように動作する。図1を参照して、予め用例コーパス40及びシソーラス44、並びに翻訳可能文コーパス46が準備されているものとする。機械翻訳装置42は、日本語の入力文30が与えられると、シソーラス44を参照して用例コーパス40中の各用例のうちで入力文30に最も類似した日本語文を持つ用例文を検索する。この検索では、入力文30と各用例文の日本語文との間の編集距離が最も近い用例文が検索される。ただし、編集距離算出の際、語の置換については、シソーラス44を参照して得られる、置換される2語間の意味的距離により編集距離の重み付けがなされる。このようにして算出された編集距離が、入力文30と用例文との類似度となる。
[Operation]
The machine translation system 32 according to the present embodiment whose configuration has been described above operates as follows. Referring to FIG. 1, it is assumed that an example corpus 40, a thesaurus 44, and a translatable sentence corpus 46 are prepared in advance. When the Japanese input sentence 30 is given, the machine translation device 42 refers to the thesaurus 44 to search for an example sentence having a Japanese sentence most similar to the input sentence 30 among the examples in the example corpus 40. In this search, an example sentence having the closest edit distance between the input sentence 30 and the Japanese sentence of each example sentence is searched. However, when calculating the edit distance, the word replacement is weighted by the semantic distance between the two words to be replaced, which is obtained by referring to the thesaurus 44. The edit distance calculated in this way becomes the similarity between the input sentence 30 and the example sentence.

機械翻訳装置42は、検索された用例文のうち類似度が最も小さなものを選択する。機械翻訳装置42はこの際、選択された用例文の類似度が所定の値を上回っていれば、すなわち選択された用例文と入力文30とがそれほど類似していない場合には判定信号60の値を論理1レベルとし、それ以外の場合には論理0レベルとする。   The machine translation device 42 selects the searched example sentence having the smallest similarity. At this time, if the similarity of the selected example sentence exceeds a predetermined value, that is, if the selected example sentence and the input sentence 30 are not very similar, the machine translation device 42 The value is a logic 1 level, otherwise it is a logic 0 level.

機械翻訳装置42は、選択された用例文と入力文30との類似度が所定の値以下であれば、用例文の英語部分を、入力文30と用例文の日本語部分との相違に基づいて修正することで入力文30の翻訳文を生成し、翻訳結果58を出力する。翻訳結果58は選択部52に与えられる。   If the degree of similarity between the selected example sentence and the input sentence 30 is equal to or less than a predetermined value, the machine translation device 42 determines the English part of the example sentence based on the difference between the input sentence 30 and the Japanese part of the example sentence. As a result, the translated sentence of the input sentence 30 is generated and the translation result 58 is output. The translation result 58 is given to the selection unit 52.

判定信号60の値が論理0レベルの場合、選択部52は翻訳結果58を選択して出力文34として出力する。   When the value of the determination signal 60 is logic 0 level, the selection unit 52 selects the translation result 58 and outputs it as the output sentence 34.

判定信号60の値が論理1レベルの場合には、次のような処理が行なわれる。類似文検索部48は、入力文30と類似する候補文を翻訳可能文コーパス46の中から検索する。すなわち、図3を参照して、選択部110は、シーケンス制御部130の制御に従い、まず入力文30を選択し、形態素解析部112に与える。形態素解析部112は辞書114を参照して入力文30を形態素解析し、単語列に分解して分岐部116に与える。この際、各単語には辞書114を参照して得られる各種の情報が付与される。分岐部116は、シーケンス制御部130の制御に従い、形態素解析部112の出力する単語列を入力文記憶部118に与える。入力文記憶部118はこの単語列を格納する。   When the value of the determination signal 60 is logic 1 level, the following processing is performed. The similar sentence search unit 48 searches the translatable sentence corpus 46 for candidate sentences similar to the input sentence 30. That is, referring to FIG. 3, selection unit 110 first selects input sentence 30 according to the control of sequence control unit 130, and provides it to morphological analysis unit 112. The morpheme analysis unit 112 refers to the dictionary 114 to analyze the morpheme of the input sentence 30, decomposes it into a word string, and gives it to the branch unit 116. At this time, various information obtained by referring to the dictionary 114 is assigned to each word. The branching unit 116 provides the word string output from the morphological analysis unit 112 to the input sentence storage unit 118 according to the control of the sequence control unit 130. The input sentence storage unit 118 stores this word string.

次に選択部110は、シーケンス制御部130の制御に従い、翻訳可能文コーパス46に含まれる用例文のうち1番目の日本語部分を読出し、形態素解析部112に与える。形態素解析部112はこの日本語部分を辞書114を参照して形態素解析し、得られた単語列を分岐部116に与える。この場合も、各単語には属性情報が付与される。分岐部116は、シーケンス制御部130の制御に従い、今度はこの単語列を類似度算出部120に与える。   Next, the selection unit 110 reads the first Japanese part of the example sentences included in the translatable sentence corpus 46 and gives it to the morpheme analysis unit 112 under the control of the sequence control unit 130. The morpheme analysis unit 112 performs morpheme analysis on this Japanese part with reference to the dictionary 114, and gives the obtained word string to the branch unit 116. Also in this case, attribute information is given to each word. The branching unit 116 gives this word string to the similarity calculating unit 120 this time under the control of the sequence control unit 130.

類似度算出部120は、分岐部116から与えられる用例文の形態素解析結果と入力文記憶部118に記憶された入力文30の形態素解析結果とに基づき、式(1)に示すn−グラムを用いた類似度算出方式に従い、入力文30と翻訳可能文コーパス46の1番目の候補文との類似度を算出し、記憶部122に与える。このとき、類似度算出における入力文30と候補文との共通単語数のうち、機能語数には、機能語重み記憶部128に記憶された値が重みとして乗じられる。記憶部122はこの類似度を、1番目の候補文の形態素解析結果とともに記憶する。   Based on the morphological analysis result of the example sentence given from the branching unit 116 and the morphological analysis result of the input sentence 30 stored in the input sentence storage unit 118, the similarity calculation unit 120 calculates the n-gram shown in the equation (1). According to the similarity calculation method used, the similarity between the input sentence 30 and the first candidate sentence of the translatable sentence corpus 46 is calculated and given to the storage unit 122. At this time, out of the number of common words between the input sentence 30 and the candidate sentence in the similarity calculation, the number of function words is multiplied by the value stored in the function word weight storage unit 128 as a weight. The storage unit 122 stores this similarity together with the morphological analysis result of the first candidate sentence.

以下、シーケンス制御部130の制御に従い、翻訳可能文コーパス46に記憶されている各候補文が形態素解析部112により形態素解析され、入力文30との間の類似度が類似度算出部120により算出される。その結果得られた各候補文の類似度が、その候補文の形態素解析結果とともに記憶部122に記憶される。   Thereafter, each candidate sentence stored in the translatable sentence corpus 46 is morphologically analyzed by the morpheme analyzer 112 under the control of the sequence controller 130, and the similarity with the input sentence 30 is calculated by the similarity calculator 120. Is done. The similarity of each candidate sentence obtained as a result is stored in the storage unit 122 together with the morphological analysis result of the candidate sentence.

全ての候補文について類似度が算出されると、除外処理部124が入力文記憶部118に記憶された入力文30の形態素解析結果を参照し、候補文の中で入力文30にない内容語を日本語部分に含む候補文を除外し、それ以外の候補文と類似度とを選択処理部126に与える。選択処理部126は、与えられた候補文のうち、(1)入力文に含まれる内容語のうちで候補文にない内容語が1語以内であること、又は(2)入力文と共通する内容語が2語以上であること、という前述の条件を満たし、かつ入力文30に最も類似する候補文を類似文62として出力するとともに、上記条件を満たす類似文が存在したか否かを検索結果信号64として出力する。検索結果信号64は、上記した条件を充足する文があったときには論理0レベルをとり、なかったときには論理1レベルをとる。   When the similarity is calculated for all candidate sentences, the exclusion processing unit 124 refers to the morphological analysis result of the input sentence 30 stored in the input sentence storage unit 118, and the content words that are not in the input sentence 30 among the candidate sentences Are excluded from the Japanese part, and other candidate sentences and similarities are given to the selection processing unit 126. The selection processing unit 126 includes (1) content words that are not included in the candidate sentence among the content words included in the input sentence among the given candidate sentences, or (2) common with the input sentence. A candidate sentence that satisfies the above-mentioned condition that the content word is two or more words and that is most similar to the input sentence 30 is output as the similar sentence 62, and a search is performed to determine whether or not a similar sentence that satisfies the above condition exists. The result signal 64 is output. The search result signal 64 takes a logic 0 level when there is a sentence satisfying the above condition, and takes a logic 1 level when there is no sentence.

再び図1を参照して、機械翻訳装置50は、検索結果信号64が論理0レベルであるときは、類似文検索部48からの類似文62に対し、用例コーパス40及びシソーラス44を用いた用例翻訳を行なう。この用例翻訳処理は、機械翻訳装置42で行なわれるものと同じである。機械翻訳装置50は、用例コーパス40から適切な用例文を検索できなかったときは信号68を論理1レベルとして処理を終了する。用例コーパス40から適切な用例文を検索できたときは、機械翻訳装置50はその用例文の日本語部分と類似文62との相違を基に、用例文の英語部分を修正することで類似文62の翻訳を行なう。そして、この翻訳処理の結果を翻訳結果66として選択部52に与える。   Referring to FIG. 1 again, the machine translation device 50 uses the example corpus 40 and the thesaurus 44 for the similar sentence 62 from the similar sentence search unit 48 when the search result signal 64 is at the logic 0 level. Translate. This example translation process is the same as that performed by the machine translation device 42. When the machine translation device 50 cannot retrieve an appropriate example sentence from the example corpus 40, it sets the signal 68 to logic 1 level and ends the process. When an appropriate example sentence can be searched from the example corpus 40, the machine translation device 50 corrects the English part of the example sentence based on the difference between the Japanese part of the example sentence and the similar sentence 62, thereby producing a similar sentence. 62 translations are performed. Then, the result of this translation process is given to the selection unit 52 as a translation result 66.

選択部52は、判定信号60が論理1レベルのときには、このようにして機械翻訳装置50から選択部52に与えられた翻訳結果66を選択し、出力文34として出力する。   When the determination signal 60 is at the logic 1 level, the selection unit 52 selects the translation result 66 given from the machine translation device 50 to the selection unit 52 in this way, and outputs it as the output sentence 34.

以上のように機械翻訳システム32は、入力文30に対し、機械翻訳装置42が機械翻訳可能な場合には、その翻訳結果を出力文34として出力する。入力文30が機械翻訳装置42による翻訳のできない文であるときには、図2に示す翻訳不能文90、92、94、96、98を翻訳可能文コーパス46中の文100、102、104等に置換するのと同様、この入力文30を翻訳可能文コーパス46中のいずれかの候補文と置換える。翻訳可能文コーパス46は予め翻訳可能な文を集めて準備されたものであるので、機械翻訳装置50においてはこの候補文を翻訳できる可能性が高い。その結果、機械翻訳システム32が翻訳できる文の範囲は、類似文検索部48による類似文の検索を行なわなかった場合と比較して広くなるという効果が得られる。   As described above, the machine translation system 32 outputs the translation result as the output sentence 34 when the machine translation device 42 can machine translate the input sentence 30. When the input sentence 30 is a sentence that cannot be translated by the machine translation device 42, the untranslatable sentences 90, 92, 94, 96, 98 shown in FIG. 2 are replaced with the sentences 100, 102, 104, etc. in the translatable sentence corpus 46. Similarly to this, this input sentence 30 is replaced with any candidate sentence in the translatable sentence corpus 46. Since the translatable sentence corpus 46 is prepared by collecting sentences that can be translated in advance, the machine translation apparatus 50 has a high possibility of translating this candidate sentence. As a result, there is an effect that the range of sentences that can be translated by the machine translation system 32 is wider than that in the case where the similar sentence search unit 48 does not search for similar sentences.

なお、前述したとおり類似文検索部48により翻訳可能文コーパス46から類似文を検索できないような入力文30もあり得る。その場合には検索結果信号64が論理1レベルとなり、翻訳可否信号36が論理1レベルとなる。   Note that there may be an input sentence 30 in which a similar sentence cannot be searched from the translatable sentence corpus 46 by the similar sentence search unit 48 as described above. In that case, the search result signal 64 becomes a logic 1 level and the translation enable / disable signal 36 becomes a logic 1 level.

また、翻訳可能文コーパス46が翻訳可能文からなる以上、類似文検索部48による類似文の検索ができれば機械翻訳装置50による翻訳も可能と考えられる。ただし、翻訳可能文コーパス46の内容に不備がある場合も考えられるので、機械翻訳装置50から翻訳可否信号68を出力するようにしている。すなわち、翻訳可否信号68が論理0レベルであれば機械翻訳装置50による翻訳が可能ということであり、翻訳可否信号68が論理1レベルであれば機械翻訳装置50による翻訳が不可能ということになる。   In addition, as long as the translatable sentence corpus 46 is composed of translatable sentences, if the similar sentence search unit 48 can search for similar sentences, it can be considered that translation by the machine translation device 50 is possible. However, since there may be a case where the contents of the translatable sentence corpus 46 are incomplete, the machine translation device 50 outputs the translation availability signal 68. That is, if the translation enable / disable signal 68 is at a logic 0 level, translation by the machine translation device 50 is possible, and if the translation enable / disable signal 68 is at a logic 1 level, translation by the machine translation device 50 is impossible. .

ANDゲート54は検索結果信号64と翻訳可否信号68とのANDをとっているので、その出力ANDゲート54が論理1レベルであれば翻訳ができなかったことが分かり、それ以外の場合には翻訳が可能であったことが分かる。   Since the AND gate 54 takes the AND of the search result signal 64 and the translation enable / disable signal 68, it can be understood that the translation cannot be performed if the output AND gate 54 is at the logic 1 level, otherwise the translation is performed. It was found that was possible.

[実験結果]
以上述べた実施の形態に係る機械翻訳システム32の類似文検索部48を用いて日英翻訳を行なう実験を行なった。この実験では、二種類のコーパスを使用する。翻訳不能文の集合である翻訳不能文コーパスと、図1に示す翻訳可能文コーパス46とである。
[Experimental result]
An experiment was conducted for Japanese-English translation using the similar sentence search unit 48 of the machine translation system 32 according to the embodiment described above. In this experiment, two types of corpus are used. An untranslatable sentence corpus, which is a set of untranslatable sentences, and a translatable sentence corpus 46 shown in FIG.

図13を参照して、翻訳不能文コーパス146は、発明の実施の形態に関する冒頭の説明で言及した第2の発話コーパス140の各文を機械翻訳142に与え、翻訳不能となった文を集めることで作成した。第2の発話コーパス140は1,698文を含み、その中で翻訳可能文からなるコーパス144は1393文であり、翻訳が不能な文からなる翻訳不能文コーパス146は305文であった。   Referring to FIG. 13, untranslatable sentence corpus 146 gives each sentence of second utterance corpus 140 referred to in the introduction of the embodiment of the invention to machine translation 142, and collects sentences that cannot be translated. It was created by that. The second utterance corpus 140 includes 1,698 sentences, among which the corpus 144 composed of translatable sentences is 1393 sentences, and the untranslatable sentence corpus 146 composed of sentences that cannot be translated is 305 sentences.

翻訳可能文コーパス46は、発明の実施の形態の説明の冒頭で言及した第1の基本表現コーパスの中から機械翻訳で翻訳可能と判定された70,671文を含む。   The translatable sentence corpus 46 includes 70,671 sentences determined to be translatable by machine translation from the first basic expression corpus mentioned at the beginning of the description of the embodiment of the invention.

翻訳不能文コーパス146の各文を類似文検索部48に与えたところ、得られた類似文からなる検索類似文コーパス150は164文となった。すなわち、164文の翻訳不能文について類似文を検索することができた。検索された類似文164文について類似性を人手で評価したところ、図13の正解類似文154にも示すとおり、81文については正しい類似文であることが判明した。   When each sentence of the untranslatable sentence corpus 146 is given to the similar sentence search unit 48, the retrieved similar sentence corpus 150 including the obtained similar sentences is 164 sentences. That is, similar sentences could be searched for 164 untranslatable sentences. When the similarities of the retrieved similar sentences 164 were manually evaluated, it was found that 81 sentences were correct similar sentences as shown in the correct similar sentence 154 of FIG.

さらに、検索された類似文164文を機械翻訳装置50に与えて得られる翻訳文と、入力文とを評価者に提示して翻訳文としての評価を行なった。翻訳文は、英語のネイティブスピーカによりGood,Fair,Acceptable,Badの4種類のランクで評価される。この内、Good,Fair及びAcceptableの評価の文を「適切な訳文」とする。なお、この評価基準は機械翻訳の訳質評価のために定めたものであり、図4に示した類似文の評価基準とは別のものである。   Furthermore, the translated sentence obtained by giving the retrieved similar sentence 164 sentence to the machine translation apparatus 50 and the input sentence were presented to the evaluator and evaluated as a translated sentence. The translated sentences are evaluated by English native speakers in four ranks: Good, Fair, Acceptable, and Bad. Among these, the evaluation sentence of Good, Fair, and Acceptable is set as “appropriate translation”. This evaluation criterion is determined for evaluating the translation quality of machine translation, and is different from the similar sentence evaluation criterion shown in FIG.

図13に示すように、この結果、正解訳文156として61文が得られた。内訳は、Goodが12文、Fairが10文、Acceptableが39文である。   As shown in FIG. 13, 61 sentences were obtained as the correct translation 156 as a result. The breakdown is 12 sentences for Good, 10 sentences for Fair, and 39 sentences for Acceptable.

図14に、類似文、翻訳文における正解率及び翻訳不能文の救済率をそれぞれ示す。図14を参照して、類似文、つまり入力文と同一言語の段階では翻訳不能文の26.6%について類似文検索により適切な類似文を検索できた。また、翻訳文の段階でも、翻訳不能文の20%について適切な訳文を得ることができた。   FIG. 14 shows the correct answer rate for similar sentences and translated sentences, and the relief ratio for untranslatable sentences, respectively. Referring to FIG. 14, an appropriate similar sentence can be searched by similar sentence search for 26.6% of similar sentences, that is, untranslatable sentences at the same language stage as the input sentence. In addition, it was possible to obtain appropriate translations for 20% of untranslatable sentences even at the translation stage.

以上のとおり、本実施の形態に係る機械翻訳システム32によれば、単言語コーパスという入手が容易な言語資源を用いた類似文検索技術を機械翻訳と組合わせることで、既存の機械翻訳の翻訳可能文の範囲を拡大することができる。前編集のための規則を定めるという手間のかかる作業なしに、話し言葉のように同じ意味で多くのバリエーションがある入力文の翻訳可能性を高めることができる。   As described above, according to the machine translation system 32 according to the present embodiment, an existing machine translation can be translated by combining a similar sentence search technique using a language resource called a monolingual corpus with easy translation. The range of possible sentences can be expanded. Without the time-consuming task of setting rules for pre-editing, it is possible to increase the translatability of input sentences that have many variations in the same meaning as spoken language.

なお、上記した実施の形態では、類似文検索における類似度算出方式として、入力文と候補文とに共通するn−グラムを用いる方式を採用した。しかし本発明はそのような方式に限定されるわけではない。例えば、入力文と候補文との間の最長共通単語列に基づく類似度算出方式を用いてもよいし、入力文と候補文との単語集合の共通部分に基づく類似度算出方式を用いてもよい。また、これ以外の類似度算出方式を用いてもよいが、その場合でも入力文と候補文とが内容上でどの程度類似しているかを有効に示す類似度を採用することが望ましい。   In the above-described embodiment, a method using n-grams common to the input sentence and the candidate sentence is adopted as the similarity calculation method in the similar sentence search. However, the present invention is not limited to such a method. For example, a similarity calculation method based on the longest common word string between the input sentence and the candidate sentence may be used, or a similarity calculation method based on the common part of the word set of the input sentence and the candidate sentence may be used. Good. Also, other similarity calculation methods may be used, but even in that case, it is desirable to employ a similarity that effectively indicates how similar the input sentence and the candidate sentence are in terms of content.

また、上記した実施の形態では、n−グラムに基づく類似度算出方式において、内容語の重みを1としたときの機能語の重みを0.4としている。しかしこの重みはそのような値に限定されるわけではなく、機能語に対しては内容語の重み以下の重みであればどのような重みを付与するようにしてもよい。   In the above embodiment, in the similarity calculation method based on n-grams, the weight of the function word when the weight of the content word is 1 is 0.4. However, this weight is not limited to such a value, and any weight may be given to the function word as long as it is less than the weight of the content word.

さらに、上に説明した各パラメータの値は、対象となる言語により、また対象となるドメインにより変わり得るものである。それらは、実際に本発明を実施する環境にあわせて行なう実験に基づいて決定することが望ましい。   Furthermore, the value of each parameter described above can vary depending on the target language and the target domain. It is desirable to determine them based on experiments conducted in accordance with the environment where the present invention is actually implemented.

上記した実施の形態では、機械翻訳装置として用例翻訳を使用している。そして,用例翻訳の過程において入力文とよく類似した用例文が得られたか否かを訳質の指標として用いている。この場合、用例翻訳の過程で訳質が評価できる。しかし本発明はそのような実施の形態には限定されない。例えば、機械翻訳装置として任意のものを用い、その出力する訳文の訳質を何らかの基準に従って評価し、その結果を類似文検索するか否かを決定するための指標として用いても良い。例えば予め準備された複数個の参照訳との比較結果により訳質を評価したり、訳文を言語モデル又は翻訳モデル又はその双方を用いて評価したりするようにしてもよい。この場合、それらは機械翻訳装置とは独立した機能モジュールとして機械翻訳システム内に設けることができる。逆に言えば、上記した実施の形態での第1の機械翻訳装置のように翻訳過程で訳質の指標に相当するものが得られる場合、訳質を評価するための独立した機能モジュールは不要である。   In the above-described embodiment, the example translation is used as the machine translation device. Then, whether or not an example sentence very similar to the input sentence is obtained in the process of example translation is used as an index of translation quality. In this case, translation quality can be evaluated in the process of example translation. However, the present invention is not limited to such an embodiment. For example, an arbitrary machine translation device may be used, the translation quality of the translation to be output may be evaluated according to some criteria, and the result may be used as an index for determining whether or not to search for a similar sentence. For example, translation quality may be evaluated based on a comparison result with a plurality of reference translations prepared in advance, or a translation may be evaluated using a language model and / or a translation model. In this case, they can be provided in the machine translation system as function modules independent of the machine translation apparatus. In other words, an independent function module for evaluating the translation quality is not required when a translation quality index equivalent to that in the translation process is obtained as in the first machine translation apparatus in the above-described embodiment. It is.

[コンピュータによる実現]
上記した実施の形態に係る機械翻訳システム32は、コンピュータシステムにより実現できる。図15は上記した実施の形態による機械翻訳システム32を実現するコンピュータシステム250の全体構成を示す外観図である。システム250はマイクロフォン264及びスピーカ278の組と、CD−ROM(Compact Disc Read−Only Memory)ドライブ270及びFD(Flexible Disk)ドライブ272を有するコンピュータ260と、いずれもコンピュータ260に接続されたモニタ262、キーボード266及びマウス268とを含む。
[Realization by computer]
The machine translation system 32 according to the above-described embodiment can be realized by a computer system. FIG. 15 is an external view showing the overall configuration of a computer system 250 that implements the machine translation system 32 according to the above-described embodiment. The system 250 includes a pair of a microphone 264 and a speaker 278, a computer 260 having a CD-ROM (Compact Disc Read-Only Memory) drive 270 and an FD (Flexible Disk) drive 272, and a monitor 262 connected to the computer 260. A keyboard 266 and a mouse 268 are included.

マイクロフォン264とスピーカ278とは、必要であれば音声翻訳の入力及び出力に用いられるものであって、この発明の一部を構成するものではない。従って、システムのうちマイクロフォン264及びスピーカ278に関する部分の詳細はここでは説明しない。   The microphone 264 and the speaker 278 are used for input and output of speech translation if necessary, and do not constitute a part of the present invention. Accordingly, the details of the portion of the system relating to the microphone 264 and speaker 278 will not be described here.

図16はコンピュータ260のハードウェアブロック図である。図16を参照して、コンピュータ260は、CPU(Central Processing Unit:中央処理装置)340と、CPU340に接続されたバス342と、バス342に接続された読出専用メモリ(ROM)344と、バス342に接続されたランダムアクセスメモリ(RAM)346と、バス342に接続されたハードディスク348と、CD−ROM(コンパクト・ディスクROM)360が装着され、CD−ROMからデータを読出すCD−ROMドライブ270と、FD(フレキシブル・ディスク)362が装着され、FDからデータを読出し、データを書込むFDドライブ272と、マイクロフォン264及びスピーカ278が接続されるサウンドボード350と、バス342に接続されローカルエリアネットワーク(LAN)等のデータ通信ネットワークに接続する機能を提供するネットワークボード352とを含む。   FIG. 16 is a hardware block diagram of the computer 260. Referring to FIG. 16, a computer 260 includes a CPU (Central Processing Unit) 340, a bus 342 connected to the CPU 340, a read only memory (ROM) 344 connected to the bus 342, and a bus 342. A CD-ROM drive 270 that is loaded with a random access memory (RAM) 346 connected to the CD-ROM, a hard disk 348 connected to the bus 342, and a CD-ROM (compact disk ROM) 360 and reads data from the CD-ROM. An FD (flexible disk) 362 is mounted, reads data from the FD, writes data, a sound board 350 to which the microphone 264 and the speaker 278 are connected, and a local area network connected to the bus 342. Network board 352 that provides a function of connecting to a data communication network such as a network (LAN).

図1〜図14を参照して説明した実施の形態に係る機械翻訳システム32は、コンピュータシステム250のハードウェア、その上で実行されるコンピュータプログラム、及びコンピュータシステム250のハードディスク348、RAM346等に格納される各種のコーパスなどのデータにより実現可能である。コンピュータプログラムの構成については後述する。それらコンピュータプログラム及びコーパスなどのデータ(以下「プログラム等」と呼ぶ。)はCD−ROM360などの記憶媒体に格納されて流通する。それらプログラム等はそうした記憶媒体からハードディスク348に読込まれる。システムの起動時には、プログラムはハードディスク348から読出されてRAM346にロードされ、CPU340により読出されて実行される。プログラムの読出アドレスは図示しないプログラムカウンタにより指定される。プログラムカウンタの内容は,プログラムの実行に伴って書換えられる。データの読出及び書込アドレスはプログラムに従った演算結果によって指定される。   The machine translation system 32 according to the embodiment described with reference to FIGS. 1 to 14 is stored in the hardware of the computer system 250, the computer program executed thereon, and the hard disk 348, the RAM 346, and the like of the computer system 250. It can be realized by data such as various corpora. The configuration of the computer program will be described later. Such computer programs and data such as a corpus (hereinafter referred to as “programs”) are stored in a storage medium such as a CD-ROM 360 for distribution. Those programs and the like are read into the hard disk 348 from such a storage medium. When the system is started up, the program is read from the hard disk 348 and loaded into the RAM 346 and read and executed by the CPU 340. A program read address is designated by a program counter (not shown). The contents of the program counter are rewritten as the program is executed. Data read and write addresses are specified by the calculation results according to the program.

図17は、上記した実施の形態に係る機械翻訳システム32を実現するプログラムのフローチャートである。各ステップの内容の詳細については図1〜図14を参照して説明したとおりである。ここでは、プログラムにより機械翻訳システム32を実現する際のプログラムの全体の好ましい構成を示す。   FIG. 17 is a flowchart of a program that implements the machine translation system 32 according to the above-described embodiment. Details of the contents of each step are as described with reference to FIGS. Here, a preferable configuration of the entire program when the machine translation system 32 is realized by the program is shown.

図17を参照して、ステップ400で、入力文に対して機械翻訳を実行する。この機械翻訳は用例翻訳によるものであり、用例翻訳の基となる用例文の類似度が翻訳結果とともに得られる。ステップ402では、この類似度の値が所定の値より大きいか否かが判定される。前述したとおり、本実施の形態で使用される用例翻訳では、二つの文が類似しているほど類似度は小さくなり、両者が完全に一致していると類似度は0となる。もし両者が類似していれば(すなわち類似度>所定値という条件が成立していなければ)、制御はステップ414に進み、ステップ400で得られた翻訳文を全体の翻訳結果として出力し処理を終了する。両者が類似していなければ制御はステップ404に進む。   Referring to FIG. 17, in step 400, machine translation is executed on the input sentence. This machine translation is based on the example translation, and the similarity of the example sentence used as the basis for the example translation is obtained together with the translation result. In step 402, it is determined whether or not the similarity value is greater than a predetermined value. As described above, in the example translation used in this embodiment, the similarity is smaller as the two sentences are more similar, and the similarity is 0 when the two sentences are completely matched. If they are similar (that is, if the condition of similarity> predetermined value is not satisfied), the control proceeds to step 414, and the translated sentence obtained in step 400 is output as the entire translation result and processed. finish. If the two are not similar, control proceeds to step 404.

ステップ404では、この機械翻訳処理の結果が、入力文に対する機械翻訳処理により得られたものか、入力文を類似文で置換した後の機械翻訳処理により得られたものかを判定する。置換後であれば制御はステップ410に進み、翻訳不能であった旨の出力(表示)をステップ410で行なって処理を終了する。置換前であれば制御はステップ406に進む。   In step 404, it is determined whether the result of the machine translation process is obtained by a machine translation process for the input sentence or obtained by a machine translation process after replacing the input sentence with a similar sentence. If it is after the replacement, the control proceeds to step 410, an output (display) indicating that the translation is impossible is performed in step 410, and the process is terminated. If it is before replacement, control proceeds to step 406.

ステップ406では、入力文に対する類似文を翻訳可能文コーパスから検索する処理が行なわれる。ここで検索される類似文が満たすべき条件については既に説明したとおりである。この後、ステップ408において、ステップ406で入力文に類似するという条件を満足した翻訳可能文(類似文)が検索されたか否かを判定する。ここで類似文がなかったと判定された場合、ステップ410で翻訳不能を表示して処理を終了する。類似文があれば、ステップ412に進む。   In step 406, a process for retrieving a similar sentence for the input sentence from the translatable sentence corpus is performed. The conditions to be satisfied by the similar sentence searched here are as described above. Thereafter, in step 408, it is determined whether or not a translatable sentence (similar sentence) satisfying the condition of being similar to the input sentence in step 406 has been searched. If it is determined here that there is no similar sentence, it is displayed that translation is impossible in step 410 and the process is terminated. If there is a similar sentence, the process proceeds to step 412.

ステップ412では、検索された類似文で入力文を置換する処理を行なう。制御はステップ400に戻る。この後、置換された文に対してステップ400、402、414という処理が実行されるか、又はステップ400、402、404、410という処理が実行され、全体の機械翻訳処理が終了する。   In step 412, the input sentence is replaced with the searched similar sentence. Control returns to step 400. Thereafter, the processes of steps 400, 402, and 414 are executed for the replaced sentence, or the processes of steps 400, 402, 404, and 410 are executed, and the entire machine translation process is completed.

以上のように、図1では機械翻訳装置42と機械翻訳装置50とを別のものとして示したが、これらを同一のもので実現するようにしてもよい。このように同一のもので機械翻訳装置42と機械翻訳装置50とを実現することで、翻訳に必要な資源の増大を防ぎながら、翻訳可能な文の範囲を広げることができる。もちろん、両者が別々のものでもよい。また、両者が別々の場合、両者の機械翻訳の原理は互いに同一でもよいし、同一でなくてもよい。   As described above, FIG. 1 shows the machine translation device 42 and the machine translation device 50 as separate units, but these may be realized by the same unit. Thus, by realizing the machine translation device 42 and the machine translation device 50 with the same thing, it is possible to widen the range of sentences that can be translated while preventing an increase in resources necessary for translation. Of course, both may be different. When the two are separate, the machine translation principles of both may or may not be the same.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.

本発明の一実施の形態に係る機械翻訳システム32のブロック図である。It is a block diagram of the machine translation system 32 concerning one embodiment of the present invention. 機械翻訳システム32における類似文検索技術の概念を示す図である。It is a figure which shows the concept of the similar sentence search technique in the machine translation system. 機械翻訳システム32の類似文検索部48のブロック図である。4 is a block diagram of a similar sentence search unit 48 of the machine translation system 32. FIG. 類似文を評価する際の評価基準を説明する図である。It is a figure explaining the evaluation criteria at the time of evaluating a similar sentence. 入力文に対する様々な類似文の候補の評価例を示す図である。It is a figure which shows the example of evaluation of the candidate of various similar sentences with respect to an input sentence. 類似度算出の3つの基本方式によるF値算出例を示す図である。It is a figure which shows the example of F value calculation by three basic methods of similarity calculation. 余剰内容語を含むことで不適切となる候補文の例を示す図である。It is a figure which shows the example of the candidate sentence which becomes inappropriate by including a surplus content word. 類似度算出の3つの基本方式における、余剰内容語の存在の影響を示す図である。It is a figure which shows the influence of presence of a surplus content word in three basic methods of similarity calculation. 類似度算出の3つの基本方式における、機能語の重みの影響を表形式で示す図である。It is a figure which shows the influence of the weight of a function word in tabular form in three basic methods of similarity calculation. 機能語の重みを減らすことによる検索結果への影響を表形式で示す図である。It is a figure which shows the influence on the search result by reducing the weight of a function word in a table form. 検索された類似文において入力文と比較して不足している内容語の数と、その正解率との関係を示す図である。It is a figure which shows the relationship between the number of the content words which are in short compared with an input sentence in the similar sentence searched, and the correct answer rate. 入力文との共通内容語数と検索された候補文の正解率との関係を示す図である。It is a figure which shows the relationship between the number of common content words with an input sentence, and the correct answer rate of the searched candidate sentence. 実験において使用したコーパスと実験結果とを示す図である。It is a figure which shows the corpus used in experiment, and an experimental result. 実験において得られた類似文、翻訳文における正解率及び翻訳不能文の救済率をそれぞれ示す図である。It is a figure which respectively shows the correct rate in the similar sentence obtained in experiment, and the relief rate of the untranslatable sentence in a translation sentence. 本発明の一実施の形態による機械翻訳システムを実現するコンピュータシステム250の外観図である。It is an external view of the computer system 250 which implement | achieves the machine translation system by one embodiment of this invention. 図15に示すコンピュータ260のハードウェアブロック図である。It is a hardware block diagram of the computer 260 shown in FIG. 本発明の一実施の形態に係る機械翻訳システムをコンピュータシステムで実現するためのプログラムのフローチャートである。It is a flowchart of the program for implement | achieving the machine translation system which concerns on one embodiment of this invention with a computer system.

符号の説明Explanation of symbols

32 機械翻訳システム、36,68 翻訳可否信号、40 用例コーパス、42 機械翻訳装置、44 シソーラス、46 翻訳可能文コーパス、48 類似文検索部、50 機械翻訳装置、52,110 選択部、54 ANDゲート、58 翻訳結果、60 判定信号、62 類似文、64 検索結果信号、66 翻訳結果、80 翻訳可能文集合、82 翻訳不能文集合、84 類似文検索技術、112 形態素解析部、114 辞書、116 分岐部、118 入力文記憶部、120 類似度算出部、122 記憶部、124 除外処理部、126 選択処理部、128 機能語重み記憶部、130 シーケンス制御部   32 machine translation system, 36, 68 translation enable / disable signal, 40 example corpus, 42 machine translation device, 44 thesaurus, 46 translatable sentence corpus, 48 similar sentence search unit, 50 machine translation device, 52, 110 selection unit, 54 AND gate 58 translation result, 60 judgment signal, 62 similar sentence, 64 search result signal, 66 translation result, 80 translatable sentence set, 82 untranslatable sentence set, 84 similar sentence search technology, 112 morpheme analysis unit, 114 dictionary, 116 branch 118, input sentence storage unit, 120 similarity calculation unit, 122 storage unit, 124 exclusion processing unit, 126 selection processing unit, 128 function word weight storage unit, 130 sequence control unit

Claims (7)

第1の言語の入力文を第2の言語に翻訳するための機械翻訳システムであって、
前記第2の言語への翻訳が可能であるとして予め選択された、前記第1の言語の複数の文を含む第1のコーパスと、
前記入力文を前記第2の言語に翻訳するための第1の機械翻訳手段と、
前記第1の機械翻訳手段による訳文の訳質の指標を出力するための指標出力手段と、
前記指標出力手段の出力する前記指標が前記訳質が悪いことを示す所定の条件に合致することに応答して、前記入力文と所定の関係にある文を前記第1のコーパスから検索するための検索手段と、
前記検索手段により検索された前記文を前記第2の言語に翻訳するための第2の機械翻訳手段とを含む、機械翻訳システム。
A machine translation system for translating an input sentence in a first language into a second language,
A first corpus including a plurality of sentences in the first language, preselected as being translatable into the second language;
First machine translation means for translating the input sentence into the second language;
Index output means for outputting an index of the translation quality of the translation by the first machine translation means;
To search the first corpus for a sentence having a predetermined relationship with the input sentence in response to the index output by the index output means meeting a predetermined condition indicating that the translation quality is poor. Search means,
A machine translation system comprising: second machine translation means for translating the sentence retrieved by the search means into the second language.
前記検索手段は、前記指標出力手段の出力する前記指標が前記所定の条件に合致していることに応答して、前記入力文との間で所定の算出方式に従い算出される類似度によって最も前記入力文と類似していると判定される文を前記第1のコーパスから検索するための類似文検索手段を含む、請求項1に記載の機械翻訳システム。 In response to the fact that the index output by the index output means matches the predetermined condition, the search means is the most based on the similarity calculated according to a predetermined calculation method with the input sentence. The machine translation system according to claim 1, further comprising a similar sentence search unit for searching the first corpus for a sentence determined to be similar to the input sentence. 前記類似文検索手段は、
前記第1のコーパスに含まれる前記複数の文の各々と、前記入力文との間の共通部分に基づいて定義される類似度を算出するための類似度算出手段と、
前記類似度算出手段により算出された類似度に基づき、最も前記入力文と類似していると判定された文を前記第1のコーパスより抽出するための手段とを含む、請求項2に記載の機械翻訳システム。
The similar sentence search means includes:
Similarity calculating means for calculating a similarity defined based on a common part between each of the plurality of sentences included in the first corpus and the input sentence;
And means for extracting, from the first corpus, a sentence determined to be most similar to the input sentence based on the similarity calculated by the similarity calculation means. Machine translation system.
前記類似度算出手段は、
前記入力文の単語数、前記候補文の単語数、及び前記入力文及び前記候補文に共通する単語数を算出するための単語数算出手段と、
前記入力文と、類似度の算出対象となる候補文との間の前記類似度を、次の式
適合率=(入力文と候補文に共通する単語数)/候補文の単語数
再現率=(入力文と候補文に共通する単語数)/入力文の単語数
で定義される適合率と再現率との双方の関数として算出するための手段を含む、請求項3に記載の機械翻訳システム。
The similarity calculation means includes:
A word number calculating means for calculating the number of words of the input sentence, the number of words of the candidate sentence, and the number of words common to the input sentence and the candidate sentence;
The similarity between the input sentence and the candidate sentence for which the similarity is to be calculated is expressed by the following formula: relevance ratio = (number of words common to the input sentence and candidate sentence) / number of words in the candidate sentence reproduction ratio = 4. The machine translation system according to claim 3, comprising means for calculating as a function of both the precision and the recall defined by (number of words common to input sentence and candidate sentence) / number of words of input sentence. .
前記単語数算出手段は、前記入力文の単語数、前記候補文の単語数、並びに前記入力文及び前記候補文に共通する単語数を、各単語の種類に従って予め定められる重みを乗じて算出するための手段を含む、請求項4に記載の機械翻訳システム。 The word number calculation means calculates the number of words in the input sentence, the number of words in the candidate sentence, and the number of words common to the input sentence and the candidate sentence by multiplying by a predetermined weight according to the type of each word. The machine translation system according to claim 4, comprising means for: 前記第1の機械翻訳手段は、
互いに良好な訳である前記第1の言語の文と前記第2の言語の文とからなる用例を複数個含む2言語用例コーパスと、
所定の類似基準に従って前記入力文との間で最も類似している前記第1の言語の文を含む用例を前記2言語用例コーパスから検索するための手段と、
前記検索するための手段により検索された前記第1の言語の文の対訳である前記第2の言語の文を、前記検索するための手段により検索された前記第1の言語の文及び前記入力文の間の相違に基づき修正することにより、前記入力文の翻訳を行なう用例翻訳手段とを含み、
前記指標出力手段は、前記検索するための手段によって検索された前記第1の言語の文と前記入力文との間で定義される所定の類似度が、予め定める基準を充足しているか否かを判定し、判定結果を前記指標として出力するための手段を含む、請求項1〜請求項5のいずれかに記載の機械翻訳システム。
The first machine translation means includes:
A bilingual example corpus that includes a plurality of examples of sentences of the first language and sentences of the second language that are good translations of each other;
Means for retrieving an example from the bilingual example corpus that includes a sentence in the first language that is most similar to the input sentence according to a predetermined similarity criterion;
The sentence of the first language searched by the means for searching and the input of the sentence of the second language that is a parallel translation of the sentence of the first language searched by the means for searching And example translation means for translating the input sentence by correcting based on the difference between sentences,
The index output means determines whether or not a predetermined similarity defined between the sentence in the first language searched for by the searching means and the input sentence satisfies a predetermined criterion. The machine translation system according to any one of claims 1 to 5, further comprising: means for determining a determination result and outputting a determination result as the index.
コンピュータにより実行されると、当該コンピュータを、請求項1〜請求項6のいずれかに記載の機械翻訳システムとして動作させる、コンピュータプログラム。 A computer program that, when executed by a computer, causes the computer to operate as the machine translation system according to any one of claims 1 to 6.
JP2004182858A 2004-06-21 2004-06-21 Machine translation system and computer program therefor Pending JP2006004366A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004182858A JP2006004366A (en) 2004-06-21 2004-06-21 Machine translation system and computer program therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004182858A JP2006004366A (en) 2004-06-21 2004-06-21 Machine translation system and computer program therefor

Publications (1)

Publication Number Publication Date
JP2006004366A true JP2006004366A (en) 2006-01-05

Family

ID=35772688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004182858A Pending JP2006004366A (en) 2004-06-21 2004-06-21 Machine translation system and computer program therefor

Country Status (1)

Country Link
JP (1) JP2006004366A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2009289219A (en) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd Translation-memory translation device and translation program
JP2011509463A (en) * 2007-12-31 2011-03-24 マスターカード インターナシヨナル インコーポレーテツド Method and system for implementing approximate string matching in a database
JP6227179B1 (en) * 2017-03-29 2017-11-08 株式会社Cygames Translation support system, etc.
JP2018152060A (en) * 2017-03-09 2018-09-27 楽天株式会社 Translation support system, translation support method, and translation support program
JPWO2020026360A1 (en) * 2018-07-31 2021-08-19 株式会社オプティム Computer systems, screen sharing methods and programs
CN114792101A (en) * 2022-06-24 2022-07-26 北京澜舟科技有限公司 Method for generating and translating input information of machine translation and obtaining machine model
US11694172B2 (en) 2012-04-26 2023-07-04 Mastercard International Incorporated Systems and methods for improving error tolerance in processing an input file

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008065395A (en) * 2006-09-04 2008-03-21 Fuji Xerox Co Ltd Translation device, translation method and translation program
JP2011509463A (en) * 2007-12-31 2011-03-24 マスターカード インターナシヨナル インコーポレーテツド Method and system for implementing approximate string matching in a database
JP2009289219A (en) * 2008-05-30 2009-12-10 Fuji Xerox Co Ltd Translation-memory translation device and translation program
US12271873B2 (en) 2012-04-26 2025-04-08 Mastercard International Incorporated Systems and methods for improving error tolerance in processing an input file
US11694172B2 (en) 2012-04-26 2023-07-04 Mastercard International Incorporated Systems and methods for improving error tolerance in processing an input file
JP2018152060A (en) * 2017-03-09 2018-09-27 楽天株式会社 Translation support system, translation support method, and translation support program
CN110678868A (en) * 2017-03-29 2020-01-10 Cy游戏公司 Translation support system, etc.
US11288460B2 (en) 2017-03-29 2022-03-29 Cygames, Inc. Translation support system, etc
CN110678868B (en) * 2017-03-29 2023-01-20 Cy游戏公司 Translation support system, translation support apparatus, translation support method, and computer-readable medium
WO2018181094A1 (en) * 2017-03-29 2018-10-04 株式会社Cygames Translation assistance system and the like
JP6227179B1 (en) * 2017-03-29 2017-11-08 株式会社Cygames Translation support system, etc.
JPWO2020026360A1 (en) * 2018-07-31 2021-08-19 株式会社オプティム Computer systems, screen sharing methods and programs
CN114792101A (en) * 2022-06-24 2022-07-26 北京澜舟科技有限公司 Method for generating and translating input information of machine translation and obtaining machine model

Similar Documents

Publication Publication Date Title
US9367541B1 (en) Terminological adaptation of statistical machine translation system through automatic generation of phrasal contexts for bilingual terms
US9098489B2 (en) Method and system for semantic searching
US8401839B2 (en) Method and apparatus for providing hybrid automatic translation
JP7100747B2 (en) Training data generation method and equipment
US9495358B2 (en) Cross-language text clustering
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
US8812296B2 (en) Method and system for natural language dictionary generation
US8874433B2 (en) Syntax-based augmentation of statistical machine translation phrase tables
WO2010046782A2 (en) Hybrid machine translation
CN113743090A (en) Keyword extraction method and device
JP2018055670A (en) Similar sentence generation method, similar sentence generation program, similar sentence generation apparatus, and similar sentence generation system
EP1503295A1 (en) Text generation method and text generation device
JP2006004366A (en) Machine translation system and computer program therefor
JP5025603B2 (en) Machine translation apparatus, machine translation program, and machine translation method
Alkım et al. Machine translation infrastructure for Turkic languages (MT-Turk)
Tambouratzis et al. Machine Translation with Minimal Reliance on Parallel Resources
JP5500636B2 (en) Phrase table generator and computer program therefor
CN111178060A (en) Korean word segmentation reduction method based on language model
Spasić et al. Unsupervised multi-word term recognition in Welsh
KR101753708B1 (en) Apparatus and method for extracting noun-phrase translation pairs of statistical machine translation
CN120449902B (en) Language translation processing method, device, equipment, medium and product
Samir et al. Training and evaluation of TreeTagger on Amazigh corpus
KR20130102926A (en) Method and apparatus of ellipsis component restoration for chinese machine translation, method and apparatus for chinese machine translation for comprising the same
JP2004326584A (en) Bilingual named entity extraction apparatus and method, bilingual named entity extraction program