[go: up one dir, main page]

JP2006012168A - 翻訳メモリシステムにおいてカバレージおよび質を改良する方法 - Google Patents

翻訳メモリシステムにおいてカバレージおよび質を改良する方法 Download PDF

Info

Publication number
JP2006012168A
JP2006012168A JP2005181281A JP2005181281A JP2006012168A JP 2006012168 A JP2006012168 A JP 2006012168A JP 2005181281 A JP2005181281 A JP 2005181281A JP 2005181281 A JP2005181281 A JP 2005181281A JP 2006012168 A JP2006012168 A JP 2006012168A
Authority
JP
Japan
Prior art keywords
translation
input
sequence
mismatch
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005181281A
Other languages
English (en)
Inventor
Peter J Whitelock
ジェイ. ホワイトロック ピーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of JP2006012168A publication Critical patent/JP2006012168A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 翻訳メモリシステムにおいてカバレージを拡大する好適な方法を提供する。
【解決手段】 基本用例文は、入力文を記憶部からの複数の用例文のそれぞれと比較することに基づいて記憶部から選ばれ(S2)、その対の翻訳は翻訳基礎として用いられる。入力文の部分が基本用例文の対応部分と異なることが識別され(S3)、これら部分はそれぞれ入力不一致部分と基本用例不一致部分と指定される。基本用例不一致部分とアラインされる翻訳基礎の部分が位置決めされる(S4)。入力不一致部分を用いて一組の補助の用例文を記憶部から選択する(S5)。入力不一致部分に対応する可能性のある翻訳の選択候補がその一組の補助の用例文から決定される(S6)。翻訳が所定の選択アルゴリズムに基づいて選択候補から選択され(S7)、選択された翻訳を用いて以前に位置決めした翻訳基礎の部分を置換する(S9)。置換結果は出力文の基礎として用いられる。
【選択図】 図2

Description

本発明は、第1のフォーマットのデータ項目の入力シーケンスを第2のフォーマットのデータ項目の出力シーケンスに翻訳する方法と装置とに関する。特に、本発明はソース言語のセンテンスをターゲット言語のセンテンスに翻訳することに関するが、この限りではない。
既存の翻訳された材料の貯蔵所を用いて翻訳生産を援助または自動化する機械翻訳、または機械補助による翻訳の分野内で種々の技術が知られている。翻訳メモリ(Translation Memory:TM)システムは、各センテンスが関連するターゲット言語のセンテンスと一組になっているソース言語のセンテンスの貯蔵所を有しており、入力センテンスと構造および内容が非常に近いセンテンスを、翻訳者に手動でポストエディティングするよう提示される関連のターゲット言語のセンテンスと貯蔵所に位置決めすることによって動作する。EBMT(Example−Based Machine Translation)システムは、完全に自動的な翻訳を試みており、入力センテンスをフラグメントに分割し、各フラグメントの翻訳を貯蔵所で見つけ、これらフラグメントの翻訳を対象センテンスに組み合わせることによって動作する。
翻訳メモリシステムは非常に正確であるが、適用範囲が限られる傾向にある。入力センテンスと取り出されたセンテンスとの間の相違は通常、語順、形態的な形式またはスペリングに置ける僅かな変化に限られる。多くの場合、ペア用例の対象側には変更されず、ただ単に最も一致するセンテンスとして翻訳者に提示される。
より高度なTMシステムでは、対象用例のあるエレメントがその“翻訳”と入れ替えられ得る。しかしながら、そのようなエレメントは、WO99/57651で説明されるように「プレーサブル」に限られる。この状況でプレーサブルとは、翻訳を必要としないが、コピーされ得、またはフォーマットがターゲット言語または局所性基準に容易に適応され得る名称または数といったようなエレメントである。
EBMTシステムは、はるかに広い適用範囲を有しているが、正確性がより低い。これは、完全自動翻訳の他の技術のように、多量の言語的知識または統計的知識をシステムに組み入れることに依存しており、徹底的な方法で収集およびコード化することが困難である。そのような知識は、EBMTシステムが入力センテンスを論理一貫したフラグメントに分割し、その後続いて、翻訳されたフラグメントを組み合わせることによってターゲット言語の文法に従った適格なセンテンスにすることができるために必要である。
上記機械補助による翻訳システムは、ソース言語入力を貯蔵所のソース言語側の用例に対してインデックスを付けて一致させ、ソース言語側の用例とターゲット言語側の用例との間の単語をアライメントするよく知られた技術を利用する。
一致させる技術は、エディットディスタンスの使用について説明するGR1002453「Intelligent device for retrieving multilingual texts」と、US6,161,083「Example−based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation」とにおいて開示される。文献「Example−Based Machine Translation in the Pangloss System」、Brown,R.D.、Proceedings of the 16th Coling、Copenhagen、1996と、US2003/0125928「Method for retrieving similar sentence in translation aid system」と、US2004/0002849「System and method for automatic retrieval of example sentences based upon weighted editing distance」とは、二段階スキームの使用について説明する。この二段階スキームでは、標準情報検索技術に基づく第1の段階が小型セットの用例を決定し、この小型セットの用例はその後第2の段階において、エディットディスタンスまたは同類のものに基づいてより費用のかかる類似度計算を受ける。他のインデックスを付ける技術は、インデックス付けに文字n−gramsを使用することについて説明するUS5,724,593「Machine assisted translation tools」と、US6,473,729「Word phrase translation using a phrase index」とにおいて開示される。
1つ以上の一致用例が発見されると、それらの可能性のある翻訳を決定することが必要である。完全な用例が一致する場合、その翻訳はまさにそれと組になっているターゲット言語ストリングである。しかし、一致が部分的でしかない場合、ソース言語ストリングのどの部分がターゲット言語ストリングのどの部分とアライメントするのかを判断することが必要であり、このとき、1つの言語における各一致部分は他の言語における対応する一致部分と完全に一致し、1つの言語における各不一致部分は他の言語においてどの部分にも全く一致しない。
単語および/または句を二言語使用のセンテンスペアにアライメントする技術は、文献で広く記載されている。US5,659,765「Machine Translation System」は、ユーザがそのようなアライメントを特定することを可能にするインターフェースについて説明する。US5,907,821「Method of computer−based automatic extraction of translation pairs of words from a bilingual text」は、共起頻度に基づく統計的方法について説明する。US6,345,244「System, method, and product for dynamically aligning translations in a translation−memory system」は、翻訳中の単語間で共有する特徴に基づく方法について説明する。US6,598,015「Context based computer−assisted language translation」は、ペア間の共通形式情報を使用することについて説明する。US6,535,842「Automatic bilingual translation memory system」は、全ての大きさの句にアライメントを生成するアライメントの階層型コンビネーションについて説明する。アライメントは、従来通り所与の入力センテンスを処理する間、または処理する前にオフラインの間に行われる。US2004/0002848「Example based machine translation system」で説明されているように、アライメントはまた、オフライン単語アライメントとより大きな句のオンラインアライメントとの二段階処理であり得る。
EBMTシステムは数ある中で、Proceedings of 13th Coling、Helsinki(1990年)のSatoおよびNagao著「Towards Memory−Based Translation」、Proceedings of 4th TMI、Montreal(1992年)のMaruyamaおよびWatanabe著「Tree Cover Search Algorithm for EBMT」、US6,161,083「Example−based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation」、Proceedings of the 16th Coling、Copenhagen(1996年)のBrown,R.D.著「Example−Based Machine Translation in the Pangloss System」、およびUS2004/0002848で開示される。これらシステムは全て、マッチングフェーズとアライメントフェーズとを用いており、TMシステムとは対照的に、入力されたもののフラグメントのみに一致するものの各用例をいくつか決定し得る。これらは、センテンスをフラグメントに分割することに関する問題、各フラグメントの最善の翻訳を選ぶことに関する問題、およびフラグメントの翻訳を首尾一貫したターゲット言語テキストに組み合わせることに関する問題への種々のアプローチを開示する。
フラグメントを決定し組み合わせることへのアプローチが主に2つある。一般的に言って、英語と日本語とのように構造的に異なる言語(すなわち、非常に異なる語順を有する言語)間のEBMTに関する従来技術では(前に参照したSatoおよびNagao、MaruyamaおよびWatanabe、およびUS6,161,083を参照)、フラグメント化と結合とは、フルシンタックス分析と、用例のソース側および対象側の間のツリー構造アライメントとに基づく。英語およびフランス語(前に参照したR.D.Brownの論文を参照)または英語および中国語(US2004/0002848を参照)のように同様の語順を有する言語間のEBMTでは、フラグメントの翻訳はソース言語の語順に従って結合され得る。
各フラグメントの最善の翻訳を選ぶことに関して、これはそのフラグメントに最も一致する用例のアライメントであると通常思われている。SatoおよびNagao(前に参照した)とUS2004/0002848とでは、最善の用例は入力したものとフラグメントを含む全体の用例との間の類似点に基づいて決定される。R.D.Brownの論文(前に参照した)は、「翻訳確率性は単に、特定のソース言語の句に上手くいく全てのアライメントから各異なる代替的な翻訳に遭遇する回数の割合であり得る」方法を開示する。
入力センテンスと格納された用例との間で異なり得るエレメントのタイプの範囲を広げることによって翻訳メモリシステムの適用範囲を拡充することが所望される。入力センテンスと格納されたセンテンスとは、含まれるセンテンスの適格性を変えることなく、代用され得るエレメントが異なり得ることが所望される。代用可能なエレメントを翻訳することが必要である場合、そのようなエレメントが異なる文脈内において有し得る代替翻訳から選ぶ方法を提供することが所望される。また、任意の代替可能なエレメントの文脈的に正確な翻訳が、広範囲にわたる言語的知識または深い言語的分析を必要とせずに決定され得る方法を提供することも所望される。
特開平4−160473号公報 特開平10−116286号公報 特開2002−278963号公報
本発明の第1の局面に従うと、第2のフォーマットの翻訳とそれぞれ対になる第1のフォーマットの複数の用例シーケンスを備える記憶部を用いて第1のフォーマットのデータ項目の入力シーケンスを第2のフォーマットのデータ項目の出力シーケンスに翻訳する方法が開示されており、この方法は、(a)入力シーケンスを記憶部からの複数の用例シーケンスのそれぞれと比較することに基づいて記憶部から基本用例シーケンスを選び、その対の翻訳を翻訳基礎として用いるステップと、(b)入力シーケンスの一部分が基本用例シーケンスの対応する一部分と異なることを識別するステップであって、これら部分はそれぞれ入力不一致部分および基本用例不一致部分と指定されるステップと、(c)翻訳基礎の一部分を基本用例不一致部分に応じて位置決めするステップと、(d)入力不一致部分を用いて記憶部から一組の補助の用例シーケンスを選択するステップと、(e)一組の補助の用例シーケンスから入力不一致部分に対応する可能性のある翻訳の選択候補を決定するステップと、(f)所定の選択アルゴリズムに基づいて選択候補から翻訳を選択するステップと、選択された翻訳を用いてステップ(c)において位置決めされた部分を置換するステップと、(g)ステップ(f)の結果をデータ項目の出力シーケンスの基礎として用いるステップとを包含する。
ステップ(b)からステップ(f)は、入力シーケンスで識別される複数の入力不一致部分に対して繰り返され得る。ステップ(b)からステップ(f)は、入力シーケンスで識別される不一致部分ごとに対して繰り返され得る。ステップ(a)で選ばれる基本用例シーケンスは、近接度に関する所定の尺度に従って入力シーケンスに最も近接して一致する記憶部からの用例シーケンスであり得る。
ステップ(b)で識別される基本用例不一致部分と、ステップ(c)で位置決めされるその対応する翻訳基礎部分とは、2つの隣接するデータ項目の間に位置づけられる空シーケンスであり得、その結果、ステップ(f)の置換するステップは、効率的に位置へ挿入するステップである。
ステップ(f)において、選択された翻訳の形態的変数を用いて文脈に応じてステップ(c)で位置決めされる部分を置換し得る。
さらなる処理が、データ項目の出力シーケンスとして用いる前にステップ(f)から生じるシーケンスで行われ得る。
データ項目は単語であり得る。第1のフォーマットと第2のフォーマットとはそれぞれ第1の言語と第2の言語とであり得る。データ項目の入力シーケンスは、文法的に完全な句を形成し得る。データ項目の入力シーケンスはセンテンスを形成し得る。
ステップ(c)において、部分は、基本用例シーケンス部分とその対の翻訳のそれぞれの部分との間のアライメントを用いて位置決めされ得る。アライメントは予め定められ得る。
ステップ(d)は、用例シーケンスにおける少なくとも1つのデータ項目が入力不一致部分における少なくとも1つのデータ項目に一致または対応する場合、その組に含めるための用例シーケンスを選択するステップを包含し得る。
ステップ(e)は、組の補助の用例のために、入力不一致部分に対応する補助の用例の一部分を識別し、補助の用例と対をなす翻訳の対応部分を用いて選択候補の可能性のある翻訳のうち1つを形成するステップを包含し得る。
所定の選択アルゴリズムは、選択候補の少なくとも1つの翻訳のそれぞれについて、翻訳が導かれる少なくとも1つの補助の用例に基づいて決定される選好値を翻訳に割り当てるステップを包含し得る。
選好値は、入力シーケンスと少なくとも1つの補助の用例のそれぞれとの比較に基づいて決定され得る。
選好値は、重みを比較またはそのような比較のそれぞれに割り当て、かつ、割り当てられた重みを所定の方法で組み合わせることによって決定され得る。
重みは、データ項目の数または比較中の入力シーケンスと補助の用例とに共通のデータ項目の変数に基づいて割り当てられ得る。
重みは、入力シーケンスと補助の用例とに共通のデータ項目に関する1つ以上の下記の性質:共通のデータ項目の順繰りの位置、所定のコーパスの共通のデータ項目の頻度、入力不一致部分と共通のデータ項目の共起頻度、および共通のデータ項目の頻度から予測されるものからの共起頻度の逸脱、に基づいて割り当てられ得る。
重みは、不一致部分に対して共通のデータ項目の順繰りの位置に基づいて割り当てられ得る。
割り当てられた重みは加算によって総合され得る。
1つの例において、入力不一致部分におけるデータ項目は比較に含まれない。
選好値は翻訳基礎と、少なくとも1つの補助の用例のそれぞれと対である翻訳との比較に基づいて決定され得る。
所定の選択アルゴリズムは、割り当てられた選好値に基づいて選択候補から翻訳を選択するステップをさらに包含し得る。
選好値は、選択候補における翻訳または各翻訳に割り当てられ得る。
選好値は、翻訳が導かれる補助の用例または各補助の用例に基づいて決定され得る。
所定の選択アルゴリズムは、手動介入が選択された翻訳に影響を与えることを可能にし得る。
適切な翻訳がステップ(f)で選択され得ない場合、入力不一致部分を複数の入力不一致部分に再分割し、対応するそれぞれの基本用例不一致部分を識別し、かつ、不一致部分毎にステップ(c)からステップ(f)を行うステップを包含し得る。
適切な基本用例がステップ(a)で見つけられない場合、入力シーケンスを複数の入力サブシーケンスに再分割し、そのようなサブシーケンス毎にステップ(a)からステップ(f)を行い、かつ、ステップ(f)からの結果を組み合わせることによりステップ(g)で出力シーケンスを生成するステップを包含し得る。
記憶部は、ステップ(a)とステップ(d)とでそれぞれ用いるための別個の記憶部を備え得る。
本発明の第2の局面に従うと、第2のフォーマットの翻訳とそれぞれ対になる第1のフォーマットの複数の用例シーケンスを備える記憶部を用いて第1のフォーマットのデータ項目の入力シーケンスを第2のフォーマットのデータ項目の出力シーケンスに翻訳する装置であって、入力シーケンスを記憶部からの複数の用例シーケンスのそれぞれと比較することに基づいて記憶部から基本用例シーケンスを選び、その対の翻訳を翻訳基礎として用いる手段と、入力シーケンスの一部分が基本用例シーケンスの対応する一部分と異なることを識別する手段であって、これら部分はそれぞれ入力不一致部分および基本用例不一致部分と指定される手段と、翻訳基礎の一部分を基本用例不一致部分に応じて位置決めする手段と、入力不一致部分を用いて記憶部から一組の補助の用例シーケンスを選択する手段と、一組の補助の用例シーケンスから入力不一致部分に対応する可能性のある翻訳の選択候補を決定する手段と、所定の選択アルゴリズムに基づいて選択候補から翻訳を選択し、かつ、選択された翻訳を用いて位置決めする手段によって位置決めされた部分を置換する手段と、選択する手段の結果をデータ項目の出力シーケンスの基礎として用いる手段とを備える装置が提供される。
本発明の第3の局面に従って、本発明の第2の局面に従う装置を備える翻訳メモリシステムが提供される。
本発明の第4の局面に従って、コンピュータ上で実行されると、コンピュータに本発明の第1の局面に従う方法を実行させるコンピュータプログラムが提供される。
本発明の第5の局面に従って、コンピュータにロードされると、コンピュータが本発明の第2の局面に従う装置または第3の局面に従うシステムになることを引き起こすコンピュータプログラムが提供される。
コンピュータプログラムはキャリア媒体上で実行され得る。キャリア媒体は伝送媒体であり得る。キャリア媒体は記憶媒体であり得る。
ここで、例として添付の図面が参照される。
(要旨)
ターゲット言語の翻訳とペアを組む各複数のソース言語の用例センテンスを備える記憶部を用いて、ソース言語の入力センテンスをターゲット言語の出力センテンスに翻訳する方法が開示される。基本用例センテンスは、入力センテンスを記憶部からの複数の用例センテンスのそれぞれと比較することに基づいて記憶部から選ばれ、その対の翻訳は翻訳基礎として用いられる(S2)。入力センテンスの部分が基本用例センテンスの対応部分と異なることが識別され(S3)、これら部分はそれぞれ入力不一致部分と基本用例不一致部分と指定される。基本用例不一致部分とアラインされる翻訳基礎の部分が位置決めされる(S4)。入力不一致部分を用いて、一組の補助の用例センテンスを記憶部から選択する(S5)。入力不一致部分に対応する可能性のある翻訳の選択候補が、その一組の補助の用例センテンスから決定される(S6)。翻訳が所定の選択アルゴリズムに基づいて選択候補から選択され(S7)、選択された翻訳を用いて以前に位置決めした翻訳基礎の部分を置換する(S9)。この置換の結果は出力センテンスの基礎として用いられる。この方法はまたデータ項目のシーケンスを翻訳することにも適用可能である。
ソース言語の入力センテンスをターゲット言語の出力センテンスに翻訳する本発明を具現化する方法と装置とがここで説明される。図1は、本発明を具現化する翻訳装置1のモジュール構造を説明する概略図であり、図2は、本実施形態における翻訳装置1によって行われるステップを示すフローチャートである。
翻訳装置1は、ソース言語の入力センテンスを受け取る入力部3と、ターゲット言語に翻訳された出力センテンスを出力する出力部15とを備える。以下に説明されるように、翻訳は、ターゲット言語に翻訳されたものとそれぞれがペアを組む複数のソース言語の用例センテンスを備える記憶部17を参照して行われる。翻訳装置1はまた、入力部3と出力部15との間に順序通りに配置された見出し語別分類(lemmatiser)/タグ付け(tagger)部5、取出部7、対応部(corresponder portion)9、翻訳計画部11および翻訳部13を備える。翻訳装置1はまた、一組の索引21を維持する索引作成部19と、一組のアライメント25を維持する単語整列(aligner)部24とを、以下でさらに説明するように、備える。
ステップS1で、ソース言語のシーケンスが入力部3に導入され、見出し語分類/タグ付け部5に移動し、ここでセンテンスを分析し、その分析に基づいて様々な前処理作業を行う。ソース言語がスペースによって単語を区分しない場合、入力センテンスは分節化を受ける。入力センテンスはまたこの段階で形態素解析を受ける。形態素解析は各分節にその分節(例えば、名詞、過去分詞、従属接続詞)に関する1つ以上の適当な品詞を割り当てるタグ付けと、各単語の引用形式または辞書形式を決定することを含む。この局面の終わりに、入力センテンスは、単語、引用形式または見出し語(後者は、辞書形式と品詞との組み合わせである)またはそれらを組み合わせたものを備え得るクエリー用語のリストに変換されている。
ステップS2で、基本用例が、入力センテンスを記憶部17からの複数の用例センテンスのそれぞれと比較することによって記憶部17から選ばれ、その対の翻訳は翻訳基礎として以下に説明されるプロセスの後のステップで用いられる。基本用例が決定される方法は、本発明の実施形態の全体的な動作にとって重要ではないが、本実施形態では二段階スキームが採用されており、ステップS2の二段階はそれぞれ検索部7と対応部9とによって行われる。
前述した従来技術の二段階スキームとは違って、本実施形態の第1の段階は、ブール(boolean)検索スキームを用いて実行される。US2004/0002848における開示と区別されるように、所与の文書における用語の頻度である用語頻度(Term Frequency(TF))と、用語が現れる文書数の逆の単位である逆文書頻度(Inverse Document Frequency:IDF)といった概念は使用されない。TFは通常不要である。なぜならば、検索単位が通常非常に小さいので、TFは終止語を除いてめったに単一性と異ならないからである。所与の入力用語のTFが特定例において単一性を越えるときでさえ、これは通常、類似度をより良く示すことよりもむしろ不要に複雑性を生み出すものである。IDFはまた通常基本用例を決定する点において重要ではない。なぜならば、(同一の構成で)高頻度用語を共有するセンテンスはIDFによって強調される低頻度用語を共有するセンテンスと同じくらい翻訳に良い基礎である可能性が高いからである。
ステップS2の基本用例を選ぶ第1の段階において、検索部7は入力センテンスのクエリー毎にそのクエリー用語を含んでいる記憶部17における用例のリストを特定する索引21を調べる。このリストは、ポスティングリストと呼ばれる。索引21は索引作成部19から生成され、かつ維持される。終止語と呼ばれるいくつかの用語は、あまりに多くの用例で現れるので索引用語として有益ではなく、この段階で無視され得る。任意のポスティングリストに現れる全ての用例の集合が決定され、これら用例のそれぞれに対して用例が現れるポスティングリストはどれか、すなわち、用例が含むクエリー用語はどれかが決定される。入力クエリー用語のサブセットからそのサブセットを含む用例をマッピングするデータ構造が構成される。このデータ構造は、「パワーセット」データ構造と呼ばれる。
図3は、入力句「electronics engineering degree」用に構成されたパワーセットデータ構造を説明する。パワーセットデータ構造は、多数のパワーセットエレメント23−1〜23−7を備えており、これらパワーセットエレメントはそれぞれのポスティングリスト25−1〜25−7にリンクされている。パワーセットエレメントは、入力句に現れる1つ以上の単語のサブセットを特定し、その関連するポスティングリストは、任意の順序で、かつ、必ずしも隣接するとは限らない順序でパワーセットエレメントにおいて特定された全ての単語を含む記憶部17の用例全てのリストを含む。
例えば、図3のパワーセット23−1は、1つの単語「electronics」を含み、その関連するポスティングリスト25−1は、単語「electronics」を含む記憶部17にある全ての用例のリストを含む。パワーセットエレメント23−5は、単語「electronics」と「engineering」とを含み、その関連するポスティングリスト25−5は、(これら2つの単語がその順序で隣接して現れるかどうかにかかわらず)単語「electronincs」と単語「engineering」とを備える記憶部17にある全ての用例リストを含む。パワーセットエレメント23−7は、単語「electronics」、「engineering」および「degree」を含み、その関連するポスティングリスト25−7は、(これら3つの単語がその順序で隣接して現れるかどうかにかかわらず)単語「electronics」、「engineering」および「degree」のそれぞれを備える記憶部17にある全ての用例リストを含む。
さらに図3に図示されるものは、単語「electronics」を含むパワーセットエレメントのサブセット27である。以下でより詳細に説明されるように、このサブセットは、単語「electronics」の翻訳を決定しようと試みるときに検査される。一般的に、パワーセットエレメントにあるその他の単語(もしもある場合)は文脈用語として働き、パワーセットエレメントが大きければ大きいほど、最終翻訳への影響度がより大きくなる。
最後にステップS2の第1の段階で、多数の用例がその後、入力センテンスのパワーセットデータ構造を利用して、入力センテンスへの類似度をより詳細に計算するために選択される。クエリー用語の最も大きいセット(すなわち、最も大きいパワーセットエレメント)から始まって、関連するポスティングリストにある用例はより詳細な分析のために選択される。クエリー用語のさらに小さいサブセット(すなわち、さらに小さいパワーセットエレメント)は、より詳細な分析のために選択される用例の数がある閾値を越えるまで、またはサブセットの濃度がある閾値を下回るまで検討される。この段階で、サブセットはそれらの濃度によってのみ順序付けられるのであって、IDFといった他の値によっては順序付けられない。
選択された用例のそれぞれはその後ステップS2の第2の段階に移動し、これは対応部9によって行われる。受け取られた各用例に対して、対応部9は入力されたものと用例との間の最長共通サブシーケンス(LCS)を計算する。記号(ここで終止語を含む用語である)の2つのストリングのLCSは必ずしも隣接するとは限らないが、2つのストリングに同一の順序で生じる記号の最長シーケンスである(例えば、Gusfeld、「Algorithms on Strings, Trees and Sequences」、CUP 1997年を参照)。LCSは、入力センテンスと用例センテンスとの交代性「一致」ストレッチおよび「不一致」ストレッチのシーケンスを規定しており、1つのセンテンスにおける各一致ストレッチは他方のセンテンスにおける一致ストレッチとペアを組み、同様に1つのセンテンスにおける各不一致センテンスは他方のセンテンスにおける不一致ストレッチとペアを組む。
従って、従来技術と対照的に類似度を決定する第2の段階はエディットディスタンスに基づくのではなくLCSの計算に基づく。エディットディスタンスとストリング類似度の他の測定基準に対するLCSの1つの利点は、LCSは入力ストリングと用例ストリングとの間の対応を規定しており、対応は2つのストリングにおける対のストレッチであり、その結果、両方のストリングはそれらの長さに沿って代替一致/不一致ストレッチに分割される点である。対応とはよく文献でアライメントと呼ばれるが、ここでは異なる言語のセテンス間のアライメントと区別するために異なる用語が用いられる。空ストリングは、どちら側にも現れ得る。
例における対応は図4に示されており、ここでは入力センテンスは「Mr.Sharp was awarded a degree from Oxford University」であり、選択された用例センテンスは「He was awarded a doctorate from Cambridge University in 1972」である。一致ストレッチは、「was awarded a」、「from」および「University」であり、その他の部分は不一致ストレッチ(図4において29−1〜29−4とラベルされる)である。不一致ストレッチ間の対応は図4に示される。
交代性一致ストレッチおよび不一致ストレッチのシーケンスはその後2つのセンテンスの類似度を数量化する採点機能に入力される。1つの可能性のある採点機能は、長い一致ストレッチと短い不一致ストレッチとを好むのであるが、以下の通りである。
Figure 2006012168
ここで、
Qは入力センテンスであり、
Xは用例センテンスであり、
mは対応における一致ストレッチの数であり、
はi回目の一致ストレッチであり、
uは対応における不一致ストレッチの数であり、
はj回目の入力不一致ストレッチあり、および
はj回目の用例不一致ストレッチである。
そのような測定基準はまた、対応の様々な特徴を支持するように変更され得る。例えば、用語もまた不一致ストレッチの両側が同じ長さである場合、より高い類似度スコアを提供する前記の式に含まれ得る。類似度の計算が入力センテンスと用例センテンスとの言語的内容に対してより敏感になり得る方法もまたいくつかある。統語構造で類似する不一致ストレッチを支持する用語が含まれ得る。クエリー用語が見出し語である場合、不一致ストレッチは品詞シーケンスの類似度に対して比較され得る。類語辞典が利用可能な場合、意味上の類似度または近似性の指標もまた含まれ得る。
十分に類似する用例が見つからない場合、例えば、類似度スコアが用例センテンスのいずれに対してもある閾値を超えないところで、システムは答えをリターンし得ない。インタラクティブな状況(翻訳メモリシステムを用いるのに典型的な状況であるように)において、または他の翻訳モジュールが翻訳を提供し得るマルチエンジンの状況において、これは許容範囲の応答である。あるいは、システムは独立して翻訳され得る部分に入力されたものを分割するように様々な作業に適用し得る。例えば、最初と最後の不一致ストレッチが除かれる(「文末なし」の変化)前記の類似度の式の僅かな変化は、独立して翻訳されて、EBMT技術を用いて結合され得る局所的に類似する用例の検出を可能にする。
最高点の用例センテンスが選択され、前述したように、その対のターゲット言語翻訳はそれぞれ翻訳計画部11と翻訳部13とによって行われる翻訳計画と翻訳とのための翻訳基礎として用いられ、図2のステップS3〜S9を参照しながらここで説明される。
ステップS3で、翻訳計画部11は基本用例センテンスと対応部分が異なる入力センテンスの部分を識別し、これら部分はそれぞれ入力不一致ストレッチと基本用例不一致ストレッチと呼ばれる。本実施形態では、入力および基本用例の不一致ストレッチを識別するタスクは、前記したように対応部9によって既に行われているので、このタスクは翻訳計画部11によって繰り返される必要はない。従って、ステップS3では、翻訳計画部11は、対応部9による前の分析に基づいて入力不一致ストレッチと対応する基本用例不一致ストレッチとを識別する。2つ以上の不一致ストレッチが対応部9によってこれまでに識別されている場合、1つのそのような不一致ストレッチが現在の反復(iteration)に選択されており、後の反復でさらなる不一致ストレッチに移動する。
ステップS4では、翻訳計画部11は基本用例不一致ストレッチにアラインされるステップS2で選択されたターゲット言語の翻訳基礎の部分を位置決めする。翻訳計画部11は、翻訳計画に、この部分は入力不一致ストレッチの翻訳によって置換されるべきであることを記録する。単語整列部24がソース言語の単語または句をターゲット言語センテンスの単語または句とアラインする方法は重要ではなく、これを達成する技術は前に参照した従来技術で容易に見つけることができる。用例が単語よりも高い単位でアラインされる程度が大きければ大きいほど、より正確で適用範囲が向上する。
この段階で、不一致ストレッチは同一のアライメントに生じる任意の隣接する一致区分を含むように広げられる。例えば、入力が「railway strike」であり、基本用例が1つの日本語の単語「ゼネスト」とアラインされる「general strike」を含む場合、後者は不一致「railway」と一致「strike」との両方の翻訳に置換されるに違いない。従って、ステップS4は、ステップS4のアライメント分析に従ってステップS3で識別された入力不一致ストレッチおよび基本用例不一致ストレッチを修正するようにステップS3と連携して効率的に動作する。
翻訳計画部11はまた、より複雑な場合または特別な場合に取られるアクションを決定することを担っており、どの知識が利用可能であるか、どの出力が特定の用法(例えば、インタラクティブTM、マルチエンジン等)に適切であるか、および他のパラメータに基づいて働くように構成され得る。
ステップS8を参照しながら以下に記載するように、ステップS3とステップS4とは不一致ストレッチ毎に繰り返され、これは結果として、入力不一致ストレッチとアラインされる翻訳基礎の全ての部分がどのように処理されることにより最終翻訳を生成するのかを設計する完全な翻訳計画になる。そのような完全な翻訳計画は図5で説明されており、これは図4を参照しながら前述した例に基づく。図5に示されるものは、それぞれ入力センテンスと基本用例センテンスとの4つの不一致ストレッチ29−1〜29−4に対応する翻訳基礎の4つの部分31−1〜31−4である。翻訳計画部11によって作成される翻訳計画は、翻訳基礎の部分31−1(基本用例不一致ストレッチ29−1からの「he」に対応する「彼」)は、対応する入力不一致ストレッチ29−1からの「Mr. Sharp」の翻訳に置換されるべきである点、翻訳基礎の部分31−2(基本用例不一致ストレッチ29−2からの「doctorate」に対応する「博士号」)は、対応する入力不一致ストレッチ29−2からの「degree」の翻訳に置換されるべきである点、翻訳基礎の部分31−3(基本用例不一致ストレッチ29−3からの「Cambridge」に対応する「ケンブリッジ」)は、対応する入力不一致ストレッチ29−3からの「Oxford」の翻訳に置換されるべきである点、および翻訳基礎の部分31−4(基本用例不一致ストレッチ29−4からの「in 1972」に対応する「1972年」)は、対応する入力不一致ストレッチ29−4が空なので削除されるべきである点を示す。
ステップS3とステップS4とは、翻訳部13による翻訳に移動する前に不一致ストレッチ毎に繰り返されることにより図面によって例示されるように包括的な翻訳計画を作成し得るが、本実施形態では、1つの不一致ストレッチに関する「部分的な」翻訳計画が反復毎にステップS3およびステップS4において作成され、その後即座に翻訳部13に移動しステップS5からステップS7までの処理を受ける(以下で説明される)。従って、図5は4つのそのような「部分的な」翻訳計画を示す。
翻訳部13に移動した特定の部分的翻訳計画に対して、入力不一致ストレッチ全体への翻訳が最初に捜し求められ、見つからない場合、ストレッチはサブセットに分割されて、これらサブセットへの翻訳が独立的に捜し求められ、順々に行われる。便宜上、現在翻訳されている入力不一致ストレッチのサブセットは、ここでは「フォーカスストレッチ」と呼ばれ、これは1つ以上の「フォーカス用語」を含む。「フォーカスストレッチ」は、入力不一致ストレッチ全体であり得る。
ステップS5で、翻訳部13は入力フォーカスストレッチを用いて、記憶部17からの一組の「補助の用例」センテンスを選択する。補助の用例は、フォーカス用語のうち1つ以上を含む記憶部17における用例センテンスである。フォーカス用語を含む記憶部17からの用例センテンスは既に、ステップS2について前述した初期の検索段階の間に決定されており、図3を参照しながら説明されたようにパワーセットデータ構造に反映されている。またこれは、図6のステップT1を参照しながら以下でさらに説明される。
ステップS6で、入力フォーカスストレッチに対応する可能性のある翻訳Tの選択候補は、補助の用例センテンスのセットから(例えば、フォーカスストレッチと補助の用例との間の対応と、補助の用例とその関連するターゲット言語翻訳との間のアライメントとから)決定される。ステップS7で、翻訳が(以下で説明される)所定の選択アルゴリズムに基づいて翻訳Tの選択候補から選択され、選択された翻訳はステップS9で、ステップS4で位置決めされた部分を置換するのに用いられる。
ステップS5からステップS7までに関するさらなる詳細は、図6のフローチャートを参照しながらここで提供される。
図6のステップT1はステップS5に対応し、フォーカスストレッチのフォーカス用語FTを含むパワーセットエレメントを取り出すことを含む。例えば、図3に図示される例を参照して、フォーカスストレッチが1つのフォーカス用語「electronics」を備える場合、パワーセットエレメント23−1、23−5、23−6および23−7のサブセット27が選択され、一組の補助の用例センテンスが関連するポスティングリスト25−1、25−5、25−6および25−7で定義される。ステップS6を参照しながら前述したように、これら補助の用例センテンスは可能性のある翻訳Tの選択候補を定義する。
選択候補の翻訳Tは、入力センテンスのフォーカス用語の翻訳であり、これは補助の用例とその関連するターゲット言語翻訳との間のアライメントと一緒に、フォーカスストレッチと補助の用例との間の対応から決定される。例えば、フォーカス用語「atmosphere」は、地球を取り囲むものという意味の単語「atomosphere」を含むいくつかの補助の用例と、気分または感情という意味のその単語を含むいくつか他の補助の用例とを結果として得る。これら2つの意味はおそらく異なる翻訳と関連付けられ、その結果、フォーカス用語「atmosphere」に対する翻訳Tの選択候補になる。選択候補の翻訳は「補助の翻訳」と呼ばれ得る。
ステップS7を参照しながら前述した所定の選択アルゴリズムは、ここで説明される。アルゴリズムの全体の説明が最初に提示され、次に、図6に示されたステップを参照しながら本実施形態においてアルゴリズムがどのように実行されるのかに関してより詳細に説明される。
補助の用例センテンスの中にはクエリーからの他の用語を含み得るものがあり、この用語はベスト例で現れ、基礎に翻訳を有する。入力センテンスと補助の用例センテンスとの間に共通の索引用語が現れることにより、その補助の用例センテンスと関連する翻訳が正しいという証拠がさらに提供され、入力センテンスのそれら索引用語が翻訳されるべきものでないときでさえ、さらなる証拠が提供される。そのような索引用語は入力センテンスにおいて翻訳されるフォーカスストレッチとは非常に関係の薄いものでさえあり得る。
そのような証拠に与えられるべき重みは、索引用語がどのくらい一般的であるか、フォーカスストレッチの翻訳されるべき材料に対して、索引用語がセンテンスにおいてどのくらい近いかという組み合わせによって決まる。例えば、(公の活動または言語的現象としての交代性の意味を有する)単語「speech(講演、話すこと)」を翻訳することを試みるとき、共通の単語「make」は公の活動の意味のみが非常に近似していることを示す良い指標である。その一方で、「phonetic(音声の)」といった珍しい単語は、非常に遠く離れているときでさえ他方の意味を示すさらに良い指標である。しかし特定の証拠はいずれも誤解を招くおそれがあり得る(「彼の講演は音声学について言及した」を考慮する)。最も正確にするためには、複数の証拠源を組み合わせるべきである。
本実施形態では、フォーカス用語FTを有する特定のフォーカスストレッチに対して、それらフォーカス用語FTの特定の翻訳Tへの証拠の組み合わせが、そのターゲット言語側の翻訳Tを描写する1つ以上の補助の用例のそれぞれに重みを割り当て、かつ、それら重みを加算することによって得られる。
Figure 2006012168
ここで、
良さ(T,FT,s)は、入力ストリングのフォーカス用語FTへの翻訳Tの良さを測るものであり、
S(T)は、ターゲット言語側の翻訳Tを有する用例のサブセットであり、および
重み(s,s,FT)は、フォーカス用語FTについて用例sと入力sに与えられる重みである。
重みはそれ自体、入力センテンスと用例のソース言語側との両方におけるフォーカス用語に関する文脈用語の分布機能である。
Figure 2006012168
ここで、
C(s,s)は、入力と用例とで共有する文脈用語のセットであり、
用語_重み(ct,FT,s)は、以下のように、FTについてストリングsにある文脈用語「ct」から導かれる重みである:
用語_重み(ct,FT,s)=d(ct,FT,s)3/(k *(log(freq(ct)/N)+k ))
ここで、
用語_重み(ct,FT,s)は、ストリング「s」のフォーカス用語FTの最も近いものからの距離d(ct,FT,s)単語位置における文脈用語「ct」の重みであり、
freq(ct)は、N文書のコレクションにおける文脈用語「ct」の頻度であり、および
およびkは、用語―重みを微調整する重み要因である。
任意の頻度の文脈用語は、フォーカス用語に隣接する重み2を有するが、これは高頻度用語への距離とともにはるか急速に低下する。一組の文脈用語の重みは、その後、入力と用例とにおけるこれら重みの産物である。
図6のフローチャートに戻って、一組のパワーセットエレメントは前述したようにステップT1で選択されている。入力の場合、用語_重み(ct,FT,s)の値は、パワーセットエレメントの文脈用語「ct」毎に一度だけ計算される必要がある。図3で示したパワーセットエレメントのサブセット27を例として参照すると、各パワーセットエレメントに対するフォーカス用語FTは「electronics」であり、そのパワーセットエレメントにある他の単語は文脈用語「ct」を構成している。例えば、パワーセットエレメント23−7について、文脈用語「ct」は「engineering」と「degree」とである。用語_重み(ct,FT,s)に関する上記の式を用いると、ステップT1で選択されたパワーセットエレメントは、重みを減らすために、それらの文脈用語に与えられた重みによってステップT2で順序付けられる。
これらパワーセットエレメントはその後、ステップT2で割り当てられた順序で順番に選択され、それらが対応付けるポスティングリストにおける個々の用例の重みが検討される。ステップT3で、次のパワーセットエレメントが分析するために選択され(または、第1の反復のために第1のパワーセットエレメントが選択され)、ステップT4でその関連するポスティングリストにおける次の補助の用例が取り出される(または、第1の反復のために第1の補助の用例が取り出される)。
用例毎に重み(s,s,FT)の式が計算される前に、最初にその用例が考慮から除かれるべきであるかどうかを判断する。または少なくとも考慮することを保留にするかどうかを判断する。これは、ステップT5で、用例におけるフォーカス用語の構成と入力におけるフォーカス用語の構成との類似度を計算することによって決定する。その2つが厳密に類似していない限り、一方の翻訳が他方の良い翻訳である見込みはない。類似度を決定するために、用例とフォーカス用語を含む最小のストレッチとの間の対応は、前述した「終止語のない」式を用いて計算される。これは、合理的に高い閾値を受け得、その閾値を下回る用例はいずれも切り捨てられ、処理はステップT4に戻って次の用例を取り出す。閾値を通過する例がない場合、フォーカス用語はサブセットに移動され、そのようなサブセットがそれぞれ検討されるので入力不一致ストレッチからのその他の用語は文脈用語として扱われる。
用例が閾値を超える場合、処理はステップT6に進み、ここで文脈用語の貢献度が検討される。用例の全体的な重みは上記の式を用いて得られる。また、この重みは、この用例のターゲット言語側に対応するフォーカス用語への翻訳Tの重みに加えられる。
不一致ストレッチの翻訳を決定する処理は、様々な地点で停止され得る。例えば、ステップT7で重みがちょうど増加している翻訳がある閾値に達しているか、もしくはある閾値を超えているかが判断される。達っているか、もしくは超えている場合、その翻訳はステップT8で選ばれ、処理はステップT13に移動する。達していない場合、処理はステップT9に続く。
T9で、検討された用例の数がある閾値に達しているかが判断される。達していない場合、処理はステップT4に戻って次の用例を処理する。達している場合、ステップT10デ、翻訳がまだ見つかるかどうかが判断される。見つかった場合、ステップT11で最も高い重みを有するものに従って最良の翻訳が選ばれ、処理はステップT13に移動する。見つからなかった場合、処理はステップT12に移動する。
翻訳されている2つ以上の用語の証拠は通常、共に肯定されるので、所与のフォーカスセットの翻訳が見つかる場合、処理は通常、フォーカス用語のより小さいサブセットへ進まずにこのフォーカスセットを検討した後停止される。しかしながら、より大きなフォーカスセットの翻訳がない場合、より小さいサブセットが検討されるべきであり、ここで文脈用語の貢献度がより重要になり得る。前述したように、1つの反復におけるフォーカス用語は、クエリーと用例との間に十分な類似がない場合、後の反復で文脈用語になり得る。
ステップT12で、処理されるさらなるパワーセットエレメントが他にあるかどうかが判断される。ある場合、処理はステップT3に戻って次のパワーセットエレメントを選択する。ない場合、処理はステップT13に続く。(不一致ストレッチ内に処理されるべきさらなるフォーカスストレッチがある場合、T1からT12までがステップT13が行われる前にそれら更なるフォーカスストレッチのために繰り返される。)ステップT13は、図2のステップS8に対応しており、ここで全ての不一致ストレッチが検討されたかどうかが判断される。全ては検討していない場合、処理は図2のステップS3に戻って、次の不一致ストレッチを検討するための準備が出来ている。全て検討した場合、フォーカスストレッチの翻訳は完全である。
不一致ストレッチ毎に、その不一致ストレッチ用にステップS7で選択された翻訳を用いて、ステップS4で位置決めされた部分を置換し、その結果、ステップS10において、出力部15で提供される完全な出力ターゲット言語センテンスになる。完全に翻訳することができなかった、もしくは全く翻訳されなかった不一致ストレッチがある場合、手動の介入が適切と思われるように出力センテンスを編集するのに必要とされる。必要な場合、いかなる場合でも編集を検討するためにセンテンスが提示され得る。そのような編集の後、出力ターゲット言語センテンスは、それ自身が将来の使用のためにソース言語入力センテンスと共に記憶部17に加えられ得る。これは図1において出力部15から記憶部17へのリターンパス16として表される。
図7は、本発明を具現化する翻訳システム1を用いて、入力センテンス「That restaurant offers a good atmosphere」の翻訳を見つける例を説明する。基本用例センテンス「That restaurant offers a good service」がステップS2で選ばれ、その対の翻訳「そのレストランはサービスがいい」が翻訳基礎として用いられている。1つの入力不一致ストレッチと対応する基本用例不一致ストレッチとは、ステップS3で、それぞれ「atmosphere」と「service」であると判断される。ステップS4で、アラインされた部分「サービス」は翻訳基礎に、基本用例不一致ストレッチ「service」に対応するものとして位置決めされ、このアラインされた部分は翻訳計画において、入力不一致ストレッチからの「atmosphere」の適切な翻訳によって置換されるものとしてマークされる。「atmosphere」の翻訳(補助の翻訳)の選択候補は、ステップS5およびステップS6において「雰囲気」と「大気」とを備えるものと判断される。ステップS7で、選好値は、上記のアルゴリズムに従ってこれら補助の翻訳に割り当てられ、翻訳「雰囲気」は、最も高い選好値を有するものとして選択される。ステップS9で、選択された翻訳「雰囲気」を用いて、ステップS4で位置決めされた翻訳基礎のアラインされた部分「サービス」を置換し、出力ターゲット言語センテンス「そのレストランは雰囲気がいい」が結果として得られる。
種々の修正が上記の実施形態に加えられ得る。例えば、用語_重みの式は、パラメータk1およびk2を用いて微調整され得、トレーニングセットで最適化され得る。翻訳システムはまた簡単な構文解析ツールを含み得、ここで用語_重みの式は、依存関係グラフにおける距離の尺度として単語の位置について距離を取り替えることによって修正される。用語_重みの式はまた、文脈用語と1つ以上のフォーカス用語との共起の尺度として、文脈用語の未補正の規格化した頻度を取り替えることによって修正され得る。補助の用例の重みはまた、文脈用語が基本用例と補助の用例とにおいて一様に翻訳されているかどうかによって決まり得、ここで2つの場合で異なる翻訳が現れることは、この補助の用例はより低く重みづけられることを示す。
ステップS2において最も高い類似度の点数を与える1つの基本用例が選択されることは前述されているが、さらなる分析のために2つ以上の基本用例が選ばれることはもちろん可能である。例えば、最も高い類似度の点数を与える基本用例が選ばれることが可能である。そのような状況では、そのような選ばれた基本用例はそれぞれ、ステップS3からステップS9までを参照しながら説明された同一の翻訳処理を受け、最良の翻訳を与える出力センテンスがステップS10で出力ターゲット言語センテンスとして使用するために選ばれるか、もしくは、翻訳システム1のユーザが、選択および/またはさらなる編集に対して順にランク付けされ得る翻訳の選択候補を提示され得る。
本発明の実施形態は、取り出された用例センテンスがさらに多種多様に入力センテンスから異なることを可能にすることによって従来技術のTranslation Memoryシステム(例えば、WO99/57651)を改良する。名称と数とのカテゴリは、任意の構成エレメントに広げられ、その任意の構成エレメントの翻訳は文脈的に決定され得、決定された翻訳は全体の翻訳における正しい地点で置換される。これにより、TMが適用可能である入力範囲が増え、翻訳基礎を入力の正しい翻訳に変換するのに必要とされる手動の介入の量が削減される。これら要因の両者は翻訳者にとってTMの有用性を向上させる。
翻訳処理が、前記の実施形態と従来技術のExample−Based MTシステムとで異なって構造化されていることは明らかである。それでもなお、本発明の種々の局面は有益な効果を持ってExample−Based MTシステムにおいて使用するために適応され得ることもまた明らかである。例えば、不連続な対応を、補助の翻訳を統合するために枠組みとして用いることは、入力と用例との完全な統語解析と、用例ペアのソース側とターゲット側との構文ベースのアライメントとに依存することを避ける手段として有用である。さらに、最良の翻訳を決定するための頻度と文脈上類似度との組み合わせは、EBMTシステムの動作内で任意のフラグメントの翻訳に有益な効果を持って適用され得る。
本発明の実施形態における対応の概念は、1つの最良の用例が統語テンプレートとして働くことを可能にする。これはある程度までリコールを限定するが、高い正確性を維持する。不一致ストレッチの翻訳は、このテンプレート内の適切な地点で置換される。例えば英語と日本といったような異なる語順を有する言語間で翻訳するときでさえ、用例の完全な統語解析が不必要になる。しかしながら、不一致ストレッチの統語解析は、正確性を維持している一方で技術の適用性を広げる。
本発明の実施形態はまた、特定の翻訳の頻度を各翻訳の文脈上妥当性を判断する証拠と組み合わせることによって各フラグメントの最良の翻訳を選ぶことに関する問題に対する解決策を与える。従来技術の中で、所与のソース言語句への特定の翻訳の頻度を、翻訳の良さの尺度を得るために生じる入力と用例との類似度に関する情報と組み合わせることに取り組むものはない。
本発明を具現化している翻訳システムは、ハードウェアまたはソフトウェアもしくは両者の組み合わせにおいて実行され得ることが理解される。例えば、本発明の実施形態は、コンピュータプログラムの制御下で実行され得る。そのようなプログラムは、コンピュータ可読の媒体上に格納され得、またはインターネットウェブサイトから提供されるダウンロード可能なデータ信号といった信号に具現化され得る。添付の請求項はそれ自身でコンピュータプログラムを網羅するものとして、もしくは、キャリア上の記録として、信号として、ほかの形式で解釈されるべきものである。
前記実施形態は、入力は第1の(ソース)言語の単語(センテンス)のシーケンスであり、出力は第2の(ターゲット)言語の単語(センテンス)のシーケンスである翻訳装置に関しており、本発明はより広い用途を有しており、話し言葉の翻訳に限られないことが理解される。入力は第1のフォーマットのデータ項目のシーケンスであり得、出力は第2のフォーマットのデータ項目のシーケンスであり得、データ項目はいかなるタイプのデータでもあり得る。
また、基本用例を決定する際に用いられる用例の記憶部は、補助の例を決定するために用いられるものとは異なり得ることが理解される。例えば、前者は前記したように、翻訳計画部11と翻訳部13とによって使用されるための基本用例を提供する別個の従来のTMシステムの一部であり得る。
本発明を具現化する翻訳装置を説明する概略図である。 図1の翻訳装置によって行われるステップを示すフローチャートである。 本発明の実施形態で用いられるパワーセット(powerset)データ構造の該略図である。 本発明の実施形態における入力用例シーケンスと基本用例シーケンスとの間で決定される対応例を示す。 図4で示された例の翻訳計画を示す。 入力不一致ストレッチの適切な翻訳を決定する本発明の実施形態で行われるステップをより詳細に説明するフローチャートである。 本発明の実施形態の動作の別の例を説明する。
符号の説明
1 翻訳装置
3 入力部
5 見出し語別分類/タグ付け部
7 取出部
9 対応部
11 翻訳計画部
13 翻訳部
15 出力部
17 記憶部
16 リターンパス
19 索引作成部
21 索引
24 単語整列部
25 アライメント

Claims (38)

  1. 記憶部(17)を用いて第1のフォーマットのデータ項目の入力シーケンス(3)を第2のフォーマットのデータ項目の出力シーケンス(15)に翻訳する方法であって、該記憶部(17)は該第1のフォーマットの複数の用例シーケンスを備え、該複数の用例シーケンスのそれぞれは該第2のフォーマットの翻訳と対になっており、
    該方法は、
    (a)該入力シーケンス(15)を該記憶部(17)からの複数の用例シーケンスのそれぞれと比較することに基づいて該記憶部(17)から基本用例シーケンスを選び(S2)、その対の翻訳を翻訳基礎として用いるステップと、
    (b)該入力シーケンスの一部分(29−1〜29−4)が該基本用例シーケンスの対応する一部分(29−1〜29−4)と異なることを識別するステップ(S3)であって、これら部分はそれぞれ入力不一致部分および基本用例不一致部分と指定されるステップと、
    (c)該翻訳基礎の一部分(31−1〜31−4)を該基本用例不一致部分(29−1〜29−4)に応じて位置決めするステップ(S4)と、
    (d)該入力不一致部分を用いて該記憶部(17)から一組の補助の用例シーケンスを選択するステップ(S5)と、
    (e)該一組の補助の用例シーケンスから該入力不一致部分(29−1〜29−4)に対応する可能性のある翻訳の選択候補を決定するステップ(S6)と、
    (f)所定の選択アルゴリズムに基づいて該選択候補から翻訳を選択するステップ(S7)と、該選択された翻訳を用いてステップ(c)において位置決めされた該部分を置換するステップ(S9)と、
    (g)ステップ(f)の結果をデータ項目の該出力シーケンス(15)の基礎として用いるステップ(S10)と
    を包含する方法。
  2. ステップ(b)からステップ(f)は、前記入力シーケンスで識別される複数の入力不一致部分に対して繰り返される(S8)、請求項1に記載の方法。
  3. ステップ(b)からステップ(f)は、前記入力シーケンスで識別される不一致部分ごとに対して繰り返される(S8)、請求項2に記載の方法。
  4. ステップ(a)で選ばれる前記基本用例シーケンスは、近接度に関する所定の尺度に従って前記入力シーケンス(3)に最も近接して一致する前記記憶部(17)からの前記用例シーケンスである、請求項1、2または3のいずれか一項に記載の方法。
  5. ステップ(b)で識別される基本用例不一致部分(29−1〜29−4)と、ステップ(c)で位置決めされるその対応する翻訳基礎部分(31−1〜31−4)とは、2つの隣接するデータ項目の間に位置づけられる空シーケンスであり得、その結果、ステップ(f)における前記置換するステップは、効率的に位置へ挿入するステップである、請求項1から請求項4のいずれか一項に記載の方法。
  6. ステップ(f)において、前記選択された翻訳の形態的変数を用いて文脈に応じてステップ(c)で位置決めされる前記部分を置換する、請求項1から請求項5のいずれか一項に記載の方法。
  7. データ項目の前記出力シーケンス(15)として用いる前に、ステップ(f)から生じる前記シーケンスにさらなる処理が行われる、請求項1から請求項6のいずれか一項に記載の方法。
  8. 前記データ項目は単語である、請求項1から請求項7のいずれか一項に記載の方法。
  9. 前記第1のフォーマットと前記第2のフォーマットとは、それぞれ第1の言語と第2の言語とである、請求項8に記載の方法。
  10. データ項目の前記入力シーケンスは、文法的に完全な句を形成する、請求項9に記載の方法。
  11. データ項目の前記入力シーケンスは、センテンスを形成する、請求項10に記載の方法。
  12. ステップ(c)において、前記部分(31−1〜31−4)は、前記基本用例シーケンス部分とその対の翻訳のそれぞれの部分との間のアライメントを用いて位置決めされる、請求項1から請求項11のいずれか一項に記載の方法。
  13. 前記アライメントは予め定められている、請求項12に記載の方法。
  14. ステップ(d)は、前記用例シーケンスにおける少なくとも1つのデータ項目が前記入力不一致部分(29−1〜29−4)における少なくとも1つのデータ項目に一致または対応する場合、その組に含めるための用例シーケンスを選択するステップを包含する、請求項1から請求項13のいずれか一項に記載の方法。
  15. ステップ(e)は、前記組の補助の用例のために、前記入力不一致部分(29−1〜29−4)に対応する該補助の用例の一部分を識別し、該補助の用例と対をなす前記翻訳の対応部分を用いて前記選択候補の前記可能性のある翻訳のうち1つを形成するステップを包含する、請求項1から請求項14のいずれか一項に記載の方法。
  16. 前記所定の選択アルゴリズムは、前記選択候補の少なくとも1つの翻訳のそれぞれについて、該翻訳が導かれる少なくとも1つの補助の用例に基づいて決定される選好値を該翻訳に割り当てるステップを包含する、請求項1から請求項15のいずれか一項に記載の方法。
  17. 選好値は、前記入力シーケンスと前記少なくとも1つの補助の用例のそれぞれとの比較に基づいて決定される、請求項16に記載の方法。
  18. 選好値は、重みを前記比較またはそのような比較のそれぞれに割り当て、かつ、該割り当てられた重みを所定の方法で組み合わせることによって決定される、請求項17に記載の方法。
  19. 重みは、データ項目の数または前記比較中の前記入力シーケンスと前記補助の用例とに共通のデータ項目の変数に基づいて割り当てられる、請求項18に記載の方法。
  20. 重みは、前記入力シーケンスと前記補助の用例とに共通のデータ項目に関する1つ以上の下記の性質:該共通のデータ項目の順繰りの位置、所定のコーパスの該共通のデータ項目の頻度、前記入力不一致部分と該共通のデータ項目の共起頻度、および該共通のデータ項目と該入力不一致部分(29−1〜29−4)との該頻度から予測されるものからの該共起頻度の逸脱、に基づいて割り当てられる、請求項18または請求項19のいずれか一項に記載の方法。
  21. 重みは、前記不一致部分(29−1〜29−4)に対して前記共通のデータ項目の前記順繰りの位置に基づいて割り当てられる、請求項20に記載の方法。
  22. 前記割り当てられた重みは加算によって総合される、請求項18から請求項21のいずれか一項に記載の方法。
  23. 前記入力不一致部分(29−1〜29−4)における前記データ項目は前記比較に含まれない、請求項17から請求項22のいずれか一項に記載の方法。
  24. 選好値は前記翻訳基礎と、前記少なくとも1つの補助の用例のそれぞれと対である前記翻訳との比較に基づいて決定される、請求項16から請求項23のいずれか一項に記載の方法。
  25. 前記所定の選択アルゴリズムは、割り当てられた選好値に基づいて前記選択候補から翻訳を選択するステップをさらに包含する、請求項16から請求項24のいずれか一項に記載の方法。
  26. 選好値は、前記選択候補における前記翻訳または各翻訳に割り当てられる、請求項16から請求項25のいずれか一項に記載の方法。
  27. 前記選好値は、前記翻訳が導かれる前記補助の用例または各補助の用例に基づいて決定される、請求項16から請求項26のいずれか一項に記載の方法。
  28. 前記所定の選択アルゴリズムは、手動介入が前記選択された翻訳に影響を与えることを可能にする、請求項1から請求項27のいずれか一項に記載の方法。
  29. 適切な翻訳がステップ(f)で選択され得ない場合、前記入力不一致部分(29−1〜29−4)を複数の入力不一致部分に再分割し、対応するそれぞれの基本用例不一致部分を識別し、かつ、不一致部分毎にステップ(c)からステップ(f)を行うステップを包含する、請求項1から請求項28のいずれか一項に記載の方法。
  30. 適切な基本用例がステップ(a)で見つけられない場合、前記入力シーケンス(3)を複数の入力サブシーケンスに再分割し、そのようなサブシーケンス毎にステップ(a)からステップ(f)を行い、かつ、該ステップ(f)からの結果を組み合わせることによりステップ(g)で前記出力シーケンスを生成するステップを包含する、請求項1から請求項29のいずれか一項に記載の方法。
  31. 前記記憶部(17)は、ステップ(a)とステップ(d)とでそれぞれ用いるための別個の記憶部を備える、請求項1から請求項30のいずれか一項に記載の方法。
  32. 記憶部(17)を用いて第1のフォーマットのデータ項目の入力シーケンス(3)を第2のフォーマットのデータ項目の出力シーケンス(15)に翻訳する装置であって、該記憶部(17)は該第1のフォーマットの複数の用例シーケンスを備え、該複数の用例シーケンスのそれぞれは該第2のフォーマットの翻訳と対になっており、
    該装置は、
    該入力シーケンス(15)を該記憶部(17)からの複数の用例シーケンスのそれぞれと比較することに基づいて該記憶部(17)から基本用例シーケンスを選び、その対の翻訳を翻訳基礎として用いる手段(7、9)と、
    該入力シーケンス(15)の一部分(29−1〜29−4)が該基本用例シーケンスの対応する一部分(29−1〜29−4)と異なることを識別する手段(9、11)であって、これら部分はそれぞれ入力不一致部分および基本用例不一致部分と指定される手段と、
    該翻訳基礎の一部分(31−1〜31−4)を該基本用例不一致部分(29−1〜29−4)に応じて位置決めする手段(11)と、
    該入力不一致部分(29−1〜29−4)を用いて該記憶部(17)から一組の補助の用例シーケンスを選択する手段(13)と、
    該一組の補助の用例シーケンスから該入力不一致部分(29−1〜29−4)に対応する可能性のある翻訳の選択候補を決定する手段(13)と、
    所定の選択アルゴリズムに基づいて該選択候補から翻訳を選択し、かつ、該選択された翻訳を用いて該位置決めする手段(11)によって位置決めされた該部分を置換する手段(13)と、
    該選択する手段(13)の結果をデータ項目の該出力シーケンス(15)の基礎として用いる手段(13)と
    を備える装置。
  33. 請求項32に記載の装置を備える、翻訳メモリシステム。
  34. コンピュータ上で実行されると、該コンピュータに請求項1から請求項31のいずれか一項に記載の方法を実行させる、コンピュータプログラム。
  35. コンピュータにロードされると、該コンピュータが請求項32に記載の装置または請求項33に記載のシステムになることを引き起こす、コンピュータプログラム。
  36. キャリア媒体上で実行される、請求項34または請求項35のいずれか一項に記載のコンピュータプログラム。
  37. 前記キャリア媒体は伝送媒体である、請求項36に記載のコンピュータプログラム。
  38. 前記キャリア媒体は記憶媒体である、請求項36に記載のコンピュータプログラム。
JP2005181281A 2004-06-24 2005-06-21 翻訳メモリシステムにおいてカバレージおよび質を改良する方法 Pending JP2006012168A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB0414180A GB2415518A (en) 2004-06-24 2004-06-24 Method and apparatus for translation based on a repository of existing translations

Publications (1)

Publication Number Publication Date
JP2006012168A true JP2006012168A (ja) 2006-01-12

Family

ID=32800129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005181281A Pending JP2006012168A (ja) 2004-06-24 2005-06-21 翻訳メモリシステムにおいてカバレージおよび質を改良する方法

Country Status (4)

Country Link
US (1) US7707025B2 (ja)
JP (1) JP2006012168A (ja)
CN (1) CN100550008C (ja)
GB (1) GB2415518A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152768A (ja) * 2006-11-23 2008-07-03 Sharp Corp 翻訳システムにて二言語テキストのマッチングを行って精度を向上するための方法
WO2009107456A1 (ja) 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム
JP2012141879A (ja) * 2011-01-05 2012-07-26 Fuji Xerox Co Ltd 対訳情報検索装置、翻訳装置及びプログラム
WO2018146864A1 (ja) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2002316581A1 (en) * 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005059771A1 (ja) * 2003-12-15 2005-06-30 Laboratory For Language Technology Incorporated 対訳判断装置、方法及びプログラム
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP5452868B2 (ja) * 2004-10-12 2014-03-26 ユニヴァーシティー オブ サザン カリフォルニア トレーニングおよび復号のためにストリングからツリーへの変換を使うテキスト‐テキスト・アプリケーションのためのトレーニング
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
JP3984642B2 (ja) * 2005-07-06 2007-10-03 松下電器産業株式会社 対話支援装置
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
FR2896603B1 (fr) * 2006-01-20 2008-05-02 Thales Sa Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel
US8296123B2 (en) * 2006-02-17 2012-10-23 Google Inc. Encoding and adaptive, scalable accessing of distributed models
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US20080177623A1 (en) * 2007-01-24 2008-07-24 Juergen Fritsch Monitoring User Interactions With A Document Editing System
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
JP2008305167A (ja) * 2007-06-07 2008-12-18 Toshiba Corp 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
KR100893129B1 (ko) * 2007-10-24 2009-04-15 엔에이치엔(주) 멀티 미디어 컨텐츠의 추천 키워드 추출 시스템 및 그 방법
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
CN101727904B (zh) * 2008-10-31 2013-04-24 国际商业机器公司 语音翻译方法和装置
US8244519B2 (en) * 2008-12-03 2012-08-14 Xerox Corporation Dynamic translation memory using statistical machine translation
US9189475B2 (en) * 2009-06-22 2015-11-17 Ca, Inc. Indexing mechanism (nth phrasal index) for advanced leveraging for translation
WO2011011777A2 (en) * 2009-07-24 2011-01-27 Discovery Engine Corporation Pre-computed ranking using proximity terms
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
KR101266361B1 (ko) * 2009-09-10 2013-05-22 한국전자통신연구원 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법
CN102023969A (zh) * 2009-09-10 2011-04-20 株式会社东芝 获得加权语言模型概率及构建加权语言模型的方法和装置
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
KR101377459B1 (ko) * 2009-12-21 2014-03-26 한국전자통신연구원 자동 통역 장치 및 그 방법
CN102135957A (zh) * 2010-01-22 2011-07-27 阿里巴巴集团控股有限公司 一种翻译短句的方法及装置
CN102163192A (zh) * 2010-02-24 2011-08-24 英业达股份有限公司 翻译例句生成与播放系统及其方法
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8375061B2 (en) * 2010-06-08 2013-02-12 International Business Machines Corporation Graphical models for representing text documents for computer analysis
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US20120303352A1 (en) * 2011-05-24 2012-11-29 The Boeing Company Method and apparatus for assessing a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8983850B2 (en) 2011-07-21 2015-03-17 Ortsbo Inc. Translation system and method for multiple instant message networks
JP2013069158A (ja) * 2011-09-22 2013-04-18 Toshiba Corp 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8983825B2 (en) * 2011-11-14 2015-03-17 Amadou Sarr Collaborative language translation system
US8874428B2 (en) * 2012-03-05 2014-10-28 International Business Machines Corporation Method and apparatus for fast translation memory search
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20140006004A1 (en) * 2012-07-02 2014-01-02 Microsoft Corporation Generating localized user interfaces
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9424360B2 (en) * 2013-03-12 2016-08-23 Google Inc. Ranking events
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
CN104731776B (zh) * 2015-03-27 2017-12-26 百度在线网络技术(北京)有限公司 翻译信息的提供方法及系统
CN106372053B (zh) * 2015-07-22 2020-04-28 华为技术有限公司 句法分析的方法和装置
US9558182B1 (en) * 2016-01-08 2017-01-31 International Business Machines Corporation Smart terminology marker system for a language translation system
CN105808528B (zh) * 2016-03-04 2019-01-25 张广睿 一种文档文字的处理方法
CN105760368B (zh) * 2016-03-11 2019-02-12 张广睿 一种文档文字的深度处理方法
TWI613554B (zh) * 2017-03-24 2018-02-01 Zhuang Shi Cheng 翻譯輔助系統
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
US10275462B2 (en) * 2017-09-18 2019-04-30 Sap Se Automatic translation of string collections
CN110909552B (zh) * 2018-09-14 2023-05-30 阿里巴巴集团控股有限公司 翻译方法及装置
CN110147558B (zh) * 2019-05-28 2023-07-25 北京金山数字娱乐科技有限公司 一种翻译语料处理的方法和装置
US11966711B2 (en) * 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction
CN113191163B (zh) 2021-05-21 2023-06-30 北京有竹居网络技术有限公司 一种翻译方法、翻译装置、翻译设备以及存储介质
US12339765B2 (en) * 2022-09-08 2025-06-24 Accenture Global Solutions Limited Sentiment analysis using magnitude of entities

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
JP2000250913A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JP2004038976A (ja) * 2002-06-28 2004-02-05 Microsoft Corp 用例ベースの機械翻訳システム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5659765A (en) * 1994-03-15 1997-08-19 Toppan Printing Co., Ltd. Machine translation system
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
GR1002453B (el) 1995-10-20 1996-10-15 Εξυπνη συσκευη για ανακτηση πολυγλωσσων κειμενων.
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US7020601B1 (en) 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6345244B1 (en) * 1998-05-27 2002-02-05 Lionbridge Technologies, Inc. System, method, and product for dynamically aligning translations in a translation-memory system
US6535842B1 (en) * 1998-12-10 2003-03-18 Global Information Research And Technologies, Llc Automatic bilingual translation memory system
US6598015B1 (en) * 1999-09-10 2003-07-22 Rws Group, Llc Context based computer-assisted language translation
US6473729B1 (en) * 1999-12-20 2002-10-29 Xerox Corporation Word phrase translation using a phrase index
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
JP2002278963A (ja) 2001-03-15 2002-09-27 Logo Vista Corp 事例翻訳装置
JP3969628B2 (ja) * 2001-03-19 2007-09-05 富士通株式会社 翻訳支援装置、方法及び翻訳支援プログラム
KR100453227B1 (ko) * 2001-12-28 2004-10-15 한국전자통신연구원 번역 지원 시스템에서의 유사 문장 검색 방법
US20040002849A1 (en) * 2002-06-28 2004-01-01 Ming Zhou System and method for automatic retrieval of example sentences based upon weighted editing distance
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312382A (ja) * 1997-05-13 1998-11-24 Keiichi Shinoda 類似用例翻訳システム
JP2000250913A (ja) * 1999-02-25 2000-09-14 Nippon Telegr & Teleph Corp <Ntt> 実例型自然言語翻訳方法、対訳用例集作成方法および装置とそのプログラムを記録した記録媒体
JP2004038976A (ja) * 2002-06-28 2004-02-05 Microsoft Corp 用例ベースの機械翻訳システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152768A (ja) * 2006-11-23 2008-07-03 Sharp Corp 翻訳システムにて二言語テキストのマッチングを行って精度を向上するための方法
WO2009107456A1 (ja) 2008-02-29 2009-09-03 シャープ株式会社 情報処理装置、方法、およびプログラム
US8407040B2 (en) 2008-02-29 2013-03-26 Sharp Kabushiki Kaisha Information processing device, method and program
JP2012141879A (ja) * 2011-01-05 2012-07-26 Fuji Xerox Co Ltd 対訳情報検索装置、翻訳装置及びプログラム
WO2018146864A1 (ja) * 2017-02-07 2018-08-16 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法
JPWO2018146864A1 (ja) * 2017-02-07 2019-04-25 パナソニックIpマネジメント株式会社 翻訳装置および翻訳方法

Also Published As

Publication number Publication date
CN100550008C (zh) 2009-10-14
US7707025B2 (en) 2010-04-27
US20060004560A1 (en) 2006-01-05
GB0414180D0 (en) 2004-07-28
GB2415518A (en) 2005-12-28
CN1801141A (zh) 2006-07-12

Similar Documents

Publication Publication Date Title
JP2006012168A (ja) 翻訳メモリシステムにおいてカバレージおよび質を改良する方法
US5794177A (en) Method and apparatus for morphological analysis and generation of natural language text
JP4694111B2 (ja) 用例ベースの機械翻訳システム
US6473729B1 (en) Word phrase translation using a phrase index
JP5243167B2 (ja) 情報検索システム
Abdul Rauf et al. Parallel sentence generation from comparable corpora for improved SMT
MXPA00010835A (es) Herramientas de traduccion asistida por maquina.
JP2008152768A (ja) 翻訳システムにて二言語テキストのマッチングを行って精度を向上するための方法
JP2013502643A (ja) 構造化データ翻訳装置、システム及び方法
McCrae et al. Domain adaptation for ontology localization
Avetisyan et al. Cross-lingual plagiarism detection: Two are better than one
US7593844B1 (en) Document translation systems and methods employing translation memories
Cranias et al. Example retrieval from a translation memory
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Cherry et al. Discriminative substring decoding for transliteration
JPH06348751A (ja) 言語変換装置
Ji et al. Phonetic name matching for cross-lingual spoken sentence retrieval
Rikters K-Translate-Interactive Multi-system Machine Translation
Kuo et al. Active learning for constructing transliteration lexicons from the Web
Khemakhem et al. The MIRACL Arabic-English statistical machine translation system for IWSLT 2010
JP4528818B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3176750B2 (ja) 自然言語の翻訳装置
Bond et al. A hybrid rule and example-based method for machine translation
Cavalli-Sforza et al. Using morphology to improve example-based machine translation: The case of Arabic-to-English translation
JPH0561902A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120314

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120511

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120629