JP2005011358A

JP2005011358A - 適応型機械翻訳

Info

Publication number: JP2005011358A
Application number: JP2004183026A
Authority: JP
Inventors: Stephen D Richardson; ディー．リチャードソンスティーブン; Richard F Rashid; エフ．ラシッドリチャード
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2003-06-20
Filing date: 2004-06-21
Publication date: 2005-01-13
Also published as: EP1489523B1; MXPA04006075A; EP1489523A3; RU2004118671A; EP1489523A2; KR20040111188A; CN1573741A; CN1573741B; CA2469593C; RU2382399C2; CA2469593A1; KR101099196B1; BRPI0402409A; AU2004202391A1

Abstract

【課題】自動機械翻訳システムに情報を提供して、翻訳の精度を向上させるためのコンピュータに実装される方法を開示する。
【解決手段】この方法は、ソーステキストの集まりを受け取ることを含む。このソーステキストの集まりに対応する試みの翻訳を、自動機械翻訳システムから受け取る。試みの翻訳中の少なくとも１つの誤りを訂正するよう構成されている訂正入力も受け取る。最終的に、自動機械翻訳システムによって生成されるその後の翻訳においてその誤りが繰り返される可能性を低減するよう自動機械翻訳システムに情報を提供する。
【選択図】図３

Description

本発明は、機械翻訳に関する。より詳細には、本発明は、信頼できるソースから訂正済み翻訳を取得する通常のワークフロー内でユーザの自動機械翻訳システムの性能を体系的に向上させるための手段に関する。

インターネットなどの技術によって創造された国際的コミュニティの成長の結果、機械翻訳、より詳細には、自然言語テキストを翻訳するためのコンピュータシステムの利用が、近年、より広範に普及してきている。いくつかの事例では、機械翻訳は自動的に行うことができる。しかし、質の高い翻訳を作成するプロセスに、人とのやりとりを組み込む場合がある。一般的に言って、人的資源に依拠する翻訳はより正確ではあるが、完全に自動化されたシステムよりも時間およびコストの効果が低い。翻訳システムによっては、翻訳の正確さが極めて重要なときにのみ人とのやりとりに依拠することがある。一般に、人とのやりとりに関連する時間およびコストを、特別に正確な翻訳が所望されるたびに、投資しなければならない。

完全に自動化された機械翻訳によって生成される翻訳の質は、一般に、このようなシステムに対する需要の増大に伴って向上していない。特定の領域（または対象）についてより高品質の自動翻訳を得るためには、機械翻訳システムをかなりカスタマイズする必要があることが一般に認識されている。カスタマイズには、一般に、所望の領域のテキストを翻訳するための専門的なボキャブラリおよび規則の追加が含まれる。このようなカスタマイズは、一般に、トレーニングを受けたコンピュータ言語学者によって行われる。彼らは、半自動化ツールを使用して、ボキャブラリ項目をオンライン辞書に追加し、また、一般に専門化された規則の書き言葉（ｓｐｅｃｉａｌｉｚｅｄｒｕｌｅｗｒｉｔｉｎｇｌａｎｇｕａｇｅｓ）で言語的に方向付けられた規則（ｌｉｎｇｕｉｓｔｉｃａｌｌｙｏｒｉｅｎｔｅｄｒｕｌｅｓ）を書く。この種のカスタマイズは、比較的コストがかかる。

米国特許出願第１０／３０９，９５０号米国特許出願第０９／８９９，７５５号米国特許第５，９６６，６８６号明細書

概して、消費者にとって様々なソースから利用可能な翻訳サービスは、コスト効率の良い高品質のカスタマイズされた翻訳を提供することができない。例えば、パッケージおよびウェブベースの翻訳システムが、一般の人々に現在入手可能である。しかし、これらの翻訳システムは、特定の領域または対象に合わせてカスタマイズすることが難しいか、または不可能である。商業グレードの翻訳システムも入手可能である。これらのシステムは、特定の領域に合わせてカスタマイズすることができるが、しかし、そのカスタマイズプロセスは単調であり、一般に非常に高価である。直接的な人ベースの翻訳サービス（すなわち、ウェブベースおよびメールオーダベースの人による翻訳サービス）も利用可能である。しかし、人による翻訳には、一般に、翻訳すべき文書ごとに料金を支払う必要がり、終わることのない費用が必要となる。

本発明の実施形態は、翻訳の正確さを向上させるために自動機械翻訳システムに情報を提供するためのコンピュータに実装される方法に関する。この方法は、ソーステキストの集まりを受け取るステップを含む。ソーステキストの集まりに対応する試みの翻訳を、自動機械翻訳システムから受け取る。試みの翻訳の中の少なくとも１つの誤りを訂正するよう構成されている訂正入力も受け取る。最終的に、自動機械翻訳システムに情報を提供して、自動機械翻訳システムによって生成されるその後の翻訳でその誤りが繰り返される可能性を低減する。

Ｉ．例示の動作環境
本発明の様々な態様は、信頼できるソースから訂正済みの翻訳を取得する通常のワークフロー内での適応型機械翻訳のカプセル化に関する。しかし、本発明をより詳細に説明するのに先立って、本発明を実施することができる例示的な環境の実施形態について説明する。

図１は、本発明を実施することができる適切なコンピューティングシステム環境１００の一例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、コンピューティングシステム環境１００を、例示的な動作環境１００に示したコンポーネントのいずれか１つまたは組合せに関していかなる依存性、または必要性を有するものとして解釈すべきでもない。

本発明は、その他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明と共に使用するのに適する可能性のある周知のコンピューティングシステム、環境、および／または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、これらに限られない。

本発明を、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的な状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行したり、または特定の抽象データ型を実施したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、タスクが通信ネットワークを介してリンクされているリモート処理デバイスによって実行される分散コンピューティング環境において実施するように設計されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートのコンピュータ記憶媒体の両方に配置される。プログラムおよびモジュールによって実行されるタスクについて、以下に、図の助けを借りて説明する。当業者は、これらの説明および図を、任意の形態のコンピュータ可読媒体上に書き込むことができるプロセッサ実行可能命令として実施することができる。

図１を参照すると、本発明を実施するための例示的なシステムは、コンピュータ１１０の形態の汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントには、処理装置１２０、システムメモリ１３０、および、システムメモリを含む様々なシステムコンポーネントを処理装置１２０に結合するシステムバス１２１が含まれ得るが、これらに限定されない。システムバス１２１は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む、いくつかのバス構造のいずれであってもよい。限定ではなく、例として、このようなアーキテクチャには、ＩＳＡ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｕｔｒｅ）バス、ＭＣＡ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）バス、ＥＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）バス、ＶＥＳＡ（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）ローカルバス、およびメザニンバスとしても知られるＰＣＩ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）が含まれるが、これらに限定されない。

コンピュータ１１０は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスできる任意の利用可能な媒体とすることができ、揮発性媒体および不揮発性媒体、取外し可および取外し不可の媒体を含む。限定ではなく、例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するためにいずれかの方法または技術で実施された揮発性および不揮発性の取外し可および取外し不可の媒体が含まれる。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリもしくはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）もしくはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶装置、または所望の情報を格納するために使用でき、コンピュータ１１０によってアクセスすることができる任意のその他の媒体が含まれるが、これらに限定されない。

通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送波またはその他のトランスポートメカニズムなどの変調データ信号に具体化し、そして任意の情報配信媒体を含む。「変調データ信号」という用語は、信号中に情報を符号化するような方法でその特性の１つまたは複数を設定または変更した信号を意味する。限定ではなく、例として、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響、ＲＦ、赤外線、およびその他の無線媒体などの無線媒体が含まれる。上記のいずれの組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ１１０内の構成要素間の情報の転送を支援する基本ルーチンを収容する基本入出力システム（ＢＩＯＳ）１３３は、一般に、ＲＯＭ１３１に格納されている。ＲＡＭ１３２は、一般に、処理装置１２０によって直ぐにアクセス可能であり、そして／または現在操作されているデータおよび／またはプログラムモジュールを含む。限定ではなく、例として、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を示している。

コンピュータ１１０は、その他の取外し可／不可の揮発性／不揮発性コンピュータ記憶媒体を含む場合もある。例にすぎないが、図１には、取外し不可の不揮発性磁気媒体との読取りまたは書込みを行うハードディスクドライブ１４１、取外し可の不揮発性磁気ディスク１５２との読取りまたは書込みを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたはその他の光媒体などの取外し可の不揮発性光ディスク１５６との読取りまたは書込みを行う光ディスクドライブ１５５を示している。例示的な動作環境で使用できるその他の取外し可／不可の揮発性／不揮発性コンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体ＲＡＭ、半導体ＲＯＭなどが含まれるが、これらに限定されない。ハードディスクドライブ１４１は、一般に、インターフェース１４０などの取外し不可のメモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、一般に、インターフェース１５０などの取外し可のメモリインターフェースによってシステムバス１２１に接続される。

上記に説明し、図１に示したドライブおよびそれらの関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの格納をコンピュータ１１０に提供している。図１では、例えば、ハードディスクドライブ１４１を、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７を格納しているものとして示してある。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７と同じ場合も異なる場合もあることに注意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７には、少なくともそれらが異なるコピーであることを示すために、ここでは異なる番号を付与してある。

ユーザは、キーボード１６２、マイクロフォン１６３、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス１６１などの入力デバイスを介して、コンピュータ１１０にコマンドおよび情報を入力することができる。その他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれる。これらおよびその他の入力デバイスは、システムバスに結合されているユーザ入力インターフェース１６０を介して処理装置１２０に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）など、他のインターフェースおよびバス構造によって接続することもできる。モニタ１９１またはその他のタイプの表示デバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータはスピーカ１９７やプリンタ１９６などの他の周辺出力デバイスを含むこともでき、それらは出力周辺インターフェース１９５を介して接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で操作される。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の一般的なネットワークノードであってよく、一般に、コンピュータ１１０に関連して上記に説明した構成要素の多くまたは全てを含む。図１に示す論理接続には、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３が含まれるが、他のネットワークを含むこともある。このようなネットワーク化環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいてはごく普通である。

ＬＡＮネットワーク化環境において使用する場合、コンピュータ１１０を、ネットワークインターフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続する。ＷＡＮネットワーク化環境において使用する場合、コンピュータ１１０は、一般に、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２またはその他の手段を含む。モデム１７２は、内蔵または外付けであってよく、ユーザ入力インターフェース１６０またはその他の適切なメカニズムを介してシステムバス１２１に接続することができる。ネットワーク化環境においては、コンピュータ１１０に関連して説明したプログラムモジュールまたはその一部をリモートメモリ記憶装置に記憶することができる。限定ではなく、例として、図１は、リモートアプリケーションプログラム１８５をリモートコンピュータ１８０に常駐するものとして示している。図示したネットワーク接続は例示的であり、コンピュータ間の通信リンクを確立するためのその他の手段を使用することができる。

本発明は、図１を参照して説明したようなコンピュータシステム上で実行することができることに注意されたい。しかし、本発明は、サーバ、メッセージ処理専用のコンピュータ、または本発明の異なる部分が分散コンピューティングシステムの異なる部分で実行される分散システム上で実行することも可能である。

図２は、本発明を実施することができる別の例示の適切なコンピューティング環境であるモバイルデバイス２００のブロック図である。コンピューティングシステム環境２００は適切なコンピューティング環境の別の例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、コンピューティングシステム環境２００を、図示したコンポーネントのいずれか１つまたはそれらの組合せに関して依存性、または必要性を有するものとして解釈すべきでもない。

モバイルデバイス２００は、マイクロプロセッサ２０２、メモリ２０４、入出力（Ｉ／Ｏ）コンポーネント２０６、およびリモートコンピュータまたはその他のモバイルデバイスと通信を行うための通信インターフェース２０８を含んできる。一実施形態では、これらのコンポーネントは、適切なバス２１０を介して互いに通信を行うために結合されている。

メモリ２０４は、モバイルデバイス２００への全体的な電力が遮断されたときにメモリ２０４に格納された情報が失われないように、バッテリのバックアップモジュール（図示せず）を備えたランダムアクセスメモリ（ＲＡＭ）などの不揮発性電子メモリとして実装されている。メモリ２０４の一部は、好ましくは、プログラム実行のためのアドレス可能メモリとして割り振られ、メモリ２０４の別の部分は、好ましくは、ディスクドライブ上の記憶をシミュレートするためなどの記憶として使用されている。

メモリ２０４は、オペレーティングシステム２１２、アプリケーションプログラム２１４、ならびにオブジェクトストア２１６を含んでいる。動作中、オペレーティングシステム２１２は、メモリ２０４からプロセッサ２０２によって実行されることが好ましい。オペレーティングシステム２１２は、好ましい一実施形態では、マイクロソフトコーポレイションから市販されているＷＩＮＤＯＷＳ（登録商標）ＣＥブランドである。オペレーティングシステム２１２は、モバイルデバイス用に設計されていることが好ましく、１組の公開されたアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーションプログラム２１４によって利用することができるデータベース機能を実装している。オブジェクトストア２１６中のオブジェクトは、少なくとも部分的には、公開されたアプリケーションプログラミングインターフェースおよびメソッドへのコールに応答して、アプリケーションプログラム２１４およびオペレーティングシステム２１２によって維持管理されている。

通信インターフェース２０８は、モバイルデバイス２００が情報を送受信できるようにする数多くのデバイスおよび技術を代表している。これらのデバイスには、２、３例を挙げると、有線および無線モデム、衛星受信機、放送チューナが含まれる。モバイルデバイス２００はまた、直接、コンピュータに接続して、データ交換することもできる。このような場合、通信インターフェース２０８は、赤外線トランシーバや、シリアルまたはパラレル通信接続とすることができ、それらの全てがストリーミング情報を伝送することができる。

入出力コンポーネント２０６は、タッチ検知画面、ボタン、ローラ、マイクロフォンなどの様々な入力デバイス、ならびにオーディオジェネレータ、振動デバイス、ディスプレイなどの様々な出力デバイスを含む。上記のデバイスは例であり、それらが全てモバイルデバイス２００上に存在する必要はない。さらに、本発明の範囲内で、その他の入出力デバイスをモバイルデバイス２００に取り付けるか、または見つけることができる。

ＩＩ．適応型機械翻訳サービスの概要
図３は、信頼できるソースから訂正済みの翻訳を取得する通常のワークフロー内での適応型機械翻訳を説明する概略流れ図である。

統計的および用例に基づく技術を含む様々な機械学習技術を通して自動機械翻訳システムのカスタマイズを自動化するための研究がなされている。このような技術では、機械翻訳システムは、すでに翻訳済みのマテリアル（バイテキスト（ｂｉｔｅｘｔ）またはバイリンガルコーパス（ｂｉｌｉｎｇｕａｌｃｏｒｐｕｓ）と呼ばれることが多い）から翻訳対応物を学習することができる。このようなマテリアルには、１つの（ソース）言語によるセンテンスと、それに対応する別の言語による翻訳済み（ターゲット）センテンスが含まれている。さらに、このようなＭＴ（ｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ）システムは、「比較」コーパス、またはソース言語とターゲット言語間の正確な翻訳ではないが、ソース言語とターゲット言語の両方で同様の概念およびイベントを記述しているテキストから、さらなる対応物を学習することができる。モノリンガルコーパスをさらに利用して、ターゲット言語で流暢な構文（ｃｏｎｓｔｒｕｃｔｉｏｎ）を学習することができる。本発明の一般的な一態様によれば、これらのカスタマイズ技術を、従来の文書管理環境内で適用し、利用することである。具体的には、システムユーザが文書を作成し、対応する翻訳を入手し、その翻訳を訂正するという通常の流れの中で、自動翻訳システムをトレーニングするためのデータを生成する。このトレーニングデータによって、ユーザの自動機械翻訳システムの体系的なカスタマイズが可能になる。

図３を参照すると、本発明の実施形態は、ユーザが翻訳のためにユーザのコンピュータ上の（またはユーザに関連するサーバ上の）自動トランスレータにソース文書３０２を提出する、文書管理またはワークフロー環境内での適応型機械翻訳システムのカプセル化に関する。このアクションをブロック３３０で表してある。ソース文書３０２および自動生成された翻訳３０４が、検討および訂正のために、信頼できる修正ソース（すなわち、人間のトランスレータ）に伝送される。このアクションをブロック３３２で表してある。

訂正済み翻訳３０６およびオリジナルのソース文書３０２が処理されて、更新され、正確であると考えられる翻訳対応物３０８の集まりが作成される。このアクションをブロック３３４で表してある。一実施形態によれば、対応物３０８は、ユーザによって維持管理されている自己カスタマイズ機械翻訳システムと並行して稼動している自己カスタマイズ機械翻訳システムによって生成される。一実施形態によれば、更新された翻訳対応物３０８は、更新済みデータベースの中に置かれ（あるいは、統計的な機械翻訳システムが使用されている場合には、統計パラメータの更新済みテーブルに反映される）、このデータベースは訂正済みの翻訳された文書とともにユーザに返送される。更新物は、ユーザの自動機械翻訳システムに同化される。ユーザが次に同様のテキストのマテリアル３１０の翻訳を試みると、システムは、以前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳３１２を自動的に生成する。このアクションをブロック３３６で表してある。このトレーニング、および本明細書に記載した全ての同様のトレーニングが、例えば、言語ペアの両方向（すなわち、スペイン語から英語、英語からスペイン語）でその後の翻訳に利益をもたらすことに注意されたい。

訂正済みの翻訳３０６およびソース文書３０２に基づいて多くの異なるタイプのトレーニングデータを生成できることに注意されたい。多くの異なるタイプのトレーニングデータを利用して、ユーザの自動翻訳システムを適応化することができる。翻訳対応物の更新は、本発明の範囲に含まれる一例にすぎない。任意の知識ソースの更新が範囲内に含まれる。任意の統計または用例ベースのトレーナのいかなる更新も範囲内に含まれる。以下に、具体例を詳細に説明する。

ユーザが様々な文書の自動翻訳を取得し、その結果を信頼できる事後校訂（すなわち、訂正および修正）に出すと、ユーザの自動翻訳システムは、同様の文書をより有効に翻訳できるようにそれ自体を徐々に適応化させる。コストのかかるカスタマイズの必要がなくなり、ユーザは、その後、より高品質の自動翻訳を享受する。ユーザの自動翻訳システムの適応化およびカスタマイズは、例えば、ユーザが品質の高い翻訳を取得する通常のルーチンに専念している間に「舞台裏で」行われる。

一実施形態によれば、自動生成された翻訳３０４は、翻訳全体および／またはその一部の品質を示す自動生成された信頼メトリック（ｃｏｎｆｉｄｅｎｃｅｍｅｔｒｉｃ）を含む。信頼メトリックは、例えば、ユーザの見積もった出力の満足度に基づく。このような信頼メトリックの生成および利用については、本発明と同じ実体に譲渡され、参照によりその全体を本明細書に組み込む2002年12月4日に出願の「SYSTEM AND METHOD FOR MACHINE LEARING A CONFIDENCE METRIC FOR MACHINE TRANSLATION」と題する米国特許出願（特許文献１）に記載されている。

図４は、記載した自己カスタマイズ機械翻訳システムに信頼メトリックがどのように組み込まれるかを示す流れ図である。ブロック４０２に従って、ユーザはソース文書の自動翻訳を得る。この文書は、その文書の全体および／またはその個々の部分の１つまたは複数に関する注記された信頼メトリック情報を含む。ブロック４０４に従って、ユーザは、事後校訂のために信頼の格付けが低い１つまたは複数の部分を選択する。これらの部分は、訂正のために信頼できる修正ソース（すなわち、人間のトランスレータ）に転送される。訂正された部分はオリジナルのソース文書と共に処理されて、更新済みの正確であると考えられる翻訳対応物が作成される。一実施形態によれば、この処理は、ユーザによって維持管理されている自己カスタマイズ機械翻訳システムと並行して稼動している自己カスタマイズ機械翻訳システムによって行われる。

ブロック４０６に従って、更新された翻訳対応物が、訂正された翻訳済みの部分（または訂正された翻訳済みの文書全体）と共にユーザに返送される。ブロック４０８に従って、更新物がユーザの自動機械翻訳システム中に同化される。ユーザが次に同様のテキストのマテリアルの翻訳を試みると、ユーザの自動機械翻訳システムは、より高品質の翻訳を生成する。

ＩＩＩ．特定の応用例
図５Ａおよび５Ｂは、適応型機械翻訳システムの上述の実施形態の特定の応用例のブロック図である。これらの特定の応用例は例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、これらの特定の応用例を、図示したコンポーネントのいずれか１つまたはそれらの組合せに関するいかなる依存性、または必要性を有するものとして解釈すべきでもない。

図５Ａは、コンピューティング環境５００のブロック図である。ユーザ５０２は、コンピューティングデバイス５０４を操作して、コンピュータネットワーク５０５（すなわち、インターネット）を介して、信頼できる修正ソース５０６とやりとりすることができる。ソース５０６は、例えば、コンピューティングデバイス上で実施された翻訳サービスであり、ネットワーク５０５を介してコンピューティングデバイス５０４およびそのユーザ５０２に提供される。

コンピューティングデバイス５０４、ならびに修正ソース５０６が実装されているコンピューティングデバイスは、様々な既知のコンピューティングデバイスのいずれかであってよく、これらには図１および２に関連して説明したコンピューティングデバイスのいずれかが含まれるが、これらに限定されない。ネットワーク５０５を介したコンピューティングデバイス５０４と修正ソース５０６との間の通信は、様々な既知のネットワーク通信方法のいずれかを利用して行うことができ、これらには図１および２に関連して説明した方法のいずれかが含まれるが、これらに限定されない。一実施形態によれば、コンピューティングデバイス５０４は、サーバに実装される修正ソース５０６との無線ネットワークでの通信のために構成されたクライアント無線モバイルデバイスである。別の実施形態によれば、コンピューティングデバイス５０４は、サーバに実装実施される修正ソース５０６とのインターネットでの通信のために構成されたクライアントパーソナルコンピュータである。これらは、本発明の範囲に含まれる多くの特定の実施形態のうちの２つにすぎない。

コンピューティングデバイス５０４は、自動翻訳システム５０８を含む。ユーザ５０２は、例えば、対応する自動翻訳の生成のために、テキストサンプルをシステム５０８に提出する。ユーザ５０２が、翻訳システム５０８によって生成された翻訳の１つまたは複数部分に満足していない（すなわち、ユーザが指示された低信頼メトリックスに満足していない）と想定し、自動翻訳が、ソース文書のコピーと共に修正ソース５０６に提出される。この自動翻訳はソース５０６で訂正される。一実施形態によれば、人間のトランスレータ５１０が自動翻訳を訂正する。別の実施形態によれば、信頼できる自動化システムが訂正を行う。訂正済みの翻訳は、ユーザ５０２への引き渡しのためにコンピューティングデバイス５０４に返送される。

自動翻訳システム５０８を適応化させるために利用できるトレーニングデータの集まりを生成するために、トレーニングジェネレータ５１２を利用して、自動翻訳、訂正済みの翻訳、および／またはソース文書を処理する。トレーニングジェネレータ５１２は、修正ソース５０６、またはコンピューティングデバイス５０４、または別個のアクセス可能な独立したロケーション（すなわち、独立したアクセス可能なサーバ）に記憶されたコンポーネントである。トレーニングジェネレータ５１２が修正ソース５０６に格納されている場合、生成されたトレーニング情報は、例えば、関連する訂正済み翻訳と共に自動翻訳システム５０８に転送される。トレーニングジェネレータ５１２がコンピューティングデバイス５０４に格納されている場合、情報は直接システム５０８中に実装される。トレーニングジェネレータ５１２を修正ソース５０６と共に格納することによって、コンピューティングデバイス５０４に課される記憶および処理要件が低減される。また、この構成によれば、トレーニングジェネレータ５１２を集中ロケーションから維持管理し、操作することが可能になる。

一実施形態によれば、自動翻訳システム５０８の適応化を容易にするために、トレーニングジェネレータ５１２が信頼できる修正ソース５０６とコンピューティングデバイス５０８の両方にある。トレーニングジェネレータ５１２のペアは、例えば、同じか、またはほぼ同様である。トレーニングジェネレータ５１２のペアは、例えば、自己カスタマイズ機械翻訳システム（このようなシステムについては図６に関連して説明する）に関連付けられている。修正ソース５０６で事後校訂が完了した後、生成された訂正済み翻訳は、オリジナルのソーステキストと共に、例えば、修正ソース５０６上で実施された自己カスタマイズ機械翻訳システムの「トレーニング」フェーズによって処理される。このトレーニングフェーズの間に正しい翻訳対応物が学習される。この対応物は、更新済みデータベースの中に置かれ（あるいは、統計的なシステムが使用されている場合には、統計パラメータの更新済みテーブルに反映される）、これはコンピューティングデバイス５０４上で実施された機械翻訳システムのバージョンに送られる。次いで、更新物は、ユーザのコンピュータ上の自己カスタマイズシステムのバージョン（または、以下に説明するように、サーバ上に維持管理されているバージョン）に自動的に同化される。ユーザが次に同様のテキストのマテリアルの翻訳を試みると、その翻訳システムは、以前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳を自動生成する。

一実施形態によれば、信頼できる修正ソース５０６は、ネットワーク５０５上で動作しているサーバに関連付けられる。トレーニングジェネレータ５１２は、同じサーバ上で維持管理され、操作される。修正ソース５０６に関連してユーザ５０２に提供された翻訳およびトレーニング情報は、例えば、必須ではないが、支払いベース（すなわち、時間毎または申し込みベースによる支払い）で提供される。

図５Ｂは、コンピューティング環境５２０のブロック図である。図５Ａの構成要素と同じ、または同様である図５Ｂの構成要素には、同じまたは同様の参照番号を付けてある。図５Ｂでは、１人または複数のユーザ５０２が、サーバ５２４に接続可能な１台または複数のコンピューティングデバイスとやりとりしている。自動翻訳システム５０８は、例えばユーザ５０２に関連付けられており、サーバ５２４上に格納され、維持管理されている。サーバ５２４は、ネットワーク５０５に接続可能である。ユーザ５０２は、コンピューティングデバイス５２２を操作して、ネットワーク５０５に同様に接続可能な信頼できる修正ソース５０６とのやりとりを可能にしている。修正ソース５０６は、例えば、ネットワーク５０５を介して、コンピューティングデバイス５０４経由でユーザ５０２に提供される翻訳サービスである。

システム５２０は、システム５００と同じ方法で動作するが、しかし、自動翻訳システム５０８は、可能性として、複数のコンピューティングデバイスによってアクセスされて、１人または複数の個々のユーザ５０２のための自動翻訳を行うことができる。したがって、翻訳システム５０８は、複数のユーザによって提出された文書に関連したトレーニング情報を用いて適応および更新することができる。翻訳システム５０８の翻訳の正確さは、複数のユーザ５０２に対応するように進化していくことになる。これは、複数のユーザに単一の領域または分野の対象の範囲内で文書を生成し、翻訳させる共通のコネクションを持っている場合（すなわち、彼らが同じ業界、同じ会社などで働いている場合）には特に望ましい。

ＩＶ．自動カスタマイズを利用する機械翻訳システムを用いた特定の応用例
ここまでは自動翻訳システム５０８について一般的に説明してきた。システム５０８の正確な詳細は、本発明にとって重要ではない。さらに、説明したトレーニングデータを翻訳システム５０８がどのように同化させるかについての正確なスキームについては述べていない。本発明は、トレーニングデータの任意の１つの特定のタイプに限定されるものではなく、また、データを同化させるための任意の１つの方法に限定されるものでもない。しかし、特定の自動翻訳システム、およびトレーニングデータを同化させるための対応するスキームについて、図６に関連して説明する。

いくつかの自動翻訳システムは、システムをカスタマイズするための自動化技術を利用して、以前に未知であったボキャブラリに対する翻訳を適応させる（すなわち、専門領域についての翻訳を適応させる）ことが知られている。本発明の実施形態は、このような翻訳システムの関連においてうまく適用可能である。このようなシステムについては、参照によりその全体が本明細書に組み込まれる、本発明と同じ実体に譲渡された2001年7月5日出願の「SCALEABLE MACHINE TRANSLATION SYSTEM」と題された米国特許出願（特許文献２）に記載されている。組み込まれた参照文献に記載のシステムの部分について、図６に関連して説明する。

図６に関連する自動翻訳システムを説明するのに先立って、論理形式（ｌｏｇｉｃａｌｆｏｒｍ）の簡単な説明が役立つ可能性がある。論理形式、ならびにそれらを生成するためのシステムおよび方法についての完全かつ詳細な説明を、Heidornらに対する1999年10月12日発行の「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES」と題された米国特許（特許文献３）に見ることができる。しかし、簡単に言えば、論理形式は、入力テキストに関して形態素および統語解析（ｍｏｒｐｈｏｌｏｇｉｃａｌａｎｄｓｙｎｔａｃｔｉｃａｎａｌｙｓｉｓ）を実行して、文法関係（ｇｒａｍｍａｔｉｃａｌｒｅｌａｔｉｏｎｓ）で増強された従来の句構造解析（ｐｈｒａｓｅｓｔｒｕｃｔｕｒｅａｎａｌｙｓｅｓ）を生成することによって生成される。統語解析は、論理形式を導出するためにさらなる処理を受ける。その論理形式は、テキスト入力中の内容語間のラベル付けされた依存を記述するデータ構造である。論理形式は、特定の統語上の交替（例えば、能動／受動）を標準化（ｎｏｒｍａｌｉｚｅ）し、センテンス間の照応関係（ｉｎｔｒａｓｅｎｔｅｎｔｉａｌａｎａｐｈｏｒａ）および長距離依存（ｌｏｎｇｄｉｓｔａｎｃｅｄｅｐｅｎｄｅｎｃｉｅｓ）を解消する。論理形式はグラフとして表すことができ、これにより、論理形式の構成要素を直感的に理解するのに役立つ。しかし、当業者には理解されるように、コンピュータ可読媒体上に格納した場合、論理形式はグラフを表すものとして直ぐに理解されず、むしろ（依存）木として理解される場合がある。

論理関係（ｌｏｇｉｃａｌｒｅｌａｔｉｏｎ）は、以下のような、方向関係タイプ（ｄｉｒｅｃｔｉｏｎａｌｒｅｌａｔｉｏｎｔｙｐｅ）で結び付けられた２つの単語からなる。
ＬｏｇｉｃａｌＳｕｂｊｅｃｔ，ＬｏｇｉｃａｌＯｂｊｅｃｔ，
ＩｎｄｉｒｅｃｔＯｂｊｅｃｔ；
ＬｏｇｉｃａｌＮｏｍｉｎａｔｉｖｅ，ＬｏｇｉｃａｌＣｏｍｐｌｅｍｅｎｔ，ＬｏｇｉｃａｌＡｇｅｎｔ；
ＣｏＡｇｅｎｔ，Ｂｅｎｅｆｉｃｉａｒｙ；
Ｍｏｄｉｆｉｅｒ，Ａｔｔｒｉｂｕｔｅ，ＳｅｎｔｅｎｃｅＭｏｄｉｆｉｅｒ；
ＰｒｅｐｏｓｉｔｉｏｎａｌＲｅｌａｔｉｏｎｓｈｉｐ；
Ｓｙｎｏｎｙｍ，Ｅｑｕｉｖａｌｅｎｃｅ，Ａｐｐｏｓｉｔｉｏｎ；
Ｈｙｐｅｒｎｙｍ，Ｃｌａｓｓｉｆｉｅｒ，Ｓｕｂｃｌａｓｓ；
Ｍｅａｎｓ，Ｐｕｒｐｏｓｅ；
Ｏｐｅｒａｔｏｒ，Ｍｏｄａｌ，Ａｓｐｅｃｔ，ＤｅｇｒｅｅＭｏｄｉｆｉｅｒ，Ｉｎｔｅｎｓｉｆｉｅｒ；
Ｆｏｃｕｓ，Ｔｏｐｉｃ；
Ｄｕｒａｔｉｏｎ，Ｔｉｍｅ；
Ｌｏｃａｔｉｏｎ，Ｐｒｏｐｅｒｔｙ，Ｍａｔｅｒｉａｌ，Ｍａｎｎｅｒ，Ｍｅａｓｕｒｅ，Ｃｏｌｏｒ，Ｓｉｚｅ；
Ｃｈａｒａｃｔｅｒｉｓｔｉｃ，Ｐａｒｔ；
Ｃｏｏｒｄｉｎａｔｅ；
Ｕｓｅｒ，Ｐｏｓｓｅｓｓｏｒ；
Ｓｏｕｒｃｅ，Ｇｏａｌ，Ｃａｕｓｅ，Ｒｅｓｕｌｔ；
およびＤｏｍａｉｎ．

論理形式は、センテンスやその一部など、単一のテキスト入力を表す、関連した論理関係のデータ構造である。論理形式は、最低、１つの論理関係からなり、構造関係（すなわち、統語上および意味上の関係）、特に入力ストリング中の重要な語の間の項および／または修飾関係（ａｒｇｕｍｅｎｔａｎｄ／ｏｒａｄｊｕｎｃｔｒｅｌａｔｉｏｎ）を表現する。

統語解析から論理形式を構築する特定のコードは、例えば、機械翻訳システムが動作している様々なソース言語およびターゲット言語の間で共用される。この共用アーキテクチャは、異なる言語からの論理形式セグメントの位置合せのタスクを大きく簡略化する。と言うのは、２つの言語における一見識別可能な構造は、しばしば同様または同一の論理形式表現に倒れ込むためである。

こうした背景を心に留めて、図６は、本発明の一態様による機械翻訳システム６００のアーキテクチャのブロック図である。システム６００は、規則ベースおよび統計的技術を用例ベースのトランスファと組み合わせるデータ駆動型の機械翻訳システムである。このシステムは、データから直接、語彙および句の翻訳（ｌｅｘｉｃａｌａｎｄｐｈｒａｓａｌｔｒａｎｓｌａｔｉｏｎｓ）の知識を学習することができる。システム６００のトレーニングモードの中心的な特徴は、センテンスが位置合せされたバイリンガルコーパスからシステムの翻訳用例ベースを作成する自動論理形式の位置合せ手順である。

機械翻訳システム６００は、バイリンガルの対応するテキストから翻訳する方法を自動的に学習するよう構成される。このシステムは、特定のテキストについて、そのセンテンスおよびそれに対応する人の翻訳を処理することによってカスタマイズすることができ、その結果、そのテキストと同様のマテリアルに対して、その後の翻訳がより高品質になる。機械翻訳システム６００はまた、全体の翻訳および／またはその一部の品質を指す、組み込まれた信頼スコアをうまく提供するよう構成される。

システム６００は、構文解析コンポーネント６０４および６０６、統計的単語関連付け学習コンポーネント６０８、論理形式（ＬＦ）位置合せコンポーネント６１０、語彙知識ベース（ＬＫＢ）構築コンポーネント６１２、バイリンガル辞書６１４、辞書マージコンポーネント６１６、トランスファマッピングデータベース６１８、ならびに更新済みバイリンガル辞書６２０を含む。トレーニングおよび翻訳の実行時の間、システム６００は、解析コンポーネント６２２、マッチングコンポーネント６２４、転送コンポーネント６２６および／または生成コンポーネント６２８を利用する。一実施形態によれば、構文解析コンポーネント６０４および解析コンポーネント６２２は同じコンポーネントであり、または少なくとも互いに同一である。

バイリンガルコーパスを使用して、システムをトレーニングする。バイリンガルコーパスは、位置合せされた翻訳済みセンテンス（例えば、スペイン語などのソースまたはターゲット言語による、人が作成した翻訳物と１対１で対応している、英語などの別のソースまたはターゲット言語のセンテンス）を含む。バイリンガルコーパスにおける翻訳「センテンス」は、実際の完全なセンテンスに限定されず、代わりにセンテンスセグメントの集まりとすることができることに注意されたい。トレーニングの間、センテンスは、位置合せされたバイリンガルコーパスからシステム６００中に、ソースセンテンス６３０（翻訳すべきセンテンス）、またターゲットセンテンス６３２（ソースセンテンスの翻訳）として、提供される。構文解析コンポーネント６０４および６０６は、位置合せされたバイリンガルコーパスからのセンテンスを構文解析して、ソース論理形式６３４およびターゲット論理形式６３６を生成する。

構文解析の間、センテンス中の語は、標準化された語形式（見出語（ｌｅｍｍａ））に変換され、統計的単語関連付け学習コンポーネント６０８に提供することができる。学習コンポーネント６０８によって、単一語および複数語の両方の関連物について、それぞれの信頼できるセットが得られるまで繰り返し仮定を立て、採点される。統計的単語関連付け学習コンポーネント６０８は、学習した単一語翻訳ペア６３８ならびに複数語ペア６４０を出力する。

複数語ペア６４０は辞書マージコンポーネント６１６に提供される。そのコンポーネントを使用して追加エントリをバイリンガル辞書６１４に追加して、更新済みバイリンガル辞書６２０を形成する。新規のエントリは複数語ペア６４０を表す。

単一語翻訳ペア６３８は、ソース論理形式６３４およびターゲット論理形式６３６と共に論理形式位置合せコンポーネント６１０に提供される。簡単に言えば、コンポーネント６１０はまず、ソースおよびターゲットの論理形式６３０および６３６中のそれぞれのノード間に一時的な対応物を確立する。これは、バイリンガル語彙目録（例えばバイリンガル辞書）６１４からの翻訳ペアを使用して行われる。このバイリンガル語彙目録を、統計的単語関連付け学習コンポーネント６０８からの単一および複数語翻訳ペア６３８、６４０で増強することができる。可能な対応物を確立した後、位置合せコンポーネント６１０は、語彙上および構造上の考慮の両方に従って論理形式ノードの位置合せを行い、語および／または論理形式のトランスファマッピング６４２を作成する。

基本的に、位置合せコンポーネント６１０は、バイリンガル辞書情報６１４、および単一および複数語ペア６３８、６４０を使用して、論理形式間にリンクを引く。トランスファマッピングは、ソースおよびターゲット論理形式６３４および６３６中で見つけられる頻度に基づいて、任意選択としてフィルタされ、語彙知識ベース構築コンポーネント６１２に提供される。

フィルタリングは任意選択ではあるが、一例では、トランスファマッピングがトレーニングデータ中に少なくとも２回見られない場合には、トランスファマッピングデータベース６１８を構築するために使用されない。ただし、その他の任意の所望の頻度をフィルタとして使用することもできる。出現頻度以外にその他のフィルタリング技術を使用することもできる。例えば、トランスファマッピングが入力センテンスの完全な構文解析から形成されているかどうかに基づいて、また、トランスファマッピングを作成するために使用される論理形式が完全に位置合せされているかどうかに基づいて、トランスファマッピングをフィルタすることができる。

コンポーネント６１２は、トランスファマッピングデータベース６１８を構築し、このトランスファマッピングデータベースは、基本的にはある言語の語および／または論理形式を第２の言語の語および／または論理形式にリンクするトランスファマッピングを収容する。こうして作成されたトランスファマッピングデータベース６１８により、システム６００が実行時翻訳のために構成される。翻訳実行時の間、翻訳されることになるソースセンテンス６５０が解析コンポーネント６２２に提供される。解析コンポーネント６２２はソースセンテンス６５０を受け取り、このソースセンテンス入力に基づいてソース論理形式６５２を作成する。

ソース論理形式６５２は、マッチングコンポーネント６２４に供給される。マッチングコンポーネント６２４は、リンクされた論理形式６５４を得るために、ソース論理形式６５２をトランスファマッピングデータベース６１８中の論理形式にマッチさせようと試みる。複数のトランスファマッピングが、ソース論理形式６５２の（複数）部分にマッチすることがある。マッチングコンポーネント６２４は、マッチする見出語、品詞（ｐａｒｔｓｏｆｓｐｅｅｃｈ）、およびその他の特徴情報を有するマッチトランスファマッピングの最良のセットについて、データベース６１８の中をサーチする。このベストマッチのセットは、所定のメトリックに基づいて見つけられる。例えば、より大きい（より具体的な）論理形式を有するトランスファマッピングが、より小さい（より一般的な）論理形式を有するトランスファマッピングよりも好ましい場合がある。等しいサイズの論理形式を有するマッピングの間で、マッチングコンポーネント６２４は、例えば、より頻度の高いマッピングを好むことがある。マッピングはまた、何ら互いにコンフリクトしないという条件で、ソース論理形式６５２の重複する部分にマッチすることもある。マッピングのあるセットが集合的に、代替のマッピングセットよりも多くの入力センテンスを対象とする場合、例えば、このセットの方が好ましい場合がある。

マッチするトランスファマッピングのセットが見つかると、マッチングコンポーネント６２４は、ソース論理形式６５２中のノード上に、トランスファマッピングによって受け取られた対応するターゲットの語または論理形式セグメントのコピーへリンクを作成して、リンクされた論理形式６５４を生成する。複数語マッピングについてのリンクは、対応するセグメントのルートノードをリンクし、次いでその複数語マッピングに加わっているその他のソースノードにアスタリスクをリンクすることによって表される。このようなマッピングの対応する個々のソースおよびターゲットノード間のサブリンクも、例えば、転送中に使用のために作成することができる。転送コンポーネント６２６は、マッチングコンポーネント６２４からリンクされた論理形式６５４を受け取り、ターゲット翻訳の基礎を形成することになるターゲット論理形式６５６を作成する。これは、ソース論理形式６５２のノード上のリンクによってポイントされたターゲット論理形式セグメントが組み合わされているリンクされた論理形式６５４のトップダウンの全検索を実行することによって行われる。複雑である可能性のある複数語マッピングのために論理形式セグメントを共に組み合わせる場合、マッチングコンポーネント６２４によって個々のノード間に設定されるサブリンクを使用して、修飾語句（ｍｏｄｉｆｉｅｒ）などの正しい付加ポイント（ａｔｔａｃｈｍｅｎｔｐｏｉｎｔ）を決定する。必要に応じて、デフォルトの付加ポイントが使用される。

適用可能なトランスファマッピングが見つからない場合、ソース論理形式６５２のノードおよびそれらの関係は、単にターゲット論理形式６５６にコピーされる。それでも、デフォルトの単一語翻訳をトランスファマッピングデータベース６１８中で見つけ、ターゲット論理形式６５６の中に挿入することができる。しかし、何も見つからない場合は、翻訳を、例えば更新済みバイリンガル辞書６２０から得ることができる。この辞書は、位置合せの期間に使用されたものである。

生成コンポーネント６２８は、例えば、ターゲット論理形式６５６からターゲットストリング（または出力ターゲットセンテンス）６５８にマップする規則ベースのアプリケーション非依存の生成コンポーネントである。生成コンポーネント６２８は、例えば、入力論理形式のソース言語に関する情報を何も持たず、転送コンポーネント６２６によって渡された情報だけで動作する。生成コンポーネント６２８はまた、例えば、この情報をモノリンガル（例えば、ターゲット言語の）辞書と共に使用して、ターゲットセンテンス６５８を生成する。このように、１つの汎用生成コンポーネント６２８があれば、各言語に十分である。

このように、論理形式を異なる言語間でマッチさせることできるように、システム６００が情報を様々な言語から共用される共通の論理形式に構文解析することがわかる。このシステムはまた、トランスファマッピングデータベースを構築するにあたって単純なフィルタリング技術を利用して、雑音の多いデータ入力を取り扱うことができる。それゆえ、システム６００は、多くのセンテンスペアを使用して、自動的にトレーニングすることができる。

図３、４、５Ａおよび５Ｂに記載した適応型自動翻訳システムに戻ると、記載のシステム６００は、例えば、ユーザの適応型自動翻訳システム（すなわち、翻訳システム５０８）として実装することができる。一実施形態によれば、システム６００によって生成された翻訳の少なくとも一部が、訂正のために、例えば、信頼できる修正ソース（すなわち、ソース５０６）に送られる（すなわち、ユーザが修正のために信頼メトリックが低い部分を選択する）。施された訂正に基づいてトレーニング情報が生成される（トレーニングジェネレータ５１２によって生成されるトレーニング情報）。システム６００は、このトレーニングデータを受け取り、処理する。一実施形態によれば、システム６００は、施された訂正に対応するバイリンガルコーパスを処理する。翻訳システム６００のユーザは、その後の同様のテキストに対してより高品質の翻訳を得る。

一実施形態によれば、ユーザの自動翻訳システムの適応化を容易にするために、システム６００は、信頼できる修正ソースとユーザのコンピューティングデバイス（または関連サーバ）の両方に常駐する。システム６００のこのペアは、例えば、互いに並行して稼動する。修正ソースで事後校訂が完了した後、生成された訂正済み翻訳は、オリジナルのソーステキストと共に、例えば、修正ソース上で実施されたシステム６００のバージョンの「トレーニング」フェーズによって処理される。このトレーニングフェーズの間、正しい翻訳の対応物が学習される。次いで、対応（物）が更新済みデータベース中に入れられ、このデータベースはユーザのコンピューティングデバイス（または関連サーバ）上に実装されたシステム６００のバージョンに送られる。更新物は、訂正済み翻訳と共に、または独立して送ることができる。更新物は、システム６００のユーザ側のバージョンの中に自動的に同化される。ユーザが次に同様のテキストマテリアルの翻訳を試みると、ユーザのシステム６００は、前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳を自動的に生成する。

トレーニング情報に基づくシステム６００の更新は、様々な方法のいずれかによって行うことができ、どの特定の方法も本発明にとって重要ではない。システム６００に提供されるトレーニングデータは、適応化を行うのに適した様々な異なる形態が可能である。前述したように、一実施形態によれば、トレーニングデータはバイリンガルコーパス（すなわち、図６のセンテンスペア６３０および６３２）である。別の実施形態によれば、トレーニングジェネレータ（すなわち、図５Ａおよび５Ｂのジェネレータ５１２）は、施された訂正に基づいて、パーサ６０４および／またはパーサ６０６に対する更新物を生成し、システム６００に供給する（すなわち、更新によって、将来、ＸＹはＸとして扱われるべきであるなどと指示される）。別の実施形態によれば、トレーニングジェネレータは、翻訳システム６００によって維持管理された単一語のペアについて施された変更に基づいて、更新物を生成する。別の実施形態によれば、トレーニングジェネレータは、施された訂正に基づいて、トランスファマッピングデータベース６１８のための更新物を生成する。別の実施形態によれば、トレーニングジェネレータは、施された訂正に基づいて、直接または間接的に、トランスファマッピングデータベース６１８を再構築する。いずれの知識ソースの更新も本発明の範囲に含まれる。

ＭｉｎｄＮｅｔは、翻訳システム６００に関連する論理形式の言語構造データベース（すなわち、トランスファマッピングデータベース６１８）などの構造を説明するために、この業界で使用されている総称である。ＭｉｎｄＮｅｔという用語は、ワシントン州、レドモンドのマイクロソフト社によって造られた。本発明の一実施形態によれば、信頼できる修正ソースによってなされた訂正に基づいてシステム６００を適応化するためのトレーニング情報の利用には、ＭｉｎｄＮｅｔの操作（すなわち、更新）が伴う。この更新のプロセスは、ユーザのシステム上で（またはユーザに関連するサーバ上で）、または修正ソースに関連するシステム上で遠隔的に行うことができる。

図７は、ＭｉｎｄＮｅｔが更新される本発明の一実施形態を示す流れ図である。ブロック７０２に従って、ユーザのＭｉｎｄＮｅｔが、翻訳およびオリジナルテキストと共に信頼できる修正ソース（すなわち、サーバ上で実施される）に送られる（すなわち、クライアントマシンから）。翻訳に必要な訂正が施された後（ブロック７０４）、ＭｉｎｄＮｅｔを再構築して、訂正を反映させる（ブロック７０６）。次いで、再構築されたＭｉｎｄＮｅｔは、訂正済みの翻訳マテリアルと共にユーザに送られる（すなわち、クライアントマシンに返送される）（ブロック７０８）。ブロック７１０に従って、再構築されたＭｉｎｄＮｅｔが、ユーザの自動翻訳システム内に組み込まれる。更新されたＭｉｎｄＮｅｔは、その後の翻訳に利用される。ユーザの翻訳システムの記載した遠隔的な更新は、ＭｉｎｄＮｅｔ以外のデータ構造に関連して行うことができることに注意されたい。

図８は、ユーザのマシンから離れることなく（または、ユーザの関連サーバから離れることなく）ＭｉｎｄＮｅｔが更新される別の実施形態を説明する流れ図である。ブロック８０２に従って、信頼できる修正ソースは、ユーザから翻訳マテリアルと対応するオリジナルテキストを受け取る（ブロック８０２）。必要に応じて訂正が施され（ブロック８０２）、対応するＭｉｎｄＮｅｔの追補が編集される（ブロック８０４）。ブロック８０６に従って、クライアントは、訂正済み翻訳と共に、自身のＭｉｎｄＮｅｔ中にロードし、編集すべき追補を受け取る（ブロック８０８）。ブロック８１０によって表された実施形態に従って、ユーザのＭｉｎｄＮｅｔは、所定数の追補が収集されるまでは更新されない。ユーザの翻訳システムの記載したローカルの更新は、ＭｉｎｄＮｅｔ以外のデータ構造に関連して行うことができることに注意されたい。

一実施形態によれば、複数の追補がサーバ上、すなわち、信頼できる訂正が施されるサーバ上につなぎ合わされるか、または収集される。所定数の追補が収集されると、ユーザは自身のＭｉｎｄＮｅｔを、再構築し、返送してもらうためにサーバに送る。ユーザのＭｉｎｄＮｅｔを更新するためのその他のスキームも、本発明の範囲内に含まれる。

本発明の別の態様によれば、記載の適応型機械翻訳プロセスは、ユーザおよび信頼できる修正ソースが同じ１つであるシステム内に実装することができる。図３のプロセスフローは、このような実施形態と一致している。言い換えれば、図３のフローは、例えば信頼できる修正ソースであるユーザが、ソース文書の少なくとも一部を翻訳のために自分自身のコンピュータ上（またはユーザに関連するサーバ上）の自動トランスレータに提出する文書管理またはワークフロー環境内に適応型機械翻訳システムがカプセル化されている本発明の実施形態を対象としている。次に、このような実施形態について、図３を参照して説明する。

ソース文書３０２の少なくとも一部の提出を、ブロック３３０で表してある。ユーザは、例えば、ソース文書３０２に関連する言語に関して信頼できるトランスレータである。ソース文書３０２情報、ならびに対応する自動生成された翻訳３０４が、検討および訂正のためにユーザ／訂正者に提示される。このアクションをブロック３３２で表してある。

訂正済み翻訳３０６およびオリジナルのソース文書３０２が処理されて、更新され、正確であると考えられる翻訳対応物３０８の集まりを作成する。このアクションをブロック３３４で表してある。一実施形態によれば、更新された翻訳対応物３０８は更新済みデータベース中に配置される（あるいは、統計的機械翻訳システムが使用されている場合には、統計パラメータの更新テーブルに反映される）。更新物は、ユーザの自動機械翻訳システム中に同化される。ユーザが次に同様のテキストデータ３１０の翻訳を試みると、システムは、前に訂正済みの文書に基づいて生成された更新物に基づいて、より高品質の翻訳３１２を自動的に生成する。このアクションをブロック３３６で表してある。このトレーニングが、言語ペアの両方向（すなわち、スペイン語から英語、英語からスペイン語）においてその後の翻訳に利益をもたらすことに注意されたい。

訂正済み翻訳３０６およびソース文書３０２に基づいて多くの異なるタイプのトレーニングデータを生成できることを強調しておきたい。多くの異なるタイプのトレーニングデータを利用して、ユーザの自動翻訳システムを適応化することができる。翻訳対応物を更新することは、本発明の範囲に含まれる一例にすぎない。どのような知識ソースの更新もこの範囲内に含まれる。どのような統計的または用例ベースのトレーナの更新もこの範囲内に含まれる。具体的な例は、他の実施形態に関連して上述している。

本発明の別の態様によれば、記載の適応型機械翻訳プロセスは、信頼できる翻訳ソースであるユーザによって操作される専門化された翻訳ソフトウェアに関連して利用することができる。人間のトランスレータ（すなわち、職業翻訳者、アマチュア翻訳者など）が、専門化された翻訳ソフトウェアを採用して必要とされる翻訳作業の量を低減していることが知られている。専門ソフトウェアを利用する人間のトランスレータは、そのソフトウェアなしでも正確に翻訳するのに必要な知識を備えているのが普通である。このソフトウェアを利用して、単に、所与の文書を翻訳するのに必要なキーストロークの数を減らす。

専門化された翻訳ソフトウェアの実施例には、翻訳すべきセンテンス（またはセンテンス群）（すなわち、翻訳される文書から取り出されたセンテンスまたはセンテンス群）を、以前の翻訳済みのセンテンス（またはセンテンス群）のデータベースと比較するように構成されるものがある。マッチが見つかると、そのマッチした翻訳が自動的に取り出すことができる。このような場合、ユーザは、マニュアルによる翻訳の負担がある程度軽減されることになる。

ターゲットセンテンスに利用可能な正確なマッチがない場合、専門化された翻訳ソフトウェアの実施例には、似ているが同一ではないセンテンスである「ファジーマッチ」を取り出すよう構成されるものがある。ユーザは、ファジーマッチを拒否して、最初からセンテンスを翻訳することができ、あるいは、ファジーマッチを正しい形に修正することができる。多くの場合、ファジーマッチを修正した方が最初から翻訳するよりも作業が少なくて済む（すなわち、キーストロークが少ない）ことになる。

専門化された翻訳ソフトウェアの実施例には、自動翻訳システムと協同して、これらに限定されないが、利用できる正確な翻訳またはファジー翻訳が利用できないソーステキストセンテンスなど、翻訳すべき特定のセンテンスに対して自動機械翻訳を提供するよう構成されるものがある。ユーザは、機械翻訳を拒否し、センテンスを最初から翻訳することができ、あるいは、機械翻訳を正しい形に修正することができる。多くの場合、機械翻訳を修正した方が最初から翻訳するよりも作業が少なくて済む（すなわち、キーストロークが少ない）ことになる。

本発明の一態様によれば、記載の専門化された翻訳ソフトウェアのユーザは、実質的には信頼できる翻訳ソースである。したがって、ユーザがファジーまたは機械翻訳を訂正すると、訂正に対応する情報を利用して、ソフトウェアに関連する機械翻訳システムをトレーニングまたは更新することができる。このように、その後の翻訳のために翻訳システムの効率および精度が改善される。機械翻訳システムのトレーニングまたは更新は、本明細書に記載の方法またはその他の任意の方法と同様に達成することができる。

図９は、専門化された翻訳ソフトウェアを含む、本発明の実施形態の一応用例のブロック図である。例示の応用例は、例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、この特定の応用例を、図示したコンポーネントのいずれか１つまたはそれらの組合せに関していかなる依存性、または必要性を有するものとして解釈すべきでもない。

図９を参照すると、ユーザ／訂正者９０２は、専門化された翻訳システム９１０（すなわち、専門化された翻訳ソフトウェア）、自動翻訳システム９１２、およびトレーニングジェネレータ９１４（すなわち、上述のトレーニングジェネレータ５１２と同一または同様のもの）が実施されたコンピューティングデバイス９０４とやりとりする。コンピューティングデバイス９０４は、様々な既知のコンピューティングデバイスのいずれかとすることができ、これには図１および２に関連して説明したいずれかのものが含まれるが、これらに限定されない。一実施形態によれば、コンピューティングデバイス９０４はパーソナルコンピュータである。

ユーザ９０２は、ソース文書の翻訳に関連する作業の少なくとも一部を取り除くためにシステム９１０に依存しているトランスレータ（すなわち、職業翻訳者またはアマチュア翻訳者）である。専門化された翻訳システム９１０は、ソース文書の翻訳にあたってユーザ９０２を支援するよう構成された専門化された翻訳システムである。ユーザ９０２は、例えば、対応する翻訳を生成するにあたっての支援のために、ソース文書の少なくとも一部をシステム９１０に提出する。自動翻訳システム９１２は、提供されたテキストについて自動的に導出された機械翻訳を提供するよう構成されている。専門化された翻訳システム９１０は、解析中のソース文書テキストの自動翻訳を探索し、翻訳システム９１２から受け取るよう構成されている（すなわち、システム９１０は、正確な翻訳またはファジー翻訳のマッチを生成できない場合にシステム９１２に依存する）。

専門化された翻訳システム９１０に関連する、以前に翻訳済みのセンテンスのどのデータベースも、システム９１２によって生成された自動翻訳に基づいて更新することができることに注意されたい（すなわち、自動翻訳は、潜在的に正確マッチまたはファジーマッチになる）。機械翻訳は、「オンデマンド」で（すなわち、ユーザの要求により）提供することができることに注意されたい。あるいは、機械翻訳を前処理ステップの間に生成し、その他の以前に翻訳済みのセンテンスと共に格納する（すなわち、その他の潜在的な正確マッチまたはファジーマッチと共に格納する）ことができる。前処理ステップの間に、以前に翻訳済みのセンテンスのデータベースを、正確またはファジーマッチが存在しないセンテンスを用いて更新することができる。それゆえ、機械翻訳は「オンデマンド」で、または前もって提供することができる（次いで、その他の以前に翻訳済みのセンテンスと共に格納することができる）。

ユーザ９０２が、翻訳システム９１２によって生成された翻訳の１つまたは複数の部分に満足していない（すなわち、ユーザが、指示された低信頼メトリックで満足していない）場合、自動翻訳は、例えば、訂正のためにユーザ９０２に提示される（すなわち、ユーザ９０２が信頼できると考えられる修正ソースとなる）。訂正済み翻訳９２２は、例えば、訂正プロセスから結果として得られる。トレーニングジェネレータ９１４は、自動翻訳システム９１２を適応化させるために利用することができるトレーニングデータの集まりを生成するために、自動翻訳、訂正済み翻訳、および／またはソース文書を処理するために利用される。トレーニングジェネレータ９１４は、コンピューティングデバイス９０４上に格納されるか、あるいは別個ではあるがアクセス可能な独立したコンピューティングロケーションに記憶された（すなわち、独立したアクセス可能なサーバ上に記憶された）コンポーネントである。トレーニングジェネレータ９１４が別個のコンピューティングロケーションに格納されている場合、生成されたトレーニング情報は、例えば、自動翻訳システム９１２に返送される。トレーニングジェネレータ９１４がコンピューティングデバイス９０４で格納されている場合、情報は直接、システム９１２中に実装される。トレーニングジェネレータ９１４をコンピューティングデバイス９０４で格納することにより、記憶および処理要件が低減される。自動翻訳システム９１２とトレーニングジェネレータ０１４との間のトレーニング関係は、例えば、自動翻訳システム５０８およびトレーニングジェネレータ５１２に関連して上記に説明した実施形態のいずれかと同様である。

一実施形態によれば、２人以上のユーザ９０２がコンピューティングデバイス９０４および専門化された翻訳システム９１０とやりとりして、より高品質の翻訳を集合的に生成することができる。別の実施形態によれば、ユーザ９０２は、コンピューティングデバイス９０４に直接（図示のように）またはコンピュータネットワークを介してアクセスすることができる。別の実施形態によれば、ジェネレータ９１４によって生成されたトレーニングマテリアルまたは更新マテリアルは、更新システム９１２に利用されるだけでなく、少なくとも１つの追加自動機械翻訳システムを更新するためにコンピュータネットワークを介して転送することもできる。例えば、トレーニングマテリアルまたは更新マテリアルを、同化のために、単一の追加の自動機械翻訳システムに直接、転送することができる。しかし、その代わりとして、マテリアルを集中サーバに転送して、その後、同化のために複数の機械翻訳システムに（すなわち、支払い申し込みベースで）配信することができる。あるいは、マテリアルを集中サーバに転送して、その後、同化のために大規模組織（すなわち、企業）に関連する複数の機械翻訳システムに配信することができる。

本発明について特定の実施形態を参照して説明してきたが、当業者は、本発明の趣旨および範囲から逸脱することなく、形態および詳細に変更を加えることができることを認識されよう。

本発明を実施することができる１つの例示的な環境を示すブロック図である。本発明を実施することができる別の例示的な環境を示すブロック図である。本発明に従って適応型機械翻訳サービスを例示する概略流れ図である。適応型機械翻訳サービスに照らして信頼メトリックスの利用を例示する流れ図である。本発明の実施形態の１つの具体的な応用例を示すブロック図である。本発明の実施形態の別の具体的な応用例を示すブロック図である。本発明を実施することができる機械翻訳アーキテクチャを示すブロック図である。本発明を実施することができる機械翻訳アーキテクチャを示すブロック図である。ユーザの翻訳システムが遠隔的に更新される一実施形態を示す流れ図である。ユーザの翻訳システムがローカルに更新される一実施形態を示す流れ図である。本発明の実施形態の別の具体的な応用例を示すブロック図である。

符号の説明

１００コンピューティングシステム環境
２００モバイルデバイス
３０２ソース文書
３０４自動生成された翻訳
３０６訂正済みの翻訳
３０８更新された翻訳対応物
３１０同様のソース文書
３１２より高品質の翻訳
３３０自動翻訳
３３２信頼できる修正
３３４正しい翻訳対応物を処理
３３６自動翻訳
５００コンピューティング環境
５０５コンピュータネットワーク
５２０コンピューティング環境
６００機械翻訳システム

Claims

自動機械翻訳システムに情報を提供して翻訳の正確さを向上させるためのコンピュータに実施される方法であって、
ソーステキストの集まりを受け取ることと、
前記ソーステキストの集まりに対応する試みの翻訳を前記自動機械翻訳システムから受け取ることと、
前記試みの翻訳の中の少なくとも１つの誤りの訂正を行うよう構成されている訂正入力を受け取ることと、
前記自動機械翻訳システムに情報を提供して前記自動機械翻訳システムによって生成されるその後の翻訳において前記誤りが繰り返されることになる可能性を低減することと
を備えることを特徴とする方法。
前記情報を提供することは、前記訂正入力を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに同化させるべき情報を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する知識ソースに同化させるべき更新情報を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する翻訳対応物に同化させるべき更新情報を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する言語構造の集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する対応する論理形式のデータベースに同化させるべき更新情報を提供することを備えることを特徴とする請求項６に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する統計パラメータの集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する構文解析情報の集まりに同化させるべき更新情報を提供することであって、前記構文解析情報はパーサがセグメントの集まりの解析を提供できるようにする情報であることを備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、前記自動機械翻訳システムに関連する対応する語または句のグループの集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項１に記載の方法。
異なる自動機械翻訳システムに関連する知識ソースに同化させるべき更新情報を、ネットワークを介して伝送することであって、前記更新情報は、前記自動機械翻訳システムによって生成されるその後の翻訳において前記誤りが繰り返されることになる可能性を低減するよう構成されていることをさらに備えることを特徴とする請求項１に記載の方法。
前記情報を提供することは、１つまたは複数のセンテンスペアのバイリンガルコーパスを提供することを備えることを特徴とする請求項１に記載の方法。
前記訂正入力を受け取ることは、少なくとも１つの訂正指示を人間のトランスレータから受け取ることを備えることを特徴とする請求項１に記載の方法。
前記試みの翻訳を受け取ることは、前記機械翻訳システムが適切な翻訳を提供していないソーステキストの一部に対応する試みの翻訳を受け取ることを備えることを特徴とする請求項１に記載の方法。
自動機械翻訳システムの性能を向上させるためのコンピュータに実施される方法であって、
前記自動機械翻訳システムを利用して、ソーステキストの集まりの翻訳を生成することと、
前記ソーステキストの集まりと、前記翻訳の少なくとも一部とを信頼できる修正ソースに転送することと、
前記翻訳の少なくとも一部の中の誤りの指摘を前記信頼できる修正ソースから受け取ることと、
前記自動機械翻訳システムによって生成されるその後の翻訳について前記誤りが発生する可能性が少なくなるように前記自動機械翻訳システムをトレーニングすることと
を備えることを特徴とする方法。
前記翻訳に関する品質測定を表す信頼メトリックを生成することと、
少なくともある程度は前記信頼メトリックに基づいて、前記信頼できる修正ソースに転送される前記翻訳の一部を選択することと
をさらに備えることを特徴とする請求項１５に記載の方法。
前記転送することは、前記自動機械翻訳システムが実施されているクライアントコンピューティングデバイスから、前記信頼できる修正ソースに関連するサーバコンピューティングデバイスに転送することを備えることを特徴とする請求項１５に記載の方法。
前記転送することは、前記自動機械翻訳システムが実施されているサーバから、前記信頼できる修正ソースに関連するサーバコンピューティングデバイスに転送することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する知識ソースを更新することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する少なくとも１つの翻訳対応物を更新することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する言語構造の集まりを更新することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する対応する論理形式のデータベースを更新することを備えることを特徴とする請求項２１に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する統計パラメータの集まりを更新することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する構文解析情報の集まりを更新することであって、前記構文解析情報はパーサがセグメントの集まりの解析を提供できるようにする情報であることを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記自動機械または句翻訳システムに関連する対応する語関連物の集まりを更新することを備えることを特徴とする請求項１５に記載の方法。
前記自動機械翻訳システムをトレーニングすることは、前記誤りに基づくバイリンガルコーパスを前記自動機械翻訳システムに提供することと、前記自動機械翻訳システムが前記バイリンガルコーパスに基づいてそれ自体をトレーニングすることができるようにすることとを備えることを特徴とする請求項１５に記載の方法。
自動機械翻訳システムの性能を向上させるための方法であって、
前記自動機械翻訳システムを利用してソーステキストの集まりの翻訳を生成することであって、信頼メトリックが前記翻訳の部分に関連していることと、
前記信頼メトリックを評価し、前記翻訳の低信頼部分を選択することと、
前記低信頼部分を、コンピュータネットワークを介して信頼できる修正ソースに伝送することと、
前記信頼できる修正ソースを利用して前記低信頼部分の訂正済みバージョンを生成することと、
前記低信頼部分の前記訂正済みバージョンに基づいて翻訳知識の更新済みデータベースを生成することと、
コンピュータネットワークを介して翻訳知識の前記更新済みデータベースを前記自動機械翻訳システムに伝送することと、
翻訳知識の前記更新済みデータベースを前記自動機械翻訳システムに組み込んで、前記自動機械翻訳システムが前記低信頼部分と同様のテキストをその後より高い正確さで翻訳できるようにすることと
を備えることを特徴とする方法。
前記信頼できる修正ソースを利用して訂正済みバージョンを生成することは、人間のトランスレータを利用することを備えることを特徴とする請求項２７に記載の方法。
前記コンピュータネットワークを介して伝送することは、インターネットを介して伝送することを備えることを特徴とする請求項２７に記載の方法。
第１の自己カスタマイズ自動機械トランスレータの性能を向上させるための方法であって、
前記第１の自己カスタマイズ自動トランスレータを第１のコンピューティングデバイス上に実施することと、
第２の自己カスタマイズ自動トランスレータを第２のコンピューティングデバイス上に実施することと、
信頼できる翻訳ソースを提供することと、
前記第１および第２のコンピューティングデバイス間の通信を可能にすることと、
前記第２のコンピューティングデバイスにおいてソーステキストを受け取ることと、
前記第２のコンピューティングデバイスに、前記信頼できる翻訳ソースによって生成された前記試みの翻訳の訂正済みバージョンを供給することと、
前記第２の自己カスタマイズ自動トランスレータを利用して前記ソーステキストおよび前記試みの翻訳の訂正済みバージョンを処理して、前記ソーステキストと同様のテキストをその後より高い正確さで翻訳するように前記第１の自己カスタマイズ自動トランスレータを適応化するためのトレーニング情報を生成することと、
前記トレーニング情報を前記第２のコンピューティングデバイスから前記第１のコンピューティングデバイスに転送することと、
前記トレーニング情報を前記第１の自己カスタマイズ自動トランスレータの中に同化させて、前記第１の自己カスタマイズ自動トランスレータが前記ソーステキストと同様のテキストをその後より高い正確さで翻訳できるようにすることとを備えることを特徴とする方法。