[go: up one dir, main page]

JP2005011358A - 適応型機械翻訳 - Google Patents

適応型機械翻訳 Download PDF

Info

Publication number
JP2005011358A
JP2005011358A JP2004183026A JP2004183026A JP2005011358A JP 2005011358 A JP2005011358 A JP 2005011358A JP 2004183026 A JP2004183026 A JP 2004183026A JP 2004183026 A JP2004183026 A JP 2004183026A JP 2005011358 A JP2005011358 A JP 2005011358A
Authority
JP
Japan
Prior art keywords
machine translation
translation system
translation
source
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004183026A
Other languages
English (en)
Other versions
JP2005011358A5 (ja
Inventor
Stephen D Richardson
ディー.リチャードソン スティーブン
Richard F Rashid
エフ.ラシッド リチャード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/600,297 external-priority patent/US7383542B2/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005011358A publication Critical patent/JP2005011358A/ja
Publication of JP2005011358A5 publication Critical patent/JP2005011358A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 自動機械翻訳システムに情報を提供して、翻訳の精度を向上させるためのコンピュータに実装される方法を開示する。
【解決手段】 この方法は、ソーステキストの集まりを受け取ることを含む。このソーステキストの集まりに対応する試みの翻訳を、自動機械翻訳システムから受け取る。試みの翻訳中の少なくとも1つの誤りを訂正するよう構成されている訂正入力も受け取る。最終的に、自動機械翻訳システムによって生成されるその後の翻訳においてその誤りが繰り返される可能性を低減するよう自動機械翻訳システムに情報を提供する。
【選択図】 図3

Description

本発明は、機械翻訳に関する。より詳細には、本発明は、信頼できるソースから訂正済み翻訳を取得する通常のワークフロー内でユーザの自動機械翻訳システムの性能を体系的に向上させるための手段に関する。
インターネットなどの技術によって創造された国際的コミュニティの成長の結果、機械翻訳、より詳細には、自然言語テキストを翻訳するためのコンピュータシステムの利用が、近年、より広範に普及してきている。いくつかの事例では、機械翻訳は自動的に行うことができる。しかし、質の高い翻訳を作成するプロセスに、人とのやりとりを組み込む場合がある。一般的に言って、人的資源に依拠する翻訳はより正確ではあるが、完全に自動化されたシステムよりも時間およびコストの効果が低い。翻訳システムによっては、翻訳の正確さが極めて重要なときにのみ人とのやりとりに依拠することがある。一般に、人とのやりとりに関連する時間およびコストを、特別に正確な翻訳が所望されるたびに、投資しなければならない。
完全に自動化された機械翻訳によって生成される翻訳の質は、一般に、このようなシステムに対する需要の増大に伴って向上していない。特定の領域(または対象)についてより高品質の自動翻訳を得るためには、機械翻訳システムをかなりカスタマイズする必要があることが一般に認識されている。カスタマイズには、一般に、所望の領域のテキストを翻訳するための専門的なボキャブラリおよび規則の追加が含まれる。このようなカスタマイズは、一般に、トレーニングを受けたコンピュータ言語学者によって行われる。彼らは、半自動化ツールを使用して、ボキャブラリ項目をオンライン辞書に追加し、また、一般に専門化された規則の書き言葉(specialized rule writing languages)で言語的に方向付けられた規則(linguistically oriented rules)を書く。この種のカスタマイズは、比較的コストがかかる。
米国特許出願第10/309,950号 米国特許出願第09/899,755号 米国特許第5,966,686号明細書
概して、消費者にとって様々なソースから利用可能な翻訳サービスは、コスト効率の良い高品質のカスタマイズされた翻訳を提供することができない。例えば、パッケージおよびウェブベースの翻訳システムが、一般の人々に現在入手可能である。しかし、これらの翻訳システムは、特定の領域または対象に合わせてカスタマイズすることが難しいか、または不可能である。商業グレードの翻訳システムも入手可能である。これらのシステムは、特定の領域に合わせてカスタマイズすることができるが、しかし、そのカスタマイズプロセスは単調であり、一般に非常に高価である。直接的な人ベースの翻訳サービス(すなわち、ウェブベースおよびメールオーダベースの人による翻訳サービス)も利用可能である。しかし、人による翻訳には、一般に、翻訳すべき文書ごとに料金を支払う必要がり、終わることのない費用が必要となる。
本発明の実施形態は、翻訳の正確さを向上させるために自動機械翻訳システムに情報を提供するためのコンピュータに実装される方法に関する。この方法は、ソーステキストの集まりを受け取るステップを含む。ソーステキストの集まりに対応する試みの翻訳を、自動機械翻訳システムから受け取る。試みの翻訳の中の少なくとも1つの誤りを訂正するよう構成されている訂正入力も受け取る。最終的に、自動機械翻訳システムに情報を提供して、自動機械翻訳システムによって生成されるその後の翻訳でその誤りが繰り返される可能性を低減する。
I.例示の動作環境
本発明の様々な態様は、信頼できるソースから訂正済みの翻訳を取得する通常のワークフロー内での適応型機械翻訳のカプセル化に関する。しかし、本発明をより詳細に説明するのに先立って、本発明を実施することができる例示的な環境の実施形態について説明する。
図1は、本発明を実施することができる適切なコンピューティングシステム環境100の一例を示す。コンピューティングシステム環境100は、適切なコンピューティング環境の一例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、コンピューティングシステム環境100を、例示的な動作環境100に示したコンポーネントのいずれか1つまたは組合せに関していかなる依存性、または必要性を有するものとして解釈すべきでもない。
本発明は、その他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。本発明と共に使用するのに適する可能性のある周知のコンピューティングシステム、環境、および/または構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な民生用電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、電話システム、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、これらに限られない。
本発明を、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令という一般的な状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実行したり、または特定の抽象データ型を実施したりするルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明はまた、タスクが通信ネットワークを介してリンクされているリモート処理デバイスによって実行される分散コンピューティング環境において実施するように設計されている。分散コンピューティング環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルおよびリモートのコンピュータ記憶媒体の両方に配置される。プログラムおよびモジュールによって実行されるタスクについて、以下に、図の助けを借りて説明する。当業者は、これらの説明および図を、任意の形態のコンピュータ可読媒体上に書き込むことができるプロセッサ実行可能命令として実施することができる。
図1を参照すると、本発明を実施するための例示的なシステムは、コンピュータ110の形態の汎用コンピューティングデバイスを含む。コンピュータ110のコンポーネントには、処理装置120、システムメモリ130、および、システムメモリを含む様々なシステムコンポーネントを処理装置120に結合するシステムバス121が含まれ得るが、これらに限定されない。システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含む、いくつかのバス構造のいずれであってもよい。限定ではなく、例として、このようなアーキテクチャには、ISA(Industry Standard Architecutre)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとしても知られるPCI(Peripheral Component Interconnect)が含まれるが、これらに限定されない。
コンピュータ110は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスできる任意の利用可能な媒体とすることができ、揮発性媒体および不揮発性媒体、取外し可および取外し不可の媒体を含む。限定ではなく、例として、コンピュータ可読媒体には、コンピュータ記憶媒体および通信媒体が含まれる。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するためにいずれかの方法または技術で実施された揮発性および不揮発性の取外し可および取外し不可の媒体が含まれる。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリもしくはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくはその他の光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくはその他の磁気記憶装置、または所望の情報を格納するために使用でき、コンピュータ110によってアクセスすることができる任意のその他の媒体が含まれるが、これらに限定されない。
通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送波またはその他のトランスポートメカニズムなどの変調データ信号に具体化し、そして任意の情報配信媒体を含む。「変調データ信号」という用語は、信号中に情報を符号化するような方法でその特性の1つまたは複数を設定または変更した信号を意味する。限定ではなく、例として、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響、RF、赤外線、およびその他の無線媒体などの無線媒体が含まれる。上記のいずれの組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を含む。起動時などにコンピュータ110内の構成要素間の情報の転送を支援する基本ルーチンを収容する基本入出力システム(BIOS)133は、一般に、ROM131に格納されている。RAM132は、一般に、処理装置120によって直ぐにアクセス可能であり、そして/または現在操作されているデータおよび/またはプログラムモジュールを含む。限定ではなく、例として、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示している。
コンピュータ110は、その他の取外し可/不可の揮発性/不揮発性コンピュータ記憶媒体を含む場合もある。例にすぎないが、図1には、取外し不可の不揮発性磁気媒体との読取りまたは書込みを行うハードディスクドライブ141、取外し可の不揮発性磁気ディスク152との読取りまたは書込みを行う磁気ディスクドライブ151、およびCD−ROMまたはその他の光媒体などの取外し可の不揮発性光ディスク156との読取りまたは書込みを行う光ディスクドライブ155を示している。例示的な動作環境で使用できるその他の取外し可/不可の揮発性/不揮発性コンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどが含まれるが、これらに限定されない。ハードディスクドライブ141は、一般に、インターフェース140などの取外し不可のメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、一般に、インターフェース150などの取外し可のメモリインターフェースによってシステムバス121に接続される。
上記に説明し、図1に示したドライブおよびそれらの関連するコンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータの格納をコンピュータ110に提供している。図1では、例えば、ハードディスクドライブ141を、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を格納しているものとして示してある。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じ場合も異なる場合もあることに注意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147には、少なくともそれらが異なるコピーであることを示すために、ここでは異なる番号を付与してある。
ユーザは、キーボード162、マイクロフォン163、およびマウス、トラックボール、タッチパッドなどのポインティングデバイス161などの入力デバイスを介して、コンピュータ110にコマンドおよび情報を入力することができる。その他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、衛星アンテナ、スキャナなどが含まれる。これらおよびその他の入力デバイスは、システムバスに結合されているユーザ入力インターフェース160を介して処理装置120に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)など、他のインターフェースおよびバス構造によって接続することもできる。モニタ191またはその他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータはスピーカ197やプリンタ196などの他の周辺出力デバイスを含むこともでき、それらは出力周辺インターフェース195を介して接続することができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用して、ネットワーク化された環境で操作される。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の一般的なネットワークノードであってよく、一般に、コンピュータ110に関連して上記に説明した構成要素の多くまたは全てを含む。図1に示す論理接続には、ローカルエリアネットワーク(LAN)171および広域ネットワーク(WAN)173が含まれるが、他のネットワークを含むこともある。このようなネットワーク化環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットにおいてはごく普通である。
LANネットワーク化環境において使用する場合、コンピュータ110を、ネットワークインターフェースまたはアダプタ170を介してLAN171に接続する。WANネットワーク化環境において使用する場合、コンピュータ110は、一般に、インターネットなどのWAN173を介して通信を確立するためのモデム172またはその他の手段を含む。モデム172は、内蔵または外付けであってよく、ユーザ入力インターフェース160またはその他の適切なメカニズムを介してシステムバス121に接続することができる。ネットワーク化環境においては、コンピュータ110に関連して説明したプログラムモジュールまたはその一部をリモートメモリ記憶装置に記憶することができる。限定ではなく、例として、図1は、リモートアプリケーションプログラム185をリモートコンピュータ180に常駐するものとして示している。図示したネットワーク接続は例示的であり、コンピュータ間の通信リンクを確立するためのその他の手段を使用することができる。
本発明は、図1を参照して説明したようなコンピュータシステム上で実行することができることに注意されたい。しかし、本発明は、サーバ、メッセージ処理専用のコンピュータ、または本発明の異なる部分が分散コンピューティングシステムの異なる部分で実行される分散システム上で実行することも可能である。
図2は、本発明を実施することができる別の例示の適切なコンピューティング環境であるモバイルデバイス200のブロック図である。コンピューティングシステム環境200は適切なコンピューティング環境の別の例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、コンピューティングシステム環境200を、図示したコンポーネントのいずれか1つまたはそれらの組合せに関して依存性、または必要性を有するものとして解釈すべきでもない。
モバイルデバイス200は、マイクロプロセッサ202、メモリ204、入出力(I/O)コンポーネント206、およびリモートコンピュータまたはその他のモバイルデバイスと通信を行うための通信インターフェース208を含んできる。一実施形態では、これらのコンポーネントは、適切なバス210を介して互いに通信を行うために結合されている。
メモリ204は、モバイルデバイス200への全体的な電力が遮断されたときにメモリ204に格納された情報が失われないように、バッテリのバックアップモジュール(図示せず)を備えたランダムアクセスメモリ(RAM)などの不揮発性電子メモリとして実装されている。メモリ204の一部は、好ましくは、プログラム実行のためのアドレス可能メモリとして割り振られ、メモリ204の別の部分は、好ましくは、ディスクドライブ上の記憶をシミュレートするためなどの記憶として使用されている。
メモリ204は、オペレーティングシステム212、アプリケーションプログラム214、ならびにオブジェクトストア216を含んでいる。動作中、オペレーティングシステム212は、メモリ204からプロセッサ202によって実行されることが好ましい。オペレーティングシステム212は、好ましい一実施形態では、マイクロソフトコーポレイションから市販されているWINDOWS(登録商標)CEブランドである。オペレーティングシステム212は、モバイルデバイス用に設計されていることが好ましく、1組の公開されたアプリケーションプログラミングインターフェースおよびメソッドを介してアプリケーションプログラム214によって利用することができるデータベース機能を実装している。オブジェクトストア216中のオブジェクトは、少なくとも部分的には、公開されたアプリケーションプログラミングインターフェースおよびメソッドへのコールに応答して、アプリケーションプログラム214およびオペレーティングシステム212によって維持管理されている。
通信インターフェース208は、モバイルデバイス200が情報を送受信できるようにする数多くのデバイスおよび技術を代表している。これらのデバイスには、2、3例を挙げると、有線および無線モデム、衛星受信機、放送チューナが含まれる。モバイルデバイス200はまた、直接、コンピュータに接続して、データ交換することもできる。このような場合、通信インターフェース208は、赤外線トランシーバや、シリアルまたはパラレル通信接続とすることができ、それらの全てがストリーミング情報を伝送することができる。
入出力コンポーネント206は、タッチ検知画面、ボタン、ローラ、マイクロフォンなどの様々な入力デバイス、ならびにオーディオジェネレータ、振動デバイス、ディスプレイなどの様々な出力デバイスを含む。上記のデバイスは例であり、それらが全てモバイルデバイス200上に存在する必要はない。さらに、本発明の範囲内で、その他の入出力デバイスをモバイルデバイス200に取り付けるか、または見つけることができる。
II.適応型機械翻訳サービスの概要
図3は、信頼できるソースから訂正済みの翻訳を取得する通常のワークフロー内での適応型機械翻訳を説明する概略流れ図である。
統計的および用例に基づく技術を含む様々な機械学習技術を通して自動機械翻訳システムのカスタマイズを自動化するための研究がなされている。このような技術では、機械翻訳システムは、すでに翻訳済みのマテリアル(バイテキスト(bitext)またはバイリンガルコーパス(bilingual corpus)と呼ばれることが多い)から翻訳対応物を学習することができる。このようなマテリアルには、1つの(ソース)言語によるセンテンスと、それに対応する別の言語による翻訳済み(ターゲット)センテンスが含まれている。さらに、このようなMT(machine translation)システムは、「比較」コーパス、またはソース言語とターゲット言語間の正確な翻訳ではないが、ソース言語とターゲット言語の両方で同様の概念およびイベントを記述しているテキストから、さらなる対応物を学習することができる。モノリンガルコーパスをさらに利用して、ターゲット言語で流暢な構文(construction)を学習することができる。本発明の一般的な一態様によれば、これらのカスタマイズ技術を、従来の文書管理環境内で適用し、利用することである。具体的には、システムユーザが文書を作成し、対応する翻訳を入手し、その翻訳を訂正するという通常の流れの中で、自動翻訳システムをトレーニングするためのデータを生成する。このトレーニングデータによって、ユーザの自動機械翻訳システムの体系的なカスタマイズが可能になる。
図3を参照すると、本発明の実施形態は、ユーザが翻訳のためにユーザのコンピュータ上の(またはユーザに関連するサーバ上の)自動トランスレータにソース文書302を提出する、文書管理またはワークフロー環境内での適応型機械翻訳システムのカプセル化に関する。このアクションをブロック330で表してある。ソース文書302および自動生成された翻訳304が、検討および訂正のために、信頼できる修正ソース(すなわち、人間のトランスレータ)に伝送される。このアクションをブロック332で表してある。
訂正済み翻訳306およびオリジナルのソース文書302が処理されて、更新され、正確であると考えられる翻訳対応物308の集まりが作成される。このアクションをブロック334で表してある。一実施形態によれば、対応物308は、ユーザによって維持管理されている自己カスタマイズ機械翻訳システムと並行して稼動している自己カスタマイズ機械翻訳システムによって生成される。一実施形態によれば、更新された翻訳対応物308は、更新済みデータベースの中に置かれ(あるいは、統計的な機械翻訳システムが使用されている場合には、統計パラメータの更新済みテーブルに反映される)、このデータベースは訂正済みの翻訳された文書とともにユーザに返送される。更新物は、ユーザの自動機械翻訳システムに同化される。ユーザが次に同様のテキストのマテリアル310の翻訳を試みると、システムは、以前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳312を自動的に生成する。このアクションをブロック336で表してある。このトレーニング、および本明細書に記載した全ての同様のトレーニングが、例えば、言語ペアの両方向(すなわち、スペイン語から英語、英語からスペイン語)でその後の翻訳に利益をもたらすことに注意されたい。
訂正済みの翻訳306およびソース文書302に基づいて多くの異なるタイプのトレーニングデータを生成できることに注意されたい。多くの異なるタイプのトレーニングデータを利用して、ユーザの自動翻訳システムを適応化することができる。翻訳対応物の更新は、本発明の範囲に含まれる一例にすぎない。任意の知識ソースの更新が範囲内に含まれる。任意の統計または用例ベースのトレーナのいかなる更新も範囲内に含まれる。以下に、具体例を詳細に説明する。
ユーザが様々な文書の自動翻訳を取得し、その結果を信頼できる事後校訂(すなわち、訂正および修正)に出すと、ユーザの自動翻訳システムは、同様の文書をより有効に翻訳できるようにそれ自体を徐々に適応化させる。コストのかかるカスタマイズの必要がなくなり、ユーザは、その後、より高品質の自動翻訳を享受する。ユーザの自動翻訳システムの適応化およびカスタマイズは、例えば、ユーザが品質の高い翻訳を取得する通常のルーチンに専念している間に「舞台裏で」行われる。
一実施形態によれば、自動生成された翻訳304は、翻訳全体および/またはその一部の品質を示す自動生成された信頼メトリック(confidence metric)を含む。信頼メトリックは、例えば、ユーザの見積もった出力の満足度に基づく。このような信頼メトリックの生成および利用については、本発明と同じ実体に譲渡され、参照によりその全体を本明細書に組み込む2002年12月4日に出願の「SYSTEM AND METHOD FOR MACHINE LEARING A CONFIDENCE METRIC FOR MACHINE TRANSLATION」と題する米国特許出願(特許文献1)に記載されている。
図4は、記載した自己カスタマイズ機械翻訳システムに信頼メトリックがどのように組み込まれるかを示す流れ図である。ブロック402に従って、ユーザはソース文書の自動翻訳を得る。この文書は、その文書の全体および/またはその個々の部分の1つまたは複数に関する注記された信頼メトリック情報を含む。ブロック404に従って、ユーザは、事後校訂のために信頼の格付けが低い1つまたは複数の部分を選択する。これらの部分は、訂正のために信頼できる修正ソース(すなわち、人間のトランスレータ)に転送される。訂正された部分はオリジナルのソース文書と共に処理されて、更新済みの正確であると考えられる翻訳対応物が作成される。一実施形態によれば、この処理は、ユーザによって維持管理されている自己カスタマイズ機械翻訳システムと並行して稼動している自己カスタマイズ機械翻訳システムによって行われる。
ブロック406に従って、更新された翻訳対応物が、訂正された翻訳済みの部分(または訂正された翻訳済みの文書全体)と共にユーザに返送される。ブロック408に従って、更新物がユーザの自動機械翻訳システム中に同化される。ユーザが次に同様のテキストのマテリアルの翻訳を試みると、ユーザの自動機械翻訳システムは、より高品質の翻訳を生成する。
III.特定の応用例
図5Aおよび5Bは、適応型機械翻訳システムの上述の実施形態の特定の応用例のブロック図である。これらの特定の応用例は例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、これらの特定の応用例を、図示したコンポーネントのいずれか1つまたはそれらの組合せに関するいかなる依存性、または必要性を有するものとして解釈すべきでもない。
図5Aは、コンピューティング環境500のブロック図である。ユーザ502は、コンピューティングデバイス504を操作して、コンピュータネットワーク505(すなわち、インターネット)を介して、信頼できる修正ソース506とやりとりすることができる。ソース506は、例えば、コンピューティングデバイス上で実施された翻訳サービスであり、ネットワーク505を介してコンピューティングデバイス504およびそのユーザ502に提供される。
コンピューティングデバイス504、ならびに修正ソース506が実装されているコンピューティングデバイスは、様々な既知のコンピューティングデバイスのいずれかであってよく、これらには図1および2に関連して説明したコンピューティングデバイスのいずれかが含まれるが、これらに限定されない。ネットワーク505を介したコンピューティングデバイス504と修正ソース506との間の通信は、様々な既知のネットワーク通信方法のいずれかを利用して行うことができ、これらには図1および2に関連して説明した方法のいずれかが含まれるが、これらに限定されない。一実施形態によれば、コンピューティングデバイス504は、サーバに実装される修正ソース506との無線ネットワークでの通信のために構成されたクライアント無線モバイルデバイスである。別の実施形態によれば、コンピューティングデバイス504は、サーバに実装実施される修正ソース506とのインターネットでの通信のために構成されたクライアントパーソナルコンピュータである。これらは、本発明の範囲に含まれる多くの特定の実施形態のうちの2つにすぎない。
コンピューティングデバイス504は、自動翻訳システム508を含む。ユーザ502は、例えば、対応する自動翻訳の生成のために、テキストサンプルをシステム508に提出する。ユーザ502が、翻訳システム508によって生成された翻訳の1つまたは複数部分に満足していない(すなわち、ユーザが指示された低信頼メトリックスに満足していない)と想定し、自動翻訳が、ソース文書のコピーと共に修正ソース506に提出される。この自動翻訳はソース506で訂正される。一実施形態によれば、人間のトランスレータ510が自動翻訳を訂正する。別の実施形態によれば、信頼できる自動化システムが訂正を行う。訂正済みの翻訳は、ユーザ502への引き渡しのためにコンピューティングデバイス504に返送される。
自動翻訳システム508を適応化させるために利用できるトレーニングデータの集まりを生成するために、トレーニングジェネレータ512を利用して、自動翻訳、訂正済みの翻訳、および/またはソース文書を処理する。トレーニングジェネレータ512は、修正ソース506、またはコンピューティングデバイス504、または別個のアクセス可能な独立したロケーション(すなわち、独立したアクセス可能なサーバ)に記憶されたコンポーネントである。トレーニングジェネレータ512が修正ソース506に格納されている場合、生成されたトレーニング情報は、例えば、関連する訂正済み翻訳と共に自動翻訳システム508に転送される。トレーニングジェネレータ512がコンピューティングデバイス504に格納されている場合、情報は直接システム508中に実装される。トレーニングジェネレータ512を修正ソース506と共に格納することによって、コンピューティングデバイス504に課される記憶および処理要件が低減される。また、この構成によれば、トレーニングジェネレータ512を集中ロケーションから維持管理し、操作することが可能になる。
一実施形態によれば、自動翻訳システム508の適応化を容易にするために、トレーニングジェネレータ512が信頼できる修正ソース506とコンピューティングデバイス508の両方にある。トレーニングジェネレータ512のペアは、例えば、同じか、またはほぼ同様である。トレーニングジェネレータ512のペアは、例えば、自己カスタマイズ機械翻訳システム(このようなシステムについては図6に関連して説明する)に関連付けられている。修正ソース506で事後校訂が完了した後、生成された訂正済み翻訳は、オリジナルのソーステキストと共に、例えば、修正ソース506上で実施された自己カスタマイズ機械翻訳システムの「トレーニング」フェーズによって処理される。このトレーニングフェーズの間に正しい翻訳対応物が学習される。この対応物は、更新済みデータベースの中に置かれ(あるいは、統計的なシステムが使用されている場合には、統計パラメータの更新済みテーブルに反映される)、これはコンピューティングデバイス504上で実施された機械翻訳システムのバージョンに送られる。次いで、更新物は、ユーザのコンピュータ上の自己カスタマイズシステムのバージョン(または、以下に説明するように、サーバ上に維持管理されているバージョン)に自動的に同化される。ユーザが次に同様のテキストのマテリアルの翻訳を試みると、その翻訳システムは、以前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳を自動生成する。
一実施形態によれば、信頼できる修正ソース506は、ネットワーク505上で動作しているサーバに関連付けられる。トレーニングジェネレータ512は、同じサーバ上で維持管理され、操作される。修正ソース506に関連してユーザ502に提供された翻訳およびトレーニング情報は、例えば、必須ではないが、支払いベース(すなわち、時間毎または申し込みベースによる支払い)で提供される。
図5Bは、コンピューティング環境520のブロック図である。図5Aの構成要素と同じ、または同様である図5Bの構成要素には、同じまたは同様の参照番号を付けてある。図5Bでは、1人または複数のユーザ502が、サーバ524に接続可能な1台または複数のコンピューティングデバイスとやりとりしている。自動翻訳システム508は、例えばユーザ502に関連付けられており、サーバ524上に格納され、維持管理されている。サーバ524は、ネットワーク505に接続可能である。ユーザ502は、コンピューティングデバイス522を操作して、ネットワーク505に同様に接続可能な信頼できる修正ソース506とのやりとりを可能にしている。修正ソース506は、例えば、ネットワーク505を介して、コンピューティングデバイス504経由でユーザ502に提供される翻訳サービスである。
システム520は、システム500と同じ方法で動作するが、しかし、自動翻訳システム508は、可能性として、複数のコンピューティングデバイスによってアクセスされて、1人または複数の個々のユーザ502のための自動翻訳を行うことができる。したがって、翻訳システム508は、複数のユーザによって提出された文書に関連したトレーニング情報を用いて適応および更新することができる。翻訳システム508の翻訳の正確さは、複数のユーザ502に対応するように進化していくことになる。これは、複数のユーザに単一の領域または分野の対象の範囲内で文書を生成し、翻訳させる共通のコネクションを持っている場合(すなわち、彼らが同じ業界、同じ会社などで働いている場合)には特に望ましい。
IV.自動カスタマイズを利用する機械翻訳システムを用いた特定の応用例
ここまでは自動翻訳システム508について一般的に説明してきた。システム508の正確な詳細は、本発明にとって重要ではない。さらに、説明したトレーニングデータを翻訳システム508がどのように同化させるかについての正確なスキームについては述べていない。本発明は、トレーニングデータの任意の1つの特定のタイプに限定されるものではなく、また、データを同化させるための任意の1つの方法に限定されるものでもない。しかし、特定の自動翻訳システム、およびトレーニングデータを同化させるための対応するスキームについて、図6に関連して説明する。
いくつかの自動翻訳システムは、システムをカスタマイズするための自動化技術を利用して、以前に未知であったボキャブラリに対する翻訳を適応させる(すなわち、専門領域についての翻訳を適応させる)ことが知られている。本発明の実施形態は、このような翻訳システムの関連においてうまく適用可能である。このようなシステムについては、参照によりその全体が本明細書に組み込まれる、本発明と同じ実体に譲渡された2001年7月5日出願の「SCALEABLE MACHINE TRANSLATION SYSTEM」と題された米国特許出願(特許文献2)に記載されている。組み込まれた参照文献に記載のシステムの部分について、図6に関連して説明する。
図6に関連する自動翻訳システムを説明するのに先立って、論理形式(logical form)の簡単な説明が役立つ可能性がある。論理形式、ならびにそれらを生成するためのシステムおよび方法についての完全かつ詳細な説明を、Heidornらに対する1999年10月12日発行の「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES」と題された米国特許(特許文献3)に見ることができる。しかし、簡単に言えば、論理形式は、入力テキストに関して形態素および統語解析(morphological and syntactic analysis)を実行して、文法関係(grammatical relations)で増強された従来の句構造解析(phrase structure analyses)を生成することによって生成される。統語解析は、論理形式を導出するためにさらなる処理を受ける。その論理形式は、テキスト入力中の内容語間のラベル付けされた依存を記述するデータ構造である。論理形式は、特定の統語上の交替(例えば、能動/受動)を標準化(normalize)し、センテンス間の照応関係(intrasentential anaphora)および長距離依存(long distance dependencies)を解消する。論理形式はグラフとして表すことができ、これにより、論理形式の構成要素を直感的に理解するのに役立つ。しかし、当業者には理解されるように、コンピュータ可読媒体上に格納した場合、論理形式はグラフを表すものとして直ぐに理解されず、むしろ(依存)木として理解される場合がある。
論理関係(logical relation)は、以下のような、方向関係タイプ(directional relation type)で結び付けられた2つの単語からなる。
LogicalSubject,LogicalObject,
IndirectObject;
LogicalNominative,LogicalComplement,LogicalAgent;
CoAgent,Beneficiary;
Modifier,Attribute,SentenceModifier;
PrepositionalRelationship;
Synonym,Equivalence,Apposition;
Hypernym,Classifier,Subclass;
Means,Purpose;
Operator,Modal,Aspect,DegreeModifier,Intensifier;
Focus,Topic;
Duration,Time;
Location,Property,Material,Manner,Measure,Color,Size;
Characteristic,Part;
Coordinate;
User,Possessor;
Source,Goal,Cause,Result;
およびDomain.
論理形式は、センテンスやその一部など、単一のテキスト入力を表す、関連した論理関係のデータ構造である。論理形式は、最低、1つの論理関係からなり、構造関係(すなわち、統語上および意味上の関係)、特に入力ストリング中の重要な語の間の項および/または修飾関係(argument and/or adjunct relation)を表現する。
統語解析から論理形式を構築する特定のコードは、例えば、機械翻訳システムが動作している様々なソース言語およびターゲット言語の間で共用される。この共用アーキテクチャは、異なる言語からの論理形式セグメントの位置合せのタスクを大きく簡略化する。と言うのは、2つの言語における一見識別可能な構造は、しばしば同様または同一の論理形式表現に倒れ込むためである。
こうした背景を心に留めて、図6は、本発明の一態様による機械翻訳システム600のアーキテクチャのブロック図である。システム600は、規則ベースおよび統計的技術を用例ベースのトランスファと組み合わせるデータ駆動型の機械翻訳システムである。このシステムは、データから直接、語彙および句の翻訳(lexical and phrasal translations)の知識を学習することができる。システム600のトレーニングモードの中心的な特徴は、センテンスが位置合せされたバイリンガルコーパスからシステムの翻訳用例ベースを作成する自動論理形式の位置合せ手順である。
機械翻訳システム600は、バイリンガルの対応するテキストから翻訳する方法を自動的に学習するよう構成される。このシステムは、特定のテキストについて、そのセンテンスおよびそれに対応する人の翻訳を処理することによってカスタマイズすることができ、その結果、そのテキストと同様のマテリアルに対して、その後の翻訳がより高品質になる。機械翻訳システム600はまた、全体の翻訳および/またはその一部の品質を指す、組み込まれた信頼スコアをうまく提供するよう構成される。
システム600は、構文解析コンポーネント604および606、統計的単語関連付け学習コンポーネント608、論理形式(LF)位置合せコンポーネント610、語彙知識ベース(LKB)構築コンポーネント612、バイリンガル辞書614、辞書マージコンポーネント616、トランスファマッピングデータベース618、ならびに更新済みバイリンガル辞書620を含む。トレーニングおよび翻訳の実行時の間、システム600は、解析コンポーネント622、マッチングコンポーネント624、転送コンポーネント626および/または生成コンポーネント628を利用する。一実施形態によれば、構文解析コンポーネント604および解析コンポーネント622は同じコンポーネントであり、または少なくとも互いに同一である。
バイリンガルコーパスを使用して、システムをトレーニングする。バイリンガルコーパスは、位置合せされた翻訳済みセンテンス(例えば、スペイン語などのソースまたはターゲット言語による、人が作成した翻訳物と1対1で対応している、英語などの別のソースまたはターゲット言語のセンテンス)を含む。バイリンガルコーパスにおける翻訳「センテンス」は、実際の完全なセンテンスに限定されず、代わりにセンテンスセグメントの集まりとすることができることに注意されたい。トレーニングの間、センテンスは、位置合せされたバイリンガルコーパスからシステム600中に、ソースセンテンス630(翻訳すべきセンテンス)、またターゲットセンテンス632(ソースセンテンスの翻訳)として、提供される。構文解析コンポーネント604および606は、位置合せされたバイリンガルコーパスからのセンテンスを構文解析して、ソース論理形式634およびターゲット論理形式636を生成する。
構文解析の間、センテンス中の語は、標準化された語形式(見出語(lemma))に変換され、統計的単語関連付け学習コンポーネント608に提供することができる。学習コンポーネント608によって、単一語および複数語の両方の関連物について、それぞれの信頼できるセットが得られるまで繰り返し仮定を立て、採点される。統計的単語関連付け学習コンポーネント608は、学習した単一語翻訳ペア638ならびに複数語ペア640を出力する。
複数語ペア640は辞書マージコンポーネント616に提供される。そのコンポーネントを使用して追加エントリをバイリンガル辞書614に追加して、更新済みバイリンガル辞書620を形成する。新規のエントリは複数語ペア640を表す。
単一語翻訳ペア638は、ソース論理形式634およびターゲット論理形式636と共に論理形式位置合せコンポーネント610に提供される。簡単に言えば、コンポーネント610はまず、ソースおよびターゲットの論理形式630および636中のそれぞれのノード間に一時的な対応物を確立する。これは、バイリンガル語彙目録(例えばバイリンガル辞書)614からの翻訳ペアを使用して行われる。このバイリンガル語彙目録を、統計的単語関連付け学習コンポーネント608からの単一および複数語翻訳ペア638、640で増強することができる。可能な対応物を確立した後、位置合せコンポーネント610は、語彙上および構造上の考慮の両方に従って論理形式ノードの位置合せを行い、語および/または論理形式のトランスファマッピング642を作成する。
基本的に、位置合せコンポーネント610は、バイリンガル辞書情報614、および単一および複数語ペア638、640を使用して、論理形式間にリンクを引く。トランスファマッピングは、ソースおよびターゲット論理形式634および636中で見つけられる頻度に基づいて、任意選択としてフィルタされ、語彙知識ベース構築コンポーネント612に提供される。
フィルタリングは任意選択ではあるが、一例では、トランスファマッピングがトレーニングデータ中に少なくとも2回見られない場合には、トランスファマッピングデータベース618を構築するために使用されない。ただし、その他の任意の所望の頻度をフィルタとして使用することもできる。出現頻度以外にその他のフィルタリング技術を使用することもできる。例えば、トランスファマッピングが入力センテンスの完全な構文解析から形成されているかどうかに基づいて、また、トランスファマッピングを作成するために使用される論理形式が完全に位置合せされているかどうかに基づいて、トランスファマッピングをフィルタすることができる。
コンポーネント612は、トランスファマッピングデータベース618を構築し、このトランスファマッピングデータベースは、基本的にはある言語の語および/または論理形式を第2の言語の語および/または論理形式にリンクするトランスファマッピングを収容する。こうして作成されたトランスファマッピングデータベース618により、システム600が実行時翻訳のために構成される。翻訳実行時の間、翻訳されることになるソースセンテンス650が解析コンポーネント622に提供される。解析コンポーネント622はソースセンテンス650を受け取り、このソースセンテンス入力に基づいてソース論理形式652を作成する。
ソース論理形式652は、マッチングコンポーネント624に供給される。マッチングコンポーネント624は、リンクされた論理形式654を得るために、ソース論理形式652をトランスファマッピングデータベース618中の論理形式にマッチさせようと試みる。複数のトランスファマッピングが、ソース論理形式652の(複数)部分にマッチすることがある。マッチングコンポーネント624は、マッチする見出語、品詞(parts of speech)、およびその他の特徴情報を有するマッチトランスファマッピングの最良のセットについて、データベース618の中をサーチする。このベストマッチのセットは、所定のメトリックに基づいて見つけられる。例えば、より大きい(より具体的な)論理形式を有するトランスファマッピングが、より小さい(より一般的な)論理形式を有するトランスファマッピングよりも好ましい場合がある。等しいサイズの論理形式を有するマッピングの間で、マッチングコンポーネント624は、例えば、より頻度の高いマッピングを好むことがある。マッピングはまた、何ら互いにコンフリクトしないという条件で、ソース論理形式652の重複する部分にマッチすることもある。マッピングのあるセットが集合的に、代替のマッピングセットよりも多くの入力センテンスを対象とする場合、例えば、このセットの方が好ましい場合がある。
マッチするトランスファマッピングのセットが見つかると、マッチングコンポーネント624は、ソース論理形式652中のノード上に、トランスファマッピングによって受け取られた対応するターゲットの語または論理形式セグメントのコピーへリンクを作成して、リンクされた論理形式654を生成する。複数語マッピングについてのリンクは、対応するセグメントのルートノードをリンクし、次いでその複数語マッピングに加わっているその他のソースノードにアスタリスクをリンクすることによって表される。このようなマッピングの対応する個々のソースおよびターゲットノード間のサブリンクも、例えば、転送中に使用のために作成することができる。転送コンポーネント626は、マッチングコンポーネント624からリンクされた論理形式654を受け取り、ターゲット翻訳の基礎を形成することになるターゲット論理形式656を作成する。これは、ソース論理形式652のノード上のリンクによってポイントされたターゲット論理形式セグメントが組み合わされているリンクされた論理形式654のトップダウンの全検索を実行することによって行われる。複雑である可能性のある複数語マッピングのために論理形式セグメントを共に組み合わせる場合、マッチングコンポーネント624によって個々のノード間に設定されるサブリンクを使用して、修飾語句(modifier)などの正しい付加ポイント(attachment point)を決定する。必要に応じて、デフォルトの付加ポイントが使用される。
適用可能なトランスファマッピングが見つからない場合、ソース論理形式652のノードおよびそれらの関係は、単にターゲット論理形式656にコピーされる。それでも、デフォルトの単一語翻訳をトランスファマッピングデータベース618中で見つけ、ターゲット論理形式656の中に挿入することができる。しかし、何も見つからない場合は、翻訳を、例えば更新済みバイリンガル辞書620から得ることができる。この辞書は、位置合せの期間に使用されたものである。
生成コンポーネント628は、例えば、ターゲット論理形式656からターゲットストリング(または出力ターゲットセンテンス)658にマップする規則ベースのアプリケーション非依存の生成コンポーネントである。生成コンポーネント628は、例えば、入力論理形式のソース言語に関する情報を何も持たず、転送コンポーネント626によって渡された情報だけで動作する。生成コンポーネント628はまた、例えば、この情報をモノリンガル(例えば、ターゲット言語の)辞書と共に使用して、ターゲットセンテンス658を生成する。このように、1つの汎用生成コンポーネント628があれば、各言語に十分である。
このように、論理形式を異なる言語間でマッチさせることできるように、システム600が情報を様々な言語から共用される共通の論理形式に構文解析することがわかる。このシステムはまた、トランスファマッピングデータベースを構築するにあたって単純なフィルタリング技術を利用して、雑音の多いデータ入力を取り扱うことができる。それゆえ、システム600は、多くのセンテンスペアを使用して、自動的にトレーニングすることができる。
図3、4、5Aおよび5Bに記載した適応型自動翻訳システムに戻ると、記載のシステム600は、例えば、ユーザの適応型自動翻訳システム(すなわち、翻訳システム508)として実装することができる。一実施形態によれば、システム600によって生成された翻訳の少なくとも一部が、訂正のために、例えば、信頼できる修正ソース(すなわち、ソース506)に送られる(すなわち、ユーザが修正のために信頼メトリックが低い部分を選択する)。施された訂正に基づいてトレーニング情報が生成される(トレーニングジェネレータ512によって生成されるトレーニング情報)。システム600は、このトレーニングデータを受け取り、処理する。一実施形態によれば、システム600は、施された訂正に対応するバイリンガルコーパスを処理する。翻訳システム600のユーザは、その後の同様のテキストに対してより高品質の翻訳を得る。
一実施形態によれば、ユーザの自動翻訳システムの適応化を容易にするために、システム600は、信頼できる修正ソースとユーザのコンピューティングデバイス(または関連サーバ)の両方に常駐する。システム600のこのペアは、例えば、互いに並行して稼動する。修正ソースで事後校訂が完了した後、生成された訂正済み翻訳は、オリジナルのソーステキストと共に、例えば、修正ソース上で実施されたシステム600のバージョンの「トレーニング」フェーズによって処理される。このトレーニングフェーズの間、正しい翻訳の対応物が学習される。次いで、対応(物)が更新済みデータベース中に入れられ、このデータベースはユーザのコンピューティングデバイス(または関連サーバ)上に実装されたシステム600のバージョンに送られる。更新物は、訂正済み翻訳と共に、または独立して送ることができる。更新物は、システム600のユーザ側のバージョンの中に自動的に同化される。ユーザが次に同様のテキストマテリアルの翻訳を試みると、ユーザのシステム600は、前に訂正済みの文書と共に返送された更新物に基づいて、より高品質の翻訳を自動的に生成する。
トレーニング情報に基づくシステム600の更新は、様々な方法のいずれかによって行うことができ、どの特定の方法も本発明にとって重要ではない。システム600に提供されるトレーニングデータは、適応化を行うのに適した様々な異なる形態が可能である。前述したように、一実施形態によれば、トレーニングデータはバイリンガルコーパス(すなわち、図6のセンテンスペア630および632)である。別の実施形態によれば、トレーニングジェネレータ(すなわち、図5Aおよび5Bのジェネレータ512)は、施された訂正に基づいて、パーサ604および/またはパーサ606に対する更新物を生成し、システム600に供給する(すなわち、更新によって、将来、XYはXとして扱われるべきであるなどと指示される)。別の実施形態によれば、トレーニングジェネレータは、翻訳システム600によって維持管理された単一語のペアについて施された変更に基づいて、更新物を生成する。別の実施形態によれば、トレーニングジェネレータは、施された訂正に基づいて、トランスファマッピングデータベース618のための更新物を生成する。別の実施形態によれば、トレーニングジェネレータは、施された訂正に基づいて、直接または間接的に、トランスファマッピングデータベース618を再構築する。いずれの知識ソースの更新も本発明の範囲に含まれる。
MindNetは、翻訳システム600に関連する論理形式の言語構造データベース(すなわち、トランスファマッピングデータベース618)などの構造を説明するために、この業界で使用されている総称である。MindNetという用語は、ワシントン州、レドモンドのマイクロソフト社によって造られた。本発明の一実施形態によれば、信頼できる修正ソースによってなされた訂正に基づいてシステム600を適応化するためのトレーニング情報の利用には、MindNetの操作(すなわち、更新)が伴う。この更新のプロセスは、ユーザのシステム上で(またはユーザに関連するサーバ上で)、または修正ソースに関連するシステム上で遠隔的に行うことができる。
図7は、MindNetが更新される本発明の一実施形態を示す流れ図である。ブロック702に従って、ユーザのMindNetが、翻訳およびオリジナルテキストと共に信頼できる修正ソース(すなわち、サーバ上で実施される)に送られる(すなわち、クライアントマシンから)。翻訳に必要な訂正が施された後(ブロック704)、MindNetを再構築して、訂正を反映させる(ブロック706)。次いで、再構築されたMindNetは、訂正済みの翻訳マテリアルと共にユーザに送られる(すなわち、クライアントマシンに返送される)(ブロック708)。ブロック710に従って、再構築されたMindNetが、ユーザの自動翻訳システム内に組み込まれる。更新されたMindNetは、その後の翻訳に利用される。ユーザの翻訳システムの記載した遠隔的な更新は、MindNet以外のデータ構造に関連して行うことができることに注意されたい。
図8は、ユーザのマシンから離れることなく(または、ユーザの関連サーバから離れることなく)MindNetが更新される別の実施形態を説明する流れ図である。ブロック802に従って、信頼できる修正ソースは、ユーザから翻訳マテリアルと対応するオリジナルテキストを受け取る(ブロック802)。必要に応じて訂正が施され(ブロック802)、対応するMindNetの追補が編集される(ブロック804)。ブロック806に従って、クライアントは、訂正済み翻訳と共に、自身のMindNet中にロードし、編集すべき追補を受け取る(ブロック808)。ブロック810によって表された実施形態に従って、ユーザのMindNetは、所定数の追補が収集されるまでは更新されない。ユーザの翻訳システムの記載したローカルの更新は、MindNet以外のデータ構造に関連して行うことができることに注意されたい。
一実施形態によれば、複数の追補がサーバ上、すなわち、信頼できる訂正が施されるサーバ上につなぎ合わされるか、または収集される。所定数の追補が収集されると、ユーザは自身のMindNetを、再構築し、返送してもらうためにサーバに送る。ユーザのMindNetを更新するためのその他のスキームも、本発明の範囲内に含まれる。
本発明の別の態様によれば、記載の適応型機械翻訳プロセスは、ユーザおよび信頼できる修正ソースが同じ1つであるシステム内に実装することができる。図3のプロセスフローは、このような実施形態と一致している。言い換えれば、図3のフローは、例えば信頼できる修正ソースであるユーザが、ソース文書の少なくとも一部を翻訳のために自分自身のコンピュータ上(またはユーザに関連するサーバ上)の自動トランスレータに提出する文書管理またはワークフロー環境内に適応型機械翻訳システムがカプセル化されている本発明の実施形態を対象としている。次に、このような実施形態について、図3を参照して説明する。
ソース文書302の少なくとも一部の提出を、ブロック330で表してある。ユーザは、例えば、ソース文書302に関連する言語に関して信頼できるトランスレータである。ソース文書302情報、ならびに対応する自動生成された翻訳304が、検討および訂正のためにユーザ/訂正者に提示される。このアクションをブロック332で表してある。
訂正済み翻訳306およびオリジナルのソース文書302が処理されて、更新され、正確であると考えられる翻訳対応物308の集まりを作成する。このアクションをブロック334で表してある。一実施形態によれば、更新された翻訳対応物308は更新済みデータベース中に配置される(あるいは、統計的機械翻訳システムが使用されている場合には、統計パラメータの更新テーブルに反映される)。更新物は、ユーザの自動機械翻訳システム中に同化される。ユーザが次に同様のテキストデータ310の翻訳を試みると、システムは、前に訂正済みの文書に基づいて生成された更新物に基づいて、より高品質の翻訳312を自動的に生成する。このアクションをブロック336で表してある。このトレーニングが、言語ペアの両方向(すなわち、スペイン語から英語、英語からスペイン語)においてその後の翻訳に利益をもたらすことに注意されたい。
訂正済み翻訳306およびソース文書302に基づいて多くの異なるタイプのトレーニングデータを生成できることを強調しておきたい。多くの異なるタイプのトレーニングデータを利用して、ユーザの自動翻訳システムを適応化することができる。翻訳対応物を更新することは、本発明の範囲に含まれる一例にすぎない。どのような知識ソースの更新もこの範囲内に含まれる。どのような統計的または用例ベースのトレーナの更新もこの範囲内に含まれる。具体的な例は、他の実施形態に関連して上述している。
本発明の別の態様によれば、記載の適応型機械翻訳プロセスは、信頼できる翻訳ソースであるユーザによって操作される専門化された翻訳ソフトウェアに関連して利用することができる。人間のトランスレータ(すなわち、職業翻訳者、アマチュア翻訳者など)が、専門化された翻訳ソフトウェアを採用して必要とされる翻訳作業の量を低減していることが知られている。専門ソフトウェアを利用する人間のトランスレータは、そのソフトウェアなしでも正確に翻訳するのに必要な知識を備えているのが普通である。このソフトウェアを利用して、単に、所与の文書を翻訳するのに必要なキーストロークの数を減らす。
専門化された翻訳ソフトウェアの実施例には、翻訳すべきセンテンス(またはセンテンス群)(すなわち、翻訳される文書から取り出されたセンテンスまたはセンテンス群)を、以前の翻訳済みのセンテンス(またはセンテンス群)のデータベースと比較するように構成されるものがある。マッチが見つかると、そのマッチした翻訳が自動的に取り出すことができる。このような場合、ユーザは、マニュアルによる翻訳の負担がある程度軽減されることになる。
ターゲットセンテンスに利用可能な正確なマッチがない場合、専門化された翻訳ソフトウェアの実施例には、似ているが同一ではないセンテンスである「ファジーマッチ」を取り出すよう構成されるものがある。ユーザは、ファジーマッチを拒否して、最初からセンテンスを翻訳することができ、あるいは、ファジーマッチを正しい形に修正することができる。多くの場合、ファジーマッチを修正した方が最初から翻訳するよりも作業が少なくて済む(すなわち、キーストロークが少ない)ことになる。
専門化された翻訳ソフトウェアの実施例には、自動翻訳システムと協同して、これらに限定されないが、利用できる正確な翻訳またはファジー翻訳が利用できないソーステキストセンテンスなど、翻訳すべき特定のセンテンスに対して自動機械翻訳を提供するよう構成されるものがある。ユーザは、機械翻訳を拒否し、センテンスを最初から翻訳することができ、あるいは、機械翻訳を正しい形に修正することができる。多くの場合、機械翻訳を修正した方が最初から翻訳するよりも作業が少なくて済む(すなわち、キーストロークが少ない)ことになる。
本発明の一態様によれば、記載の専門化された翻訳ソフトウェアのユーザは、実質的には信頼できる翻訳ソースである。したがって、ユーザがファジーまたは機械翻訳を訂正すると、訂正に対応する情報を利用して、ソフトウェアに関連する機械翻訳システムをトレーニングまたは更新することができる。このように、その後の翻訳のために翻訳システムの効率および精度が改善される。機械翻訳システムのトレーニングまたは更新は、本明細書に記載の方法またはその他の任意の方法と同様に達成することができる。
図9は、専門化された翻訳ソフトウェアを含む、本発明の実施形態の一応用例のブロック図である。例示の応用例は、例にすぎず、本発明の使用または機能の範囲についていかなる限定を示唆するものではない。また、この特定の応用例を、図示したコンポーネントのいずれか1つまたはそれらの組合せに関していかなる依存性、または必要性を有するものとして解釈すべきでもない。
図9を参照すると、ユーザ/訂正者902は、専門化された翻訳システム910(すなわち、専門化された翻訳ソフトウェア)、自動翻訳システム912、およびトレーニングジェネレータ914(すなわち、上述のトレーニングジェネレータ512と同一または同様のもの)が実施されたコンピューティングデバイス904とやりとりする。コンピューティングデバイス904は、様々な既知のコンピューティングデバイスのいずれかとすることができ、これには図1および2に関連して説明したいずれかのものが含まれるが、これらに限定されない。一実施形態によれば、コンピューティングデバイス904はパーソナルコンピュータである。
ユーザ902は、ソース文書の翻訳に関連する作業の少なくとも一部を取り除くためにシステム910に依存しているトランスレータ(すなわち、職業翻訳者またはアマチュア翻訳者)である。専門化された翻訳システム910は、ソース文書の翻訳にあたってユーザ902を支援するよう構成された専門化された翻訳システムである。ユーザ902は、例えば、対応する翻訳を生成するにあたっての支援のために、ソース文書の少なくとも一部をシステム910に提出する。自動翻訳システム912は、提供されたテキストについて自動的に導出された機械翻訳を提供するよう構成されている。専門化された翻訳システム910は、解析中のソース文書テキストの自動翻訳を探索し、翻訳システム912から受け取るよう構成されている(すなわち、システム910は、正確な翻訳またはファジー翻訳のマッチを生成できない場合にシステム912に依存する)。
専門化された翻訳システム910に関連する、以前に翻訳済みのセンテンスのどのデータベースも、システム912によって生成された自動翻訳に基づいて更新することができることに注意されたい(すなわち、自動翻訳は、潜在的に正確マッチまたはファジーマッチになる)。機械翻訳は、「オンデマンド」で(すなわち、ユーザの要求により)提供することができることに注意されたい。あるいは、機械翻訳を前処理ステップの間に生成し、その他の以前に翻訳済みのセンテンスと共に格納する(すなわち、その他の潜在的な正確マッチまたはファジーマッチと共に格納する)ことができる。前処理ステップの間に、以前に翻訳済みのセンテンスのデータベースを、正確またはファジーマッチが存在しないセンテンスを用いて更新することができる。それゆえ、機械翻訳は「オンデマンド」で、または前もって提供することができる(次いで、その他の以前に翻訳済みのセンテンスと共に格納することができる)。
ユーザ902が、翻訳システム912によって生成された翻訳の1つまたは複数の部分に満足していない(すなわち、ユーザが、指示された低信頼メトリックで満足していない)場合、自動翻訳は、例えば、訂正のためにユーザ902に提示される(すなわち、ユーザ902が信頼できると考えられる修正ソースとなる)。訂正済み翻訳922は、例えば、訂正プロセスから結果として得られる。トレーニングジェネレータ914は、自動翻訳システム912を適応化させるために利用することができるトレーニングデータの集まりを生成するために、自動翻訳、訂正済み翻訳、および/またはソース文書を処理するために利用される。トレーニングジェネレータ914は、コンピューティングデバイス904上に格納されるか、あるいは別個ではあるがアクセス可能な独立したコンピューティングロケーションに記憶された(すなわち、独立したアクセス可能なサーバ上に記憶された)コンポーネントである。トレーニングジェネレータ914が別個のコンピューティングロケーションに格納されている場合、生成されたトレーニング情報は、例えば、自動翻訳システム912に返送される。トレーニングジェネレータ914がコンピューティングデバイス904で格納されている場合、情報は直接、システム912中に実装される。トレーニングジェネレータ914をコンピューティングデバイス904で格納することにより、記憶および処理要件が低減される。自動翻訳システム912とトレーニングジェネレータ014との間のトレーニング関係は、例えば、自動翻訳システム508およびトレーニングジェネレータ512に関連して上記に説明した実施形態のいずれかと同様である。
一実施形態によれば、2人以上のユーザ902がコンピューティングデバイス904および専門化された翻訳システム910とやりとりして、より高品質の翻訳を集合的に生成することができる。別の実施形態によれば、ユーザ902は、コンピューティングデバイス904に直接(図示のように)またはコンピュータネットワークを介してアクセスすることができる。別の実施形態によれば、ジェネレータ914によって生成されたトレーニングマテリアルまたは更新マテリアルは、更新システム912に利用されるだけでなく、少なくとも1つの追加自動機械翻訳システムを更新するためにコンピュータネットワークを介して転送することもできる。例えば、トレーニングマテリアルまたは更新マテリアルを、同化のために、単一の追加の自動機械翻訳システムに直接、転送することができる。しかし、その代わりとして、マテリアルを集中サーバに転送して、その後、同化のために複数の機械翻訳システムに(すなわち、支払い申し込みベースで)配信することができる。あるいは、マテリアルを集中サーバに転送して、その後、同化のために大規模組織(すなわち、企業)に関連する複数の機械翻訳システムに配信することができる。
本発明について特定の実施形態を参照して説明してきたが、当業者は、本発明の趣旨および範囲から逸脱することなく、形態および詳細に変更を加えることができることを認識されよう。
本発明を実施することができる1つの例示的な環境を示すブロック図である。 本発明を実施することができる別の例示的な環境を示すブロック図である。 本発明に従って適応型機械翻訳サービスを例示する概略流れ図である。 適応型機械翻訳サービスに照らして信頼メトリックスの利用を例示する流れ図である。 本発明の実施形態の1つの具体的な応用例を示すブロック図である。 本発明の実施形態の別の具体的な応用例を示すブロック図である。 本発明を実施することができる機械翻訳アーキテクチャを示すブロック図である。 本発明を実施することができる機械翻訳アーキテクチャを示すブロック図である。 ユーザの翻訳システムが遠隔的に更新される一実施形態を示す流れ図である。 ユーザの翻訳システムがローカルに更新される一実施形態を示す流れ図である。 本発明の実施形態の別の具体的な応用例を示すブロック図である。
符号の説明
100 コンピューティングシステム環境
200 モバイルデバイス
302 ソース文書
304 自動生成された翻訳
306 訂正済みの翻訳
308 更新された翻訳対応物
310 同様のソース文書
312 より高品質の翻訳
330 自動翻訳
332 信頼できる修正
334 正しい翻訳対応物を処理
336 自動翻訳
500 コンピューティング環境
505 コンピュータネットワーク
520 コンピューティング環境
600 機械翻訳システム

Claims (30)

  1. 自動機械翻訳システムに情報を提供して翻訳の正確さを向上させるためのコンピュータに実施される方法であって、
    ソーステキストの集まりを受け取ることと、
    前記ソーステキストの集まりに対応する試みの翻訳を前記自動機械翻訳システムから受け取ることと、
    前記試みの翻訳の中の少なくとも1つの誤りの訂正を行うよう構成されている訂正入力を受け取ることと、
    前記自動機械翻訳システムに情報を提供して前記自動機械翻訳システムによって生成されるその後の翻訳において前記誤りが繰り返されることになる可能性を低減することと
    を備えることを特徴とする方法。
  2. 前記情報を提供することは、前記訂正入力を提供することを備えることを特徴とする請求項1に記載の方法。
  3. 前記情報を提供することは、前記自動機械翻訳システムに同化させるべき情報を提供することを備えることを特徴とする請求項1に記載の方法。
  4. 前記情報を提供することは、前記自動機械翻訳システムに関連する知識ソースに同化させるべき更新情報を提供することを備えることを特徴とする請求項1に記載の方法。
  5. 前記情報を提供することは、前記自動機械翻訳システムに関連する翻訳対応物に同化させるべき更新情報を提供することを備えることを特徴とする請求項1に記載の方法。
  6. 前記情報を提供することは、前記自動機械翻訳システムに関連する言語構造の集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項1に記載の方法。
  7. 前記情報を提供することは、前記自動機械翻訳システムに関連する対応する論理形式のデータベースに同化させるべき更新情報を提供することを備えることを特徴とする請求項6に記載の方法。
  8. 前記情報を提供することは、前記自動機械翻訳システムに関連する統計パラメータの集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項1に記載の方法。
  9. 前記情報を提供することは、前記自動機械翻訳システムに関連する構文解析情報の集まりに同化させるべき更新情報を提供することであって、前記構文解析情報はパーサがセグメントの集まりの解析を提供できるようにする情報であることを備えることを特徴とする請求項1に記載の方法。
  10. 前記情報を提供することは、前記自動機械翻訳システムに関連する対応する語または句のグループの集まりに同化させるべき更新情報を提供することを備えることを特徴とする請求項1に記載の方法。
  11. 異なる自動機械翻訳システムに関連する知識ソースに同化させるべき更新情報を、ネットワークを介して伝送することであって、前記更新情報は、前記自動機械翻訳システムによって生成されるその後の翻訳において前記誤りが繰り返されることになる可能性を低減するよう構成されていることをさらに備えることを特徴とする請求項1に記載の方法。
  12. 前記情報を提供することは、1つまたは複数のセンテンスペアのバイリンガルコーパスを提供することを備えることを特徴とする請求項1に記載の方法。
  13. 前記訂正入力を受け取ることは、少なくとも1つの訂正指示を人間のトランスレータから受け取ることを備えることを特徴とする請求項1に記載の方法。
  14. 前記試みの翻訳を受け取ることは、前記機械翻訳システムが適切な翻訳を提供していないソーステキストの一部に対応する試みの翻訳を受け取ることを備えることを特徴とする請求項1に記載の方法。
  15. 自動機械翻訳システムの性能を向上させるためのコンピュータに実施される方法であって、
    前記自動機械翻訳システムを利用して、ソーステキストの集まりの翻訳を生成することと、
    前記ソーステキストの集まりと、前記翻訳の少なくとも一部とを信頼できる修正ソースに転送することと、
    前記翻訳の少なくとも一部の中の誤りの指摘を前記信頼できる修正ソースから受け取ることと、
    前記自動機械翻訳システムによって生成されるその後の翻訳について前記誤りが発生する可能性が少なくなるように前記自動機械翻訳システムをトレーニングすることと
    を備えることを特徴とする方法。
  16. 前記翻訳に関する品質測定を表す信頼メトリックを生成することと、
    少なくともある程度は前記信頼メトリックに基づいて、前記信頼できる修正ソースに転送される前記翻訳の一部を選択することと
    をさらに備えることを特徴とする請求項15に記載の方法。
  17. 前記転送することは、前記自動機械翻訳システムが実施されているクライアントコンピューティングデバイスから、前記信頼できる修正ソースに関連するサーバコンピューティングデバイスに転送することを備えることを特徴とする請求項15に記載の方法。
  18. 前記転送することは、前記自動機械翻訳システムが実施されているサーバから、前記信頼できる修正ソースに関連するサーバコンピューティングデバイスに転送することを備えることを特徴とする請求項15に記載の方法。
  19. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する知識ソースを更新することを備えることを特徴とする請求項15に記載の方法。
  20. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する少なくとも1つの翻訳対応物を更新することを備えることを特徴とする請求項15に記載の方法。
  21. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する言語構造の集まりを更新することを備えることを特徴とする請求項15に記載の方法。
  22. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する対応する論理形式のデータベースを更新することを備えることを特徴とする請求項21に記載の方法。
  23. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する統計パラメータの集まりを更新することを備えることを特徴とする請求項15に記載の方法。
  24. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械翻訳システムに関連する構文解析情報の集まりを更新することであって、前記構文解析情報はパーサがセグメントの集まりの解析を提供できるようにする情報であることを備えることを特徴とする請求項15に記載の方法。
  25. 前記自動機械翻訳システムをトレーニングすることは、前記自動機械または句翻訳システムに関連する対応する語関連物の集まりを更新することを備えることを特徴とする請求項15に記載の方法。
  26. 前記自動機械翻訳システムをトレーニングすることは、前記誤りに基づくバイリンガルコーパスを前記自動機械翻訳システムに提供することと、前記自動機械翻訳システムが前記バイリンガルコーパスに基づいてそれ自体をトレーニングすることができるようにすることとを備えることを特徴とする請求項15に記載の方法。
  27. 自動機械翻訳システムの性能を向上させるための方法であって、
    前記自動機械翻訳システムを利用してソーステキストの集まりの翻訳を生成することであって、信頼メトリックが前記翻訳の部分に関連していることと、
    前記信頼メトリックを評価し、前記翻訳の低信頼部分を選択することと、
    前記低信頼部分を、コンピュータネットワークを介して信頼できる修正ソースに伝送することと、
    前記信頼できる修正ソースを利用して前記低信頼部分の訂正済みバージョンを生成することと、
    前記低信頼部分の前記訂正済みバージョンに基づいて翻訳知識の更新済みデータベースを生成することと、
    コンピュータネットワークを介して翻訳知識の前記更新済みデータベースを前記自動機械翻訳システムに伝送することと、
    翻訳知識の前記更新済みデータベースを前記自動機械翻訳システムに組み込んで、前記自動機械翻訳システムが前記低信頼部分と同様のテキストをその後より高い正確さで翻訳できるようにすることと
    を備えることを特徴とする方法。
  28. 前記信頼できる修正ソースを利用して訂正済みバージョンを生成することは、人間のトランスレータを利用することを備えることを特徴とする請求項27に記載の方法。
  29. 前記コンピュータネットワークを介して伝送することは、インターネットを介して伝送することを備えることを特徴とする請求項27に記載の方法。
  30. 第1の自己カスタマイズ自動機械トランスレータの性能を向上させるための方法であって、
    前記第1の自己カスタマイズ自動トランスレータを第1のコンピューティングデバイス上に実施することと、
    第2の自己カスタマイズ自動トランスレータを第2のコンピューティングデバイス上に実施することと、
    信頼できる翻訳ソースを提供することと、
    前記第1および第2のコンピューティングデバイス間の通信を可能にすることと、
    前記第2のコンピューティングデバイスにおいてソーステキストを受け取ることと、
    前記第2のコンピューティングデバイスに、前記信頼できる翻訳ソースによって生成された前記試みの翻訳の訂正済みバージョンを供給することと、
    前記第2の自己カスタマイズ自動トランスレータを利用して前記ソーステキストおよび前記試みの翻訳の訂正済みバージョンを処理して、前記ソーステキストと同様のテキストをその後より高い正確さで翻訳するように前記第1の自己カスタマイズ自動トランスレータを適応化するためのトレーニング情報を生成することと、
    前記トレーニング情報を前記第2のコンピューティングデバイスから前記第1のコンピューティングデバイスに転送することと、
    前記トレーニング情報を前記第1の自己カスタマイズ自動トランスレータの中に同化させて、前記第1の自己カスタマイズ自動トランスレータが前記ソーステキストと同様のテキストをその後より高い正確さで翻訳できるようにすることとを備えることを特徴とする方法。
JP2004183026A 2003-06-20 2004-06-21 適応型機械翻訳 Pending JP2005011358A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/600,297 US7383542B2 (en) 2003-06-20 2003-06-20 Adaptive machine translation service
US10/626,925 US7295963B2 (en) 2003-06-20 2003-07-25 Adaptive machine translation

Publications (2)

Publication Number Publication Date
JP2005011358A true JP2005011358A (ja) 2005-01-13
JP2005011358A5 JP2005011358A5 (ja) 2007-08-09

Family

ID=33424168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004183026A Pending JP2005011358A (ja) 2003-06-20 2004-06-21 適応型機械翻訳

Country Status (9)

Country Link
EP (1) EP1489523B1 (ja)
JP (1) JP2005011358A (ja)
KR (1) KR101099196B1 (ja)
CN (1) CN1573741B (ja)
AU (1) AU2004202391A1 (ja)
BR (1) BRPI0402409A (ja)
CA (1) CA2469593C (ja)
MX (1) MXPA04006075A (ja)
RU (1) RU2382399C2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245431A (ja) * 2008-03-14 2009-10-22 Fujitsu Ltd 翻訳処理プログラムおよび翻訳システム
JP2016524234A (ja) * 2013-06-03 2016-08-12 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. マルチユーザ多言語通信のためのシステムおよび方法

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
KR100837358B1 (ko) 2006-08-25 2008-06-12 한국전자통신연구원 동적 번역자원을 이용한 분야 적응형 휴대용 방송자막기계번역 장치 및 방법
KR100911834B1 (ko) * 2007-12-11 2009-08-13 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
CN102467498A (zh) * 2010-11-18 2012-05-23 阿里巴巴集团控股有限公司 翻译方法及装置
CN102541843B (zh) * 2010-12-22 2017-09-01 陈本东 一种用于提高机器翻译质量的装置和方法
CN102591856B (zh) * 2011-01-04 2016-09-14 杨东佐 一种翻译系统及翻译方法
US11182455B2 (en) 2011-01-29 2021-11-23 Sdl Netherlands B.V. Taxonomy driven multi-system networking and content delivery
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
WO2014062905A1 (en) * 2012-10-17 2014-04-24 Gengo Inc. Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
US20140108103A1 (en) * 2012-10-17 2014-04-17 Gengo, Inc. Systems and methods to control work progress for content transformation based on natural language processing and/or machine learning
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
CN104252439B (zh) 2013-06-26 2017-08-29 华为技术有限公司 日记生成方法及装置
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
RU2604984C1 (ru) * 2015-05-25 2016-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Переводческий сервис на базе электронного сообщества
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
RU2628202C1 (ru) * 2016-04-11 2017-08-15 Михаил Маркович Гольдреер Адаптивный контекстно-тематический машинный перевод
EP3447655A1 (en) * 2017-08-21 2019-02-27 Televic Education NV A revision system and method for revising translated texts with reduction of false positives
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
CN108399166B (zh) * 2018-02-07 2021-03-30 深圳壹账通智能科技有限公司 文本翻译方法、装置、计算机设备和存储介质
CN109446532A (zh) * 2018-09-11 2019-03-08 深圳市沃特沃德股份有限公司 翻译校正方法、装置以及翻译校正设备
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN109657252A (zh) * 2018-12-25 2019-04-19 北京微播视界科技有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
EP3931826B1 (en) * 2019-08-13 2025-06-11 Samsung Electronics Co., Ltd. Server that supports speech recognition of device, and operation method of the server
RU2770569C2 (ru) * 2020-03-04 2022-04-18 Общество С Ограниченной Ответственностью «Яндекс» Способ и сервер для обучения алгоритма машинного обучения переводу
CN111666774B (zh) * 2020-04-24 2022-06-03 北京大学 基于文档上下文的机器翻译方法及装置
KR102306344B1 (ko) 2021-03-17 2021-09-28 남지원 삼중말뭉치를 이용한 딥러닝 트랜스포머 번역 시스템
CN113378513B (zh) * 2021-06-11 2022-12-23 电子科技大学 一种面向领域关系抽取的标注语料生成方法
KR102406098B1 (ko) 2021-11-29 2022-06-08 주식회사 인사이트베슬 사중 팔레트 데이터 구조를 이용한 이미지 번역편집 시스템
CN114722841B (zh) 2022-05-16 2022-09-02 北京百度网讯科技有限公司 翻译方法、装置及计算机程序产品
CN115270820B (zh) * 2022-07-22 2025-08-12 鹏城实验室 多语言翻译系统的持续学习方法、装置、终端及存储介质
KR20240021426A (ko) 2022-08-10 2024-02-19 이준형 웹툰 컨텐츠 번역 시스템
KR20240021428A (ko) 2022-08-10 2024-02-19 이준형 자동 웹툰 번역 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58101365A (ja) * 1981-12-14 1983-06-16 Hitachi Ltd 機械翻訳システム
US5528491A (en) * 1992-08-31 1996-06-18 Language Engineering Corporation Apparatus and method for automated natural language translation
WO1994006086A1 (en) * 1992-09-04 1994-03-17 Caterpillar Inc. Integrated authoring and translation system
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JP3960562B2 (ja) * 1994-09-30 2007-08-15 株式会社東芝 機械翻訳の学習方法
US5966686A (en) 1996-06-28 1999-10-12 Microsoft Corporation Method and system for computing semantic logical forms from syntax trees
US6278969B1 (en) * 1999-08-18 2001-08-21 International Business Machines Corp. Method and system for improving machine translation accuracy using translation memory
US20020083103A1 (en) * 2000-10-02 2002-06-27 Ballance Chanin M. Machine editing system incorporating dynamic rules database
IT1315160B1 (it) * 2000-12-28 2003-02-03 Agostini Organizzazione Srl D Sistema e metodo di traduzione automatica o semiautomatica conposteditazione per la correzione degli errori.
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245431A (ja) * 2008-03-14 2009-10-22 Fujitsu Ltd 翻訳処理プログラムおよび翻訳システム
JP2016524234A (ja) * 2013-06-03 2016-08-12 マシーン・ゾーン・インコーポレイテッドMachine Zone, Inc. マルチユーザ多言語通信のためのシステムおよび方法

Also Published As

Publication number Publication date
EP1489523B1 (en) 2009-08-19
MXPA04006075A (es) 2005-03-31
EP1489523A3 (en) 2006-08-16
RU2004118671A (ru) 2005-12-10
EP1489523A2 (en) 2004-12-22
KR20040111188A (ko) 2004-12-31
CN1573741A (zh) 2005-02-02
CN1573741B (zh) 2010-09-29
CA2469593C (en) 2013-02-19
RU2382399C2 (ru) 2010-02-20
CA2469593A1 (en) 2004-12-20
KR101099196B1 (ko) 2011-12-27
BRPI0402409A (pt) 2005-05-24
AU2004202391A1 (en) 2005-01-13

Similar Documents

Publication Publication Date Title
KR101099196B1 (ko) 적응형 기계 번역
US7383542B2 (en) Adaptive machine translation service
US11250842B2 (en) Multi-dimensional parsing method and system for natural language processing
CN101248415B (zh) 利用机器翻译和翻译记忆库的电子服务翻译
JP3114181B2 (ja) 異言語交信用翻訳方法およびシステム
US7356457B2 (en) Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US20020123877A1 (en) Method and apparatus for performing machine translation using a unified language model and translation model
US20030125929A1 (en) Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
EP1349079A1 (en) Machine translation
JP2004171575A (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
JP2004355625A (ja) 機械トランスレータをトレーニングする方法およびそのシステム
JP3430007B2 (ja) 機械翻訳装置及び記録媒体
US20030233226A1 (en) Method and apparatus for developing a transfer dictionary used in transfer-based machine translation system
US20240176962A1 (en) CROSS-LINGUAL NATURAL LANGUAGE UNDERSTANDING MODEL FOR MULTI-LANGUAGE NATURAL LANGUAGE UNDERSTANDING (mNLU)
US12265796B2 (en) Lookup source framework for a natural language understanding (NLU) framework
JP7591212B1 (ja) 情報処理装置、情報処理方法、およびプログラム
CN109583750B (zh) 用户问句与知识点的匹配方法和装置
WO2001055901A1 (fr) Systeme de traduction automatique, serveur et client de ce systeme
Lin et al. Few-Shot Adaptation for Parsing Contextual Utterances with LLMs
JP4940606B2 (ja) 翻訳システム、翻訳装置、翻訳方法及びプログラム
US8001522B2 (en) Code accelerator
Chen et al. Generative few-shot aspect-based sentiment analysis based on bidirectional learning: H. Chen et al.
Arnoult Adjunction in hierarchical phrase-based translation
CN115587600A (zh) 一种口语翻译方法、系统及电子设备
Erjavec et al. Language technologies and corpus encoding

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071009

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071113

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080313

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080502

A912 Removal of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080704

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100609