[go: up one dir, main page]

JP4769031B2 - 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 - Google Patents

言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 Download PDF

Info

Publication number
JP4769031B2
JP4769031B2 JP2005185765A JP2005185765A JP4769031B2 JP 4769031 B2 JP4769031 B2 JP 4769031B2 JP 2005185765 A JP2005185765 A JP 2005185765A JP 2005185765 A JP2005185765 A JP 2005185765A JP 4769031 B2 JP4769031 B2 JP 4769031B2
Authority
JP
Japan
Prior art keywords
cluster
bigram
character string
reading
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005185765A
Other languages
English (en)
Other versions
JP2007004634A (ja
Inventor
良治 佐藤
美由紀 関
理英 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Priority to JP2005185765A priority Critical patent/JP4769031B2/ja
Priority to EP06785476.0A priority patent/EP1886231A4/en
Priority to CN2006800228581A priority patent/CN101208689B/zh
Priority to KR1020077030209A priority patent/KR101279676B1/ko
Priority to PCT/US2006/024566 priority patent/WO2007002456A1/en
Priority to US11/917,657 priority patent/US8744833B2/en
Publication of JP2007004634A publication Critical patent/JP2007004634A/ja
Application granted granted Critical
Publication of JP4769031B2 publication Critical patent/JP4769031B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体に関し、より詳細には、テキストの見かけ上の情報により定義されるクラスタを作成する言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体に関する。
従来のかな漢字変換システムとして、品詞の接続表を用いたものが知られている。品詞の接続表は、品詞Aの次に品詞Bが接続された語の組み合わせの生起確率を示す。言い換えれば、品詞の接続表は基本的に品詞と語のグループのバイグラムである。以下、このような品詞と語のグループをクラスタバイグラムという。品詞は形態素(単語の形式)、文法的機能(主語、副詞など)および意味情報(固有名詞または普通名詞)の混合によって語をグループ化するという観点から単語の挙動を抽象化する。
一方、音声認識の分野で開発が行われているトライグラム言語モデルをかな漢字変換システムに適用することが試みられ、また実用化されている。トライグラム言語モデルでは、先行する2つの語に続く語の生起確率(トライグラム)が用いられる。例えば、2つの語w1、w2の次に語w3が続く確率pは以下のように表される。
p(w3|w1 w2)
これは言語の現象を語のグループレベルで捕捉するものではなく、語レベルで捕捉するものである。従って、トライグラムは現象を捕捉するのにより強力な方法である。トライグラム言語モデルは、人間の言語の使用における単語の挙動をただ見かけの情報によって捕捉するものであり、より深い意味でまたは文法的抽象化によって捕捉するものではない。
言語モデル技術はその分析レベルのため、従来のかな漢字変換システムより高い精度を与える。
しかしながら、従来の言語モデル技術は以下のような不具合があった。従来の言語モデルエンジンは、トライグラムまたはバイグラムが信頼できる十分な確率を有しない場合、ユニグラムへのバックオフを使用する。すなわち、トライグラムp(w3|w1 w2)が信頼できない場合、バイグラムp(w3|w2)に頼る。そして、バイグラムp(w3|w2)が信頼できない場合、ユニグラムp(w3)に頼る。これを、ユニグラムへのバックオフという。例えばトライグラム、バイグラムがゼロの場合にユニグラムへバックオフする場合、w3の生起する確率pは、以下のように記載される。
p(w3)=p(w3|w1 w2)
=p(w3|w2) if p(w3|w1 w2)が充分信頼できない程値が小さい
=p(w3) if p(w3|w2)が充分信頼できない程値が小さい
しかしながら、言語モデル技術におけるユニグラムへのバックオフは、非常に悪い誤りをもたらす。それは、ユニグラムが単に一語の生起確率を表すものであり、あらゆる種類の文脈の情報を考慮しないからである。
一方で、従来のかな漢字変換システムは上述したような品詞のクラスタバイグラムを用いる。このクラスタバイグラムでは、常に文脈の情報、すなわち先行する単語の品詞または続く単語の品詞の情報を用いる。
従って、従来の言語モデルエンジンは、文脈の情報を考慮しない最悪の状況下において、文脈の情報を考慮する従来のかな漢字変換システムから退化しているという問題があった。そして、このことが、ユーザが従来のかな漢字変換システムからトライグラムかな漢字変換システムにアップグレードすることを躊躇させる要因となっている。
一方、従来の品詞による単語のグループ化にも問題が存在する。正確な品詞は人間が持つ意味の知識を必要とする。例えば、「秋田」という単語は、場所を示す名詞または人名を示す名詞になり得る。しかし、どちらであるかは人間しか決めることができない。
このように、従来のかな漢字変換システムにおける品詞による単語のグループ化は統計的計算に向いていないという問題があった。
本発明はこのような問題に鑑みてなされたものであり、その目的とするところは、従来のユニグラムへのバックオフがもたらす品質の低下を防止することができる言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体を提供することにある。
本発明の別の目的は、統計的計算に適した品詞による単語のグループ化を行う言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体を提供することにある。
本発明の態様によれば、本発明に係るかな漢字変換方法は、記憶装置内に、N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを有するコンピュータにおけるかな漢字変換方法であって、前記方法は、前記コンピュータの処理装置が、文字列の読みを入力するステップと、前記入力された文字列の読みを分割するステップと、前記分割された読みをかなまたは漢字に変換して変換文字列の候補を生成するステップと、前記変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶装置から取得するステップと、前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶装置から取得するステップと、前記取得されたクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定するステップとを備える。
ここで、前記記憶装置内には表記、読みおよび品詞を関連付けた語の情報が記憶されており、前記処理装置が、同じ表記および読みの語の品詞を前記記憶装置から取得するステップと、前記取得された品詞を組み合わせることによりクラスタを作成するステップと、前記作成されたクラスタを前記記憶装置に記憶するステップと、前記クラスタを分割するための指示を入力するステップと、前記入力された指示に従って前記記憶装置に記憶されたクラスタを分割するステップとをさらに備え、前記クラスタバイグラムは、前記分割されたクラスタの組み合わせが生起する確率を示すものとすることができる。
また、前記処理装置が前記クラスタバイグラムを作成するステップであって、文字列を入力するステップと、前記入力された文字列に含まれた各語に品詞を付与することによりテキストコーパスを取得するステップと、前記記憶装置に記憶されたクラスタのうちの2つを組み合わせるステップと、前記組み合わせたクラスタが前記テキストコーパス内で生起する確率を計算するステップと、前記組み合わされたクラスタと前記計算された確率を示すクラスタバイグラムとを対応付けて前記記憶装置に記憶するステップとを含む、前記クラスタバイグラムを作成するステップをさらに備えるものとすることができる。
本発明の別の態様によれば、本発明に係るかな漢字変換装置は、N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを記憶した記憶手段と、文字列の読みを入力する読み入力手段と、前記読み入力手段により入力された文字列の読みを分割する読み分割手段と、前記読み分割手段により分割された読みをかなまたは漢字に変換して変換文字列の候補を生成する候補生成手段と、前記候補生成手段により生成された変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶手段から取得するNグラム取得手段と、前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶手段から取得するクラスタバイグラム取得手段と、前記Nグラム取得手段により取得されたNグラムおよび前記クラスタバイグラム取得手段により取得されたクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定する決定手段とを備える。
本発明の別の態様によれば、本発明に係るコンピュータプログラムは、コンピュータを、N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを記憶した記憶手段、文字列の読みを入力する読み入力手段、前記読み入力手段により入力された文字列の読みを分割する読み分割手段、前記読み分割手段により分割された読みをかなまたは漢字に変換して変換文字列の候補を生成する候補生成手段、前記候補生成手段により生成された変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶手段から取得するNグラム取得手段、前記取得されたNグラムが所定の値以下である場合、前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶手段から取得するクラスタバイグラム取得手段、ならびに前記Nグラム取得手段により取得されたNグラムおよび前記クラスタバイグラム取得手段により取得されたクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定する決定手段として機能させる。
本発明の別の態様によれば、本発明に係るコンピュータ読み取り可能な記録媒体は、上記コンピュータプログラムを記憶したものである。
本発明は、品詞に基づいてはいるが機械により捕捉することが困難な意味/文法上の区分を融合する新しいクラスタ化の手法を提供する。クラスタは、機械が区別できるテキストの見かけ上の属性によってのみ構築される。本発明では、ユニグラムへのバックオフを新しいクラスタバイグラムで置き換える。従って、最悪の場合の手段がクラスタバイグラムであるため、文脈を考慮することができる。
すなわち、本発明によれば、品詞に基づく最適なクラスタをトライグラム言語モデルの最終的な手段として用いることにより、高い品質を提供することができる。
また、従来のクラスタバイグラムと異なり品詞を統計処理可能なレベルでクラスタ化するので、最悪の場合でも従来のかな漢字変換システム以上の品質を保証することができる。
例示的ネットワーク環境
以下、図面を参照し、本発明の実施の形態について詳細に説明する。
本発明の実施形態によれば、本明細書に記述された方法は、単一でスタンド・アロンのコンピュータ・システム上で実行することができるが、典型的には分散コンピュータ・ネットワークを形成するために相互に連結した多数のコンピュータ・システム上で実行することもできる。本発明を実施するための環境400が図1に示されている。環境400は、主要なコンピュータ・システムと考えられるコンピュータ・システム410を有する。本明細書で使用されるように、「コンピュータ・システム」は広く解釈され、「テキスト、グラフィックス、シンボル、オーディオ、ビデオおよび/または数を表示し操作するためのプログラムを実行する1つまたは複数の装置またはマシン」として定義される。
本発明は、多数の他の多目的または特定目的のコンピュータ・システム環境または構成で動作可能である。本発明で使用するのに適切な可能性のある周知の計算システム、システム環境および/または構成の例は、パソコン、サーバ・コンピュータ、ハンドヘルド装置あるいはラップトップ装置、タブレット装置、マルチプロセッサ・システム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ、上記のシステムのうちのいずれかを含む分散コンピューティング環境または装置等を含むが、これに限定されない。
本発明はコンピュータによって実行されるプログラム・モジュールなどのコンピュータ実行可能命令の一般的な文脈において記述することができる。一般に、プログラム・モジュールは特定のタスクを実行するかまたは抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、ネットワークを介してリンクされるリモート処理装置によってタスクが実行される分散コンピューティング環境において実行することもできる。分散コンピューティング環境では、プログラム・モジュールが、メモリ記憶装置を含むローカルおよびリモートのコンピュータ記憶媒体に配置される場合がある。
図1を参照すると、本発明を実行するための例示的なシステムは、コンピュータ410の形態で多目的コンピューティングデバイスを含む。コンピュータ410のコンポーネントは、処理装置420、システムメモリ430、および処理装置420にシステムメモリを含む種々のシステム・コンポーネントを結合可能なシステム・バス421を含むことができるがこれには限定されない。システム・バス421は種々のバス・アーキテクチャのうちの任意のものを使用するメモリ・バスまたはメモリ・コントローラ、周辺バスおよびローカルバスを含むいくつかのタイプのバス構造のいずれかとすることができる。限定ではなく例として、そのようなアーキテクチャは、業界標準アーキテクチャ(ISA)バス、マイクロチャネル・アーキテクチャ(MCA)バス、エンハンストISA(EISA)バス、ビデオエレクトロニクス標準化協会(VESA)ローカルバス、グラフィック専用高速バス (AGP)およびMezzanineバスとして知られている周辺コンポーネント相互接続(PCI)バスを含む。
コンピュータ410は典型的には種々のコンピュータ可読媒体を含む。コンピュータ可読媒体はコンピュータ410によってアクセスすることができ、揮発性媒体および不揮発性媒体並びに取り外し可能媒体および固定媒体の両方を含む、全ての利用可能な媒体とすることが可能である。限定ではなく例として、コンピュータ可読媒体はコンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたは他のデータなどの情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、取り外し可能および固定媒体の両方を含む。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュ・メモリまたは他のメモリ技術、CD-ROM、ディジタル多用途ディスク(DVD)または他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置または他の磁気記憶装置、または所望の情報を格納するために使用することができ、コンピュータ410によってアクセス可能な任意の他の媒体を含むが、これには限定されない。通信媒体は典型的にはコンピュータ読み取り可能命令、データ構造、プログラム・モジュールまたは他のデータを搬送波または他の移送メカニズムなどの変調されたデータ信号で具体化し、どのような情報送達媒体も含む。用語「変調されたデータ信号」は、信号中の情報をコード化するような方法で設定または変更されたその特性の1つまたは複数を有する信号を意味する。限定ではなく例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および音響、RF、赤外線および他の無線媒体などの無線媒体を含む。上記のいずれかの組み合わせもまたコンピュータ読み取り可能媒体の範囲内に含まれるべきである。
システムメモリ430は、コンピュータ記憶媒体を、揮発性および/または読み出し専用メモリ(ROM)431およびランダム・アクセス・メモリ(RAM)432などの不揮発性メモリの形態で含む。起動時などにコンピュータ410内の要素間の情報を転送することを支援する基本ルーチンを含む基本入出力システム433(BIOS)は、典型的にはROM 431に格納される。RAM 432は典型的には処理装置420により即時にアクセス可能なおよび/または目下動作しているデータおよび/またはプログラム・モジュールを含む。限定ではなく例として、図1はオペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436およびプログラム・データ437を例示する。
コンピュータ410はさらに他の取り外し可能/固定の、揮発性/不揮発性のコンピュータ記憶媒体を含んでもよい。単に例示として、図1は、固定の不揮発性磁気媒体の読み書きを行うハードディスクドライブ441、取り外し可能な不揮発性磁気ディスク452の読み書きを行う磁気ディスクドライブ451、およびCD-ROMまたは他の光学媒体のような取り外し可能な不揮発性光ディスク456の読み書きを行う光ディスクドライブ455を例示する。典型的な操作環境の中で使用することができる他の取り外し可能/固定の揮発性/不揮発性のコンピュータ記憶媒体は、これには限定されないが、磁気テープカセット、フラッシュ・メモリ・カード、ディジタル多用途ディスク、デジタルビデオ・テープ、ソリッドステートRAM、ソリッドステートROMなどを含む。ハードディスクドライブ441は、典型的には固定不揮発性メモリインタフェース440のようなインタフェースを介してシステム・バス421に接続される。また、磁気ディスクドライブ451および光ディスクドライブ455はインタフェース450などの取り外し可能メモリ・インタフェースによって典型的にはシステム・バス421に接続される。
上で議論され、図1に例示したドライブおよびそれらの関連するコンピュータ記憶媒体は、コンピュータ410用のコンピュータ読み取り可能命令、データ構造、プログラム・モジュールおよび他のデータのストレージを提供する。図1において、例えば、ハードディスクドライブ441はオペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446およびプログラム・データ447のストレージとして示されている。これらのコンポーネントはオペレーティング・システム434、アプリケーション・プログラム435、他のプログラム・モジュール436およびプログラム・データ437と同じであることも異なることも可能であることに留意されたい。オペレーティング・システム444、アプリケーション・プログラム445、他のプログラム・モジュール446およびプログラム・データ447は、最低限それらが異なるコピーであることを示すために本明細書では異なる符号を与えている。ユーザは、タブレット(電子ディジタイザ)464、マイクロホン463、キーボード462およびマウス、トラックボールまたはタッチ・パッドと一般に呼ばれるポインティングデバイス461などの入力装置を介してコンピュータ410へコマンドおよび情報を入力してもよい。他の入力装置(図示せず)はジョイスティック、ゲーム・パッド、衛星放送アンテナ、スキャナなどを含むことができる。これらおよび他の入力装置は、しばしばシステム・バスに結合されたユーザ入力インタフェース460を介して処理装置420に接続されるが、パラレルポート、ゲームポートまたはユニバーサル・シリアル・バス(USB)などの他のインタフェースおよびバス構造によって接続してもよい。モニタ491または他のタイプのディスプレイ装置も、ビデオインタフェース490のようなインタフェース経由でシステム・バス421に接続される。モニタ491も、タッチ・スクリーンインタフェース492などのインタフェース経由でコンピュータ・システム410へ手書きなどのディジタル化された入力値を入力することができるタッチ・スクリーン・パネル493などと統合される場合がある。モニタおよび/またはスクリーン・パネルはコンピューティングデバイス410が組み込まれた筐体に物理的に結合することができ、そこではタッチ・スクリーン・パネル493はタブレット464として本質的に機能することに留意されたい。さらに、コンピューティングデバイス410などのコンピュータは、周辺出力インタフェース494などを通じて接続することができるスピーカ495およびプリンタ496のような他の周辺出力装置を含むこともできる。
コンピュータ410は、リモートコンピュータ480などの1台または複数台のリモートのコンピュータへの論理的な接続を使用してネットワーク化された環境において動作することができる。リモートコンピュータ480はパソコン、サーバ、ルータ、ネットワークPC、ピア装置または他の共通のネットワーク・ノードとすることができ、図1にメモリ記憶装置481のみを図示したが、典型的にはコンピュータ410に関して上述した要素の多くまたは全てを含む。図1に示した論理接続はローカル・エリア・ネットワーク(LAN)471および広域ネットワーク(WAN)473を含むが、さらに他のネットワークを含んでもよい。そのようなネットワーク環境は、オフィス、企業全体のコンピュータ・ネットワーク、イントラネットおよびインターネットで普通である。
LANネットワーキング環境の中で使用されるとき、コンピュータ410はネットワークインタフェースまたはアダプタ470を介してLAN 471に接続される。WANネットワーキング環境の中で使用されるとき、コンピュータ410は典型的にはモデム472またはインターネットのようなWAN 473の上の通信を確立するための他の手段を含む。モデム472は内蔵でも外付けでもよいが、ユーザ入力インタフェース460または他の適切なメカニズム経由でシステム・バス421に接続することができる。ネットワーク化された環境では、コンピュータ410またはその部分に関して描かれたプログラム・モジュールを、リモートのメモリ記憶装置に格納することができる。限定ではなく例として、図1は、リモートのアプリケーション・プログラム485をメモリ記憶装置481上に常駐するものとして示している。図示のネットワーク接続が例示であり、コンピュータ間の通信を確立する他の手段を使用してもよいことは理解されるであろう。
このコンピュータ環境を念頭において、本発明の実施形態は、その実施形態を具体化するプロセスを実装するために実行されている論理演算に関して記述される。
図2は、本実施形態に係る言語モデルの作成装置の機能構成を概略的に示すブロック図である。
言語モデルの作成装置200は、少なくとも語取得部202、クラスタ作成部204、記憶部206、クラスタ記憶制御部208、クラスタ分割部210、指示入力部212、文字列入力部214、テキストコーパス取得部216、組み合わせ部218、クラスタバイグラム記憶制御部220および計算部222を含む。
記憶部206は、ハードディスクドライブ441、不揮発性磁気ディスク452、不揮発性光ディスク456等により構成され、少なくとも辞書のデータを記憶するものである。この辞書は、表記、読みおよび品詞を関連付けた語の情報を含む。
言語モデルの作成装置200における他の構成要素の機能は、処理装置420がシステムメモリ430により記憶されたプログラムの命令を実行することにより、あるいは図1を参照して上述したハードウェア構成要素を制御することにより実現される。
語取得部202は、同じ表記および読みの語の品詞を記憶部206から取得するものである。
クラスタ作成部204は、語取得部202により取得された語の品詞を組み合わせることによりクラスタを作成するものである。
クラスタ記憶制御部208は、クラスタ作成部204により作成されたクラスタを記憶部206に記憶するものである。
指示入力部212は、マウス461、タブレット464、キーボード462およびユーザ入力インタフェース470等によって構成され、クラスタを品詞に従って分割するための指示を入力するものである。
クラスタ分割部210は、指示入力部212により入力された指示に従って記憶部206に記憶されたクラスタを分割する。
文字列入力部214は、固定不揮発性メモリインタフェース440、リムーバブル不揮発性メモリインタフェース450等により構成され、ハードディスクドライブ441、不揮発性磁気ディスク452、不揮発性光ディスク456等に記憶された文字列、例えば新聞記事に含まれた文字列のデータを入力するものである。
テキストコーパス取得部216は、文字列入力部214により入力された文字列に含まれた各語に読みや品詞を付与することによりテキストコーパスを取得するものである。
組み合わせ部218は、記憶部206に記憶されたクラスタのうちの2つを組み合わせるものである。
計算部222は、組み合わせ部218により組み合わされたクラスタがテキストコーパス内で生起する確率を計算するものである。
クラスタバイグラム記憶制御部220は、組み合わせ部218により組み合わされたクラスタと計算部222により計算された確率を示すクラスタバイグラムとを対応付けて記憶部206に記憶する。
図3は、記憶部206に含まれた辞書内の情報を概念的に示す。辞書には表記(秋田、蔵王)、読み(あきた、ざおう)、品詞(地名、人名)が含まれる。より具体的には、品詞はIDを用いて表記および読みと関連付けが行われる。同図に示すように、表記「秋田」、読み「あきた」には異なる品詞が関連付けられている。
図4は、言語モデルの作成装置200により実行される本実施形態に係る言語モデルの作成手順を示すフローチャートである。
ステップS302において、語取得部202が記憶部206から同じ表記および読みの語の品詞を取得する。図3に示す例では、表記「秋田」、読み「あきた」で示される語の品詞の情報を取得することができる。ステップS304において、クラスタ作成部204において、取得された語の品詞をOR演算子で組み合わせることにより、クラスタを作成する。図5に示す例では、「人名 OR 地名」という拡張品詞のクラスタが作成される。作成されたクラスタには新たなIDを付与される。
このようにして作成されたクラスタは辞書に記憶された各語の情報に対応付けられる。例えば、表記「秋田」、読み「あきた」という語にはクラスタ「人名 OR 地名」が与えられる。
ステップS306において、クラスタ記憶制御部208が、作成されたクラスタを記憶部206に記憶する。
以上の処理が、辞書内の全ての語の情報について探索が行われるまで続けられる(S307)。
図6は、言語モデルの作成装置200において、上記処理により作成されたクラスタをコンピュータにより統計処理可能なレベルにまで分割する処理の一例を示すフローチャートである。この処理は、図4に示す処理により作成された全てのクラスタについて実行することができる。
クラスタが「品詞A OR 品詞B」であると仮定する。品詞Aの生起と品詞Bの生起がコーパスのトレーニングにおいて見かけの現象により機械的に識別することが可能である限り、クラスタを2つの別のクラスタAとクラスタBとに分割する。
例えば「ああ」という語は、感動詞とも、あるいはサ変副詞ともとることができる。仮にこの2つの品詞の可能性しかないとした場合、コーパスにこの単語が出現したところで「ああすればよかったのに」等のようにサ変活用語尾が付随していれば、サ変副詞であると断定することができる。従って、この場合クラスタ「感動詞 OR サ変副詞」は「感動詞」と「サ変副詞」とに分割することができる。
一方、表記「秋田」、読み「あきた」はコンピュータによりその品詞が人名であるか知名であるか判断できない。したがって、この品詞を拡張品詞「人名または地名」に属するものとして扱う。
分割は、実際には効果を計算することにより行われる。仮定の分割による言語モデルを作成し、文字の誤り率により効果を評価する。誤りの減少が得られた場合、分割を適用する。例えば、語「ああ」の可能な品詞をマージしてクラスタを作り、評価した場合に誤り率が3%であるとする。また、「ああ」を2つのクラスタに分割し、評価した場合に誤り率が2%であるとする。この場合、誤り率が低い後者を採用する。
ステップS602において、指示入力部212からクラスタを品詞に従って分割するための指示を入力する。
クラスタは複数のORで結合された品詞の情報である。ここでは、複数の品詞をどのようにグループ化するかを指定する。
ステップS604において、言語モデルの作成装置200は、分割前のクラスタをバッファ(不図示)に保持し、入力された指示に従って記憶部206に記憶されたクラスタを分割する。
分割されたクラスタの各々には新たなIDが付与される。ここで、グループ化の結果1つの品詞からなるクラスタが生成された場合はそのクラスタに通常の品詞IDを付与することとしても良い。
ステップS606において、クラスタ分割部604は、分割されたクラスタを評価する。具体的には、分割されたクラスタを自動的にかなまたは漢字に変換し、事前に記憶しておいた正解文字列と比較し、結果として得られる文字誤り率を求める。この操作を様々な仕方で分割されたクラスタにおいて行い、誤り率の少ない分割方法を決定する。
そして、ステップS608において、分割されたクラスタが分割前のクラスタより信頼できるかどうか判定する。この判定の結果分割されたクラスタのほうが信頼できるものである場合は、ステップS602に移行し、さらなるクラスタの分割を行う。一方、分割されたクラスタが信頼できるものでなければ、分割したクラスタを破棄し、バッファに保持していたクラスタを最小グループとする。
次に、図7のフローチャートを参照し、言語モデルの作成装置200において作成されたクラスタからクラスタバイグラムを計算する手順について説明する。
ステップS702において、文字列入力部214から文字列を入力する。
ステップS704において、入力された文字列に含まれた各語に読み、品詞を付与することによりテキストコーパスを作成する。ここで、付与される品詞は拡張品詞ではないことに留意されたい。
なお、一般にテキストコーパスの取得において、読みおよび品詞は辞書を用いて自動的に付加された後、テキストコーパス取得部216がユーザの操作による補助を受けて誤って付加された情報を修正する。
ステップS706において、計算部222は、記記憶206に記憶されたクラスタのうちの2つを組み合わせる。そして、組み合わせたクラスタがテキストコーパス内で生起する確率(クラスタバイグラム)を計算する。
ステップS708において、組み合わされたクラスタと計算された確率を示すクラスタバイグラムとを対応付けて記憶部206に記憶する。ここで、クラスタバイグラムの情報は数値ではなく所定の記号を用いることとしても良い。
以上のような処理の結果として、最適のクラスタ化を得ることができる。
図8は、上記のように作成されたクラスタバイグラムを含む言語モデルによりかな漢字変換を行うかな漢字変換装置の機能構成例を示すブロック図である。
かな漢字変換装置800は、読み入力部802、読み分割部804、候補生成部806、記憶部808、トライグラム取得部810、バイグラム取得部812、クラスタバイグラム取得部814、決定部816および表示部818を含む。
記憶部808は、上記の処理により作成されたクラスタバイグラム、3つの語の組み合わせが生起する確率を示すトライグラム、および2つの語の組み合わせが生起する確率を示すバイグラムを記憶するものである。
読み入力部802はマウス461、タブレット464、キーボード462およびユーザ入力インタフェース470等によって構成され、文字列の読みを入力するものである。
読み分割部804は、読み入力部802により入力された文字列の読みを分割するものである。
候補生成部806は、読み分割部804により分割された読みをかなまたは漢字に変換して変換文字列の候補を生成するものである。
トライグラム取得部810は、記憶部808に記憶されたトライグラムから所与の条件に合致する値を取得するものである。
バイグラム取得部812は、記憶部808に記憶されたバイグラムから所与の条件に合致する値を取得するものである。
クラスタバイグラム取得部814は、記憶部808に記憶されたクラスタバイグラムから所与の条件に合致する値を取得するものである。
決定部816は、記憶部808から取得されたトライグラム、バイグラムおよびクラスタバイグラムに従って、かな漢字変換された変換文字列の候補の優先順位を決定するものである。
次に、図9を参照し、かな漢字変換装置800により実行されるNグラム(トライグラムおよびバイグラム)を用いたかな漢字変換方法の処理手順を説明する。
本実施形態では、トライグラム、バイグラムがゼロの場合にクラスタバイグラムへバックオフする。この場合、pは、以下のように記載される。

p(w3)=p(w3|w1 w2)
=p(w3|w2) if p(w3|w1 w2)が充分信頼できない程値が小さい
=P(Ci|Ci-1)P(wi|Ci) if p(w3|w2)が充分信頼できない程値が小さい
Figure 0004769031
ここで、w1,w2,w3は語を、Ciはクラスタを示す。また、P(Ci|Ci-1)とは、クラスタCi-1が先行しているという条件の下で、クラスタCiが出現する確率を示す。P(wi|Ci)とは、クラスタCiの単語がwiである確率である。
最後の式の左側の項から、P(Ci|Ci-1)は、Ci-1の次にCiがきたケースの個数を、Ci-1の出現個数で割ったものであることがわかる。また、最後の式の右側の項により、P(wi|Ci)は、単語wiの出現個数をクラスタCiの出現個数(クラスタCiに属する全単語の出現個数)で割ったものであることがわかる。
ステップS902において、読み入力部802から文字列の読みを、例えばかな文字列により入力する。
ステップS904において、読み分割部804が入力された文字列の読みを分割する。
ステップS906において、候補生成部806が分割された読みをかなまたは漢字に変換して変換文字列の候補を生成する。
ステップS908において、トライグラム取得部810は、生成された文字列の各候補について、文字列に含まれた3つの語の並びが生起する確率を示すトライグラムを記憶部808から取得する。
ステップS910において、トライグラム取得部810は、取得された確率が所定の値Ta以下であるかどうか判定する。所定の値Ta以下である場合はS912に移行する。バイグラム取得部812は、ステップ810で判定処理の対象となった3つの語の並びに含まれた2つの語の並びが生起する確率を示すバイグラムを記憶部808から取得する。
ステップS914において、取得されたバイグラムが所定の値Tb以下であるかどうか判定する。バイグラムが所定の値Tb以下である場合、ステップS918に移行する。次いで、クラスタバイグラム取得部814が、この2つの語の並びに対応するクラスタの並びが生起する確率を示すクラスタバイグラムを記憶部808から取得する。
ステップS920において決定部816は、取得されたトライグラム、バイグラムまたはクラスタバイグラムに従って変換文字列の候補の優先順位を決定し、この優先順位に従って変換文字列の候補を並べ替える。
ステップS922において、決定部816は優先順位に従って並べられた順に従って変換した文字列を表示部818に表示する。
例えば、ステップS902において、読みとしてかな文字列「まきこかいにんに」と入力したとする。
この場合、入力された読みは
まきこ/かいにん/に
と分割することができる。このように分割した場合、変換文字列の候補は、以下のものを含むことができる。
(巻き込、真貴子)/(解任、懐妊)/(に、似)
この変換文字列の候補の組み合わせにおけるトライグラムの例を以下に示す。
巻き込-解任-に 確率 0
巻き込-解任-似 確率 0
巻き込-懐妊-に 確率 0
巻き込-懐妊-似 確率 0
真貴子-解任-に 確率 0.00001
真貴子-解任-似 確率 0
真貴子-懐妊-に 確率 0.00001
真貴子-懐妊-似 確率 0
この変換文字列の候補の組み合わせのバイグラムの例を以下に示す。
巻き込-解任 確率 0
巻き込-懐妊 確率 0
真貴子-解任 確率 0.00001
真貴子-懐妊 確率 0.00001
解任-に 確率 0.00001
解任-似 確率 0
懐妊-に 確率 0.00001
解任-似 確率 0
かな漢字変換装置800がこれらのどのトライグラムも、どのバイグラムの組み合わせも充分信頼できないと判定した場合、最後の手段としてクラスタバイグラムへのバックオフを使用する。以下のようなクラスタバイグラム

マ行五段語幹(巻き込)-サ変名詞(解任,懐妊) 確率 0
名詞(真貴子)-サ変名詞(解任,懐妊) 確率(即ち名詞の後にサ変名詞が来る確率) 0.1
解任がサ変名詞のうちで占める確率 0.001
懐妊がサ変名詞のうちで占める確率 0.0001

を参照した場合、「真貴子解任」の確率が、名詞(真貴子)-サ変名詞(解任,懐妊)の確率×解任がサ変名詞のうちで占める確率=0.1*0.001=0.0001で最も大きい。このようにクラスタバイグラムへのバックオフを使うことで、たとえば動詞語幹にサ変名詞が直接つくような「巻き込解任」といった誤変換を抑制することができる。
以上詳述した処理によれば、機械が区別できるテキストの見かけ上の属性によってクラスタを構築することができる。
また、ユニグラムへのバックオフを新しいクラスタバイグラムで置き換えるので、最悪の場合の手段がクラスタバイグラムであるため、文脈を考慮したかな漢字変換を行うことができる。
本明細書で例示および説明した方法の実行または遂行の順序は、特に指定のない限り、必須ではない。すなわち、発明者によって、特に指定のない限りこれらの方法の要素をいかなる順序で実行することもできること、および、これらの方法には本明細書で開示された要素より多いかあるいは少ない要素が含まれる場合があることが企図される。
上記に鑑みて、本発明のいくつかの目的が達成され、他の有利な結果が達成されることはわかるであろう。
上記の構成および方法において、様々な変更を本発明の実施形態の範囲から逸脱することなく行うことができる。
例えば、図2に示す機能ブロックは、図4、6および7に示すフローチャート毎に分解することができる。従って、図4の方法を実施する装置、図6の方法を実施する装置、および図7の方法を実施する装置を異なる装置として構成しても良い。また、図4、6および7に示すそれぞれの方法を任意に組み合わせて実施する装置を構成することも可能である。
また、図2に示す機能と図8に示す機能を含む装置を構成することも可能である。
また、上記の実施形態では図9を参照し、閾値を使用してトライグラム、バイグラム、クラスタバイグラムを順に取得する例を説明したが、閾値を使用せずに、トライグラム、バイグラムおよびクラスタバイグラムをすべて計算して一番高い確率を採用してもよい。
さらに、上述の実施形態では、トライグラム、バイグラムおよびクラスタバイグラムを使用して仮名漢字変換を行う例を示したが、任意のNグラム(N≧2)を用いた仮名漢字変換においてクラスタバイグラムへのバックオフを採用することで本発明の効果を奏することができる。
従って、上記の説明に含まれ、添付の図面に示した全ての内容は、限定の意味ではなく例示として解釈されるものとすることが意図される。
本発明を実施するための環境の例を示すブロック図である。 本発明の一実施形態に係る言語モデルの作成装置の機能構成を概略的に示すブロック図である。 辞書内の情報を概念的に示す図である。 本実施形態に係る言語モデルの作成手順を示すフローチャートである。 辞書に付与されたクラスタの例を示す図である。 クラスタをコンピュータにより統計処理可能なレベルにまで分割する処理の一例を示すフローチャートである。 本発明の一実施形態に係る言語モデルの作成装置において作成されたクラスタからクラスタバイグラムを計算する手順を示すフローチャートである。 本発明の一実施形態に係るクラスタバイグラムを用いたかな漢字変換装置の機能構成例を示すブロック図である。 本発明の一実施形態に係るかな漢字変換装置により実行されるかな漢字変換方法の処理手順を示すフローチャートである。
符号の説明
200 言語モデルの作成装置
202 語取得部
204 クラスタ作成部
206 記憶部
208 クラスタ記憶制御部
210 クラスタ分割部
212 指示入力部
214 文字列入力部
216 テキストコーパス取得部
218 組み合わせ部
220 クラスタバイグラム記憶制御部
222 計算部
800 かな漢字変換装置
802 読み入力部
804 読み分割部
806 候補生成部
808 記憶部
810 トライグラム取得部
812 バイグラム取得部
814 クラスタバイグラム取得部
816 決定部
818 表示部

Claims (6)

  1. 記憶装置内に、N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを有するコンピュータにおけるかな漢字変換方法であって、前記方法は、前記コンピュータの処理装置が、
    文字列の読みを入力するステップと、
    前記入力された文字列の読みを分割するステップと、
    前記分割された読みをかなまたは漢字に変換して変換文字列の候補を生成するステップと、
    前記変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶装置から取得するステップと、
    前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶装置から取得するステップと、
    前記取得されたNグラムおよびクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定するステップと
    を備えることを特徴とするかな漢字変換方法。
  2. 前記記憶装置内には表記、読みおよび品詞を関連付けた語の情報が記憶されており、前記処理装置が、
    同じ表記および読みの語の品詞を前記記憶装置から取得するステップと、
    前記取得された品詞を組み合わせることによりクラスタを作成するステップと、
    前記作成されたクラスタを前記記憶装置に記憶するステップと、
    前記クラスタを分割するための指示を入力するステップと、
    前記入力された指示に従って前記記憶装置に記憶されたクラスタを分割するステップと
    をさらに備え、前記クラスタバイグラムは、前記分割されたクラスタの組み合わせが生起する確率を示すことを特徴とする請求項1に記載のかな漢字変換方法。
  3. 前記処理装置が前記クラスタバイグラムを作成するステップであって、
    文字列を入力するステップと、
    前記入力された文字列に含まれた各語に品詞を付与することによりテキストコーパスを取得するステップと、
    前記記憶装置に記憶されたクラスタのうちの2つを組み合わせるステップと、
    前記組み合わせたクラスタが前記テキストコーパス内で生起する確率を計算するステップと、
    前記組み合わされたクラスタと前記計算された確率を示すクラスタバイグラムとを対応付けて前記記憶装置に記憶するステップと
    を含む、前記クラスタバイグラムを作成するステップをさらに備えることを特徴とする請求項2に記載のかな漢字変換方法。
  4. N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを記憶した記憶手段と、
    文字列の読みを入力する読み入力手段と、
    前記読み入力手段により入力された文字列の読みを分割する読み分割手段と、
    前記読み分割手段により分割された読みをかなまたは漢字に変換して変換文字列の候補を生成する候補生成手段と、
    前記候補生成手段により生成された変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶手段から取得するNグラム取得手段と、
    前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶手段から取得するクラスタバイグラム取得手段と、
    前記Nグラム取得手段により取得されたNグラムおよび前記クラスタバイグラム取得手段により取得されたクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定する決定手段と
    を備えることを特徴とするかな漢字変換装置。
  5. コンピュータを、
    N個の語の組み合わせが生起する確率を示すNグラム、および2つの品詞のクラスタの組み合わせが生起する確率を示すクラスタバイグラムであって、少なくとも1つのクラスタは少なくとも2つの品詞を含むクラスタバイグラムを記憶した記憶手段、
    文字列の読みを入力する読み入力手段、
    前記読み入力手段により入力された文字列の読みを分割する読み分割手段、
    前記読み分割手段により分割された読みをかなまたは漢字に変換して変換文字列の候補を生成する候補生成手段、
    前記候補生成手段により生成された変換文字列の候補に含まれたN個の語の組み合わせが生起する確率を示すNグラムを前記記憶手段から取得するNグラム取得手段、
    前記変換文字列の候補に含まれた2つのクラスタの組み合わせが生起する確率を示すクラスタバイグラムを前記記憶手段から取得するクラスタバイグラム取得手段、ならびに
    前記Nグラム取得手段により取得されたNグラムおよび前記クラスタバイグラム取得手段により取得されたクラスタバイグラムに従って前記変換文字列の候補の優先順位を決定する決定手段として機能させるためのコンピュータプログラム。
  6. 請求項に記載のコンピュータプログラムを記憶したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2005185765A 2005-06-24 2005-06-24 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 Expired - Fee Related JP4769031B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2005185765A JP4769031B2 (ja) 2005-06-24 2005-06-24 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
EP06785476.0A EP1886231A4 (en) 2005-06-24 2006-06-23 Method and apparatus for creating a language model and kana-kanji conversion
CN2006800228581A CN101208689B (zh) 2005-06-24 2006-06-23 创建语言模型和假名-汉字转换的方法和设备
KR1020077030209A KR101279676B1 (ko) 2005-06-24 2006-06-23 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
PCT/US2006/024566 WO2007002456A1 (en) 2005-06-24 2006-06-23 Method and apparatus for creating a language model and kana-kanji conversion
US11/917,657 US8744833B2 (en) 2005-06-24 2006-06-23 Method and apparatus for creating a language model and kana-kanji conversion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005185765A JP4769031B2 (ja) 2005-06-24 2005-06-24 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Publications (2)

Publication Number Publication Date
JP2007004634A JP2007004634A (ja) 2007-01-11
JP4769031B2 true JP4769031B2 (ja) 2011-09-07

Family

ID=37595458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005185765A Expired - Fee Related JP4769031B2 (ja) 2005-06-24 2005-06-24 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Country Status (6)

Country Link
US (1) US8744833B2 (ja)
EP (1) EP1886231A4 (ja)
JP (1) JP4769031B2 (ja)
KR (1) KR101279676B1 (ja)
CN (1) CN101208689B (ja)
WO (1) WO2007002456A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094938B2 (en) * 2004-04-02 2012-01-10 Nokia Corporation Apparatus and method for handwriting recognition
JP5228325B2 (ja) * 2007-01-25 2013-07-03 日本電気株式会社 日本語処理装置、日本語処理方法、および日本語処理用プログラム
GB2453366B (en) * 2007-10-04 2011-04-06 Toshiba Res Europ Ltd Automatic speech recognition method and apparatus
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US9411800B2 (en) * 2008-06-27 2016-08-09 Microsoft Technology Licensing, Llc Adaptive generation of out-of-dictionary personalized long words
US8798983B2 (en) * 2009-03-30 2014-08-05 Microsoft Corporation Adaptation for statistical language model
JP5779032B2 (ja) * 2011-07-28 2015-09-16 株式会社東芝 話者分類装置、話者分類方法および話者分類プログラム
CN102436781B (zh) * 2011-11-04 2014-02-12 杭州中天微系统有限公司 基于隐式相关性和隐式旁路的微处理器指令拆分装置
CN103970798B (zh) * 2013-02-04 2019-05-28 商业对象软件有限公司 数据的搜索和匹配
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
US10073835B2 (en) * 2013-12-03 2018-09-11 International Business Machines Corporation Detecting literary elements in literature and their importance through semantic analysis and literary correlation
US9928232B2 (en) * 2015-02-27 2018-03-27 Microsoft Technology Licensing, Llc Topically aware word suggestions
CN106910501B (zh) 2017-02-27 2019-03-01 腾讯科技(深圳)有限公司 文本实体提取方法及装置
CN109426358B (zh) * 2017-09-01 2023-04-07 百度在线网络技术(北京)有限公司 信息输入方法和装置
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words
CN110111778B (zh) * 2019-04-30 2021-11-12 北京大米科技有限公司 一种语音处理方法、装置、存储介质及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731677B2 (ja) * 1987-09-29 1995-04-10 シャープ株式会社 文書作成・校正支援装置
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH08153090A (ja) * 1994-11-29 1996-06-11 Internatl Business Mach Corp <Ibm> かな漢字変換システム及びその辞書作成方法
US5835893A (en) * 1996-02-15 1998-11-10 Atr Interpreting Telecommunications Research Labs Class-based word clustering for speech recognition using a three-level balanced hierarchical similarity
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JPH11328179A (ja) * 1998-05-08 1999-11-30 Toshiba Corp 辞書管理方法及び辞書管理システム
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6356866B1 (en) 1998-10-07 2002-03-12 Microsoft Corporation Method for converting a phonetic character string into the text of an Asian language
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7275029B1 (en) * 1999-11-05 2007-09-25 Microsoft Corporation System and method for joint optimization of language model performance and size
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US6606597B1 (en) 2000-09-08 2003-08-12 Microsoft Corporation Augmented-word language model
CN1161703C (zh) * 2000-09-27 2004-08-11 中国科学院自动化研究所 汉语连续语音识别的集成预测搜索方法
WO2002082310A1 (en) * 2001-04-03 2002-10-17 Intel Corporation Method, apparatus, and system for building a compact language model for large vocabulary continuous speech recognition (lvcsr) system
US7174288B2 (en) * 2002-05-08 2007-02-06 Microsoft Corporation Multi-modal entry of ideogrammatic languages
JP2005070430A (ja) * 2003-08-25 2005-03-17 Alpine Electronics Inc 音声出力装置および方法
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、

Also Published As

Publication number Publication date
JP2007004634A (ja) 2007-01-11
CN101208689A (zh) 2008-06-25
US8744833B2 (en) 2014-06-03
KR20080021692A (ko) 2008-03-07
EP1886231A1 (en) 2008-02-13
CN101208689B (zh) 2010-05-26
US20110106523A1 (en) 2011-05-05
WO2007002456A1 (en) 2007-01-04
KR101279676B1 (ko) 2013-06-27
EP1886231A4 (en) 2017-10-04

Similar Documents

Publication Publication Date Title
JP4769031B2 (ja) 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
KR100999488B1 (ko) 문서 표절 탐색 방법 및 장치
JP2007004633A (ja) 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置
JP3372532B2 (ja) 感情情報抽出方法および感情情報抽出プログラムの計算機読み取り可能な記録媒体
US20120124467A1 (en) Method for automatically generating descriptive headings for a text element
JP5370680B2 (ja) 述部機能表現正規化方法、その装置及びプログラム
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Yasin et al. Transformer-based neural machine translation for post-OCR error correction in cursive text
Chen et al. Automated extraction of tree-adjoining grammars from treebanks
US20050027509A1 (en) Left-corner chart parsing
US11501077B2 (en) Semantic processing method, electronic device, and non-transitory computer readable recording medium
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN117371445B (zh) 一种信息纠错方法、装置、计算机设备和存储介质
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
CN101371252A (zh) 字符处理装置、方法、程序以及存储介质
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP2009176148A (ja) 未知語判定システム、方法及びプログラム
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
Kumolalo et al. Development of a syllabicator for Yorùbá language
JP2008293302A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2008293070A (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2002351870A (ja) 形態素の解析方法
JP5115239B2 (ja) 文字処理装置
CN121168446A (zh) 文本段落处理方法、装置、电子设备和存储

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100910

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110610

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110617

R150 Certificate of patent or registration of utility model

Ref document number: 4769031

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140624

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees