[go: up one dir, main page]

JP2001511267A - 音声パターン認識用のモデル特殊因子の決定方法 - Google Patents

音声パターン認識用のモデル特殊因子の決定方法

Info

Publication number
JP2001511267A
JP2001511267A JP53225499A JP53225499A JP2001511267A JP 2001511267 A JP2001511267 A JP 2001511267A JP 53225499 A JP53225499 A JP 53225499A JP 53225499 A JP53225499 A JP 53225499A JP 2001511267 A JP2001511267 A JP 2001511267A
Authority
JP
Japan
Prior art keywords
distribution
association
models
composite
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP53225499A
Other languages
English (en)
Inventor
ベヤーレイン,ペーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from DE1997155191 external-priority patent/DE19755191A1/de
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2001511267A publication Critical patent/JP2001511267A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】 物理的刺激の組により構成されるパターンを認識する本発明の方法は、1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の測定値pj(k|x),j=1...Mを確定する段階と、複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に正規化量を併合する段階と、上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため上記重み係数を最適化する段階と、上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識する段階とを含む。

Description

【発明の詳細な説明】 音声パターン認識用のモデル特殊因子の決定方法 発明の背景 本発明は、物理的刺激の組により構成されたパターンを認識する方法に係わり 、この方法は、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階とを含む。 本発明は音声認識を想定しているが、音声理解、音声翻訳、並びに、手書き文 字認識、顔の認識、情景認識、及び、その他の環境の認識のような他の認識プロ セスにも同じように適用可能である。連合モデルは、パターンをクラスに割り当 てる確率分布を与える確率モデルである。他のモデルは、ファジー論理、或いは 、ターゲットとクラスとの間で測定された距離のような類似した測度に基づく。 従来の技術は、合成された認識の取り組みにおいてかかる種々のモデルを使用す るが、種々の協働するモデルに与えられる影響は偶然的に決まる。これは、僅か な基本モデル及び/又は唯一の基本モデルだけが実施できることを意味する。 本願の発明者は、最大エントロピー原理及び識別型学習原理の統合は、二つ以 上のモデルを合成する場合に、原則として、従来のヒューリスティックな方法よ りも優れた結果が得られることを見出した。また、直接的なデータ処理手続は、 これらの結果を低コストかつ高速に与える。 したがって、特に、本発明の目的は、識別型学習を通じてパラメータ推定を行 いながら、種々のサブモデルpj(k|X)の対数−線形結合を推定することで ある。以下、本発明の一面によれば、、物理的刺激の組を含むパターンを認識す ることにより上記本発明の目的を達成する方法は、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当の検出される誤り率を最小限に抑えるため上記重 み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む。特に、このような処理によって、任意の数のモデルを単一の 最大エントロピー分布に合成できるようになる。また、特性及び表現が非常に広 範囲に変化するモデルの相互作用を最適化することができる。 また、本発明は、上記本発明による連合分布をモデル化する方法に関する。こ れにより、複合分布の以降のユーザが適切なパターンを認識するための優れたツ ールが得られる。 また、本発明は、本発明によって生成された連合分布を用いてパターンを認識 する方法に関する。この方法は、上記本発明によって実現されたツールを適用す ることによりユーザに多大の利益を供与する。 本発明は、上記本発明による方法を実施するため構成されたシステムに関する 。本発明の更なる局面は従属した請求項に記載されている。 図面の簡単な説明 以下、好ましい実施例の詳細な説明を、特に、添付図面と共に参照して、本発 明の上記並びに他の局面及び利点について詳細に説明する。図面中、 図1は、本発明の方法の全体的なフローチャートであり、 図2は、本発明を実施する統合システムの構成図であり、 図3乃至21には、本発明による自動化方法と共に使用される種々の数式B1 −B20が表されている。 好ましい実施例の詳細な説明 本発明は、非常に多様な特性を有する物理量の取扱及び調節に関する数学のバ ランスのとれたアプリケーションに基づき、本発明の開示の大部分は高等数学に 基づく。しかし、スタート点と最終的な結果の両方は、不変的な物理的な面を有 し、関連性がある。音声認識は、種々のタイプの機械を制御するため使用される 。情景解析は無人自動車を誘導する。画像認識はゲートの開閉制御に使用される 。これら以外にも種々のアプリケーションがある。以下では、数式は通し番号が 付けられ、本文中で数式はその番号によって参照される。 本発明は、特に、音声認識用の幾つかの異なるモデルを単一のパターン認識処 理に合成し、最適化するため、モデル特殊因子を決定する。 統計的な音声認識モデルは、最小誤識別率の識別メカニズムを形成するためベ イズ判定理論を利用する。この理論に従って、所定の事後又は「現実の」確率分 布π(k|x)に対し、 が成立するときに、観測量xがクラスkに割り当てられる(簡単のため、x∈k )ような判定が行われる。 用語上、項log(π(k|x)/π(k|x)は、識別関数と称される。以 下、簡単のため、この項は、g(x,k,k’)のように表記する。判定ルール (1)が完全な文(センテンス)を認識するため使用されるとき、時間的な長さ Tを有する観測された表現x1 T=(x1,...,xT)は、長さSの発話語シー ケンスw1 S=(w1,...,wS)に分類される。しかし、事後分布π(w1 S| x1 T)は、人の複雑な自然音声会話を記述するので未知である。したがって、こ れは、分布p(w1 S|x1 T)によって近似されるべきである。ここまでは、パラ メトリック確率分布の形式による音声の音響音声学的並びに文法的モデリングは 、最良の結果を与える。分布p(w1 S|x1 T)の形式は予め決められ、分布の未 知パラメータは学習データに基づいて推定される。かくして獲得された分布p( w1 S|x1 T)は、次に、ベイズ判定に代入される。表現x1 Tは、 である語シーケンスw1 Sに割り当てられる。 識別関数の変換 によって、文法モデルp(w1 S)を音響音声学モデルp(x1 T|w1 S)から自然 な形で分離することができる。文法モデルp (w1 S)は、特に語シーケンスw1 Sの出現確率を記述し、音響音声学モデルp( x1 T|w1 S)は、語シーケンスw1 Sの発話中の音響信号x1 Tの出現確率を推定す る。両方のモデルは別々に推定できるので、比較的限定された個数の学習データ が最適に使用される。判定ルール(3)は、たとえ、分布pの推定が最適であっ たとしても、分布pの未知分布πからの偏差に起因して最適に達しない場合があ る。これにより、所謂識別法の使用が促される。識別型法は、学習データに基づ いて経験的に測定された判定ルールの誤識別率に関して分布pを直接的に最適化 する。このような識別型最適化の最も簡単な例は、所謂言語モデル因子λを使用 することである。このとき、式(3)は以下の通り変形される。 実験的に、判定ルール(4)によって生ずる誤識別率は、λ>1となるようλを 選択するときに減少する。λ=1である理論値から外れる理由は、複合事象(w1 S ,x1 T)の確率のモデル化が不完全若しくは不正確である点にある。事象(w1 S ,x1 T)を発生させる過程についての知識は不完全であるため、モデリングの 不正確さは回避できない。 従来、多数の音響音声学的並びに文法的言語モデルが解析されている。これら の解析の目的は、既知若しくは所与のモデルの中から着目している認識作業に対 する「最良」モデルを見つけることである。このような方式で決定されたすべて のモデルは、実際の確率分布の不完全な表現であるので、これらのモデルが音声 認識のようなパターン認識に使用されるとき、クラスへの誤った割当として誤認 識が生ずる。 本発明の目的は、現実の確率分布をより厳密に近似し、僅かな処理労力を加え るだけで実施することができ、特に、より多数の既知若しくは所与のモデルを単 一の分類メカニズムに簡単に統合できるモデリング、特に音声用モデリングを提 供することである。 発明の概要 本発明の解決法の新規な局面は、既知の音声特性を、複雑かつ困難な学習を伴 う単一の音響音声学的分布モデルや単一の文法的分布モデルに統合しようとしな い点である。多種多様な音声音響学的並びに文法的特性が、種々の分布pj(w1 S |x1 T),j=1...Mの形式で別々にモデル化され学習され、次に、複合 分布 た係数λjよって決定される。 因子C(Λ)は、確率に対する正規化条件が満たされたこと保証する。自由因 子Λ=(λ1,...,λMtrは合成された識別関数 の誤識別率ができる限り小さくなるように調整される。この基本的なアイデアを 実現するために多数の方法が考えられるが、以下では、その中の幾つかの方法を 説明する。 最初に、以下の説明で使用される種々の用語を定義する。各語シーケンスw1 S はクラスkを形成し、シーケンス長Sはクラス毎に異なる。音声発話x1 Tは観測 量xであると考えられ、その長さTは、観測量毎に異なる。 画像データは、(xn,k)によって表記され、n=1,...,N;k=0 ,...,Kである。尚、Nは音響学習観測量xnの個数であり、knは観測量xn と関連した正しいクラスを表す。また、k≠knなるkは、knに関して競合す る種々の不正確な対抗クラスである。 ベイズ判定ルール(1)に従って観測量xをクラスkに分類する場合を考える 。観測量xはクラスkの音響的な実現形式である。音声認識の場合に、各クラス kは語のシーケンスを代表する。しかし、この方法はより汎用的に適用すること が可能である。 学習用観測量xnによって生成されるクラスknは既知であり k);n=1...N;k=0...Kに基づいて構築され得る。この分布は、 この分布から獲得された判定ルールが学習データに適用された場合に最小の誤識 別率を有するように作られるべきである。完全な語シーケンスkを分類する場合 に、誤りのある語シーケンスk≠knを選択することによる分類誤りは、幾つか の語の誤りを生じさせる。正しくないクラスkと正しいクラスknとの間の語の 誤りの数は、レーベンシュタインの距離E(k,kn)と呼ばれる。E(k,kn )から形成される判定ルールは、単調特性が満たされるとき、最小の語誤識別率 を有する。 れ、正しいクラス割当てが得られない未知のテストデータに対しては定義されな い経験的誤り値E(k,kn)の関数である。したがって、この分布に基づいて 、任意の独立したテストデータに対し定義され、学習データに関する経験的な誤 識別率ができる限り小さ く抑えられた分布 が求められる。M個の予め決められた分布モデルp1(k|x),...,pM( k|x)が任意のテストデータに関して定義 に選択可能な係数Λ=(λ1,...,λMtrが、学習データに トデータに関して最適な判定を行う必要がある。 GPD法並びに最小二乗法は、分類器の平均誤識別率を近似する規準を最適化 する。GPD法と比べて、最小二乗法は最適な係数Λに対し閉じた解を与える点 が有利である。 次に、最小二乗法の場合について考える。識別関数(1)は分類器の品質を決 定するので、係数Λは経験的な誤識別率E(k,kn 最小限に抑える必要がある。rに関する加算は規準のすべての対抗クラスを含む 。D(Λ)を最小化することにより、式B15及びB16により詳細に示されて いる最適な係数ベクトル Λ=Q-1P(9) に対する閉形式の閉じた解が得られる。 式中、Qは所定の分布モデルの識別関数の自己相関マトリックス 数との間の関係を表現する。 仮説kの語の誤り率E(k,kn)は係数λ1,...,λM内で線形に選択さ れる。逆に、分布モデルpiの識別能力は、識別関数 によって直接的に係数を決めるため、係数λ1,...,λM内に線形に包含され る。 或いは、これらの係数はGPD法を用いて決定してもよい。GPD法の場合に 、平滑化された経験に基づく以下の誤り率E(Λ)は学習データに対し直接的に 平滑化され得る。 左辺の式は、観測量xnを誤って分類する危険に対する平滑化された測定量であ る。値A>0,B>0,η>0は、誤り分類危険の平滑化のタイプを決定し、予 め適切に与えられるべきである。E(λ)が対数線形結合の係数λに関して最小 化されるとき、λjに対し、ステップ幅Mを有する反復式 λj (0)=1 (11) 但し、j=1,...,M が得られる。また、式B13及びB14に従って、 Λ(1)=(λ1 (I),...,λM (1)tr;j=1,...,Mが得られる。 係数ベクトルΛは、識別関数 を用いて、規準E(Λ)に包含されることに注意する必要がある。 仮にE(Λ)が減少するとき、識別関数(12)は、式(9)及び(10)の ため、平均的に増加する。この結果として、判定ルールは更に改良される(式( 1)を参照のこと)。 上記説明では、すべての利用可能な知識源を単一のパターン認識システムに統 合することが目的であり、二つの原理が併合される。第1の原理は最大エントロ ピー原理である。この原理は、導入される仮説をできる限り減らし、その結果と して不確実さを最大化するように作用する。そのため、指数関数的な分布が使用 される。この方法では、知識源の組合せの構造が定義される。第2の原理は、種 々の知識源に割り当てられる重み付け係数及び関連したモデルを決めるため、識 別型学習を行う。パラメータを最適化することにより、誤りは最小限に抑えられ る。音声の場合、モデルは、意味論的モデル、統語論的モデル、音響的モデル及 びその他のモデルなどである。 この方法は、多種のサブモデルを対数線形結合し、識別型学習を通じてパラメ ータを推定する。このようにして、サブモデルの追加は認識スコアを改善させる 。さもなければ、着目中のモデルは無視される。しかし、サブモデルは決して認 識精度を低下させない。か くして、すべての利用可能なサブモデルが最適な結果を生ずるため合成される。 本発明の別のアプリケーションは、既存のモデル合成を新しい認識環境に適応さ せることである。 この処理の理論的なアプローチには以下の様々なステップが含まれる。 −経験的誤認識率のパラボリック平滑化 −「最小誤認識率学習」の理論の簡単化 −反復シーケンスを必要としない閉じた形式の解を供与すること また、本発明 によれば、以下の付加的な機能が付与される。 −最適言語モデル因子の推定 −対数線形隠れマルコフモデルの適用 −適モデル合成のための閉じた形式の式 −クラス特殊確率分布の識別型学習のための閉じた形式の式 以下、式(1)に指定された分類作業のため、真又は事後分布π(k|x)は 未知であるが、モデル分布p(k|x)によって近似される。二つの分布は、不 正確なモデリング仮説と、不十分なデータとに起因して異なる。その一例は、式 B1に使用される言語モデル因子λである。 形式的な定義は、式(5)に与えられるように種々のサブモデル結合に続いて 、項logC(Λ)は、形式的な確率分布を得るため正規化を行う。これにより 得られた識別関数は、 である。 誤認識率は最小化され、Λは最適化される。文レベルの最適化は 以下の通り行われる。 ・クラスk:語シーケンス ・観測量x:発話(例えば、文) ・正しい文を与えるN個の学習サンプルxn ・各サンプルxnに対し、 −kn:会話として正しいクラス −k≠kn:起こり得るすべての文、或いは、例えば、その妥当な部分集合で ある対抗クラス ・クラスの類似性:E(kn,k) −E:レーベンシュタイン距離、或いは、単調である同等に適切な測定量の適 当な関数 ・語シーケンスkn内の語数:Ln 次に、式B3は、目的関数である経験的誤認識率を与える。式中、左辺は、ク ラスkとknの間の誤りのある偏差の数に基づく最尤クラスを導く。 パラメータΛは以下のように推定される。 ・反復的な解を与える一般化された確率的降下法(GPD)による最小誤識別率 学習 ・パラボリック(双曲線型)平滑化と組み合わされ、閉じた形式の解を与える最 小誤識別学習の変形 ・閉じた形式の解を与える最小二乗法に基づく第3の方法 GPD法の場合に、平滑化された経験的誤識別率最小化は式B4に基づく。平 滑化された誤分類危険は式B5によって与えられ、平均的な競争は式B6により 与えられる。 平滑化された経験的誤識別率は式B7によって最小化される。式中、lは、簡 便な計算の場合に微分可能でなければならない損失関数である。競争は式B8に よって与えられ、式中、Eは誤りの数を示す。平均競争は、式B9において加算 することにより与えられる。平滑化された誤分類危険は、シグモイド関数のよう な挙動を示す式 B10によって表現される。Rn=−∞の場合に、損失関数lは零になり、Rn= +∞の場合に、限界値はl=1である。式中、A,Bは零よりも大きいスケーリ ング定数である。Λに関する微分によって、式B11が得られ、ここで、ベクト ルΛ(1)は式B12によって与えられ、最後の結果は式B13によって与えられ る。 また、本発明は、識別型モデル合成DMCを見つけるための閉じた形式の解を 提供する。この解は、最小二乗法に従って、識別関数と理想的な識別関数E(kn ,k)との間の距離を最小化させる。基本的な式はB14に示される。ここで 、Λ=Q-1Pであり、式中、Qは式B15で表された要素Qi,jを有するマトリ ックスである。また、Pは式B16で表された要素Piを有するベクトルである 。経験的誤識別率は既にB3に記載されている。計算上の理由から、経験的誤識 別率は、式B17によって表現されるような平滑化された経験的誤識別率によっ て近似される。ここで、kとknとの間の誤りの数が、シグモイド関数S又は同 様に有効な関数を用いて表される。有効な形式は、S(x)={(x+B)/( A+B)}2であり、式中、−B<x<Aかつ−B<0<Aである。より大きい xの値に対し、S=1であり、小さいxの値に対し、S=0である。このパラボ ラは有効であることが分かった。種々の他の二次曲線が有効であることが判明し た。関連した対抗側は、Sの中心及びパラボラ的に湾曲した間隔に存在する必要 がある。次に、最終的に、正規化定数が式B18に従ってΛに対し加算される。 第2の規準は、マトリックス計算式(α,λtrtr=Q’-1P’に従って解法 され、ここで、Q’0.0=0、Q’0.j=1及びQ’j,0=1/2(A+B)2に従 って付加的な行及び列が正規化のためマトリックスQ’に付加される。相関マト リックスQ’の一般的な要素は式B19に与えられる。閉じた解は平滑化ステッ プ関数sによって実現可能にされることに注意する必要がある。また、ベクトル P’は、同様に正規化用要素P’0=1が与えられ、一方、ベ クトルP’の一般的な要素は式B20に与えられる。 2−gram、3−gram、4−gram又は5−gramモデルのような 多種のM−gram言語モデルや、ワード・インターナル・トライフォン(word- internal triphones)、クロス・ワード・3−gram(cross-word trigram)及 びペンタフォン(pentaphones)モデルのような種々の音響モデルを用いて実験が 行われる。一般的に、自動DMC処理は、同じサブモデルの集合を用いて非自動 精密チューニングによって生成される結果と同等に優れた結果を実現する。しか し、本発明の自動処理による付加的なサブモデルの追加は、誤りの数を約8%減 少させることができる。これは、改良された音声認識の技術における重大な前進 であると考えられる。本発明は、適切なサブモデルが利用できるならば、署名、 手書き文字、情景解析などの別のタイプのパターンを認識するため同様に優れた 結果を与えるものと期待される。一般的な認識のため使用される他のサブモデル には、mllrアダプテーション、1−グラム(unigram)、中間要素はドントケ アであるとみなされる距離1の2−グラム(distance-1-bigram)、ペンタフォン( pentaphones)及びwsjモデルが含まれる。このような環境で、本発明の自動処 理におけるサブモデルの数を増加させることにより、誤りの個数は8〜13%の 有意な量が減少される。 図1には、本発明の方法の全体的なフローチャートが示されている。ブロック 20では学習が開始され、学習用データ又はパターンはブロック22で与えられ る。始めに、要求されるソフトウェア及びハードウェア、特に、サブモデルが必 要に応じて宣言され、多様なパターンの識別が行われる。簡単のため、サブモデ ルの個数は2個に制限されている場合を考えるが、サブモデルの個数は3個以上 でも構わない。並行したブロック24及び26において、個々のサブモデルに対 するスコアが決定される。ブロック28において、種々のサブモデルの対数線形 結合が行われ、正規化される。ブロッ ク30において、最小の誤認識率が達成されるという観点でベクトルΛの自動最 適化が行われる。尚、ベクトルΛは、関連したサブモデル若しくはモデルが全く 改良を行わないことを知らせるため1個以上の零値成分を有することに注意する 必要がある。 次に、図1の右側に示されるようにベクトルΛ及び種々の適用可能なサブモデ ルがターゲットデータを認識するため使用される。左側の学習と右側の運用は、 時間的かつ空間的に互いに別々に行われ、例えば、ある人は、プロバイダ側で自 分の声に対し機械を学習させる。これには、付加的なデータ処理設備が必要とさ れる。次に、このように学習された機械は、家庭若しくは車内の環境、又は、そ れ以外の場所で使用される。したがって、ブロック40〜46は、同図の左側の ブロックと対応する。 ブロック48において、種々のサブモデルからのスコアが、学習側で見つけら れたベクトルΛの種々の成分を用いて対数線形結合される。最後に、ブロック5 0において、ターゲットデータがブロック50から得られた結果を用いて分類さ れる。ブロック52において、処理は終了し、準備が完了する。 図2は、本発明を実施するシステムの概略図である。必要な機能は標準的なハ ードウェア、又は、専用装置上に割り付けられる。ボイスレコーダ、2次元光学 式スキャナのような適当なピックアップ60が、必要に応じてA/D変換機能並 びに品質改良前処理と共に設けられる。ブロック64には、プログラムメモリ6 6からのプログラムを、ピックアップ60から到着したデータ、又は、データ記 憶装置62からのデータに適用する処理が示されている。データ記憶装置62に は、ピックアップ60から転送されたデータが持続的若しくは一時的に格納され る。ライン70は、スタート/ストップのようなユーザ制御信号、場合によって は、例えば、役に立たないサブモデルを完全に禁止するような学習用補助信号を 受信する。 ブロック68では、例えば、作表、印刷、適切な音声応答を得る ための会話構造をアドレス指定、或いは、適切な出力制御信号を選択することに より認識結果が使用可能にされる。ブロック72では、音声応答を出力し、認識 された人のためゲートを開き、分類機械内でパスを選択する等の認識された音声 の用法が示されている。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),JP,US

Claims (1)

  1. 【特許請求の範囲】 1. 物理的刺激の組により構成されたパターンを認識する方法において、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む方法。 2. 複数の物理的刺激により構成されたパターンの連合分布をモデリングする 方法において、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階とを含む方法。 3. 物理的刺激の組により構成されたパターンを認識する方法に おいて、 一つ以上の連合したパターンクラスへの割当に関連した種々の測定値pj(k |x),j=1...Mを示す複数の連合モデルであって、夫々の重み係数に応 じて対数/線形連合分布に結合され、複合連合分布を生成するため正規化量が併 合される複数の連合モデルを受信する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む方法。 4. 上記連合モデルは確率モデルであり、上記連合分布は連合用の確率モデル である、請求項1記載の方法。 5. 最適化は反復的な形で学習誤り率を最小化することにより実現され、上記 誤り率は非最適割当の対抗値の関数として連続微分可能な形式で表現される、請 求項1記載の方法。 6. 最適化は、誤り率に基づいて表現されるような上記複合分布の結果として 得られる実際の識別関数と理想的な識別関数との間で最小二乗法を用いて実現さ れ、 Qが種々のモデルの識別関数の自己相関マトリックスを表し、Pが上記誤り率 と上記識別関数との間の相関ベクトルを表すときに、 重みベクトルΛは、 Λ=Q-1P のように閉じた形式で表現される、請求項1記載の方法。 7. 経験的な誤り率は、間隔(−B,A)内で2次曲線として表現することに より平滑化され、 上記重みベクトルΛは Σλj=1 という形で拘束され、 Q’が正規化項を付加することにより拡張された自己相関マトリックスを表し 、P’が別の正規化項を付加することにより拡張された自己相関ベクトルを表す ときに、 上記重みベクトルは、 Λ=Q’-1P’ に従って閉じた形式で表現される、請求項6記載の方法。 8. 音声認識に適用され、 上記確率モデルは、 言語モデルとしての2−gram、3−gram、4−gramの組と、 音響モデルとしてのワード・インターナル・トライフォン、クロス・ワード・ トライフォン、最尤線形回帰アダプテーションモデルの組と、 付加的なモデルとしての1−gram、中間要素はドントケアであると考えら れる距離1の2−gram、ペンタフォンの組の中の一つ以上の組を含む、請求 項4記載の方法。 9. 記憶された複数の連合モデルを用いて、特定の学習用観測量の一つ以上の パターンクラスへの割当に関連した種々の測定値pj(k|x),j=1... Mを確定する第1の処理手段に相互接続され、学習用観測量の本体を受信するピ ックアップ手段と、 上記第1の処理手段の下流に接続され、それぞれの重み係数に従って上記複数 の連合モデルをすべて結合することにより対数/線形連合分布を設定し、複合連 合分布を生成するため、正規化量を併合するよう構成された第2の処理手段と、 上記第2の処理手段の下流に接続され、上記複合分布への実際の割当に関して 検出された誤り率を最小限に抑えるため上記重み係数を最適化する第3の処理手 段と、 上記第3の処理手段の下流に接続され、上記複合分布を用いてターゲットパタ ーンを表現するターゲット観測量を認識する認識手段とを含み、 物理的刺激の組により構成されたパターンを認識する請求項1に記載された方 法を実施するシステム。
JP53225499A 1997-12-12 1998-12-11 音声パターン認識用のモデル特殊因子の決定方法 Pending JP2001511267A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
DE1997155191 DE19755191A1 (de) 1997-12-12 1997-12-12 Verfahren zum Bestimmen modellspezifischer Faktoren für die Mustererkennung
EP98203725 1998-11-06
EP98203725.1 1998-11-06
EP19755191.2 1998-11-06
PCT/IB1998/001990 WO1999031654A2 (en) 1997-12-12 1998-12-11 Method of determining model-specific factors for pattern recognition, in particular for speech patterns

Publications (1)

Publication Number Publication Date
JP2001511267A true JP2001511267A (ja) 2001-08-07

Family

ID=26042396

Family Applications (1)

Application Number Title Priority Date Filing Date
JP53225499A Pending JP2001511267A (ja) 1997-12-12 1998-12-11 音声パターン認識用のモデル特殊因子の決定方法

Country Status (5)

Country Link
US (2) US6456969B1 (ja)
EP (1) EP0960417B1 (ja)
JP (1) JP2001511267A (ja)
DE (1) DE69815067T2 (ja)
WO (1) WO1999031654A2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JPWO2005048239A1 (ja) * 2003-11-12 2007-11-29 本田技研工業株式会社 音声認識装置
US7464031B2 (en) 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456969B1 (en) * 1997-12-12 2002-09-24 U.S. Philips Corporation Method of determining model-specific factors for pattern recognition, in particular for speech patterns
US6519562B1 (en) * 1999-02-25 2003-02-11 Speechworks International, Inc. Dynamic semantic control of a speech recognition system
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
US7343311B2 (en) * 2002-03-01 2008-03-11 I2 Technologies Us, Inc. Generating an optimized supplier allocation plan
US7117153B2 (en) * 2003-02-13 2006-10-03 Microsoft Corporation Method and apparatus for predicting word error rates from text
US20040186714A1 (en) * 2003-03-18 2004-09-23 Aurilab, Llc Speech recognition improvement through post-processsing
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US20060235698A1 (en) * 2005-04-13 2006-10-19 Cane David A Apparatus for controlling a home theater system by speech commands
US7680659B2 (en) * 2005-06-01 2010-03-16 Microsoft Corporation Discriminative training for language modeling
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US8924212B1 (en) 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
EP2026327A4 (en) * 2006-05-31 2012-03-07 Nec Corp LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US7925505B2 (en) * 2007-04-10 2011-04-12 Microsoft Corporation Adaptation of language models and context free grammar in speech recognition
US20080275743A1 (en) * 2007-05-03 2008-11-06 Kadambe Shubha L Systems and methods for planning
US8275615B2 (en) * 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
US8843370B2 (en) * 2007-11-26 2014-09-23 Nuance Communications, Inc. Joint discriminative training of multiple speech recognizers
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
KR102601848B1 (ko) * 2015-11-25 2023-11-13 삼성전자주식회사 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US11270686B2 (en) * 2017-03-28 2022-03-08 International Business Machines Corporation Deep language and acoustic modeling convergence and cross training

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH09245124A (ja) * 1996-03-06 1997-09-19 Hewlett Packard Co <Hp> パターン認識方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680481A (en) * 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5721808A (en) * 1995-03-06 1998-02-24 Nippon Telegraph And Telephone Corporation Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same
US5675706A (en) * 1995-03-31 1997-10-07 Lucent Technologies Inc. Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition
US6456969B1 (en) * 1997-12-12 2002-09-24 U.S. Philips Corporation Method of determining model-specific factors for pattern recognition, in particular for speech patterns

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0643897A (ja) * 1992-05-26 1994-02-18 Ricoh Co Ltd 会話認識システム
JPH09245124A (ja) * 1996-03-06 1997-09-19 Hewlett Packard Co <Hp> パターン認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法
JPWO2005048239A1 (ja) * 2003-11-12 2007-11-29 本田技研工業株式会社 音声認識装置
JP4516527B2 (ja) * 2003-11-12 2010-08-04 本田技研工業株式会社 音声認識装置
US7464031B2 (en) 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features

Also Published As

Publication number Publication date
DE69815067D1 (de) 2003-07-03
WO1999031654A2 (en) 1999-06-24
US20020165714A1 (en) 2002-11-07
EP0960417A2 (en) 1999-12-01
US8112274B2 (en) 2012-02-07
WO1999031654A3 (en) 1999-08-26
EP0960417B1 (en) 2003-05-28
DE69815067T2 (de) 2004-02-26
US6456969B1 (en) 2002-09-24

Similar Documents

Publication Publication Date Title
JP2001511267A (ja) 音声パターン認識用のモデル特殊因子の決定方法
JP4180110B2 (ja) 言語認識
JP3549681B2 (ja) 連結数字の認識のための発声識別立証
JP2000081894A (ja) 音声評価方法
McDermott et al. Prototype-based minimum classification error/generalized probabilistic descent training for various speech units
US20030023438A1 (en) Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory
CN111986650B (zh) 借助语种识别辅助语音评测的方法及系统
Shinoda Speaker adaptation techniques for automatic speech recognition
Schlüter Investigations on discriminative training criteria
CN100363938C (zh) 基于得分差加权融合的多模态身份识别方法
Lefèvre Non-parametric probability estimation for HMM-based automatic speech recognition
US12488805B2 (en) Using optimal articulatory event-types for computer analysis of speech
GB2335064A (en) Linear trajectory models incorporating preprocessing parameters for speech recognition
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Sarkar et al. Incorporating pass-phrase dependent background models for text-dependent speaker verification
Zhang Joint training methods for tandem and hybrid speech recognition systems using deep neural networks
Vlasenko et al. Tuning hidden Markov model for speech emotion recognition
Pitrelli et al. Confidence modeling for verification post-processing for handwriting recognition
CN114299924A (zh) 基于语音情绪的话术推送方法、装置、设备及存储介质
Messerle et al. Accuracy of feature extraction approaches in the task of recognition and classification of isolated words in speech
Parris et al. Language identification using multiple knowledge sources
Nankaku et al. Acoustic modeling with contextual additive structure for HMM-based speech recognition
Zhu et al. Optimizing the performance of spoken language recognition with discriminative training
Shao et al. Wavelet transform to hybrid support vector machine and hidden markov model for speech recognition
Liu et al. An automated linguistic knowledge-based cross-language transfer method for building acoustic models for a language without native training data.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20090610

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20090805

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20090914

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511