JP2001511267A - 音声パターン認識用のモデル特殊因子の決定方法 - Google Patents
音声パターン認識用のモデル特殊因子の決定方法Info
- Publication number
- JP2001511267A JP2001511267A JP53225499A JP53225499A JP2001511267A JP 2001511267 A JP2001511267 A JP 2001511267A JP 53225499 A JP53225499 A JP 53225499A JP 53225499 A JP53225499 A JP 53225499A JP 2001511267 A JP2001511267 A JP 2001511267A
- Authority
- JP
- Japan
- Prior art keywords
- distribution
- association
- models
- composite
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
Claims (1)
- 【特許請求の範囲】 1. 物理的刺激の組により構成されたパターンを認識する方法において、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む方法。 2. 複数の物理的刺激により構成されたパターンの連合分布をモデリングする 方法において、 1組の学習用観測量を供給し、複数の連合モデルを適用することにより、特定 の学習用観測量の一つ以上の連合したパターンクラスへの割当に関連した種々の 測定値pj(k|x),j=1...Mを確定する段階と、 複数の連合モデルを夫々の重み係数に応じて全て結合することにより対数/線 形連合分布を設定し、複合連合分布を生成するため、その対数/線形連合分布に 正規化量を併合する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階とを含む方法。 3. 物理的刺激の組により構成されたパターンを認識する方法に おいて、 一つ以上の連合したパターンクラスへの割当に関連した種々の測定値pj(k |x),j=1...Mを示す複数の連合モデルであって、夫々の重み係数に応 じて対数/線形連合分布に結合され、複合連合分布を生成するため正規化量が併 合される複数の連合モデルを受信する段階と、 上記複合分布への実際の割当について検出される誤り率を最小限に抑えるため 上記重み係数を最適化する段階と、 上記複合分布を用いてターゲットパターンを表現するターゲット観測量を認識 する段階とを含む方法。 4. 上記連合モデルは確率モデルであり、上記連合分布は連合用の確率モデル である、請求項1記載の方法。 5. 最適化は反復的な形で学習誤り率を最小化することにより実現され、上記 誤り率は非最適割当の対抗値の関数として連続微分可能な形式で表現される、請 求項1記載の方法。 6. 最適化は、誤り率に基づいて表現されるような上記複合分布の結果として 得られる実際の識別関数と理想的な識別関数との間で最小二乗法を用いて実現さ れ、 Qが種々のモデルの識別関数の自己相関マトリックスを表し、Pが上記誤り率 と上記識別関数との間の相関ベクトルを表すときに、 重みベクトルΛは、 Λ=Q-1P のように閉じた形式で表現される、請求項1記載の方法。 7. 経験的な誤り率は、間隔(−B,A)内で2次曲線として表現することに より平滑化され、 上記重みベクトルΛは Σλj=1 という形で拘束され、 Q’が正規化項を付加することにより拡張された自己相関マトリックスを表し 、P’が別の正規化項を付加することにより拡張された自己相関ベクトルを表す ときに、 上記重みベクトルは、 Λ=Q’-1P’ に従って閉じた形式で表現される、請求項6記載の方法。 8. 音声認識に適用され、 上記確率モデルは、 言語モデルとしての2−gram、3−gram、4−gramの組と、 音響モデルとしてのワード・インターナル・トライフォン、クロス・ワード・ トライフォン、最尤線形回帰アダプテーションモデルの組と、 付加的なモデルとしての1−gram、中間要素はドントケアであると考えら れる距離1の2−gram、ペンタフォンの組の中の一つ以上の組を含む、請求 項4記載の方法。 9. 記憶された複数の連合モデルを用いて、特定の学習用観測量の一つ以上の パターンクラスへの割当に関連した種々の測定値pj(k|x),j=1... Mを確定する第1の処理手段に相互接続され、学習用観測量の本体を受信するピ ックアップ手段と、 上記第1の処理手段の下流に接続され、それぞれの重み係数に従って上記複数 の連合モデルをすべて結合することにより対数/線形連合分布を設定し、複合連 合分布を生成するため、正規化量を併合するよう構成された第2の処理手段と、 上記第2の処理手段の下流に接続され、上記複合分布への実際の割当に関して 検出された誤り率を最小限に抑えるため上記重み係数を最適化する第3の処理手 段と、 上記第3の処理手段の下流に接続され、上記複合分布を用いてターゲットパタ ーンを表現するターゲット観測量を認識する認識手段とを含み、 物理的刺激の組により構成されたパターンを認識する請求項1に記載された方 法を実施するシステム。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| DE1997155191 DE19755191A1 (de) | 1997-12-12 | 1997-12-12 | Verfahren zum Bestimmen modellspezifischer Faktoren für die Mustererkennung |
| EP98203725 | 1998-11-06 | ||
| EP98203725.1 | 1998-11-06 | ||
| EP19755191.2 | 1998-11-06 | ||
| PCT/IB1998/001990 WO1999031654A2 (en) | 1997-12-12 | 1998-12-11 | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2001511267A true JP2001511267A (ja) | 2001-08-07 |
Family
ID=26042396
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP53225499A Pending JP2001511267A (ja) | 1997-12-12 | 1998-12-11 | 音声パターン認識用のモデル特殊因子の決定方法 |
Country Status (5)
| Country | Link |
|---|---|
| US (2) | US6456969B1 (ja) |
| EP (1) | EP0960417B1 (ja) |
| JP (1) | JP2001511267A (ja) |
| DE (1) | DE69815067T2 (ja) |
| WO (1) | WO1999031654A2 (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
| JPWO2005048239A1 (ja) * | 2003-11-12 | 2007-11-29 | 本田技研工業株式会社 | 音声認識装置 |
| US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
Families Citing this family (28)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6456969B1 (en) * | 1997-12-12 | 2002-09-24 | U.S. Philips Corporation | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
| US6519562B1 (en) * | 1999-02-25 | 2003-02-11 | Speechworks International, Inc. | Dynamic semantic control of a speech recognition system |
| US6687689B1 (en) | 2000-06-16 | 2004-02-03 | Nusuara Technologies Sdn. Bhd. | System and methods for document retrieval using natural language-based queries |
| US7343311B2 (en) * | 2002-03-01 | 2008-03-11 | I2 Technologies Us, Inc. | Generating an optimized supplier allocation plan |
| US7117153B2 (en) * | 2003-02-13 | 2006-10-03 | Microsoft Corporation | Method and apparatus for predicting word error rates from text |
| US20040186714A1 (en) * | 2003-03-18 | 2004-09-23 | Aurilab, Llc | Speech recognition improvement through post-processsing |
| US7318022B2 (en) * | 2003-06-12 | 2008-01-08 | Microsoft Corporation | Method and apparatus for training a translation disambiguation classifier |
| US20060235698A1 (en) * | 2005-04-13 | 2006-10-19 | Cane David A | Apparatus for controlling a home theater system by speech commands |
| US7680659B2 (en) * | 2005-06-01 | 2010-03-16 | Microsoft Corporation | Discriminative training for language modeling |
| US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
| US8924212B1 (en) | 2005-08-26 | 2014-12-30 | At&T Intellectual Property Ii, L.P. | System and method for robust access and entry to large structured data using voice form-filling |
| EP2026327A4 (en) * | 2006-05-31 | 2012-03-07 | Nec Corp | LANGUAGE MODEL LEARNING, LANGUAGE MODEL LEARNING AND LANGUAGE MODEL LEARNING PROGRAM |
| US20080059522A1 (en) * | 2006-08-29 | 2008-03-06 | International Business Machines Corporation | System and method for automatically creating personal profiles for video characters |
| US20080147579A1 (en) * | 2006-12-14 | 2008-06-19 | Microsoft Corporation | Discriminative training using boosted lasso |
| US7925505B2 (en) * | 2007-04-10 | 2011-04-12 | Microsoft Corporation | Adaptation of language models and context free grammar in speech recognition |
| US20080275743A1 (en) * | 2007-05-03 | 2008-11-06 | Kadambe Shubha L | Systems and methods for planning |
| US8275615B2 (en) * | 2007-07-13 | 2012-09-25 | International Business Machines Corporation | Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation |
| US8843370B2 (en) * | 2007-11-26 | 2014-09-23 | Nuance Communications, Inc. | Joint discriminative training of multiple speech recognizers |
| US9659559B2 (en) * | 2009-06-25 | 2017-05-23 | Adacel Systems, Inc. | Phonetic distance measurement system and related methods |
| US9240184B1 (en) * | 2012-11-15 | 2016-01-19 | Google Inc. | Frame-level combination of deep neural network and gaussian mixture models |
| US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
| US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
| US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
| US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
| US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
| KR102601848B1 (ko) * | 2015-11-25 | 2023-11-13 | 삼성전자주식회사 | 데이터 인식 모델 구축 장치 및 방법과 데이터 인식 장치 |
| US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
| US11270686B2 (en) * | 2017-03-28 | 2022-03-08 | International Business Machines Corporation | Deep language and acoustic modeling convergence and cross training |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0643897A (ja) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | 会話認識システム |
| JPH09245124A (ja) * | 1996-03-06 | 1997-09-19 | Hewlett Packard Co <Hp> | パターン認識方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5680481A (en) * | 1992-05-26 | 1997-10-21 | Ricoh Corporation | Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system |
| IT1257073B (it) * | 1992-08-11 | 1996-01-05 | Ist Trentino Di Cultura | Sistema di riconoscimento, particolarmente per il riconoscimento di persone. |
| US5721808A (en) * | 1995-03-06 | 1998-02-24 | Nippon Telegraph And Telephone Corporation | Method for the composition of noise-resistant hidden markov models for speech recognition and speech recognizer using the same |
| US5675706A (en) * | 1995-03-31 | 1997-10-07 | Lucent Technologies Inc. | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition |
| US6456969B1 (en) * | 1997-12-12 | 2002-09-24 | U.S. Philips Corporation | Method of determining model-specific factors for pattern recognition, in particular for speech patterns |
-
1998
- 1998-12-11 US US09/367,214 patent/US6456969B1/en not_active Expired - Lifetime
- 1998-12-11 EP EP98957052A patent/EP0960417B1/en not_active Expired - Lifetime
- 1998-12-11 WO PCT/IB1998/001990 patent/WO1999031654A2/en not_active Ceased
- 1998-12-11 DE DE69815067T patent/DE69815067T2/de not_active Expired - Lifetime
- 1998-12-11 JP JP53225499A patent/JP2001511267A/ja active Pending
-
2002
- 2002-04-30 US US10/135,336 patent/US8112274B2/en not_active Expired - Fee Related
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0643897A (ja) * | 1992-05-26 | 1994-02-18 | Ricoh Co Ltd | 会話認識システム |
| JPH09245124A (ja) * | 1996-03-06 | 1997-09-19 | Hewlett Packard Co <Hp> | パターン認識方法 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004317845A (ja) * | 2003-04-17 | 2004-11-11 | Nagoya Industrial Science Research Inst | モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法 |
| JPWO2005048239A1 (ja) * | 2003-11-12 | 2007-11-29 | 本田技研工業株式会社 | 音声認識装置 |
| JP4516527B2 (ja) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | 音声認識装置 |
| US7464031B2 (en) | 2003-11-28 | 2008-12-09 | International Business Machines Corporation | Speech recognition utilizing multitude of speech features |
Also Published As
| Publication number | Publication date |
|---|---|
| DE69815067D1 (de) | 2003-07-03 |
| WO1999031654A2 (en) | 1999-06-24 |
| US20020165714A1 (en) | 2002-11-07 |
| EP0960417A2 (en) | 1999-12-01 |
| US8112274B2 (en) | 2012-02-07 |
| WO1999031654A3 (en) | 1999-08-26 |
| EP0960417B1 (en) | 2003-05-28 |
| DE69815067T2 (de) | 2004-02-26 |
| US6456969B1 (en) | 2002-09-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2001511267A (ja) | 音声パターン認識用のモデル特殊因子の決定方法 | |
| JP4180110B2 (ja) | 言語認識 | |
| JP3549681B2 (ja) | 連結数字の認識のための発声識別立証 | |
| JP2000081894A (ja) | 音声評価方法 | |
| McDermott et al. | Prototype-based minimum classification error/generalized probabilistic descent training for various speech units | |
| US20030023438A1 (en) | Method and system for the training of parameters of a pattern recognition system, each parameter being associated with exactly one realization variant of a pattern from an inventory | |
| CN111986650B (zh) | 借助语种识别辅助语音评测的方法及系统 | |
| Shinoda | Speaker adaptation techniques for automatic speech recognition | |
| Schlüter | Investigations on discriminative training criteria | |
| CN100363938C (zh) | 基于得分差加权融合的多模态身份识别方法 | |
| Lefèvre | Non-parametric probability estimation for HMM-based automatic speech recognition | |
| US12488805B2 (en) | Using optimal articulatory event-types for computer analysis of speech | |
| GB2335064A (en) | Linear trajectory models incorporating preprocessing parameters for speech recognition | |
| JP4769098B2 (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
| Sarkar et al. | Incorporating pass-phrase dependent background models for text-dependent speaker verification | |
| Zhang | Joint training methods for tandem and hybrid speech recognition systems using deep neural networks | |
| Vlasenko et al. | Tuning hidden Markov model for speech emotion recognition | |
| Pitrelli et al. | Confidence modeling for verification post-processing for handwriting recognition | |
| CN114299924A (zh) | 基于语音情绪的话术推送方法、装置、设备及存储介质 | |
| Messerle et al. | Accuracy of feature extraction approaches in the task of recognition and classification of isolated words in speech | |
| Parris et al. | Language identification using multiple knowledge sources | |
| Nankaku et al. | Acoustic modeling with contextual additive structure for HMM-based speech recognition | |
| Zhu et al. | Optimizing the performance of spoken language recognition with discriminative training | |
| Shao et al. | Wavelet transform to hybrid support vector machine and hidden markov model for speech recognition | |
| Liu et al. | An automated linguistic knowledge-based cross-language transfer method for building acoustic models for a language without native training data. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051208 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20090610 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20090805 |
|
| A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20090914 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100511 |