JP2013235050A - 情報処理装置及び方法、並びにプログラム - Google Patents
情報処理装置及び方法、並びにプログラム Download PDFInfo
- Publication number
- JP2013235050A JP2013235050A JP2012105948A JP2012105948A JP2013235050A JP 2013235050 A JP2013235050 A JP 2013235050A JP 2012105948 A JP2012105948 A JP 2012105948A JP 2012105948 A JP2012105948 A JP 2012105948A JP 2013235050 A JP2013235050 A JP 2013235050A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- sound
- unit
- voice
- good
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができるようにする。
【解決手段】音声判別部11は、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する。音声認識部12は、音質判別部により判別された良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、良条件音声に対する音声認識処理の結果に基づいて所定のパラメータの値を変更し、混在音声のうち良条件音声以外の音声に対して、値が変更された所定のパラメータを用いて音声認識処理を施す。本技術は、混在音声を処理対象とする音声認識装置に適用することができる。
【選択図】図1
【解決手段】音声判別部11は、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する。音声認識部12は、音質判別部により判別された良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、良条件音声に対する音声認識処理の結果に基づいて所定のパラメータの値を変更し、混在音声のうち良条件音声以外の音声に対して、値が変更された所定のパラメータを用いて音声認識処理を施す。本技術は、混在音声を処理対象とする音声認識装置に適用することができる。
【選択図】図1
Description
本技術は、情報処理装置及び方法、並びにプログラムに関し、特に、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができる、情報処理装置及び方法、並びにプログラムに関する。
従来、会議室内の参加者から発音された音声をボイスレコーダ等で録音したり、テレビ会議の参加者から発音された音声を符号化及び復号を介在して送受信することで、音声を収音するシステム(以下、収音システムと称する)が存在する。このような収音システムに対して音声認識の手法を適用した従来の技術として、議事録を自動的に作成する技術(例えば、特許文献1,2参照)や、不適切な発言を検知してその音声を送信しない技術(例えば、特許文献3)が存在する。
しかしながら、会議室内の複数の参加者から発音された音声をボイスレコーダで収音するに際し、ボイスレコーダのマイクから、複数の参加者までのそれぞれの距離は一般的に異なっている場合が多くある。また、テレビ会議の参加者から発音された音声を符号化及び復号するための音声コーデックが、テレビ会議で結ばれる複数の会場で異なっている場合がある。このように、収音システムでは、収音条件が異なる場合が多い。
特許文献1乃至3を含む従来の音声認識の手法では、異なる収音条件で収音された一群の音声に対して一律に音声認識処理が施される。この場合、一群の音声のうち、良好な収音条件で収音された音声に対しては高精度の音声認識が可能になるものの、それ以外の音声に対する音声認識の精度は低くなるおそれがある。
本技術は、このような状況に鑑みてなされたものであり、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができるようにしたものである。
本技術の一側面の情報処理装置は、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部とを備える。
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を前記発話区間の単位で判別することができる。
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を発話者の単位で判別することができる。
前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別することができる。
前記音声認識部は、前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも1つで用いられるパラメータを変更するパラメータ変更部とを有することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更することができる。
前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更することができる。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更することができる。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更することができる。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更することができる。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更することができる。
本技術の一側面の情報処理方法及びプログラムは、上述した本技術の一側面の情報処理装置に対応する方法及びプログラムである。
本技術の一側面の情報処理装置及び方法並びにプログラムにおいては、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声が、良条件音声として判別され、判別された前記良条件音声に対して、所定のパラメータが用いられて音声認識処理が施され、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値が変更され、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータが用いられて前記音声認識処理が施される。
以上のごとく、本技術によれば、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができる。
[本技術の概略]
はじめに、本技術の理解を容易なものとすべく、その概略について説明する。
はじめに、本技術の理解を容易なものとすべく、その概略について説明する。
本技術では、各種各様の収音システムにより、異なる収音条件で一群の音声が収音される。
例えば、会議室内の複数の参加者から発音された音声をボイスレコーダ等で録音する収音システムでは、複数の参加者の各々についての、声の大きさや質、マイクからの距離等が異なる。したがって、このような複数の参加者からそれぞれ発音された音声は、異なる収音条件で収音される。
また、テレビ会議を利用した収音システムにおいては、一の会場の参加者から発音された音声が、他の会場に送信される。このため、音声の符号化又は復号をするための音声コーデックが会場毎に設けられる。この音声コーデックが会場毎に異なると、異なる収音条件で音声が収音される。
このように、本技術では、異なる収音条件で音声が収音されると、これら異なる収音条件で収音された音声が混在した一群の音声(以下、混在音声と称する)が処理対象となり、当該処理対象に対して、音声認識処理が施される。
具体的には、本技術では、はじめに、混在音声の中から、良好な収音条件で収音されたと判断できる音声(以下、良条件音声と称する)が判別される。次に、良条件音声に対して音声認識処理が施され、その良条件音声の音声認識処理の結果に基づいて音声認識処理で用いられるパラメータが変更されて、それ以外の音声に対して音声認識処理が施される。
これにより、良条件音声以外の音声に対する音声認識処理の精度が向上するので、一群の音声に対する音声認識処理の精度が向上する。
[音声認識装置の構成例]
図1は、本技術が適用される音声認識装置の構成例を示すブロック図である。
図1は、本技術が適用される音声認識装置の構成例を示すブロック図である。
音声認識装置1は、音質判別部11及び音声認識部12を有している。
音質判別部11は、音声認識装置1に入力された混在音声を解析することによって、混在音声の中から良条件音声を判別して、その判別結果を音声認識部12に通知する。なお、音質判別部11による音質判別の手法については、図2を参照して後述する。
音声認識部12は、はじめに、音質判別部11の判別結果に基づいて、音声認識装置1に入力された混在音声のうち良条件音声を処理対象として、所定のパラメータを用いて処理対象に対して音声認識処理を施す。音声認識部12は、良条件音声に対する音声認識処理の結果に基づいて、所定のパラメータの値を変更する。そして、音声認識部12は、音声認識装置1に入力された混在音声のうち良条件音声以外の音声を処理対象として、値が変更された所定のパラメータを用いて、処理対象に対して音声認識処理を施す。
本実施形態の音声認識部12の音声認識処理は、単語列Wに対応する入力音声(即ち、処理対象)の特徴量Xに対して事後確率p(W=X)が最大となる単語列W’を、音声認識結果(即ち、単語列Wの推定結果)として見つけるというものである。ただし、音声認識部12は、事後確率p(W=X)を直接求めることは困難であるので、ベイズ則により、尤度と事前確率を用いて音声認識結果を算出する。このため、音声認識部12は、このような音声認識処理を実行すべく、特徴量抽出部21、尤度算出部22、比較部23、及びパラメータ変更部24から構成される。
特徴量抽出部21は、音質判別部11の判別結果に基づいて音声認識装置1に入力された混在音声から処理対象となる音声を決定する。即ち、上述したように、特徴量抽出部21は、最初は、良条件音声を処理対象に決定し、パラメータの値が変更された後には、良条件音声以外の音声を処理対象に決定する。そして、特徴量抽出部21は、当該処理対象から特徴量を所定の単位(例えば、フレーム等)毎に抽出する。
即ち、特徴量抽出部21は、所定の単位毎に、処理対象に対して音響処理(例えばFFT(Fast Fourier Transform)処理)を施すことによって、例えば、MFCC(Mel Frequency Cepstrum Coefficient)の特徴量を順次抽出し、特徴量の時系列を尤度算出部22に供給する。なお、特徴量抽出部21は、特徴量として、MFCCの他、例えば、スペクトル、線形予測係数、ケプストラム係数、線スペクトル対等を抽出してもよい。
尤度算出部22は、HMM(Hidden Markov Model)等の音響モデルを単語単位で連結した系列(以下、単語モデル系列と称する)を認識結果の候補として複数個生成する。そして、尤度算出部22は、複数の単語モデル系列毎に、事前確率をパラメータの1つとして用いて、特徴量抽出部21から供給された処理対象の特徴量の時系列が観測される尤度を算出する。
比較部23は、尤度算出部22により複数の単語モデル系列毎に算出された尤度と、所定の閾値とを比較し、閾値を超えた尤度を有する単語モデル系列を、処理対象の音声認識結果として出力する。
パラメータ変更部24は、良条件音声が処理対象とされた場合の音声認識処理の結果である比較部23の出力に基づいて、特徴量抽出部21、尤度算出部22、及び比較部23のうち少なくとも1つで用いられるパラメータの値を変更する。
これにより、良条件音声以外の音声が処理対象とされた場合には、値が変更されたパラメータ等が用いられて、特徴量抽出部21、尤度算出部22、及び比較部23により上述した一連の処理が実行されて、処理対象に対する音声認識処理が施される。
なお、変更対象となるパラメータの具体例等を含め、音声認識部12による音声認識の手法については、図3を参照して後述する。
[音質判別の手法]
図2は、音質判別部11による音質判別の手法を示す図である。
図2は、音質判別部11による音質判別の手法を示す図である。
図2に示されるように、音質判別部11は、パターンA,B,Cの3通りの手法により、混在音声の中から良条件音声を判別する。
パターンAの手法は、発話毎のS/N(Signal to Noise)の比較をする手法である。具体的には、音質判別部11は、混在音声を発話区間毎に区分し、区分された1以上の発話区間のそれぞれに対してS/Nを算出する。そして、音質判別部11は、S/Nが高い発話区間の音声を良条件音声と判別する。
パターンBの手法は、発話者毎のS/Nの比較をする手法であって、パターンAとは異なる手法である。具体的には、音質判別部11は、パターンAと同様に、混在音声を発話区間毎に区分し、区分された1以上の発話区間のそれぞれに対してS/Nを算出する。さらに、音質判別部11は、混在音声に含まれる発話区間毎に発話者の識別を行い、混在音声を発話者毎にグルーピングする。そして、音質判別部11は、混在音声の発話区間毎のS/Nを発話者毎にまとめること等によって、発話者毎のS/Nを算出する。音質判別部11は、S/Nが高い発話者の音声を良条件音声と判別する。
なお、発話者の識別の手法は特に限定されず、例えば、特徴量が音声の周波数から抽出されている場合には、当該特徴量に基づいて発話者を識別する手法が採用されてもよい。また、発話者毎のS/Nを算出する手法は特に限定されず、例えば、発話区間のそれぞれに対して算出されたS/Nを発話者毎に単純加算して、その発話者の発話区間数で除算した値を、発話者毎のS/Nとする、といった手法が採用されてもよい。
パターンCの手法は、利用される音声コーデックを比較する手法である。テレビ会議システムにおいては、双方で用いられる端末や、端末毎に利用される音声コーデックが異なる場合がある。この場合、音声コーデックによる処理結果に起因して、音質に差異が生じることがある。したがって、音質判別部11は、双方の端末で用いられる音声コーデックを事前に把握しておき、より高音質な音声となる音声コーデックが利用されている端末側の音声を良条件音声と判別する。より高音質な音声となる音声コーデックは予め順位付けられているものとする。
なお、パターンCの手法は、ボイスレコーダによる音声の収音のように、音声コーデックが用いられない場合には適用されない。
[音声認識の手法]
次に、音声認識部12による音声認識の手法について図3を参照して説明する。
次に、音声認識部12による音声認識の手法について図3を参照して説明する。
図3は、音声認識部12による音声認識の手法を示す図である。
図3に示されるように、音声認識部12は、パターンa,b,cの3通りの手法により、処理対象に対して音声認識処理を施す。
パターンaの手法は、単語の認識率を向上させる手法である。
具体的には、はじめに、良条件音声に対して、特徴量抽出部21、尤度算出部22、及び比較部23による音声認識処理が施され、所定の単語モデル系列が音声認識結果として出力される。良条件音声に対する音声認識結果として出力される所定の単語モデル系列に含まれる単語は、良条件音声以外の音声のうち、特に良条件音声の前後の音声においても出現する確率が高いと仮定される。なお、良条件音声の前後とは、良条件音声の時間的に先頭位置よりも前の範囲と、良条件音声の時間的に最後尾位置よりも後の範囲とのそれぞれをいう。したがって、パラメータ変更部24は、当該単語が、良条件音声の前後の音声を処理対象とした音声認識処理において、音声認識結果に含まれて出力されやすくなる(即ち、認識率が向上する)ように、尤度算出部22または比較部23で用いられるパラメータの値を変更する。
具体的には、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部24は、当該単語を含む単語モデル系列に対して尤度算出部22により尤度が算出される際に用いられる事前確率を変更する。これにより、その単語に対する尤度が高値になりやすい。その結果、その後の比較部23から、当該単語が、音声認識結果の一部として選ばれ易くなる(即ち、認識されやすくなる)。
また、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部24は、比較部23で用いられる閾値を変更する。上述したように、尤度算出部22から出力された尤度は、パラメータ変更部24において所定の閾値と比較されるが、尤度が閾値以下である単語モデル系列は、混在音声内の処理対象の音声が示す単語モデル系列ではないとして棄却される。このような場合であっても、例えばパラメータ変更部24が閾値を低い値(棄却され難い値)に変更する。これにより、棄却されることが少なくなり、その結果、処理対象の単語モデル系列に含まれる単語が、音声認識結果の一部として選ばれ易くなる(即ち、認識されるようになる)。
パターンbの手法は、認識された単語の関連語の認識率を向上させる手法である。
具体的には、予め、単語とその関連語との組が複数組格納されたリストが作成される。リストは、ユーザにより作成されても、音声認識装置1により自動的に作成されてもよい。なお、音声認識装置1によるリストの作成手法は特に限定されず、例えば本実施形態では、すでに記録されている議事録を分析することにより、リストが作成される。例えば、「特徴量」という単語と、その近くに出現する確率が高い「抽出」という関連語との組がリストに格納される。また、例えば、「画面」という単語と、これに類似する「モニタ」という関連語との組がリストに格納される。
このようなリストが存在する状態で、良条件音声に対して、特徴量抽出部21、尤度算出部22、及び比較部23による音声認識処理が施され、所定の単語モデル系列が音声認識結果として出力される。良条件音声に対する音声認識結果に含まれる単語の関連語は、良条件音声以外の音声、特に良条件音声の前後の音声においても出現する確率が高いと仮定される。したがって、パラメータ変更部24は、当該関連語が、良条件音声の前後の音声を処理対象とした音声認識処理において、音声認識結果に含まれて出力されやすくなる(即ち、認識率が向上する)ように、尤度算出部22または比較部23で用いられるパラメータの値を変更する。
具体的には、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部24は、所定の単語モデル系列に含まれる単語の関連語に対して尤度算出部22により尤度が算出される際に用いられる事前確率を変更する。これにより、その関連語に対する尤度が高値になりやすい。その結果、その後の比較部23から、当該関連語が、音声認識結果の一部として選ばれ易くなる(即ち、認識されやすくなる)。
また、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部24は、比較部23で用いられる閾値を変更する。上述したように、尤度算出部22から出力された尤度は、パラメータ変更部24において所定の閾値と比較されるが、尤度が閾値以下である単語モデル系列は、混在音声内の処理対象の音声が示す単語モデル系列ではないとして棄却される。このような場合であっても、例えばパラメータ変更部24が閾値を低く変更することで、棄却されにくくなり、その結果、処理対象の単語モデル系列に含まれる関連語が、音声認識結果の一部として選ばれ易くなる(即ち、認識されるようになる)。
パターンcの手法は、音声認識処理が、指定された単語の検索のために用いられる場合に、その認識率を向上させる手法である。
パターンcの手法は、混在音声から、指定された単語が検索される場合に用いられる。具体的には、混在音声からの指定された単語の検索時に、指定された単語が良条件音声から認識された場合、当該指定された単語は、良条件音声の前後の音声においても出現する確率が高いと仮定される。したがって、パラメータ変更部24は、指定された単語が精度良く検索されるように、特徴量抽出部21または尤度算出部22で用いられるパラメータの値を変更する。
具体的には、指定された単語が良条件音声の前後から検索される場合には、パラメータ変更部24は、特徴量抽出部21の音響処理に適用される周波数分析手法を変更する。例えば、パラメータ変更部24は、特徴量抽出部21により音響処理の1つとして行われるFFT処理において、ウィンドウサイズやシフトサイズを変更する。
例えばウィンドウサイズが伸長された場合、周波数分解能を高めることができる。一方、ウィンドウサイズが縮小された場合、時間分解能を高めることができる。また、シフトサイズが拡大された場合、より多くのフレームが分析可能となる。このように、ウィンドウサイズやシフトサイズを適切に変更することで、良条件音声の前後の音声からも、指定された単語が精度良く検索されるようになる。
また、指定された単語が良条件音声の前後から検索される場合には、パラメータ変更部24は、特徴量抽出部21により抽出される特徴量の種類を増加させてもよい。利用される特徴量の種類が増加されることにより、その後の尤度算出部22の処理において、尤度が高く算出されるようになる。これにより、良条件音声の前後の音声からも、指定された単語が精度良く検索されるようになる。
なお、パラメータ変更部24が、特徴量抽出部21で用いられるパラメータを変更対象とした場合、音声認識部12の計算量が増加するおそれがある。しかしながら、本実施形態においては、変更後のパラメータを用いた音声認識処理の処理対象は、良条件音声の前後の音声に制限するため、計算量の増加は最小限におさえることができる。
また、パラメータ変更部24は、尤度算出部22で用いられる音響モデルの数を増加する。音響モデルの数を増加させることにより認識結果の候補が増加し、尤度算出部22及び後段の比較部23における認識性能を向上させることができる。これにより、指定された単語が精度良く検索されるようになる。なお、音響モデルの数を増加させることは、パラメータ変更部24等における計算量が増加することになるため、増加させても適当な数となるようにあらかじめ調整しておくとよい。
このように、本実施形態の音声認識装置1においては、3通りの音質判別部11による音質判別の手法と、3通りの音声認識部12による音声認識の手法が存在する。したがって、本実施形態では、全体として9通りの手法により、音声認識装置1による音声認識処理が実行される。
以上、音声認識部12によるパターンa,b,cの3通りの音声認識の手法について説明した。パターンa,b,cの3通りの音声認識の手法における、パラメータ変更部24によるパラメータの変更手法には、次のような4つのパターンがある。
1つ目のパターンでは、パラメータ変更部24は、予め、パラメータの変更範囲を、良条件音声の前後n(nは任意の整数値)秒までのそれぞれに設定し、所定のパラメータの変更値をqに設定する。この場合、パラメータ変更部24は、良条件音声の前後n秒間の音声に対しては、パラメータの値をqに変更する。即ち、1つ目のパターンでは、パラメータ変更部24は、パラメータの変更範囲を、良条件音声の前後の所定時間n秒に設定し、当該変更範囲内で所定のパラメータの値を一律のqに変更する。
2つ目のパターンでは、パラメータ変更部24は、予め、パラメータの変更範囲を、良条件音声の前後n秒までのそれぞれに設定し、パラメータの最大変更値をqに設定する。この場合、パラメータ変更部24は、良条件音声の前後x秒の時間位置の音声のそれぞれに対しては、パラメータの値を(q×x/n)に変更する。即ち、2つ目のパターンでは、パラメータ変更部24は、パラメータの変更範囲を、良条件音声の前後の所定時間n秒に設定し、当該変更範囲内における前記良条件音声からの時間的距離(x秒)に応じて、所定のパラメータの値を(q×x/n)に変更する。
3つ目のパターンでは、パラメータ変更部24は、予め、パラメータの変更範囲を、良条件音声の前後n(nは任意の整数値)個までのそれぞれの会話(発話区間)に設定し、パラメータの変更値をqに設定する。この場合、パラメータ変更部24は、良条件音声の前後n個の会話の音声のそれぞれに対しては、パラメータの値をqに変更する。即ち、3つ目のパターンでは、パラメータ変更部24は、パラメータの変更範囲を、良条件音声の前後の発話区間の数n個に設定し、当該変更範囲内で所定のパラメータの値を一律のqに変更する。
4つ目のパターンでは、パラメータ変更部24は、予め、パラメータの変更範囲を良条件音声の前後n個までのそれぞれの会話(発話区間)に設定し、パラメータの最大変更値をqに設定する。この場合、パラメータ変更部24は、良条件音声の前後y個目のそれぞれの会話の音声に対しては、パラメータの値を(q×y/n)に変更する。即ち、4つ目のパターンでは、パラメータ変更部24は、パラメータの変更範囲を、良条件音声の前後の発話区間の数n個に設定し、当該変更範囲内に含まれる発話区間について、良条件音声の前又は後から数えた発生順番yに応じて、所定のパラメータの値を(q×y/n)に変更する。
[音声認識処理]
次に、音声認識装置1が実行する混在音声に対する音声認識処理(以下、混在音声認識処理と称する)の流れについて説明する。
次に、音声認識装置1が実行する混在音声に対する音声認識処理(以下、混在音声認識処理と称する)の流れについて説明する。
図4は、混在音声認識処理の流れの一例を説明するフローチャートである。
ステップS1において、音質判別部11は、混在音声を入力する。
ステップS2において、音質判別部11は、入力された混在音声の中から良条件音声を判別する。音質判別部11は、図2で示されたパターンA,B,Cの3通りの手法のうちの何れかの手法により、混在音声の中から良条件音声を判別する。音質判別部11は、判別結果を音声認識部12に通知する。
ステップS3において、特徴量抽出部21は、音質判別部11の判別結果に基づいて、音声認識装置1に入力された混在音声の中から良条件音声を処理対象に設定する。
ステップS4において、音声認識部12は、処理対象に対する音声認識処理を実行する。即ち、ステップS3の処理後にステップS4の処理が実行されると、良条件音声が処理対象であるので、良条件音声に対して音声認識処理が施される。一方、後述のステップS7の処理後にステップS4の処理が実行されると、良条件音声以外の音声(例えば良条件音声の前後の音声)が処理対象であるので、良条件音声以外の音声(例えば良条件音声の前後の音声)に対して音声認識処理が施される。なお、ステップS4の処理対象に対する音声認識処理の詳細については、図5を参照して後述するが、処理対象の特徴量の尤度が算出され、閾値と比較される。
ステップS5において、パラメータ変更部24は、良条件音声が処理対象かを判定する。
例えば、ステップS3の処理後にステップS4の処理が実行されると、良条件音声が処理対象であるので、ステップS5においてYESであると判定されて、処理はステップS6に進む。
ステップS6において、特徴量抽出部21は、混成音声の中から良条件音声以外の音声を処理対象に設定する。
ステップS7において、パラメータ変更部24は、特徴量抽出部21、尤度算出部22、及び比較部23のうち少なくとも1つで用いられるパラメータの値を変更する。
その後、処理はステップS4に戻され、それ以降の処理が実行される。即ち、良条件音声外の音声が処理対象になっているので、ステップS4において良条件音声外の音声に対して、値が変更されたパラメータを用いた音声認識処理が施され、ステップS5においてNOであると判定されて、混在音声認識処理の全体が終了となる。
次に、このような混在音声認識処理のうち、ステップS4の処理対象に対する音声認識処理の詳細について説明する。
[処理対象に対する音声認識処理]
図5は、ステップS4における、処理対象に対する音声認識処理の詳細な流れの一例を説明するフローチャートである。
図5は、ステップS4における、処理対象に対する音声認識処理の詳細な流れの一例を説明するフローチャートである。
ステップS21において、特徴量抽出部21は、処理対象から特徴量を抽出する。即ち、特徴量抽出部21は、処理対象を所定の単位で区分し、所定の単位毎に特徴量を順次抽出し、特徴量の時系列を尤度算出部22に供給する。
ステップS22において、尤度算出部22は、処理対象の尤度を算出する。即ち、尤度算出部22は、単語モデル系列を認識結果の候補として複数個生成し、生成した複数の単語モデル系列毎に、特徴量抽出部21から供給された特徴量の時系列が観測される尤度を算出する。尤度算出部22は、算出した尤度を比較部23に供給する。
ステップS23において、比較部23は、尤度算出部22により複数の単語モデル系列毎に算出された尤度と、所定の閾値とを比較し、閾値を超えた尤度を有する単語モデル系列を、処理対象に対する音声認識結果とする。
ステップS24において、比較部23は、処理対象に対する音声認識結果を出力する。
これにより、処理対象に対する音声認識処理は終了する。即ち、図4のステップS4の処理が終了し、処理はステップS5に進む。
以上、説明したように、音声認識装置によれば、はじめに、混在音声の中から良条件音声が判別される。次に、良条件音声に対して音声認識処理が施され、その結果に基づいて音声認識処理のパラメータが変更されて、良条件音声以外の音声に対して音声認識処理が施される。これにより、良条件音声以外の音声に対する音声認識処理の精度が向上する。したがって、混在音声に対する音声認識処理において、良条件音声以外の音声に対する音声認識処理の精度が向上するので、全体として音声認識処理の精度を向上させることができる。
[本技術のプログラムへの適用]
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図6は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)101,ROM(Read Only Memory)102,RAM(Random Access Memory)103は、バス104により相互に接続されている。
バス104には、さらに、入出力インタフェース105が接続されている。入出力インタフェース105には、入力部106、出力部107、記憶部108、通信部109、及びドライブ110が接続されている。
入力部106は、キーボード、マウス、マイクロフォンなどよりなる。出力部107は、ディスプレイ、スピーカなどよりなる。記憶部108は、ハードディスクや不揮発性のメモリなどよりなる。通信部109は、ネットワークインタフェースなどよりなる。ドライブ110は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア111を駆動する。
以上のように構成されるコンピュータでは、CPU101が、例えば、記憶部108に記憶されているプログラムを、入出力インタフェース105及びバス104を介して、RAM103にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU101)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア111に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア111をドライブ110に装着することにより、入出力インタフェース105を介して、記憶部108にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部109で受信し、記憶部108にインストールすることができる。その他、プログラムは、ROM102や記憶部108に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
なお、本技術は、以下のような構成もとることができる。
(1)
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部と
を備える情報処理装置。
(2)
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を前記発話区間の単位で判別する
前記(1)に記載の情報処理装置。
(3)
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を発話者の単位で判別する
前記(1)または(2)に記載の情報処理装置。
(4)
前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、
前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記音声認識部は、
前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、
前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、
前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、
前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも1つで用いられるパラメータを変更するパラメータ変更部と
を有する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更する
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更する
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更する
前記(1)乃至(14)のいずれかに記載の情報処理装置。
(1)
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部と
を備える情報処理装置。
(2)
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を前記発話区間の単位で判別する
前記(1)に記載の情報処理装置。
(3)
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を発話者の単位で判別する
前記(1)または(2)に記載の情報処理装置。
(4)
前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、
前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別する
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記音声認識部は、
前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、
前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、
前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、
前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも1つで用いられるパラメータを変更するパラメータ変更部と
を有する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記(1)乃至(5)のいずれかに記載の情報処理装置。
(7)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記(1)乃至(7)のいずれかに記載の情報処理装置。
(9)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更する
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更する
前記(1)乃至(10)のいずれかに記載の情報処理装置。
(12)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更する
前記(1)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更する
前記(1)乃至(14)のいずれかに記載の情報処理装置。
本技術は、混在音声を処理対象とする音声認識装置に適用することができる。
1 音声認識装置, 11 音質判別部, 12 音声認識部, 21 特徴量抽出部, 22 尤度算出部, 23 比較部, 24 パラメータ変更部
Claims (17)
- 異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部と
を備える情報処理装置。 - 前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を前記発話区間の単位で判別する
請求項1に記載の情報処理装置。 - 前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してS/Nを算出し、算出された前記S/Nに基づいて、前記良条件音声を発話者の単位で判別する
請求項1に記載の情報処理装置。 - 前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、
前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別する
請求項1に記載の情報処理装置。 - 前記音声認識部は、
前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、
前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、
前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、
前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも1つで用いられるパラメータを変更するパラメータ変更部と
を有する
請求項1に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更する
請求項5に記載の情報処理装置。 - 前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
請求項5に記載の情報処理装置。 - 前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更する
請求項5に記載の情報処理装置。 - 前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
請求項5に記載の情報処理装置。 - 前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更する
請求項5に記載の情報処理装置。 - 情報処理装置が、
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別し、
判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す
ステップを含む情報処理方法。 - コンピュータを、
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部
として機能させるためのプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012105948A JP2013235050A (ja) | 2012-05-07 | 2012-05-07 | 情報処理装置及び方法、並びにプログラム |
| US13/838,999 US20130297311A1 (en) | 2012-05-07 | 2013-03-15 | Information processing apparatus, information processing method and information processing program |
| CN2013101636147A CN103390404A (zh) | 2012-05-07 | 2013-05-07 | 信息处理装置、信息处理方法和信息处理程序 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2012105948A JP2013235050A (ja) | 2012-05-07 | 2012-05-07 | 情報処理装置及び方法、並びにプログラム |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2013235050A true JP2013235050A (ja) | 2013-11-21 |
Family
ID=49513283
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2012105948A Pending JP2013235050A (ja) | 2012-05-07 | 2012-05-07 | 情報処理装置及び方法、並びにプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20130297311A1 (ja) |
| JP (1) | JP2013235050A (ja) |
| CN (1) | CN103390404A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017037920A1 (ja) * | 2015-09-03 | 2017-03-09 | Pioneer DJ株式会社 | 楽曲解析装置、楽曲解析方法、及び楽曲解析プログラム |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170034227A (ko) * | 2015-09-18 | 2017-03-28 | 삼성전자주식회사 | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 |
| CN107919127B (zh) * | 2017-11-27 | 2021-04-06 | 北京地平线机器人技术研发有限公司 | 语音处理方法、装置和电子设备 |
| JP7508409B2 (ja) * | 2021-05-31 | 2024-07-01 | 株式会社東芝 | 音声認識装置、方法およびプログラム |
Family Cites Families (12)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
| JP4082611B2 (ja) * | 2004-05-26 | 2008-04-30 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声収録システム、音声処理方法およびプログラム |
| US8150688B2 (en) * | 2006-01-11 | 2012-04-03 | Nec Corporation | Voice recognizing apparatus, voice recognizing method, voice recognizing program, interference reducing apparatus, interference reducing method, and interference reducing program |
| US8577677B2 (en) * | 2008-07-21 | 2013-11-05 | Samsung Electronics Co., Ltd. | Sound source separation method and system using beamforming technique |
| KR101233271B1 (ko) * | 2008-12-12 | 2013-02-14 | 신호준 | 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템 |
| US9177557B2 (en) * | 2009-07-07 | 2015-11-03 | General Motors Llc. | Singular value decomposition for improved voice recognition in presence of multi-talker background noise |
| JP4986248B2 (ja) * | 2009-12-11 | 2012-07-25 | 沖電気工業株式会社 | 音源分離装置、方法及びプログラム |
| US8521477B2 (en) * | 2009-12-18 | 2013-08-27 | Electronics And Telecommunications Research Institute | Method for separating blind signal and apparatus for performing the same |
| US8515758B2 (en) * | 2010-04-14 | 2013-08-20 | Microsoft Corporation | Speech recognition including removal of irrelevant information |
| US8527268B2 (en) * | 2010-06-30 | 2013-09-03 | Rovi Technologies Corporation | Method and apparatus for improving speech recognition and identifying video program material or content |
| US9100734B2 (en) * | 2010-10-22 | 2015-08-04 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation |
| US20120114130A1 (en) * | 2010-11-09 | 2012-05-10 | Microsoft Corporation | Cognitive load reduction |
-
2012
- 2012-05-07 JP JP2012105948A patent/JP2013235050A/ja active Pending
-
2013
- 2013-03-15 US US13/838,999 patent/US20130297311A1/en not_active Abandoned
- 2013-05-07 CN CN2013101636147A patent/CN103390404A/zh active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2017037920A1 (ja) * | 2015-09-03 | 2017-03-09 | Pioneer DJ株式会社 | 楽曲解析装置、楽曲解析方法、及び楽曲解析プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20130297311A1 (en) | 2013-11-07 |
| CN103390404A (zh) | 2013-11-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9626970B2 (en) | Speaker identification using spatial information | |
| JP6800946B2 (ja) | 音声区間の認識方法、装置及び機器 | |
| US10964329B2 (en) | Method and system for automatically diarising a sound recording | |
| JP6350148B2 (ja) | 話者インデキシング装置、話者インデキシング方法及び話者インデキシング用コンピュータプログラム | |
| CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
| US20190051299A1 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
| Delcroix et al. | Compact network for speakerbeam target speaker extraction | |
| WO2018053077A1 (en) | Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr) | |
| JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
| KR101863097B1 (ko) | 키워드 인식 장치 및 방법 | |
| JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
| WO2020195924A1 (ja) | 信号処理装置および方法、並びにプログラム | |
| JP2013235050A (ja) | 情報処理装置及び方法、並びにプログラム | |
| US11990136B2 (en) | Speech recognition device, search device, speech recognition method, search method, and program | |
| Martinez-Gonzalez et al. | Spatial features selection for unsupervised speaker segmentation and clustering | |
| KR101023211B1 (ko) | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 | |
| JPWO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、およびプログラム | |
| JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
| KR102424795B1 (ko) | 음성 구간 검출 방법 | |
| Jahanirad et al. | Blind source computer device identification from recorded VoIP calls for forensic investigation | |
| CN116013322B (zh) | 一种台词对应人物的确定方法、装置及电子设备 | |
| JP5672155B2 (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
| JP2013011680A (ja) | 話者判別装置、話者判別プログラム及び話者判別方法 | |
| Das et al. | One-decade survey on speaker diarization for telephone and meeting speech | |
| Kopparapu et al. | A two pass algorithm for speaker change detection |