JP2013235050A

JP2013235050A - 情報処理装置及び方法、並びにプログラム

Info

Publication number: JP2013235050A
Application number: JP2012105948A
Authority: JP
Inventors: Ken Yamaguchi; 健山口; Yasuhiko Kato; 靖彦加藤; Nobuyuki Kihara; 信之木原; Yohei Sakuraba; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-05-07
Filing date: 2012-05-07
Publication date: 2013-11-21
Also published as: US20130297311A1; CN103390404A

Abstract

【課題】異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができるようにする。
【解決手段】音声判別部１１は、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する。音声認識部１２は、音質判別部により判別された良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、良条件音声に対する音声認識処理の結果に基づいて所定のパラメータの値を変更し、混在音声のうち良条件音声以外の音声に対して、値が変更された所定のパラメータを用いて音声認識処理を施す。本技術は、混在音声を処理対象とする音声認識装置に適用することができる。
【選択図】図１

Description

本技術は、情報処理装置及び方法、並びにプログラムに関し、特に、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができる、情報処理装置及び方法、並びにプログラムに関する。

従来、会議室内の参加者から発音された音声をボイスレコーダ等で録音したり、テレビ会議の参加者から発音された音声を符号化及び復号を介在して送受信することで、音声を収音するシステム（以下、収音システムと称する）が存在する。このような収音システムに対して音声認識の手法を適用した従来の技術として、議事録を自動的に作成する技術（例えば、特許文献１，２参照）や、不適切な発言を検知してその音声を送信しない技術（例えば、特許文献３）が存在する。

特開２００４−２８７２０１号公報特開２００３−２５５９７９号公報特開２０１１−２０５２４３号公報

しかしながら、会議室内の複数の参加者から発音された音声をボイスレコーダで収音するに際し、ボイスレコーダのマイクから、複数の参加者までのそれぞれの距離は一般的に異なっている場合が多くある。また、テレビ会議の参加者から発音された音声を符号化及び復号するための音声コーデックが、テレビ会議で結ばれる複数の会場で異なっている場合がある。このように、収音システムでは、収音条件が異なる場合が多い。

特許文献１乃至３を含む従来の音声認識の手法では、異なる収音条件で収音された一群の音声に対して一律に音声認識処理が施される。この場合、一群の音声のうち、良好な収音条件で収音された音声に対しては高精度の音声認識が可能になるものの、それ以外の音声に対する音声認識の精度は低くなるおそれがある。

本技術は、このような状況に鑑みてなされたものであり、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができるようにしたものである。

本技術の一側面の情報処理装置は、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部とを備える。

前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を前記発話区間の単位で判別することができる。

前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を発話者の単位で判別することができる。

前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別することができる。

前記音声認識部は、前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも１つで用いられるパラメータを変更するパラメータ変更部とを有することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更することができる。

前記良条件音声以外の音声が前記処理対象に設定された場合に、前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更することができる。

前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更することができる。

前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更することができる。

前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更することができる。

前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更することができる。

本技術の一側面の情報処理方法及びプログラムは、上述した本技術の一側面の情報処理装置に対応する方法及びプログラムである。

本技術の一側面の情報処理装置及び方法並びにプログラムにおいては、異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声が、良条件音声として判別され、判別された前記良条件音声に対して、所定のパラメータが用いられて音声認識処理が施され、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値が変更され、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータが用いられて前記音声認識処理が施される。

以上のごとく、本技術によれば、異なる収音条件で収音された一群の音声に対する音声認識の精度を向上させることができる。

音声認識装置の構成例を示すブロック図である。音質判別部による音質判別の手法を示す図である。音声認識部による音声認識の手法を示す図である。混在音声認識処理の流れの一例を説明するフローチャートである。処理対象に対する音声認識処理の詳細な流れの一例を説明するフローチャートである。本技術が適用される情報処理装置のハードウエアの構成例を示すブロック図である。

[本技術の概略]
はじめに、本技術の理解を容易なものとすべく、その概略について説明する。

本技術では、各種各様の収音システムにより、異なる収音条件で一群の音声が収音される。

例えば、会議室内の複数の参加者から発音された音声をボイスレコーダ等で録音する収音システムでは、複数の参加者の各々についての、声の大きさや質、マイクからの距離等が異なる。したがって、このような複数の参加者からそれぞれ発音された音声は、異なる収音条件で収音される。

また、テレビ会議を利用した収音システムにおいては、一の会場の参加者から発音された音声が、他の会場に送信される。このため、音声の符号化又は復号をするための音声コーデックが会場毎に設けられる。この音声コーデックが会場毎に異なると、異なる収音条件で音声が収音される。

このように、本技術では、異なる収音条件で音声が収音されると、これら異なる収音条件で収音された音声が混在した一群の音声（以下、混在音声と称する）が処理対象となり、当該処理対象に対して、音声認識処理が施される。

具体的には、本技術では、はじめに、混在音声の中から、良好な収音条件で収音されたと判断できる音声（以下、良条件音声と称する）が判別される。次に、良条件音声に対して音声認識処理が施され、その良条件音声の音声認識処理の結果に基づいて音声認識処理で用いられるパラメータが変更されて、それ以外の音声に対して音声認識処理が施される。

これにより、良条件音声以外の音声に対する音声認識処理の精度が向上するので、一群の音声に対する音声認識処理の精度が向上する。

[音声認識装置の構成例]
図１は、本技術が適用される音声認識装置の構成例を示すブロック図である。

音声認識装置１は、音質判別部１１及び音声認識部１２を有している。

音質判別部１１は、音声認識装置１に入力された混在音声を解析することによって、混在音声の中から良条件音声を判別して、その判別結果を音声認識部１２に通知する。なお、音質判別部１１による音質判別の手法については、図２を参照して後述する。

音声認識部１２は、はじめに、音質判別部１１の判別結果に基づいて、音声認識装置１に入力された混在音声のうち良条件音声を処理対象として、所定のパラメータを用いて処理対象に対して音声認識処理を施す。音声認識部１２は、良条件音声に対する音声認識処理の結果に基づいて、所定のパラメータの値を変更する。そして、音声認識部１２は、音声認識装置１に入力された混在音声のうち良条件音声以外の音声を処理対象として、値が変更された所定のパラメータを用いて、処理対象に対して音声認識処理を施す。

本実施形態の音声認識部１２の音声認識処理は、単語列Wに対応する入力音声（即ち、処理対象）の特徴量Xに対して事後確率ｐ（W=X）が最大となる単語列W’を、音声認識結果（即ち、単語列Wの推定結果）として見つけるというものである。ただし、音声認識部１２は、事後確率ｐ（W=X）を直接求めることは困難であるので、ベイズ則により、尤度と事前確率を用いて音声認識結果を算出する。このため、音声認識部１２は、このような音声認識処理を実行すべく、特徴量抽出部２１、尤度算出部２２、比較部２３、及びパラメータ変更部２４から構成される。

特徴量抽出部２１は、音質判別部１１の判別結果に基づいて音声認識装置１に入力された混在音声から処理対象となる音声を決定する。即ち、上述したように、特徴量抽出部２１は、最初は、良条件音声を処理対象に決定し、パラメータの値が変更された後には、良条件音声以外の音声を処理対象に決定する。そして、特徴量抽出部２１は、当該処理対象から特徴量を所定の単位（例えば、フレーム等）毎に抽出する。

即ち、特徴量抽出部２１は、所定の単位毎に、処理対象に対して音響処理（例えばFFT(Fast Fourier Transform)処理）を施すことによって、例えば、MFCC(Mel Frequency Cepstrum Coefficient)の特徴量を順次抽出し、特徴量の時系列を尤度算出部２２に供給する。なお、特徴量抽出部２１は、特徴量として、MFCCの他、例えば、スペクトル、線形予測係数、ケプストラム係数、線スペクトル対等を抽出してもよい。

尤度算出部２２は、HMM(Hidden Markov Model)等の音響モデルを単語単位で連結した系列（以下、単語モデル系列と称する）を認識結果の候補として複数個生成する。そして、尤度算出部２２は、複数の単語モデル系列毎に、事前確率をパラメータの１つとして用いて、特徴量抽出部２１から供給された処理対象の特徴量の時系列が観測される尤度を算出する。

比較部２３は、尤度算出部２２により複数の単語モデル系列毎に算出された尤度と、所定の閾値とを比較し、閾値を超えた尤度を有する単語モデル系列を、処理対象の音声認識結果として出力する。

パラメータ変更部２４は、良条件音声が処理対象とされた場合の音声認識処理の結果である比較部２３の出力に基づいて、特徴量抽出部２１、尤度算出部２２、及び比較部２３のうち少なくとも１つで用いられるパラメータの値を変更する。

これにより、良条件音声以外の音声が処理対象とされた場合には、値が変更されたパラメータ等が用いられて、特徴量抽出部２１、尤度算出部２２、及び比較部２３により上述した一連の処理が実行されて、処理対象に対する音声認識処理が施される。

なお、変更対象となるパラメータの具体例等を含め、音声認識部１２による音声認識の手法については、図３を参照して後述する。

[音質判別の手法]
図２は、音質判別部１１による音質判別の手法を示す図である。

図２に示されるように、音質判別部１１は、パターンＡ，Ｂ，Ｃの３通りの手法により、混在音声の中から良条件音声を判別する。

パターンＡの手法は、発話毎のＳ/Ｎ(Signal to Noise)の比較をする手法である。具体的には、音質判別部１１は、混在音声を発話区間毎に区分し、区分された１以上の発話区間のそれぞれに対してＳ/Ｎを算出する。そして、音質判別部１１は、Ｓ/Ｎが高い発話区間の音声を良条件音声と判別する。

パターンＢの手法は、発話者毎のＳ/Ｎの比較をする手法であって、パターンＡとは異なる手法である。具体的には、音質判別部１１は、パターンＡと同様に、混在音声を発話区間毎に区分し、区分された１以上の発話区間のそれぞれに対してＳ/Ｎを算出する。さらに、音質判別部１１は、混在音声に含まれる発話区間毎に発話者の識別を行い、混在音声を発話者毎にグルーピングする。そして、音質判別部１１は、混在音声の発話区間毎のＳ/Ｎを発話者毎にまとめること等によって、発話者毎のＳ/Ｎを算出する。音質判別部１１は、Ｓ/Ｎが高い発話者の音声を良条件音声と判別する。

なお、発話者の識別の手法は特に限定されず、例えば、特徴量が音声の周波数から抽出されている場合には、当該特徴量に基づいて発話者を識別する手法が採用されてもよい。また、発話者毎のＳ/Ｎを算出する手法は特に限定されず、例えば、発話区間のそれぞれに対して算出されたＳ/Ｎを発話者毎に単純加算して、その発話者の発話区間数で除算した値を、発話者毎のＳ/Ｎとする、といった手法が採用されてもよい。

パターンＣの手法は、利用される音声コーデックを比較する手法である。テレビ会議システムにおいては、双方で用いられる端末や、端末毎に利用される音声コーデックが異なる場合がある。この場合、音声コーデックによる処理結果に起因して、音質に差異が生じることがある。したがって、音質判別部１１は、双方の端末で用いられる音声コーデックを事前に把握しておき、より高音質な音声となる音声コーデックが利用されている端末側の音声を良条件音声と判別する。より高音質な音声となる音声コーデックは予め順位付けられているものとする。

なお、パターンＣの手法は、ボイスレコーダによる音声の収音のように、音声コーデックが用いられない場合には適用されない。

[音声認識の手法]
次に、音声認識部１２による音声認識の手法について図３を参照して説明する。

図３は、音声認識部１２による音声認識の手法を示す図である。

図３に示されるように、音声認識部１２は、パターンａ，ｂ，ｃの３通りの手法により、処理対象に対して音声認識処理を施す。

パターンａの手法は、単語の認識率を向上させる手法である。

具体的には、はじめに、良条件音声に対して、特徴量抽出部２１、尤度算出部２２、及び比較部２３による音声認識処理が施され、所定の単語モデル系列が音声認識結果として出力される。良条件音声に対する音声認識結果として出力される所定の単語モデル系列に含まれる単語は、良条件音声以外の音声のうち、特に良条件音声の前後の音声においても出現する確率が高いと仮定される。なお、良条件音声の前後とは、良条件音声の時間的に先頭位置よりも前の範囲と、良条件音声の時間的に最後尾位置よりも後の範囲とのそれぞれをいう。したがって、パラメータ変更部２４は、当該単語が、良条件音声の前後の音声を処理対象とした音声認識処理において、音声認識結果に含まれて出力されやすくなる（即ち、認識率が向上する）ように、尤度算出部２２または比較部２３で用いられるパラメータの値を変更する。

具体的には、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部２４は、当該単語を含む単語モデル系列に対して尤度算出部２２により尤度が算出される際に用いられる事前確率を変更する。これにより、その単語に対する尤度が高値になりやすい。その結果、その後の比較部２３から、当該単語が、音声認識結果の一部として選ばれ易くなる（即ち、認識されやすくなる）。

また、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部２４は、比較部２３で用いられる閾値を変更する。上述したように、尤度算出部２２から出力された尤度は、パラメータ変更部２４において所定の閾値と比較されるが、尤度が閾値以下である単語モデル系列は、混在音声内の処理対象の音声が示す単語モデル系列ではないとして棄却される。このような場合であっても、例えばパラメータ変更部２４が閾値を低い値（棄却され難い値）に変更する。これにより、棄却されることが少なくなり、その結果、処理対象の単語モデル系列に含まれる単語が、音声認識結果の一部として選ばれ易くなる（即ち、認識されるようになる）。

パターンｂの手法は、認識された単語の関連語の認識率を向上させる手法である。

具体的には、予め、単語とその関連語との組が複数組格納されたリストが作成される。リストは、ユーザにより作成されても、音声認識装置１により自動的に作成されてもよい。なお、音声認識装置１によるリストの作成手法は特に限定されず、例えば本実施形態では、すでに記録されている議事録を分析することにより、リストが作成される。例えば、「特徴量」という単語と、その近くに出現する確率が高い「抽出」という関連語との組がリストに格納される。また、例えば、「画面」という単語と、これに類似する「モニタ」という関連語との組がリストに格納される。

このようなリストが存在する状態で、良条件音声に対して、特徴量抽出部２１、尤度算出部２２、及び比較部２３による音声認識処理が施され、所定の単語モデル系列が音声認識結果として出力される。良条件音声に対する音声認識結果に含まれる単語の関連語は、良条件音声以外の音声、特に良条件音声の前後の音声においても出現する確率が高いと仮定される。したがって、パラメータ変更部２４は、当該関連語が、良条件音声の前後の音声を処理対象とした音声認識処理において、音声認識結果に含まれて出力されやすくなる（即ち、認識率が向上する）ように、尤度算出部２２または比較部２３で用いられるパラメータの値を変更する。

具体的には、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部２４は、所定の単語モデル系列に含まれる単語の関連語に対して尤度算出部２２により尤度が算出される際に用いられる事前確率を変更する。これにより、その関連語に対する尤度が高値になりやすい。その結果、その後の比較部２３から、当該関連語が、音声認識結果の一部として選ばれ易くなる（即ち、認識されやすくなる）。

また、良条件音声の前後の音声が処理対象になる場合には、パラメータ変更部２４は、比較部２３で用いられる閾値を変更する。上述したように、尤度算出部２２から出力された尤度は、パラメータ変更部２４において所定の閾値と比較されるが、尤度が閾値以下である単語モデル系列は、混在音声内の処理対象の音声が示す単語モデル系列ではないとして棄却される。このような場合であっても、例えばパラメータ変更部２４が閾値を低く変更することで、棄却されにくくなり、その結果、処理対象の単語モデル系列に含まれる関連語が、音声認識結果の一部として選ばれ易くなる（即ち、認識されるようになる）。

パターンｃの手法は、音声認識処理が、指定された単語の検索のために用いられる場合に、その認識率を向上させる手法である。

パターンｃの手法は、混在音声から、指定された単語が検索される場合に用いられる。具体的には、混在音声からの指定された単語の検索時に、指定された単語が良条件音声から認識された場合、当該指定された単語は、良条件音声の前後の音声においても出現する確率が高いと仮定される。したがって、パラメータ変更部２４は、指定された単語が精度良く検索されるように、特徴量抽出部２１または尤度算出部２２で用いられるパラメータの値を変更する。

具体的には、指定された単語が良条件音声の前後から検索される場合には、パラメータ変更部２４は、特徴量抽出部２１の音響処理に適用される周波数分析手法を変更する。例えば、パラメータ変更部２４は、特徴量抽出部２１により音響処理の１つとして行われるFFT処理において、ウィンドウサイズやシフトサイズを変更する。

例えばウィンドウサイズが伸長された場合、周波数分解能を高めることができる。一方、ウィンドウサイズが縮小された場合、時間分解能を高めることができる。また、シフトサイズが拡大された場合、より多くのフレームが分析可能となる。このように、ウィンドウサイズやシフトサイズを適切に変更することで、良条件音声の前後の音声からも、指定された単語が精度良く検索されるようになる。

また、指定された単語が良条件音声の前後から検索される場合には、パラメータ変更部２４は、特徴量抽出部２１により抽出される特徴量の種類を増加させてもよい。利用される特徴量の種類が増加されることにより、その後の尤度算出部２２の処理において、尤度が高く算出されるようになる。これにより、良条件音声の前後の音声からも、指定された単語が精度良く検索されるようになる。

なお、パラメータ変更部２４が、特徴量抽出部２１で用いられるパラメータを変更対象とした場合、音声認識部１２の計算量が増加するおそれがある。しかしながら、本実施形態においては、変更後のパラメータを用いた音声認識処理の処理対象は、良条件音声の前後の音声に制限するため、計算量の増加は最小限におさえることができる。

また、パラメータ変更部２４は、尤度算出部２２で用いられる音響モデルの数を増加する。音響モデルの数を増加させることにより認識結果の候補が増加し、尤度算出部２２及び後段の比較部２３における認識性能を向上させることができる。これにより、指定された単語が精度良く検索されるようになる。なお、音響モデルの数を増加させることは、パラメータ変更部２４等における計算量が増加することになるため、増加させても適当な数となるようにあらかじめ調整しておくとよい。

このように、本実施形態の音声認識装置１においては、３通りの音質判別部１１による音質判別の手法と、３通りの音声認識部１２による音声認識の手法が存在する。したがって、本実施形態では、全体として９通りの手法により、音声認識装置１による音声認識処理が実行される。

以上、音声認識部１２によるパターンａ，ｂ，ｃの３通りの音声認識の手法について説明した。パターンａ，ｂ，ｃの３通りの音声認識の手法における、パラメータ変更部２４によるパラメータの変更手法には、次のような４つのパターンがある。

１つ目のパターンでは、パラメータ変更部２４は、予め、パラメータの変更範囲を、良条件音声の前後ｎ（ｎは任意の整数値）秒までのそれぞれに設定し、所定のパラメータの変更値をｑに設定する。この場合、パラメータ変更部２４は、良条件音声の前後ｎ秒間の音声に対しては、パラメータの値をｑに変更する。即ち、１つ目のパターンでは、パラメータ変更部２４は、パラメータの変更範囲を、良条件音声の前後の所定時間ｎ秒に設定し、当該変更範囲内で所定のパラメータの値を一律のｑに変更する。

２つ目のパターンでは、パラメータ変更部２４は、予め、パラメータの変更範囲を、良条件音声の前後ｎ秒までのそれぞれに設定し、パラメータの最大変更値をｑに設定する。この場合、パラメータ変更部２４は、良条件音声の前後ｘ秒の時間位置の音声のそれぞれに対しては、パラメータの値を（ｑ×ｘ／ｎ）に変更する。即ち、２つ目のパターンでは、パラメータ変更部２４は、パラメータの変更範囲を、良条件音声の前後の所定時間ｎ秒に設定し、当該変更範囲内における前記良条件音声からの時間的距離（ｘ秒）に応じて、所定のパラメータの値を（ｑ×ｘ／ｎ）に変更する。

３つ目のパターンでは、パラメータ変更部２４は、予め、パラメータの変更範囲を、良条件音声の前後ｎ（ｎは任意の整数値）個までのそれぞれの会話（発話区間）に設定し、パラメータの変更値をｑに設定する。この場合、パラメータ変更部２４は、良条件音声の前後ｎ個の会話の音声のそれぞれに対しては、パラメータの値をｑに変更する。即ち、３つ目のパターンでは、パラメータ変更部２４は、パラメータの変更範囲を、良条件音声の前後の発話区間の数ｎ個に設定し、当該変更範囲内で所定のパラメータの値を一律のｑに変更する。

４つ目のパターンでは、パラメータ変更部２４は、予め、パラメータの変更範囲を良条件音声の前後ｎ個までのそれぞれの会話（発話区間）に設定し、パラメータの最大変更値をｑに設定する。この場合、パラメータ変更部２４は、良条件音声の前後ｙ個目のそれぞれの会話の音声に対しては、パラメータの値を（ｑ×ｙ／ｎ）に変更する。即ち、４つ目のパターンでは、パラメータ変更部２４は、パラメータの変更範囲を、良条件音声の前後の発話区間の数ｎ個に設定し、当該変更範囲内に含まれる発話区間について、良条件音声の前又は後から数えた発生順番ｙに応じて、所定のパラメータの値を（ｑ×ｙ／ｎ）に変更する。

[音声認識処理]
次に、音声認識装置１が実行する混在音声に対する音声認識処理（以下、混在音声認識処理と称する）の流れについて説明する。

図４は、混在音声認識処理の流れの一例を説明するフローチャートである。

ステップＳ１において、音質判別部１１は、混在音声を入力する。

ステップＳ２において、音質判別部１１は、入力された混在音声の中から良条件音声を判別する。音質判別部１１は、図２で示されたパターンＡ，Ｂ，Ｃの３通りの手法のうちの何れかの手法により、混在音声の中から良条件音声を判別する。音質判別部１１は、判別結果を音声認識部１２に通知する。

ステップＳ３において、特徴量抽出部２１は、音質判別部１１の判別結果に基づいて、音声認識装置１に入力された混在音声の中から良条件音声を処理対象に設定する。

ステップＳ４において、音声認識部１２は、処理対象に対する音声認識処理を実行する。即ち、ステップＳ３の処理後にステップＳ４の処理が実行されると、良条件音声が処理対象であるので、良条件音声に対して音声認識処理が施される。一方、後述のステップＳ７の処理後にステップＳ４の処理が実行されると、良条件音声以外の音声（例えば良条件音声の前後の音声）が処理対象であるので、良条件音声以外の音声（例えば良条件音声の前後の音声）に対して音声認識処理が施される。なお、ステップＳ４の処理対象に対する音声認識処理の詳細については、図５を参照して後述するが、処理対象の特徴量の尤度が算出され、閾値と比較される。

ステップＳ５において、パラメータ変更部２４は、良条件音声が処理対象かを判定する。

例えば、ステップＳ３の処理後にステップＳ４の処理が実行されると、良条件音声が処理対象であるので、ステップＳ５においてＹＥＳであると判定されて、処理はステップＳ６に進む。

ステップＳ６において、特徴量抽出部２１は、混成音声の中から良条件音声以外の音声を処理対象に設定する。

ステップＳ７において、パラメータ変更部２４は、特徴量抽出部２１、尤度算出部２２、及び比較部２３のうち少なくとも１つで用いられるパラメータの値を変更する。

その後、処理はステップＳ４に戻され、それ以降の処理が実行される。即ち、良条件音声外の音声が処理対象になっているので、ステップＳ４において良条件音声外の音声に対して、値が変更されたパラメータを用いた音声認識処理が施され、ステップＳ５においてＮＯであると判定されて、混在音声認識処理の全体が終了となる。

次に、このような混在音声認識処理のうち、ステップＳ４の処理対象に対する音声認識処理の詳細について説明する。

[処理対象に対する音声認識処理]
図５は、ステップＳ４における、処理対象に対する音声認識処理の詳細な流れの一例を説明するフローチャートである。

ステップＳ２１において、特徴量抽出部２１は、処理対象から特徴量を抽出する。即ち、特徴量抽出部２１は、処理対象を所定の単位で区分し、所定の単位毎に特徴量を順次抽出し、特徴量の時系列を尤度算出部２２に供給する。

ステップＳ２２において、尤度算出部２２は、処理対象の尤度を算出する。即ち、尤度算出部２２は、単語モデル系列を認識結果の候補として複数個生成し、生成した複数の単語モデル系列毎に、特徴量抽出部２１から供給された特徴量の時系列が観測される尤度を算出する。尤度算出部２２は、算出した尤度を比較部２３に供給する。

ステップＳ２３において、比較部２３は、尤度算出部２２により複数の単語モデル系列毎に算出された尤度と、所定の閾値とを比較し、閾値を超えた尤度を有する単語モデル系列を、処理対象に対する音声認識結果とする。

ステップＳ２４において、比較部２３は、処理対象に対する音声認識結果を出力する。

これにより、処理対象に対する音声認識処理は終了する。即ち、図４のステップＳ４の処理が終了し、処理はステップＳ５に進む。

以上、説明したように、音声認識装置によれば、はじめに、混在音声の中から良条件音声が判別される。次に、良条件音声に対して音声認識処理が施され、その結果に基づいて音声認識処理のパラメータが変更されて、良条件音声以外の音声に対して音声認識処理が施される。これにより、良条件音声以外の音声に対する音声認識処理の精度が向上する。したがって、混在音声に対する音声認識処理において、良条件音声以外の音声に対する音声認識処理の精度が向上するので、全体として音声認識処理の精度を向上させることができる。

[本技術のプログラムへの適用]
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）１０１，ROM（Read Only Memory）１０２，RAM（Random Access Memory）１０３は、バス１０４により相互に接続されている。

バス１０４には、さらに、入出力インタフェース１０５が接続されている。入出力インタフェース１０５には、入力部１０６、出力部１０７、記憶部１０８、通信部１０９、及びドライブ１１０が接続されている。

入力部１０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１０７は、ディスプレイ、スピーカなどよりなる。記憶部１０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１０９は、ネットワークインタフェースなどよりなる。ドライブ１１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア１１１を駆動する。

以上のように構成されるコンピュータでは、CPU１０１が、例えば、記憶部１０８に記憶されているプログラムを、入出力インタフェース１０５及びバス１０４を介して、RAM１０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア１１１をドライブ１１０に装着することにより、入出力インタフェース１０５を介して、記憶部１０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１０９で受信し、記憶部１０８にインストールすることができる。その他、プログラムは、ROM１０２や記憶部１０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

なお、本技術は、以下のような構成もとることができる。
（１）
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部と
を備える情報処理装置。
（２）
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を前記発話区間の単位で判別する
前記（１）に記載の情報処理装置。
（３）
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を発話者の単位で判別する
前記（１）または（２）に記載の情報処理装置。
（４）
前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、
前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別する
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記音声認識部は、
前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、
前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、
前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、
前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも１つで用いられるパラメータを変更するパラメータ変更部と
を有する
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更する
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更する
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更する
前記（１）乃至（９）のいずれかに記載の情報処理装置。
（１１）
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更する
前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更する
前記（１）乃至（１２）のいずれかに記載の情報処理装置。
（１４）
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
前記（１）乃至（１３）のいずれかに記載の情報処理装置。
（１５）
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更する
前記（１）乃至（１４）のいずれかに記載の情報処理装置。

本技術は、混在音声を処理対象とする音声認識装置に適用することができる。

１音声認識装置，１１音質判別部，１２音声認識部，２１特徴量抽出部，２２尤度算出部，２３比較部，２４パラメータ変更部

Claims

異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部と
を備える情報処理装置。
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を前記発話区間の単位で判別する
請求項１に記載の情報処理装置。
前記音質判別部は、前記混在音声を発話区間ごとに区分し、前記発話区間のそれぞれに対してＳ/Ｎを算出し、算出された前記Ｓ/Ｎに基づいて、前記良条件音声を発話者の単位で判別する
請求項１に記載の情報処理装置。
前記混在音声は、複数の音声コーデックのそれぞれによる処理が施された複数の音声を含んでおり、
前記音質判別部は、前記複数の音声コーデックのうち、より高音質な音声となる音声コーデックにより処理が施された音声を前記良条件音声と判別する
請求項１に記載の情報処理装置。
前記音声認識部は、
前記混在音声のうち処理対象から、特徴量を抽出する特徴量抽出部と、
前記処理対象に対する音声認識処理結果の候補を複数生成し、前記複数の候補毎に、前記特徴量抽出部により抽出された前記特徴量に基づいて尤度をそれぞれ算出する尤度算出部と、
前記尤度算出部により前記複数の候補毎に算出された尤度の各々と、所定の閾値とを比較し、比較の結果に基づいて、前記複数の候補の中から、前記処理対象に対する音声認識処理結果を選抜して出力する比較部と、
前記良条件音声が前記処理対象に設定された場合に前記比較部から出力される前記音声認識処理結果に基づいて、前記所定のパラメータとして、前記特徴量抽出部、前記尤度算出部、及び前記比較部のうち少なくとも１つで用いられるパラメータを変更するパラメータ変更部と
を有する
請求項１に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記比較部で用いられる前記閾値を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記良条件音声に対する音声認識処理結果に含まれる単語の関連語を含む候補に対して、前記尤度算出部により尤度が算出される際に用いられる事前確率を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部が特徴量を抽出する場合に用いられる周波数分析手法を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記特徴量抽出部から抽出される特徴量の種類を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記良条件音声以外の音声が前記処理対象に設定された場合に、
前記パラメータ変更部は、前記尤度算出部により用いられる候補の数を、前記所定のパラメータとして変更する
請求項５に記載の情報処理装置。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
請求項５に記載の情報処理装置。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定時間に設定し、前記変更範囲内における前記良条件音声からの時間的距離に応じて、前記所定のパラメータの値を変更する
請求項５に記載の情報処理装置。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内で前記所定のパラメータの値を一律に変更する
請求項５に記載の情報処理装置。
前記パラメータ変更部は、前記所定のパラメータの変更範囲を、前記良条件音声の前後の所定の発話区間の数に設定し、前記変更範囲内に含まれる発話区間について、前記良条件音声の前又は後から数えた発生順番に応じて、前記所定のパラメータの値を変更する
請求項５に記載の情報処理装置。
情報処理装置が、
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別し、
判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す
ステップを含む情報処理方法。
コンピュータを、
異なる収音条件で収音された音声が混在した一群の音声である混在音声の中から、良好な収音条件で収音されたと判断できる音声を、良条件音声として判別する音質判別部と、
前記音質判別部により判別された前記良条件音声に対して、所定のパラメータを用いて音声認識処理を施し、前記良条件音声に対する前記音声認識処理の結果に基づいて前記所定のパラメータの値を変更し、前記混在音声のうち前記良条件音声以外の音声に対して、値が変更された前記所定のパラメータを用いて前記音声認識処理を施す音声認識部
として機能させるためのプログラム。