JP7070653B2

JP7070653B2 - 学習装置、音声認識順位推定装置、それらの方法、およびプログラム

Info

Publication number: JP7070653B2
Application number: JP2020501756A
Authority: JP
Inventors: 智大田中; 亮増村
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2018-02-21
Filing date: 2019-02-18
Publication date: 2022-05-18
Anticipated expiration: 2039-02-18
Also published as: JPWO2019163718A1; WO2019163718A1; US20210090552A1; US11380301B2

Description

本発明は、音声認識をして得られる認識結果の誤りを訂正する技術に関する。

音声認識システムにおいて、認識の過程で得られる複数の認識結果の候補(以下、音声認識結果候補ともいう)をリランキングすることで音声認識精度が改善することが知られている。特にRecurrent Neural Network(RNN)言語モデルを用いたリランキングが広く用いられている(非特許文献１参照)。ここではRNNに関しては公知の技術であるため省略する。RNN言語モデルでは、入力単語を連続値からなる固定長のベクトルに変換してRNNに入力し、得られた固定長のベクトルを識別関数に入力することで次に出現する単語の生起確率を計算する。入力される単語系列を{w₁,w₂,…,w_T}と表す場合、系列内の単語w_t+1(ただし、t=1,2,…,T)の生起確率は以下のように推定する。
E_t=EMBEDDING(w_t)
h_t=RNN(E_t)
O_t+1=DISTRIBUTE(h_t)
ここでE_tは単語w_tの単語分散表現である。なお、単語分散表現とは、単語を高次元の実数ベクトルで表現したもの(単語ベクトル)である。例えば、コーパス等に含まれる全ての単語に対応する次元を持ち、表現しようとする単語に対応する次元の値を1とし、他の次元の値を0とするベクトルである。h_tは、単語分散表現系列E_tをRNNにより変換した連続値からなる固定長のベクトルである。また、O_t+1は、コーパス等に含まれる全ての単語の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。EMBEDDING()は単語を単語分散表現(単語ベクトル)に変換する機能を持つ関数であり、RNN()はRNNの機能を持つ関数であり、DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率の計算を行う関数である。EMBEDDING()については線形変換の関数、DISTRIBUTE()についてはsoftmax関数を用いることができる。softmax関数については公知の技術であるためここではその説明を省略する。上記で計算されたO_t+1において、単語w_t+1に対応する次元の値を単語w_t+1の生起確率とする。個々の処理の詳細については非特許文献１を参考にされたい。

RNN言語モデルを用いて音声認識の認識結果のリランキングを行う場合、音声認識の過程で得られる認識結果の上位N個の音声認識結果候補をRNN言語モデルにそれぞれ入力し、各音声認識結果候補の全ての単語に対して生起確率を計算する。ただし、Nは2以上の整数の何れかである。得られた生起確率からRNN言語モデルのスコアを計算し、前段の音声認識で得られるスコアと組み合わせることによりN個の音声認識結果候補のスコア付けを行い、スコアに応じて各音声認識結果候補の順が決定する。

Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur, "Recurrent Neural Network Based Language Model", In Proc. INTERSPEECH, pp. 1045-1048, 2010.

しかしながら、RNN言語モデルを用いた従来の手法の場合、文脈を考慮したモデル化が行われているものの、音声認識誤りを考慮できていない。

音声認識誤りを考慮したモデル化によりさらなる認識精度の改善が可能となる。そこで、本発明は、音声認識誤りを考慮したモデルの学習装置、そのモデルを用いた音声認識順位推定装置、それらの方法、およびプログラムを提供することを目的とする。

上記の課題を解決するために、本発明の一態様によれば、学習装置は、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習部を含み、音声認識結果候補には正解文とは異なる音声認識結果候補が含まれ、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである。

上記の課題を解決するために、本発明の他の態様によれば、学習方法は、学習部が、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習ステップを含み、音声認識結果候補には正解文とは異なる音声認識結果候補が含まれ、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである。

本発明によれば、音声認識誤りを考慮したモデル化が可能となる。また、音声認識誤りを考慮したモデルを用いることで、音声認識誤りを考慮した音声認識結果候補のリランキングが可能となり、より認識精度の高い認識結果が獲得できるという効果を奏する。

第一実施形態に係る音声認識順位推定装置の機能ブロック図。第一実施形態に係る音声認識順位推定装置の処理フローの例を示す図。誤り訂正スコア計算部の機能ブロック図。 N=3の場合の処理結果の例を示す図。第一実施形態に係る学習装置の機能ブロック図。

以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
＜第一実施形態のポイント＞
本発明では、前述のRNN言語モデルを用いたリランキングにおいて、Sequence-to-Sequence（Seq2Seq）モデル(参考文献１参照)により音声認識誤りを扱う枠組みを取り入れる。
(参考文献１)Ilya Sutskever, Oriol Vinyals, Quoc V. Le, “Sequence to Sequence Learning with Neural Networks”, In Proc. NIPS, pp. 3104-3112, 2014.
Seq2Seqモデルは、可変長の系列情報を入力として、可変長の系列を出力することができるモデルである。音声認識誤りを含んだ単語系列と、音声認識誤りを含まない単語系列の系列長は異なる。Seq2Seqモデルにより、この系列長の異なる2つの系列を扱うことが可能となる。また、Seq2Seqの構造の一つとして注意機構(参考文献２)を利用することもできる。
(参考文献２)Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, In Proc. EMNLP, pp. 1412-1421, 2015.
従来のRNN言語モデルでは音声認識誤りを含まない単語系列を用いてモデルの学習を行う。一方、本実施形態では、音声認識誤りを含む音声認識結果候補の単語系列と音声認識誤りを含まない正解文の単語系列とを入力とし、ターゲットを正解文として学習を行うことで、音声認識誤りのモデル化を可能とする。
＜第一実施形態＞
図１は第一実施形態に係る音声認識順位推定装置１００の機能ブロック図を、図２はその処理フローを示す。

音声認識順位推定装置１００は、誤り訂正スコア計算部１１０と、音声認識結果候補順位付け部１２０とを含む。

音声認識順位推定装置１００は、N個の音声認識結果候補の単語系列を入力とし、N個の音声認識結果候補に対して順位付けを行い、その結果を出力する。ただし、Nは2以上の整数の何れかである。順位付けの結果として、N個の音声認識結果候補と各音声認識結果候補の順位との組を出力してもよいし、N個の音声認識結果候補の中の上位M個の音声認識結果候補を降順、または、昇順に出力してもよい（この場合、出力の順番が順位と対応する）。要は、音声認識順位推定装置１００の後段においてどのような処理を行うのかに応じて適切な値を出力すればよい。例えば、音声認識結果を出力する場合には、M=1とし、最も順位の高い音声認識結果候補を音声認識結果として出力すればよい。この実施形態では、各音声認識結果候補の順位に基づき昇順に並び替えられたN個の音声認識結果候補を出力するものとする。

音声認識順位推定装置は、例えば、中央演算処理装置（CPU: Central Processing Unit）、主記憶装置（RAM: Random Access Memory）などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識順位推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識順位推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識順位推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識順位推定装置が備える各記憶部は、例えば、RAM（Random Access Memory）などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声認識順位推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ（Flash Memory）のような半導体メモリ素子により構成される補助記憶装置により構成し、音声認識順位推定装置の外部に備える構成としてもよい。

以下、各部について説明する。
＜誤り訂正スコア計算部１１０＞
入力：N個の音声認識結果候補の単語系列w_n
出力：N個の誤り訂正スコアS_error,n
誤り訂正スコア計算部１１０は、N個の音声認識結果候補の単語系列w_nから音声認識結果候補の単語系列に対する単語分散表現系列と音声認識結果候補の分散表現を求め、求めた単語分散表現系列と分散表現とを誤り訂正モデルの入力とし、誤り訂正モデルの出力である音声認識結果候補の単語系列ごとのN個の誤り訂正スコアS_error,nを求める（Ｓ１１０）。なお、n=1,2,…,Nとし、n番目の音声認識結果候補の単語系列には、T_n個の単語が含まれるものとし、単語系列w_n={w_n,1,w_n,2,…,w_{n,T_n}}と表現し、t=1,2,…,T_nとし、w_n,tをn番目の音声認識結果候補の単語系列w_nに含まれるt番目の単語とする。なお、下付き添え字A_BはA_Bを意味する。なお、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、訂正スコアを出力するモデルである。また、誤り訂正スコアは、音声認識誤りを考慮した、入力された音声認識結果候補の単語系列の尤もらしさを示すものである。誤り訂正スコアの計算方法の詳細は後述する。
＜音声認識結果候補順位付け部１２０＞
入力：N個の誤り訂正スコアS_error,n、(必要に応じてN個の音声認識スコアS_ASR,n)
出力：各音声認識結果候補の順位に基づき昇順に並び替えられたN個の音声認識結果候補
音声認識結果候補順位付け部１２０は、N個の誤り訂正スコアS_error,nを用いて音声認識結果候補の順位付けを行い(Ｓ１２０)、順位付けの結果を出力する。例えば、
(1)N個の誤り訂正スコアS_error,nを用いて音声認識結果候補の順位付けを行う。例えば、誤り訂正スコアS_error,nが大きいほど高い順位を付ける。

(2)N個の誤り訂正スコアS_error,nとN個の音声認識スコアS_ASR,nとを用いて、新たなスコアS_new,nを求め、このスコアS_new,nを用いて音声認識結果候補の順位付けを行う。例えば、スコアS_new,nが大きいほど高い順位を付ける。例えば、スコアS_new,nは以下のように計算する。
S_new,n=(1-λ)S_ASR,n+λS_error,n
なお、λは誤り訂正スコアS_error,nの重みであり、0＜λ≦1である。λ=1のとき上述の(1)と同じ順位付けとなるため、(1)は(2)の一例とも言える。なお、N個の音声認識スコアS_ASR,nは、音声認識結果候補を求める際に算出された値を用いればよい。本実施形態では、(2)の方法により、順位付けを行うものとする。よって、本実施形態の音声認識順位推定装置１００は、N個の音声認識結果候補の単語系列w_nとともに、N個の音声認識スコアS_ASR,nを入力する。
＜誤り訂正スコア計算部１１０の詳細＞
図３は、誤り訂正スコア計算部１１０の機能ブロック図を示す。

誤り訂正スコア計算部１１０は、音声認識結果候補単語分散表現系列変換部１１１と、音声認識結果候補分散表現系列変換部１１２と、音声認識結果候補単語系列生起確率計算部１１３とを含む。

誤り訂正スコア計算部１１０は、音声認識の過程で得られたN個の音声認識結果候補の単語系列w_nを音声認識結果候補の分散表現に変換する。まず音声認識結果候補の単語系列w_nの各単語w_n,tを分散表現に変換し、その分散表現の系列を1つの分散表現に変換したものを音声認識結果候補の分散表現とする。

以下、各部の処理内容を説明する。
（音声認識結果候補単語分散表現系列変換部１１１）
入力：N個の音声認識結果候補の単語系列w_n
出力：N個の音声認識結果候補の単語分散表現系列E_n
音声認識結果候補単語分散表現系列変換部１１１は、N個の音声認識結果候補のn番目の単語系列w_n内のt番目の単語w_n,tの音声認識結果候補の単語分散表現を以下のように計算する。
E_n,t=EMBEDDING(w_n,t)
ここでE_n,tは単語w_n,tの分散表現であり、EMBEDDING()は線形変換を表している。同様の処理を音声認識結果候補単語系列w_n内の全ての単語w_n,tに対して行う。なお、T_n個の単語分散表現E_n,tからなる単語分散表現系列をE_n={E_n,1,E_n,2,…,E_{n,T_n}}と表現する。

以上の処理をN個の音声認識結果候補の単語系列w_nに対して行い、N個の音声認識結果候補の単語分散表現系列E_nを得る。
（音声認識結果候補分散表現系列変換部１１２）
入力：N個の音声認識結果候補の単語分散表現系列E_n
出力：N個の音声認識結果候補の分散表現C_n
音声認識結果候補分散表現系列変換部１１２は、音声認識結果候補単語分散表現系列変換部１１１で獲得したT_n個の単語分散表現E_n,tからなる単語分散表現系列E_nを1つの分散表現C_nに変換する。音声認識結果候補の分散表現は以下のように計算する。
C_n=RNN(E_n,1,E_n,2,…,E_{n,T_n})
ここで、C_nは音声認識結果候補の単語系列w_nをRNNにより変換した連続値ベクトルである。また、RNN()は可変長のベクトルの系列を連続値ベクトルに変換する機能を持つ関数である。

以上の処理をN個の音声認識結果候補の単語分散表現系列E_nに対して行い、N個の音声認識結果候補の分散表現C_nを得る。
（音声認識結果候補単語系列生起確率計算部１１３）
入力：N個の音声認識結果候補の単語分散表現系列E_n、N個の音声認識結果候補の分散表現C_n
出力：N個の誤り訂正スコアS_error,n
音声認識結果候補単語系列生起確率計算部１１３は、N個の音声認識結果候補の単語分散表現系列E_nと、N個の音声認識結果候補の分散表現C_nとを用いて、これらの値を誤り訂正モデルの入力とし、N個の音声認識結果候補の誤り訂正スコアS_error,nを計算する。まず、音声認識結果候補単語系列生起確率計算部１１３は、音声認識結果候補の単語系列w_n内の単語w_n,tの生起確率の計算を行う。音声認識結果候補の単語系列内の単語w_n,t+1の生起確率は以下のように計算する。
h_n,t=RNN(E_n,t,C_n)
O_n,t+1=DISTRIBUTE(h_n,t)
ここでh_n,tは連続値からなるベクトルである。また、O_n,t+1は対象とする全ての単語(例えばコーパス内に含まれる全ての単語)の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。RNN()は連続値ベクトル系列を固定長の連続値ベクトルに変換する機能を持つ関数であり、その機能を持つ関数であれば任意のものを利用できる。例えば、RNN(Recurrent neural network)を用いることができる。RNNの機能の詳細は前述の通り非特許文献１を参考にされたい。DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率を計算する関数であり、例えばsoftmax関数を用いることができる。softmax関数に関しては公知の技術であるためここでは説明を省略する。単語w_n,t+1の生起確率はO_n,t+1における単語w_n,t+1に対応する値となる。音声認識結果候補の単語系列w_n内の各単語w_n,tの生起確率を求め、T_n個の生起確率の総積を単語系列w_nの誤り訂正スコアS_error,nとする。

音声認識結果候補単語系列生起確率計算部１１３は、上記をN個の単語系列w_nに対して行い、N個の誤り訂正スコアS_error,nを求める。

図４は、音声認識順位推定装置１００におけるN=3の場合の処理結果の例を示す。
＜効果＞
このようにして求めた順位付けの結果を用いることで、音声認識誤りを考慮した音声認識結果候補のリランキングが可能となり、より認識精度の高い認識結果が獲得できる。
＜学習方法＞
以下、誤り訂正モデルの学習方法について説明する。

学習装置２００は、学習部２１０を含む。図５は学習装置２００の機能ブロック図を示す。
＜学習部２１０＞
入力：P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組
出力：誤り訂正モデル
学習部２１０は、P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組を用いて、誤り訂正モデルを学習する。p=1,2,…,Pとし、p番目の組をS_pとし、組S_pには、Q_p個の学習用音声認識結果候補の単語系列と1個の正解文の単語系列とが含まれるものとする。なお、Q_pは1以上の整数の何れかである。Q_p個の学習用音声認識結果候補の単語系列には、正解文の単語系列とは異なる学習用音声認識結果候補の単語系列が含まれる。また、Q_p個の学習用音声認識結果候補の単語系列には、正解文の単語系列と同じ単語系列が含まれてもよいし、含まれなくともよい。q_p=1,2,…,Q_pとし、組S_pに含まれるQ_p個の学習用音声認識結果候補の単語系列の中のq_p番目の学習用音声認識結果候補の単語系列には、T_{q_p}個の単語が含まれるものとし、w_{q_p}={w_{q_p,1},w_{q_p,2},…,w_{q_p,T_q_p}}と表現する。なお、t=1,2,…,T_{q_p}とし、w_{q_p,t}は、q_p番目の学習用音声認識結果候補の単語系列w_{q_p}に含まれるt番目の単語を意味する。

組S_pは、例えば、以下のような組である。
(1)1つの音声認識結果候補を入力する方法
1つの音声データに対する複数の学習用音声認識結果候補の単語系列の中から1つの学習用音声認識結果候補の単語系列を選択する。組S_pを選択した単語系列と正解文の単語系列との組とし(Q_p=1)、正解文の単語系列をターゲットとして学習を行う。つまり、複数の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列は1つだけである。例えば、音声認識スコアS_ASRが最も大きい学習用音声認識結果候補の単語系列や、最も小さい学習用音声認識結果候補の単語系列を用いる方法等が考えられる。
(2)複数の音声認識結果候補を別々に入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組S_pを選択したL個の学習用音声認識結果候補の単語系列のうちの1個と正解文の単語系列との組とし(Q_p=1)、正解文の単語系列をターゲットとして学習を行う。L個の学習用音声認識結果候補の単語系列全てについて、それぞれ正解文の単語系列との組とし、学習を行う。上述の(1)とは異なり、J個の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列はL個である。なお、Jは1つの音声データに対する推定される全ての学習用音声認識結果候補の個数を表し、Lは1以上J以下の整数の何れかである。例えば、音声認識スコアS_ASRが大きい順、または小さい順にL個の学習用音声認識結果候補の単語系列を選択する。
(3)複数の音声認識結果候補をまとめて入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組S_pを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とし(Q_p=L)、正解文の単語系列をターゲットとして学習を行う。上述の(2)とは異なり、組S_pを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とする。L個の学習用音声認識結果候補の単語系列の選択方法は(2)と同様である。例えば、L個の学習用音声認識結果候補の単語系列としてコンフュージョンネットワークのような複数の音声認識結果候補がまとまったものを用いる。

例えば、学習部２１０は、音声認識結果候補単語分散表現系列変換部２１１と音声認識結果候補分散表現系列変換部２１２とモデル学習部２１３とを含む。
（音声認識結果候補単語分散表現系列変換部２１１）
入力：P個の組S_p(1つの組S_pには、Q_p個の学習用音声認識結果候補の単語系列w_{q_p}と1個の正解文の単語系列とが含まれる)
出力：P個の組R_p(1つの組R_pには、Q_p個の学習用音声認識結果候補の単語分散表現系列E_{q_p}と1個の正解文の単語分散表現系列とが含まれる)
音声認識結果候補単語分散表現系列変換部２１１は、P個の組のp番目の組S_pに含まれるQ_p個の学習用音声認識結果候補の単語系列のq_p番目の単語系列w_{q_p}内のt番目の単語w_{q_p,t}の学習用音声認識結果候補の単語分散表現を以下のように計算する。
E_{q_p,t}=EMBEDDING(w_{q_p,t})
ここでE_{q_p,t}は単語w_{q_p,t}の分散表現である。同様の処理を学習用音声認識結果候補単語系列w_{q_p}内の全ての単語w_{q_p,t}に対して行う。

音声認識結果候補単語分散表現系列変換部２１１は、以上の処理をQ_p個の音声認識結果候補の単語系列w_{q_p}に対して行い、Q_p個の音声認識結果候補の単語分散表現系列E_{q_}を得る。なお、T_{q_p}個の単語分散表現E_{q_p,t}からなる単語分散表現系列をE_{q_p}={E_n,1,E_n,2,…,E_{n,T_q_p}}と表現する。

また、音声認識結果候補単語分散表現系列変換部２１１は、学習用音声認識結果候補単語系列w_{q_p}に行った処理と同様の処理を1個の正解文の単語系列に対して行い、正解文の単語分散表現系列を得る。

さらに、音声認識結果候補単語分散表現系列変換部２１１は、P個の組S_p全てに対して同様の処理を行う。
（音声認識結果候補分散表現系列変換部２１２）
入力：P個の音声認識結果候補の単語分散表現系列E_{q_p}
出力：P個の音声認識結果候補の分散表現C_{q_p}
音声認識結果候補分散表現系列変換部２１２は、音声認識結果候補単語分散表現系列変換部２１１で獲得した単語分散表現系列E_{q_p}を1つの分散表現C_{q_p}に変換する。音声認識結果候補の分散表現は以下のように計算する。
C_{q_p}=RNN(E_{q_p,1},E_{q_p,2},…,E_{q_p,T_q_p})
ここで、C_{q_p}は音声認識結果候補の単語系列w_{q_p}をRNNにより変換した連続値ベクトルである。

以上の処理をP個の音声認識結果候補の単語分散表現系列E_{q_p}に対して行い、P個の音声認識結果候補の分散表現C_{q_p}を得る。
（モデル学習部２１３）
入力：P個の音声認識結果候補の分散表現C_{q_p}、1個の正解文の単語分散表現系列
出力：誤り訂正モデル
モデル学習部２１３は、P個の音声認識結果候補の分散表現C_{q_p}と正解文の単語分散表現系列との組を用いて、誤り訂正モデルを学習する。誤り訂正モデルは、ニューラルネットワークからなる。例えば、RNNからなる。例えば、音声認識結果候補の分散表現C_{q_p}を用いて、正解文の各単語の単語分散表現系列に対する誤り訂正スコアが高くなるように誤り訂正モデルのモデルパラメータを更新する。

また、音声認識結果候補順位付け部１２０で用いる誤り訂正スコアS_error,nの重みλは、データを学習用と検証用のデータに分割し、検証用のデータを用いて調整する。例えば、λを0.1ごとに変化させて最も検証用データの音声認識精度が大きいときのλを評価時に利用する。
＜変形例＞
本実施形態では、順位付け時も学習時も音声認識結果候補の単語系列を入力としているが、音声データを入力とし、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求める構成としてもよい。図示しない音声認識部については、音声データから音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。
＜その他の変形例＞
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
＜プログラム及び記録媒体＞
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習部を含み、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
前記学習部は、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
学習装置。
請求項１の学習装置であって、
前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
学習装置。
音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算部と、
前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付け部とを含み、
前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
音声認識順位推定装置。
請求項３の音声認識順位推定装置であって、
前記音声認識結果候補順位付け部は、
前記音声認識結果候補の単語系列ごとの音声認識スコアと前記誤り訂正スコアとを重み付け加算して算出したスコアを用いて、前記音声認識結果候補の順位付けを行なう、
音声認識順位推定装置。
学習部が、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習ステップを含み、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
前記学習ステップは、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
学習方法。
請求項５の学習方法であって、
前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
学習方法。
誤り訂正スコア計算部が、音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算ステップと、
音声認識結果候補順位付け部が、前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付けステップとを含み、
前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
音声認識順位推定方法。
請求項１もしくは請求項２の学習装置、または、請求項３もしくは請求項４の音声認識順位推定装置としてコンピュータを機能させるためのプログラム。