[go: up one dir, main page]

JP7070653B2 - 学習装置、音声認識順位推定装置、それらの方法、およびプログラム - Google Patents

学習装置、音声認識順位推定装置、それらの方法、およびプログラム Download PDF

Info

Publication number
JP7070653B2
JP7070653B2 JP2020501756A JP2020501756A JP7070653B2 JP 7070653 B2 JP7070653 B2 JP 7070653B2 JP 2020501756 A JP2020501756 A JP 2020501756A JP 2020501756 A JP2020501756 A JP 2020501756A JP 7070653 B2 JP7070653 B2 JP 7070653B2
Authority
JP
Japan
Prior art keywords
speech recognition
recognition result
result candidate
error correction
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020501756A
Other languages
English (en)
Other versions
JPWO2019163718A1 (ja
Inventor
智大 田中
亮 増村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019163718A1 publication Critical patent/JPWO2019163718A1/ja
Application granted granted Critical
Publication of JP7070653B2 publication Critical patent/JP7070653B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声認識をして得られる認識結果の誤りを訂正する技術に関する。
音声認識システムにおいて、認識の過程で得られる複数の認識結果の候補(以下、音声認識結果候補ともいう)をリランキングすることで音声認識精度が改善することが知られている。特にRecurrent Neural Network(RNN)言語モデルを用いたリランキングが広く用いられている(非特許文献1参照)。ここではRNNに関しては公知の技術であるため省略する。RNN言語モデルでは、入力単語を連続値からなる固定長のベクトルに変換してRNNに入力し、得られた固定長のベクトルを識別関数に入力することで次に出現する単語の生起確率を計算する。入力される単語系列を{w1,w2,…,wT}と表す場合、系列内の単語wt+1(ただし、t=1,2,…,T)の生起確率は以下のように推定する。
Et=EMBEDDING(wt)
ht=RNN(Et)
Ot+1=DISTRIBUTE(ht)
ここでEtは単語wtの単語分散表現である。なお、単語分散表現とは、単語を高次元の実数ベクトルで表現したもの(単語ベクトル)である。例えば、コーパス等に含まれる全ての単語に対応する次元を持ち、表現しようとする単語に対応する次元の値を1とし、他の次元の値を0とするベクトルである。htは、単語分散表現系列EtをRNNにより変換した連続値からなる固定長のベクトルである。また、Ot+1は、コーパス等に含まれる全ての単語の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。EMBEDDING()は単語を単語分散表現(単語ベクトル)に変換する機能を持つ関数であり、RNN()はRNNの機能を持つ関数であり、DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率の計算を行う関数である。EMBEDDING()については線形変換の関数、DISTRIBUTE()についてはsoftmax関数を用いることができる。softmax関数については公知の技術であるためここではその説明を省略する。上記で計算されたOt+1において、単語wt+1に対応する次元の値を単語wt+1の生起確率とする。個々の処理の詳細については非特許文献1を参考にされたい。
RNN言語モデルを用いて音声認識の認識結果のリランキングを行う場合、音声認識の過程で得られる認識結果の上位N個の音声認識結果候補をRNN言語モデルにそれぞれ入力し、各音声認識結果候補の全ての単語に対して生起確率を計算する。ただし、Nは2以上の整数の何れかである。得られた生起確率からRNN言語モデルのスコアを計算し、前段の音声認識で得られるスコアと組み合わせることによりN個の音声認識結果候補のスコア付けを行い、スコアに応じて各音声認識結果候補の順が決定する。
Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan Cernocky, Sanjeev Khudanpur, "Recurrent Neural Network Based Language Model", In Proc. INTERSPEECH, pp. 1045-1048, 2010.
しかしながら、RNN言語モデルを用いた従来の手法の場合、文脈を考慮したモデル化が行われているものの、音声認識誤りを考慮できていない。
音声認識誤りを考慮したモデル化によりさらなる認識精度の改善が可能となる。そこで、本発明は、音声認識誤りを考慮したモデルの学習装置、そのモデルを用いた音声認識順位推定装置、それらの方法、およびプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、学習装置は、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習部を含み、音声認識結果候補には正解文とは異なる音声認識結果候補が含まれ、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである。
上記の課題を解決するために、本発明の他の態様によれば、学習方法は、学習部が、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習ステップを含み、音声認識結果候補には正解文とは異なる音声認識結果候補が含まれ、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである。
本発明によれば、音声認識誤りを考慮したモデル化が可能となる。また、音声認識誤りを考慮したモデルを用いることで、音声認識誤りを考慮した音声認識結果候補のリランキングが可能となり、より認識精度の高い認識結果が獲得できるという効果を奏する。
第一実施形態に係る音声認識順位推定装置の機能ブロック図。 第一実施形態に係る音声認識順位推定装置の処理フローの例を示す図。 誤り訂正スコア計算部の機能ブロック図。 N=3の場合の処理結果の例を示す図。 第一実施形態に係る学習装置の機能ブロック図。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
本発明では、前述のRNN言語モデルを用いたリランキングにおいて、Sequence-to-Sequence(Seq2Seq)モデル(参考文献1参照)により音声認識誤りを扱う枠組みを取り入れる。
(参考文献1)Ilya Sutskever, Oriol Vinyals, Quoc V. Le, “Sequence to Sequence Learning with Neural Networks”, In Proc. NIPS, pp. 3104-3112, 2014.
Seq2Seqモデルは、可変長の系列情報を入力として、可変長の系列を出力することができるモデルである。音声認識誤りを含んだ単語系列と、音声認識誤りを含まない単語系列の系列長は異なる。Seq2Seqモデルにより、この系列長の異なる2つの系列を扱うことが可能となる。また、Seq2Seqの構造の一つとして注意機構(参考文献2)を利用することもできる。
(参考文献2)Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, In Proc. EMNLP, pp. 1412-1421, 2015.
従来のRNN言語モデルでは音声認識誤りを含まない単語系列を用いてモデルの学習を行う。一方、本実施形態では、音声認識誤りを含む音声認識結果候補の単語系列と音声認識誤りを含まない正解文の単語系列とを入力とし、ターゲットを正解文として学習を行うことで、音声認識誤りのモデル化を可能とする。
<第一実施形態>
図1は第一実施形態に係る音声認識順位推定装置100の機能ブロック図を、図2はその処理フローを示す。
音声認識順位推定装置100は、誤り訂正スコア計算部110と、音声認識結果候補順位付け部120とを含む。
音声認識順位推定装置100は、N個の音声認識結果候補の単語系列を入力とし、N個の音声認識結果候補に対して順位付けを行い、その結果を出力する。ただし、Nは2以上の整数の何れかである。順位付けの結果として、N個の音声認識結果候補と各音声認識結果候補の順位との組を出力してもよいし、N個の音声認識結果候補の中の上位M個の音声認識結果候補を降順、または、昇順に出力してもよい(この場合、出力の順番が順位と対応する)。要は、音声認識順位推定装置100の後段においてどのような処理を行うのかに応じて適切な値を出力すればよい。例えば、音声認識結果を出力する場合には、M=1とし、最も順位の高い音声認識結果候補を音声認識結果として出力すればよい。この実施形態では、各音声認識結果候補の順位に基づき昇順に並び替えられたN個の音声認識結果候補を出力するものとする。
音声認識順位推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。音声認識順位推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。音声認識順位推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。音声認識順位推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。音声認識順位推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも音声認識順位推定装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、音声認識順位推定装置の外部に備える構成としてもよい。
以下、各部について説明する。
<誤り訂正スコア計算部110>
入力:N個の音声認識結果候補の単語系列wn
出力:N個の誤り訂正スコアSerror,n
誤り訂正スコア計算部110は、N個の音声認識結果候補の単語系列wnから音声認識結果候補の単語系列に対する単語分散表現系列と音声認識結果候補の分散表現を求め、求めた単語分散表現系列と分散表現とを誤り訂正モデルの入力とし、誤り訂正モデルの出力である音声認識結果候補の単語系列ごとのN個の誤り訂正スコアSerror,nを求める(S110)。なお、n=1,2,…,Nとし、n番目の音声認識結果候補の単語系列には、Tn個の単語が含まれるものとし、単語系列wn={wn,1,wn,2,…,wn,T_n}と表現し、t=1,2,…,Tnとし、wn,tをn番目の音声認識結果候補の単語系列wnに含まれるt番目の単語とする。なお、下付き添え字A_BはABを意味する。なお、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、訂正スコアを出力するモデルである。また、誤り訂正スコアは、音声認識誤りを考慮した、入力された音声認識結果候補の単語系列の尤もらしさを示すものである。誤り訂正スコアの計算方法の詳細は後述する。
<音声認識結果候補順位付け部120>
入力:N個の誤り訂正スコアSerror,n、(必要に応じてN個の音声認識スコアSASR,n)
出力:各音声認識結果候補の順位に基づき昇順に並び替えられたN個の音声認識結果候補
音声認識結果候補順位付け部120は、N個の誤り訂正スコアSerror,nを用いて音声認識結果候補の順位付けを行い(S120)、順位付けの結果を出力する。例えば、
(1)N個の誤り訂正スコアSerror,nを用いて音声認識結果候補の順位付けを行う。例えば、誤り訂正スコアSerror,nが大きいほど高い順位を付ける。
(2)N個の誤り訂正スコアSerror,nとN個の音声認識スコアSASR,nとを用いて、新たなスコアSnew,nを求め、このスコアSnew,nを用いて音声認識結果候補の順位付けを行う。例えば、スコアSnew,nが大きいほど高い順位を付ける。例えば、スコアSnew,nは以下のように計算する。
Snew,n=(1-λ)SASR,n+λSerror,n
なお、λは誤り訂正スコアSerror,nの重みであり、0<λ≦1である。λ=1のとき上述の(1)と同じ順位付けとなるため、(1)は(2)の一例とも言える。なお、N個の音声認識スコアSASR,nは、音声認識結果候補を求める際に算出された値を用いればよい。本実施形態では、(2)の方法により、順位付けを行うものとする。よって、本実施形態の音声認識順位推定装置100は、N個の音声認識結果候補の単語系列wnとともに、N個の音声認識スコアSASR,nを入力する。
<誤り訂正スコア計算部110の詳細>
図3は、誤り訂正スコア計算部110の機能ブロック図を示す。
誤り訂正スコア計算部110は、音声認識結果候補単語分散表現系列変換部111と、音声認識結果候補分散表現系列変換部112と、音声認識結果候補単語系列生起確率計算部113とを含む。
誤り訂正スコア計算部110は、音声認識の過程で得られたN個の音声認識結果候補の単語系列wnを音声認識結果候補の分散表現に変換する。まず音声認識結果候補の単語系列wnの各単語wn,tを分散表現に変換し、その分散表現の系列を1つの分散表現に変換したものを音声認識結果候補の分散表現とする。
以下、各部の処理内容を説明する。
(音声認識結果候補単語分散表現系列変換部111)
入力:N個の音声認識結果候補の単語系列wn
出力:N個の音声認識結果候補の単語分散表現系列En
音声認識結果候補単語分散表現系列変換部111は、N個の音声認識結果候補のn番目の単語系列wn内のt番目の単語wn,tの音声認識結果候補の単語分散表現を以下のように計算する。
En,t=EMBEDDING(wn,t)
ここでEn,tは単語wn,tの分散表現であり、EMBEDDING()は線形変換を表している。同様の処理を音声認識結果候補単語系列wn内の全ての単語wn,tに対して行う。なお、Tn個の単語分散表現En,tからなる単語分散表現系列をEn={En,1,En,2,…,En,T_n}と表現する。
以上の処理をN個の音声認識結果候補の単語系列wnに対して行い、N個の音声認識結果候補の単語分散表現系列Enを得る。
(音声認識結果候補分散表現系列変換部112)
入力:N個の音声認識結果候補の単語分散表現系列En
出力:N個の音声認識結果候補の分散表現Cn
音声認識結果候補分散表現系列変換部112は、音声認識結果候補単語分散表現系列変換部111で獲得したTn個の単語分散表現En,tからなる単語分散表現系列Enを1つの分散表現Cnに変換する。音声認識結果候補の分散表現は以下のように計算する。
Cn=RNN(En,1,En,2,…,En,T_n)
ここで、Cnは音声認識結果候補の単語系列wnをRNNにより変換した連続値ベクトルである。また、RNN()は可変長のベクトルの系列を連続値ベクトルに変換する機能を持つ関数である。
以上の処理をN個の音声認識結果候補の単語分散表現系列Enに対して行い、N個の音声認識結果候補の分散表現Cnを得る。
(音声認識結果候補単語系列生起確率計算部113)
入力:N個の音声認識結果候補の単語分散表現系列En、N個の音声認識結果候補の分散表現Cn
出力:N個の誤り訂正スコアSerror,n
音声認識結果候補単語系列生起確率計算部113は、N個の音声認識結果候補の単語分散表現系列Enと、N個の音声認識結果候補の分散表現Cnとを用いて、これらの値を誤り訂正モデルの入力とし、N個の音声認識結果候補の誤り訂正スコアSerror,nを計算する。まず、音声認識結果候補単語系列生起確率計算部113は、音声認識結果候補の単語系列wn内の単語wn,tの生起確率の計算を行う。音声認識結果候補の単語系列内の単語wn,t+1の生起確率は以下のように計算する。
hn,t=RNN(En,t,Cn)
On,t+1=DISTRIBUTE(hn,t)
ここでhn,tは連続値からなるベクトルである。また、On,t+1は対象とする全ての単語(例えばコーパス内に含まれる全ての単語)の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。RNN()は連続値ベクトル系列を固定長の連続値ベクトルに変換する機能を持つ関数であり、その機能を持つ関数であれば任意のものを利用できる。例えば、RNN(Recurrent neural network)を用いることができる。RNNの機能の詳細は前述の通り非特許文献1を参考にされたい。DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率を計算する関数であり、例えばsoftmax関数を用いることができる。softmax関数に関しては公知の技術であるためここでは説明を省略する。単語wn,t+1の生起確率はOn,t+1における単語wn,t+1に対応する値となる。音声認識結果候補の単語系列wn内の各単語wn,tの生起確率を求め、Tn個の生起確率の総積を単語系列wnの誤り訂正スコアSerror,nとする。
音声認識結果候補単語系列生起確率計算部113は、上記をN個の単語系列wnに対して行い、N個の誤り訂正スコアSerror,nを求める。
図4は、音声認識順位推定装置100におけるN=3の場合の処理結果の例を示す。
<効果>
このようにして求めた順位付けの結果を用いることで、音声認識誤りを考慮した音声認識結果候補のリランキングが可能となり、より認識精度の高い認識結果が獲得できる。
<学習方法>
以下、誤り訂正モデルの学習方法について説明する。
学習装置200は、学習部210を含む。図5は学習装置200の機能ブロック図を示す。
<学習部210>
入力:P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組
出力:誤り訂正モデル
学習部210は、P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組を用いて、誤り訂正モデルを学習する。p=1,2,…,Pとし、p番目の組をSpとし、組Spには、Qp個の学習用音声認識結果候補の単語系列と1個の正解文の単語系列とが含まれるものとする。なお、Qpは1以上の整数の何れかである。Qp個の学習用音声認識結果候補の単語系列には、正解文の単語系列とは異なる学習用音声認識結果候補の単語系列が含まれる。また、Qp個の学習用音声認識結果候補の単語系列には、正解文の単語系列と同じ単語系列が含まれてもよいし、含まれなくともよい。qp=1,2,…,Qpとし、組Spに含まれるQp個の学習用音声認識結果候補の単語系列の中のqp番目の学習用音声認識結果候補の単語系列には、Tq_p個の単語が含まれるものとし、wq_p={wq_p,1,wq_p,2,…,wq_p,T_q_p}と表現する。なお、t=1,2,…,Tq_pとし、wq_p,tは、qp番目の学習用音声認識結果候補の単語系列wq_pに含まれるt番目の単語を意味する。
組Spは、例えば、以下のような組である。
(1)1つの音声認識結果候補を入力する方法
1つの音声データに対する複数の学習用音声認識結果候補の単語系列の中から1つの学習用音声認識結果候補の単語系列を選択する。組Spを選択した単語系列と正解文の単語系列との組とし(Qp=1)、正解文の単語系列をターゲットとして学習を行う。つまり、複数の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列は1つだけである。例えば、音声認識スコアSASRが最も大きい学習用音声認識結果候補の単語系列や、最も小さい学習用音声認識結果候補の単語系列を用いる方法等が考えられる。
(2)複数の音声認識結果候補を別々に入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組Spを選択したL個の学習用音声認識結果候補の単語系列のうちの1個と正解文の単語系列との組とし(Qp=1)、正解文の単語系列をターゲットとして学習を行う。L個の学習用音声認識結果候補の単語系列全てについて、それぞれ正解文の単語系列との組とし、学習を行う。上述の(1)とは異なり、J個の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列はL個である。なお、Jは1つの音声データに対する推定される全ての学習用音声認識結果候補の個数を表し、Lは1以上J以下の整数の何れかである。例えば、音声認識スコアSASRが大きい順、または小さい順にL個の学習用音声認識結果候補の単語系列を選択する。
(3)複数の音声認識結果候補をまとめて入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組Spを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とし(Qp=L)、正解文の単語系列をターゲットとして学習を行う。上述の(2)とは異なり、組Spを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とする。L個の学習用音声認識結果候補の単語系列の選択方法は(2)と同様である。例えば、L個の学習用音声認識結果候補の単語系列としてコンフュージョンネットワークのような複数の音声認識結果候補がまとまったものを用いる。
例えば、学習部210は、音声認識結果候補単語分散表現系列変換部211と音声認識結果候補分散表現系列変換部212とモデル学習部213とを含む。
(音声認識結果候補単語分散表現系列変換部211)
入力:P個の組Sp(1つの組Spには、Qp個の学習用音声認識結果候補の単語系列wq_pと1個の正解文の単語系列とが含まれる)
出力:P個の組Rp(1つの組Rpには、Qp個の学習用音声認識結果候補の単語分散表現系列Eq_pと1個の正解文の単語分散表現系列とが含まれる)
音声認識結果候補単語分散表現系列変換部211は、P個の組のp番目の組Spに含まれるQp個の学習用音声認識結果候補の単語系列のqp番目の単語系列wq_p内のt番目の単語wq_p,tの学習用音声認識結果候補の単語分散表現を以下のように計算する。
Eq_p,t=EMBEDDING(wq_p,t)
ここでEq_p,tは単語wq_p,tの分散表現である。同様の処理を学習用音声認識結果候補単語系列wq_p内の全ての単語wq_p,tに対して行う。
音声認識結果候補単語分散表現系列変換部211は、以上の処理をQp個の音声認識結果候補の単語系列wq_pに対して行い、Qp個の音声認識結果候補の単語分散表現系列Eq_を得る。なお、Tq_p個の単語分散表現Eq_p,tからなる単語分散表現系列をEq_p={En,1,En,2,…,En,T_q_p}と表現する。
また、音声認識結果候補単語分散表現系列変換部211は、学習用音声認識結果候補単語系列wq_pに行った処理と同様の処理を1個の正解文の単語系列に対して行い、正解文の単語分散表現系列を得る。
さらに、音声認識結果候補単語分散表現系列変換部211は、P個の組Sp全てに対して同様の処理を行う。
(音声認識結果候補分散表現系列変換部212)
入力:P個の音声認識結果候補の単語分散表現系列Eq_p
出力:P個の音声認識結果候補の分散表現Cq_p
音声認識結果候補分散表現系列変換部212は、音声認識結果候補単語分散表現系列変換部211で獲得した単語分散表現系列Eq_pを1つの分散表現Cq_pに変換する。音声認識結果候補の分散表現は以下のように計算する。
Cq_p=RNN(Eq_p,1,Eq_p,2,…,Eq_p,T_q_p)
ここで、Cq_pは音声認識結果候補の単語系列wq_pをRNNにより変換した連続値ベクトルである。
以上の処理をP個の音声認識結果候補の単語分散表現系列Eq_pに対して行い、P個の音声認識結果候補の分散表現Cq_pを得る。
(モデル学習部213)
入力:P個の音声認識結果候補の分散表現Cq_p、1個の正解文の単語分散表現系列
出力:誤り訂正モデル
モデル学習部213は、P個の音声認識結果候補の分散表現Cq_pと正解文の単語分散表現系列との組を用いて、誤り訂正モデルを学習する。誤り訂正モデルは、ニューラルネットワークからなる。例えば、RNNからなる。例えば、音声認識結果候補の分散表現Cq_pを用いて、正解文の各単語の単語分散表現系列に対する誤り訂正スコアが高くなるように誤り訂正モデルのモデルパラメータを更新する。
また、音声認識結果候補順位付け部120で用いる誤り訂正スコアSerror,nの重みλは、データを学習用と検証用のデータに分割し、検証用のデータを用いて調整する。例えば、λを0.1ごとに変化させて最も検証用データの音声認識精度が大きいときのλを評価時に利用する。
<変形例>
本実施形態では、順位付け時も学習時も音声認識結果候補の単語系列を入力としているが、音声データを入力とし、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求める構成としてもよい。図示しない音声認識部については、音声データから音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習部を含み、
    前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
    前記学習部は、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
    学習装置。
  2. 請求項1の学習装置であって、
    前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
    学習装置。
  3. 音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算部と、
    前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付け部とを含み、
    前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
    前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
    音声認識順位推定装置。
  4. 請求項3の音声認識順位推定装置であって、
    前記音声認識結果候補順位付け部は、
    前記音声認識結果候補の単語系列ごとの音声認識スコアと前記誤り訂正スコアとを重み付け加算して算出したスコアを用いて、前記音声認識結果候補の順位付けを行なう、
    音声認識順位推定装置。
  5. 学習部が、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習ステップを含み、
    前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
    前記学習ステップは、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
    学習方法。
  6. 請求項5の学習方法であって、
    前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
    学習方法。
  7. 誤り訂正スコア計算部が、音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算ステップと、
    音声認識結果候補順位付け部が、前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付けステップとを含み、
    前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
    前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
    音声認識順位推定方法。
  8. 請求項1もしくは請求項2の学習装置、または、請求項3もしくは請求項4の音声認識順位推定装置としてコンピュータを機能させるためのプログラム。
JP2020501756A 2018-02-21 2019-02-18 学習装置、音声認識順位推定装置、それらの方法、およびプログラム Active JP7070653B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018029076 2018-02-21
JP2018029076 2018-02-21
PCT/JP2019/005882 WO2019163718A1 (ja) 2018-02-21 2019-02-18 学習装置、音声認識順位推定装置、それらの方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2019163718A1 JPWO2019163718A1 (ja) 2021-02-04
JP7070653B2 true JP7070653B2 (ja) 2022-05-18

Family

ID=67687677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020501756A Active JP7070653B2 (ja) 2018-02-21 2019-02-18 学習装置、音声認識順位推定装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US11380301B2 (ja)
JP (1) JP7070653B2 (ja)
WO (1) WO2019163718A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210065018A1 (en) * 2019-08-27 2021-03-04 Intuit Inc. Smart Question and Answer Optimizer
KR20220130699A (ko) * 2020-01-21 2022-09-27 구글 엘엘씨 심의 모델 기반 2패스 종단간 음성 인식
WO2022162767A1 (ja) * 2021-01-27 2022-08-04 日本電信電話株式会社 誤り訂正装置、誤り訂正方法、プログラム
US11715458B2 (en) * 2021-03-23 2023-08-01 Google Llc Efficient streaming non-recurrent on-device end-to-end model
CN113345420B (zh) * 2021-06-07 2022-07-08 河海大学 基于萤火虫算法与梯度评估的对抗音频生成方法及系统
US11922926B2 (en) * 2021-09-14 2024-03-05 Capital One Services, Llc Systems and methods for correcting automatic speech recognition errors

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014224860A (ja) 2013-05-15 2014-12-04 日本放送協会 誤り修正モデル学習装置、及びプログラム
WO2018055983A1 (ja) 2016-09-23 2018-03-29 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120052591A (ko) * 2010-11-16 2012-05-24 한국전자통신연구원 연속어 음성인식 시스템에서 오류수정 장치 및 방법
US9959861B2 (en) * 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
KR20180062859A (ko) * 2016-12-01 2018-06-11 포항공과대학교 산학협력단 음성 인식 장치 및 방법
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014224860A (ja) 2013-05-15 2014-12-04 日本放送協会 誤り修正モデル学習装置、及びプログラム
WO2018055983A1 (ja) 2016-09-23 2018-03-29 パナソニックIpマネジメント株式会社 翻訳装置、翻訳システム、および評価サーバ

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小林 彰夫,単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識,電子情報通信学会論文誌 (J93-D) 第5号,日本,社団法人電子情報通信学会,2010年05月01日,第J93-D巻,pp.598-609,特に2.1 識別的リスコアリング

Also Published As

Publication number Publication date
JPWO2019163718A1 (ja) 2021-02-04
WO2019163718A1 (ja) 2019-08-29
US20210090552A1 (en) 2021-03-25
US11380301B2 (en) 2022-07-05

Similar Documents

Publication Publication Date Title
JP7070653B2 (ja) 学習装置、音声認識順位推定装置、それらの方法、およびプログラム
US11604956B2 (en) Sequence-to-sequence prediction using a neural network model
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
US20240412068A1 (en) Integrating a memory layer in a neural network for one-shot learning
JP6712642B2 (ja) モデル学習装置、その方法、及びプログラム
JP6649536B1 (ja) 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム
CN112084301B (zh) 文本修正模型的训练方法及装置、文本修正方法及装置
US20220147721A1 (en) Adapters for zero-shot multilingual neural machine translation
CN111191002A (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN117236410B (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
WO2019208070A1 (ja) 質問応答装置、質問応答方法及びプログラム
WO2023147140A1 (en) Routing to expert subnetworks in mixture-of-experts neural networks
JP6827911B2 (ja) 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム
CN112668317A (zh) 用于确定输出词法单元的方法和设备
WO2021100181A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20210099795A (ko) 준 지도 학습을 위한 오토인코더 기반 그래프 설계
US12242948B2 (en) Systems and methods for routing within multitask mixture-of-experts models
WO2020044755A1 (ja) 音声認識装置、音声認識方法、及びプログラム
JP7593413B2 (ja) 音説明文生成方法、音説明文生成装置、およびプログラム
JP7120064B2 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
CN112990434A (zh) 机器翻译模型的训练方法及相关装置
CN119558372A (zh) 生成式模型的微调方法、装置、设备、介质及产品
JP7411149B2 (ja) 学習装置、推定装置、学習方法、推定方法及びプログラム
JP6633556B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
CN116304728A (zh) 一种基于句子表征的短文本相似度匹配方法及应用

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210827

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220405

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220418

R150 Certificate of patent or registration of utility model

Ref document number: 7070653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350