JP7070653B2 - 学習装置、音声認識順位推定装置、それらの方法、およびプログラム - Google Patents
学習装置、音声認識順位推定装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP7070653B2 JP7070653B2 JP2020501756A JP2020501756A JP7070653B2 JP 7070653 B2 JP7070653 B2 JP 7070653B2 JP 2020501756 A JP2020501756 A JP 2020501756A JP 2020501756 A JP2020501756 A JP 2020501756A JP 7070653 B2 JP7070653 B2 JP 7070653B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition result
- result candidate
- error correction
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Description
Et=EMBEDDING(wt)
ht=RNN(Et)
Ot+1=DISTRIBUTE(ht)
ここでEtは単語wtの単語分散表現である。なお、単語分散表現とは、単語を高次元の実数ベクトルで表現したもの(単語ベクトル)である。例えば、コーパス等に含まれる全ての単語に対応する次元を持ち、表現しようとする単語に対応する次元の値を1とし、他の次元の値を0とするベクトルである。htは、単語分散表現系列EtをRNNにより変換した連続値からなる固定長のベクトルである。また、Ot+1は、コーパス等に含まれる全ての単語の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。EMBEDDING()は単語を単語分散表現(単語ベクトル)に変換する機能を持つ関数であり、RNN()はRNNの機能を持つ関数であり、DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率の計算を行う関数である。EMBEDDING()については線形変換の関数、DISTRIBUTE()についてはsoftmax関数を用いることができる。softmax関数については公知の技術であるためここではその説明を省略する。上記で計算されたOt+1において、単語wt+1に対応する次元の値を単語wt+1の生起確率とする。個々の処理の詳細については非特許文献1を参考にされたい。
<第一実施形態のポイント>
本発明では、前述のRNN言語モデルを用いたリランキングにおいて、Sequence-to-Sequence(Seq2Seq)モデル(参考文献1参照)により音声認識誤りを扱う枠組みを取り入れる。
(参考文献1)Ilya Sutskever, Oriol Vinyals, Quoc V. Le, “Sequence to Sequence Learning with Neural Networks”, In Proc. NIPS, pp. 3104-3112, 2014.
Seq2Seqモデルは、可変長の系列情報を入力として、可変長の系列を出力することができるモデルである。音声認識誤りを含んだ単語系列と、音声認識誤りを含まない単語系列の系列長は異なる。Seq2Seqモデルにより、この系列長の異なる2つの系列を扱うことが可能となる。また、Seq2Seqの構造の一つとして注意機構(参考文献2)を利用することもできる。
(参考文献2)Minh-Thang Luong, Hieu Pham, Christopher D. Manning, “Effective Approaches to Attention-based Neural Machine Translation”, In Proc. EMNLP, pp. 1412-1421, 2015.
従来のRNN言語モデルでは音声認識誤りを含まない単語系列を用いてモデルの学習を行う。一方、本実施形態では、音声認識誤りを含む音声認識結果候補の単語系列と音声認識誤りを含まない正解文の単語系列とを入力とし、ターゲットを正解文として学習を行うことで、音声認識誤りのモデル化を可能とする。
<第一実施形態>
図1は第一実施形態に係る音声認識順位推定装置100の機能ブロック図を、図2はその処理フローを示す。
<誤り訂正スコア計算部110>
入力:N個の音声認識結果候補の単語系列wn
出力:N個の誤り訂正スコアSerror,n
誤り訂正スコア計算部110は、N個の音声認識結果候補の単語系列wnから音声認識結果候補の単語系列に対する単語分散表現系列と音声認識結果候補の分散表現を求め、求めた単語分散表現系列と分散表現とを誤り訂正モデルの入力とし、誤り訂正モデルの出力である音声認識結果候補の単語系列ごとのN個の誤り訂正スコアSerror,nを求める(S110)。なお、n=1,2,…,Nとし、n番目の音声認識結果候補の単語系列には、Tn個の単語が含まれるものとし、単語系列wn={wn,1,wn,2,…,wn,T_n}と表現し、t=1,2,…,Tnとし、wn,tをn番目の音声認識結果候補の単語系列wnに含まれるt番目の単語とする。なお、下付き添え字A_BはABを意味する。なお、誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、訂正スコアを出力するモデルである。また、誤り訂正スコアは、音声認識誤りを考慮した、入力された音声認識結果候補の単語系列の尤もらしさを示すものである。誤り訂正スコアの計算方法の詳細は後述する。
<音声認識結果候補順位付け部120>
入力:N個の誤り訂正スコアSerror,n、(必要に応じてN個の音声認識スコアSASR,n)
出力:各音声認識結果候補の順位に基づき昇順に並び替えられたN個の音声認識結果候補
音声認識結果候補順位付け部120は、N個の誤り訂正スコアSerror,nを用いて音声認識結果候補の順位付けを行い(S120)、順位付けの結果を出力する。例えば、
(1)N個の誤り訂正スコアSerror,nを用いて音声認識結果候補の順位付けを行う。例えば、誤り訂正スコアSerror,nが大きいほど高い順位を付ける。
Snew,n=(1-λ)SASR,n+λSerror,n
なお、λは誤り訂正スコアSerror,nの重みであり、0<λ≦1である。λ=1のとき上述の(1)と同じ順位付けとなるため、(1)は(2)の一例とも言える。なお、N個の音声認識スコアSASR,nは、音声認識結果候補を求める際に算出された値を用いればよい。本実施形態では、(2)の方法により、順位付けを行うものとする。よって、本実施形態の音声認識順位推定装置100は、N個の音声認識結果候補の単語系列wnとともに、N個の音声認識スコアSASR,nを入力する。
<誤り訂正スコア計算部110の詳細>
図3は、誤り訂正スコア計算部110の機能ブロック図を示す。
(音声認識結果候補単語分散表現系列変換部111)
入力:N個の音声認識結果候補の単語系列wn
出力:N個の音声認識結果候補の単語分散表現系列En
音声認識結果候補単語分散表現系列変換部111は、N個の音声認識結果候補のn番目の単語系列wn内のt番目の単語wn,tの音声認識結果候補の単語分散表現を以下のように計算する。
En,t=EMBEDDING(wn,t)
ここでEn,tは単語wn,tの分散表現であり、EMBEDDING()は線形変換を表している。同様の処理を音声認識結果候補単語系列wn内の全ての単語wn,tに対して行う。なお、Tn個の単語分散表現En,tからなる単語分散表現系列をEn={En,1,En,2,…,En,T_n}と表現する。
(音声認識結果候補分散表現系列変換部112)
入力:N個の音声認識結果候補の単語分散表現系列En
出力:N個の音声認識結果候補の分散表現Cn
音声認識結果候補分散表現系列変換部112は、音声認識結果候補単語分散表現系列変換部111で獲得したTn個の単語分散表現En,tからなる単語分散表現系列Enを1つの分散表現Cnに変換する。音声認識結果候補の分散表現は以下のように計算する。
Cn=RNN(En,1,En,2,…,En,T_n)
ここで、Cnは音声認識結果候補の単語系列wnをRNNにより変換した連続値ベクトルである。また、RNN()は可変長のベクトルの系列を連続値ベクトルに変換する機能を持つ関数である。
(音声認識結果候補単語系列生起確率計算部113)
入力:N個の音声認識結果候補の単語分散表現系列En、N個の音声認識結果候補の分散表現Cn
出力:N個の誤り訂正スコアSerror,n
音声認識結果候補単語系列生起確率計算部113は、N個の音声認識結果候補の単語分散表現系列Enと、N個の音声認識結果候補の分散表現Cnとを用いて、これらの値を誤り訂正モデルの入力とし、N個の音声認識結果候補の誤り訂正スコアSerror,nを計算する。まず、音声認識結果候補単語系列生起確率計算部113は、音声認識結果候補の単語系列wn内の単語wn,tの生起確率の計算を行う。音声認識結果候補の単語系列内の単語wn,t+1の生起確率は以下のように計算する。
hn,t=RNN(En,t,Cn)
On,t+1=DISTRIBUTE(hn,t)
ここでhn,tは連続値からなるベクトルである。また、On,t+1は対象とする全ての単語(例えばコーパス内に含まれる全ての単語)の生起確率を含むベクトルであり、各単語に対応した生起確率を各次元の値とするベクトルである。RNN()は連続値ベクトル系列を固定長の連続値ベクトルに変換する機能を持つ関数であり、その機能を持つ関数であれば任意のものを利用できる。例えば、RNN(Recurrent neural network)を用いることができる。RNNの機能の詳細は前述の通り非特許文献1を参考にされたい。DISTRIBUTE()は固定長のベクトルから全ての単語の生起確率を計算する関数であり、例えばsoftmax関数を用いることができる。softmax関数に関しては公知の技術であるためここでは説明を省略する。単語wn,t+1の生起確率はOn,t+1における単語wn,t+1に対応する値となる。音声認識結果候補の単語系列wn内の各単語wn,tの生起確率を求め、Tn個の生起確率の総積を単語系列wnの誤り訂正スコアSerror,nとする。
<効果>
このようにして求めた順位付けの結果を用いることで、音声認識誤りを考慮した音声認識結果候補のリランキングが可能となり、より認識精度の高い認識結果が獲得できる。
<学習方法>
以下、誤り訂正モデルの学習方法について説明する。
<学習部210>
入力:P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組
出力:誤り訂正モデル
学習部210は、P個の、学習用音声認識結果候補の単語系列と正解文の単語系列との組を用いて、誤り訂正モデルを学習する。p=1,2,…,Pとし、p番目の組をSpとし、組Spには、Qp個の学習用音声認識結果候補の単語系列と1個の正解文の単語系列とが含まれるものとする。なお、Qpは1以上の整数の何れかである。Qp個の学習用音声認識結果候補の単語系列には、正解文の単語系列とは異なる学習用音声認識結果候補の単語系列が含まれる。また、Qp個の学習用音声認識結果候補の単語系列には、正解文の単語系列と同じ単語系列が含まれてもよいし、含まれなくともよい。qp=1,2,…,Qpとし、組Spに含まれるQp個の学習用音声認識結果候補の単語系列の中のqp番目の学習用音声認識結果候補の単語系列には、Tq_p個の単語が含まれるものとし、wq_p={wq_p,1,wq_p,2,…,wq_p,T_q_p}と表現する。なお、t=1,2,…,Tq_pとし、wq_p,tは、qp番目の学習用音声認識結果候補の単語系列wq_pに含まれるt番目の単語を意味する。
(1)1つの音声認識結果候補を入力する方法
1つの音声データに対する複数の学習用音声認識結果候補の単語系列の中から1つの学習用音声認識結果候補の単語系列を選択する。組Spを選択した単語系列と正解文の単語系列との組とし(Qp=1)、正解文の単語系列をターゲットとして学習を行う。つまり、複数の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列は1つだけである。例えば、音声認識スコアSASRが最も大きい学習用音声認識結果候補の単語系列や、最も小さい学習用音声認識結果候補の単語系列を用いる方法等が考えられる。
(2)複数の音声認識結果候補を別々に入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組Spを選択したL個の学習用音声認識結果候補の単語系列のうちの1個と正解文の単語系列との組とし(Qp=1)、正解文の単語系列をターゲットとして学習を行う。L個の学習用音声認識結果候補の単語系列全てについて、それぞれ正解文の単語系列との組とし、学習を行う。上述の(1)とは異なり、J個の学習用音声認識結果候補の単語系列の中で、学習に使われる学習用音声認識結果候補の単語系列はL個である。なお、Jは1つの音声データに対する推定される全ての学習用音声認識結果候補の個数を表し、Lは1以上J以下の整数の何れかである。例えば、音声認識スコアSASRが大きい順、または小さい順にL個の学習用音声認識結果候補の単語系列を選択する。
(3)複数の音声認識結果候補をまとめて入力する方法
1つの音声データに対するJ個の学習用音声認識結果候補の単語系列の中からL個の学習用音声認識結果候補の単語系列を選択し、組Spを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とし(Qp=L)、正解文の単語系列をターゲットとして学習を行う。上述の(2)とは異なり、組Spを選択したL個の学習用音声認識結果候補の単語系列全てと正解文の単語系列との組とする。L個の学習用音声認識結果候補の単語系列の選択方法は(2)と同様である。例えば、L個の学習用音声認識結果候補の単語系列としてコンフュージョンネットワークのような複数の音声認識結果候補がまとまったものを用いる。
(音声認識結果候補単語分散表現系列変換部211)
入力:P個の組Sp(1つの組Spには、Qp個の学習用音声認識結果候補の単語系列wq_pと1個の正解文の単語系列とが含まれる)
出力:P個の組Rp(1つの組Rpには、Qp個の学習用音声認識結果候補の単語分散表現系列Eq_pと1個の正解文の単語分散表現系列とが含まれる)
音声認識結果候補単語分散表現系列変換部211は、P個の組のp番目の組Spに含まれるQp個の学習用音声認識結果候補の単語系列のqp番目の単語系列wq_p内のt番目の単語wq_p,tの学習用音声認識結果候補の単語分散表現を以下のように計算する。
Eq_p,t=EMBEDDING(wq_p,t)
ここでEq_p,tは単語wq_p,tの分散表現である。同様の処理を学習用音声認識結果候補単語系列wq_p内の全ての単語wq_p,tに対して行う。
(音声認識結果候補分散表現系列変換部212)
入力:P個の音声認識結果候補の単語分散表現系列Eq_p
出力:P個の音声認識結果候補の分散表現Cq_p
音声認識結果候補分散表現系列変換部212は、音声認識結果候補単語分散表現系列変換部211で獲得した単語分散表現系列Eq_pを1つの分散表現Cq_pに変換する。音声認識結果候補の分散表現は以下のように計算する。
Cq_p=RNN(Eq_p,1,Eq_p,2,…,Eq_p,T_q_p)
ここで、Cq_pは音声認識結果候補の単語系列wq_pをRNNにより変換した連続値ベクトルである。
(モデル学習部213)
入力:P個の音声認識結果候補の分散表現Cq_p、1個の正解文の単語分散表現系列
出力:誤り訂正モデル
モデル学習部213は、P個の音声認識結果候補の分散表現Cq_pと正解文の単語分散表現系列との組を用いて、誤り訂正モデルを学習する。誤り訂正モデルは、ニューラルネットワークからなる。例えば、RNNからなる。例えば、音声認識結果候補の分散表現Cq_pを用いて、正解文の各単語の単語分散表現系列に対する誤り訂正スコアが高くなるように誤り訂正モデルのモデルパラメータを更新する。
<変形例>
本実施形態では、順位付け時も学習時も音声認識結果候補の単語系列を入力としているが、音声データを入力とし、図示しない音声認識部において、音声認識処理を行い、音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求める構成としてもよい。図示しない音声認識部については、音声データから音声認識結果候補の単語系列(さらに必要に応じて音声認識スコア)を求めることができるものであればどのようなものであってもよい。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習部を含み、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
前記学習部は、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
学習装置。 - 請求項1の学習装置であって、
前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
学習装置。 - 音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算部と、
前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付け部とを含み、
前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
音声認識順位推定装置。 - 請求項3の音声認識順位推定装置であって、
前記音声認識結果候補順位付け部は、
前記音声認識結果候補の単語系列ごとの音声認識スコアと前記誤り訂正スコアとを重み付け加算して算出したスコアを用いて、前記音声認識結果候補の順位付けを行なう、
音声認識順位推定装置。 - 学習部が、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、誤り訂正モデルを学習する学習ステップを含み、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルであり、
前記学習ステップは、音声認識結果候補の分散表現と、正解文の単語分散表現系列との組を用いて誤り訂正モデルを学習する、
学習方法。 - 請求項5の学習方法であって、
前記誤り訂正モデルの学習に用いる前記音声認識結果候補と前記正解文との組は、複数の音声認識結果候補と1つの正解文とからなる、
学習方法。 - 誤り訂正スコア計算部が、音声認識結果候補の単語系列に対する単語分散表現系列と前記音声認識結果候補の分散表現とを誤り訂正モデルの入力とし、前記誤り訂正モデルの出力である前記音声認識結果候補の単語系列ごとの誤り訂正スコアを求める誤り訂正スコア計算ステップと、
音声認識結果候補順位付け部が、前記誤り訂正スコアを用いて前記音声認識結果候補の順位付けを行う音声認識結果候補順位付けステップとを含み、
前記誤り訂正モデルは、ある音声データに対する音声認識結果候補と音声認識の正解文との組によって、学習され、
前記音声認識結果候補には前記正解文とは異なる音声認識結果候補が含まれ、前記誤り訂正モデルは、音声認識結果候補の単語系列を入力とし、音声認識誤りを考慮した前記音声認識結果候補の単語系列の尤もらしさを示す誤り訂正スコアを出力とするモデルである、
音声認識順位推定方法。 - 請求項1もしくは請求項2の学習装置、または、請求項3もしくは請求項4の音声認識順位推定装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018029076 | 2018-02-21 | ||
| JP2018029076 | 2018-02-21 | ||
| PCT/JP2019/005882 WO2019163718A1 (ja) | 2018-02-21 | 2019-02-18 | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2019163718A1 JPWO2019163718A1 (ja) | 2021-02-04 |
| JP7070653B2 true JP7070653B2 (ja) | 2022-05-18 |
Family
ID=67687677
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020501756A Active JP7070653B2 (ja) | 2018-02-21 | 2019-02-18 | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11380301B2 (ja) |
| JP (1) | JP7070653B2 (ja) |
| WO (1) | WO2019163718A1 (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20210065018A1 (en) * | 2019-08-27 | 2021-03-04 | Intuit Inc. | Smart Question and Answer Optimizer |
| KR20220130699A (ko) * | 2020-01-21 | 2022-09-27 | 구글 엘엘씨 | 심의 모델 기반 2패스 종단간 음성 인식 |
| WO2022162767A1 (ja) * | 2021-01-27 | 2022-08-04 | 日本電信電話株式会社 | 誤り訂正装置、誤り訂正方法、プログラム |
| US11715458B2 (en) * | 2021-03-23 | 2023-08-01 | Google Llc | Efficient streaming non-recurrent on-device end-to-end model |
| CN113345420B (zh) * | 2021-06-07 | 2022-07-08 | 河海大学 | 基于萤火虫算法与梯度评估的对抗音频生成方法及系统 |
| US11922926B2 (en) * | 2021-09-14 | 2024-03-05 | Capital One Services, Llc | Systems and methods for correcting automatic speech recognition errors |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014224860A (ja) | 2013-05-15 | 2014-12-04 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
| WO2018055983A1 (ja) | 2016-09-23 | 2018-03-29 | パナソニックIpマネジメント株式会社 | 翻訳装置、翻訳システム、および評価サーバ |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20120052591A (ko) * | 2010-11-16 | 2012-05-24 | 한국전자통신연구원 | 연속어 음성인식 시스템에서 오류수정 장치 및 방법 |
| US9959861B2 (en) * | 2016-09-30 | 2018-05-01 | Robert Bosch Gmbh | System and method for speech recognition |
| KR20180062859A (ko) * | 2016-12-01 | 2018-06-11 | 포항공과대학교 산학협력단 | 음성 인식 장치 및 방법 |
| US10825445B2 (en) * | 2017-03-23 | 2020-11-03 | Samsung Electronics Co., Ltd. | Method and apparatus for training acoustic model |
-
2019
- 2019-02-18 JP JP2020501756A patent/JP7070653B2/ja active Active
- 2019-02-18 US US16/970,798 patent/US11380301B2/en active Active
- 2019-02-18 WO PCT/JP2019/005882 patent/WO2019163718A1/ja not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014224860A (ja) | 2013-05-15 | 2014-12-04 | 日本放送協会 | 誤り修正モデル学習装置、及びプログラム |
| WO2018055983A1 (ja) | 2016-09-23 | 2018-03-29 | パナソニックIpマネジメント株式会社 | 翻訳装置、翻訳システム、および評価サーバ |
Non-Patent Citations (1)
| Title |
|---|
| 小林 彰夫,単語誤り最小化に基づく識別的リスコアリングによるニュース音声認識,電子情報通信学会論文誌 (J93-D) 第5号,日本,社団法人電子情報通信学会,2010年05月01日,第J93-D巻,pp.598-609,特に2.1 識別的リスコアリング |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2019163718A1 (ja) | 2021-02-04 |
| WO2019163718A1 (ja) | 2019-08-29 |
| US20210090552A1 (en) | 2021-03-25 |
| US11380301B2 (en) | 2022-07-05 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7070653B2 (ja) | 学習装置、音声認識順位推定装置、それらの方法、およびプログラム | |
| US11604956B2 (en) | Sequence-to-sequence prediction using a neural network model | |
| US11113479B2 (en) | Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query | |
| US20240412068A1 (en) | Integrating a memory layer in a neural network for one-shot learning | |
| JP6712642B2 (ja) | モデル学習装置、その方法、及びプログラム | |
| JP6649536B1 (ja) | 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム | |
| CN112084301B (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
| US20220147721A1 (en) | Adapters for zero-shot multilingual neural machine translation | |
| CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
| CN117236410B (zh) | 一种可信的电子文件大语言模型训练、推理方法和装置 | |
| WO2019208070A1 (ja) | 質問応答装置、質問応答方法及びプログラム | |
| WO2023147140A1 (en) | Routing to expert subnetworks in mixture-of-experts neural networks | |
| JP6827911B2 (ja) | 音響モデル学習装置、音声認識装置、それらの方法、及びプログラム | |
| CN112668317A (zh) | 用于确定输出词法单元的方法和设备 | |
| WO2021100181A1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| KR20210099795A (ko) | 준 지도 학습을 위한 오토인코더 기반 그래프 설계 | |
| US12242948B2 (en) | Systems and methods for routing within multitask mixture-of-experts models | |
| WO2020044755A1 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
| JP7593413B2 (ja) | 音説明文生成方法、音説明文生成装置、およびプログラム | |
| JP7120064B2 (ja) | 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体 | |
| CN112990434A (zh) | 机器翻译模型的训练方法及相关装置 | |
| CN119558372A (zh) | 生成式模型的微调方法、装置、设备、介质及产品 | |
| JP7411149B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム | |
| JP6633556B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
| CN116304728A (zh) | 一种基于句子表征的短文本相似度匹配方法及应用 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200813 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210629 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210827 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211228 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220405 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220418 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7070653 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |