JP7282363B2 - 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム - Google Patents
言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP7282363B2 JP7282363B2 JP2019086005A JP2019086005A JP7282363B2 JP 7282363 B2 JP7282363 B2 JP 7282363B2 JP 2019086005 A JP2019086005 A JP 2019086005A JP 2019086005 A JP2019086005 A JP 2019086005A JP 7282363 B2 JP7282363 B2 JP 7282363B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- data
- training
- network
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims description 314
- 238000000034 method Methods 0.000 title claims description 101
- 238000004590 computer program Methods 0.000 title claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 61
- 230000006870 function Effects 0.000 claims description 52
- 238000013500 data storage Methods 0.000 claims description 32
- 238000012546 transfer Methods 0.000 claims description 29
- 210000002569 neuron Anatomy 0.000 claims description 17
- 239000013598 vector Substances 0.000 description 34
- 230000008569 process Effects 0.000 description 31
- 238000011161 development Methods 0.000 description 24
- 238000002474 experimental method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 9
- 230000002452 interceptive effect Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000006872 improvement Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
この発明の第3の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの装置の各手段として機能させる。
<構成>
[訓練の概略]
図6に、この発明の第1の実施の形態に係る発話言語識別モデルの訓練方法200の構成の概略を示す。図6を参照して、この実施の形態に係る訓練方法200は、訓練済のティーチャーネットワーク210を用いてスチューデントネットワーク220を訓練する。
図7にこの実施の形態に係る発話言語識別モデルの訓練方法を実現する訓練装置の概略構成をブロック図形式で示す。図7を参照して、この訓練装置250は、ティーチャーネットワーク210の訓練に用いる訓練サンプルを含む訓練データを記憶するためのティーチャーネットワーク訓練データ記憶部260と、ティーチャーネットワーク210を、動作可能な形式で記憶するための第1の言語識別モデル記憶部262と、ティーチャーネットワーク訓練データ記憶部260に記憶された訓練データを用いて第1の言語識別モデル記憶部262に記憶されたティーチャーネットワーク210を通常の誤差逆伝播法を用いて訓練するためのティーチャーネットワーク訓練部264とを含む。各訓練サンプルは、この実施の形態では例えば発話時間4秒の発話データとその発話の言語を識別する言語ラベルとを含む。
図6~図10を参照して、この実施の形態に係る訓練装置250は以下のように動作する。最初に、ティーチャーネットワーク訓練データ記憶部260にティーチャーネットワーク210の訓練データを準備する。ティーチャーネットワークプログラム記憶部280には、ティーチャーネットワーク210のアルゴリズムを規定するプログラムが予め記憶されている。ティーチャーネットワーク訓練部264は、この訓練データとティーチャーネットワークプログラム記憶部280に記憶されたプログラムとを用いてティーチャーネットワーク210を訓練する(図8のステップ320)。
上記実施の形態にしたがった訓練方法により訓練したスチューデントネットワークによる実験を行い、上記訓練方法が有効か否かを確認した。
上記実施の形態では、ティーチャーネットワークを4秒の発話データで、スチューデントネットワークを2秒の発話データで、それぞれ訓練した。しかし発話データ長の長さはこの組合わせには限定されない。またスチューデントネットワークの発話長がティーチャーネットワークの発話長より短ければよい。ただし、今回の発明の目的から考えて、スチューデントネットワークを訓練するための発話長は2秒以下であることが望ましい。さらに、上記実施の形態では4秒と2秒というように、一方が他方の倍数、すなわち他方が一方の約数という関係になっている。しかしそのような組合わせに限定されるわけではない。ただし、訓練データの準備の容易さ、畳込みネットワークのハイパーパラメータの決定の容易さから考えて、倍数と約数という関係の発話長で訓練データを準備することが現実的である。
以下に説明する第2の実施の形態は、第1の実施の形態により得られたモデルに対して、ティーチャーネットワークとスチューデントネットワークとの対話型訓練(対話型パラメータ調整)という、新規な方法で改良を加えたものである。後述するように、この方法で訓練したスチューデントネットワークは、第1の実施の形態において訓練したものよりもさらに高い精度を示した。また、同じ発話時間での精度もより高くなることが確認できた。したがって、同じ精度で言語識別するのであれば、必要な発話長をより短くできる。
図16に、この第2の実施の形態に係る訓練装置400の概略構成をブロック図形式で示す。図16を参照して、訓練装置400は、第1の実施の形態と同様に構成されたティーチャーネットワーク訓練データ記憶部260、第1の言語識別モデル記憶部262、ティーチャーネットワーク訓練部264、訓練データ変換部266、スチューデントネットワーク訓練データ記憶部268、スチューデントネットワーク訓練部272及び第2の言語識別モデル記憶部270を含む。
図16を参照して、ティーチャーネットワーク210及びスチューデントネットワーク220の訓練は第1の実施の形態と同様にティーチャーネットワーク訓練部264、訓練データ変換部266及びスチューデントネットワーク訓練部272により行われる。これらの訓練が終了すると、ティーチャーネットワーク訓練データ記憶部260にはティーチャーネットワーク210が記憶されている。第2の言語識別モデル記憶部270にはスチューデントネットワーク220が記憶されている。
この第2の実施の形態に係る訓練装置400により訓練されたスチューデントネットワークの性能を確認するための実験を行った。実験の結果を、第1の実施の形態による訓練装置250及びそのパータ―ベーションによる結果とあわせて図20に示す。ここで、バーターベーションとは、第1の実施の形態による訓練装置において、損失Lktにランダムノイズを重畳させて(Lkt=||UT-US+Noise||)学習させることを意味している。実験によれば、第1の実施の形態による訓練装置の学習時にバーターベーションを行うことにより、精度が若干上がる場合があった。この実験では、図20に示した第1の実施の形態の結果に鑑みて、λ=0.3に設定した上で、γの値を0.1、0.2及び0.3に変化させた。「ValId.」はスチューデントネットワークによる、検証データセットに対する精度(URE%)を示し、「Test」はテストデータセットに対する精度を示す。
この発明の実施の形態に係る訓練装置250及び400並びにそれらによる言語識別モデルの訓練方法は、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図22はこのコンピュータシステム630の外観を示し、図23はコンピュータシステム630の内部構成を示す。
50、110、210 ティーチャーネットワーク
52、62 除算
54、64、68 ソフトマックス層
56 ソフトラベル
60、120、220 スチューデントネットワーク
66 第1の損失関数
70 第2の損失関数
72 ハードラベル
74 合計損失
112 WHint層
114 転送元の隠れ層
122 WGuided層
124 転送先の隠れ層
126 リグレッサ
200 訓練方法
212、222、522 出力ベクトル
214、224、526 特徴抽出部
216、226 全結合層ネットワーク
218、228、528 畳込みブロック
230、232 発話データサンプル
250、400 訓練装置
260 ティーチャーネットワーク訓練データ記憶部
262 第1の言語識別モデル記憶部
264 ティーチャーネットワーク訓練部
266 訓練データ変換部
268 スチューデントネットワーク訓練データ記憶部
270 第2の言語識別モデル記憶部
272 スチューデントネットワーク訓練部
280 ティーチャーネットワークプログラム記憶部
282 ティーチャーネットワークパラメータ記憶部
290 スチューデントネットワークプログラム記憶部
292 スチューデントネットワークパラメータ記憶部
336、338、366 訓練処理
Claims (8)
- 第1の発話時間の発話データにより訓練済の、所定数の言語の集合に関する発話の言語識別のための第1のニューラルネットワークを用いて、前記第1の発話時間より短い第2の発話時間の発話データにより、前記言語の集合に関する発話の言語識別のための第2のニューラルネットワークを訓練する言語識別モデルの訓練方法であって、
前記第2の発話時間の発話データの各々は、前記第1の発話時間の発話データのいずれかの一部であり、
前記第1のニューラルネットワークは、前記第1の発話時間の発話データを入力として各層の出力を伝搬するように配置された第1の数の畳込み層群と、当該第1の数の畳込み層群の出力を受け、言語識別情報を出力する第1の分類ネットワークとを含み、
前記第2のニューラルネットワークは、前記第2の発話時間の発話データを入力として各層の出力を伝搬するように配置された第2の数の畳込み層群と、当該第2の数の畳込み層群の出力を受け、前記言語識別情報を出力するための第2の分類ネットワークとを含み、
前記第1の数の畳込み層群のある層は、前記第2のニューラルネットワークに対する知識の転送元となる転送元層であり、
前記第2の数の畳込み層群のある層は、前記知識の転送先となる転送先層であり、
前記方法は、
前記第1のニューラルネットワークを動作可能な形式で準備するステップと、
前記第1のニューラルネットワークの訓練を行ったときの前記第1の発話時間の発話データと、前記第1の発話時間の発話データに含まれる前記第2の発話時間の発話データと、当該第1の発話時間の発話データの発話言語を示す言語情報とからなる訓練データを互いに関連付けて含む訓練データを機械読取可能な形式で準備するステップと、
前記訓練データの前記第1の発話時間の発話データが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力と、当該第1の発話時間の発話データと関連付けられた前記第2の発話時間の発話データが前記第2の数の畳込み層群に入力されたときの前記転送先層の出力と、当該第2の発話時間の発話データの言語情報とを少なくとも用いて、前記第2のニューラルネットワークを訓練するステップとを含む、言語識別モデルの訓練方法。 - 前記転送元層のニューロン数は、前記転送先層のニューロン数と同じである、請求項1に記載の言語識別モデルの訓練方法。
- 前記転送元層は前記第1の数の畳込み層群の最上位層であり、前記転送先層は、前記第2の数の畳込み層群の最上位層である、請求項1又は請求項2に記載の言語識別モデルの訓練方法。
- 前記第2のニューラルネットワークを訓練するステップは、
前記訓練データの前記第1の発話時間の発話データxTが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力uT(xT;ΘT)、ただしΘTは前記転送元層のパラメータ集合を表す、を算出するステップと、
前記発話データxTに関連する前記第2の発話時間の発話データxSが前記第2の数の畳込み層群に入力されたときの前記転送先層の出力uS(xS;ΘS)、ただしΘSは前記転送先層のパラメータ集合を表す、を算出するステップと、
前記転送先層において以下の損失関数LFRKDを算出するステップと、
ただしλは重み係数、Lhard(xs,y)は、前記第2のニューラルネットワークに前記発話データxSが与えられたときの前記第2のニューラルネットワークの出力と、当該発話データxSに関連付けられた前記言語情報yとの間に定義される損失関数、
前記発話データxSが与えられたときの前記第2のニューラルネットワークの出力と、当該発話データxSに関連付けられた前記言語情報yとを用いて誤差逆伝播法により前記第2のニューラルネットワークのパラメータを更新するステップとを含む、請求項1~請求項3のいずれかに記載の言語識別モデルの訓練方法。 - 第1の発話時間の発話データにより訓練済の、所定数の言語の集合に関する発話の言語識別のための第1のニューラルネットワークを用いて、前記第1の発話時間より短い第2の発話時間の発話データにより、前記言語の集合に関する発話の言語識別をするための第2のニューラルネットワークを訓練する言語識別モデルの訓練装置であって、
前記第2の発話時間の発話データの各々は、前記第1の発話時間の発話データのいずれかの一部であり、
前記第1のニューラルネットワークは、前記第1の発話時間の発話データを入力として各層の出力を伝搬するように配置された第1の数の畳込み層群と、当該第1の数の畳込み層群の出力を受け、言語識別情報を出力する第1の分類ネットワークとを含み、
前記第2のニューラルネットワークは、前記第2の発話時間の発話データを入力として各層の出力を伝搬するように配置された第2の数の畳込み層群と、当該第2の数の畳込み層群の出力を受け、前記言語識別情報を出力するための第2の分類ネットワークとを含み、
前記第1の数の畳込み層群のある層は、前記第2のニューラルネットワークに対する知識の転送元となる転送元層であり、
前記第2の数の畳込み層群のある層は、前記知識の転送先となる転送先層であり、
前記装置は、
前記第1のニューラルネットワークを動作可能な形式で記憶するモデル記憶装置と、
前記第1のニューラルネットワークの訓練を行ったときの前記第1の発話時間の発話データと、前記第1の発話時間の発話データに含まれる前記第2の発話時間の発話データと、当該第2の発話時間の発話データの発話言語を示す言語情報とからなる訓練データを互いに関連付けて含む訓練データを機械読取可能な形式で記憶する訓練データ記憶装置と、
前記訓練データの前記第1の発話時間の発話データが前記第1の数の畳込み層群に入力されたときの前記転送元層の出力と、当該第1の発話時間の発話データと関連付けられた前記第2の発話時間の発話データが前記第2の数の畳込み層群に入力されたときの前記転送先層の出力と、当該第2の発話時間の発話データの言語情報とを少なくとも用いて、前記第2のニューラルネットワークを訓練するための訓練手段とを含む言語識別モデルの訓練装置。 - コンピュータを、請求項1~請求項4のいずれかに記載の訓練方法の各ステップを実行するよう機能させる、コンピュータプログラム。
- コンピュータに、請求項1~請求項4のいずれかに記載の訓練方法の各ステップを実行させることにより生成される、言語識別モデル。
- 請求項5に記載の言語識別モデルの訓練装置により訓練される、言語識別モデル。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018161489 | 2018-08-30 | ||
| JP2018161489 | 2018-08-30 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020038343A JP2020038343A (ja) | 2020-03-12 |
| JP7282363B2 true JP7282363B2 (ja) | 2023-05-29 |
Family
ID=69737911
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019086005A Active JP7282363B2 (ja) | 2018-08-30 | 2019-04-26 | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7282363B2 (ja) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN111832514B (zh) * | 2020-07-21 | 2023-02-28 | 内蒙古科技大学 | 基于软多标签的无监督行人重识别方法及装置 |
| CN111816159B (zh) * | 2020-07-24 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
| US12417381B2 (en) * | 2020-12-10 | 2025-09-16 | International Business Machines Corporation | Alternative soft label generation |
| CN113160801B (zh) * | 2021-03-10 | 2024-04-12 | 云从科技集团股份有限公司 | 语音识别方法、装置以及计算机可读存储介质 |
| CN113077812B (zh) * | 2021-03-19 | 2024-07-23 | 北京声智科技有限公司 | 语音信号生成模型训练方法、回声消除方法和装置及设备 |
| CN113807496A (zh) * | 2021-05-31 | 2021-12-17 | 华为技术有限公司 | 构建神经网络模型的方法、装置、设备、介质和程序产品 |
| CN115731920B (zh) * | 2021-09-02 | 2025-08-26 | 中国移动通信有限公司研究院 | 语音识别处理方法、装置及设备 |
| CN114283402B (zh) * | 2021-11-24 | 2024-03-05 | 西北工业大学 | 基于知识蒸馏训练与时空联合注意力的车牌检测方法 |
| CN114360506B (zh) * | 2021-12-14 | 2025-04-18 | 苏州驰声信息科技有限公司 | 一种语种识别方法及装置 |
| CN117252213B (zh) * | 2023-07-06 | 2024-05-31 | 天津大学 | 使用合成语音作为监督信息的端到端语音翻译方法 |
| CN117765214A (zh) * | 2024-02-21 | 2024-03-26 | 飞狐信息技术(天津)有限公司 | 3d数字人唇形实时驱动方法、装置、终端和存储介质 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018126213A1 (en) | 2016-12-30 | 2018-07-05 | Google Llc | Multi-task learning using knowledge distillation |
-
2019
- 2019-04-26 JP JP2019086005A patent/JP7282363B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2018126213A1 (en) | 2016-12-30 | 2018-07-05 | Google Llc | Multi-task learning using knowledge distillation |
Non-Patent Citations (2)
| Title |
|---|
| SHEN, Peng et al.,Feature Representation of Short Utterances based on Knowledge Distillation for Spoken Language Identification,Interspeech 2018,2018年09月06日 |
| SHEN, Peng et al.,INTERACTIVE LEARNING OF TEACHER-STUDENT MODEL FOR SHORT UTTERANCE SPOKEN LANGUAGE IDENTIFICATION,ICASSP 2019,2019年04月17日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020038343A (ja) | 2020-03-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7282363B2 (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
| Lokesh et al. | RETRACTED ARTICLE: An Automatic Tamil Speech Recognition system by using Bidirectional Recurrent Neural Network with Self-Organizing Map | |
| US11646010B2 (en) | Variational embedding capacity in expressive end-to-end speech synthesis | |
| CN110136693B (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
| US11392833B2 (en) | Neural acoustic model | |
| EP3752964B1 (en) | Speech style transfer | |
| US20200410976A1 (en) | Speech style transfer | |
| CN114021524A (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
| Algihab et al. | Arabic speech recognition with deep learning: A review | |
| Swain et al. | A DCRNN-based ensemble classifier for speech emotion recognition in Odia language | |
| Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
| WO2023174744A1 (en) | Apparatus and method for end-to-end text-to-speech synthesis | |
| CN117672176A (zh) | 基于语音自监督学习表征的重读可控语音合成方法及装置 | |
| Song et al. | MPSA-DenseNet: A novel deep learning model for English accent classification | |
| CN113270091A (zh) | 音频处理系统和方法 | |
| Ahmed et al. | Acoustic modeling using deep belief network for Bangla speech recognition | |
| WO2024178242A1 (en) | Robust speaker-independent estimation of vocal articulation | |
| Baas et al. | Stargan-zsvc: Towards zero-shot voice conversion in low-resource contexts | |
| Al-Radhi et al. | Deep Recurrent Neural Networks in speech synthesis using a continuous vocoder | |
| JP7627029B2 (ja) | 感情分類器の訓練装置及び訓練方法 | |
| Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
| KR102426020B1 (ko) | 한 화자의 적은 음성 데이터로 감정 운율을 담은 음성 합성 방법 및 장치 | |
| Elluru et al. | Generalized zero-shot audio-to-intent classification | |
| Ahmed et al. | Efficient feature extraction and classification for the development of Pashto speech recognition system | |
| Zhu | English pronunciation standards based on multimodal acoustic sensors |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220314 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221228 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230510 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7282363 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |