JP7109071B2 - 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム - Google Patents
学習装置、学習方法、音声合成装置、音声合成方法及びプログラム Download PDFInfo
- Publication number
- JP7109071B2 JP7109071B2 JP2018151611A JP2018151611A JP7109071B2 JP 7109071 B2 JP7109071 B2 JP 7109071B2 JP 2018151611 A JP2018151611 A JP 2018151611A JP 2018151611 A JP2018151611 A JP 2018151611A JP 7109071 B2 JP7109071 B2 JP 7109071B2
- Authority
- JP
- Japan
- Prior art keywords
- neural network
- speech
- text
- modality
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
[概略]
後述される実施例を概略すると、学習装置100は、テキストデータをベクトルに変換するテキストモダリティニューラルネットワーク20、音声波形データをベクトルに変換する音声モダリティニューラルネットワーク30、及びテキストモダリティニューラルネットワーク20及び音声モダリティニューラルネットワーク30から出力されたベクトルから、話者空間上の所与の未知話者を示す話者コードベクトル(潜在変数)に対応する音響特徴量を生成する共通ニューラルネットワーク40を学習する。
[ニューラルネットワーク構造]
まず、図1を参照して、本発明の一実施例によるニューラルネットワーク構造10を説明する。図1は、本発明の一実施例によるニューラルネットワーク構造10の概略図である。
h1=σ(WL,1l+bL,1)
によってベクトルh1を出力する。以下同様にして、各隠れ層は同様の変換処理を実行し、第N(L)の隠れ層は、前段の隠れ層からベクトルhNL-1が与えられると、
hNL=σ(WL,NLhNL-1+bL,NL)
によってベクトルhNLを出力し、出力層にわたす。当該ベクトル及び行列は、後述される学習処理において学習される。
hn=σ(WC,nhn-1+bC,n+WDd(i))
によってベクトルhnを取得する。ここで、WDは話者コード用の重み行列である。なお、話者コードベクトルが入力されない各隠れ層における具体的な処理は、上述したテキストモダリティニューラルネットワーク20のものと同様であり、重複する説明は省く。
[ハードウェア構成]
ここで、学習装置100及び音声合成装置200は、例えば、図2に示されるように、CPU (Central Processing unit)、GPU (Graphics Processing Unit)などのプロセッサ101、RAM (Random Access Memory)、フラッシュメモリなどのメモリ102、ハードディスク103及び入出力(I/O)インタフェース104によるハードウェア構成を有してもよい。
[ニューラルネットワーク構造の第1の学習処理]
次に、図3及び4を参照して、本発明の一実施例によるニューラルネットワーク構造10に対する学習処理を説明する。上述したニューラルネットワーク構造10の内部構成から理解されるように、学習装置100は、共通ニューラルネットワーク40がテキストデータと音声データとの異なるモダリティからの入力を適切に受け付けるようにニューラルネットワーク構造10を学習する必要がある。
loss=lossmain+αlosssub
に従って(αは、スカラー値である)、テキストモダリティニューラルネットワーク20及び共通ニューラルネットワーク40による誤差lossmainと、音声モダリティニューラルネットワーク30及び共通ニューラルネットワーク40による誤差losssubとの2つの誤差の加重和(loss)を算出してもよい。
[ニューラルネットワーク構造の第2の学習処理]
次に、図5及び6を参照して、本発明の他の実施例によるニューラルネットワーク構造10に対する学習処理を説明する。上述したニューラルネットワーク構造10から理解されるように、学習装置100は、共通ニューラルネットワーク40がテキストデータと音声データとの異なるモダリティからの入力を適切に受け付けるようにニューラルネットワーク構造10、特に、共通ニューラルネットワーク40の入力層に近い下層レイヤを学習することが求められる。
loss=lossmain+βΣl Ldistance(hl main,hl sub)
に従って(βは、スカラー値である)、2つの誤差(lossmain,losssub)の加重和lossを算出してもよい。ここで、距離distanceは、例えば、コサイン距離であってもよい。
loss=lossmain+αlosssub+βΣl Ldistance(hl main,hl sub)
に従って算出され、テキストモダリティニューラルネットワーク20、音声モダリティニューラルネットワーク30及び共通ニューラルネットワーク40のパラメータが、誤差を減少させるように更新されると共に、2つの共通ニューラルネットワーク40のパラメータが同期的に学習される。
[共通ニューラルネットワーク40に対する話者適応処理]
次に、図7及び8を参照して、本発明の一実施例による共通ニューラルネットワーク40に対する話者適応処理を説明する。本実施例では、上述した学習処理に従ってニューラルネットワーク構造10を学習した後、所与の未知話者の訓練データが与えられると、学習装置100は、当該訓練データに応じて、テキストモダリティニューラルネットワーク20及び共通ニューラルネットワーク40と、音声モダリティニューラルネットワーク及び共通ニューラルネットワーク40とを選択的に利用して、共通ニューラルネットワーク40の話者空間における当該未知話者を示す話者コードベクトルを推定する。
d(i)=d(i)+εWD Tfn-1
に従って更新される。ここで、εは所定値以下の小さな値であり、fは誤差伝搬のための関数であり、
fN-1 (C)=WC,N (C),Tσ-1(e')
として定義され、σ-1は活性化関数によって決定される伝搬用の関数であり、e'は共通ニューラルネットワーク40から取得した音響特徴量と訓練データの音響特徴量との間の誤差の微分値である。なお、当該未知話者適応処理では、共通ニューラルネットワーク40の重み行列W及びバイアスベクトルbは更新されない。
[学習済みニューラルネットワーク構造を利用した音声合成処理]
次に、図9~11を参照して、本発明の一実施例による音声合成処理を説明する。本実施例では、音声合成装置200は、上述した学習装置100によって特定の話者に対して学習されたテキストモダリティニューラルネットワーク20及び共通ニューラルネットワーク40を利用して、音声合成対象のテキストデータから当該話者に対応する音声データを生成及び再生する。
20 テキストモダリティニューラルネットワーク
30 音声モダリティニューラルネットワーク
40 共通ニューラルネットワーク
100 学習装置
200 音声合成装置
Claims (11)
- メモリと、
プロセッサと、
を有する学習装置であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサは、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習し、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定する学習装置。 - 前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第2の訓練データの音響特徴量との間の第2の誤差を算出し、
前記第1の誤差と前記第2の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1記載の学習装置。 - 前記プロセッサは、
前記第1の訓練データのテキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第1の訓練データの音響特徴量との間の第1の誤差を算出し、
前記第2の訓練データの音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークの一部のレイヤから構成されるサブニューラルネットワークから第3のベクトルを取得し、前記共通ニューラルネットワークに入力された第1のベクトルに対して前記サブニューラルネットワークから第4のベクトルを取得し、前記第3のベクトルと前記第4のベクトルとの間の距離に基づき第3の誤差を算出し、
前記第1の誤差と前記第3の誤差との加重和に基づき、前記テキストモダリティニューラルネットワーク、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習する、請求項1又は2記載の学習装置。 - 前記プロセッサは、
前記第3の訓練データがテキストデータと音響特徴量とから構成される場合、前記テキストデータを前記テキストモダリティニューラルネットワークに入力し、前記テキストモダリティニューラルネットワークから取得した第1のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第4の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至3何れか一項記載の学習装置。 - 前記プロセッサは、
前記第3の訓練データが音声波形データと音響特徴量とから構成される場合、前記音声波形データを前記音声モダリティニューラルネットワークに入力し、前記音声モダリティニューラルネットワークから取得した第2のベクトルを前記共通ニューラルネットワークに入力し、前記共通ニューラルネットワークから取得した音響特徴量と前記第3の訓練データの音響特徴量との間の第5の誤差に基づき前記所与の話者の話者コードベクトルを決定する、請求項1乃至4何れか一項記載の学習装置。 - メモリと、
プロセッサと、
を有する音声合成装置であって、
前記メモリは、
請求項1乃至5何れか一項記載の学習装置により学習されたテキストモダリティニューラルネットワークと、
前記学習装置により所与の話者に対して学習された共通ニューラルネットワークと、
を格納し、
前記プロセッサは、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成する音声合成装置。 - テキストデータを取得し、前記所与の話者に対応して前記テキストデータから生成された音響特徴量を再生する入出力インタフェースを更に有する、請求項6記載の音声合成装置。
- メモリとプロセッサとを有するコンピュータによって実現される学習方法であって、
前記メモリは、
テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、
音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、
前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納し、
前記プロセッサが、テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習するステップと、
前記プロセッサが、所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定するステップと、
を有する学習方法。 - メモリとプロセッサとを有するコンピュータによって実現される音声合成方法であって、
前記メモリは、
請求項8記載の学習方法により学習されたテキストモダリティニューラルネットワークと、
前記学習方法により所与の話者に対して学習された共通ニューラルネットワークと、
を格納し、
前記プロセッサが、テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成するステップを有する音声合成方法。 - テキストデータを第1のベクトルに変換するテキストモダリティニューラルネットワークと、音声波形データを第2のベクトルに変換する音声モダリティニューラルネットワークと、前記テキストモダリティニューラルネットワーク及び前記音声モダリティニューラルネットワークに接続され、前記第1のベクトル又は前記第2のベクトルから話者空間上の話者コードベクトルに対応する音響特徴量を生成する共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータと音響特徴量とから構成される第1の訓練データによって前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
音声波形データと音響特徴量とから構成される第2の訓練データによって前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークを学習させ、
所与の話者の第3の訓練データに応じて、前記テキストモダリティニューラルネットワーク及び前記共通ニューラルネットワークと、前記音声モダリティニューラルネットワーク及び前記共通ニューラルネットワークとを選択的に利用して、前記所与の話者に対する前記話者コードベクトルを推定させるプログラム。 - 請求項10記載のプログラムにより学習されたテキストモダリティニューラルネットワークと、前記プログラムにより所与の話者に対して学習された共通ニューラルネットワークとを格納したメモリに接続されるプロセッサに、
テキストデータを取得すると、前記格納されているテキストモダリティニューラルネットワーク及び共通ニューラルネットワークによって、前記テキストデータから前記所与の話者に対応する音響特徴量を生成させるプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018151611A JP7109071B2 (ja) | 2018-08-10 | 2018-08-10 | 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018151611A JP7109071B2 (ja) | 2018-08-10 | 2018-08-10 | 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020027168A JP2020027168A (ja) | 2020-02-20 |
| JP7109071B2 true JP7109071B2 (ja) | 2022-07-29 |
Family
ID=69620009
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018151611A Active JP7109071B2 (ja) | 2018-08-10 | 2018-08-10 | 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7109071B2 (ja) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20220055296A (ko) | 2020-10-26 | 2022-05-03 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
| WO2022141126A1 (zh) * | 2020-12-29 | 2022-07-07 | 深圳市优必选科技股份有限公司 | 个性化语音转换训练方法、计算机设备及存储介质 |
| CN115578996B (zh) * | 2022-09-28 | 2025-09-30 | 慧言科技(天津)有限公司 | 基于自监督学习和互信息解耦技术的语音合成方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
-
2018
- 2018-08-10 JP JP2018151611A patent/JP7109071B2/ja active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2017032839A (ja) | 2015-08-04 | 2017-02-09 | 日本電信電話株式会社 | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム |
Non-Patent Citations (2)
| Title |
|---|
| Hieu-Thi Luong et al.,ADAPTING AND CONTROLLING DNN-BASED SPEECH SYNTHESIS USING INPUT CODES,ICASSP2017,2017年03月09日,pp.4905-4909 |
| Hieu-Thi Luong et al.,Multimodal speech synthesis architecture for unsupervised speaker adaptation,arXiv:1808.06288v1,2018年08月20日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020027168A (ja) | 2020-02-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN101385386B (zh) | 混响除去装置和混响除去方法 | |
| JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
| CN113436643A (zh) | 语音增强模型的训练及应用方法、装置、设备及存储介质 | |
| JP2019528476A (ja) | 音声認識方法及び装置 | |
| CN107615308A (zh) | 循环神经网络的学习方法及用于该学习方法的计算机程序、和声音识别装置 | |
| JP7103390B2 (ja) | 音響信号生成方法、音響信号生成装置およびプログラム | |
| JP2015040903A (ja) | 音声処理装置、音声処理方法、及び、プログラム | |
| JP7109071B2 (ja) | 学習装置、学習方法、音声合成装置、音声合成方法及びプログラム | |
| CN114450694B (zh) | 训练神经网络以生成结构化嵌入 | |
| CN118737122A (zh) | 用于语音合成的方法、装置、设备和可读介质 | |
| JP2020154076A (ja) | 推論器、学習方法および学習プログラム | |
| JP7231181B2 (ja) | 耐雑音音声認識装置及び方法、並びにコンピュータプログラム | |
| CN119731649A (zh) | 歌曲生成方法、装置、电子设备和存储介质 | |
| EP4030421A1 (en) | Method for converting voice feature of voice | |
| JP2017016384A (ja) | 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム | |
| JP7112348B2 (ja) | 信号処理装置、信号処理方法及び信号処理プログラム | |
| CN114822497A (zh) | 语音合成模型的训练及语音合成方法、装置、设备和介质 | |
| CN118737120A (zh) | 歌声合成模型的处理方法、歌声合成方法、设备和介质 | |
| JP7736184B2 (ja) | 音声認識モデル学習装置、音声認識モデル学習方法、およびプログラム | |
| CN113299270B (zh) | 语音合成系统的生成方法、装置、设备及存储介质 | |
| WO2019171925A1 (ja) | 言語モデルを利用する装置、方法及びプログラム | |
| Ma et al. | Mutual learning for acoustic matching and dereverberation via visual scene-driven diffusion | |
| WO2022101967A1 (ja) | 音声信号変換モデル学習装置、音声信号変換装置、音声信号変換モデル学習方法及びプログラム | |
| CN114464163B (zh) | 语音合成模型的训练方法、装置、设备、存储介质和产品 | |
| KR20220067864A (ko) | 음성의 보이스 특징 변환 방법 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210629 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220420 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220614 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220628 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220711 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7109071 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |