JP6553015B2 - 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム - Google Patents
話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6553015B2 JP6553015B2 JP2016222351A JP2016222351A JP6553015B2 JP 6553015 B2 JP6553015 B2 JP 6553015B2 JP 2016222351 A JP2016222351 A JP 2016222351A JP 2016222351 A JP2016222351 A JP 2016222351A JP 6553015 B2 JP6553015 B2 JP 6553015B2
- Authority
- JP
- Japan
- Prior art keywords
- attribute
- learning
- frame
- posterior probability
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第一実施形態では、深層学習モデルを利用して入力音声の逐次事後確率を求め、その事後確率を合計した対数事後確率を用いて話者属性の推定を行う。これにより、従来よりも高精度に話者属性を推定することが可能となる。
音声対話ロボット等では、音声を入力する際にマイクに近付き過ぎたりして、振幅が振り切れているクリップ音が入力されることがある。学習データの一部にクリップ音を含む学習音声が存在すると、同じクリップ音が入力された際に、本来の属性とは違い、このクリップ音の特徴がある属性に識別されてしまうことがある。そのため、第二実施形態では、図4に示すように、学習データからクリッピングしたクリップ音を作成し、学習データに追加することで、クリップ音の特徴に引きずられずに本来の属性に識別することを可能とする。
(イ)S(k, t)<-hの場合、S(k, t)=-hとする。
話者属性は無声音には特徴が現れにくいため、無声音の影響により識別を誤ることがある。また、音声を発声していない区間を含む場合は該当部分の周囲の雑音を学習データに含んでしまうことにより誤識別をすることがある。そのため、属性識別は有声音に限って行うとよい。そこで、第三実施形態では、学習データの無声音または無音の部分にラベルデータを与えて、無声音または無音の確率が高い場合は識別の対象から除外することで、識別率を高くすることを可能とする。
第四実施形態では、学習時の事後確率系列と推定時の事後確率系列との分布から識別結果の確からしさを示す信頼度を求める。信頼度は、0以上1以下の数値であり、1に近づけば近づくほど識別結果L'が確かな結果と言うことができる。信頼度を利用することで、例えば、音声対話ロボット等が信頼度に応じて適切な応答を選択するなどを行うことが可能となる。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 特徴量抽出部
12 属性ラベル作成部
13 深層学習部
14 クリップ音合成部
15 有声無声判定部
16 学習データ事後確率計算部
17 信頼度パラメータ学習部
20 DNNモデル記憶部
21 特徴量抽出部
22 事後確率計算部
23 識別部
24 信頼度計算部
30 信頼度パラメータ記憶部
Claims (13)
- 学習装置と推定装置とを含む話者属性推定システムであって、
上記学習装置は、
学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成するクリップ音合成部と、
上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
を含み、
上記推定装置は、
入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
を含む話者属性推定システム。 - 請求項1に記載の話者属性推定システムであって、
上記学習装置は、
上記学習音声のフレーム毎に有声か無声かを示す有声無声情報を生成する有声無声判定部をさらに含み、
上記属性ラベル作成部は、上記有声無声情報に基づいて、有声のフレームは上記属性情報の値を設定し、無声のフレームは無声であることを表す値を設定して上記属性ラベル系列を作成するものである、
話者属性推定システム。 - 学習装置と推定装置とを含む話者属性推定システムであって、
上記学習装置は、
学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する学習データ事後確率計算部と、
上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算する信頼度パラメータ学習部と、
を含み、
上記推定装置は、
入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
上記信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
を含む話者属性推定システム。 - 学習装置と推定装置とを含む話者属性推定システムであって、
上記学習装置は、
学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
を含み、
上記推定装置は、
入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
を含む話者属性推定システム。 - 学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成するクリップ音合成部と、
上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
を含む学習装置。 - 学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成する属性ラベル作成部と、
上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習する深層学習部と、
上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する学習データ事後確率計算部と、
上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算する信頼度パラメータ学習部と、
を含む学習装置。 - 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
を含み、
上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成し、上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものである、
推定装置。 - 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
予め計算した信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
を含み、
上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものであり、
上記信頼度パラメータは、上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いて計算したフレーム毎の事後確率系列の分布を表すものである、
推定装置。 - 入力音声のフレーム毎の音響特徴量系列から予め学習したディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算する事後確率計算部と、
話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する識別部と、
識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する信頼度計算部と、
を含み、
上記ディープニューラルネットワークは、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いて学習したものである、
推定装置。 - 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
クリップ音合成部が、上記学習音声の振幅を増幅し、所定の閾値を超えた振幅はその閾値に丸めてクリップ音を合成し、
深層学習部が、上記学習音声および上記クリップ音のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別する、
話者属性推定方法。 - 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
深層学習部が、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
学習データ事後確率計算部が、上記学習音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
信頼度パラメータ学習部が、上記学習音声の事後確率系列の分布を表す信頼度パラメータを計算し、
事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別し、
信頼度計算部が、上記信頼度パラメータが表す分布と上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する、
話者属性推定方法。 - 属性ラベル作成部が、学習音声毎の話者属性を表す属性情報から学習音声のフレーム毎の話者属性を表す属性ラベル系列を作成し、
深層学習部が、上記学習音声のフレーム毎の音響特徴量系列と上記属性ラベル系列とを用いてディープニューラルネットワークモデルを学習し、
事後確率計算部が、入力音声のフレーム毎の音響特徴量系列から上記ディープニューラルネットワークモデルを用いてフレーム毎の事後確率系列を計算し、
識別部が、話者属性毎に求めた上記事後確率系列の対数和に基づいて話者属性を識別し、
信頼度計算部が、識別された話者属性に関する上記入力音声の事後確率系列の分布と他の話者属性に関する上記入力音声の事後確率系列の分布とに基づいて信頼度を計算する、
話者属性推定方法。 - 請求項5もしくは6に記載の学習装置または請求項7から9のいずれかに記載の推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016222351A JP6553015B2 (ja) | 2016-11-15 | 2016-11-15 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016222351A JP6553015B2 (ja) | 2016-11-15 | 2016-11-15 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018081169A JP2018081169A (ja) | 2018-05-24 |
| JP6553015B2 true JP6553015B2 (ja) | 2019-07-31 |
Family
ID=62198894
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016222351A Active JP6553015B2 (ja) | 2016-11-15 | 2016-11-15 | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6553015B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021175031A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109147800A (zh) * | 2018-08-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 应答方法和装置 |
| CN111383642B (zh) * | 2018-12-27 | 2024-01-02 | Tcl科技集团股份有限公司 | 基于神经网络的语音应答方法、存储介质以终端设备 |
| WO2021001998A1 (ja) * | 2019-07-04 | 2021-01-07 | 日本電気株式会社 | 音モデル生成装置、音モデル生成方法、および記録媒体 |
| CN112349298A (zh) * | 2019-08-09 | 2021-02-09 | 阿里巴巴集团控股有限公司 | 声音事件识别方法、装置、设备和存储介质 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH06152726A (ja) * | 1992-10-29 | 1994-05-31 | Sekisui Chem Co Ltd | 応答メッセージ切り替え通話装置 |
| JP4394752B2 (ja) * | 1996-10-02 | 2010-01-06 | エスアールアイ インターナショナル | 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム |
| WO2004088632A2 (en) * | 2003-03-26 | 2004-10-14 | Honda Motor Co., Ltd. | Speaker recognition using local models |
| JP2006078654A (ja) * | 2004-09-08 | 2006-03-23 | Embedded System:Kk | 音声認証装置及び方法並びにプログラム |
| JP6246636B2 (ja) * | 2014-03-20 | 2017-12-13 | 株式会社東芝 | パターン識別装置、パターン識別方法およびプログラム |
| JP6500375B2 (ja) * | 2014-09-16 | 2019-04-17 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
-
2016
- 2016-11-15 JP JP2016222351A patent/JP6553015B2/ja active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021175031A1 (zh) * | 2020-03-03 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 信息提示方法、装置、电子设备及介质 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2018081169A (ja) | 2018-05-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6622505B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
| US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
| JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
| JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
| WO2019102884A1 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
| WO2019017462A1 (ja) | 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム | |
| US11798578B2 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
| JP2017097188A (ja) | 話者らしさ評価装置、話者識別装置、話者照合装置、話者らしさ評価方法、プログラム | |
| US12136435B2 (en) | Utterance section detection device, utterance section detection method, and program | |
| JP2017187642A (ja) | 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム | |
| JP5818759B2 (ja) | 状況生成モデル作成装置、状況推定装置、およびプログラム | |
| JP6612277B2 (ja) | ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 | |
| JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
| JP6804639B2 (ja) | 属性識別装置、属性識別方法、プログラム | |
| JP6728083B2 (ja) | 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム | |
| JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
| JP5342621B2 (ja) | 音響モデル生成装置、音響モデル生成方法、プログラム | |
| JP7218810B2 (ja) | 音声非音声判定装置、音声非音声判定用モデルパラメータ学習装置、音声非音声判定方法、音声非音声判定用モデルパラメータ学習方法、プログラム | |
| JP7279800B2 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
| US12394406B2 (en) | Paralinguistic information estimation model learning apparatus, paralinguistic information estimation apparatus, and program | |
| JP6078441B2 (ja) | モデル処理装置、分析装置、それらの方法およびプログラム | |
| JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
| CN114613370A (zh) | 语音对象识别模型的训练方法、识别方法和装置 | |
| JP7216348B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
| JP2008064849A (ja) | 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180525 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190415 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190423 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190606 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190702 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190703 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6553015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |