JP6992725B2 - パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム - Google Patents
パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム Download PDFInfo
- Publication number
- JP6992725B2 JP6992725B2 JP2018198427A JP2018198427A JP6992725B2 JP 6992725 B2 JP6992725 B2 JP 6992725B2 JP 2018198427 A JP2018198427 A JP 2018198427A JP 2018198427 A JP2018198427 A JP 2018198427A JP 6992725 B2 JP6992725 B2 JP 6992725B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- para
- language information
- information estimation
- submodel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Social Psychology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
本実施形態において、入力発話とは、当該発話の音声波形情報および当該発話の話者の表情(顔)の映像情報の両方を指すものとする。本発明でパラ言語情報推定に用いる特徴量は、人間の発話から抽出できる独立した二以上の特徴量であればよいが、本実施形態では、韻律特徴、言語特徴、および映像特徴の互いに独立な三種類の特徴量を用いるものとする。ただし、これら三種類の特徴量のうち、いずれか二種類の特徴量のみを用いてもよい。また、他特徴量と互いに独立であれば、例えば生体信号情報(脈拍、皮膚電位など)などの情報を用いた特徴量を追加で利用してもよい。
第一実施形態のパラ言語情報推定モデル学習装置は、教師ラベルが付与された発話からパラ言語情報推定モデルを学習する。パラ言語情報推定モデル学習装置は、図3に例示するように、発話記憶部10-1、教師ラベル記憶部10-2、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル学習部12、およびパラ言語情報推定モデル記憶部20を備える。以下、韻律特徴抽出部11-1、言語特徴抽出部11-2、および映像特徴抽出部11-3を特徴量抽出部11と総称することもある。特徴量抽出部11はパラ言語情報推定に用いる特徴量の種類に応じて数や処理内容等の構成を変更する。このパラ言語情報推定モデル学習装置が、図4に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定モデル学習方法が実現される。
第一実施形態のパラ言語情報推定装置は、学習済みのパラ言語情報推定モデルを用いて入力発話からパラ言語情報を推定する。パラ言語情報推定装置は、図7に例示するように、韻律特徴抽出部11-1、言語特徴抽出部11-2、映像特徴抽出部11-3、パラ言語情報推定モデル記憶部20、およびパラ言語情報推定部21を備える。このパラ言語情報推定装置が、図8に例示する各ステップの処理を行うことにより第一実施形態のパラ言語情報推定方法が実現される。
第一実施形態では、ある特徴量の特徴量ゲート重みベクトルは、その特徴量の特徴量サブモデルの出力結果から決定している。これは、例えば韻律特徴において特定のパラ言語情報の特性が強く表れていると判断されたとき、韻律特徴をパラ言語情報推定に利用するという構成である。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
10-2 教師ラベル記憶部
11 特徴量抽出部
12 パラ言語情報推定モデル学習部
20 パラ言語情報推定モデル記憶部
21 パラ言語情報推定部
100,900 パラ言語情報推定モデル
101 特徴量サブモデル
102 特徴量重みベクトル
103 特徴量ゲート
104 結果統合サブモデル
121 特徴量サブモデル学習部
122 特徴量重み算出部
123 特徴量ゲート処理部
124 結果統合サブモデル学習部
Claims (8)
- 入力発話からパラ言語情報を推定するパラ言語情報推定装置であって、
複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルを記憶するパラ言語情報推定モデル記憶部と、
入力発話から上記複数の独立した特徴量を抽出する特徴量抽出部と、
上記パラ言語情報推定モデルを用いて上記入力発話から抽出した上記複数の独立した特徴量から上記入力発話のパラ言語情報を推定するパラ言語情報推定部と、
を含み、
上記パラ言語情報推定モデルは、
上記複数の独立した特徴量ごとにその特徴量のみに基づいてパラ言語情報の推定に用いる情報を出力する特徴量サブモデルと、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量重みを算出する特徴量重み算出部と、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果を上記特徴量重みで重み付けして出力する特徴量ゲートと、
すべての上記特徴量ゲートの出力結果に基づいて上記パラ言語情報を推定する結果統合サブモデルと、
を含むパラ言語情報推定装置。 - 請求項1に記載のパラ言語情報推定装置であって、
上記特徴量重み算出部は、すべての上記特徴量の上記特徴量サブモデルの出力結果に基づいて上記特徴量重みを算出するものである、
パラ言語情報推定装置。 - 請求項1から3のいずれかに記載のパラ言語情報推定装置であって、
上記パラ言語情報推定モデルは、ニューラルネットワークに基づくモデルであり、
上記特徴量重みは、固定値または入力に応じた関数であり、
上記特徴量サブモデルと上記特徴量重みと上記結果統合サブモデルとは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとを用いて一体で学習したものである、
パラ言語情報推定装置。 - 請求項1から3のいずれかに記載のパラ言語情報推定装置であって、
上記特徴量サブモデルは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとから学習したものであり、
上記特徴量重みは、上記特徴量ごとにあらかじめ定められたルールに従って算出されるものであり、
上記結果統合サブモデルは、すべての上記特徴量ゲートの出力結果と上記教師ラベルとから学習したものである、
パラ言語情報推定装置。 - 入力発話からパラ言語情報を推定するパラ言語情報推定方法であって、
パラ言語情報推定モデル記憶部に、複数の独立した特徴量を入力としてパラ言語情報推定結果を出力するパラ言語情報推定モデルが記憶されており、
特徴量抽出部が、入力発話から上記複数の独立した特徴量を抽出し、
パラ言語情報推定部が、上記パラ言語情報推定モデルを用いて上記入力発話から抽出した上記複数の独立した特徴量から上記入力発話のパラ言語情報を推定し、
上記パラ言語情報推定モデルは、
上記複数の独立した特徴量ごとにその特徴量のみに基づいてパラ言語情報の推定に用いる情報を出力する特徴量サブモデルと、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果に基づいてその特徴量をパラ言語情報の推定に用いるか否かを表す特徴量重みを算出する特徴量重み算出部と、
上記複数の独立した特徴量ごとに上記特徴量サブモデルの出力結果を上記特徴量重みで重み付けして出力する特徴量ゲートと、
すべての上記特徴量ゲートの出力結果に基づいて上記パラ言語情報を推定する結果統合サブモデルと、
を含むパラ言語情報推定方法。 - 請求項6に記載のパラ言語情報推定方法であって、
上記パラ言語情報推定モデルは、ニューラルネットワークに基づくモデルであり、
上記特徴量重みは、固定値または入力に応じた関数であり、
上記特徴量サブモデルと上記特徴量重みと上記結果統合サブモデルとは、複数の学習発話から抽出した上記複数の独立した特徴量と上記学習発話に付与された教師ラベルとを用いて一体で学習したものである、
パラ言語情報推定方法。 - 請求項1から5のいずれかに記載のパラ言語情報推定装置としてコンピュータを機能させるためのプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018198427A JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
| US17/287,102 US11798578B2 (en) | 2018-10-22 | 2019-10-08 | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program |
| PCT/JP2019/039572 WO2020085070A1 (ja) | 2018-10-22 | 2019-10-08 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018198427A JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020067500A JP2020067500A (ja) | 2020-04-30 |
| JP6992725B2 true JP6992725B2 (ja) | 2022-01-13 |
Family
ID=70331153
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018198427A Active JP6992725B2 (ja) | 2018-10-22 | 2018-10-22 | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US11798578B2 (ja) |
| JP (1) | JP6992725B2 (ja) |
| WO (1) | WO2020085070A1 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20240233744A9 (en) * | 2021-02-08 | 2024-07-11 | Nippon Telegraph And Telephone Corporation | Sound source separation method, sound source separation apparatus, and progarm |
| US20240127796A1 (en) * | 2021-02-18 | 2024-04-18 | Nippon Telegraph And Telephone Corporation | Learning apparatus, estimation apparatus, methods and programs for the same |
| CN113380238A (zh) * | 2021-06-09 | 2021-09-10 | 阿波罗智联(北京)科技有限公司 | 处理音频信号的方法、模型训练方法、装置、设备和介质 |
| WO2025099939A1 (ja) * | 2023-11-10 | 2025-05-15 | 日本電信電話株式会社 | 学習装置、生成装置、学習方法、生成方法、及びプログラム |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018146898A (ja) | 2017-03-08 | 2018-09-20 | パナソニックIpマネジメント株式会社 | 装置、ロボット、方法、及びプログラム |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10515629B2 (en) * | 2016-04-11 | 2019-12-24 | Sonde Health, Inc. | System and method for activation of voice interactive services based on user state |
| US10049664B1 (en) * | 2016-10-27 | 2018-08-14 | Intuit Inc. | Determining application experience based on paralinguistic information |
| US10135989B1 (en) * | 2016-10-27 | 2018-11-20 | Intuit Inc. | Personalized support routing based on paralinguistic information |
| US10475530B2 (en) * | 2016-11-10 | 2019-11-12 | Sonde Health, Inc. | System and method for activation and deactivation of cued health assessment |
| US20180032612A1 (en) * | 2017-09-12 | 2018-02-01 | Secrom LLC | Audio-aided data collection and retrieval |
| JP7052866B2 (ja) * | 2018-04-18 | 2022-04-12 | 日本電信電話株式会社 | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム |
| US10872602B2 (en) * | 2018-05-24 | 2020-12-22 | Dolby Laboratories Licensing Corporation | Training of acoustic models for far-field vocalization processing systems |
| JP7111017B2 (ja) * | 2019-02-08 | 2022-08-02 | 日本電信電話株式会社 | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム |
| US20230069908A1 (en) * | 2020-02-21 | 2023-03-09 | Nippon Telegraph And Telephone Corporation | Recognition apparatus, learning apparatus, methods and programs for the same |
| WO2021205742A1 (ja) * | 2020-04-08 | 2021-10-14 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、並びにコンピュータプログラム |
-
2018
- 2018-10-22 JP JP2018198427A patent/JP6992725B2/ja active Active
-
2019
- 2019-10-08 WO PCT/JP2019/039572 patent/WO2020085070A1/ja not_active Ceased
- 2019-10-08 US US17/287,102 patent/US11798578B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018146898A (ja) | 2017-03-08 | 2018-09-20 | パナソニックIpマネジメント株式会社 | 装置、ロボット、方法、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| US11798578B2 (en) | 2023-10-24 |
| US20210398552A1 (en) | 2021-12-23 |
| WO2020085070A1 (ja) | 2020-04-30 |
| JP2020067500A (ja) | 2020-04-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6933264B2 (ja) | ラベル生成装置、モデル学習装置、感情認識装置、それらの方法、プログラム、および記録媒体 | |
| US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
| Yu et al. | Using bidirectional LSTM recurrent neural networks to learn high-level abstractions of sequential features for automated scoring of non-native spontaneous speech | |
| WO2021104099A1 (zh) | 一种基于情景感知的多模态抑郁症检测方法和系统 | |
| US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
| JP7420211B2 (ja) | 感情認識装置、感情認識モデル学習装置、それらの方法、およびプログラム | |
| Tu et al. | Investigating the role of L1 in automatic pronunciation evaluation of L2 speech | |
| JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
| JP6992725B2 (ja) | パラ言語情報推定装置、パラ言語情報推定方法、およびプログラム | |
| US10283142B1 (en) | Processor-implemented systems and methods for determining sound quality | |
| El-Moneim et al. | Text-dependent and text-independent speaker recognition of reverberant speech based on CNN | |
| Chittaragi et al. | Automatic text-independent Kannada dialect identification system | |
| Punithavathi et al. | [Retracted] Empirical Investigation for Predicting Depression from Different Machine Learning Based Voice Recognition Techniques | |
| US10783873B1 (en) | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora | |
| Vetráb et al. | Aggregation strategies of Wav2vec 2.0 embeddings for computational paralinguistic tasks | |
| Ahmed et al. | Efficient feature extraction and classification for the development of Pashto speech recognition system | |
| Sefara et al. | Gender identification in Sepedi speech corpus | |
| JP2021032920A (ja) | パラ言語情報推定装置、学習装置、それらの方法、およびプログラム | |
| JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
| Higuchi et al. | Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages. | |
| Oruh et al. | Deep learning with optimization techniques for the classification of spoken English digit | |
| Egas-López et al. | Identification of Subjects Wearing a Surgical Mask from Their Speech by Means of X-vectors and Fisher Vectors | |
| Thandil et al. | Analysis of Influential Features with Spectral Features for Modeling Dialectal Variation in Malayalam Speech Using Deep Neural Networks | |
| Long et al. | Offline to online speaker adaptation for real-time deep neural network based LVCSR systems | |
| Yadav et al. | Effect of Normalisation for Gender Identification |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210125 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211109 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211122 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6992725 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |