JP6251145B2 - 音声処理装置、音声処理方法およびプログラム - Google Patents
音声処理装置、音声処理方法およびプログラム Download PDFInfo
- Publication number
- JP6251145B2 JP6251145B2 JP2014190196A JP2014190196A JP6251145B2 JP 6251145 B2 JP6251145 B2 JP 6251145B2 JP 2014190196 A JP2014190196 A JP 2014190196A JP 2014190196 A JP2014190196 A JP 2014190196A JP 6251145 B2 JP6251145 B2 JP 6251145B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- analysis
- feature amount
- window function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- User Interface Of Digital Computer (AREA)
Description
図1は、第1実施形態の音声処理装置100の構成例を示すブロック図である。この音声処理装置100は、図1に示すように、音声解析部110と、評価演算部120と、記憶部130と、表示部140とを備える。記憶部130は、後述の窓関数を格納する窓関数格納部131および後述の基準特徴量を格納する特徴量格納部132を含む。表示部140は、本実施形態の音声処理装置100におけるユーザインターフェースとしての機能を持ち、処理の結果を表す情報や処理中の情報、ユーザに対するメッセージ、ユーザの操作を受け付ける情報などの各種情報を表示したり、所定の動作を指定するユーザ操作を受け付けたりする。
次に、第1実施形態の音声処理装置100を応用して、目標とする基準音声の基準感覚指標に近い感覚指標を持つ合成音声を生成する例を、第2実施形態として説明する。
次に、第1実施形態の音声処理装置100を応用して、対話処理における対話相手の感情を推察する例を、第3実施形態として説明する。
なお、上述した各実施形態の音声処理装置は、例えば、サーバ・クライアント型システムとして実現するようにしてもよい。この場合、サーバ装置は、クライアント装置から対象音声や基準音声を受け取って、対象音声の感覚指標を算出してクライアント装置に返す。クライアント装置は、サーバ装置で算出された対象音声の感覚指標に基づく情報表示などの各種処理を行うことができる。また、この場合、サーバ装置は、GPS(Global Positioning System)などを用いてクライアント装置が使用されている地域情報を収集してもよい。クライアント装置が使用されている地域情報を用いることで、地域特有の言い回しや方言などを含む対象音声に対し、同様の基準音声を用いて適切な評価を行うことが可能となる。
110 音声解析部
113 解析部
114 特徴量算出部
120 評価演算部
122 比較部
123 感覚指標算出部
130 記憶部
131 窓関数格納部
132 特徴量格納部
140 表示部
200 音声処理装置
210 音声解析部
220 評価演算部
230 記憶部
250 音声合成部
300 音声処理装置
310 音声解析部
320 評価演算部
330 記憶部
340 表示部
Claims (9)
- 処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析部と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出部と、
前記対象音声の特徴量を、基準音声から算出された基準特徴量と比較して比較結果を生成する比較部と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出部と、を備え、
前記解析部は、少なくとも、時間軸上での非対称窓関数である第1窓関数を用いた疑似周波数解析と、前記第1窓関数を時間軸方向に反転した窓関数である第2窓関数を用いた疑似周波数解析とを行う、音声処理装置。 - 予め定めた感覚カテゴリごとに、前記第1窓関数および前記第2窓関数の一対の窓関数と前記基準特徴量とを格納する格納部をさらに備え、
前記解析部は、評価すべき感覚カテゴリに応じて前記格納部から選択された一対の窓関数を各々用いた複数の疑似周波数解析を行い、
前記比較部は、前記対象音声の特徴量を、評価すべき感覚カテゴリに対応する前記基準特徴量と比較して比較結果を生成し、
前記感覚指標算出部は、前記比較結果に基づき、評価すべき感覚カテゴリを要素に含む前記感覚指標を算出する、請求項1に記載の音声処理装置。 - 前記基準特徴量は、前記基準音声に対して前記解析部が複数の異なる窓関数を各々用いて複数の疑似周波数解析を行った結果に基づいて前記特徴量算出部により算出された特徴量である、請求項1または2に記載の音声処理装置。
- 前記基準音声は、人が感情を伴って発話した自然音声を含む、請求項1乃至3のいずれか一項に記載の音声処理装置。
- 所定の音声合成パラメータに従って合成音声を生成する音声合成部をさらに備え、
前記対象音声は、前記音声合成部が生成する合成音声であり、
前記音声合成部は、前記感覚指標算出部が算出する前記合成音声の前記感覚指標が、目標とする感覚指標に近づくように、前記音声合成パラメータを変更する、請求項1乃至4のいずれか一項に記載の音声処理装置。 - 前記感覚指標算出部が算出する前記感覚指標に基づいて、情報の表示を行う表示部をさらに備える、請求項1乃至5のいずれか一項に記載の音声処理装置。
- 前記解析部は、前記疑似周波数解析としてウェーブレット解析を行う、請求項1乃至6のいずれか一項に記載の音声処理装置。
- 音声処理装置において実行される音声処理方法であって、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析ステップと、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出ステップと、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成する比較ステップと、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出ステップと、を含み、
前記解析ステップでは、少なくとも、時間軸上での非対称窓関数である第1窓関数を用いた疑似周波数解析と、前記第1窓関数を時間軸方向に反転した窓関数である第2窓関数を用いた疑似周波数解析とを行う、音声処理方法。 - コンピュータに、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析部の機能と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出部の機能と、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成する比較部の機能と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出部の機能と、を実現させ、
前記解析部は、少なくとも、時間軸上での非対称窓関数である第1窓関数を用いた疑似周波数解析と、前記第1窓関数を時間軸方向に反転した窓関数である第2窓関数を用いた疑似周波数解析とを行うプログラム。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014190196A JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
| US14/845,310 US20160086622A1 (en) | 2014-09-18 | 2015-09-04 | Speech processing device, speech processing method, and computer program product |
| CN201510566659.8A CN105448305A (zh) | 2014-09-18 | 2015-09-08 | 语音处理装置和语音处理方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014190196A JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017219576A Division JP2018025827A (ja) | 2017-11-15 | 2017-11-15 | 対話システム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016061968A JP2016061968A (ja) | 2016-04-25 |
| JP6251145B2 true JP6251145B2 (ja) | 2017-12-20 |
Family
ID=55526330
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014190196A Active JP6251145B2 (ja) | 2014-09-18 | 2014-09-18 | 音声処理装置、音声処理方法およびプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20160086622A1 (ja) |
| JP (1) | JP6251145B2 (ja) |
| CN (1) | CN105448305A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3216027B2 (ja) | 1993-09-03 | 2001-10-09 | 雪印乳業株式会社 | 強酸性カチオン交換樹脂の再生方法 |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102137523B1 (ko) * | 2017-08-09 | 2020-07-24 | 한국과학기술원 | 텍스트-음성 변환 방법 및 시스템 |
| WO2019060298A1 (en) | 2017-09-19 | 2019-03-28 | Neuroenhancement Lab, LLC | METHOD AND APPARATUS FOR NEURO-ACTIVATION |
| JP2018025827A (ja) * | 2017-11-15 | 2018-02-15 | 株式会社東芝 | 対話システム |
| US11717686B2 (en) | 2017-12-04 | 2023-08-08 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to facilitate learning and performance |
| US11478603B2 (en) | 2017-12-31 | 2022-10-25 | Neuroenhancement Lab, LLC | Method and apparatus for neuroenhancement to enhance emotional response |
| US12280219B2 (en) | 2017-12-31 | 2025-04-22 | NeuroLight, Inc. | Method and apparatus for neuroenhancement to enhance emotional response |
| US11364361B2 (en) | 2018-04-20 | 2022-06-21 | Neuroenhancement Lab, LLC | System and method for inducing sleep by transplanting mental states |
| CN113382683A (zh) | 2018-09-14 | 2021-09-10 | 纽罗因恒思蒙特实验有限责任公司 | 改善睡眠的系统和方法 |
| JP6580281B1 (ja) * | 2019-02-20 | 2019-09-25 | ソフトバンク株式会社 | 翻訳装置、翻訳方法、および翻訳プログラム |
| KR102057926B1 (ko) * | 2019-03-19 | 2019-12-20 | 휴멜로 주식회사 | 음성 합성 장치 및 그 방법 |
| US11786694B2 (en) | 2019-05-24 | 2023-10-17 | NeuroLight, Inc. | Device, method, and app for facilitating sleep |
| KR102630490B1 (ko) * | 2019-09-06 | 2024-01-31 | 엘지전자 주식회사 | 감정 정보 보정을 이용한 합성 음성 생성 방법 및 이를 위한 장치 |
| CN111048116B (zh) * | 2019-12-23 | 2022-08-19 | 度小满科技(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
| JP7380188B2 (ja) | 2019-12-24 | 2023-11-15 | 富士通株式会社 | 更新プログラム、更新方法および情報処理装置 |
| US20250095646A1 (en) * | 2023-09-19 | 2025-03-20 | International Business Machines Corporation | Automatic replacement of targeted objects within arbitrary media |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
| ES2175988T3 (es) * | 1998-05-11 | 2002-11-16 | Siemens Ag | Procedimiento y disposicion para la determinacion de caracteristicas espectrales de la voz en una expresion verbal. |
| NZ526298A (en) * | 2001-08-06 | 2004-10-29 | Index Corp | Device and method for judging dog's feelings from cry vocal character analysis |
| CA2717723C (en) * | 2008-03-05 | 2016-10-18 | The Nielsen Company (Us), Llc | Methods and apparatus for generating signatures |
| JP2012198277A (ja) * | 2011-03-18 | 2012-10-18 | Toshiba Corp | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
| US20130297297A1 (en) * | 2012-05-07 | 2013-11-07 | Erhan Guven | System and method for classification of emotion in human speech |
| US9020822B2 (en) * | 2012-10-19 | 2015-04-28 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
| CN103236258B (zh) * | 2013-05-06 | 2015-09-16 | 东南大学 | 基于巴氏距离最优小波包分解的语音情感特征提取方法 |
| IL229370A (en) * | 2013-11-11 | 2015-01-29 | Mera Software Services Inc | Interface system and method for providing user interaction with network entities |
-
2014
- 2014-09-18 JP JP2014190196A patent/JP6251145B2/ja active Active
-
2015
- 2015-09-04 US US14/845,310 patent/US20160086622A1/en not_active Abandoned
- 2015-09-08 CN CN201510566659.8A patent/CN105448305A/zh not_active Withdrawn
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3216027B2 (ja) | 1993-09-03 | 2001-10-09 | 雪印乳業株式会社 | 強酸性カチオン交換樹脂の再生方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| US20160086622A1 (en) | 2016-03-24 |
| JP2016061968A (ja) | 2016-04-25 |
| CN105448305A (zh) | 2016-03-30 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6251145B2 (ja) | 音声処理装置、音声処理方法およびプログラム | |
| Nasir et al. | Multimodal and multiresolution depression detection from speech and facial landmark features | |
| Özseven | Investigation of the effect of spectrogram images and different texture analysis methods on speech emotion recognition | |
| Dangol et al. | Speech emotion recognition UsingConvolutional neural network and long-short TermMemory | |
| Markaki et al. | Voice pathology detection and discrimination based on modulation spectral features | |
| Ittichaichareon et al. | Speech recognition using MFCC | |
| Mariooryad et al. | Compensating for speaker or lexical variabilities in speech for emotion recognition | |
| JP7018659B2 (ja) | 声質変換装置、声質変換方法およびプログラム | |
| Tsanas et al. | Robust fundamental frequency estimation in sustained vowels: detailed algorithmic comparisons and information fusion with adaptive Kalman filtering | |
| Tirronen et al. | The effect of the MFCC frame length in automatic voice pathology detection | |
| Wang et al. | Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale | |
| Moro-Velázquez et al. | Modulation spectra morphological parameters: A new method to assess voice pathologies according to the grbas scale | |
| Bone et al. | Acoustic-Prosodic and Turn-Taking Features in Interactions with Children with Neurodevelopmental Disorders. | |
| US20150139446A1 (en) | Audio signal processing apparatus and method | |
| Mendoza et al. | Classification of vocal aging using parameters extracted from the glottal signal | |
| JPWO2017146073A1 (ja) | 声質変換装置、声質変換方法およびプログラム | |
| JP2017003622A (ja) | 声質変換方法および声質変換装置 | |
| Li et al. | Deep causal speech enhancement and recognition using efficient long-short term memory Recurrent Neural Network | |
| Feng et al. | A distributed dynamic brain network mediates linguistic tone representation and categorization | |
| Prabhu et al. | EMOCONV-DIFF: Diffusion-based Speech Emotion Conversion for Non-parallel and In-the-wild Data | |
| Mande et al. | EMOTION DETECTION USING AUDIO DATA SAMPLES. | |
| Deb et al. | Classification of speech under stress using harmonic peak to energy ratio | |
| Neumann et al. | Investigations on audiovisual emotion recognition in noisy conditions | |
| Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
| He et al. | Stress and emotion recognition using log-Gabor filter analysis of speech spectrograms |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160912 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170807 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170815 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170912 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171024 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171124 |
|
| R151 | Written notification of patent or utility model registration |
Ref document number: 6251145 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |