JP6251145B2

JP6251145B2 - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP6251145B2
Application number: JP2014190196A
Authority: JP
Inventors: 山本　雅裕; 雅裕山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2014-09-18
Filing date: 2014-09-18
Publication date: 2017-12-20
Anticipated expiration: 2034-09-18
Also published as: US20160086622A1; JP2016061968A; CN105448305A

Description

本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。

音声に対する評価は、対話・コミュニケーションにおいて非常に重要であり、特に対話システムの構築においては、対話における自然性の客観的な評価は円滑な対話・コミュニケーション進行において根幹をなす。そのため、音声の質を中心に自然性を評価する様々な提案が行われている。

しかし、音質中心の評価方法では、断片的な音としての自然性を評価することはできるが、音声が人の感覚へ与える影響を評価することはできない。また、スペクトル包絡からの連続的な音として音声を評価する方法もあるが、この方法では、スペクトル包絡から作り出す２次的な特徴量を利用するため抜け落ちる特徴があり、音声が人の感覚へ与える影響を適切に評価することは難しい。このため、音声が人の感覚にどのような影響を与えるかを適切に評価できる新たな技術の提案が求められる。

特開２０１３−５７８４３号公報

本発明が解決しようとする課題は、音声が人の感覚にどのような影響を与えるかを適切に評価できる音声処理装置、音声処理方法およびプログラムを提供することである。

実施形態の音声処理装置は、解析部と、特徴量算出部と、比較部と、感覚指標算出部と、を備える。解析部は、処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う。特徴量算出部は、前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する。評価演算部は、前記対象音声の特徴量を、基準音声から算出された基準特徴量と比較して比較結果を生成する。感覚指標算出部は、前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する。解析部は、少なくとも、時間軸上での非対称窓関数である第１窓関数を用いた疑似周波数解析と、前記第１窓関数を時間軸方向に反転した窓関数である第２窓関数を用いた疑似周波数解析とを行う。

第１実施形態の音声処理装置の構成例を示すブロック図。表示部に表示されるメッセージの一例を示す図。窓関数の一例を示す図。感覚カテゴリに分類された窓関数の一例を示す図。感覚指標の一例を示す図。対象音声の特徴量と基準特徴量とを比較する処理の一例を示す図。第１実施形態の音声処理装置の動作概要を示すフローチャート。第２実施形態の音声処理装置の構成例を示すブロック図。第３実施形態の音声処理装置の構成例を示すブロック図。第３実施形態の音声処理装置のハードウェア構成例を示すブロック図。

（第１実施形態）
図１は、第１実施形態の音声処理装置１００の構成例を示すブロック図である。この音声処理装置１００は、図１に示すように、音声解析部１１０と、評価演算部１２０と、記憶部１３０と、表示部１４０とを備える。記憶部１３０は、後述の窓関数を格納する窓関数格納部１３１および後述の基準特徴量を格納する特徴量格納部１３２を含む。表示部１４０は、本実施形態の音声処理装置１００におけるユーザインターフェースとしての機能を持ち、処理の結果を表す情報や処理中の情報、ユーザに対するメッセージ、ユーザの操作を受け付ける情報などの各種情報を表示したり、所定の動作を指定するユーザ操作を受け付けたりする。

音声解析部１１０は、音声を解析して特徴量を算出するブロックであり、図１に示すように、前処理部１１１、窓関数選択部１１２、解析部１１３、および特徴量算出部１１４を含む。

前処理部１１１は、外部から処理対象となる対象音声の音声データを受け取り、雑音除去のためのフィルタ処理などの前処理を行う。なお、本実施形態で用いる音声データは、肉声の音声、合成音声など、作成の方法は問わない。また、前処理部１１１は、対象音声の音声データに対し、サンプリングレートの解析やデータ時間の解析などを行う。このとき、前処理部１１１は、対象音声の音声データのサンプリングレートを後述の基準音声群のサンプリングレートと比較する。そして、同一のサンプリングレートがない場合には、例えば図２に示すようなメッセージＭｓを表示部１４０に表示させることにより、サンプリングレートの変換または音声データの作り直しをユーザに促す。ここで、ユーザによりサンプリングレートの変換が要求された場合、前処理部１１１は、対象音声の音声データに対してサンプリングレートの変換を行う。前処理部１１１によって処理された対象音声の音声データは、解析部１１３に渡される。

窓関数選択部１１２は、窓関数格納部１３１に格納されている窓関数のうち、解析部１１３での疑似周波数解析を行う際に用いる窓関数を選択する。窓関数格納部１３１に格納される窓関数は、人の聴覚および発声に関わる部位を通じて音声信号から受ける感覚を再現するためのフィルタとして設計されたものであり、適応フィルタ関数や非線形フィルタ関数などが含まれる。

図３は、窓関数格納部１３１に格納される窓関数の一例を示す図である。窓関数格納部１３１には、図３に示すように、２つの窓関数がペアとして格納されている。以下では便宜上、このペアのうちの一方を第１窓関数といい、他方を第２窓関数という。第１窓関数は、時間軸上での非対称窓関数であり、第２窓関数は、第１窓関数を時間軸方向に反転した窓関数である。ここで、時間軸上での非対称窓関数とは、時間軸上の中点（図３のＰ点）を中心に波形を１８０度回転させたときに元の波形に重ならず、かつ、時間軸上の中点を通って時間軸に垂直な線に対して線対称にならない波形を持つ窓関数をいう。

例えば、任意の第１窓関数を登録する操作が行われると、この第１窓関数の登録操作に応じて、第１窓関数を時間軸方向に反転した第２窓関数が自動的に生成され、第１窓関数と第２窓関数とのペアが窓関数格納部１３１に格納される。また、その際、これら第１窓関数と第２窓関数のペア（一対の窓関数）は、図４に示すように、後述の感覚指標の要素となる感覚カテゴリに分類されて、窓関数格納部１３１に格納される。感覚カテゴリは、音声から受ける感覚に基づく分類である。

本実施形態では、一例として、「自然さ」、「萌え」、「接近」、「回避」、「怒り」、「悲しみ」、「リラックス」、「集中力」、「創発（ひらめき）」、「美しさ」の１０個の感覚カテゴリを用いる。各感覚カテゴリには、上述した第１窓関数と第２窓関数とのペアがそれぞれ複数格納される。図４の例では、各感覚カテゴリについて、５対の窓関数が含まれる。なお、窓関数のペアは感覚カテゴリごとに５対以上格納するようにしてもよいし、重み付けを行うために、ある感覚カテゴリに分類される窓関数のペアの数が他の感覚カテゴリに分類される窓関数のペアの数よりも多くなるように格納してもよい。例えば、「自然さ」の感覚カテゴリに関しての評価の重みを高める場合には、「自然さ」に分類される窓関数のペアを増やすことにより次元拡張を行えばよい。

窓関数選択部１１２は、例えばユーザの選択操作に応じて、少なくとも、評価すべき感覚カテゴリに含まれる一対の窓関数を選択する。例えば、ユーザが任意の感覚カテゴリに属する窓関数を選択する操作を行うと、このユーザにより選択された窓関数（第１窓関数）と、この窓関数を時間軸方向に反転した窓関数（第２窓関数）とが選択され、結果として一対の窓関数が選択される。この際、処理対象となる対象音声に対し、後述の感覚指標として複数の要素を含む感覚指標を算出する場合は、複数の感覚カテゴリからそれぞれ一対の窓関数が選択される。また、図４に示した例のように、１つの感覚カテゴリに対して複数対（図４の例では５対）の窓関数が格納されている場合には、評価すべき感覚カテゴリに属するすべての窓関数の対を選択してもよいし、一部の窓関数の対を選択してもよい。１つの感覚カテゴリから選択される窓関数の対が多いほど、その感覚カテゴリに対する評価のロバスト性を高めることができる。窓関数選択部１１２によって選択された窓関数は、解析部１１３に渡される。

解析部１１３は、前処理部１１１から受け取った対象音声の音声データに対し、窓関数選択部１１２により選択された窓関数を用いて疑似周波数解析を行う。疑似周波数解析の一例として、ウェーブレット解析（Wavelet Analysis）が広く知られている。ウェーブレット解析では、信号に対して基底関数としてウェーブレット関数を乗算し、ウェーブレット関数のスケールファクタに対応する疑似周波数を解析する。本実施形態の音声処理装置１００は、解析部１１３による疑似周波数解析として、例えばこのウェーブレット解析を用いることができる。この場合、窓関数選択部１１２により選択される窓関数はウェーブレット関数である。なお、解析部１１３が用いる解析手法はウェーブレット解析に限らず、窓関数を用いて疑似周波数を解析できる方法であればよい。

上述の窓関数選択部１１２は、評価すべき感覚カテゴリについて少なくとも一対の窓関数（第１窓関数および第２窓関数）を選択している。したがって、解析部１１３は、対象音声の音声データに対し、少なくとも、第１窓関数を用いた疑似周波数解析と、第２窓関数を用いた疑似周波数解析とを行う。評価すべき感覚カテゴリが複数ある場合は、感覚カテゴリごとに、選択された少なくとも一対の窓関数を用いた疑似周波数解析が行われる。解析部１１３による疑似周波数解析の解析結果は、特徴量算出部１１４に渡される。

特徴量算出部１１４は、解析部１１３から受け取った疑似周波数解析の解析結果から、対象音声の特徴量を算出する。解析部１１３は、上述したように、評価すべき感覚カテゴリについて少なくとも一対の窓関数（第１窓関数および第２窓関数）を各々用いた疑似周波数解析を行っている。特徴量算出部１１４は、一対の窓関数の一方（第１窓関数）を用いた疑似周波数解析の解析結果と、他方（第２窓関数）を用いた疑似周波数解析の解析結果とに基づいて、対象音声の特徴量を算出する。評価すべき感覚カテゴリが複数ある場合は、感覚カテゴリごとの特徴量が算出される。また、１つの感覚カテゴリに対して複数対の窓関数が選択されて、それぞれの窓関数を用いた疑似周波数解析が行われている場合は、選択された窓関数の対に応じた次元数の特徴量が算出される。

対象音声の特徴量は、例えば、任意時間軸での相関係数によって求めることができる。ただし、対象音声の特徴量は、多重相関、ＭＦＣＣ（メル周波数ケプストラム係数）計算後の相関など方法は問わず、時間軸を持つ信号の特徴量が定義できるものであれば、どのような方法を用いて算出してもよい。特徴量算出部１１４によって算出された対象音声の特徴量は、評価演算部１２０の後述する比較部１２２に渡される。

評価演算部１２０は、音声解析部１１０での処理により算出された特徴量を用いて対象音声の感覚指標を算出するブロックであり、図１に示すように、特徴量選択部１２１、比較部１２２、および感覚指標算出部１２３を含む。

感覚指標は、音声から受ける人の感覚を表現する指標であり、信号のピッチ、帯域、プロソディから算出されるテンソルまたはベクトルである。例えば、上述した１０個の感覚カテゴリを要素として持つ感覚指標は、図５に例示するように、それぞれの感覚カテゴリに対応する１０次元のベクトルを用いて表現される。

特徴量選択部１２１は、記憶部１３０の特徴量格納部１３２に格納されている基準特徴量のうち、対象音声の特徴量の比較対象として用いる基準特徴量を選択する。基準特徴量は、多数の基準音声（基準音声群）から算出される感覚カテゴリごとの特徴量であり、例えば、多数の基準音声に対して上述した音声解析部１１０の処理を行うことにより算出することができる。基準音声は、基準特徴量の生成に用いられる音声であり、後述の基準感覚指標に基づいて１以上の感覚カテゴリに分類される。ここで、基準音声は、男性および女性の標準的なプロソディを持つ音声であることが望ましい。また、基準音声は、人が感情を伴って発話した自然音声を含むことが望ましい。例えば、様々な感情を伴う多様な自然音声を収録し、この自然音声の音声データに対して上述した音声解析部１１０での処理を行うことで算出された基準特徴量が、事前に算出された基準感覚指標に基づいて感覚カテゴリに分類されて特徴量格納部１３２に格納される。

特徴量格納部１３２には、上述した基準特徴量が、この基準特徴量の算出に用いた基準音声および基準感覚指標と対応付けられて格納される。なお、基準音声は、上述の音声解析部１１０に入力されるとともに特徴量格納部１３２に格納され、音声解析部１１０によって基準特徴量が算出された後にこの基準特徴量と対応付けられてもよい。

特徴量選択部１２１は、特徴量格納部１３２から評価すべき感覚カテゴリに対応する基準特徴量を選択する。すなわち、特徴量選択部１２１は、対象音声の特徴量を算出するための疑似周波数解析に用いた窓関数と同じ感覚カテゴリに属する基準特徴量を、特徴量格納部１３２から選択する。評価すべき感覚カテゴリが複数あり、特徴量算出部１１４によって複数の感覚カテゴリごとに対象音声の特徴量が算出されている場合は、特徴量選択部１２１はこれら複数の感覚カテゴリのそれぞれについて基準特徴量を選択する。特徴量選択部１２１によって選択された基準特徴量は、比較部１２２に渡される。

比較部１２２は、音声解析部１１０の特徴量算出部１１４から受け取った対象音声の特徴量を、特徴量選択部１２１から受け取った基準特徴量と比較して、比較結果を生成する。例えば、解析部１１３によるウェーブレット解析の結果から算出された特徴量の比較を行う場合、比較部１２２の処理は、例えば図６に示すような画像のマッチングとして実施することができる。

図６に示す例は、対象音声の特徴量を表す特徴画像Ｉｍ１を、「自然さ」の感覚カテゴリにおける基準特徴量を表す特徴画像Ｉｍ２と比較する様子を表している。なお、図６に示す特徴画像Ｉｍ１，Ｉｍ２は、縦方向が疑似周波数の大きさを表し、横方向が時間を表している。また、図中の濃度分布は信号強度を表し、濃度が濃い部分ほど信号強度が高いことを表している。この図６に示すように、「自然さ」の感覚カテゴリにおける基準特徴量を表す特徴画像Ｉｍ２に対し、対象音声の特徴量を表す特徴画像Ｉｍ１を時間軸上で比較することにより、対象音声のどの部分が自然ではないのかの判定が可能となる。なお、この方法は相関分析が簡単な方法であるが、比較部１２２が用いる方法はこの例に限らず、２種の統計値の比較が行える方法であればどの方法を用いてもよい。比較部１２２によって生成された特徴量の比較結果は、感覚指標算出部１２３に渡される。

感覚指標算出部１２３は、比較部１２２から受け取った比較結果に基づいて、対象音声の感覚指標を算出する。基準特徴量は、上述したように基準音声の基準感覚指標に基づいて感覚カテゴリに分類され、その感覚カテゴリの特徴を表している。したがって、ある感覚カテゴリについて、対象音声の特徴量をその感覚カテゴリの基準特徴量と比較した比較結果は、対象音声がその感覚カテゴリに対応する感覚をどの程度与えるかを表したものとなる。感覚指標算出部１２３は、対象音声に対して評価すべき感覚カテゴリごとに生成される比較部１２２の比較結果を用い、評価すべき感覚カテゴリを要素に含む感覚指標を算出する。

感覚指標算出部１２３が算出した対象音声の感覚指標は表示部１４０に送られる。表示部１４０では、対象音声の感覚指標を、例えばグラフや図形などのグラフィカルな画像表現を用いてユーザが分かり易いように表示することができる。また、表示部１４０は、対象音声の感覚指標に基づいて任意の画像を加工して表示することもできる。また、表示部１４０は、対象音声の感覚指標とともに、対象音声の波形や、感覚指標の算出に用いた基準特徴量の元となる基準音声の波形、基準感覚指標などを併せて表示するようにしてもよい。

ここで、基準音声から算出される基準感覚指標の算出方法の一例を説明する。基準感覚指標は、基準音声から受ける人の感覚を表現する指標であり、事前に算出される。基準感覚指標の算出方法としては、ｆＭＲＩ（functional Magnetic Resonance Imaging）、ＭＥＧ（magnetoencephalogram）、光トポグラフィ（ＮＩＲＳ：Near Infra-Red Spectoroscopy）、ｆＮＩＲＳ（functional NIRS）、ＥＥＧ（electroencephalogram）、ＥＤＡ（Electro-Dermal Activity）法、ＳＤ（semantic differential）法、ＭＤＳ（multidimensional scaling）法などを用いればよく、神経科学、心理学、生理学に基づいた手法によって、潜在レベルも含めて人の感覚が定量的および定性的に評価できる方法を一つまたは組み合わせて使用することが望ましい。

本実施形態では、主観評価によるＳＤ法とｆＭＲＩとを用いて基準音声から受ける人の脳活動を解析し、「自然さ」、「萌え」、「接近」、「回避」、「怒り」、「悲しみ」、「リラックス」、「集中」、「創発（ひらめき）」、「美しさ」についての一般的な脳活動との相関から基準感覚指標を算出する。そして、算出した基準感覚指標に基づいて、基準音声から算出した上述の基準特徴量を、それぞれの感覚カテゴリに分類する。感覚カテゴリへのカテゴリ分けは、ＤｅｅｐＬｅａｒｎｉｎｇのような手法を用いて機械学習でカテゴリ分けを行ってもよいし、ユーザがカテゴリ分けを行ってもよい。

このように、基準音声から算出される基準感覚指標に基づいて基準特徴量のカテゴリ分けを行うことにより、「自然さ」、「萌え」、「接近」、「回避」、「怒り」、「悲しみ」、「リラックス」、「集中」、「創発（ひらめき）」、「美しさ」などの人が音声から受ける感覚に対応する感覚カテゴリに対し、基準特徴量を定量的に分類することができる。なお、基準音声として、ユーザの好みの音声信号を用いてもよい。この場合、好みの音声信号の感覚カテゴリ分けを行うことができるので、対象音声を好みの音声で例えるなどの処理を行うことができる。

本実施形態では、例えば、音声データに対して周波数解析、疑似周波数解析を行ったあとＭＦＣＣなどで周波数帯域解析、ピッチ解析、プロソディ解析等を行う。そして、解析結果から基準ベクトルを生成する過程を経て、特徴ベクトルを構成する。その結果、例えば１０次元ベクトルを用いて表現される感覚指標が算出される。

なお、使用する周波数解析は、例えば、フーリエ変換による級数展開の指標であればよく、同時に周波数解析として、フラクタル周波数解析による指標も使用することが可能である。すなわち、ベクトル生成のための特徴量算出の基準は、異なる数学的手法または異なる解析結果から抽出され、評価に適した解析処理によって、特徴量空間からベクトルを選択すればよい。本実施形態では、１０次元のベクトルとしているが、解析部の処理の中で、評価に必要な解析結果を要素としたベクトルを選択すればよい。

また、各感覚カテゴリの基準特徴量としては、各感覚カテゴリに含まれる基準音声のそれぞれから算出した基準特徴量を独立に格納してもよいし、複数の基準特徴量の重み付け総和をとることにより、１つの新しい基準特徴量を生成してもよい。この場合ＳＩＦＴによる次元圧縮を行うことが有効である。

また、部分特徴量を抽出した後、部分特徴量が共通するかどうかを各基準音声に解析適用し、部分特徴量が類似する音声があれば、あらためてＰＣＡまたはＩＣＡなどで抽出した擬似基準音声を作成することもできる。同様にユーザの好みの音声信号を学習させた結果を用いることで、新たな基準音声を作成することも可能である。

次に、第１実施形態の音声処理装置１００の動作について、図７を参照して説明する。図７は、第１実施形態の音声処理装置１００の動作概要を示すフローチャートである。

音声処理装置１００に対象音声の音声データが入力されると（ステップＳ１０１）、まず前処理部１１１によって、入力された音声データに対して雑音除去のためのフィルタ処理やサンプリングレートの変換などの前処理が行われる（ステップＳ１０２）。

次に、窓関数選択部１１２によって、例えばユーザの選択操作に応じた窓関数の選択が行われる（ステップＳ１０３）。この際、少なくとも１つの感覚カテゴリについて一対の窓関数（第１窓関数および第２窓関数）が選択される。

次に、解析部１１３によって、ステップＳ１０３で選択された窓関数を用いた疑似周波数解析が行われる（ステップＳ１０４）。このステップＳ１０４での疑似周波数解析は、ステップＳ１０３で選択された窓関数の数だけ繰り返し行われる。すなわち、ステップＳ１０４での疑似周波数解析が終わると、未使用の窓関数があるか否かが判定され（ステップＳ１０５）、未使用の窓関数があれば（ステップＳ１０５：Ｙｅｓ）、ステップＳ１０４に戻って当該窓関数を用いた疑似周波数解析が行われる。

そして、すべての窓関数を用いて疑似周波数解析が行われた後（ステップＳ１０５：Ｎｏ）、特徴量算出部１１４によって、疑似周波数解析に用いた窓関数の感覚カテゴリごとに、第１窓関数を用いた疑似周波数解析の結果と第２窓関数を用いた疑似周波数解析の結果との相関から、対象音声の特徴量が算出される（ステップＳ１０６）。

次に、特徴量選択部１２１によって、疑似周波数解析に用いた窓関数の感覚カテゴリに分類されている基準特徴量が選択される（ステップＳ１０７）。そして、比較部１２２によって、ステップＳ１０６で算出された対象音声の特徴量を、ステップＳ１０７で選択された基準特徴量と比較する処理が行われ（ステップＳ１０８）、感覚カテゴリごとの比較結果が生成される。そして、この比較結果に基づき、感覚指標算出部１２３によって対象音声の感覚指標が算出される（ステップＳ１０９）。このように算出された対象音声の感覚指標は、例えば、グラフィカルな画像表現を用いて表示部１４０に表示される。

以上、具体的な例を挙げながら説明したように、本実施形態の音声処理装置１００では、対象音声に対して複数の異なる窓関数を各々用いた複数の疑似周波数解析の解析結果の相関から求まる特徴量、特に、第１窓関数を用いた疑似周波数解析の結果と、第１窓関数を時間軸方向に反転した第２窓関数を用いた疑似周波数解析の解析結果との相関から、対象音声の特徴量を算出する。そして、この対象音声の特徴量を、予め基準感覚指標が判明している基準音声の特徴量である基準特徴量と比較して、その比較結果に基づいて、対象音声の感覚指標を算出する。したがって、本実施形態の音声処理装置１００によれば、従来技術では獲得できない特徴量を用いて連続的な音としての対象音声を評価することが可能となり、対象音声が人の感覚にどのような影響を与えるかを適切に評価することができる。

（第２実施形態）
次に、第１実施形態の音声処理装置１００を応用して、目標とする基準音声の基準感覚指標に近い感覚指標を持つ合成音声を生成する例を、第２実施形態として説明する。

図８は、第２実施形態の音声処理装置２００の構成例を示すブロック図である。この音声処理装置２００は、図８に示すように、音声解析部２１０と、評価演算部２２０と、記憶部２３０と、音声合成部２５０とを備える。なお、音声解析部２１０、評価演算部２２０および記憶部２３０は、上述した第１実施形態の音声解析部１１０、評価演算部１２０および記憶部１３０と同様であるため、これらの構成要素については詳細な説明は省略する。

本実施形態の音声処理装置２００では、音声合成部２５０によって生成された合成音声が対象音声として音声解析部２１０に入力される。音声解析部２１０は、対象音声として入力された合成音声に対し、第１実施形態の音声解析部１１０と同様の処理を行って、合成音声の特徴量を算出する。評価演算部２２０は、音声解析部２１０での処理により算出された合成音声の特徴量を用いて、第１実施形態の評価演算部１２０と同様の処理を行って、合成音声の感覚指標を算出する。評価演算部２２０により算出された合成音声の感覚指標は、音声合成部２５０に渡される。

音声合成部２５０は、パラメータ設定部２５１および合成部２５２を含む。パラメータ設定部２５１は、例えば音源波形を生成するためのパラメータや韻律を生成するためのパラメータなど、音声合成に関わる種々のパラメータを設定する。合成部２５２は、パラメータ設定部２５１によって設定されたパラメータに従って、テキストから合成音声を生成する。

ここで、本実施形態の音声処理装置２００では、音声合成部２５０が、合成部２５２において生成した合成音声の感覚指標を評価演算部２２０から受け取って、この合成音声の感覚指標が目標とする基準音声の基準感覚指標に近づくように、パラメータ設定部２５１により設定されるパラメータを変更する。すなわち、評価演算部２２０により算出された合成音声の感覚指標は、予め目標として指定された基準音声の基準感覚指標と比較される。パラメータ設定部２５１は、これらの差分が小さくなる方向のパラメータ勾配に従って新たなパラメータを設定する。そして、合成部２５２は、パラメータ設定部２５１により新たに設定されたパラメータに従って合成音声を生成する。その合成音声が対象音声として音声解析部２１０に入力されて、合成音声の感覚指標が再度算出される。合成音声の感覚指標と目標とする基準音声の基準感覚指標との類似度が閾値以上になるまで上記の処理が繰り返されることで、目標とする基準音声の基準感覚指標に近い合成音声を生成することができる。なお、この際、第１実施形態と同様に、評価演算部２２０により算出された合成音声の感覚指標を、図示しない表示部に表示するように構成してもよい。

以上説明したように、本実施形態の音声処理装置２００によれば、音声合成部２５０によって生成される合成音声が人の感覚に与える影響を適切に評価しながら、目標とする基準音声の基準感覚指標に近い合成音声を生成することができる。

（第３実施形態）
次に、第１実施形態の音声処理装置１００を応用して、対話処理における対話相手の感情を推察する例を、第３実施形態として説明する。

図９は、第３実施形態の音声処理装置３００の構成例を示すブロック図である。この音声処理装置３００は、図９に示すように、音声解析部３１０と、評価演算部３２０と、記憶部３３０と、表示部３４０と、状態遷移部３５０と、音声合成部３６０とを備える。なお、音声解析部３１０、評価演算部３２０および記憶部３３０は、上述した第１実施形態の音声解析部１１０、評価演算部１２０および記憶部１３０と同様であるため、これらの構成要素については詳細な説明は省略する。

本実施形態の音声処理装置３００は、例えば電話回線を通じて対話相手の発話音声を取得しながら合成音声による応答を行って、対話相手との間の対話処理を実行する。

対話相手の発話音声は、状態遷移部３５０に入力される。状態遷移部３５０は、対話相手の発話音声を解析して発話内容を認識し、予め学習されている状態遷移に従って、対話相手の発話音声に対する応答を音声合成部３６０に指示する。音声合成部３６０は、状態遷移部３５０からの指示に従って、合成音声による応答を生成する。合成音声部３６０が生成した合成音声による応答は、表示部３４０を通じて対話相手に伝えられる。

表示部３４０には、例えば、人の半身もしくは全身の画像を表示しながら、合成音声部３６０が生成した合成音声による応答を対話相手に随時伝えていくことで、対話相手との間で状態遷移に従った対話応答を行う。なお、表示部３４０に表示する人の画像は実写であってもＣＧ（コンピュータグラフィックス）であってもよい。

例えばコールセンターでの対話応答であれば、対話相手は、何らかの回答を求めて対話を行う場合が多い。この際、音声処理装置３００による合成音声による応答では、対話相手に対してきめ細かな応答を行えない場合がある。そこで、本実施形態の音声処理装置３００では、対話相手との間の対話応答を行っている間、対話相手の発話音声を対象音声として音声解析部３１０に入力し、評価演算部３２０により対話相手の発話音声の感覚指標を算出する。そして、算出した感覚指標を評価した結果、怒り、回避等の中立的な対話からの逸脱シグナルが観測され始めた場合に、例えば、表示部３４０に最初のシグナルを表示して、実際の対話状況を強調表示する。その後、対話相手の発話音声の感覚指標が中立的な対話からさらに逸脱していることを示す強いシグナルが観測された場合には、表示部３４０に警告を表示するなどして、その旨をオペレータに伝える。オペレータは、システムが警告を発している対話応答を、タイミングを図ってオペレータ本人による応答に切り替える。

以上説明したように、本実施形態の音声処理装置３００によれば、対話相手の発話音声の感覚指標を用いて中立的な対話からの逸脱を判定し、必要に応じて警告を行うようにしているので、対話の状況に応じて合成音声による対話応答とオペレータ本人による応答とを適切に切り替えることができ、合成音声による効率的な対話応答と、対話相手に対するきめ細かな対応との両立を図ることが可能となる。

（補足説明）
なお、上述した各実施形態の音声処理装置は、例えば、サーバ・クライアント型システムとして実現するようにしてもよい。この場合、サーバ装置は、クライアント装置から対象音声や基準音声を受け取って、対象音声の感覚指標を算出してクライアント装置に返す。クライアント装置は、サーバ装置で算出された対象音声の感覚指標に基づく情報表示などの各種処理を行うことができる。また、この場合、サーバ装置は、ＧＰＳ（Global Positioning System）などを用いてクライアント装置が使用されている地域情報を収集してもよい。クライアント装置が使用されている地域情報を用いることで、地域特有の言い回しや方言などを含む対象音声に対し、同様の基準音声を用いて適切な評価を行うことが可能となる。

なお、上述した各実施形態の音声処理装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いて実現することが可能である。すなわち、上述した各実施形態の音声処理装置における機能的な構成要素は、汎用のコンピュータ装置に搭載されたプロセッサがメモリを利用しながら所定のプログラムを実行することにより実現することができる。このとき、音声処理装置は、上記のプログラムをコンピュータ装置にあらかじめインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、上記のプログラムをサーバコンピュータ装置上で実行させ、ネットワークを介してその結果をクライアントコンピュータ装置で受け取ることにより実現してもよい。

また、上述した各実施形態の音声処理装置で使用する各種情報は、上記のコンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスクもしくはＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記録媒体を適宜利用して格納しておくことができる。例えば、上述した各実施形態の音声処理装置が使用する窓関数、基準特徴量、基準音声、基準感覚指標などは、これら記録媒体を適宜利用して格納しておくことができる。

上述した各実施形態の音声処理装置で実行されるプログラムは、音声処理装置を構成する各処理部（機能的な構成要素）を含むモジュール構成となっており、実際のハードウェアとしては、例えば、プロセッサが上記記憶媒体からプログラムを読み出して実行することにより、上記各処理部がメインメモリ上にロードされてメインメモリ上に生成されるようになっている。

ここで、音声処理装置のハードウェア構成の具体的な一例を、図１０を参照して説明する。図１０は、上述した第３実施形態の音声処理装置３００のハードウェア構成例を示すブロック図である。図１０に示すハードウェア構成を採用した音声処理装置３００は、ＲＯＭ１２に格納されたシステム起動情報に従って起動する。音声処理装置３００の主たる入力は、ビデオ、音声信号であり、これは入力装置１９によって装置内部に取り込まれる。入力の補完として、または、多岐に亘る情報の表示と入力を同時に処理するために、表示部３４０を構成するタッチパネル１８を具備している。画面上の選択肢およびユーザによる音声入力の間違えの修正を行うキーボード１７が入力として具備されることもある。

音声処理装置３００に入力された各種信号は、Ｉ／Ｏ１５を経て、ＣＰＵ１０およびＲＡＭ１１により実現される音声解析部３１０および評価演算部３２０で処理されるとともに、ＣＰＵ１０およびＲＡＭ１１により実現される状態遷移部３５０および音声合成部３６０で処理される。記憶部３３０は、記憶媒体１４を用いて構成される。本例のハードウェア構成の場合には、音声解析部３１０の一部の処理および評価演算部３２０の一部処理をＧＰＵ１３を用いて実行することにより、応答時間の短縮と省エネルギ化を実現することができる。ネットワーク端子１６は、装置外部との入出力のやり取りを行うために設けられ、各種処理をネットワーク越しに行う分散環境、クラウドでの処理、システムのアップデートなどに使用される。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００音声処理装置
１１０音声解析部
１１３解析部
１１４特徴量算出部
１２０評価演算部
１２２比較部
１２３感覚指標算出部
１３０記憶部
１３１窓関数格納部
１３２特徴量格納部
１４０表示部
２００音声処理装置
２１０音声解析部
２２０評価演算部
２３０記憶部
２５０音声合成部
３００音声処理装置
３１０音声解析部
３２０評価演算部
３３０記憶部
３４０表示部

Claims

処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析部と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出部と、
前記対象音声の特徴量を、基準音声から算出された基準特徴量と比較して比較結果を生成する比較部と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出部と、を備え、
前記解析部は、少なくとも、時間軸上での非対称窓関数である第１窓関数を用いた疑似周波数解析と、前記第１窓関数を時間軸方向に反転した窓関数である第２窓関数を用いた疑似周波数解析とを行う、音声処理装置。
予め定めた感覚カテゴリごとに、前記第１窓関数および前記第２窓関数の一対の窓関数と前記基準特徴量とを格納する格納部をさらに備え、
前記解析部は、評価すべき感覚カテゴリに応じて前記格納部から選択された一対の窓関数を各々用いた複数の疑似周波数解析を行い、
前記比較部は、前記対象音声の特徴量を、評価すべき感覚カテゴリに対応する前記基準特徴量と比較して比較結果を生成し、
前記感覚指標算出部は、前記比較結果に基づき、評価すべき感覚カテゴリを要素に含む前記感覚指標を算出する、請求項１に記載の音声処理装置。
前記基準特徴量は、前記基準音声に対して前記解析部が複数の異なる窓関数を各々用いて複数の疑似周波数解析を行った結果に基づいて前記特徴量算出部により算出された特徴量である、請求項１または２に記載の音声処理装置。
前記基準音声は、人が感情を伴って発話した自然音声を含む、請求項１乃至３のいずれか一項に記載の音声処理装置。
所定の音声合成パラメータに従って合成音声を生成する音声合成部をさらに備え、
前記対象音声は、前記音声合成部が生成する合成音声であり、
前記音声合成部は、前記感覚指標算出部が算出する前記合成音声の前記感覚指標が、目標とする感覚指標に近づくように、前記音声合成パラメータを変更する、請求項１乃至４のいずれか一項に記載の音声処理装置。
前記感覚指標算出部が算出する前記感覚指標に基づいて、情報の表示を行う表示部をさらに備える、請求項１乃至５のいずれか一項に記載の音声処理装置。
前記解析部は、前記疑似周波数解析としてウェーブレット解析を行う、請求項１乃至６のいずれか一項に記載の音声処理装置。
音声処理装置において実行される音声処理方法であって、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析ステップと、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出ステップと、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成する比較ステップと、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出ステップと、を含み、
前記解析ステップでは、少なくとも、時間軸上での非対称窓関数である第１窓関数を用いた疑似周波数解析と、前記第１窓関数を時間軸方向に反転した窓関数である第２窓関数を用いた疑似周波数解析とを行う、音声処理方法。
コンピュータに、
処理対象となる対象音声に対し、複数の異なる窓関数を各々用いた複数の疑似周波数解析を行う解析部の機能と、
前記複数の疑似周波数解析の解析結果に基づき、前記対象音声の特徴量を算出する特徴量算出部の機能と、
前記対象音声の特徴量を、基準音声から生成された基準特徴量と比較して比較結果を生成する比較部の機能と、
前記比較結果に基づき、前記対象音声から受ける感覚を表す感覚指標を算出する感覚指標算出部の機能と、を実現させ、
前記解析部は、少なくとも、時間軸上での非対称窓関数である第１窓関数を用いた疑似周波数解析と、前記第１窓関数を時間軸方向に反転した窓関数である第２窓関数を用いた疑似周波数解析とを行うプログラム。