JP6496030B2

JP6496030B2 - 音声処理装置、音声処理方法及び音声処理プログラム

Info

Publication number: JP6496030B2
Application number: JP2017540402A
Authority: JP
Inventors: 正統田村; 眞弘森田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2015-09-16
Filing date: 2015-09-16
Publication date: 2019-04-03
Anticipated expiration: 2035-09-16
Also published as: US20200234692A1; JPWO2017046904A1; CN114464208A; CN114464208B; CN114694632B; CN114694632A; WO2017046904A1; CN107924686A; US11170756B2; US10650800B2; US20180174571A1; US20200234691A1; CN107924686B; US11348569B2

Description

本発明の実施形態は、音声処理装置、音声処理方法及び音声処理プログラムに関する。

音声波形を分析して特徴パラメータを抽出する音声分析装置や、分析して得られた特徴パラメータから音声を合成する音声合成装置は、テキスト音声合成技術、音声符号化技術、及び音声認識技術などの音声処理技術に広く用いられている。

国際公開第２０１４／０２１３１８号特開２０１３−１６４５７２号公報

坂野秀樹他、「時間領域平滑化群遅延を用いた短時間位相の効率的表現方法」、電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．Ｊ８４−Ｄ−ＩＩ、Ｎｏ．４、ｐｐ．６２１−６２８

しかしながら、従来は、統計モデルへの利用が困難であったり、再構築した位相と分析元波形の位相との間にずれが生じる問題があった。また、従来は、群遅延特徴量を用いて波形生成する場合には、高速に波形生成できないという問題があった。本発明が解決しようとする課題は、音声波形の再現性を高めることを可能にする音声処理装置、音声処理方法及び音声処理プログラムを提供することである。

実施形態の音声処理装置は、スペクトルパラメータ算出部と、位相スペクトル算出部と、群遅延スペクトル算出部と、帯域群遅延パラメータ算出部と、帯域群遅延補正パラメータ算出部と、を有する。スペクトルパラメータ算出部は、入力音声の各音声フレームに対し、スペクトルパラメータを算出する。位相スペクトル算出部は、前記各音声フレームに対し、第１位相スペクトルを算出する。群遅延スペクトル算出部は、前記第１位相スペクトルの周波数成分に基づいて、前記第１位相スペクトルから群遅延スペクトルを算出する。帯域群遅延パラメータ算出部は、前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する。帯域群遅延補正パラメータ算出部は、前記帯域群遅延パラメータから再構築した第２位相スペクトルと、前記第１位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する。

実施形態にかかる音声分析装置の構成例を示すブロック図。抽出部が受入れる音声波形とピッチマークを例示する図。スペクトルパラメータ算出部の処理例を示す図。位相スペクトル算出部の処理例と群遅延スペクトル算出部の処理を示す図。周波数スケールの作成例を示す図。帯域群遅延パラメータによる分析をした結果を例示する図。帯域群遅延補正パラメータにより分析した結果を例示する図。音声分析装置が行う処理を示すフローチャート。帯域群遅延パラメータ算出ステップの詳細を示すフローチャート。帯域群遅延補正パラメータ算出ステップの詳細を示すフローチャート。音声合成装置の第１実施形態を示すブロック図。逆フーリエ変換及び波形重畳を行う音声合成装置の構成例を示す図。図２に示した区間に対応する波形生成例を示す図。音声合成装置の第２実施形態を示すブロック図。音源信号生成部が行う処理を示すフローチャート。音源信号生成部の構成を示すブロック図。位相シフト帯域パルス信号を例示する図。選択部が選択を行う選択アルゴリズムを示す概念図。位相シフト帯域パルス信号を示す図。音源信号の生成例を示す図。音源信号生成部が行う処理を示すフローチャート。最小位相補正も含めて生成された音声波形を例示する図。帯域雑音強度を用いた音声合成装置の構成例を示す図。帯域雑音強度を例示する図。帯域雑音強度による制御も用いた音声合成装置の構成例を示す図。音声合成装置の第３実施形態を示すブロック図。ＨＭＭの概略を示す図。ＨＭＭ記憶部の概略を示す図。ＨＭＭ学習装置の概略を示す図。分析部が行う処理を示す図。ＨＭＭ学習部が行う処理を示すフローチャート。ＨＭＭ系列・分布列の構築例を示す図。

（第１の音声処理装置：音声分析装置）
次に、添付図面を参照して、実施形態にかかる第１の音声処理装置、すなわち、音声分析装置について説明する。図１は、実施形態にかかる音声分析装置１００の構成例を示すブロック図である。図１に示すように、音声分析装置１００は、抽出部（音声フレーム抽出部）１０１、スペクトルパラメータ算出部１０２、位相スペクトル算出部１０３、群遅延スペクトル算出部１０４、帯域群遅延パラメータ算出部１０５、帯域群遅延補正パラメータ算出部１０６を有する。

抽出部１０１は、入力音声及びピッチマークを受入れて、入力音声をフレーム単位に切り出して出力する（音声フレーム抽出）。抽出部１０１が行う処理例については、図２を用いて後述する。スペクトルパラメータ算出部（第１算出部）１０２は、抽出部１０１が出力した音声フレームからスペクトルパラメータを算出する。スペクトルパラメータ算出部１０２が行う処理例については、図３を用いて後述する。

位相スペクトル算出部（第２算出部）１０３は、抽出部１０１が出力した音声フレームの位相スペクトルを算出する。位相スペクトル算出部１０３が行う処理例については、図４（ａ）を用いて後述する。群遅延スペクトル算出部（第３算出部）１０４は、位相スペクトル算出部１０３が算出した位相スペクトルから後述する群遅延スペクトルを算出する。群遅延スペクトル算出部１０４が行う処理例については、図４（ｂ）を用いて後述する。

帯域群遅延パラメータ算出部（第４算出部）１０５は、群遅延スペクトル算出部１０４が算出した群遅延スペクトルから帯域群遅延パラメータを算出する。帯域群遅延パラメータ算出部１０５が行う処理例については、図６を用いて後述する。帯域群遅延補正パラメータ算出部（第５算出部）１０６は、帯域群遅延パラメータ算出部１０５が算出した帯域群遅延パラメータから再構築した位相スペクトルと、位相スペクトル算出部１０３が算出した位相スペクトルとの差を補正する補正量（帯域群遅延補正パラメータ：補正パラメータ）を算出する。帯域群遅延補正パラメータ算出部１０６が行う処理例については、図７を用いて後述する。

次に、音声分析装置１００が行う処理についてさらに詳述する。ここでは、音声分析装置１００が行う処理に関して、ピッチ同期分析によって特徴パラメータ分析を行う場合について説明する。

抽出部１０１は、入力音声と共に、その周期性に基づいて各音声フレームの中心時刻を表したピッチマーク情報を受入れる。図２は、抽出部１０１が受入れる音声波形とピッチマークを例示する図である。図２は、「だ」という音声の波形を示しており、音声波形と共に、有声音の周期性に従って抽出されたピッチマーク時刻を示している。

以下、音声フレームのサンプルとして、図２の下側に示した区間（下線の区間）に対する分析例を示す。抽出部１０１は、ピッチマークを中心として、ピッチの２倍の長さの窓関数を乗算することにより、音声フレームを切り出す。ピッチマークは、例えばピッチ抽出装置によってピッチ抽出し、ピッチ周期のピークを抽出する方法などにより求められる。また、周期性のない無声音区間も、固定のフレームレートや周期区間のピッチマークの補間した処理により、分析中心となる時刻列を作成して、ピッチマークとすることができる。

音声フレームの抽出には、ハニング窓を用いることができる。また、ハミング窓、ブラックマン窓など特性の異なる窓関数が用いられてもよい。抽出部１０１は、窓関数を用いて、周期区間の単位波形となるピッチ波形を音声フレームとして切り出す。また、抽出部１０１は、無音・無声音区間等の非周期区間においても上述したように、固定フレームレートやピッチマークを補間することにより定めた時刻に従って、窓関数を乗じて音声フレームを切り出す。

なお、本実施形態では、スペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータの抽出にピッチ同期分析を用いた場合を例に説明するが、これに限定されることなく、固定のフレームレートによってパラメータ抽出が行われてもよい。

スペクトルパラメータ算出部１０２は、抽出部１０１が抽出した音声フレームに対するスペクトルパラメータを求める。例えば、スペクトルパラメータ算出部１０２は、メルケプストラム、線形予測係数、メルＬＳＰ、正弦波モデル等のスペクトル包絡を表す任意のスペクトルパラメータを求める。また、ピッチ同期分析でなく、固定のフレームレートによる分析を行う場合にも、これらのパラメータや、ＳＴＲＡＩＧＨＴ分析によるスペクトル包絡抽出方法などを用いてパラメータ抽出を行ってもよい。ここでは、例としてメルＬＳＰによるスペクトルパラメータを用いる。

図３は、スペクトルパラメータ算出部１０２の処理例を示す図である。図３（ａ）は、音声フレームを示しており、図３（ｂ）は、フーリエ変換して得られたスペクトルを示している。スペクトルパラメータ算出部１０２は、このスペクトルに対してメルＬＳＰ分析を適用し、メルＬＳＰ係数を得る。メルＬＳＰ係数の０次はゲイン項を表すが、１次以上は周波数軸上の線スペクトル周波数であり、各ＬＳＰ周波数にグリッド線を示している。ここでは４４．1ｋＨｚの音声に対してメルＬＳＰ分析を適用している。これにより得られたスペクトル包絡は、スペクトルの概形を表すパラメータとなる（図３（ｃ））。

図４は、位相スペクトル算出部１０３の処理例と、群遅延スペクトル算出部１０４の処理例を示す図である。図４（ａ）は、位相スペクトル算出部１０３がフーリエ変換により求めた位相スペクトルを示している。位相スペクトルは、アンラップしたものである。位相スペクトル算出部１０３は、直流成分の位相を０とするように、振幅・位相ともにハイパスフィルタをかけて、位相スペクトルを求める。

群遅延スペクトル算出部１０４は、図４（ａ）に示した位相スペクトルから、下式１によって図４（ｂ）に示した群遅延スペクトルを求める。

上式１において、τ（ω）は群遅延スペクトル、ψ（ω）は位相スペクトル、「’」は微分の演算を表す。群遅延は、位相の周波数微分であり、時間領域では各帯域の平均時間（波形の重心時刻：遅延時間）を表す値である。群遅延スペクトルは、アンラップした位相の微分値にあたるため、範囲が−πからπの間の値となる。

ここで、図４（ｂ）を見ると、低域に−πに近い群遅延が生じていることがわかる。つまり、当該周波数における位相スペクトルにπに近い差が生じている。また、図３（ｂ）の振幅スペクトルを見ると、当該周波数位置において、谷が見られる。

本周波数において分けられる低域と高域では、信号の符号が逆転するためにこのような形状になり、位相に段差の生じる周波数はその境界の周波数を表している。この様な周波数軸上のπ付近の群遅延を含めて、群遅延の不連続な変化を再現することは、分析元の音声波形を再現して高品質な分析合成音声を得るために重要である。また、音声合成に用いる群遅延パラメータとして、この様な群遅延の急峻な変化を再現可能なパラメータであることが求められる。

帯域群遅延パラメータ算出部１０５は、群遅延スペクトル算出部１０４が算出した群遅延パラメータから帯域群遅延パラメータを算出する。帯域群遅延パラメータは、予め定めた周波数帯域毎の群遅延パラメータである。これにより、群遅延スペクトルの次数を削減し、統計モデルのパラメータとして利用可能なパラメータとなる。帯域群遅延パラメータは、下式２によって求められる。

上式２による帯域群遅延は、時間領域では平均時間を表し、零位相波形からのシフト量を表すことになる。離散スペクトルから平均時間を求める場合には、下式３が用いられる。

ここでは、帯域群遅延パラメータは、パワースペクトルによる重みづけを用いているが、単に群遅延の平均を用いてもよい。また、振幅スペクトルによる重みづけ平均など異なる算出方法であってもよく、各帯域の群遅延を表すパラメータであればよい。

このように、帯域群遅延パラメータは、所定の周波数帯域の群遅延を表すパラメータとなる。よって、帯域群遅延パラメータから群遅延の再構築は、下式４に示すように、各周波数に対応する帯域群遅延パラメータを用いることにより行われる。

この生成した群遅延からの位相の再構築は、下式５によって求められる。

ω＝０における位相の初期値は、上述したハイパス処理をかけているため、０としているが、実際に直流成分の位相を保存しておいて用いてもよい。これらに用いているΩ_ｂは、帯域群遅延を求めるときの帯域の境界である周波数スケールである。周波数スケールは、任意のスケールを用いることができるが、聴覚特性に合わせて低域は細かく、高域は粗い間隔で設定することができる。

図５は、周波数スケールの作成例を示す図である。図５に示した周波数スケールは、５ｋＨｚまではα＝０．３５のメルスケールを用い、５ｋＨｚ以上は等間隔に表したスケールである。群遅延パラメータは、波形の形状の再現性を高めるために、パワーの強くなる低域を細かく表現し、高域は粗い間隔に設定している。これは、高域では波形のパワーが小さくなり、また非周期成分によるランダム位相成分が強くなるため、安定した位相パラメータが得られなくなるためである。また、高域の位相は、聴覚的にも影響が小さいことが知られているためである。

ランダム位相の成分とパルス励振による成分との制御は、周期成分・非周期成分の強度である各帯域の雑音成分の強度により表現する。音声分析装置１００の出力結果を用いて音声合成を行う場合には、後述する帯域雑音強度パラメータも含めて波形生成される。よって、ここでは雑音成分の強い高域の位相は粗い表現にされ、次数が削減されている。

図６は、図５に示した周波数スケールを用いて、帯域群遅延パラメータによる分析をした結果を例示する図である。図６（ａ）は、上式３によって得られた帯域群遅延パラメータを示している。帯域群遅延パラメータは、各帯域の群遅延の重み平均になるが、平均的な群遅延では、群遅延スペクトルに見られる変動が再現できないことがわかる。

図６（ｂ）は、帯域群遅延パラメータから生成した位相を例示する図である。図６（ｂ）に示した例では、位相の傾きは概ね再現できているものの、低域にあるπに近い位相の変化等、位相スペクトルの段差を捉えることができず、位相スペクトルを再現できない箇所が含まれている。

この生成した位相と、メルＬＳＰから生成した振幅スペクトルを逆フーリエ変換し、波形生成した例が図６（ｃ）に示されている。生成された波形は、図３（ａ）の波形に見られる中心付近において、分析元の波形と大きく異なる形状となっている。このように、帯域群遅延パラメータのみにより位相をモデル化した場合、音声に含まれる位相の段差をとらえることができないため、再生成した波形と分析元の波形に差異が生じる。

この問題に対応するため、音声分析装置１００は、帯域群遅延パラメータとともに、所定の周波数において、帯域群遅延パラメータから再構築した位相を、位相スペクトルの当該周波数における位相に補正する帯域群遅延補正パラメータを用いる。

帯域群遅延補正パラメータ算出部１０６は、位相スペクトル及び帯域群遅延パラメータから帯域群遅延補正パラメータを算出する。帯域群遅延補正パラメータは、帯域群遅延パラメータにより再構築した位相を、境界周波数における位相値に補正するパラメータであり、差分をパラメータとする場合は、下式６によって求められる。

上式６の右辺第１項は、音声を分析して得られたΩ_ｂにおける位相である。上式６の第２項は、帯域群遅延パラメータｂｇｒｄ（ｂ）及び補正パラメータｂｇｒｄｃ（ｂ）により再構築する群遅延を用いて求められる。これは下式７に示すように、上式４の群遅延におけるω＝Ω_ｂとなる境界において、補正パラメータｂｇｒｄｃ（ｂ）を加算したパラメータとして表される。

このように構成した群遅延からの位相は、上式５により再構築される。また、上式６の右辺第２項は、上式７及び上式５によってω＝Ω_ｂ−１まで位相を再構築した後、Ω_ｂにおける帯域群遅延により再構築した下式８の位相によって求められ、Ω_ｂ―１までの帯域の帯域群遅延パラメータ及び帯域群遅延補正パラメータと、Ω_ｂにおける帯域群遅延パラメータを用いて再構築した位相として求められる。

また、上式６によって、右辺第２項の位相と実際の位相との差分を求めることにより、帯域群遅延補正パラメータを求めることにより、周波数Ω_ｂにおいて実際の位相が再現される。

図７は、帯域群遅延補正パラメータにより分析した結果を例示する図である。図７（ａ）は、上式７による帯域群遅延パラメータ及び帯域群遅延補正パラメータから再構築した群遅延スペクトルを示している。図７（ｂ）は、この群遅延スペクトルから位相を生成した例を示している。図７（ｂ）に示すように、帯域群遅延補正パラメータを用いることにより実際の位相に近い位相が再構築できている。特に、周波数スケールの間隔の狭い低域部分においては、図６（ｂ）において差が生じていた階段状の位相となる箇所も含めて再現できている。

図７（ｃ）は、このように再構築した位相パラメータから波形を合成した例を示している。図６（ｃ）に示した例では波形の形状が分析元の波形と大きく異なっていたが、図７（ｃ）に示した例では元の波形に近い音声波形が生成されている。上式６の補正パラメータｂｇｒｄｃは、ここでは位相の差分情報を用いているが、当該周波数における位相値など他のパラメータでもよい。例えば、帯域群遅延パラメータと組み合わせて用いることにより、当該周波数における位相が再現されるパラメータであればよい。

図８は、音声分析装置１００が行う処理を示すフローチャートである。音声分析装置１００は、ピッチマークのループにより、各ピッチマークに対応するパラメータを算出する処理を行う。まず、音声分析装置１００は、音声フレーム抽出ステップにおいて抽出部１０１が音声フレームを抽出する（Ｓ８０１）。次に、スペクトルパラメータ算出部１０２がスペクトルパラメータ算出ステップにおいてスペクトルパラメータを算出し（Ｓ８０２）、位相スペクトル算出部１０３が位相スペクトル算出ステップにおいて位相スペクトルを算出し（Ｓ８０３）、群遅延スペクトル算出部１０４が群遅延スペクトル算出ステップにおいて群遅延スペクトルを算出する（Ｓ８０４）。

次に、帯域群遅延パラメータ算出部１０５が帯域群遅延パラメータ算出ステップにおいて帯域群遅延パラメータを算出する（Ｓ８０５）。図９は、図８に示した帯域群遅延パラメータ算出ステップ（Ｓ８０５）の詳細を示すフローチャートである。図９に示すように、帯域群遅延パラメータ算出部１０５は、所定の周波数スケールの各帯域のループにより、帯域の境界周波数を設定し（Ｓ９０１）、上式３に示されたパワースペクトル重み等を用いた群遅延の平均化により帯域群遅延パラメータ（平均群遅延）を算出する（Ｓ９０２）。

次に、帯域群遅延補正パラメータ算出部１０６が帯域群遅延補正パラメータ算出ステップにおいて帯域群遅延補正パラメータを算出する（Ｓ８０６：図８）。図１０は、図８に示した帯域群遅延補正パラメータ算出ステップ（Ｓ８０６）の詳細を示すフローチャートである。図１０に示すように、帯域群遅延補正パラメータ算出部１０６は、各帯域のループにより、まず帯域の境界周波数を設定する（Ｓ１００１）。次に、帯域群遅延補正パラメータ算出部１０６は、帯域群遅延パラメータ及び現帯域以下の帯域の帯域群遅延補正パラメータを用いて境界周波数における位相を、上式７及び上式５を用いて生成する（Ｓ１００２）。そして、帯域群遅延補正パラメータ算出部１０６は、上式８により位相スペクトル差分パラメータを算出して、算出結果を帯域群遅延補正パラメータとする（Ｓ１００３）。

このように、音声分析装置１００は、図８（図９、１０）に示した処理を行うことにより、入力音声に対応するスペクトルパラメータ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを算出して出力するので、音声合成を行う場合に音声波形の再現性を高めることを可能にする。

（第２の音声処理装置：音声合成装置）
次に、実施形態にかかる第２の音声処置装置、すなわち、音声合成装置について説明する。図１１は、音声合成装置の第１実施形態（音声合成装置１１００）を示すブロック図である。図１１に示すように、音声合成装置１１００は、振幅情報生成部１１０１、位相情報生成部１１０２及び音声波形生成部１１０３を有し、スペクトルパラメータ系列、帯域群遅延パラメータ系列、帯域群遅延補正パラメータ系列及びパラメータ系列の時刻情報を受入れて音声波形（合成音声）を生成する。音声合成装置１１００に入力される各パラメータは、音声分析装置１００により算出されたものである。

振幅情報生成部１１０１は、各時刻のスペクトルパラメータから振幅情報を生成する。位相情報生成部１１０２は、各時刻の帯域群遅延パラメータ及び帯域群遅延補正パラメータから位相情報を生成する。音声波形生成部１１０３は、振幅情報生成部１１０１が生成した振幅情報、及び位相情報生成部１１０２が生成した位相情報から、各パラメータの時刻情報に従って音声波形を生成する。

図１２は、逆フーリエ変換及び波形重畳を行う音声合成装置１２００の構成例を示す図である。音声合成装置１２００は、音声合成装置１１００の具体的構成例の１つであり、振幅スペクトル算出部１２０１、位相スペクトル算出部１２０２、逆フーリエ変換部１２０３、及び波形重畳部１２０４を有し、逆フーリエ変換によって各時刻の波形を生成し、生成した波形を重畳合成することによって合成音声を出力する。

より具体的には、振幅スペクトル算出部１２０１は、スペクトルパラメータから振幅スペクトルを算出する。振幅スペクトル算出部１２０１は、例えばパラメータとしてメルＬＳＰを用いている場合、メルＬＳＰの安定性をチェックし、メルＬＰＣ係数に変換し、メルＬＰＣ係数から振幅スペクトルを算出する。位相スペクトル算出部１２０２は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式５及び上式７により位相スペクトルを算出する。

逆フーリエ変換部１２０３は、算出された振幅スペクトル及び位相スペクトルを逆フーリエ変換してピッチ波形を生成する。逆フーリエ変換部１２０３によって生成された波形は図７（ｃ）に例示されている。波形重畳部１２０４は、生成されたピッチ波形をパラメータ系列の時刻情報に基づいて重畳合成し、合成音声を得る。

図１３は、図２に示した区間に対応する波形生成例を示す図である。図１３（ａ）は、図２に示した原音の音声波形を示している。図１３（ｂ）は、音声合成装置１１００（音声合成装置１２００）が出力する帯域群遅延パラメータ及び帯域群遅延補正パラメータによる合成音声波形である。図１３（ａ）、（ｂ）に示すように、音声合成装置１１００は、原音の波形に近い形状の波形を生成することができる。

図１３（ｃ）は、比較例として、帯域群遅延パラメータのみを用いた場合の合成音声波形を示している。図１３（ａ）、（ｃ）に示すように、帯域群遅延パラメータのみを用いた場合の合成音声波形は、原音とは異なる形状の波形になっている。

このように、音声合成装置１１００（音声合成装置１２００）は、帯域群遅延パラメータに加えて帯域群遅延補正パラメータを用いることにより、原音の位相特性を再現することができ、分析合成波形を分析元の音声波形の形状に近づけて、高品質な波形生成をすること（音声波形の再現性を高めること）ができる。

図１４は、音声合成装置の第２実施形態（音声合成装置１４００）を示すブロック図である。音声合成装置１４００は、音源信号生成部１４０１及び声道フィルタ部１４０２を有する。音源信号生成部１４０１は、帯域群遅延パラメータ系列及び帯域群遅延補正パラメータ系列と、パラメータ系列の時刻情報を用いて、音源信号を生成する。音源信号は、位相制御されず、雑音強度等も用いられない場合、無声音区間には雑音信号、有声音区間にはパルス信号を用いて生成され、フラットなスペクトルを持ち、声道フィルタが適用されることによって音声波形が合成される信号である。

音声合成装置１４００は、音源信号生成部１４０１がパルス成分の位相を帯域群遅延パラメータ及び帯域群遅延補正パラメータによって制御する。つまり、図１１に示した位相情報生成部１１０２の位相制御機能は、音源信号生成部１４０１によって行われる。つまり、音声合成装置１４００は、ボコーダ型の波形生成に帯域群遅延パラメータ及び帯域群遅延補正パラメータを利用して高速に波形生成する。

音源信号を位相制御する方法の一つは、逆フーリエ変換を用いるものである。この場合、音源信号生成部１４０１は、図１５に示した処理を行う。つまり、音源信号生成部１４０１は、特徴パラメータの各時刻において、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式５及び上式７により位相スペクトルを算出し（Ｓ１５０１）、振幅を１として逆フーリエ変換を行い（Ｓ１５０２）、生成した波形を重畳する（Ｓ１５０３）。

声道フィルタ部１４０２は、生成された音源信号に対してスペクトルパラメータにより定められるフィルタを適用することにより、波形生成を行って音声波形（合成音声）を出力する。声道フィルタ部１４０２は、振幅情報を制御するために、図１１に示した振幅情報生成部１１０１が備える機能を有する。

音声合成装置１４００は、上述したように位相制御した場合には、音源信号からの波形生成は可能となるが、逆フーリエ変換の処理を含んでおり、フィルタ演算が含まれるために音声合成装置１２００（図１２）よりも処理量が増加し、高速に波形生成することができない。そこで、音源信号生成部１４０１は、時間領域の処理のみで位相制御された音源信号を生成するように、図１６に示したように構成される。

図１６は、時間領域の処理のみで位相制御された音源信号を生成する音源信号生成部１４０１の構成を示すブロック図である。図１６に示した音源信号生成部１４０１は、位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を予め用意し、位相シフト帯域パルス信号を遅延させて重畳合成させることによって音源波形を生成する。

具体的には、音源信号生成部１４０１は、まず、記憶部１６０５にパルス信号を位相シフトさせ、帯域分割した各帯域の信号を記憶しておく。位相シフト帯域パルス信号とは、該当する帯域における振幅スペクトルを１、位相スペクトルを定数値とした信号であり、パルス信号の位相をシフトし、帯域分割した各帯域の信号となり、下式９によって作成される。

ここで、帯域の境界Ω_ｂは、周波数スケールによって定められ、位相ψは、０≦ψ＜２πの範囲を量子化し、Ｐ段階に量子化される。Ｐ＝１２８とする場合、２π／１２８の刻みによって１２８個×帯域数の帯域パルス信号を作成する。このように、位相シフト帯域パルス信号は、位相シフトしたパルス信号を帯域分割したものであり、合成時には帯域及び位相の主値によって選択される。このように作成した位相シフト帯域パルス信号を帯域ｂの位相シフトのインデックスをｐｈ（ｂ）としたとき、ｂａｎｄｐｕｌｓｅ_ｂ ^{ｐｈ（ｂ）}（ｔ）と表す。

図１７は、位相シフト帯域パルス信号を例示する図である。左欄は全帯域の位相シフトしたパルス信号であり、上段は０位相の場合、下段は位相ψ＝π／２の場合を示している。２列目から６列目は、それぞれ図５に示したスケールの低域から５帯域目までの帯域パルス信号を示している。このように、記憶部１６０５は、帯域分割部１６０６、位相付与部１６０７、及び逆フーリエ変換部１６０８により作成された位相シフト帯域パルス信号を記憶しておく。

遅延時間算出部１６０１は、帯域群遅延パラメータから位相シフト帯域パルス信号の各帯域の遅延時間を算出する。上式３によって求められた帯域群遅延パラメータは、時間領域ではその帯域の平均遅延時間を表し、下式１０により整数化された遅延時間ｄｅｌａｙ（ｂ）となり、整数遅延時間に対応する群遅延はτ_ｉｎｔ（ｂ）として求められる。

位相算出部１６０２は、境界周波数における位相を、求める帯域より低域の帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出する。パラメータから再構築される境界周波数の位相は、上式７及び上式５によって求められるψ（Ω_ｂ）である。選択部１６０３は、境界周波数位相及び整数群遅延ｂｇｒｄ_ｉｎｔ（ｂ）を用いて各帯域のパルス信号の位相を算出する。この位相は、ψ（Ω_ｂ）を通り傾きｂｇｒｄ_ｉｎｔ（ｂ）とした直線のｙ切片として下式１１によって求められる。

また、選択部１６０３は、上式１１により求めた位相の主値を（０≦ｐｈａｓｅ（ｂ）＜２π）の範囲になるように２πの加算又は減算を行うことによって求め（以下〈ｐｈａｓｅ（ｂ）〉と記載）、得られた位相の主値を位相シフト帯域パルス信号作成時に量子化した位相の番号ｐｈ（ｂ）として求める（下式１２）。

このｐｈ（ｂ）により帯域群遅延パラメータ及び帯域群遅延補正パラメータに基づいた位相シフト帯域パルス信号の選択が行われる。

図１８は、選択部１６０３が選択を行う選択アルゴリズムを示す概念図である。ここでは、ｂ＝１の帯域の音源信号に対応する位相シフト帯域パルス信号の選択の例が示されている。選択部１６０３は、帯域Ω_ｂからΩ_ｂ＋１の音源信号を生成するため、その帯域の帯域群遅延パラメータから整数化した遅延及び位相の傾きである群遅延ｂｇｒｄ_ｉｎｔ（ｂ）を求める。そして、選択部１６０３は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから生成した境界周波数における位相ψ（Ω_ｂ）を通り傾きｂｇｒｄ_ｉｎｔ（ｂ）の直線のｙ切片ｐｈａｓｅ（ｂ）を求め、その主値〈ｐｈａｓｅ（ｂ）〉を量子化したｐｈ（ｂ）により位相シフト帯域パルス信号を選択する。

図１９は、位相シフト帯域パルス信号を示す図である。位相ｐｈａｓｅ（ｂ）による全帯域のパルス信号は、図１９（ａ）に示すように固定の位相ｐｈａｓｅ（ｂ）、振幅１の信号である。これに時間方向の遅延を与えると、遅延量に応じた固定の群遅延が生じるため図１９（ｂ）に示すようにｐｈａｓｅ（ｂ）を通り、傾きｂｇｒｄ_ｉｎｔ（ｂ）の直線となる。この全帯域の直線位相の信号にバンドパスフィルタを適用してΩ_ｂからΩ_ｂ＋１の区間を切り出したものが図１９（ｃ）となり、振幅はΩ_ｂからΩ_ｂ＋１の区間１、その他の周波数領域は０となり、境界Ω_ｂの位相がψ（Ω_ｂ）の信号となる。

このため、図１８に示した方法により各帯域の位相シフトパルス信号を適切に選択することができる。重畳部１６０４は、このように選択された位相シフト帯域パルス信号を、遅延時間算出部１６０１が求めた遅延時間ｄｅｌａｙ（ｂ）で遅延させ、全帯域にわたって加算することにより帯域群遅延パラメータ及び帯域群遅延補正パラメータを反映した音源信号を生成する。

図２０は、音源信号の生成例を示す図である。図２０（ａ）は、各帯域の音源信号であり、選択された位相シフトパルス信号を遅延させた波形を低域の５つの帯域に示したものである。これらを全帯域加算し、生成された音源信号を図２０（ｂ）に示している。このように生成された信号の位相スペクトルを図２０（ｃ）に、振幅スペクトルを図２０（ｄ）に示す。

図２０（ｃ）に示した位相スペクトルは、分析元の位相を細線で示し、上式５及び上式７によって生成された位相を太線で重ねて示している。このように、音源信号生成部１４０１によって生成された位相とパラメータから再生成した位相は、高域のアンラップの違いによる差のある箇所を除きほぼ重なっており、分析元位相に近い位相が生成されている。

図２０（ｄ）に示した振幅スペクトルを見ると、位相の変化が大きく零点をまたぐ箇所以外はほぼ振幅１．０のフラットなスペクトルに近い形状となっており、正しく音源波形が生成されていることがわかる。音源信号生成部１４０１は、このように生成された音源信号をパラメータ系列時刻情報によって定まるピッチマークに従って重畳合成し、文全体の音源信号を生成する。

図２１は、音源信号生成部１４０１が行う処理を示すフローチャートである。音源信号生成部１４０１は、パラメータ系列の各時刻のループを行い、帯域パルス遅延時間算出ステップでは上式１０によって遅延時間を算出し（Ｓ２１０１）、境界周波数位相算出ステップでは上式５及び上式７により境界周波数の位相を算出する（Ｓ２１０２）。そして、音源信号生成部１４０１は、位相シフト帯域パルス選択ステップでは上式１１及び上式１２によって記憶部１６０５に含まれる位相シフト帯域パルス信号を選択し（Ｓ２１０３）、遅延位相シフト帯域パルス重畳ステップでは選択された位相シフト帯域パルス信号を遅延させて加算及び重畳することにより音源信号を生成する（Ｓ２１０４）。

声道フィルタ部１４０２は、音源信号生成部１４０１が生成した音源信号に対し、声道フィルタを適用し、合成音声を得る。声道フィルタは、メルＬＳＰパラメータの場合は、メルＬＳＰパラメータからメルＬＰＣパラメータに変換し、ゲイン括りだし処理等を行った後、メルＬＰＣフィルタを適用することにより波形生成する。

声道フィルタの影響により、最小位相特性が加算されるため、分析元の位相から帯域群遅延パラメータ及び帯域群遅延補正パラメータを求めるときに、最小位相の補正を行う処理を適用してもよい。最小位相は、メルＬＳＰから振幅スペクトルを生成し、対数振幅スペクトルと零位相によるスペクトルを逆フーリエ変換し、得られたケプストラムを正の成分は２倍、負の成分は０として再度フーリエ変換した虚軸に生成される。

このように求めた位相をアンラップし、波形を分析した位相から減算することにより最小位相の補正が行われる。最小位相補正した位相スペクトルから帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、上述した音源信号生成部１４０１の処理により音源を生成し、フィルタを適用することにより、元の波形の位相を再現した合成音声が得られる。

図２２は、最小位相補正も含めて生成された音声波形を例示する図である。図２２（ａ）は、図１３（ａ）と同じ分析元の音声波形である。図２２（ｂ）は、音声合成装置１４００によるボコーダ型波形生成に基づく分析合成波形である。図２２（ｃ）は、広く用いられるパルス音源によるボコーダであり、この場合最小位相の波形形状となる。

図２２（ｂ）に示した音声合成装置１４００による分析合成波形は、図２２（ａ）に示した原音に近い波形が再現されている。また、図１３（ｂ）に示した波形にも近い音声波形が生成されている。それに対し、図２２（ｃ）に示した最小位相では、ピッチマーク付近にパワーが集中した音声波形となり、原音の音声波形の形状を再現することはできない。

また、処理量を比較するために、約３０秒の音声波形を生成したときの処理時間を計測した。位相シフト帯域パルス生成等の初期設定を除いた処理時間は、逆フーリエ変換を用いる図１２の構成の場合は約９．１９秒、ボコーダ型の図１４の構成の場合は約０．４７秒（２．９ＧＨｚのＣＰＵの演算サーバにて計測）となった。つまり、処理時間は約５．１％程度に短縮されることが確認された。つまり、ボコーダ型波形生成により、高速に波形生成することができる。

これは、逆フーリエ変換を用いず、時間領域の操作のみで位相特性を反映した波形生成が可能となったためである。上述した波形生成では、音源生成し、音源波形を重畳合成したあとフィルタを適用するが、この限りではない。ピッチ波形毎に音源波形を生成してフィルタを適用し、ピッチ波形を生成して生成されたピッチ波形を重畳合成するなど、異なる構成でもよい。そして、図１６に示した位相シフト帯域パルス信号による音源信号生成部１４０１を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータから音源信号を生成すればよい。

図２３は、図１２に示した音声合成装置１２００に対し、帯域雑音強度を用いた雑音成分・周期成分の分離による制御を加えた音声合成装置２３００の構成例を示す図である。音声合成装置２３００は、音声合成装置１１００の具体的構成の１つであり、振幅スペクトル算出部１２０１がスペクトルパラメータ系列から振幅スペクトルを算出し、周期成分スペクトル算出部２３０１及び雑音成分スペクトル算出部２３０２が帯域雑音強度に従って周期成分スペクトルと雑音成分スペクトルに分離する。帯域雑音強度は、スペクトルの各帯域の雑音成分の比率を表すパラメータであり、例えばＰＳＨＦ（ＰｉｔｃｈＳｃａｌｅｄＨａｒｍｏｎｉｃＦｉｌｔｅｒ）方式を用いて音声を周期成分と雑音成分に分離し、各周波数の雑音成分比率を求め、予め定めた帯域毎に平均化する方法などにより求めることができる。

図２４は、帯域雑音強度を例示する図である。図２４（ａ）は、ＰＳＨＦによって音声を周期成分と非周期成分に分離した信号から、処理対象フレームの音声のスペクトルと非周期成分のスペクトルを求め、各周波数の非周期成分の比率を求めたａｐ(ω)である。処理の際には、ＰＳＨＦによる比率に対して有声音の帯域は０とする後処理や比率を０から１の間にクリッピングする処理等が加えられている。このように求めた雑音成分比率から、周波数スケールに従ってのスペクトルで重みづけした平均を求めたものが図２４（ｂ）に示した帯域雑音強度ｂａｐ（ｂ）である。周波数スケールは、帯域群遅延と同様に図５に示したスケールを用いており、下式１４によって求められる。

雑音成分スペクトル算出部２３０２は、この帯域雑音強度による各周波数の雑音強度をスペクトルパラメータから生成したスペクトルに乗算し、雑音成分スペクトルを求める。周期成分スペクトル算出部２３０１は、１．０−ｂａｐ（ｂ）を乗じることにより、雑音成分スペクトルを除いた周期成分スペクトルを求める。

雑音成分波形生成部２３０４は、雑音信号から作成したランダム位相と雑音成分スペクトルによる振幅スペクトルから、逆フーリエ変換することにより雑音成分波形を生成する。雑音成分位相は、例えば平均０分散１となるガウス雑音を生成し、ピッチの２倍のハニング窓により切り出し、切り出した窓かけガウス雑音をフーリエ変換することにより作成できる。

周期波形生成部２３０３は、位相スペクトル算出部１２０２が帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出した位相スペクトルと、周期成分スペクトルによる振幅スペクトルを逆フーリエ変換することにより周期成分波形を生成する。

波形重畳部１２０４は、生成された雑音成分波形と周期成分波形を加算し、パラメータ系列の時刻情報に従って重畳して合成音声を得る。

このように、雑音成分と周期成分を分離することにより、帯域群遅延パラメータとして表現することの困難なランダム位相成分を分離し、雑音成分はランダム位相から生成することができる。これにより、無声音区間や、有声摩擦音の高域部、有声音に含まれる雑音成分がパルス的なバジー感のある音質になってしまうことを抑えることができる。特に、統計的に各パラメータをモデル化した場合、複数のランダムな位相成分から求められた帯域群遅延・帯域群遅延補正パラメータを平均化すると、平均値は０に近づき、パルス的な位相成分に近づく傾向がある。帯域雑音強度を帯域群遅延パラメータ・帯域群遅延補正パラメータと併せて用いることにより、雑音成分はランダムな位相から生成することを可能にしつつ、周期成分は適切に生成された位相を用いることができ、合成音声の音質が向上する。

図２５は、帯域雑音強度による制御も用い、高速波形生成を実現するためのボコーダ型の音声合成装置２５００の構成例を示す図である。雑音成分の音源生成は、帯域雑音信号記憶部２５０３に含まれる予め帯域分割した固定長の帯域雑音信号を用いて行われる。音声合成装置２５００は、帯域雑音信号記憶部２５０３が帯域雑音信号を記憶し、雑音音源信号生成部２５０２が帯域雑音強度に従って各帯域の帯域雑音信号の振幅を制御し、振幅制御された帯域雑音信号を加算することによって雑音音源信号を生成する。なお、音声合成装置２５００は、図１４に示した音声合成装置１４００の変形例である。

パルス音源信号生成部２５０１は、記憶部１６０５が記憶している位相シフト帯域パルス信号を用い、図１６に示した構成によって位相制御した音源信号を生成する。但し、遅延位相シフト帯域パルス波形を重畳する場合、各帯域の信号の振幅を、帯域雑音強度を用いて制御し、（１．０−ｂａｐ（ｂ））の強度となるように生成する。音声合成装置２５００は、このように生成したパルス音源信号と雑音音源信号を加算して音源信号を生成し、声道フィルタ部１４０２においてスペクトルパラメータによる声道フィルタを適用し、合成音声を得る。

音声合成装置２５００は、図２３に示した音声合成装置２３００と同様に雑音信号と周期信号をそれぞれ生成し、雑音成分に対してパルス的なノイズが生じることを抑えつつ、位相制御された周期成分と雑音成分とを加えて音源生成することにより、分析元波形の形状に近い形状を持つ音声合成が可能となる。また、音声合成装置２５００は、雑音音源の生成もパルス音源の生成も時間領域の処理のみで算出することができるため、高速な波形生成が可能となる。

このように、音声合成装置の第１実施形態及び第２実施形態は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、統計モデル化可能な次元削減した特徴パラメータで、再構築した位相と波形を分析した位相の類似度を向上させることを可能とし、これらのパラメータから適切に位相制御された音声合成が可能となる。実施形態にかかる各音声処理装置は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。さらに、ボコーダ型の音声合成装置では、時間領域の処理のみにより位相制御した音源波形を生成し、声道フィルタによる波形生成を可能とすることにより、高速に位相制御された波形生成が可能となる。また、音声合成装置は、帯域雑音強度パラメータと組み合わせて用いることにより雑音成分の再現性も向上し、より高品質な音声合成が可能となる。

図２６は、音声合成装置の第３実施形態（音声合成装置２６００）を示すブロック図である。音声合成装置２６００は、上述した帯域群遅延パラメータ及び帯域群遅延補正パラメータをテキスト音声合成装置に適用したものである。ここでは、テキスト音声合成方式として、統計モデルに基づく音声合成技術であるＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）に基づく音声合成において、その特徴パラメータに帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いる。

音声合成装置２６００は、テキスト解析部２６０１、ＨＭＭ系列作成部２６０２、パラメータ生成部２６０３、波形生成部２６０４、及びＨＭＭ記憶部２６０５を有する。ＨＭＭ記憶部（統計モデル記憶部）２６０５は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを含む音響特徴パラメータから学習したＨＭＭを記憶する。

テキスト解析部２６０１は、入力テキストを解析して読み・アクセント等の情報を求めコンテキスト情報を作成する。ＨＭＭ系列作成部２６０２は、テキストから作成されたコンテキスト情報に従って、ＨＭＭ記憶部２６０５に記憶されているＨＭＭモデルから、入力テキストに対応するＨＭＭ系列を作成する。パラメータ生成部２６０３は、ＨＭＭ系列から音響特徴パラメータを生成する。波形生成部２６０４は、生成された特徴パラメータ系列から音声波形を生成する。

より詳細には、テキスト解析部２６０１は、入力テキストの言語解析よりコンテキスト情報を作成する。テキスト解析部２６０１は、入力テキストに形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた読み情報及び言語情報から、コンテキスト情報を作成する。別途作成した入力テキストに対応する修正済みの読み・アクセント情報からコンテキスト情報を作成してもよい。コンテキスト情報とは、音素・半音素・音節ＨＭＭ等の音声を分類する単位として用いられる情報である。

音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができ、さらに先行音素・後続音素を付加したトライフォンや、前後２音素ずつ含めた音素情報、有声音・無声音による分類やさらに詳細化した音素種別の属性を表す音素種別情報、各音素の文内、呼気段落内、アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報とすることができる。

ＨＭＭ系列作成部２６０２は、ＨＭＭ記憶部２６０５が記憶しているＨＭＭ情報に基づいて、入力コンテキスト情報に対応するＨＭＭ系列を作成する。ＨＭＭは状態遷移確率と各状態の出力分布とにより表される統計モデルである。ＨＭＭとしてｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭを用いる場合、図２７に示すように、各状態の出力分布Ｎ（ｏ｜μ_ｉ、Σ_ｉ）と状態遷移確率ａ_ｉｊ（_ｉ，_ｊは状態インデックス）によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率ａ_ｉｊの代わりに継続長分布Ｎ（ｄ｜μ_ｉ ^d、Σ_ｉ ^d）を用いるものをＨＳＭＭ（隠れセミマルコフモデル）と呼び、継続長のモデル化に用いられる。

ＨＭＭ記憶部２６０５は、このＨＭＭの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。この場合、図２８に示すように、ＨＭＭ記憶部２６０５は、ＨＭＭの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶し、さらに継続長分布のための決定木及び分布も記憶する。決定木の各ノードには、分布を分類する質問が関連付けられており、例えば「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問とその質問に該当する場合の子ノードと該当しない場合の子ノードに分類される。入力されたコンテキスト情報に対して、各ノードの質問に該当するかどうかを判断することによって決定木を探索し、リーフノードを得る。得られたリーフノードに対応づけられている分布を各状態の出力分布として用いることにより、各音声単位に対応するＨＭＭを構築する。これにより、入力されたコンテキスト情報に対応するＨＭＭ系列を作成する。

ＨＭＭ記憶部２６０５に記憶されるＨＭＭは、図２９に示すＨＭＭ学習装置２９００によって行われる。音声コーパス記憶部２９０１は、ＨＭＭモデルの作成に用いるための音声データ及びコンテキスト情報を含む音声コーパスを記憶している。

分析部２９０２は、学習に用いる音声データを分析し、音響特徴パラメータを求める。ここでは、上述した音声分析装置１００を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、スペクトルパラメータ、ピッチパラメータ、帯域雑音強度パラメータ等と併せて用いる。

分析部２９０２は、図３０に示すように、音声データの各音声フレームにおける音響特徴パラメータを求める。音声フレームは、ピッチ同期分析を用いる場合には各ピッチマーク時刻におけるパラメータとなり、また固定フレームレートの場合には隣接するピッチマークの音響特徴パラメータを補間して用いる方法などにより特徴パラメータが抽出される。

音声の分析中心時刻（図３０ではピッチマーク位置）に対応する音響特徴パラメータを、図１に示した音声分析装置１００を用いて分析し、スペクトルパラメータ（メルＬＳＰ）、ピッチパラメータ（対数Ｆ０）、帯域雑音強度パラメータ（ＢＡＰ）、帯域群遅延パラメータ及び帯域群遅延補正パラメータ（ＢＧＲＤ及びＢＧＲＤＣ）を抽出する。さらに、これらのパラメータの動的特徴量として、Δパラメータ及びΔ^２パラメータを求め、並べて各時刻の音響特徴パラメータとする。

ＨＭＭ学習部２９０３は、このように求められた特徴パラメータから、ＨＭＭを学習する。図３１は、ＨＭＭ学習部２９０３が行う処理を示すフローチャートである。ＨＭＭ学習部２９０３は、音素ＨＭＭを初期化し（Ｓ３１０１）、ＨＳＭＭの学習により音素ＨＭＭを最尤推定し（Ｓ３１０２）、初期モデルである音素ＨＭＭを学習する。最尤推定の際は、連結学習により、ＨＭＭを文に対応させて連結した文全体のＨＭＭと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。

次に、ＨＭＭ学習部２９０３は、音素ＨＭＭを用いてコンテキスト依存ＨＭＭを初期化する（Ｓ３１０３）。コンテキストとしては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするかどうかといった音韻環境及び言語情報を用いて、学習データに存在するコンテキストに対して、当該音素で初期化したモデルを用意する。

そして、ＨＭＭ学習部２９０３は、コンテキスト依存ＨＭＭに対して連結学習による最尤推定を適用して学習し（Ｓ３１０４）、決定木に基づく状態クラスタリングを適用する（Ｓ３１０５）。これにより、ＨＭＭ学習部２９０３は、ＨＭＭの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。そして、ＨＭＭ学習部２９０３は、状態毎・ストリーム毎の分布から、最尤基準やＭＤＬ（ＭｉｎｉｍｕｍＤｅｓｃｒｉｐｔｉｏｎＬｅｎｇｔｈ）基準等によりモデルを分類する規則を学習し、図２８に示した決定木を構築する。また、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するＨＭＭを構築することができる。

最後に、ＨＭＭ学習部２９０３は、コンテキスト依存のクラスタリングしたモデルを最尤推定し、モデル学習が完了する（Ｓ３１０６）。クラスタリングの際に、各特徴量のストリーム毎に決定木を構築することにより、スペクトルパラメータ（メルＬＳＰ）、ピッチパラメータ（対数基本周波数）、帯域雑音強度（ＢＡＰ）とともに、帯域群遅延及び帯域群遅延補正パラメータの各ストリームの決定木が構築される。また、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、ＨＭＭ単位の継続長分布決定木が構築される。これら求められたＨＭＭ及び決定木がＨＭＭ記憶部２６０５に保存される。

ＨＭＭ系列作成部２６０２（図２６）は、入力コンテキストとＨＭＭ記憶部２６０５に記憶されているＨＭＭからＨＭＭ系列を作成し、継続長分布により定められるフレーム数に従って、各状態の分布を繰り返すことにより分布列を作成する。作成される分布列は出力するパラメータの個数の分布を並べた列である。

パラメータ生成部２６０３は、ＨＭＭに基づく音声合成に広く用いられている静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成することにより、滑らかなパラメータ系列を生成する。

図３２は、ＨＭＭ系列・分布列の構築例を示す図である。まず、ＨＭＭ系列作成部２６０２は、入力コンテキストのＨＭＭの各状態・各ストリームの分布及び継続長分布を選択し、ＨＭＭの系列を構成する。コンテキストとして、「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用い「赤」を合成する場合、２モーラ１型のため、最初の”ａ”の音素は、先行音素”ｓｉｌ”、当該音素”ａ”、後続音素”ｋ”、音素位置１、音素数３、モーラ位置１、モーラ数２、アクセント型１型のため、”ｓｉｌ＿ａ＿ｋ＿１＿３＿１＿２＿１”といったコンテキストになる。

ＨＭＭの決定木を辿る際は、各中間ノードに当該音素がａかどうか、アクセント型が１型かどうかといった質問が定められており、質問を辿る事によってリーフノードの分布が選択され、メルＬＳＰ，ＢＡＰ，ＢＧＲＤ及びＢＧＲＤＣ、ＬｏｇＦ０の各ストリーム及び継続長分布の分布がＨＭＭの各状態に選択されて、ＨＭＭ系列が構成される。このようにモデル単位（例えば音素）ごとのＨＭＭ系列及び分布列が構成され、それらを文全体を並べて入力文章に対応する分布列が作成される。

パラメータ生成部２６０３は、作成した分布列から、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔ^２を動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻ｔの特徴パラメータｏ_ｔは、静的特徴パラメータｃ_ｔと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔｃ_ｔ、Δ^２ｃ_ｔを用いて、ｏ_ｔ＝（ｃ_ｔ’、Δｃ_ｔ’、Δ２ｃ_ｔ’）と表される。Ｐ（Ｏ｜Ｊ，λ）を最大化する静的特徴量ｃ_ｔからなるベクトルＣ＝（ｃ_０’、…、_ｃＴ−１’）’は、０ＴＭをＴ×Ｍ次のゼロベクトルとして、下式１５の方程式を解くことによって求められる。

ただし、Ｔはフレーム数、Ｊは状態遷移系列である。特徴パラメータＯと静的特徴パラメータＣとの関係を、動的特徴を計算する行列Ｗによって関係づけると、Ｏ＝ＷＣと表される。Ｏは３ＴＭのベクトル、ＣはＴＭのベクトルとなり、Ｗは、３ＴＭ×ＴＭの行列である。そして、μ＝（μ_ｓ００’，…、μ_{ｓＪ−１Ｑ−１}’）’、Σ＝ｄｉａｇ（Σ_ｓ００’，…、Σ_{ｓＪ−１Ｑ−１}’）’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式１５は、下式１６の方程式を解くことによって最適な特徴パラメータ系列Ｃが求められる。

この方程式は、コレスキー分解による方法により求められる。またＲＬＳフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成の処理は、上述した方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法を用いてもよい。

波形生成部２６０４は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部２６０４は、メルＬＳＰ系列、対数Ｆ０系列、帯域雑音強度系列、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから音声を合成する。これらのパラメータを用いる場合、上述した音声合成装置１１００又は音声合成装置１４００を用いて波形生成される。具体的には、図２３に示した逆フーリエ変換による構成、又は図２５に示したボコーダ型の高速波形生成を用いて波形生成を行う。帯域雑音強度を用いない場合は、図１２に示した逆フーリエ変換による音声合成装置１２００、又は図１４に示した音声合成装置１４００を用いることになる。

これらの処理により、入力コンテキストに対応した合成音声が得られ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いて、音声波形の位相情報も反映させた、分析元音声に近い音声を合成することが可能となる。

なお、上述したＨＭＭ学習部２９０３においては、特定話者のコーパスを用いて話者依存モデルを最尤推定する構成を記載したがこれに限定するものではない。ＨＭＭ音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能であり、また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式が用いられてもよい。

また、音声合成装置２６００は、ＨＭＭ系列作成部２６０２とパラメータ生成部２６０３の間に特徴パラメータ系列を選択する特徴パラメータ系列選択部をさらに有し、ＨＭＭ系列を目標として分析部２９０２によって求められた音響特徴パラメータを候補として、その中から特徴パラメータを選択し、選択されたパラメータから音声波形を合成する構成であってもよい。このように、音響特徴パラメータの選択を行うことにより、ＨＭＭ音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。

このように、音声合成の特徴パラメータとして、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。

なお、上述した音声分析装置１００及び音声合成装置１１００等の音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声分析装置及び各音声合成装置は、コンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、プログラムをコンピュータ装置に予めインストールすることで実現してもよいし、ＣＤ−ＲＯＭなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、コンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク又はＣＤ−Ｒ、ＣＤ−ＲＷ、ＤＶＤ−ＲＡＭ、ＤＶＤ−Ｒなどの記憶媒体などを適宜利用して実現することができる。なお、音声分析装置１００及び音声合成装置１１００等の音声合成装置は、一部又は全部がハードウェアによって構成されてもよいし、ソフトウェアによって構成されてもよい。

また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims

入力音声の各音声フレームに対し、スペクトルパラメータを算出するスペクトルパラメータ算出部と、
前記各音声フレームに対し、第１位相スペクトルを算出する位相スペクトル算出部と、
前記第１位相スペクトルの周波数成分に基づいて、前記第１位相スペクトルから群遅延スペクトルを算出する群遅延スペクトル算出部と、
前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する帯域群遅延パラメータ算出部と、
前記帯域群遅延パラメータから再構築した第２位相スペクトルと、前記第１位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する帯域群遅延補正パラメータ算出部と、
を有する音声処理装置。
前記帯域群遅延パラメータ算出部は、
所定の周波数帯域における群遅延の平均値、又はスペクトル若しくはパワースペクトルで重み付けした群遅延の平均値を周波数帯域それぞれの帯域群遅延パラメータとして算出し、
前記帯域群遅延補正パラメータ算出部は、
低域から前記帯域群遅延パラメータに基づいて前記第２位相スペクトルを再構築し、前記第２位相スペクトルと、前記位相スペクトル算出部が算出した各周波数帯域の境界周波数における前記第１位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する
請求項１に記載の音声処理装置。
入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する振幅情報生成部と、
前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する位相情報生成部と、
各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する音声波形生成部と、
を有する音声処理装置。
前記位相情報生成部は、
時間領域の処理のみで位相制御された音源信号を生成する
請求項３に記載の音声処理装置。
前記振幅情報生成部は、
各時刻における前記スペクトルパラメータ系列から振幅スペクトルを算出し、
前記位相情報生成部は、
前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から位相スペクトルを算出し、
前記音声波形生成部は、
前記振幅スペクトル及び前記位相スペクトルに基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
請求項３に記載の音声処理装置。
前記振幅情報と、所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータ系列から各周波数の雑音強度とに基づいて雑音成分スペクトルを算出する雑音成分スペクトル算出部と、
前記振幅情報と、前記帯域雑音強度パラメータ系列から各周波数の周期成分スペクトルを算出する周期成分スペクトル算出部と、
前記周期成分スペクトルと、前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から構築した位相スペクトルから周期成分波形を生成する周期波形生成部と、
前記雑音成分スペクトルと、雑音信号に対応する位相スペクトルから雑音成分波形を生成する雑音成分波形生成部と、
を有し、
前記音声波形生成部は、
前記周期成分波形及び前記雑音成分波形に基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
請求項５に記載の音声処理装置。
位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を記憶する記憶部と、
各時刻における音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータから、位相シフト帯域パルス信号の遅延時間を算出する遅延時間算出部と、
前記帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相情報を補正する帯域群遅延補正パラメータから境界周波数における位相を算出する位相算出部と、
算出された各帯域の位相に基づいて、前記記憶部から対応する位相シフト帯域パルス信号を選択する選択部と、
選択された位相シフト帯域パルス信号を、前記遅延時間に従って遅延させて重畳させることにより、位相シフトされた音源信号を生成する重畳部と、
入力音声の各音声フレームに対して算出されたスペクトルパラメータに対応する声道フィルタを適用し、音声波形を出力する声道フィルタ部と
を有する音声処理装置。
前記記憶部は、
位相の主値を所定の段階に量子化した各位相による帯域パルス信号である位相シフト帯域パルス信号を記憶し、
前記選択部は、
前記帯域群遅延パラメータの各周波数帯域において、当該帯域の開始周波数における位相を前記帯域群遅延パラメータ及び前記帯域群遅延補正パラメータから算出し、前記帯域群遅延パラメータから整数化した遅延量を算出して、前記遅延量から群遅延を算出し、前記遅延量から算出した群遅延を傾きとして、前記開始周波数における位相を通る直線の周波数原点における位相値を算出し、算出した位相値の主値に対応する位相シフト帯域パルス信号を選択し、
前記重畳部は、
前記遅延量によって遅延させた位相ソフト帯域パルス信号を重畳する
請求項７に記載の音声処理装置。
帯域分割された帯域雑音信号を記憶する帯域雑音信号記憶部
をさらに有し、
前記声道フィルタ部は、
所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータの各帯域の強度に基づいて、前記帯域雑音信号から生成される各帯域の雑音信号、及び前記位相シフト帯域パルス信号を混合した混合音源信号に対し、スペクトルパラメータに対応する声道フィルタを適用する
請求項７に記載の音声処理装置。
入力音声の各音声フレームに対して算出されたスペクトルパラメータ、前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相スペクトルを補正する帯域群遅延補正パラメータを用いて学習した統計モデルを記憶する統計モデル記憶部と、
任意の入力テキストに対応するコンテキスト情報、及び前記統計モデル記憶部に記憶されている統計モデルに基づいて、入力テキストに対応するスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータを生成するパラメータ生成部と、
前記パラメータ生成部が生成したスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから波形を生成する波形生成部と、
を有する音声処理装置。
入力音声の各音声フレームに対し、スペクトルパラメータを算出する工程と、
前記各音声フレームに対し、第１位相スペクトルを算出する工程と、
前記第１位相スペクトルの周波数成分に基づいて、前記第１位相スペクトルから群遅延スペクトルを算出する工程と、
前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する工程と、
前記帯域群遅延パラメータから再構築した第２位相スペクトルと、前記第１位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する工程と、
を含む音声処理方法。
入力音声の各音声フレームに対し、スペクトルパラメータを算出するステップと、
前記各音声フレームに対し、第１位相スペクトルを算出するステップと、
前記第１位相スペクトルの周波数成分に基づいて、前記第１位相スペクトルから群遅延スペクトルを算出するステップと、
前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出するステップと、
前記帯域群遅延パラメータから再構築した第２位相スペクトルと、前記第１位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出するステップと、
をコンピュータに実行させるための音声処理プログラム。
入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する工程と、
前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する工程と、
各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する工程と、
を含む音声処理方法。
入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成するステップと、
前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成するステップと、
各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成するステップと、
をコンピュータに実行させるための音声処理プログラム。