[go: up one dir, main page]

JP6496030B2 - 音声処理装置、音声処理方法及び音声処理プログラム - Google Patents

音声処理装置、音声処理方法及び音声処理プログラム Download PDF

Info

Publication number
JP6496030B2
JP6496030B2 JP2017540402A JP2017540402A JP6496030B2 JP 6496030 B2 JP6496030 B2 JP 6496030B2 JP 2017540402 A JP2017540402 A JP 2017540402A JP 2017540402 A JP2017540402 A JP 2017540402A JP 6496030 B2 JP6496030 B2 JP 6496030B2
Authority
JP
Japan
Prior art keywords
group delay
phase
band
parameter
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017540402A
Other languages
English (en)
Other versions
JPWO2017046904A1 (ja
Inventor
正統 田村
正統 田村
眞弘 森田
眞弘 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPWO2017046904A1 publication Critical patent/JPWO2017046904A1/ja
Application granted granted Critical
Publication of JP6496030B2 publication Critical patent/JP6496030B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)
  • Complex Calculations (AREA)

Description

本発明の実施形態は、音声処理装置、音声処理方法及び音声処理プログラムに関する。
音声波形を分析して特徴パラメータを抽出する音声分析装置や、分析して得られた特徴パラメータから音声を合成する音声合成装置は、テキスト音声合成技術、音声符号化技術、及び音声認識技術などの音声処理技術に広く用いられている。
国際公開第2014/021318号 特開2013−164572号公報
坂野秀樹他、「時間領域平滑化群遅延を用いた短時間位相の効率的表現方法」、電子情報通信学会論文誌D−II Vol.J84−D−II、 No.4、pp.621−628
しかしながら、従来は、統計モデルへの利用が困難であったり、再構築した位相と分析元波形の位相との間にずれが生じる問題があった。また、従来は、群遅延特徴量を用いて波形生成する場合には、高速に波形生成できないという問題があった。本発明が解決しようとする課題は、音声波形の再現性を高めることを可能にする音声処理装置、音声処理方法及び音声処理プログラムを提供することである。
実施形態の音声処理装置は、スペクトルパラメータ算出部と、位相スペクトル算出部と、群遅延スペクトル算出部と、帯域群遅延パラメータ算出部と、帯域群遅延補正パラメータ算出部と、を有する。スペクトルパラメータ算出部は、入力音声の各音声フレームに対し、スペクトルパラメータを算出する。位相スペクトル算出部は、前記各音声フレームに対し、第1位相スペクトルを算出する。群遅延スペクトル算出部は、前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する。帯域群遅延パラメータ算出部は、前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する。帯域群遅延補正パラメータ算出部は、前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する。
実施形態にかかる音声分析装置の構成例を示すブロック図。 抽出部が受入れる音声波形とピッチマークを例示する図。 スペクトルパラメータ算出部の処理例を示す図。 位相スペクトル算出部の処理例と群遅延スペクトル算出部の処理を示す図。 周波数スケールの作成例を示す図。 帯域群遅延パラメータによる分析をした結果を例示する図。 帯域群遅延補正パラメータにより分析した結果を例示する図。 音声分析装置が行う処理を示すフローチャート。 帯域群遅延パラメータ算出ステップの詳細を示すフローチャート。 帯域群遅延補正パラメータ算出ステップの詳細を示すフローチャート。 音声合成装置の第1実施形態を示すブロック図。 逆フーリエ変換及び波形重畳を行う音声合成装置の構成例を示す図。 図2に示した区間に対応する波形生成例を示す図。 音声合成装置の第2実施形態を示すブロック図。 音源信号生成部が行う処理を示すフローチャート。 音源信号生成部の構成を示すブロック図。 位相シフト帯域パルス信号を例示する図。 選択部が選択を行う選択アルゴリズムを示す概念図。 位相シフト帯域パルス信号を示す図。 音源信号の生成例を示す図。 音源信号生成部が行う処理を示すフローチャート。 最小位相補正も含めて生成された音声波形を例示する図。 帯域雑音強度を用いた音声合成装置の構成例を示す図。 帯域雑音強度を例示する図。 帯域雑音強度による制御も用いた音声合成装置の構成例を示す図。 音声合成装置の第3実施形態を示すブロック図。 HMMの概略を示す図。 HMM記憶部の概略を示す図。 HMM学習装置の概略を示す図。 分析部が行う処理を示す図。 HMM学習部が行う処理を示すフローチャート。 HMM系列・分布列の構築例を示す図。
(第1の音声処理装置:音声分析装置)
次に、添付図面を参照して、実施形態にかかる第1の音声処理装置、すなわち、音声分析装置について説明する。図1は、実施形態にかかる音声分析装置100の構成例を示すブロック図である。図1に示すように、音声分析装置100は、抽出部(音声フレーム抽出部)101、スペクトルパラメータ算出部102、位相スペクトル算出部103、群遅延スペクトル算出部104、帯域群遅延パラメータ算出部105、帯域群遅延補正パラメータ算出部106を有する。
抽出部101は、入力音声及びピッチマークを受入れて、入力音声をフレーム単位に切り出して出力する(音声フレーム抽出)。抽出部101が行う処理例については、図2を用いて後述する。スペクトルパラメータ算出部(第1算出部)102は、抽出部101が出力した音声フレームからスペクトルパラメータを算出する。スペクトルパラメータ算出部102が行う処理例については、図3を用いて後述する。
位相スペクトル算出部(第2算出部)103は、抽出部101が出力した音声フレームの位相スペクトルを算出する。位相スペクトル算出部103が行う処理例については、図4(a)を用いて後述する。群遅延スペクトル算出部(第3算出部)104は、位相スペクトル算出部103が算出した位相スペクトルから後述する群遅延スペクトルを算出する。群遅延スペクトル算出部104が行う処理例については、図4(b)を用いて後述する。
帯域群遅延パラメータ算出部(第4算出部)105は、群遅延スペクトル算出部104が算出した群遅延スペクトルから帯域群遅延パラメータを算出する。帯域群遅延パラメータ算出部105が行う処理例については、図6を用いて後述する。帯域群遅延補正パラメータ算出部(第5算出部)106は、帯域群遅延パラメータ算出部105が算出した帯域群遅延パラメータから再構築した位相スペクトルと、位相スペクトル算出部103が算出した位相スペクトルとの差を補正する補正量(帯域群遅延補正パラメータ:補正パラメータ)を算出する。帯域群遅延補正パラメータ算出部106が行う処理例については、図7を用いて後述する。
次に、音声分析装置100が行う処理についてさらに詳述する。ここでは、音声分析装置100が行う処理に関して、ピッチ同期分析によって特徴パラメータ分析を行う場合について説明する。
抽出部101は、入力音声と共に、その周期性に基づいて各音声フレームの中心時刻を表したピッチマーク情報を受入れる。図2は、抽出部101が受入れる音声波形とピッチマークを例示する図である。図2は、「だ」という音声の波形を示しており、音声波形と共に、有声音の周期性に従って抽出されたピッチマーク時刻を示している。
以下、音声フレームのサンプルとして、図2の下側に示した区間(下線の区間)に対する分析例を示す。抽出部101は、ピッチマークを中心として、ピッチの2倍の長さの窓関数を乗算することにより、音声フレームを切り出す。ピッチマークは、例えばピッチ抽出装置によってピッチ抽出し、ピッチ周期のピークを抽出する方法などにより求められる。また、周期性のない無声音区間も、固定のフレームレートや周期区間のピッチマークの補間した処理により、分析中心となる時刻列を作成して、ピッチマークとすることができる。
音声フレームの抽出には、ハニング窓を用いることができる。また、ハミング窓、ブラックマン窓など特性の異なる窓関数が用いられてもよい。抽出部101は、窓関数を用いて、周期区間の単位波形となるピッチ波形を音声フレームとして切り出す。また、抽出部101は、無音・無声音区間等の非周期区間においても上述したように、固定フレームレートやピッチマークを補間することにより定めた時刻に従って、窓関数を乗じて音声フレームを切り出す。
なお、本実施形態では、スペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータの抽出にピッチ同期分析を用いた場合を例に説明するが、これに限定されることなく、固定のフレームレートによってパラメータ抽出が行われてもよい。
スペクトルパラメータ算出部102は、抽出部101が抽出した音声フレームに対するスペクトルパラメータを求める。例えば、スペクトルパラメータ算出部102は、メルケプストラム、線形予測係数、メルLSP、正弦波モデル等のスペクトル包絡を表す任意のスペクトルパラメータを求める。また、ピッチ同期分析でなく、固定のフレームレートによる分析を行う場合にも、これらのパラメータや、STRAIGHT分析によるスペクトル包絡抽出方法などを用いてパラメータ抽出を行ってもよい。ここでは、例としてメルLSPによるスペクトルパラメータを用いる。
図3は、スペクトルパラメータ算出部102の処理例を示す図である。図3(a)は、音声フレームを示しており、図3(b)は、フーリエ変換して得られたスペクトルを示している。スペクトルパラメータ算出部102は、このスペクトルに対してメルLSP分析を適用し、メルLSP係数を得る。メルLSP係数の0次はゲイン項を表すが、1次以上は周波数軸上の線スペクトル周波数であり、各LSP周波数にグリッド線を示している。ここでは44.1kHzの音声に対してメルLSP分析を適用している。これにより得られたスペクトル包絡は、スペクトルの概形を表すパラメータとなる(図3(c))。
図4は、位相スペクトル算出部103の処理例と、群遅延スペクトル算出部104の処理例を示す図である。図4(a)は、位相スペクトル算出部103がフーリエ変換により求めた位相スペクトルを示している。位相スペクトルは、アンラップしたものである。位相スペクトル算出部103は、直流成分の位相を0とするように、振幅・位相ともにハイパスフィルタをかけて、位相スペクトルを求める。
群遅延スペクトル算出部104は、図4(a)に示した位相スペクトルから、下式1によって図4(b)に示した群遅延スペクトルを求める。
上式1において、τ(ω)は群遅延スペクトル、ψ(ω)は位相スペクトル、「’」は微分の演算を表す。群遅延は、位相の周波数微分であり、時間領域では各帯域の平均時間(波形の重心時刻:遅延時間)を表す値である。群遅延スペクトルは、アンラップした位相の微分値にあたるため、範囲が−πからπの間の値となる。
ここで、図4(b)を見ると、低域に−πに近い群遅延が生じていることがわかる。つまり、当該周波数における位相スペクトルにπに近い差が生じている。また、図3(b)の振幅スペクトルを見ると、当該周波数位置において、谷が見られる。
本周波数において分けられる低域と高域では、信号の符号が逆転するためにこのような形状になり、位相に段差の生じる周波数はその境界の周波数を表している。この様な周波数軸上のπ付近の群遅延を含めて、群遅延の不連続な変化を再現することは、分析元の音声波形を再現して高品質な分析合成音声を得るために重要である。また、音声合成に用いる群遅延パラメータとして、この様な群遅延の急峻な変化を再現可能なパラメータであることが求められる。
帯域群遅延パラメータ算出部105は、群遅延スペクトル算出部104が算出した群遅延パラメータから帯域群遅延パラメータを算出する。帯域群遅延パラメータは、予め定めた周波数帯域毎の群遅延パラメータである。これにより、群遅延スペクトルの次数を削減し、統計モデルのパラメータとして利用可能なパラメータとなる。帯域群遅延パラメータは、下式2によって求められる。
上式2による帯域群遅延は、時間領域では平均時間を表し、零位相波形からのシフト量を表すことになる。離散スペクトルから平均時間を求める場合には、下式3が用いられる。
ここでは、帯域群遅延パラメータは、パワースペクトルによる重みづけを用いているが、単に群遅延の平均を用いてもよい。また、振幅スペクトルによる重みづけ平均など異なる算出方法であってもよく、各帯域の群遅延を表すパラメータであればよい。
このように、帯域群遅延パラメータは、所定の周波数帯域の群遅延を表すパラメータとなる。よって、帯域群遅延パラメータから群遅延の再構築は、下式4に示すように、各周波数に対応する帯域群遅延パラメータを用いることにより行われる。
この生成した群遅延からの位相の再構築は、下式5によって求められる。
ω=0における位相の初期値は、上述したハイパス処理をかけているため、0としているが、実際に直流成分の位相を保存しておいて用いてもよい。これらに用いているΩは、帯域群遅延を求めるときの帯域の境界である周波数スケールである。周波数スケールは、任意のスケールを用いることができるが、聴覚特性に合わせて低域は細かく、高域は粗い間隔で設定することができる。
図5は、周波数スケールの作成例を示す図である。図5に示した周波数スケールは、5kHzまではα=0.35のメルスケールを用い、5kHz以上は等間隔に表したスケールである。群遅延パラメータは、波形の形状の再現性を高めるために、パワーの強くなる低域を細かく表現し、高域は粗い間隔に設定している。これは、高域では波形のパワーが小さくなり、また非周期成分によるランダム位相成分が強くなるため、安定した位相パラメータが得られなくなるためである。また、高域の位相は、聴覚的にも影響が小さいことが知られているためである。
ランダム位相の成分とパルス励振による成分との制御は、周期成分・非周期成分の強度である各帯域の雑音成分の強度により表現する。音声分析装置100の出力結果を用いて音声合成を行う場合には、後述する帯域雑音強度パラメータも含めて波形生成される。よって、ここでは雑音成分の強い高域の位相は粗い表現にされ、次数が削減されている。
図6は、図5に示した周波数スケールを用いて、帯域群遅延パラメータによる分析をした結果を例示する図である。図6(a)は、上式3によって得られた帯域群遅延パラメータを示している。帯域群遅延パラメータは、各帯域の群遅延の重み平均になるが、平均的な群遅延では、群遅延スペクトルに見られる変動が再現できないことがわかる。
図6(b)は、帯域群遅延パラメータから生成した位相を例示する図である。図6(b)に示した例では、位相の傾きは概ね再現できているものの、低域にあるπに近い位相の変化等、位相スペクトルの段差を捉えることができず、位相スペクトルを再現できない箇所が含まれている。
この生成した位相と、メルLSPから生成した振幅スペクトルを逆フーリエ変換し、波形生成した例が図6(c)に示されている。生成された波形は、図3(a)の波形に見られる中心付近において、分析元の波形と大きく異なる形状となっている。このように、帯域群遅延パラメータのみにより位相をモデル化した場合、音声に含まれる位相の段差をとらえることができないため、再生成した波形と分析元の波形に差異が生じる。
この問題に対応するため、音声分析装置100は、帯域群遅延パラメータとともに、所定の周波数において、帯域群遅延パラメータから再構築した位相を、位相スペクトルの当該周波数における位相に補正する帯域群遅延補正パラメータを用いる。
帯域群遅延補正パラメータ算出部106は、位相スペクトル及び帯域群遅延パラメータから帯域群遅延補正パラメータを算出する。帯域群遅延補正パラメータは、帯域群遅延パラメータにより再構築した位相を、境界周波数における位相値に補正するパラメータであり、差分をパラメータとする場合は、下式6によって求められる。
上式6の右辺第1項は、音声を分析して得られたΩにおける位相である。上式6の第2項は、帯域群遅延パラメータbgrd(b)及び補正パラメータbgrdc(b)により再構築する群遅延を用いて求められる。これは下式7に示すように、上式4の群遅延におけるω=Ωとなる境界において、補正パラメータbgrdc(b)を加算したパラメータとして表される。
このように構成した群遅延からの位相は、上式5により再構築される。また、上式6の右辺第2項は、上式7及び上式5によってω=Ω−1まで位相を再構築した後、Ωにおける帯域群遅延により再構築した下式8の位相によって求められ、Ωb―1までの帯域の帯域群遅延パラメータ及び帯域群遅延補正パラメータと、Ωにおける帯域群遅延パラメータを用いて再構築した位相として求められる。
また、上式6によって、右辺第2項の位相と実際の位相との差分を求めることにより、帯域群遅延補正パラメータを求めることにより、周波数Ωにおいて実際の位相が再現される。
図7は、帯域群遅延補正パラメータにより分析した結果を例示する図である。図7(a)は、上式7による帯域群遅延パラメータ及び帯域群遅延補正パラメータから再構築した群遅延スペクトルを示している。図7(b)は、この群遅延スペクトルから位相を生成した例を示している。図7(b)に示すように、帯域群遅延補正パラメータを用いることにより実際の位相に近い位相が再構築できている。特に、周波数スケールの間隔の狭い低域部分においては、図6(b)において差が生じていた階段状の位相となる箇所も含めて再現できている。
図7(c)は、このように再構築した位相パラメータから波形を合成した例を示している。図6(c)に示した例では波形の形状が分析元の波形と大きく異なっていたが、図7(c)に示した例では元の波形に近い音声波形が生成されている。上式6の補正パラメータbgrdcは、ここでは位相の差分情報を用いているが、当該周波数における位相値など他のパラメータでもよい。例えば、帯域群遅延パラメータと組み合わせて用いることにより、当該周波数における位相が再現されるパラメータであればよい。
図8は、音声分析装置100が行う処理を示すフローチャートである。音声分析装置100は、ピッチマークのループにより、各ピッチマークに対応するパラメータを算出する処理を行う。まず、音声分析装置100は、音声フレーム抽出ステップにおいて抽出部101が音声フレームを抽出する(S801)。次に、スペクトルパラメータ算出部102がスペクトルパラメータ算出ステップにおいてスペクトルパラメータを算出し(S802)、位相スペクトル算出部103が位相スペクトル算出ステップにおいて位相スペクトルを算出し(S803)、群遅延スペクトル算出部104が群遅延スペクトル算出ステップにおいて群遅延スペクトルを算出する(S804)。
次に、帯域群遅延パラメータ算出部105が帯域群遅延パラメータ算出ステップにおいて帯域群遅延パラメータを算出する(S805)。図9は、図8に示した帯域群遅延パラメータ算出ステップ(S805)の詳細を示すフローチャートである。図9に示すように、帯域群遅延パラメータ算出部105は、所定の周波数スケールの各帯域のループにより、帯域の境界周波数を設定し(S901)、上式3に示されたパワースペクトル重み等を用いた群遅延の平均化により帯域群遅延パラメータ(平均群遅延)を算出する(S902)。
次に、帯域群遅延補正パラメータ算出部106が帯域群遅延補正パラメータ算出ステップにおいて帯域群遅延補正パラメータを算出する(S806:図8)。図10は、図8に示した帯域群遅延補正パラメータ算出ステップ(S806)の詳細を示すフローチャートである。図10に示すように、帯域群遅延補正パラメータ算出部106は、各帯域のループにより、まず帯域の境界周波数を設定する(S1001)。次に、帯域群遅延補正パラメータ算出部106は、帯域群遅延パラメータ及び現帯域以下の帯域の帯域群遅延補正パラメータを用いて境界周波数における位相を、上式7及び上式5を用いて生成する(S1002)。そして、帯域群遅延補正パラメータ算出部106は、上式8により位相スペクトル差分パラメータを算出して、算出結果を帯域群遅延補正パラメータとする(S1003)。
このように、音声分析装置100は、図8(図9、10)に示した処理を行うことにより、入力音声に対応するスペクトルパラメータ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを算出して出力するので、音声合成を行う場合に音声波形の再現性を高めることを可能にする。
(第2の音声処理装置:音声合成装置)
次に、実施形態にかかる第2の音声処置装置、すなわち、音声合成装置について説明する。図11は、音声合成装置の第1実施形態(音声合成装置1100)を示すブロック図である。図11に示すように、音声合成装置1100は、振幅情報生成部1101、位相情報生成部1102及び音声波形生成部1103を有し、スペクトルパラメータ系列、帯域群遅延パラメータ系列、帯域群遅延補正パラメータ系列及びパラメータ系列の時刻情報を受入れて音声波形(合成音声)を生成する。音声合成装置1100に入力される各パラメータは、音声分析装置100により算出されたものである。
振幅情報生成部1101は、各時刻のスペクトルパラメータから振幅情報を生成する。位相情報生成部1102は、各時刻の帯域群遅延パラメータ及び帯域群遅延補正パラメータから位相情報を生成する。音声波形生成部1103は、振幅情報生成部1101が生成した振幅情報、及び位相情報生成部1102が生成した位相情報から、各パラメータの時刻情報に従って音声波形を生成する。
図12は、逆フーリエ変換及び波形重畳を行う音声合成装置1200の構成例を示す図である。音声合成装置1200は、音声合成装置1100の具体的構成例の1つであり、振幅スペクトル算出部1201、位相スペクトル算出部1202、逆フーリエ変換部1203、及び波形重畳部1204を有し、逆フーリエ変換によって各時刻の波形を生成し、生成した波形を重畳合成することによって合成音声を出力する。
より具体的には、振幅スペクトル算出部1201は、スペクトルパラメータから振幅スペクトルを算出する。振幅スペクトル算出部1201は、例えばパラメータとしてメルLSPを用いている場合、メルLSPの安定性をチェックし、メルLPC係数に変換し、メルLPC係数から振幅スペクトルを算出する。位相スペクトル算出部1202は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式5及び上式7により位相スペクトルを算出する。
逆フーリエ変換部1203は、算出された振幅スペクトル及び位相スペクトルを逆フーリエ変換してピッチ波形を生成する。逆フーリエ変換部1203によって生成された波形は図7(c)に例示されている。波形重畳部1204は、生成されたピッチ波形をパラメータ系列の時刻情報に基づいて重畳合成し、合成音声を得る。
図13は、図2に示した区間に対応する波形生成例を示す図である。図13(a)は、図2に示した原音の音声波形を示している。図13(b)は、音声合成装置1100(音声合成装置1200)が出力する帯域群遅延パラメータ及び帯域群遅延補正パラメータによる合成音声波形である。図13(a)、(b)に示すように、音声合成装置1100は、原音の波形に近い形状の波形を生成することができる。
図13(c)は、比較例として、帯域群遅延パラメータのみを用いた場合の合成音声波形を示している。図13(a)、(c)に示すように、帯域群遅延パラメータのみを用いた場合の合成音声波形は、原音とは異なる形状の波形になっている。
このように、音声合成装置1100(音声合成装置1200)は、帯域群遅延パラメータに加えて帯域群遅延補正パラメータを用いることにより、原音の位相特性を再現することができ、分析合成波形を分析元の音声波形の形状に近づけて、高品質な波形生成をすること(音声波形の再現性を高めること)ができる。
図14は、音声合成装置の第2実施形態(音声合成装置1400)を示すブロック図である。音声合成装置1400は、音源信号生成部1401及び声道フィルタ部1402を有する。音源信号生成部1401は、帯域群遅延パラメータ系列及び帯域群遅延補正パラメータ系列と、パラメータ系列の時刻情報を用いて、音源信号を生成する。音源信号は、位相制御されず、雑音強度等も用いられない場合、無声音区間には雑音信号、有声音区間にはパルス信号を用いて生成され、フラットなスペクトルを持ち、声道フィルタが適用されることによって音声波形が合成される信号である。
音声合成装置1400は、音源信号生成部1401がパルス成分の位相を帯域群遅延パラメータ及び帯域群遅延補正パラメータによって制御する。つまり、図11に示した位相情報生成部1102の位相制御機能は、音源信号生成部1401によって行われる。つまり、音声合成装置1400は、ボコーダ型の波形生成に帯域群遅延パラメータ及び帯域群遅延補正パラメータを利用して高速に波形生成する。
音源信号を位相制御する方法の一つは、逆フーリエ変換を用いるものである。この場合、音源信号生成部1401は、図15に示した処理を行う。つまり、音源信号生成部1401は、特徴パラメータの各時刻において、帯域群遅延パラメータ及び帯域群遅延補正パラメータから上式5及び上式7により位相スペクトルを算出し(S1501)、振幅を1として逆フーリエ変換を行い(S1502)、生成した波形を重畳する(S1503)。
声道フィルタ部1402は、生成された音源信号に対してスペクトルパラメータにより定められるフィルタを適用することにより、波形生成を行って音声波形(合成音声)を出力する。声道フィルタ部1402は、振幅情報を制御するために、図11に示した振幅情報生成部1101が備える機能を有する。
音声合成装置1400は、上述したように位相制御した場合には、音源信号からの波形生成は可能となるが、逆フーリエ変換の処理を含んでおり、フィルタ演算が含まれるために音声合成装置1200(図12)よりも処理量が増加し、高速に波形生成することができない。そこで、音源信号生成部1401は、時間領域の処理のみで位相制御された音源信号を生成するように、図16に示したように構成される。
図16は、時間領域の処理のみで位相制御された音源信号を生成する音源信号生成部1401の構成を示すブロック図である。図16に示した音源信号生成部1401は、位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を予め用意し、位相シフト帯域パルス信号を遅延させて重畳合成させることによって音源波形を生成する。
具体的には、音源信号生成部1401は、まず、記憶部1605にパルス信号を位相シフトさせ、帯域分割した各帯域の信号を記憶しておく。位相シフト帯域パルス信号とは、該当する帯域における振幅スペクトルを1、位相スペクトルを定数値とした信号であり、パルス信号の位相をシフトし、帯域分割した各帯域の信号となり、下式9によって作成される。
ここで、帯域の境界Ωは、周波数スケールによって定められ、位相ψは、0≦ψ<2πの範囲を量子化し、P段階に量子化される。P=128とする場合、2π/128の刻みによって128個×帯域数の帯域パルス信号を作成する。このように、位相シフト帯域パルス信号は、位相シフトしたパルス信号を帯域分割したものであり、合成時には帯域及び位相の主値によって選択される。このように作成した位相シフト帯域パルス信号を帯域bの位相シフトのインデックスをph(b)としたとき、bandpulse ph(b)(t)と表す。
図17は、位相シフト帯域パルス信号を例示する図である。左欄は全帯域の位相シフトしたパルス信号であり、上段は0位相の場合、下段は位相ψ=π/2の場合を示している。2列目から6列目は、それぞれ図5に示したスケールの低域から5帯域目までの帯域パルス信号を示している。このように、記憶部1605は、帯域分割部1606、位相付与部1607、及び逆フーリエ変換部1608により作成された位相シフト帯域パルス信号を記憶しておく。
遅延時間算出部1601は、帯域群遅延パラメータから位相シフト帯域パルス信号の各帯域の遅延時間を算出する。上式3によって求められた帯域群遅延パラメータは、時間領域ではその帯域の平均遅延時間を表し、下式10により整数化された遅延時間delay(b)となり、整数遅延時間に対応する群遅延はτint(b)として求められる。
位相算出部1602は、境界周波数における位相を、求める帯域より低域の帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出する。パラメータから再構築される境界周波数の位相は、上式7及び上式5によって求められるψ(Ω)である。選択部1603は、境界周波数位相及び整数群遅延bgrdint(b)を用いて各帯域のパルス信号の位相を算出する。この位相は、ψ(Ω)を通り傾きbgrdint(b)とした直線のy切片として下式11によって求められる。
また、選択部1603は、上式11により求めた位相の主値を(0≦phase(b)<2π)の範囲になるように2πの加算又は減算を行うことによって求め(以下〈phase(b)〉と記載)、得られた位相の主値を位相シフト帯域パルス信号作成時に量子化した位相の番号ph(b)として求める(下式12)。
このph(b)により帯域群遅延パラメータ及び帯域群遅延補正パラメータに基づいた位相シフト帯域パルス信号の選択が行われる。
図18は、選択部1603が選択を行う選択アルゴリズムを示す概念図である。ここでは、b=1の帯域の音源信号に対応する位相シフト帯域パルス信号の選択の例が示されている。選択部1603は、帯域ΩからΩb+1の音源信号を生成するため、その帯域の帯域群遅延パラメータから整数化した遅延及び位相の傾きである群遅延bgrdint(b)を求める。そして、選択部1603は、帯域群遅延パラメータ及び帯域群遅延補正パラメータから生成した境界周波数における位相ψ(Ω)を通り傾きbgrdint(b)の直線のy切片phase(b)を求め、その主値〈phase(b)〉を量子化したph(b)により位相シフト帯域パルス信号を選択する。
図19は、位相シフト帯域パルス信号を示す図である。位相phase(b)による全帯域のパルス信号は、図19(a)に示すように固定の位相phase(b)、振幅1の信号である。これに時間方向の遅延を与えると、遅延量に応じた固定の群遅延が生じるため図19(b)に示すようにphase(b)を通り、傾きbgrdint(b)の直線となる。この全帯域の直線位相の信号にバンドパスフィルタを適用してΩからΩb+1の区間を切り出したものが図19(c)となり、振幅はΩからΩb+1の区間1、その他の周波数領域は0となり、境界Ωの位相がψ(Ω)の信号となる。
このため、図18に示した方法により各帯域の位相シフトパルス信号を適切に選択することができる。重畳部1604は、このように選択された位相シフト帯域パルス信号を、遅延時間算出部1601が求めた遅延時間delay(b)で遅延させ、全帯域にわたって加算することにより帯域群遅延パラメータ及び帯域群遅延補正パラメータを反映した音源信号を生成する。
図20は、音源信号の生成例を示す図である。図20(a)は、各帯域の音源信号であり、選択された位相シフトパルス信号を遅延させた波形を低域の5つの帯域に示したものである。これらを全帯域加算し、生成された音源信号を図20(b)に示している。このように生成された信号の位相スペクトルを図20(c)に、振幅スペクトルを図20(d)に示す。
図20(c)に示した位相スペクトルは、分析元の位相を細線で示し、上式5及び上式7によって生成された位相を太線で重ねて示している。このように、音源信号生成部1401によって生成された位相とパラメータから再生成した位相は、高域のアンラップの違いによる差のある箇所を除きほぼ重なっており、分析元位相に近い位相が生成されている。
図20(d)に示した振幅スペクトルを見ると、位相の変化が大きく零点をまたぐ箇所以外はほぼ振幅1.0のフラットなスペクトルに近い形状となっており、正しく音源波形が生成されていることがわかる。音源信号生成部1401は、このように生成された音源信号をパラメータ系列時刻情報によって定まるピッチマークに従って重畳合成し、文全体の音源信号を生成する。
図21は、音源信号生成部1401が行う処理を示すフローチャートである。音源信号生成部1401は、パラメータ系列の各時刻のループを行い、帯域パルス遅延時間算出ステップでは上式10によって遅延時間を算出し(S2101)、境界周波数位相算出ステップでは上式5及び上式7により境界周波数の位相を算出する(S2102)。そして、音源信号生成部1401は、位相シフト帯域パルス選択ステップでは上式11及び上式12によって記憶部1605に含まれる位相シフト帯域パルス信号を選択し(S2103)、遅延位相シフト帯域パルス重畳ステップでは選択された位相シフト帯域パルス信号を遅延させて加算及び重畳することにより音源信号を生成する(S2104)。
声道フィルタ部1402は、音源信号生成部1401が生成した音源信号に対し、声道フィルタを適用し、合成音声を得る。声道フィルタは、メルLSPパラメータの場合は、メルLSPパラメータからメルLPCパラメータに変換し、ゲイン括りだし処理等を行った後、メルLPCフィルタを適用することにより波形生成する。
声道フィルタの影響により、最小位相特性が加算されるため、分析元の位相から帯域群遅延パラメータ及び帯域群遅延補正パラメータを求めるときに、最小位相の補正を行う処理を適用してもよい。最小位相は、メルLSPから振幅スペクトルを生成し、対数振幅スペクトルと零位相によるスペクトルを逆フーリエ変換し、得られたケプストラムを正の成分は2倍、負の成分は0として再度フーリエ変換した虚軸に生成される。
このように求めた位相をアンラップし、波形を分析した位相から減算することにより最小位相の補正が行われる。最小位相補正した位相スペクトルから帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、上述した音源信号生成部1401の処理により音源を生成し、フィルタを適用することにより、元の波形の位相を再現した合成音声が得られる。
図22は、最小位相補正も含めて生成された音声波形を例示する図である。図22(a)は、図13(a)と同じ分析元の音声波形である。図22(b)は、音声合成装置1400によるボコーダ型波形生成に基づく分析合成波形である。図22(c)は、広く用いられるパルス音源によるボコーダであり、この場合最小位相の波形形状となる。
図22(b)に示した音声合成装置1400による分析合成波形は、図22(a)に示した原音に近い波形が再現されている。また、図13(b)に示した波形にも近い音声波形が生成されている。それに対し、図22(c)に示した最小位相では、ピッチマーク付近にパワーが集中した音声波形となり、原音の音声波形の形状を再現することはできない。
また、処理量を比較するために、約30秒の音声波形を生成したときの処理時間を計測した。位相シフト帯域パルス生成等の初期設定を除いた処理時間は、逆フーリエ変換を用いる図12の構成の場合は約9.19秒、ボコーダ型の図14の構成の場合は約0.47秒(2.9GHzのCPUの演算サーバにて計測)となった。つまり、処理時間は約5.1%程度に短縮されることが確認された。つまり、ボコーダ型波形生成により、高速に波形生成することができる。
これは、逆フーリエ変換を用いず、時間領域の操作のみで位相特性を反映した波形生成が可能となったためである。上述した波形生成では、音源生成し、音源波形を重畳合成したあとフィルタを適用するが、この限りではない。ピッチ波形毎に音源波形を生成してフィルタを適用し、ピッチ波形を生成して生成されたピッチ波形を重畳合成するなど、異なる構成でもよい。そして、図16に示した位相シフト帯域パルス信号による音源信号生成部1401を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータから音源信号を生成すればよい。
図23は、図12に示した音声合成装置1200に対し、帯域雑音強度を用いた雑音成分・周期成分の分離による制御を加えた音声合成装置2300の構成例を示す図である。音声合成装置2300は、音声合成装置1100の具体的構成の1つであり、振幅スペクトル算出部1201がスペクトルパラメータ系列から振幅スペクトルを算出し、周期成分スペクトル算出部2301及び雑音成分スペクトル算出部2302が帯域雑音強度に従って周期成分スペクトルと雑音成分スペクトルに分離する。帯域雑音強度は、スペクトルの各帯域の雑音成分の比率を表すパラメータであり、例えばPSHF(Pitch Scaled Harmonic Filter)方式を用いて音声を周期成分と雑音成分に分離し、各周波数の雑音成分比率を求め、予め定めた帯域毎に平均化する方法などにより求めることができる。
図24は、帯域雑音強度を例示する図である。図24(a)は、PSHFによって音声を周期成分と非周期成分に分離した信号から、処理対象フレームの音声のスペクトルと非周期成分のスペクトルを求め、各周波数の非周期成分の比率を求めたap(ω)である。処理の際には、PSHFによる比率に対して有声音の帯域は0とする後処理や比率を0から1の間にクリッピングする処理等が加えられている。このように求めた雑音成分比率から、周波数スケールに従ってのスペクトルで重みづけした平均を求めたものが図24(b)に示した帯域雑音強度bap(b)である。周波数スケールは、帯域群遅延と同様に図5に示したスケールを用いており、下式14によって求められる。
雑音成分スペクトル算出部2302は、この帯域雑音強度による各周波数の雑音強度をスペクトルパラメータから生成したスペクトルに乗算し、雑音成分スペクトルを求める。周期成分スペクトル算出部2301は、1.0−bap(b)を乗じることにより、雑音成分スペクトルを除いた周期成分スペクトルを求める。
雑音成分波形生成部2304は、雑音信号から作成したランダム位相と雑音成分スペクトルによる振幅スペクトルから、逆フーリエ変換することにより雑音成分波形を生成する。雑音成分位相は、例えば平均0分散1となるガウス雑音を生成し、ピッチの2倍のハニング窓により切り出し、切り出した窓かけガウス雑音をフーリエ変換することにより作成できる。
周期波形生成部2303は、位相スペクトル算出部1202が帯域群遅延パラメータ及び帯域群遅延補正パラメータから算出した位相スペクトルと、周期成分スペクトルによる振幅スペクトルを逆フーリエ変換することにより周期成分波形を生成する。
波形重畳部1204は、生成された雑音成分波形と周期成分波形を加算し、パラメータ系列の時刻情報に従って重畳して合成音声を得る。
このように、雑音成分と周期成分を分離することにより、帯域群遅延パラメータとして表現することの困難なランダム位相成分を分離し、雑音成分はランダム位相から生成することができる。これにより、無声音区間や、有声摩擦音の高域部、有声音に含まれる雑音成分がパルス的なバジー感のある音質になってしまうことを抑えることができる。特に、統計的に各パラメータをモデル化した場合、複数のランダムな位相成分から求められた帯域群遅延・帯域群遅延補正パラメータを平均化すると、平均値は0に近づき、パルス的な位相成分に近づく傾向がある。帯域雑音強度を帯域群遅延パラメータ・帯域群遅延補正パラメータと併せて用いることにより、雑音成分はランダムな位相から生成することを可能にしつつ、周期成分は適切に生成された位相を用いることができ、合成音声の音質が向上する。
図25は、帯域雑音強度による制御も用い、高速波形生成を実現するためのボコーダ型の音声合成装置2500の構成例を示す図である。雑音成分の音源生成は、帯域雑音信号記憶部2503に含まれる予め帯域分割した固定長の帯域雑音信号を用いて行われる。音声合成装置2500は、帯域雑音信号記憶部2503が帯域雑音信号を記憶し、雑音音源信号生成部2502が帯域雑音強度に従って各帯域の帯域雑音信号の振幅を制御し、振幅制御された帯域雑音信号を加算することによって雑音音源信号を生成する。なお、音声合成装置2500は、図14に示した音声合成装置1400の変形例である。
パルス音源信号生成部2501は、記憶部1605が記憶している位相シフト帯域パルス信号を用い、図16に示した構成によって位相制御した音源信号を生成する。但し、遅延位相シフト帯域パルス波形を重畳する場合、各帯域の信号の振幅を、帯域雑音強度を用いて制御し、(1.0−bap(b))の強度となるように生成する。音声合成装置2500は、このように生成したパルス音源信号と雑音音源信号を加算して音源信号を生成し、声道フィルタ部1402においてスペクトルパラメータによる声道フィルタを適用し、合成音声を得る。
音声合成装置2500は、図23に示した音声合成装置2300と同様に雑音信号と周期信号をそれぞれ生成し、雑音成分に対してパルス的なノイズが生じることを抑えつつ、位相制御された周期成分と雑音成分とを加えて音源生成することにより、分析元波形の形状に近い形状を持つ音声合成が可能となる。また、音声合成装置2500は、雑音音源の生成もパルス音源の生成も時間領域の処理のみで算出することができるため、高速な波形生成が可能となる。
このように、音声合成装置の第1実施形態及び第2実施形態は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、統計モデル化可能な次元削減した特徴パラメータで、再構築した位相と波形を分析した位相の類似度を向上させることを可能とし、これらのパラメータから適切に位相制御された音声合成が可能となる。実施形態にかかる各音声処理装置は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。さらに、ボコーダ型の音声合成装置では、時間領域の処理のみにより位相制御した音源波形を生成し、声道フィルタによる波形生成を可能とすることにより、高速に位相制御された波形生成が可能となる。また、音声合成装置は、帯域雑音強度パラメータと組み合わせて用いることにより雑音成分の再現性も向上し、より高品質な音声合成が可能となる。
図26は、音声合成装置の第3実施形態(音声合成装置2600)を示すブロック図である。音声合成装置2600は、上述した帯域群遅延パラメータ及び帯域群遅延補正パラメータをテキスト音声合成装置に適用したものである。ここでは、テキスト音声合成方式として、統計モデルに基づく音声合成技術であるHMM(Hidden Markov Model)に基づく音声合成において、その特徴パラメータに帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いる。
音声合成装置2600は、テキスト解析部2601、HMM系列作成部2602、パラメータ生成部2603、波形生成部2604、及びHMM記憶部2605を有する。HMM記憶部(統計モデル記憶部)2605は、帯域群遅延パラメータ及び帯域群遅延補正パラメータを含む音響特徴パラメータから学習したHMMを記憶する。
テキスト解析部2601は、入力テキストを解析して読み・アクセント等の情報を求めコンテキスト情報を作成する。HMM系列作成部2602は、テキストから作成されたコンテキスト情報に従って、HMM記憶部2605に記憶されているHMMモデルから、入力テキストに対応するHMM系列を作成する。パラメータ生成部2603は、HMM系列から音響特徴パラメータを生成する。波形生成部2604は、生成された特徴パラメータ系列から音声波形を生成する。
より詳細には、テキスト解析部2601は、入力テキストの言語解析よりコンテキスト情報を作成する。テキスト解析部2601は、入力テキストに形態素解析を行い、読み情報及びアクセント情報などの音声合成に必要な言語情報を求め、得られた読み情報及び言語情報から、コンテキスト情報を作成する。別途作成した入力テキストに対応する修正済みの読み・アクセント情報からコンテキスト情報を作成してもよい。コンテキスト情報とは、音素・半音素・音節HMM等の音声を分類する単位として用いられる情報である。
音声単位として音素を用いる場合、コンテキスト情報として音素名の系列を用いることができ、さらに先行音素・後続音素を付加したトライフォンや、前後2音素ずつ含めた音素情報、有声音・無声音による分類やさらに詳細化した音素種別の属性を表す音素種別情報、各音素の文内、呼気段落内、アクセント句内の位置、アクセント句のモーラ数・アクセント型、モーラ位置、アクセント核までの位置、語尾上げの有無の情報、付与された記号情報等の言語的な属性情報を含めてコンテキスト情報とすることができる。
HMM系列作成部2602は、HMM記憶部2605が記憶しているHMM情報に基づいて、入力コンテキスト情報に対応するHMM系列を作成する。HMMは状態遷移確率と各状態の出力分布とにより表される統計モデルである。HMMとしてleft−to−right型HMMを用いる場合、図27に示すように、各状態の出力分布N(o|μ、Σ)と状態遷移確率aijは状態インデックス)によりモデル化され、隣接する状態への遷移確率及び自己遷移確率のみ値を持つ形でモデル化される。ここで、自己遷移確率aijの代わりに継続長分布N(d|μ d、Σ d)を用いるものをHSMM(隠れセミマルコフモデル)と呼び、継続長のモデル化に用いられる。
HMM記憶部2605は、このHMMの各状態の出力分布を決定木クラスタリングしたモデルを記憶している。この場合、図28に示すように、HMM記憶部2605は、HMMの各状態の特徴パラメータのモデルである決定木及び決定木の各リーフノードの出力分布を記憶し、さらに継続長分布のための決定木及び分布も記憶する。決定木の各ノードには、分布を分類する質問が関連付けられており、例えば「無音かどうか」、「有声音であるかどうか」、「アクセント核かどうか」といった質問とその質問に該当する場合の子ノードと該当しない場合の子ノードに分類される。入力されたコンテキスト情報に対して、各ノードの質問に該当するかどうかを判断することによって決定木を探索し、リーフノードを得る。得られたリーフノードに対応づけられている分布を各状態の出力分布として用いることにより、各音声単位に対応するHMMを構築する。これにより、入力されたコンテキスト情報に対応するHMM系列を作成する。
HMM記憶部2605に記憶されるHMMは、図29に示すHMM学習装置2900によって行われる。音声コーパス記憶部2901は、HMMモデルの作成に用いるための音声データ及びコンテキスト情報を含む音声コーパスを記憶している。
分析部2902は、学習に用いる音声データを分析し、音響特徴パラメータを求める。ここでは、上述した音声分析装置100を用いて帯域群遅延パラメータ及び帯域群遅延補正パラメータを求め、スペクトルパラメータ、ピッチパラメータ、帯域雑音強度パラメータ等と併せて用いる。
分析部2902は、図30に示すように、音声データの各音声フレームにおける音響特徴パラメータを求める。音声フレームは、ピッチ同期分析を用いる場合には各ピッチマーク時刻におけるパラメータとなり、また固定フレームレートの場合には隣接するピッチマークの音響特徴パラメータを補間して用いる方法などにより特徴パラメータが抽出される。
音声の分析中心時刻(図30ではピッチマーク位置)に対応する音響特徴パラメータを、図1に示した音声分析装置100を用いて分析し、スペクトルパラメータ(メルLSP)、ピッチパラメータ(対数F0)、帯域雑音強度パラメータ(BAP)、帯域群遅延パラメータ及び帯域群遅延補正パラメータ(BGRD及びBGRDC)を抽出する。さらに、これらのパラメータの動的特徴量として、Δパラメータ及びΔパラメータを求め、並べて各時刻の音響特徴パラメータとする。
HMM学習部2903は、このように求められた特徴パラメータから、HMMを学習する。図31は、HMM学習部2903が行う処理を示すフローチャートである。HMM学習部2903は、音素HMMを初期化し(S3101)、HSMMの学習により音素HMMを最尤推定し(S3102)、初期モデルである音素HMMを学習する。最尤推定の際は、連結学習により、HMMを文に対応させて連結した文全体のHMMと文に対応する音響特徴パラメータから各状態と特徴パラメータとの確率的な対応づけを行いつつ学習する。
次に、HMM学習部2903は、音素HMMを用いてコンテキスト依存HMMを初期化する(S3103)。コンテキストとしては、上述したように当該音素、前後の音素環境、文内・アクセント句内等の位置情報、アクセント型、語尾上げするかどうかといった音韻環境及び言語情報を用いて、学習データに存在するコンテキストに対して、当該音素で初期化したモデルを用意する。
そして、HMM学習部2903は、コンテキスト依存HMMに対して連結学習による最尤推定を適用して学習し(S3104)、決定木に基づく状態クラスタリングを適用する(S3105)。これにより、HMM学習部2903は、HMMの各状態・各ストリーム及び状態継続長分布に対して、決定木を構築する。そして、HMM学習部2903は、状態毎・ストリーム毎の分布から、最尤基準やMDL(Minimum Description Length)基準等によりモデルを分類する規則を学習し、図28に示した決定木を構築する。また、音声合成時には、学習データに存在しない未知のコンテキストが入力された場合にも、決定木を辿ることにより各状態の分布が選択され、対応するHMMを構築することができる。
最後に、HMM学習部2903は、コンテキスト依存のクラスタリングしたモデルを最尤推定し、モデル学習が完了する(S3106)。クラスタリングの際に、各特徴量のストリーム毎に決定木を構築することにより、スペクトルパラメータ(メルLSP)、ピッチパラメータ(対数基本周波数)、帯域雑音強度(BAP)とともに、帯域群遅延及び帯域群遅延補正パラメータの各ストリームの決定木が構築される。また、状態毎の継続長を並べた多次元分布に対して決定木を構築することにより、HMM単位の継続長分布決定木が構築される。これら求められたHMM及び決定木がHMM記憶部2605に保存される。
HMM系列作成部2602(図26)は、入力コンテキストとHMM記憶部2605に記憶されているHMMからHMM系列を作成し、継続長分布により定められるフレーム数に従って、各状態の分布を繰り返すことにより分布列を作成する。作成される分布列は出力するパラメータの個数の分布を並べた列である。
パラメータ生成部2603は、HMMに基づく音声合成に広く用いられている静的・動的特徴量を考慮したパラメータ生成アルゴリズムにより各パラメータを生成することにより、滑らかなパラメータ系列を生成する。
図32は、HMM系列・分布列の構築例を示す図である。まず、HMM系列作成部2602は、入力コンテキストのHMMの各状態・各ストリームの分布及び継続長分布を選択し、HMMの系列を構成する。コンテキストとして、「先行音素_当該音素_後続音素_音素位置_音素数_モーラ位置_モーラ数_アクセント型」を用い「赤」を合成する場合、2モーラ1型のため、最初の”a”の音素は、先行音素”sil”、当該音素”a”、後続音素”k”、音素位置1、音素数3、モーラ位置1、モーラ数2、アクセント型1型のため、”sil_a_k_1_3_1_2_1”といったコンテキストになる。
HMMの決定木を辿る際は、各中間ノードに当該音素がaかどうか、アクセント型が1型かどうかといった質問が定められており、質問を辿る事によってリーフノードの分布が選択され、メルLSP,BAP,BGRD及びBGRDC、LogF0の各ストリーム及び継続長分布の分布がHMMの各状態に選択されて、HMM系列が構成される。このようにモデル単位(例えば音素)ごとのHMM系列及び分布列が構成され、それらを文全体を並べて入力文章に対応する分布列が作成される。
パラメータ生成部2603は、作成した分布列から、静的・動的特徴量を用いたパラメータ生成アルゴリズムによりパラメータ系列を生成する。ΔとΔを動的特徴パラメータとして用いる場合、以下の方法により出力パラメータが求められる。時刻tの特徴パラメータoは、静的特徴パラメータcと、前後のフレームの特徴パラメータから定まる動的特徴パラメータΔc、Δを用いて、o=(c’、Δc’、Δ2c’)と表される。P(O|J,λ)を最大化する静的特徴量cからなるベクトルC=(c’、…、cT−1’)’は、0TMをT×M次のゼロベクトルとして、下式15の方程式を解くことによって求められる。
ただし、Tはフレーム数、Jは状態遷移系列である。特徴パラメータOと静的特徴パラメータCとの関係を、動的特徴を計算する行列Wによって関係づけると、O=WCと表される。Oは3TMのベクトル、CはTMのベクトルとなり、Wは、3TM×TMの行列である。そして、μ=(μs00’,…、μsJ−1Q−1’)’、Σ=diag(Σs00’,…、ΣsJ−1Q−1’)’と、各時刻における出力分布の平均ベクトル、対角共分散をすべて並べた文に対応する分布の平均ベクトル及び共分散行列としたとき、上式15は、下式16の方程式を解くことによって最適な特徴パラメータ系列Cが求められる。
この方程式は、コレスキー分解による方法により求められる。またRLSフィルタの時間更新アルゴリズムに用いられる解法と同様に、遅延時間を伴いつつ時間順にパラメータ系列を生成することもでき、低遅延に生成することも可能となる。なお、パラメータ生成の処理は、上述した方法に限らず、平均ベクトルを補間する方法等、その他分布列から特徴パラメータを生成する任意の方法を用いてもよい。
波形生成部2604は、このように生成されたパラメータ系列から音声波形を生成する。例えば、波形生成部2604は、メルLSP系列、対数F0系列、帯域雑音強度系列、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから音声を合成する。これらのパラメータを用いる場合、上述した音声合成装置1100又は音声合成装置1400を用いて波形生成される。具体的には、図23に示した逆フーリエ変換による構成、又は図25に示したボコーダ型の高速波形生成を用いて波形生成を行う。帯域雑音強度を用いない場合は、図12に示した逆フーリエ変換による音声合成装置1200、又は図14に示した音声合成装置1400を用いることになる。
これらの処理により、入力コンテキストに対応した合成音声が得られ、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いて、音声波形の位相情報も反映させた、分析元音声に近い音声を合成することが可能となる。
なお、上述したHMM学習部2903においては、特定話者のコーパスを用いて話者依存モデルを最尤推定する構成を記載したがこれに限定するものではない。HMM音声合成の多様性向上技術として用いられている話者適応技術、モデル補間技術、その他クラスタ適応学習等の異なる構成を用いることも可能であり、また、ディープニューラルネットを用いた分布パラメータ推定等、異なる学習方式が用いられてもよい。
また、音声合成装置2600は、HMM系列作成部2602とパラメータ生成部2603の間に特徴パラメータ系列を選択する特徴パラメータ系列選択部をさらに有し、HMM系列を目標として分析部2902によって求められた音響特徴パラメータを候補として、その中から特徴パラメータを選択し、選択されたパラメータから音声波形を合成する構成であってもよい。このように、音響特徴パラメータの選択を行うことにより、HMM音声合成の過剰平滑化による音質劣化を抑えることができ、より実際の発声に近い自然な合成音声が得られるようになる。
このように、音声合成の特徴パラメータとして、帯域群遅延パラメータ及び帯域群遅延補正パラメータを用いることにより、波形の再現性を高めつつ高速に波形生成することを可能にすることができる。
なお、上述した音声分析装置100及び音声合成装置1100等の音声合成装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることでも実現することが可能である。すなわち、本実施形態における音声分析装置及び各音声合成装置は、コンピュータ装置に搭載されたプロセッサにプログラムを実行させることにより実現することができる。このとき、プログラムをコンピュータ装置に予めインストールすることで実現してもよいし、CD−ROMなどの記憶媒体に記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータ装置に適宜インストールすることで実現してもよい。また、コンピュータ装置に内蔵あるいは外付けされたメモリ、ハードディスク又はCD−R、CD−RW、DVD−RAM、DVD−Rなどの記憶媒体などを適宜利用して実現することができる。なお、音声分析装置100及び音声合成装置1100等の音声合成装置は、一部又は全部がハードウェアによって構成されてもよいし、ソフトウェアによって構成されてもよい。
また、本発明のいくつかの実施形態を複数の組み合わせによって説明したが、これらの実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規の実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (14)

  1. 入力音声の各音声フレームに対し、スペクトルパラメータを算出するスペクトルパラメータ算出部と、
    前記各音声フレームに対し、第1位相スペクトルを算出する位相スペクトル算出部と、
    前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する群遅延スペクトル算出部と、
    前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する帯域群遅延パラメータ算出部と、
    前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する帯域群遅延補正パラメータ算出部と、
    を有する音声処理装置。
  2. 前記帯域群遅延パラメータ算出部は、
    所定の周波数帯域における群遅延の平均値、又はスペクトル若しくはパワースペクトルで重み付けした群遅延の平均値を周波数帯域それぞれの帯域群遅延パラメータとして算出し、
    前記帯域群遅延補正パラメータ算出部は、
    低域から前記帯域群遅延パラメータに基づいて前記第2位相スペクトルを再構築し、前記第2位相スペクトルと、前記位相スペクトル算出部が算出した各周波数帯域の境界周波数における前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する
    請求項1に記載の音声処理装置。
  3. 入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する振幅情報生成部と、
    前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する位相情報生成部と、
    各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する音声波形生成部と、
    を有する音声処理装置。
  4. 前記位相情報生成部は、
    時間領域の処理のみで位相制御された音源信号を生成する
    請求項3に記載の音声処理装置。
  5. 前記振幅情報生成部は、
    各時刻における前記スペクトルパラメータ系列から振幅スペクトルを算出し、
    前記位相情報生成部は、
    前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から位相スペクトルを算出し、
    前記音声波形生成部は、
    前記振幅スペクトル及び前記位相スペクトルに基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
    請求項3に記載の音声処理装置。
  6. 前記振幅情報と、所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータ系列から各周波数の雑音強度とに基づいて雑音成分スペクトルを算出する雑音成分スペクトル算出部と、
    前記振幅情報と、前記帯域雑音強度パラメータ系列から各周波数の周期成分スペクトルを算出する周期成分スペクトル算出部と、
    前記周期成分スペクトルと、前記帯域群遅延パラメータ系列及び前記帯域群遅延補正パラメータ系列から構築した位相スペクトルから周期成分波形を生成する周期波形生成部と、
    前記雑音成分スペクトルと、雑音信号に対応する位相スペクトルから雑音成分波形を生成する雑音成分波形生成部と、
    を有し、
    前記音声波形生成部は、
    前記周期成分波形及び前記雑音成分波形に基づいて、各時刻の音声波形を生成し、生成した各時刻の前記音声波形を重畳合成することによって音声波形を生成する
    請求項5に記載の音声処理装置。
  7. 位相シフトしたパルス信号を帯域分割した位相シフト帯域パルス信号を記憶する記憶部と、
    各時刻における音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータから、位相シフト帯域パルス信号の遅延時間を算出する遅延時間算出部と、
    前記帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相情報を補正する帯域群遅延補正パラメータから境界周波数における位相を算出する位相算出部と、
    算出された各帯域の位相に基づいて、前記記憶部から対応する位相シフト帯域パルス信号を選択する選択部と、
    選択された位相シフト帯域パルス信号を、前記遅延時間に従って遅延させて重畳させることにより、位相シフトされた音源信号を生成する重畳部と、
    入力音声の各音声フレームに対して算出されたスペクトルパラメータに対応する声道フィルタを適用し、音声波形を出力する声道フィルタ部と
    を有する音声処理装置。
  8. 前記記憶部は、
    位相の主値を所定の段階に量子化した各位相による帯域パルス信号である位相シフト帯域パルス信号を記憶し、
    前記選択部は、
    前記帯域群遅延パラメータの各周波数帯域において、当該帯域の開始周波数における位相を前記帯域群遅延パラメータ及び前記帯域群遅延補正パラメータから算出し、前記帯域群遅延パラメータから整数化した遅延量を算出して、前記遅延量から群遅延を算出し、前記遅延量から算出した群遅延を傾きとして、前記開始周波数における位相を通る直線の周波数原点における位相値を算出し、算出した位相値の主値に対応する位相シフト帯域パルス信号を選択し、
    前記重畳部は、
    前記遅延量によって遅延させた位相ソフト帯域パルス信号を重畳する
    請求項7に記載の音声処理装置。
  9. 帯域分割された帯域雑音信号を記憶する帯域雑音信号記憶部
    をさらに有し、
    前記声道フィルタ部は、
    所定の周波数帯域の雑音成分の比率を表す帯域雑音強度パラメータの各帯域の強度に基づいて、前記帯域雑音信号から生成される各帯域の雑音信号、及び前記位相シフト帯域パルス信号を混合した混合音源信号に対し、スペクトルパラメータに対応する声道フィルタを適用する
    請求項7に記載の音声処理装置。
  10. 入力音声の各音声フレームに対して算出されたスペクトルパラメータ、前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ、及び前記帯域群遅延パラメータから生成される位相スペクトルを補正する帯域群遅延補正パラメータを用いて学習した統計モデルを記憶する統計モデル記憶部と、
    任意の入力テキストに対応するコンテキスト情報、及び前記統計モデル記憶部に記憶されている統計モデルに基づいて、入力テキストに対応するスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータを生成するパラメータ生成部と、
    前記パラメータ生成部が生成したスペクトルパラメータ、帯域群遅延パラメータ、及び帯域群遅延補正パラメータから波形を生成する波形生成部と、
    を有する音声処理装置。
  11. 入力音声の各音声フレームに対し、スペクトルパラメータを算出する工程と、
    前記各音声フレームに対し、第1位相スペクトルを算出する工程と、
    前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出する工程と、
    前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出する工程と、
    前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出する工程と、
    を含む音声処理方法。
  12. 入力音声の各音声フレームに対し、スペクトルパラメータを算出するステップと、
    前記各音声フレームに対し、第1位相スペクトルを算出するステップと、
    前記第1位相スペクトルの周波数成分に基づいて、前記第1位相スペクトルから群遅延スペクトルを算出するステップと、
    前記群遅延スペクトルから所定の周波数帯域における帯域群遅延パラメータを算出するステップと、
    前記帯域群遅延パラメータから再構築した第2位相スペクトルと、前記第1位相スペクトルとの差を補正する帯域群遅延補正パラメータを算出するステップと、
    をコンピュータに実行させるための音声処理プログラム。
  13. 入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成する工程と、
    前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成する工程と、
    各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成する工程と、
    を含む音声処理方法。
  14. 入力音声の各音声フレームに対して算出されたスペクトルパラメータ系列に基づいて、振幅情報を生成するステップと、
    前記各音声フレームの位相スペクトルから算出された群遅延スペクトルの所定の周波数帯域における帯域群遅延パラメータ系列、及び前記帯域群遅延パラメータ系列から生成される位相スペクトルを補正する帯域群遅延補正パラメータ系列から位相情報を生成するステップと、
    各パラメータの時刻情報であるパラメータ系列時刻情報によって定まる各時刻において、前記振幅情報及び前記位相情報から音声波形を生成するステップと、
    をコンピュータに実行させるための音声処理プログラム。
JP2017540402A 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム Active JP6496030B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/076361 WO2017046904A1 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム

Publications (2)

Publication Number Publication Date
JPWO2017046904A1 JPWO2017046904A1 (ja) 2018-03-22
JP6496030B2 true JP6496030B2 (ja) 2019-04-03

Family

ID=58288321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017540402A Active JP6496030B2 (ja) 2015-09-16 2015-09-16 音声処理装置、音声処理方法及び音声処理プログラム

Country Status (4)

Country Link
US (3) US10650800B2 (ja)
JP (1) JP6496030B2 (ja)
CN (3) CN114464208B (ja)
WO (1) WO2017046904A1 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016200391A1 (en) * 2015-06-11 2016-12-15 Interactive Intelligence Group, Inc. System and method for outlier identification to remove poor alignments in speech synthesis
CN114464208B (zh) * 2015-09-16 2025-11-14 株式会社东芝 语音处理装置、语音处理方法以及存储介质
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
EP3850870A1 (de) * 2018-09-12 2021-07-21 ASK Industries GmbH Verfahren zum betrieb einer kraftfahrzeugseitigen audioausgabeeinrichtung
CN109727604B (zh) * 2018-12-14 2023-11-10 上海蔚来汽车有限公司 用于语音识别前端的频域回声消除方法及计算机储存介质
KR102520240B1 (ko) * 2019-03-18 2023-04-11 한국전자통신연구원 비음수 행렬 인수분해를 이용하는 데이터 증강 방법 및 장치
JP2020194098A (ja) * 2019-05-29 2020-12-03 ヤマハ株式会社 推定モデル確立方法、推定モデル確立装置、プログラムおよび訓練データ準備方法
CN110415722B (zh) * 2019-07-25 2021-10-08 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110535575B (zh) * 2019-08-01 2021-05-14 电子科技大学 一种计算并补偿i/q信号线性相位失衡的方法
DE102019220091A1 (de) * 2019-12-18 2021-06-24 GiaX GmbH Vorrichtung und verfahren zum erfassen von gruppenlaufzeitinformationen und vorrichtung und verfahren zum senden eines messsignals über ein übertragungsmedium
CN111833843B (zh) * 2020-07-21 2022-05-10 思必驰科技股份有限公司 语音合成方法及系统
CN112634914B (zh) * 2020-12-15 2024-03-29 中国科学技术大学 基于短时谱一致性的神经网络声码器训练方法
CN112949294B (zh) * 2021-02-05 2022-09-30 国家基础地理信息中心 湿延迟数据文本的生成方法、装置、设备及存储介质
US12198673B2 (en) * 2021-11-12 2025-01-14 Lemon Inc. Differentiable wavetable synthesizer using plurality of machine learning models to reduce computational complexity of audio synthesis
CN114358026B (zh) * 2021-12-23 2025-09-23 中国科学技术大学 语音翻译方法、装置、设备和计算机可读存储介质
CN115295024B (zh) * 2022-04-11 2024-12-27 维沃移动通信有限公司 信号处理方法、装置、电子设备及介质
CN114678037B (zh) * 2022-04-13 2022-10-25 北京远鉴信息技术有限公司 一种重叠语音的检测方法、装置、电子设备及存储介质
CN116129934B (zh) * 2023-02-02 2025-09-30 北京达佳互联信息技术有限公司 音频分析方法、装置、设备及存储介质
CN119785805B (zh) * 2025-03-10 2025-06-13 深圳瑞利声学技术股份有限公司 基于soc芯片的音频数字信号处理方法及装置

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2170377B (en) * 1985-01-29 1988-12-14 Plessey Co Plc Voice synthesis module
US5701390A (en) 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
CN1204924A (zh) * 1997-04-04 1999-01-13 哈里公司 对数字数据流编码的格形编码器
JPH11219200A (ja) * 1998-01-30 1999-08-10 Sony Corp 遅延検出装置及び方法、並びに音声符号化装置及び方法
AU6900900A (en) * 1999-08-11 2001-03-05 Pacific Microsonics, Inc. Compensation system and method for sound reproduction
NL1013500C2 (nl) * 1999-11-05 2001-05-08 Huq Speech Technologies B V Inrichting voor het schatten van de frequentie-inhoud of het spectrum van een geluidssignaal in een ruizige omgeving.
EP1104101A3 (en) * 1999-11-26 2005-02-02 Matsushita Electric Industrial Co., Ltd. Digital signal sub-band separating / combining apparatus achieving band-separation and band-combining filtering processing with reduced amount of group delay
JP4166405B2 (ja) * 2000-03-06 2008-10-15 独立行政法人科学技術振興機構 駆動信号分析装置
JP2002268660A (ja) * 2001-03-13 2002-09-20 Japan Science & Technology Corp テキスト音声合成方法および装置
JP2003044098A (ja) * 2001-07-26 2003-02-14 Nec Corp 音声帯域拡張装置及び音声帯域拡張方法
JP2005184040A (ja) * 2003-12-15 2005-07-07 Sony Corp 音声信号処理装置及び音声信号再生システム
LV13342B (en) * 2005-05-18 2005-10-20 Real Sound Lab Sia Method and device for correction of acoustic parameters of electro-acoustic transducers
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7548593B2 (en) * 2005-09-15 2009-06-16 Qualcomm Incorporated Baseband compensation of an offset phase locked loop
JP4241736B2 (ja) * 2006-01-19 2009-03-18 株式会社東芝 音声処理装置及びその方法
JP4753821B2 (ja) * 2006-09-25 2011-08-24 富士通株式会社 音信号補正方法、音信号補正装置及びコンピュータプログラム
JP4406440B2 (ja) * 2007-03-29 2010-01-27 株式会社東芝 音声合成装置、音声合成方法及びプログラム
CN101589430B (zh) * 2007-08-10 2012-07-18 松下电器产业株式会社 声音分离装置、声音合成装置及音质变换装置
JP5159279B2 (ja) * 2007-12-03 2013-03-06 株式会社東芝 音声処理装置及びそれを用いた音声合成装置。
DE112008003305B4 (de) * 2008-01-31 2015-02-19 Mitsubishi Electric Corp. Bandaufteilungs-Zeitausgleich-Signalverarbeitungs-Vorrichtung
JP5038995B2 (ja) 2008-08-25 2012-10-03 株式会社東芝 声質変換装置及び方法、音声合成装置及び方法
JP4516157B2 (ja) * 2008-09-16 2010-08-04 パナソニック株式会社 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム
US8626809B2 (en) * 2009-02-24 2014-01-07 Samsung Electronics Co., Ltd Method and apparatus for digital up-down conversion using infinite impulse response filter
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
CN101854154B (zh) * 2010-06-22 2012-07-04 长沙理工大学 数字直流陷波器设计方法
BE1019445A3 (fr) * 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
JP5085700B2 (ja) * 2010-08-30 2012-11-28 株式会社東芝 音声合成装置、音声合成方法およびプログラム
WO2012109227A2 (en) * 2011-02-07 2012-08-16 Rf Micro Devices, Inc. Group delay calibration method for power amplifier envelope tracking
JP5926490B2 (ja) * 2011-02-10 2016-05-25 キヤノン株式会社 音声処理装置
US8891699B2 (en) * 2011-03-25 2014-11-18 Broadcom Corporation Characterization and assessment of communication channel average group delay variation
JP6011039B2 (ja) 2011-06-07 2016-10-19 ヤマハ株式会社 音声合成装置および音声合成方法
JP5717097B2 (ja) * 2011-09-07 2015-05-13 独立行政法人情報通信研究機構 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
JP2013057895A (ja) * 2011-09-09 2013-03-28 Research Organization Of Information & Systems 音声再生装置、音声再生方法及びコンピュータプログラム
JP2013164572A (ja) 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
JP5631915B2 (ja) * 2012-03-29 2014-11-26 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラムならびに学習装置
WO2014021318A1 (ja) * 2012-08-01 2014-02-06 独立行政法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
JP6347536B2 (ja) * 2014-02-27 2018-06-27 学校法人 名城大学 音合成方法及び音合成装置
CN114464208B (zh) * 2015-09-16 2025-11-14 株式会社东芝 语音处理装置、语音处理方法以及存储介质

Also Published As

Publication number Publication date
US20200234692A1 (en) 2020-07-23
JPWO2017046904A1 (ja) 2018-03-22
CN114464208A (zh) 2022-05-10
CN114464208B (zh) 2025-11-14
CN114694632B (zh) 2025-08-19
CN114694632A (zh) 2022-07-01
WO2017046904A1 (ja) 2017-03-23
CN107924686A (zh) 2018-04-17
US11170756B2 (en) 2021-11-09
US10650800B2 (en) 2020-05-12
US20180174571A1 (en) 2018-06-21
US20200234691A1 (en) 2020-07-23
CN107924686B (zh) 2022-07-26
US11348569B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
JP6496030B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US11423874B2 (en) Speech synthesis statistical model training device, speech synthesis statistical model training method, and computer program product
JP5038995B2 (ja) 声質変換装置及び方法、音声合成装置及び方法
US9058807B2 (en) Speech synthesizer, speech synthesis method and computer program product
JP5958866B2 (ja) 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
Toda et al. Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model
US10529314B2 (en) Speech synthesizer, and speech synthesis method and computer program product utilizing multiple-acoustic feature parameters selection
US9343060B2 (en) Voice processing using conversion function based on respective statistics of a first and a second probability distribution
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190307

R151 Written notification of patent or utility model registration

Ref document number: 6496030

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350