JP2003323200A

JP2003323200A - 音声符号化のための線形予測係数の勾配降下最適化

Info

Publication number: JP2003323200A
Application number: JP2003125758A
Authority: JP
Inventors: Wai Chu; チュウワイ; Khosrow Lashkari; ラシュキャリコズロウ
Original assignee: Docomo Communications Labs USA Inc
Current assignee: Docomo Innovations Inc
Priority date: 2002-04-29
Filing date: 2003-04-30
Publication date: 2003-11-14
Anticipated expiration: 2023-04-30
Also published as: EP1359567A1; JP4489371B2; US20030204402A1; US7200552B2; EP1727129A2

Abstract

(57)【要約】【課題】より正確な音声を合成する音声符号化システ
ムを提供する【解決手段】線形予測に基づいた音声符号化システム
のための最適化アルゴリズムを提供する。この最適化ア
ルゴリズムにおいては、原音サンプルを使用して音声合
成多項式の第１の係数を計算して第１合成音声サンプル
を生成し、原音サンプルと第１合成音声サンプルとの間
の第１誤差を計算し、第１誤差の勾配を計算し、勾配を
使用して音声合成多項式の第２の係数を計算し、第２合
成音声サンプルを生成し、原音サンプルと第２合成音声
サンプルとの間の第２誤差を計算し、第２誤差が第１誤
差より小さい場合、第２の係数を選択し、第２誤差が第
１誤差より大きい場合第１の係数を選択することによ
り、原音サンプルと合成化音声サンプルとの間の誤差を
最小にする。また係数を解領域へと変更することなし
に、システム差分方程式から直接、最適な線形予測係数
が計算される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は音声符号化に関し、
特に線形予測係数の最適化に関する。

【０００２】

【従来の技術】音声符号化（あるいは圧縮）と言う技術
は、データ送信のために音声をデジタルデータに符号化
する広く知られた技術である。符号化されたデータを受
信した受信者側は、その音声を再現する。デジタル化さ
れた音声データは符号化後、後に音声に復号されるまで
の間、様々なデジタル記録メディアに保存することが出
来る。

【０００３】音声符号化システムは、他のアナログ符号
化システムおよびデジタル符号化システムとは異なって
いる。アナログ符号化システムおよびデジタル符号化シ
ステムでは、音声を高いビットレートでダイレクトサン
プリングして、サンプリングされた生データを受信機に
送信する。ダイレクトサンプリングシステムは、原音を
高品質に再現し、再現音質が重要な場合に好まれる。ダ
イレクトサンプリングシステムが使われている一般的な
例としては、アナログの音楽レコードやカセットテー
プ、またデジタルの音楽ＣＤやＤＶＤがある。ダイレク
トサンプリングシステムの欠点は、データを送信するの
に広い帯域幅が必要であり、またデータの保存にも大き
な記憶容量が必要なことである。これゆえ、原音からサ
ンプリングされた生の音声データを送信する典型的な符
号化システムでは、毎秒１２８０００ビットものデータ
レートが必要となることがある。

【０００４】これに対して、音声符号化システムは、人
間の音声発生の数学的モデルを使っている。発声モデル
化の基本的技術は当技術分野で知られており、アメリカ
音響協会の機関紙、１９７１年第５０巻で、Ｂ・Ｓ・ア
タル（B・S・Atal）とスザンヌ・Ｌ・ハナー（Suzanne
・L・Hanauer）による「音声分析と音声波の線形予測に
よる合成（Speech Analysis and Synthesis by Linear
Prediction of the Speech Wave）」に説明されてい
る。音声符号化システムで使われる人間の音声発生のモ
デルは、普通ソース・フィルター・モデルと呼ばれてい
る。一般に、このモデルには、肺と声帯によって発生す
る空気の流れを表している励起信号と、声道（すなわち
声門、口、舌、鼻腔と唇）を表している合成フィルタが
含まれている。よって、肺と声帯が声道にパルス状の空
気の流れを発生させるように、励起信号は合成フィルタ
ーへの入力信号として働く。そして、声道が肺と声帯か
らの空気の流れに変更を加えるように、合成フィルター
が励起信号に変更を加える。この結果、出来上がった合
成音声は、ほぼ原音を表すようになる。

【０００５】音声符号化システムの長所は、ダイレクト
サンプリングシステムと比べて、原音をデジタル化した
形で送信するのに必要な帯域幅が、ずっと小さくなり得
ることである。比べてみると、ダイレクトサンプリング
システムでは原音を表す生の音響データが送られている
のに対し、音声符号化システムでは、数学的な音声モデ
ルを再現するのに必要なわずかな量の制御データが送ら
れているだけである。結果として、典型的な音声符号化
システムを使えば、音声を送るのに必要な帯域幅をほぼ
毎秒２４００〜８０００ビットまで減らすことができ
る。

【０００６】

【非特許文献１】アメリカ音響協会、機関誌、１９７１
年第５０巻、Ｂ・Ｓ・アタル（B・S・Atal）とスザンヌ
・Ｌ・ハナー（Suzanne・L・Hanauer）による「音声分
析と音声波の線形予測による合成（Speech Analysis an
d Synthesis by Linear Prediction of the Speech Wav
e）」

【０００７】

【発明が解決しようとする課題】音声符号化システムの
欠点の１つは、ダイレクトサンプリングシステムに比べ
て、再現された音声の質がかなり低いことがあると言う
ことである。多くの音声符号化システムでは、受信者が
正確に元の音声の内容を認知するのに十分な質は提供さ
れている。しかし、いくつかの音声符号化システムで
は、再現された音声は聞きやすくない。つまり、受信者
はもともと話された言葉を理解する事は出来るが、音声
の質が低かったり、不快であったりする。従って、より
正確な音声生成モデルを提供する音声符号化システムが
望まれている。

【０００８】音声符号化システムの質を改善する１つの
方法として認知されているものが、ラシュキャリ（Lash
kari）等によるアメリカ特許出願０９／８０００７１号
に説明されている。簡単に説明すると、この解決法は、
原音サンプルと合成音声サンプルとの間の合成化誤差を
最小化する方法である。この音声符号化システムで分か
った難しい問題の１つは、合成化誤差がかなり非線形で
あるということである。このことで、この問題が数学的
に難しくなっている。この問題を解くこの難しさは、合
成フィルター多項式の解を、多項式の係数の代わりに使
うことで克服されている。よって、合成フィルター多項
式の解を探すための解最適化アルゴリズムが、そこで説
明されている。

【０００９】上述の解法および当業者に知られている他
の最適化解法に関して解決されない問題は、原音をエン
コードするのに必要なコンピュータの処理能力が大きい
ことである。当業者なら分かるであろうが、原音を符号
化するのに使用される様々な計算式を計算するのに、音
声符号化システムでは、ＣＰＵ（central processingun
it）やＤＳＰ（digital signal processor）を使う必要
がある。しばしば、携帯電話などの携帯ユニットで音声
符号化が行われる場合、ＣＰＵやＤＳＰは内臓のバッテ
リから電気を得ている。よって、通常、音声符号化のた
めに利用可能な計算能力は、ＣＰＵやＤＳＰまたはバッ
テリ容量によって制限をうけることとなる。この問題
は、どの音声符号化システムにおいても共通したもので
あるが、最適化アルゴリズムを使用するシステムにおい
て、特に重大である。概して、最適化アルゴリズムは、
通常の符号化アルゴリズムに加えて、追加の数式計算を
含めることで、より質の高い音声を提供することができ
る。しかしながら、非効率な最適化アルゴリズムでは、
ＣＰＵやＤＳＰとして、値段が高く、計算能力があり、
大きなものが必要になってしまう。非効率な最適化アル
ゴリズムでは、バッテリも余計に使用し、バッテリライ
フが短くなってしまう。よって、音声符号化システムで
は、効率的な最適化アルゴリズムが望まれている。

【００１０】

【課題を解決するための手段】本発明は、音声生成の数
学的モデルを最適化するためのアルゴリズムを提供す
る。この最適化アルゴリズムは、畳み込みを使用せず、
また係数を解領域に変換することなしに、合成フィルタ
多項式の係数を計算する。このように、係数の最適化に
関する計算効率が改善される。原音と合成音声との間の
誤差の勾配を使用して、係数がシステム差分方程式から
直接計算される。システムの不安定さをテストするため
に終結閾値が使用され、不安定であるとされた場合、最
適化アルゴリズムは止められ、最後の係数が返される。

【００１１】

【発明の実施の形態】図を参照して説明する。図１に、
より正確に原音をモデル化するために合成誤差を最小化
する音声符号化システムを示す。図１には音声の合成に
よる分析（ＡｂＳ（analysis-by-synthesis））システ
ムが示されている。このシステムは、普通ソース・フィ
ルター・モデルと呼ばれている。当技術分野でよく知ら
れているように、ソース・フィルター・モデルは、人間
の音声発生を数学的にモデル化する。このモデルで普通
使われる仮定では、音声を生成している人間の音声発生
メカニズムは、短い期間またはフレームで（例えば２０
〜３０ｍｓの分析フレーム）で、変化しないものとして
いる。更にまたこのモデルは、隣り合う期間の間に人間
の音声発生メカニズムは変化するものと仮定している。
このシステムでモデル化された物理的メカニズムには、
声帯、声門、口、舌、鼻腔そして唇によって起こされる
気圧変化が含まれている。よって、音声復号化器は、そ
のモデルを再現し、各期間用に制御データを少数セット
使用するだけで、原音を再生成する。このように、通常
の音声送信システムと異なり、原音の生サンプルデータ
は符号化器から復号化器へは送られない。この結果、送
信されたり、記憶されたりするするデジタル符号化され
たデータ（つまり、バンド幅やビット数）は、典型的な
ダイレクトサンプリングシステムが必要とするのよりず
っと少なくなる。

【００１２】図１において、デジタル化された元の音声
１０が励起モジュール１２に送られている。励起モジュ
ール１２は、この原音の各サンプルｓ（ｎ）を解析し
て、励起関数ｕ（ｎ）を生成する。励起関数ｕ（ｎ）は
通常、連続したパルス信号であり、この連続したパルス
信号は、声帯によって声道に突発的に放出される肺から
の空気の流れを表している。原音サンプルｓ（ｎ）の性
質によるが、励起関数ｕ（ｎ）は、有声音１３か１４か
無声音１５かである。

【００１３】音声符号化システムでの再生音質を改善す
る方法として、有声音の励起関数ｕ（ｎ）をより正確に
する方法がある。今まで、励起関数ｕ（ｎ）は、決まっ
たパルス間隔Ｐと大きさＧを持つパルス列１３であっ
た。当業者に知られている様に、この大きさＧと間隔Ｐ
を隣り合う期間で変えるようにしてもよい。大きさＧと
間隔Ｐが固定されている今までのものに比べて、励起パ
ルス１４のパルスの大きさと間隔を変化させることで励
起関数ｕ（ｎ）を最適化すると、よりよい音声合成がな
されることが明らかにされている。この改良は、米国電
気電子技術者協会（ＩＥＥＥ）の音響、音声、信号処理
に関する国際会議（１９８２年、６１４頁〜６１７頁）
の、ビシュヌ・Ｓ・アタル（Bishnu・S・Atal）とジョ
エル・Ｒ・レムデ（Joel R. Remde）による、「低ビッ
トレートにおける自然な音声を生成するためのＬＰＣ励
起の新しいモデル（A New Model of LPC Excitation Fo
r Producing Natural-Sounding Speech At Low Bit Rat
es）」に説明されている。

【００１４】この最適化技術では、原音ｓ（ｎ）を符号
化するための計算量が増えるが、最近のコンピュータは
励起関数ｕ（ｎ）の最適化に十分な計算能力があるの
で、重大な欠点ではない。この改良でのもっと重大な問
題は、可変励起パルス１４のデータを送信するのに必要
な帯域幅が余計に必要であると言うことだ。この問題を
解決する方法として、米国電気電子技術者協会（ＩＥＥ
Ｅ）の音響、音声、信号処理に関する国際会議（１９８
５年、９３７頁〜９４０頁）の、マンフレッド・Ｒ・シ
ュレッダー（Manfred R. Schroeder）とビシュヌ・Ｓ・
アタル（Bishnu・S・Atal）による「符号励起線形予測
化（CELP）：低ビットレートにおける高品質音声（Code
-Excited Linear Prediction (CELP): High-Quality Sp
eech At Very Low Bit Rates）」に説明されている符号
化システムがある。

【００１５】この解決法では、多くの最適化された関数
を分類して、関数ライブラリすなわちコードブックを作
成する。そして、符号化励起モジュール１２は、原音ｓ
（ｎ）に最も近い合成音声を生成する最適化された励起
関数をコードブックから選択する。そして、コードブッ
ク内の最適な項目を特定するコードが復号化器に送られ
る。復号化器は送られてきたコードを受信し、対応する
コードブックにアクセスし、選択された最適な励起関数
ｕ（ｎ）を再生成する。

【００１６】励起モジュール１２は、無声音１５の励起
関数ｕ(ｎ)も生成することが出来る。無声音１５の励起
関数ｕ(ｎ)は、話者の声帯が開いて、突発的な空気の流
れが声道に起こされた時に使われる。多くの励起モジュ
ール１２は、この状態をモデル化するのに、パルスでな
く白色ノイズ１５（すなわちランダム信号）を有する励
起関数ｕ（ｎ）を生成する。

【００１７】次に、合成フィルター１６は、声道のモデ
ル化と、声帯からの空気の流れに対する、声道の効果の
モデル化を行う。普通は、合成フィルター１６には、声
道の様々な形を表す多項式を使う。多項式のパラメータ
つまり係数は通常、入力音声信号を使用して見積もりが
なされる、また線形予測係数と呼ばれる。

【００１８】上述のアタル（Atal）とレムデ（Remde）
によると、合成フィルター１６は次の数式で表すことが
できる。

【数１】ここで、Ｇは音声の大きさを表している利得項である
（簡潔のため、以降の式では利得項Ｇは省略する）。Ａ
（ｚ）はＭ次の多項式であり次の式で表される。

【数２】

【００１９】多項式Ａ（ｚ）の次数は用途によって変わ
る。サンプリングレート８ｋＨｚの場合、１０次の多項
式が通常使用される。合成フィルタ１６で決定される合
成音声ｓｓ（ｎ）と励起関数ｕ（ｎ）との関係は次の式
で定義される。

【数３】

【００２０】ここで、表記「ｓｓ」は、本願の優先権主
張の基礎である米国特許出願においては「ｅ」の上に
「∧」を載せた表記となっていたものであるが、本願明
細書においてそのような表記を用いることが困難であっ
たため、その代わりに採用されたものである。従って、
これ以降における表記「ｓｓ」は、実際には「ｅ」の上
に「∧」を載せたものを表していると解されることを望
む次第である。

【００２１】数３はシステム差分方程式とも呼ばれる。
通常、この多項式の係数ａ₁…ａ_Mは、この分野で線形予
測符号化（ＬＰＣ）として知られる技術を使って計算さ
れる。ＬＰＣに基づく技術では、トータル予測誤差Ｅ_p
を最小にすることにより、多項式の係数ａ₁…ａ_Mを計算
する。これにより、サンプル予測誤差ｅ_p（ｎ）が次の
式により定義される。

【数４】

【００２２】トータル予測誤差Ｅ_pは、次の式によって
定義される。

【数５】ここで、Ｎはサンプルの数で表される分析フレームの長
さである。多項式の係数ａ₁…ａ_Mは、よく知られた数学
的方法を用いて、トータル予測誤差Ｅ_pを最小化するこ
とにより解くことが出来る。

【００２３】多項式の係数ａ₁…ａ_Mを計算するＬＰＣ技
術に関する問題の１つは、トータル予測誤差だけが最小
化されることである。このように、ＬＰＣ技術では、原
音ｓ（ｎ）と合成音声ｓｓ（ｎ）との間の誤差を最小化
していない。従って、サンプル合成誤差ｅ_s（ｎ）は次
の式で定義できる。

【数６】

【００２４】トータル合成誤差Ｅ_sは、合成誤差エネル
ギーＪとも呼ばれるが、次の式で定義される。

【数７】Ｎはサンプルの数で表される分析フレームの長さであ
る。上で述べたトータル予測誤差Ｅ_pのように、合成誤
差エネルギーＪは、最適フィルターの係数ａ₁…ａ _Mを計
算するために最小化されなければならない。しかしなが
ら、この技術の問題は、数３で表される合成音声ｓｓ
（ｎ）によって、合成誤差エネルギーＪがかなり非線形
な関数になり、数学的に扱うのが難しいことである。

【００２５】最適化アルゴリズムの中には、この難しさ
を、係数ａ₁…ａ_Mの代わりに、多項式Ａ（ｚ）の解を使
用することで避けているものもある。合成フィルタ１６
の安定性に関して制御することができるが、この解決法
では、多くの計算能力を要求する。更に、解領域最適化
は、畳み込みに関連したインパルス応答に基づいた勾配
を通常計算する。畳み込みでは、先行する音声サンプル
の履歴を考慮することなしに、システムのゼロ状態応答
がわかるだけである。

【００２６】他の最適化アルゴリズムと比較して、フィ
ルタ係数ａ₁…ａ_Mを解領域に変換することなしに、フィ
ルタ係数ａ₁…ａ_Mを最適化するため、合成誤差エネルギ
ーＪの勾配が直接計算されるようにできる。よって、数
３、数６、数７を使用して、合成誤差エネルギーＪの勾
配は次式で与えられる。

【数８】ここでｉ＝１〜Ｍである。数３を使用して、係数ａ₁…
ａ_Mに関する合成音声の勾配は、次式で表される。

【数９】ここで、ｎ＝０〜Ｎ−１、かつｉ＝１〜Ｍである。係数
ａ₁…ａ_Mは、長さＮのフレームだけで有効であると仮定
される。このように、係数は、ｎ＝０〜Ｎ−１のみで存
在し、この間隔を外れたところでは、音声は、係数ａ₁
…ａ_Mから独立している。

【００２７】この最適化アルゴリズムの利点の１つは、
数９に示される合成音声の偏導関数が、回帰的な方法に
より効率よく計算できることである。従って、数９の偏
導関数は、以下の２次元配列で示される。

【数１０】ここで、ｎ＝０〜Ｎ−１、およびｉ＝１〜Ｍである。配
列Ｄ[ｎ，ｉ]は、以下の繰り返しコードＡを使用して計
算される。

【００２８】

【００２９】繰り返しコードＡを使用して計算された偏
導関数を数８に代入すると、合成誤差エネルギーの勾配
を得ることができる。合成誤差エネルギーの勾配ベクト
ルは、次式で得ることができる。

【数１１】係数ａ₁…ａ_Mのベクトルは、次式でも定義される。

【数１２】最適化係数は、次式を使用して計算できる。

【数１３】ここで、μは正の値を持ちステップサイズとして知られ
る。よって、係数の新たなベクトルは、勾配に対して負
の方向に移動することによって計算される。ステップサ
イズμの大きさは、最適化プロセスのスピードと安定性
とを変えるために、増やされたり減らされたりする。

【００３０】最適化アルゴリズムで使用されるフローチ
ャートを図２と図３に示す。このフローチャートは、図
１の合成フィルタ１６および合成フィルタ最適化部１８
によって実行されるものである。図２に示すように、最
適化アルゴリズムへ入力されるのは、原音ｓ、励起関数
ｕ、線形予測係数ａ₁…ａ_M、そして合成フィルタのメモ
リである（ステップ２２）。CalculateErrorEnergy関数
を呼び出して、数７を使用して、合成誤差エネルギーＪ
が計算される（ステップ２４）。変数OldErrorEnergy
が、次に初期化されて、合成誤差エネルギーＪが代入さ
れる（ステップ２４）。次に、CalculateGradient関数
を呼び出して、合成誤差エネルギーの勾配が、数８もし
くは繰り返しコードＡを使用して計算される。

【００３１】図３に示すGradientDescent関数を呼び出
すことで、変数ErrorEnergyが、計算される（ステップ
２８）。変数ErrorEnergyは、更新された係数ａ₁…ａ_M
を使用した合成誤差エネルギーＪを表している。それに
対し、変数OldErrorEnergyは、以前の係数ａ₁．．．ａ_M
を使った場合の合成誤差エネルギーを表している。次
に、ErrorEnergyは、OldErrorEnergyと比較される。こ
れは、合成誤差エネルギーＪの変化が、終了閾値Termin
ation_Threshold以下であるかどうかを決定するもので
ある（ステップ３０）。合成誤差エネルギーＪの変化
が、終了閾値Termination_Threshold以下でない場合
は、OldErrorEnergyにErrorEnergyが代入され、合成誤
差エネルギーＪの新たな勾配、新たな係数ａ₁…ａ_M、そ
して新たな合成誤差エネルギーＪが、ステップ３２、２
６、２８で計算される。合成誤差エネルギーＪの変化
が、終了閾値Termination_Threshold以下である場合、
最適化アルゴリズムは終了し、係数の修正された線形予
測値が返される（ステップ３４）。

【００３２】図３にGradientDescent関数を示す（ステ
ップ３６）。GradientDescent関数は、CalculateErrorE
nergyを呼び出し、数７を使用して、合成誤差エネルギ
ーＪを計算することで開始する（ステップ３８）。変数
OldErrorEnergyに合成誤差エネルギーＪが代入される
（ステップ３８）。次に、合成誤差エネルギーＪの勾配
ベクトルの大きさが計算され、変数Ｇノルムが割り当て
られる。また、係数ａ₁．．．ａ_Mの大きさが計算され、
変数Ａノルムが割り当てられる（ステップ４０）。変数
Ｇノルム、Ａノルム、および変数ステップサイズに割り
当てられた所定の値を使用して、適応ステップサイズμ
が計算される（ステップ４２）。新たな線形予測係数ａ
_newが、数１３を使用して計算される（ステップ４
４）。次に合成誤差エネルギーＪが、CalculateErrorEn
ergyを呼び出すことで、数７を使用して計算される（ス
テップ４６）。次に変数ErrorEnergyに、合成誤差エネ
ルギーＪが代入される（ステップ４６）。次に、合成誤
差エネルギーＪに増減があるかを調べるために、OldErr
orEnergyがErrorEnergyと比較される（ステップ４
８）。合成誤差エネルギーＪが減少している場合、変数
OldErrorEnergyに変数ErrorEnergyが代入され、線形予
測係数ａ₁．．．ａ_Mが新たな線形予測係数ａ_newへと更
新される（ステップ５０）。それから、新たな線形予測
係数ａ_newと合成誤差エネルギーＪが計算される（ステ
ップ４４、４６）。一方、合成誤差エネルギーＪが増大
していた場合、GradientDescent関数は終了して、現在
の線形予測係数ａ₁…ａ_MとOldErrorEnergyが返される
（ステップ５２）。

【００３３】合成モデルが決定され、係数ａ₁…ａ_Mが最
適化されたら、モデル化のための制御データが、送信又
は保存のために量子化されてデジタルデータへとなる。
量子化には業界で標準となっている方法が多くある。あ
る例では、量子化された制御データは、１０つの合成フ
ィルタ係数ａ₁…ａ_M、励起パルスの大きさを表す利得値
Ｇを１つ、励起パルスの周波数のためのピッチ間隔を１
つ、有声１３もしくは無声１５の励起関数ｕ（ｎ）を示
す指示子を１つ、含んでいる。よって、この例では、各
音声フレームの最後で、１３の異なる変数を送信する必
要がある。しかしながら、他の制御データを送るように
してもよい。例えば、ＣＥＬＰエンコーダにおいては、
使用する最適化励起関数ｕ（ｎ）を特定するコードブッ
クインデックスも送信される。通常ＣＥＬＰエンコーダ
では、制御データは、合計８０ビットへと量子化され
る。この例では、最適化を算入した合成音声ｓｓ（ｎ）
を、毎秒８０００ビット（８０ビット／フレーム÷０．
０１秒／フレーム）のバンド幅で送ることができる。

【００３４】エンコードに使用できるコンピュータの能
力によるが、合成化モデルをより正確にするために、追
加のエンコードシーケンスも可能である。これらのシー
ケンス例を、図１に点線で示してある。例えば、励起関
数ｕ（ｎ）は、合成モデルにおけるエンコードの間、様
々な段階で再最適化を行うことができる。更に、数式と
アルゴリズムは、特定のアプリケーションのために、変
更することもできる。

【００３５】合成音声の主観的品質を更に改善する方法
として、聴覚重み付けを使用する方法がある。この場
合、合成誤差エネルギーＪは、次式によって、聴覚重み
付けも使用して定義される。

【数１４】ここで、ｈ_w［ｎ］は、聴覚重み付けフィルタのインパ
ルス応答である。数１４に畳み込み処理を行うことで、
合成誤差エネルギーは次式になる。

【数１５】

【００３６】次に、数１５を合成フィルタ係数ａ₁…ａ_M
に関して微分することにより、合成誤差エネルギーの偏
導関数は、以下の式になる。

【数１６】聴覚重み付け誤差も、次式で定義することができる。

【数１７】数１０、数１４、数１６、数１７、を使用して、合成誤
差エネルギーの偏導関数は、以下の式のようになる。

【数１８】したがって、最適化アルゴリズムは、数１４を数７の代
わりに使い、更に数１８を数８の代わりに使って、更に
改善される。

【００３７】当業者に明らかなように、この最適化アル
ゴリズムは、合成フィルタ多項式Ａ（ｚ）を最適化する
のに必要な計算を著しく減らす。よって、エンコーダの
効率が著しく改善される。あるいはこの効率化を、合成
音声ｓｓ（ｎ）の質を改善するのに使用することもでき
る。従来の最適化アルゴリズムを使用する場合、各サン
プルを合成音声にするのに必要な計算が多かった。しか
し、改善された最適化アルゴリズムは、解領域を使用す
ることなしに、合成誤差エネルギーＪの勾配をシステム
差分方程式から直接計算することで、合成音声ｓｓ
（ｎ）を計算するのに必要な計算量を減らしている。本
発明は、様々な音声エンコーダに適用することができる
が、ラシュキャリ等による米国特許出願０９／８０００
７１号に記載の音声エンコーダに適用した場合は、すで
に性能の改善が認められている。

【００３８】この最適化アルゴリズムは多くの利点を持
っている。例えば、解領域解決法が通常使う畳み込み
を、この最適化アルゴリズムは使用しないので、ゼロ状
態応答とゼロ入力応答とを含む、システムのトータル応
答も考慮されることになる。この最適化アルゴリズムは
また、各繰り返しにおいて、合成誤差エネルギーを所定
の終了閾値でテストすることで、不安定さの問題を避け
ている。よって、テスト結果が、システムが不安定であ
るとなった場合、最適化アルゴリズムは終了して、最後
に最適化された線形予測係数が使われる。適応ステップ
サイズも、最適化のスピードを改善するために使用され
る。更に、最適化アルゴリズムの計算効率を改善する反
復アルゴリズムを使用して、合成誤差エネルギーの勾配
を計算することもできる。この最適化アルゴリズムの他
の利点は、合成音声の質を更に改善するために、聴覚重
み付けを使うことができることである。

【００３９】図４は、最適化アルゴリズムによる結果例
を示す図である。図４は、原音サンプル、Ｇ．７２９エ
ンコーダを使用した場合の合成音声、勾配降下最適化ア
ルゴリズムを使用したＧ．７２９エンコーダを使用した
場合の合成音声、それぞれの音声波形を示している。当
業者は理解するであろうが、このＧ．７２９エンコーダ
は、様々な音声エンコーダの質を比較するために、研究
者などに使用される標準化された音声エンコーダであ
る。図から分かるように、勾配降下最適化アルゴリズム
を使った場合の合成音声が、Ｇ．７２９エンコーダだけ
で生成された合成音声よりも、原音に一致している。

【００４０】他のテスト結果では、最適化アルゴリズム
により良好になった質および効率が示されている。例え
ば、あるテストにおいて、最適化アルゴリズムの付属し
たものと付属していないＧ．７２９を使用して、男性と
女性の標準化された音声データを符号化した。１０ミリ
秒毎に部分ＳＮ比（ＳＳＮＲ：segmental signal tonoi
se ratio measurements）を計測すると、Ｇ．７２９エ
ンコーダのみの場合、７．０６ｄＢＳＳＮＲであり、
解領域最適化アルゴリズム付属のＧ．７２９エンコーダ
を使用した場合、７．３３ｄＢＳＳＮＲとなり、説明
を行ってきた勾降下最適化アルゴリズム付属のＧ．７２
９エンコーダでは、７．３４ｄＢＳＳＮＲとなった。
当業者には当然であるが、ＳＳＮＲ計測値が高いという
ことは通常、合成音声が良好な聴覚品質を有していると
いうことである。更に、勾配降下最適化アルゴリズムの
計算量は、解領域最適化アルゴリズムに比べて、およそ
２０分の１〜３０分の１である。このテストは聴覚重み
付けを使用せずに行った。聴覚重み付けを行うと、勾配
降下最適化アルゴリズムでは、部分信号対重み付けノイ
ズ比（ＳＳＷＮＲ：segmental signal to weighted noi
se ratio）の計測値が１４．１９ｄＢＳＳＷＮＲとな
るが、普通のＧ．７２９エンコーダでは、１４．０４ｄ
ＢＳＳＷＮＲである。

【００４１】本発明の好ましい実施形態をここに説明し
たが、本発明はこれに限定されず、本発明の趣旨から外
れずに変形することが可能である。本発明の範囲は、特
許請求の範囲によって決まるものであり、文言上でも均
等上でも特許請求の範囲内にある装置および方法は、本
発明に含まれるものである。

【００４２】

【発明の効果】以上説明したように、本発明によれば、
より正確な合成音声を提供する音声符号化システムが提
供される。

【図面の簡単な説明】

【図１】音声の合成による分析システムのブロック図
である。

【図２】フィルタ係数のための最適化アルゴリズムの
フローチャートである。

【図３】誤差勾配を見つけるための最適化アルゴリズ
ムで使用される、勾配降下関数のフローチャートであ
る。

【図４】原音の波形と、Ｇ．７２９エンコーダを使用
した場合の合成音声の波形と、勾配降下最適化を行う
Ｇ．７２９エンコーダを使用した場合の合成音声の波形
とを比較している図である。

【符号の説明】

１０……マイク、１２……励起モジュール、１６……合
成フィルタ、１８……合成フィルタ最適化部、２０……
制御データ量子化部

───────────────────────────────────────────────────── フロントページの続き (72)発明者ワイチュウアメリカ合衆国、カリフォルニア州 95112、サンノゼ、1700、ノース・ファースト・ストリート 130 (72)発明者コズロウラシュキャリアメリカ合衆国、カリフォルニア州 94539、フリーモント、1525、サラマンカコートＦターム(参考） 5D045 CC02 DA02

Claims

【特許請求の範囲】

【請求項１】合成音声を最適化する方法において、原音サンプルを使用して音声合成多項式の第１の係数を
計算して、第１合成音声サンプルを生成する過程と、前記原音サンプルと前記第１合成音声サンプルとの間の
第１誤差を計算する過程と、前記第１誤差の勾配を計算する過程と前記勾配を使用し
て前記音声合成多項式の第２の係数を計算し、第２合成
音声サンプルを生成する過程と、前記原音サンプルと前記第２合成音声サンプルとの間の
第２誤差を計算する過程と、前記第２誤差が前記第１誤差より小さい場合前記の第２
の係数を選択し、前記第２誤差が前記第１誤差より大き
い場合前記第１の係数を選択する過程とを有することを
特徴とする方法。
【請求項２】請求項１に記載の方法において、前記勾配に適用されたステップサイズを使用して、前記
第２の係数が繰り返し計算され、各繰り返しにおいて誤
差が計算され、各繰り返しでの前記誤差が減少しなくな
ったら繰り返しを終えることを特徴とする方法。
【請求項３】請求項２に記載の方法において、前記第２の誤差の勾配を計算する過程と、前記第２の誤差の勾配を使用して、前記音声合成多項式
の第３の係数を計算して、第３の合成音声サンプルを生
成する過程とを更に有し、前記第２の誤差勾配に適用されたステップサイズを使用
して、前記第３の係数が繰り返し計算され、誤差が各繰
り返しで計算され、各繰り返しでの誤差が減少しなくな
ったら繰り返しを終えるものであり前記原音サンプルと
前記第３の合成音声サンプルとの間の第３の誤差を計算
する過程と、システムの不安定さに関して前記第３の誤差をテスト
し、前記テストにより不安定であるとされた場合、前記
第２の係数を選択する過程とを更に有することを特徴と
する方法。
【請求項４】請求項１に記載の方法において、前記勾配に適用されるものであり、前記勾配と前記第１
の係数との関数である適用ステップサイズを使用して、
前記第２の係数が計算されることを特徴とする方法。
【請求項５】請求項１に記載の方法において、システムの不安定さに関して、前記第２の誤差をテスト
し、前記テスト結果が不安定であるとなった場合前記第
１係数を選択するテスト過程を更に有することを特徴と
する方法。
【請求項６】請求項５に記載の方法において、前記テスト過程は更に、前記第２誤差と前記第１誤差との間の差を比較する過程
と、前記差が、終了閾値より大きいかどうかをテストする過
程とを有することを特徴とする方法。
【請求項７】請求項１に記載の方法において、前記勾配を知覚重み付けする過程を更に有することを特
徴とする方法。
【請求項８】請求項１に記載の方法において、前記勾配に適用されたステップサイズを使用して、前記
第２の係数が繰り返し計算され、各繰り返しで誤差が計
算され、前記誤差が各繰り返しで減少しなくなったら前
記繰り返しを完了するものであり、システムの不安定さに関し、前記第２の誤差をテスト
し、前記テストにおいて不安定であるとされた場合、前
記第１の係数を選択する過程を更に有し、前記勾配に聴
覚重み付けを行う過程を更に有することを特徴とする方
法。
【請求項９】音声合成フィルタを生成する方法におい
て、第１合成音声を生成する過程と、前記第１合成音声に基づいて、第１誤差エネルギーを計
算する過程と、前記第１誤差エネルギーに基づいて、誤差エネルギー勾
配を計算する過程と、前記誤差エネルギー勾配を使用して、第２合成音声を生
成する過程と、を有することを特徴とする方法。
【請求項１０】請求項９に記載の方法において、前記誤差エネルギー勾配は、システム差分方程式から直
接計算されることを特徴とする方法。
【請求項１１】請求項１０に記載の方法において、前記第２合成音声から最小第２誤差エネルギーを繰り返
し検索することにより、前記第２合成音声が生成される
ことを特徴とする方法。
【請求項１２】請求項１１に記載の方法において、前記誤差エネルギー勾配に適用され、かつ前記誤差エネ
ルギー勾配と前記第１合成音声の関数である適応ステッ
プサイズを使用して、前記第２合成音声が計算されるこ
とを特徴とする方法。
【請求項１３】請求項１１に記載の方法において、システムの不安定性さに関して前記第２の合成音声をテ
ストする過程と、前記テストにより不安定であるとされた場合、前記第１
の合成音声に戻って選択する過程とを更に有することを
特徴とする方法。
【請求項１４】第１の線形予測係数を計算する過程
と、システム差分方程式から直接誤差エネルギー勾配を計算
する過程と、前記誤差エネルギー勾配から第２の線形予測係数を計算
する過程と、前記第１の線形予測係数の前記誤差エネルギーと、前記
第２の線形予測係数の前記誤差エネルギーとを比較する
過程と、誤差エネルギーの少ない前記第１か第２の線形予測係数
を選択する過程とを有することを特徴とする音声最適化
方法。
【請求項１５】請求項１４に記載の音声最適化方法に
おいて、システム不安定性さに関して、前記第２の線形予測係数
をテストする過程を更に有することを特徴とする音声最
適化方法。
【請求項１６】請求項１５に記載の音声最適化方法に
おいて、前記第２の線形予測係数を適応的に計算する過程を更に
有することを特徴とする音声最適化方法。
【請求項１７】請求項１５に記載の音声最適化方法に
おいて、前記誤差エネルギー勾配に聴覚重み付けを行う過程を更
に有することを特徴とする音声最適化方法。
【請求項１８】音声最適化装置において、原音サンプルを使用して音声合成多項式の第１の線形予
測係数を計算する手段と、システム差分方程式から直接誤差エネルギー勾配を計算
する手段と、前記誤差エネルギー勾配から第２の線形予測係数を計算
する手段と、前記第１の線形予測係数の前記誤差エネルギーと、前記
第２の線形予測係数の前記誤差エネルギーとを比較し、
前記誤差エネルギーの少ない方を選択する手段とを有す
ることを特徴とする音声最適化装置。