[go: up one dir, main page]

JP2003323200A - 音声符号化のための線形予測係数の勾配降下最適化 - Google Patents

音声符号化のための線形予測係数の勾配降下最適化

Info

Publication number
JP2003323200A
JP2003323200A JP2003125758A JP2003125758A JP2003323200A JP 2003323200 A JP2003323200 A JP 2003323200A JP 2003125758 A JP2003125758 A JP 2003125758A JP 2003125758 A JP2003125758 A JP 2003125758A JP 2003323200 A JP2003323200 A JP 2003323200A
Authority
JP
Japan
Prior art keywords
error
speech
gradient
coefficient
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003125758A
Other languages
English (en)
Other versions
JP4489371B2 (ja
JP2003323200A5 (ja
Inventor
Wai Chu
チュウ ワイ
Khosrow Lashkari
ラシュキャリ コズロウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Docomo Innovations Inc
Original Assignee
Docomo Communications Labs USA Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Docomo Communications Labs USA Inc filed Critical Docomo Communications Labs USA Inc
Publication of JP2003323200A publication Critical patent/JP2003323200A/ja
Publication of JP2003323200A5 publication Critical patent/JP2003323200A5/ja
Application granted granted Critical
Publication of JP4489371B2 publication Critical patent/JP4489371B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03HIMPEDANCE NETWORKS, e.g. RESONANT CIRCUITS; RESONATORS
    • H03H21/00Adaptive networks
    • H03H21/0012Digital adaptive filters
    • H03H2021/007Computation saving measures; Accelerating measures
    • H03H2021/0076Measures relating to the convergence time
    • H03H2021/0078Measures relating to the convergence time varying the step size

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

(57)【要約】 【課題】 より正確な音声を合成する音声符号化システ
ムを提供する 【解決手段】 線形予測に基づいた音声符号化システム
のための最適化アルゴリズムを提供する。この最適化ア
ルゴリズムにおいては、原音サンプルを使用して音声合
成多項式の第1の係数を計算して第1合成音声サンプル
を生成し、原音サンプルと第1合成音声サンプルとの間
の第1誤差を計算し、第1誤差の勾配を計算し、勾配を
使用して音声合成多項式の第2の係数を計算し、第2合
成音声サンプルを生成し、原音サンプルと第2合成音声
サンプルとの間の第2誤差を計算し、第2誤差が第1誤
差より小さい場合、第2の係数を選択し、第2誤差が第
1誤差より大きい場合第1の係数を選択することによ
り、原音サンプルと合成化音声サンプルとの間の誤差を
最小にする。また係数を解領域へと変更することなし
に、システム差分方程式から直接、最適な線形予測係数
が計算される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声符号化に関し、
特に線形予測係数の最適化に関する。
【0002】
【従来の技術】音声符号化(あるいは圧縮)と言う技術
は、データ送信のために音声をデジタルデータに符号化
する広く知られた技術である。符号化されたデータを受
信した受信者側は、その音声を再現する。デジタル化さ
れた音声データは符号化後、後に音声に復号されるまで
の間、様々なデジタル記録メディアに保存することが出
来る。
【0003】音声符号化システムは、他のアナログ符号
化システムおよびデジタル符号化システムとは異なって
いる。アナログ符号化システムおよびデジタル符号化シ
ステムでは、音声を高いビットレートでダイレクトサン
プリングして、サンプリングされた生データを受信機に
送信する。ダイレクトサンプリングシステムは、原音を
高品質に再現し、再現音質が重要な場合に好まれる。ダ
イレクトサンプリングシステムが使われている一般的な
例としては、アナログの音楽レコードやカセットテー
プ、またデジタルの音楽CDやDVDがある。ダイレク
トサンプリングシステムの欠点は、データを送信するの
に広い帯域幅が必要であり、またデータの保存にも大き
な記憶容量が必要なことである。これゆえ、原音からサ
ンプリングされた生の音声データを送信する典型的な符
号化システムでは、毎秒128000ビットものデータ
レートが必要となることがある。
【0004】これに対して、音声符号化システムは、人
間の音声発生の数学的モデルを使っている。発声モデル
化の基本的技術は当技術分野で知られており、アメリカ
音響協会の機関紙、1971年第50巻で、B・S・ア
タル(B・S・Atal)とスザンヌ・L・ハナー(Suzanne
・L・Hanauer)による「音声分析と音声波の線形予測に
よる合成(Speech Analysis and Synthesis by Linear
Prediction of the Speech Wave)」に説明されてい
る。音声符号化システムで使われる人間の音声発生のモ
デルは、普通ソース・フィルター・モデルと呼ばれてい
る。一般に、このモデルには、肺と声帯によって発生す
る空気の流れを表している励起信号と、声道(すなわち
声門、口、舌、鼻腔と唇)を表している合成フィルタが
含まれている。よって、肺と声帯が声道にパルス状の空
気の流れを発生させるように、励起信号は合成フィルタ
ーへの入力信号として働く。そして、声道が肺と声帯か
らの空気の流れに変更を加えるように、合成フィルター
が励起信号に変更を加える。この結果、出来上がった合
成音声は、ほぼ原音を表すようになる。
【0005】音声符号化システムの長所は、ダイレクト
サンプリングシステムと比べて、原音をデジタル化した
形で送信するのに必要な帯域幅が、ずっと小さくなり得
ることである。比べてみると、ダイレクトサンプリング
システムでは原音を表す生の音響データが送られている
のに対し、音声符号化システムでは、数学的な音声モデ
ルを再現するのに必要なわずかな量の制御データが送ら
れているだけである。結果として、典型的な音声符号化
システムを使えば、音声を送るのに必要な帯域幅をほぼ
毎秒2400〜8000ビットまで減らすことができ
る。
【0006】
【非特許文献1】アメリカ音響協会、機関誌、1971
年第50巻、B・S・アタル(B・S・Atal)とスザンヌ
・L・ハナー(Suzanne・L・Hanauer)による「音声分
析と音声波の線形予測による合成(Speech Analysis an
d Synthesis by Linear Prediction of the Speech Wav
e)」
【0007】
【発明が解決しようとする課題】音声符号化システムの
欠点の1つは、ダイレクトサンプリングシステムに比べ
て、再現された音声の質がかなり低いことがあると言う
ことである。多くの音声符号化システムでは、受信者が
正確に元の音声の内容を認知するのに十分な質は提供さ
れている。しかし、いくつかの音声符号化システムで
は、再現された音声は聞きやすくない。つまり、受信者
はもともと話された言葉を理解する事は出来るが、音声
の質が低かったり、不快であったりする。従って、より
正確な音声生成モデルを提供する音声符号化システムが
望まれている。
【0008】音声符号化システムの質を改善する1つの
方法として認知されているものが、ラシュキャリ(Lash
kari)等によるアメリカ特許出願09/800071号
に説明されている。簡単に説明すると、この解決法は、
原音サンプルと合成音声サンプルとの間の合成化誤差を
最小化する方法である。この音声符号化システムで分か
った難しい問題の1つは、合成化誤差がかなり非線形で
あるということである。このことで、この問題が数学的
に難しくなっている。この問題を解くこの難しさは、合
成フィルター多項式の解を、多項式の係数の代わりに使
うことで克服されている。よって、合成フィルター多項
式の解を探すための解最適化アルゴリズムが、そこで説
明されている。
【0009】上述の解法および当業者に知られている他
の最適化解法に関して解決されない問題は、原音をエン
コードするのに必要なコンピュータの処理能力が大きい
ことである。当業者なら分かるであろうが、原音を符号
化するのに使用される様々な計算式を計算するのに、音
声符号化システムでは、CPU(central processingun
it)やDSP(digital signal processor)を使う必要
がある。しばしば、携帯電話などの携帯ユニットで音声
符号化が行われる場合、CPUやDSPは内臓のバッテ
リから電気を得ている。よって、通常、音声符号化のた
めに利用可能な計算能力は、CPUやDSPまたはバッ
テリ容量によって制限をうけることとなる。この問題
は、どの音声符号化システムにおいても共通したもので
あるが、最適化アルゴリズムを使用するシステムにおい
て、特に重大である。概して、最適化アルゴリズムは、
通常の符号化アルゴリズムに加えて、追加の数式計算を
含めることで、より質の高い音声を提供することができ
る。しかしながら、非効率な最適化アルゴリズムでは、
CPUやDSPとして、値段が高く、計算能力があり、
大きなものが必要になってしまう。非効率な最適化アル
ゴリズムでは、バッテリも余計に使用し、バッテリライ
フが短くなってしまう。よって、音声符号化システムで
は、効率的な最適化アルゴリズムが望まれている。
【0010】
【課題を解決するための手段】本発明は、音声生成の数
学的モデルを最適化するためのアルゴリズムを提供す
る。この最適化アルゴリズムは、畳み込みを使用せず、
また係数を解領域に変換することなしに、合成フィルタ
多項式の係数を計算する。このように、係数の最適化に
関する計算効率が改善される。原音と合成音声との間の
誤差の勾配を使用して、係数がシステム差分方程式から
直接計算される。システムの不安定さをテストするため
に終結閾値が使用され、不安定であるとされた場合、最
適化アルゴリズムは止められ、最後の係数が返される。
【0011】
【発明の実施の形態】図を参照して説明する。図1に、
より正確に原音をモデル化するために合成誤差を最小化
する音声符号化システムを示す。図1には音声の合成に
よる分析(AbS(analysis-by-synthesis))システ
ムが示されている。このシステムは、普通ソース・フィ
ルター・モデルと呼ばれている。当技術分野でよく知ら
れているように、ソース・フィルター・モデルは、人間
の音声発生を数学的にモデル化する。このモデルで普通
使われる仮定では、音声を生成している人間の音声発生
メカニズムは、短い期間またはフレームで(例えば20
〜30msの分析フレーム)で、変化しないものとして
いる。更にまたこのモデルは、隣り合う期間の間に人間
の音声発生メカニズムは変化するものと仮定している。
このシステムでモデル化された物理的メカニズムには、
声帯、声門、口、舌、鼻腔そして唇によって起こされる
気圧変化が含まれている。よって、音声復号化器は、そ
のモデルを再現し、各期間用に制御データを少数セット
使用するだけで、原音を再生成する。このように、通常
の音声送信システムと異なり、原音の生サンプルデータ
は符号化器から復号化器へは送られない。この結果、送
信されたり、記憶されたりするするデジタル符号化され
たデータ(つまり、バンド幅やビット数)は、典型的な
ダイレクトサンプリングシステムが必要とするのよりず
っと少なくなる。
【0012】図1において、デジタル化された元の音声
10が励起モジュール12に送られている。励起モジュ
ール12は、この原音の各サンプルs(n)を解析し
て、励起関数u(n)を生成する。励起関数u(n)は
通常、連続したパルス信号であり、この連続したパルス
信号は、声帯によって声道に突発的に放出される肺から
の空気の流れを表している。原音サンプルs(n)の性
質によるが、励起関数u(n)は、有声音13か14か
無声音15かである。
【0013】音声符号化システムでの再生音質を改善す
る方法として、有声音の励起関数u(n)をより正確に
する方法がある。今まで、励起関数u(n)は、決まっ
たパルス間隔Pと大きさGを持つパルス列13であっ
た。当業者に知られている様に、この大きさGと間隔P
を隣り合う期間で変えるようにしてもよい。大きさGと
間隔Pが固定されている今までのものに比べて、励起パ
ルス14のパルスの大きさと間隔を変化させることで励
起関数u(n)を最適化すると、よりよい音声合成がな
されることが明らかにされている。この改良は、米国電
気電子技術者協会(IEEE)の音響、音声、信号処理
に関する国際会議(1982年、614頁〜617頁)
の、ビシュヌ・S・アタル(Bishnu・S・Atal)とジョ
エル・R・レムデ(Joel R. Remde)による、「低ビッ
トレートにおける自然な音声を生成するためのLPC励
起の新しいモデル(A New Model of LPC Excitation Fo
r Producing Natural-Sounding Speech At Low Bit Rat
es)」に説明されている。
【0014】この最適化技術では、原音s(n)を符号
化するための計算量が増えるが、最近のコンピュータは
励起関数u(n)の最適化に十分な計算能力があるの
で、重大な欠点ではない。この改良でのもっと重大な問
題は、可変励起パルス14のデータを送信するのに必要
な帯域幅が余計に必要であると言うことだ。この問題を
解決する方法として、米国電気電子技術者協会(IEE
E)の音響、音声、信号処理に関する国際会議(198
5年、937頁〜940頁)の、マンフレッド・R・シ
ュレッダー(Manfred R. Schroeder)とビシュヌ・S・
アタル(Bishnu・S・Atal)による「符号励起線形予測
化(CELP):低ビットレートにおける高品質音声(Code
-Excited Linear Prediction (CELP): High-Quality Sp
eech At Very Low Bit Rates)」に説明されている符号
化システムがある。
【0015】この解決法では、多くの最適化された関数
を分類して、関数ライブラリすなわちコードブックを作
成する。そして、符号化励起モジュール12は、原音s
(n)に最も近い合成音声を生成する最適化された励起
関数をコードブックから選択する。そして、コードブッ
ク内の最適な項目を特定するコードが復号化器に送られ
る。復号化器は送られてきたコードを受信し、対応する
コードブックにアクセスし、選択された最適な励起関数
u(n)を再生成する。
【0016】励起モジュール12は、無声音15の励起
関数u(n)も生成することが出来る。無声音15の励起
関数u(n)は、話者の声帯が開いて、突発的な空気の流
れが声道に起こされた時に使われる。多くの励起モジュ
ール12は、この状態をモデル化するのに、パルスでな
く白色ノイズ15(すなわちランダム信号)を有する励
起関数u(n)を生成する。
【0017】次に、合成フィルター16は、声道のモデ
ル化と、声帯からの空気の流れに対する、声道の効果の
モデル化を行う。普通は、合成フィルター16には、声
道の様々な形を表す多項式を使う。多項式のパラメータ
つまり係数は通常、入力音声信号を使用して見積もりが
なされる、また線形予測係数と呼ばれる。
【0018】上述のアタル(Atal)とレムデ(Remde)
によると、合成フィルター16は次の数式で表すことが
できる。
【数1】 ここで、Gは音声の大きさを表している利得項である
(簡潔のため、以降の式では利得項Gは省略する)。A
(z)はM次の多項式であり次の式で表される。
【数2】
【0019】多項式A(z)の次数は用途によって変わ
る。サンプリングレート8kHzの場合、10次の多項
式が通常使用される。合成フィルタ16で決定される合
成音声ss(n)と励起関数u(n)との関係は次の式
で定義される。
【数3】
【0020】ここで、表記「ss」は、本願の優先権主
張の基礎である米国特許出願においては「e」の上に
「∧」を載せた表記となっていたものであるが、本願明
細書においてそのような表記を用いることが困難であっ
たため、その代わりに採用されたものである。従って、
これ以降における表記「ss」は、実際には「e」の上
に「∧」を載せたものを表していると解されることを望
む次第である。
【0021】数3はシステム差分方程式とも呼ばれる。
通常、この多項式の係数a1…aMは、この分野で線形予
測符号化(LPC)として知られる技術を使って計算さ
れる。LPCに基づく技術では、トータル予測誤差Ep
を最小にすることにより、多項式の係数a1…aMを計算
する。これにより、サンプル予測誤差ep(n)が次の
式により定義される。
【数4】
【0022】トータル予測誤差Epは、次の式によって
定義される。
【数5】 ここで、Nはサンプルの数で表される分析フレームの長
さである。多項式の係数a1…aMは、よく知られた数学
的方法を用いて、トータル予測誤差Epを最小化するこ
とにより解くことが出来る。
【0023】多項式の係数a1…aMを計算するLPC技
術に関する問題の1つは、トータル予測誤差だけが最小
化されることである。このように、LPC技術では、原
音s(n)と合成音声ss(n)との間の誤差を最小化
していない。従って、サンプル合成誤差es(n)は次
の式で定義できる。
【数6】
【0024】トータル合成誤差Esは、合成誤差エネル
ギーJとも呼ばれるが、次の式で定義される。
【数7】 Nはサンプルの数で表される分析フレームの長さであ
る。上で述べたトータル予測誤差Epのように、合成誤
差エネルギーJは、最適フィルターの係数a1…a Mを計
算するために最小化されなければならない。しかしなが
ら、この技術の問題は、数3で表される合成音声ss
(n)によって、合成誤差エネルギーJがかなり非線形
な関数になり、数学的に扱うのが難しいことである。
【0025】最適化アルゴリズムの中には、この難しさ
を、係数a1…aMの代わりに、多項式A(z)の解を使
用することで避けているものもある。合成フィルタ16
の安定性に関して制御することができるが、この解決法
では、多くの計算能力を要求する。更に、解領域最適化
は、畳み込みに関連したインパルス応答に基づいた勾配
を通常計算する。畳み込みでは、先行する音声サンプル
の履歴を考慮することなしに、システムのゼロ状態応答
がわかるだけである。
【0026】他の最適化アルゴリズムと比較して、フィ
ルタ係数a1…aMを解領域に変換することなしに、フィ
ルタ係数a1…aMを最適化するため、合成誤差エネルギ
ーJの勾配が直接計算されるようにできる。よって、数
3、数6、数7を使用して、合成誤差エネルギーJの勾
配は次式で与えられる。
【数8】 ここでi=1〜Mである。数3を使用して、係数a1
Mに関する合成音声の勾配は、次式で表される。
【数9】 ここで、n=0〜N−1、かつi=1〜Mである。係数
1…aMは、長さNのフレームだけで有効であると仮定
される。このように、係数は、n=0〜N−1のみで存
在し、この間隔を外れたところでは、音声は、係数a1
…aMから独立している。
【0027】この最適化アルゴリズムの利点の1つは、
数9に示される合成音声の偏導関数が、回帰的な方法に
より効率よく計算できることである。従って、数9の偏
導関数は、以下の2次元配列で示される。
【数10】 ここで、n=0〜N−1、およびi=1〜Mである。配
列D[n,i]は、以下の繰り返しコードAを使用して計
算される。
【0028】
【0029】繰り返しコードAを使用して計算された偏
導関数を数8に代入すると、合成誤差エネルギーの勾配
を得ることができる。合成誤差エネルギーの勾配ベクト
ルは、次式で得ることができる。
【数11】 係数a1…aMのベクトルは、次式でも定義される。
【数12】 最適化係数は、次式を使用して計算できる。
【数13】 ここで、μは正の値を持ちステップサイズとして知られ
る。よって、係数の新たなベクトルは、勾配に対して負
の方向に移動することによって計算される。ステップサ
イズμの大きさは、最適化プロセスのスピードと安定性
とを変えるために、増やされたり減らされたりする。
【0030】最適化アルゴリズムで使用されるフローチ
ャートを図2と図3に示す。このフローチャートは、図
1の合成フィルタ16および合成フィルタ最適化部18
によって実行されるものである。図2に示すように、最
適化アルゴリズムへ入力されるのは、原音s、励起関数
u、線形予測係数a1…aM、そして合成フィルタのメモ
リである(ステップ22)。CalculateErrorEnergy関数
を呼び出して、数7を使用して、合成誤差エネルギーJ
が計算される(ステップ24)。変数OldErrorEnergy
が、次に初期化されて、合成誤差エネルギーJが代入さ
れる(ステップ24)。次に、CalculateGradient関数
を呼び出して、合成誤差エネルギーの勾配が、数8もし
くは繰り返しコードAを使用して計算される。
【0031】図3に示すGradientDescent関数を呼び出
すことで、変数ErrorEnergyが、計算される(ステップ
28)。変数ErrorEnergyは、更新された係数a1…aM
を使用した合成誤差エネルギーJを表している。それに
対し、変数OldErrorEnergyは、以前の係数a1...aM
を使った場合の合成誤差エネルギーを表している。次
に、ErrorEnergyは、OldErrorEnergyと比較される。こ
れは、合成誤差エネルギーJの変化が、終了閾値Termin
ation_Threshold以下であるかどうかを決定するもので
ある(ステップ30)。合成誤差エネルギーJの変化
が、終了閾値Termination_Threshold以下でない場合
は、OldErrorEnergyにErrorEnergyが代入され、合成誤
差エネルギーJの新たな勾配、新たな係数a1…aM、そ
して新たな合成誤差エネルギーJが、ステップ32、2
6、28で計算される。合成誤差エネルギーJの変化
が、終了閾値Termination_Threshold以下である場合、
最適化アルゴリズムは終了し、係数の修正された線形予
測値が返される(ステップ34)。
【0032】図3にGradientDescent関数を示す(ステ
ップ36)。GradientDescent関数は、CalculateErrorE
nergyを呼び出し、数7を使用して、合成誤差エネルギ
ーJを計算することで開始する(ステップ38)。変数
OldErrorEnergyに合成誤差エネルギーJが代入される
(ステップ38)。次に、合成誤差エネルギーJの勾配
ベクトルの大きさが計算され、変数Gノルムが割り当て
られる。また、係数a1...aMの大きさが計算され、
変数Aノルムが割り当てられる(ステップ40)。変数
Gノルム、Aノルム、および変数ステップサイズに割り
当てられた所定の値を使用して、適応ステップサイズμ
が計算される(ステップ42)。新たな線形予測係数a
newが、数13を使用して計算される(ステップ4
4)。次に合成誤差エネルギーJが、CalculateErrorEn
ergyを呼び出すことで、数7を使用して計算される(ス
テップ46)。次に変数ErrorEnergyに、合成誤差エネ
ルギーJが代入される(ステップ46)。次に、合成誤
差エネルギーJに増減があるかを調べるために、OldErr
orEnergyがErrorEnergyと比較される(ステップ4
8)。合成誤差エネルギーJが減少している場合、変数
OldErrorEnergyに変数ErrorEnergyが代入され、線形予
測係数a1...aMが新たな線形予測係数anewへと更
新される(ステップ50)。それから、新たな線形予測
係数anewと合成誤差エネルギーJが計算される(ステ
ップ44、46)。一方、合成誤差エネルギーJが増大
していた場合、GradientDescent関数は終了して、現在
の線形予測係数a1…aMとOldErrorEnergyが返される
(ステップ52)。
【0033】合成モデルが決定され、係数a1…aMが最
適化されたら、モデル化のための制御データが、送信又
は保存のために量子化されてデジタルデータへとなる。
量子化には業界で標準となっている方法が多くある。あ
る例では、量子化された制御データは、10つの合成フ
ィルタ係数a1…aM、励起パルスの大きさを表す利得値
Gを1つ、励起パルスの周波数のためのピッチ間隔を1
つ、有声13もしくは無声15の励起関数u(n)を示
す指示子を1つ、含んでいる。よって、この例では、各
音声フレームの最後で、13の異なる変数を送信する必
要がある。しかしながら、他の制御データを送るように
してもよい。例えば、CELPエンコーダにおいては、
使用する最適化励起関数u(n)を特定するコードブッ
クインデックスも送信される。通常CELPエンコーダ
では、制御データは、合計80ビットへと量子化され
る。この例では、最適化を算入した合成音声ss(n)
を、毎秒8000ビット(80ビット/フレーム÷0.
01秒/フレーム)のバンド幅で送ることができる。
【0034】エンコードに使用できるコンピュータの能
力によるが、合成化モデルをより正確にするために、追
加のエンコードシーケンスも可能である。これらのシー
ケンス例を、図1に点線で示してある。例えば、励起関
数u(n)は、合成モデルにおけるエンコードの間、様
々な段階で再最適化を行うことができる。更に、数式と
アルゴリズムは、特定のアプリケーションのために、変
更することもできる。
【0035】合成音声の主観的品質を更に改善する方法
として、聴覚重み付けを使用する方法がある。この場
合、合成誤差エネルギーJは、次式によって、聴覚重み
付けも使用して定義される。
【数14】 ここで、hw[n]は、聴覚重み付けフィルタのインパ
ルス応答である。数14に畳み込み処理を行うことで、
合成誤差エネルギーは次式になる。
【数15】
【0036】次に、数15を合成フィルタ係数a1…aM
に関して微分することにより、合成誤差エネルギーの偏
導関数は、以下の式になる。
【数16】 聴覚重み付け誤差も、次式で定義することができる。
【数17】 数10、数14、数16、数17、を使用して、合成誤
差エネルギーの偏導関数は、以下の式のようになる。
【数18】 したがって、最適化アルゴリズムは、数14を数7の代
わりに使い、更に数18を数8の代わりに使って、更に
改善される。
【0037】当業者に明らかなように、この最適化アル
ゴリズムは、合成フィルタ多項式A(z)を最適化する
のに必要な計算を著しく減らす。よって、エンコーダの
効率が著しく改善される。あるいはこの効率化を、合成
音声ss(n)の質を改善するのに使用することもでき
る。従来の最適化アルゴリズムを使用する場合、各サン
プルを合成音声にするのに必要な計算が多かった。しか
し、改善された最適化アルゴリズムは、解領域を使用す
ることなしに、合成誤差エネルギーJの勾配をシステム
差分方程式から直接計算することで、合成音声ss
(n)を計算するのに必要な計算量を減らしている。本
発明は、様々な音声エンコーダに適用することができる
が、ラシュキャリ等による米国特許出願09/8000
71号に記載の音声エンコーダに適用した場合は、すで
に性能の改善が認められている。
【0038】この最適化アルゴリズムは多くの利点を持
っている。例えば、解領域解決法が通常使う畳み込み
を、この最適化アルゴリズムは使用しないので、ゼロ状
態応答とゼロ入力応答とを含む、システムのトータル応
答も考慮されることになる。この最適化アルゴリズムは
また、各繰り返しにおいて、合成誤差エネルギーを所定
の終了閾値でテストすることで、不安定さの問題を避け
ている。よって、テスト結果が、システムが不安定であ
るとなった場合、最適化アルゴリズムは終了して、最後
に最適化された線形予測係数が使われる。適応ステップ
サイズも、最適化のスピードを改善するために使用され
る。更に、最適化アルゴリズムの計算効率を改善する反
復アルゴリズムを使用して、合成誤差エネルギーの勾配
を計算することもできる。この最適化アルゴリズムの他
の利点は、合成音声の質を更に改善するために、聴覚重
み付けを使うことができることである。
【0039】図4は、最適化アルゴリズムによる結果例
を示す図である。図4は、原音サンプル、G.729エ
ンコーダを使用した場合の合成音声、勾配降下最適化ア
ルゴリズムを使用したG.729エンコーダを使用した
場合の合成音声、それぞれの音声波形を示している。当
業者は理解するであろうが、このG.729エンコーダ
は、様々な音声エンコーダの質を比較するために、研究
者などに使用される標準化された音声エンコーダであ
る。図から分かるように、勾配降下最適化アルゴリズム
を使った場合の合成音声が、G.729エンコーダだけ
で生成された合成音声よりも、原音に一致している。
【0040】他のテスト結果では、最適化アルゴリズム
により良好になった質および効率が示されている。例え
ば、あるテストにおいて、最適化アルゴリズムの付属し
たものと付属していないG.729を使用して、男性と
女性の標準化された音声データを符号化した。10ミリ
秒毎に部分SN比(SSNR:segmental signal tonoi
se ratio measurements)を計測すると、G.729エ
ンコーダのみの場合、7.06dB SSNRであり、
解領域最適化アルゴリズム付属のG.729エンコーダ
を使用した場合、7.33dB SSNRとなり、説明
を行ってきた勾降下最適化アルゴリズム付属のG.72
9エンコーダでは、7.34dB SSNRとなった。
当業者には当然であるが、SSNR計測値が高いという
ことは通常、合成音声が良好な聴覚品質を有していると
いうことである。更に、勾配降下最適化アルゴリズムの
計算量は、解領域最適化アルゴリズムに比べて、およそ
20分の1〜30分の1である。このテストは聴覚重み
付けを使用せずに行った。聴覚重み付けを行うと、勾配
降下最適化アルゴリズムでは、部分信号対重み付けノイ
ズ比(SSWNR:segmental signal to weighted noi
se ratio)の計測値が14.19dB SSWNRとな
るが、普通のG.729エンコーダでは、14.04d
B SSWNRである。
【0041】本発明の好ましい実施形態をここに説明し
たが、本発明はこれに限定されず、本発明の趣旨から外
れずに変形することが可能である。本発明の範囲は、特
許請求の範囲によって決まるものであり、文言上でも均
等上でも特許請求の範囲内にある装置および方法は、本
発明に含まれるものである。
【0042】
【発明の効果】以上説明したように、本発明によれば、
より正確な合成音声を提供する音声符号化システムが提
供される。
【図面の簡単な説明】
【図1】 音声の合成による分析システムのブロック図
である。
【図2】 フィルタ係数のための最適化アルゴリズムの
フローチャートである。
【図3】 誤差勾配を見つけるための最適化アルゴリズ
ムで使用される、勾配降下関数のフローチャートであ
る。
【図4】 原音の波形と、G.729エンコーダを使用
した場合の合成音声の波形と、勾配降下最適化を行う
G.729エンコーダを使用した場合の合成音声の波形
とを比較している図である。
【符号の説明】
10……マイク、12……励起モジュール、16……合
成フィルタ、18……合成フィルタ最適化部、20……
制御データ量子化部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ワイ チュウ アメリカ合衆国、カリフォルニア州 95112、サンノゼ、1700、ノース・ファー スト・ストリート 130 (72)発明者 コズロウ ラシュキャリ アメリカ合衆国、カリフォルニア州 94539、フリーモント、1525、サラマンカ コート Fターム(参考) 5D045 CC02 DA02

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 合成音声を最適化する方法において、 原音サンプルを使用して音声合成多項式の第1の係数を
    計算して、第1合成音声サンプルを生成する過程と、 前記原音サンプルと前記第1合成音声サンプルとの間の
    第1誤差を計算する過程と、 前記第1誤差の勾配を計算する過程と前記勾配を使用し
    て前記音声合成多項式の第2の係数を計算し、第2合成
    音声サンプルを生成する過程と、 前記原音サンプルと前記第2合成音声サンプルとの間の
    第2誤差を計算する過程と、 前記第2誤差が前記第1誤差より小さい場合前記の第2
    の係数を選択し、前記第2誤差が前記第1誤差より大き
    い場合前記第1の係数を選択する過程とを有することを
    特徴とする方法。
  2. 【請求項2】 請求項1に記載の方法において、 前記勾配に適用されたステップサイズを使用して、前記
    第2の係数が繰り返し計算され、各繰り返しにおいて誤
    差が計算され、各繰り返しでの前記誤差が減少しなくな
    ったら繰り返しを終えることを特徴とする方法。
  3. 【請求項3】 請求項2に記載の方法において、 前記第2の誤差の勾配を計算する過程と、 前記第2の誤差の勾配を使用して、前記音声合成多項式
    の第3の係数を計算して、第3の合成音声サンプルを生
    成する過程とを更に有し、 前記第2の誤差勾配に適用されたステップサイズを使用
    して、前記第3の係数が繰り返し計算され、誤差が各繰
    り返しで計算され、各繰り返しでの誤差が減少しなくな
    ったら繰り返しを終えるものであり前記原音サンプルと
    前記第3の合成音声サンプルとの間の第3の誤差を計算
    する過程と、 システムの不安定さに関して前記第3の誤差をテスト
    し、前記テストにより不安定であるとされた場合、前記
    第2の係数を選択する過程とを更に有することを特徴と
    する方法。
  4. 【請求項4】 請求項1に記載の方法において、 前記勾配に適用されるものであり、前記勾配と前記第1
    の係数との関数である適用ステップサイズを使用して、
    前記第2の係数が計算されることを特徴とする方法。
  5. 【請求項5】 請求項1に記載の方法において、 システムの不安定さに関して、前記第2の誤差をテスト
    し、前記テスト結果が不安定であるとなった場合前記第
    1係数を選択するテスト過程を更に有することを特徴と
    する方法。
  6. 【請求項6】 請求項5に記載の方法において、 前記テスト過程は更に、 前記第2誤差と前記第1誤差との間の差を比較する過程
    と、 前記差が、終了閾値より大きいかどうかをテストする過
    程とを有することを特徴とする方法。
  7. 【請求項7】 請求項1に記載の方法において、 前記勾配を知覚重み付けする過程を更に有することを特
    徴とする方法。
  8. 【請求項8】 請求項1に記載の方法において、 前記勾配に適用されたステップサイズを使用して、前記
    第2の係数が繰り返し計算され、各繰り返しで誤差が計
    算され、前記誤差が各繰り返しで減少しなくなったら前
    記繰り返しを完了するものであり、 システムの不安定さに関し、前記第2の誤差をテスト
    し、前記テストにおいて不安定であるとされた場合、前
    記第1の係数を選択する過程を更に有し、前記勾配に聴
    覚重み付けを行う過程を更に有することを特徴とする方
    法。
  9. 【請求項9】 音声合成フィルタを生成する方法におい
    て、 第1合成音声を生成する過程と、 前記第1合成音声に基づいて、第1誤差エネルギーを計
    算する過程と、 前記第1誤差エネルギーに基づいて、誤差エネルギー勾
    配を計算する過程と、 前記誤差エネルギー勾配を使用して、第2合成音声を生
    成する過程と、 を有することを特徴とする方法。
  10. 【請求項10】 請求項9に記載の方法において、 前記誤差エネルギー勾配は、システム差分方程式から直
    接計算されることを特徴とする方法。
  11. 【請求項11】 請求項10に記載の方法において、 前記第2合成音声から最小第2誤差エネルギーを繰り返
    し検索することにより、前記第2合成音声が生成される
    ことを特徴とする方法。
  12. 【請求項12】 請求項11に記載の方法において、 前記誤差エネルギー勾配に適用され、かつ前記誤差エネ
    ルギー勾配と前記第1合成音声の関数である適応ステッ
    プサイズを使用して、前記第2合成音声が計算されるこ
    とを特徴とする方法。
  13. 【請求項13】 請求項11に記載の方法において、 システムの不安定性さに関して前記第2の合成音声をテ
    ストする過程と、 前記テストにより不安定であるとされた場合、前記第1
    の合成音声に戻って選択する過程とを更に有することを
    特徴とする方法。
  14. 【請求項14】 第1の線形予測係数を計算する過程
    と、 システム差分方程式から直接誤差エネルギー勾配を計算
    する過程と、 前記誤差エネルギー勾配から第2の線形予測係数を計算
    する過程と、 前記第1の線形予測係数の前記誤差エネルギーと、前記
    第2の線形予測係数の前記誤差エネルギーとを比較する
    過程と、 誤差エネルギーの少ない前記第1か第2の線形予測係数
    を選択する過程とを有することを特徴とする音声最適化
    方法。
  15. 【請求項15】 請求項14に記載の音声最適化方法に
    おいて、 システム不安定性さに関して、前記第2の線形予測係数
    をテストする過程を更に有することを特徴とする音声最
    適化方法。
  16. 【請求項16】 請求項15に記載の音声最適化方法に
    おいて、 前記第2の線形予測係数を適応的に計算する過程を更に
    有することを特徴とする音声最適化方法。
  17. 【請求項17】 請求項15に記載の音声最適化方法に
    おいて、 前記誤差エネルギー勾配に聴覚重み付けを行う過程を更
    に有することを特徴とする音声最適化方法。
  18. 【請求項18】 音声最適化装置において、 原音サンプルを使用して音声合成多項式の第1の線形予
    測係数を計算する手段と、 システム差分方程式から直接誤差エネルギー勾配を計算
    する手段と、 前記誤差エネルギー勾配から第2の線形予測係数を計算
    する手段と、 前記第1の線形予測係数の前記誤差エネルギーと、前記
    第2の線形予測係数の前記誤差エネルギーとを比較し、
    前記誤差エネルギーの少ない方を選択する手段とを有す
    ることを特徴とする音声最適化装置。
JP2003125758A 2002-04-29 2003-04-30 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置 Expired - Lifetime JP4489371B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/134,281 US7200552B2 (en) 2002-04-29 2002-04-29 Gradient descent optimization of linear prediction coefficients for speech coders
US10/134281 2002-04-29

Publications (3)

Publication Number Publication Date
JP2003323200A true JP2003323200A (ja) 2003-11-14
JP2003323200A5 JP2003323200A5 (ja) 2006-06-15
JP4489371B2 JP4489371B2 (ja) 2010-06-23

Family

ID=29215626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003125758A Expired - Lifetime JP4489371B2 (ja) 2002-04-29 2003-04-30 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置

Country Status (3)

Country Link
US (1) US7200552B2 (ja)
EP (2) EP1727129A2 (ja)
JP (1) JP4489371B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210440A1 (en) * 2002-11-01 2004-10-21 Khosrow Lashkari Efficient implementation for joint optimization of excitation and model parameters with a general excitation function
US7746924B2 (en) * 2006-05-09 2010-06-29 Hewlett-Packard Development Company, L.P. Determination of filter weights
GB0703795D0 (en) 2007-02-27 2007-04-04 Sepura Ltd Speech encoding and decoding in communications systems
EP2319182A2 (en) * 2008-07-28 2011-05-11 Nxp B.V. A method to linearize the output from an adc

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111299A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声信号特徴抽出回路
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
JP2002073097A (ja) * 2000-08-31 2002-03-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP2002328692A (ja) * 2001-03-06 2002-11-15 Docomo Communications Laboratories Usa Inc パラメトリック音声符号化器における励起とモデルの合同最適化

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4989170A (en) * 1988-06-09 1991-01-29 National Semiconductor Corporation Hybrid stochastic gradient for convergence of adaptive filter
US5058047A (en) * 1989-05-30 1991-10-15 Advanced Micro Devices, Inc. System and method for providing digital filter coefficients
US5822721A (en) * 1995-12-22 1998-10-13 Iterated Systems, Inc. Method and apparatus for fractal-excited linear predictive coding of digital signals
US5906644A (en) * 1996-08-30 1999-05-25 Powell; Douglas Hunter Adjustable modular orthopedic implant

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62111299A (ja) * 1985-11-08 1987-05-22 松下電器産業株式会社 音声信号特徴抽出回路
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
JP2002073097A (ja) * 2000-08-31 2002-03-12 Matsushita Electric Ind Co Ltd Celp型音声符号化装置とcelp型音声復号化装置及び音声符号化方法と音声復号化方法
JP2002328692A (ja) * 2001-03-06 2002-11-15 Docomo Communications Laboratories Usa Inc パラメトリック音声符号化器における励起とモデルの合同最適化

Also Published As

Publication number Publication date
EP1359567A1 (en) 2003-11-05
JP4489371B2 (ja) 2010-06-23
US20030204402A1 (en) 2003-10-30
US7200552B2 (en) 2007-04-03
EP1727129A2 (en) 2006-11-29

Similar Documents

Publication Publication Date Title
JP5373217B2 (ja) 可変レートスピーチ符号化
TW497335B (en) Method and apparatus for variable rate coding of speech
JP4550289B2 (ja) Celp符号変換
RU2257556C2 (ru) Квантование коэффициентов усиления для речевого кодера линейного прогнозирования с кодовым возбуждением
JP4824167B2 (ja) 周期的スピーチコーディング
JP4005359B2 (ja) 音声符号化及び音声復号化装置
JP2002268686A (ja) 音声符号化装置及び音声復号化装置
JP2645465B2 (ja) 低遅延低ビツトレート音声コーダ
JP4489371B2 (ja) 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH0782360B2 (ja) 音声分析合成方法
JP3417362B2 (ja) 音声信号復号方法及び音声信号符号化復号方法
JP3481027B2 (ja) 音声符号化装置
Kroon Time-domain coding of (near) toll quality speech at rates below 16 kb/s
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP3089967B2 (ja) 音声符号化装置
JP2005099825A (ja) パラメトリック音声符号化器における励起とモデルの合同最適化
JP3192051B2 (ja) 音声符号化装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
EP1326236B1 (en) Efficient implementation of joint optimization of excitation and model parameters in multipulse speech coders
JP3984021B2 (ja) 音声/音響信号の符号化方法及び電子装置
JPH10107641A (ja) 聴覚特性を利用した音声符号化方法、ゲイン制御方法およびゲイン符号化/復号化方法
Yuan The weighted sum of the line spectrum pair for noisy speech
JPH01258000A (ja) 音声信号符号化復号化方法並びに音声信号符号化装置及び音声信号復号化装置
JPH0455899A (ja) 音声信号符号化方式

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20051130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100330

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100331

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4489371

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term