JP3576800B2 - 音声分析方法、及びプログラム記録媒体 - Google Patents
音声分析方法、及びプログラム記録媒体 Download PDFInfo
- Publication number
- JP3576800B2 JP3576800B2 JP9359198A JP9359198A JP3576800B2 JP 3576800 B2 JP3576800 B2 JP 3576800B2 JP 9359198 A JP9359198 A JP 9359198A JP 9359198 A JP9359198 A JP 9359198A JP 3576800 B2 JP3576800 B2 JP 3576800B2
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- peak
- waveform
- information
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Description
【発明の属する技術分野】
本発明は、音声のピッチやパワーなどの詳細な分析、およびそれらを用いた高品質な音声合成や、高能率での音声の圧縮符号化などの方法、及び媒体に関するものである。
【0002】
【従来の技術】
音声合成システムは任意の内容を音声波形として合成することが目的であり、そのために様々な方式が考案されている。その中でも代表的な方式は、音声波形を細かな単位で記憶しておき(音声素片と呼ぶ)、目的の内容に合わせて適切なものを選び出して接続する波形編集合成方式である。
【0003】
このような音声合成方法においては、音声素片に対してそのピッチや時間長を変形することによって互いの接続による不連続感や違和感を軽減し、なめらかな音声を合成することが行われる。ピッチや時間長の変形手法としては例えばPSOLA(Pitch Synchronous Overlap Add)法(F. Charpentier, M. Stella, ”Diphone synthesis using an over−lapped technique for speech waveforms concatenation”, Proc. ICASSP, 2015−2018, Tokyo, 1986)が知られている。これは、あらかじめ音声素片の波形のローカルピーク位置や声門閉鎖点にピッチマークを付与しておき、その位置を中心に窓関数でピッチ波形を切り出し合成を行う。 上述したように、音声合成方法で必要となるピッチマークの付与方法としては、時間波形上のローカルピークにマークを付与する方法や声門閉鎖点にマークを付与する方法がある。
【0004】
時間波形上のローカルピークにマークを付与する方法の例としては、河合他:“波形素片接続型音声合成システムのための波形素片データベースの作成”, 日本音響学会講演論文集, 3−5−5, 1994−11がある。この方法は簡易なことが利点であるが、高域成分の多い複雑な音声波形などの場合は1ピッチ周期毎に一つのピッチマークを付与することが難しく、またピーク自身も高域成分によって位相的に揺らぎを有する。その結果、合成波形もピッチ周期毎に前後に揺らぎを伴い、このことが聴感上濁った音声を生むという問題がある。
【0005】
一方、音声波形の声門閉鎖点をピッチマークとする方法としては、阪本他:“波形重畳法を用いた日本語テキスト音声合成システム”, 電子情報通信学会技術報告, SP95−6, 1995−05や、新居他:“音声信号モデルを用いたピッチ波形抽出位置の検討”, 日本音響学会講演論文集, 1−4−22, 1995−3がある。これらの方法では、音声波形をウェーブレット変換や線形予測分析を用いて分析することによって声門閉鎖タイミングを推定し、その位置をピッチマークとする。声門閉鎖点の抽出による方法は1ピッチ周期に一つのピッチマークが正しく付与できるという利点があり、波形の切り出しの観点からもその方法は声門閉鎖パルスに対する応答波形を切り出すことに相当するため、スペクトル歪みの少ない良好なピッチ波形を切り出すことができる。しかし、この方法では声門閉鎖点の推定の分析手法が複雑であるという問題がある。
【0006】
また、これらとは別に適応的に音声のピッチ周波数付近を通過帯域とするFIR直線位相型バンドパスフィルタでフィルタリングする事により音声の基本波を抽出し、そのゼロクロス位置を利用して音声波形を1ピッチ周期ごとに区分化するという技術がある。大村他:“基本波フィルタリング法による精細ピッチパターンの抽出”, 日本音響学会誌, 51巻, 7号, pp.509−518, 1995がその例である。これは精細なピッチ分析を目的としたものであるが、基本波に同期してピッチ周期が求められる方法である。
【0007】
しかし、上記の方法によって抽出される区分点は音声波形のローカルピークや声門閉鎖点とは直接の関係が無く、そのままでピッチマークとして利用するには不適切な場合もある。
【0008】
【発明が解決しようとする課題】
以上説明したように、時間波形上のローカルピークをピッチマークとする方法は、時間波形のピーク付近の揺らぎがピッチマークに含まれるために合成音に濁りを発生するという問題があり、声門閉鎖点をピッチマークとする方法には声門閉鎖点の推定の処理が複雑であるという課題がある。また、これまで基本波をフィルタリングする方法では、ピッチマークに利用できる適切なタイミングを抽出することができないという課題を有していた。
【0009】
本発明は、従来のこのような課題を考慮し、比較的簡単な方法で従来に比べてより適切にピッチマークが付与できる音声分析方法を提供することを目的とする。
【0010】
【課題を解決するための手段】
第1の本発明は、音声波形を記憶する音声波形記憶手段と、ピッチを分析するピッチ分析手段と、あらゆる周波数に対して実質的に遅延量が0である適応型フィルタと、ピークを検出するピーク検出手段と、を用いて音声波形のピッチ周期に対応する時間的基準位置であるピッチマーク情報を生成する音声分析方法であって、
前記音声波形記憶手段を用いて前記音声波形の一部を一時的に記憶し、
前記ピッチ分析手段を用いて前記一時的に記憶された音声波形の大まかなピッチ情報を生成し、
前記適応型フィルタへ前記一時的に記憶された音声波形を入力させ、前記大まかなピッチ情報に基づいて、前記適応型フィルタの遮断周波数あるいは中心周波数を変化させることによって、その入力された音声波形から基本波のみを通過させ、
前記ピーク検出手段は、前記基本波における片側の複数の極大点を、前記基本波の差分をとった差分基本波の値が正から負または負から正に変化する点の前後の値から直線補間により推定された0交差位置として検出することにより、音声波形全体に対する一連の正確なピッチマーク情報を生成することを特徴とする音声分析方法である。
又、第2の本発明は、上記ピッチ分析手段は、あらゆる周波数に対して実質的に遅延量が0である固定型低域フィルタ及び、ピークを検出する固定型低域フィルタ用ピーク検出手段を有するピーク検出チャンネルの複数組と、前記ピーク検出チャンネルを選択するためのチャンネル選択手段とを有し、
前記複数の固定型低域フィルタのうちの少なくとも一つの固定型低域フィルタは、入力されてくる音声波形の基本波のみを通過させるように設定されており、
前記それぞれの固定型低域フィルタは、入力された音声波形の所定の周波数以下の成分である低域成分波形を出力し、
前記固定型低域フィルタ用ピーク検出手段は、対応した前記固定型低域フィルタから出力された前記低域成分波形における片側の複数の極大点を、前記低域成分波形の差分をとった差分低域成分波形の値が正から負または負から正に変化する点を検出してピーク情報として出力し、
前記チャンネル選択手段は、前記複数のピーク検出チャンネルから出力されたピーク情報の全部又は一部を利用して、所定の時間間隔ごとに所定の選択基準に基づいて、ピーク検出チャンネルを選択し、
前記選択されたピーク検出チャンネルから出力されたピーク情報は、前記音声波形の大まかなピッチ情報として前記ピッチ分析手段から前記適応型フィルタに出力される上記第1の本発明の音声分析方法である。
【0011】
又、第3の本発明は、あらゆる周波数に対して実質的に遅延量が0である固定型低域フィルタ及び、ピークを検出するピーク検出手段を有するピーク検出チャンネルの複数組と、チャンネルを選択するためのチャンネル選択手段とを用いて、音声波形のピッチ周期に対応する時間的基準位置であるピッチマーク情報を生成する音声分析方法であって、
前記複数の固定型低域フィルタのそれぞれの遮断周波数は、それら複数の固定型低域フィルタのうちの少なくとも一つの固定型低域フィルタが、入力されてくる音声波形の基本波のみを通過させるように設定されており、
前記それぞれの固定型低域フィルタを用いて、入力された音声の所定の周波数以下の成分である低域成分波形を出力し、
前記ピーク検出手段は、前記固定型低域フィルタから出力された前記低域成分波形における片側の複数の極大点を、前記低域成分波形の差分をとった差分低域成分波形の値が正から負または負から正に変化する点の前後の値から直線補間により推定された0交差位置として検出してピーク情報として出力し、
前記チャンネル選択手段により、前記複数のピーク検出チャンネルから出力されたピーク情報の全部又は一部を利用して、所定の時間間隔ごとに所定の選択基準に基づいて、ピーク検出チャンネルを選択し、
前記選択されたピーク検出チャンネルから出力されたピーク情報を利用して、音声波形全体に対する一連のピッチマーク情報を生成することを特徴とする音声分析方法である。
又本発明は、上記本発明の音声分析方法の各ステップをコンピュータにより実行させるためのプログラムを記録したことを特徴とするプログラム記録媒体である。
【0012】
又、本発明に関連する他の発明は、あらかじめ録音された音声波形である目的音声波形を分析して音韻系列情報、音韻タイミング情報、ピッチ情報、振幅情報を作成しておき、
前記音韻系列情報、音韻タイミング情報、ピッチ情報、振幅情報に基づいて音声を合成する音声合成方法であって、
前記音韻系列情報は前記目的音声波形に含まれる音韻の種別とその出現順序を保持し、
前記ピッチ情報は前記目的音声波形の所定のタイミングごとのピッチに関する情報を保持し、
前記振幅情報は前記目的音声波形の所定のタイミングごとの振幅に関する情報を保持することを特徴とする音声合成方法である。
【0013】
又、本発明に関連する他の発明は、自然音声による定型メッセージと、音声合成による合成メッセージとを組み合わせることにより所定のメッセージを生成する音声合成方法において、
前記自然音声に対応するピッチマーク情報があらかじめ付与されており、
前記定型メッセージと前記合成メッセージとの少なくとも接続部においては、前記合成メッセージの音声合成に用いる音声波形のピッチ波形を前記ピッチマーク情報に基づいて配置することにより、前記定型メッセージと同じ内容の音声を合成メッセージとして合成し、
それら同じ内容の双方の音声のそれぞれの混合比率を時間的に変化させ、 前記接続部において重ね合わせる、
ことを特徴とする音声合成方法である。
【0014】
又、本発明に関連する他の発明は、第1のメッセージと第2のメッセージとを組み合わせることにより所定のメッセージを生成する音声合成方法において、
前記第1のメッセージの種類毎にあらかじめ録音されている自然音声に対応するピッチマーク情報に基づいて、第1のメッセージの合成に用いる音声波形のピッチ波形を配置することにより、前記第1のメッセージを生成し、
前記第1のメッセージと前記第2のメッセージとの少なくとも接続部においては、
前記第1のメッセージと同じ内容の音声を前記第2のメッセージとして合成し、それら同じ内容の双方の音声のそれぞれの混合比率を時間的に変化させ、前記接続部において重ね合わせる、
ことを特徴とする音声合成方法である。
【0016】
又、本発明に関連する他の発明は、上記本発明に関連する他の発明の音声分析方法の各ステップをコンピュータにより実行させるためのプログラムを記録したことを特徴とするプログラム記録媒体である。
【0017】
上記構成により、例えば、ローカルピーク検出の対象が正弦波状の波形であるためにピッチ周期に対応した区分点の抽出を容易にし、さらにゼロクロスではなくピーク位置を区分点として抽出することにより、ほぼ音声波形のローカルピーク及び声門閉鎖点に一致した位置にピッチマークを付与することができる。
【0018】
【発明の実施の形態】
以下に本発明の音声分析方法にかかるピッチマーク付与方法について詳しく説明する。
(実施の形態1)
図1は本発明の音声分析方法にかかるピッチマーク付与方法の第1の実施の形態を示す構成図である。
【0019】
本実施の形態のピッチマーク付与方法を実現するための構成は、波形記憶部1001、ピッチ分析部1002、適応型低域フィルタ1003、ピーク検出部1004からなる。又、音声波形の入力は波形記憶部1001に、波形記憶部1001の出力はピッチ分析部1002と適応型低域フィルタ1003に並列に接続されている。また、ピッチ分析部1002の出力は適応型低域フィルタ1003に接続されている。適応型低域フィルタ1003の出力はピーク検出部1004に接続されている。さらに、極性判定部1005は波形記憶部1001に接続されているとともに、極性判定部1005とピーク検出部1004は互いに情報が交換できるように接続されている。
【0020】
上記のように構成されたピッチマーク付与方法の動作について、以下に詳しく説明する。
【0021】
波形記憶部1001は入力された音声波形の一部または全部を一時的に記憶する。ピッチ分析部1002は波形記憶部1001から音声波形の一部を受け取り、ピッチ分析を行う。ここでのピッチ分析手法には一般に知られているものを使用することができる。例えばM.J.Ross et al., ”Average Magnitude Difference Function Pitch Extractor”, IEEE transactions, Vol. ASSp−22, No. 5, 1974などがその例である。
【0022】
ピッチ分析結果はピッチ情報として適応型低域フィルタ1003に出力される。適応型低域フィルタ1003はピッチ情報を元に遮断周波数を設定し、音声を処理することにより、音声波形の高調波成分を除去した基本波を抽出する。遮断周波数にピッチ周波数の1.2倍程度の周波数を用いることでこの動作が実現する。 適応型低域フィルタ1003にはFIR直線位相型フィルタが適している。このタイプのフィルタはあらゆる周波数に対して遅延時間が一定であるため、その出力を一定量シフトすることによって実質的に遅延が0であると考えることができる。
【0023】
図5に音声波形と、それを適応型低域フィルタ1003で処理した基本波の一例を示す。(a)が音声波形、(b)が基本波である。この図(a)のように音声波形は高調波のために複雑な波形であるが、基本波は図(b)のように正弦波状の単純な波形である。
【0024】
次に、ピーク検出部1004が基本波の周期に対応するピークを検出する。その動作を図6を用いて説明する。ピーク検出部1003は基本波の振幅に応じて適当なしきい値を設定する。次に、しきい値を超えた範囲をピーク検出範囲とする。最後に、その範囲内での最大点をピークとして検出する。上記のピーク検出範囲は自動的にピッチ周期ごとに得られるため、検出されるピークもピッチ周期ごとに得られる。
【0025】
また、上記のやり方とは別の方法もある。その動作を図7を用いて説明する。図7の上の波形は基本波であり、下の波形は差分基本波である。差分基本波とは基本波の差分(あるサンプルから直前のサンプルを差し引くことによって波形の変化量を表したもの)をとったものであり、アナログ波形では微分に相当する操作である。
【0026】
基本波は正弦波状の波形であるため、差分基本波は基本波の位相を90度進めたものとなる。従って、基本波のピークは差分基本波のゼロクロス位置となる。ピーク検出の対象が正方向のピークであれば、差分基本波の値が正から負に変化する点が検出位置となる。この方法はしきい値を設定する必要がないので非常に微弱な基本波に対しても高感度にピーク検出ができる利点がある。
【0027】
さらに、ディジタルデータとしての差分基本波のゼロクロス位置を、高精細に推定することにより、従来1サンプル単位の精度でしか得られなかったピーク位置を、1サンプルより細かい任意の精度で検出することも可能である。差分基本波は正弦波状の波形であるため、ゼロクロス付近の波形は直線で近似することができる。そこで図8に示すように、差分基本波のゼロクロス位置をはさむ符号の異なる二つのデータを直線補間する事によって、精度の高いゼロクロス位置を推定できる。
【0028】
このようにして得られたゼロクロス位置をピッチマーク情報として利用することができる。
【0029】
さて、ピーク検出の対象とするピークの極性には正と負の二つが考えられる。一般にどちらか一方の極性のピークが音声波形のピークとの一致度が高い。図9は音声波形と基本波の例である。この図で、実線は基本波の正のピーク、波線は基本波の負のピークである。負のピークは音声波形の急峻な変化点にほぼ一致しているが、正のピークはどのような変化点やピークとも一致していない。
【0030】
このような場合は基本波の負のピークが声門閉鎖タイミングを近似していると考えられる。そこで、ピーク極性としては正負両方の極性のピークを抽出し、それらを音声波形と照合することにより、抽出されたピーク位置での音声波形の値が大きくなる方をピッチマークとして選び出せばよい。また、その照合は音声波形全体に渡って行う必要はなく、一部の短い区間で判定して差し支えない。そこで、極性判定部1005は音声の一部の区間に対してピーク検出部1004の二つの極性の出力を受け取り、波形記憶部1001に記憶された波形と照合することで、その音声全体の極性を判定する。以降、ピーク検出部1004は判定された極性のピークのみを対称として検出を行う。
【0031】
前述したように、基本波のいずれかのピークが声門閉鎖タイミングを近似すると考えられるが、その考え方を以下に説明する。
【0032】
音声波形がある時刻の近傍において(数1)のように表される場合、その基本波成分は(数2)のように表すことができる。
【0033】
【数1】
【0034】
【数2】
【0035】
一方、音声波形は駆動音源g(n)と声道伝達関数によってモデル化が可能である。駆動音源は声門閉鎖によって発生するパルスであり、g(n)は(数3)のようにインパルス列で近似することが出来る。インパルス列は各高調波成分の位相が全て0であるという特徴を持つ。すなわち、駆動音源波形g(n)は(数4)のように表すことが出来る。従って、基本波成分は(数5)となる。従って、基本波成分のピーク位置と駆動音源g(n)のインパルスの位置は一致する。つまりピーク位置と声門閉鎖とが一致する。
【0036】
【数3】
【0037】
【数4】
【0038】
【数5】
【0039】
なお、実際には駆動音源がインパルスではないことや、声道伝達関数の遅延や、あるいは口唇から放射された後の伝搬路の伝達特性を考慮に入れなくてはならないため、基本波成分のピークをそのままピッチマークとして用いることが出来ない場合もある。そこで、前後にシフトしながら音声素片波形との照合を行うことによってより適切なピッチマークを決定する。そのような方法については本発明の第4の実施の形態におけるピッチマーク付与方法の説明で述べる。
【0040】
さらにまた、口唇からマイクロホンの距離が遠い場合など、伝搬路の伝達特性がピッチ周波数近辺で大きな位相歪みを持っている場合、通信路の位相等価に用いられるいわゆるオールパス回路を用いることも有効な方法と考えられる。口唇からマイクロホンの間の空間の伝達特性は近似的に高域通過特性であると考えられるので、ピッチ周波数近辺の低い周波数帯では位相が進む特性となる。そこで、その近辺の周波数で遅延を持つオールパス回路を用いることにより位相を補償し、正確な声門閉鎖点の推定が可能になると考えられる。
【0041】
以上述べたように、本実施の形態のピッチマーク付与方法を用いれば、簡単な処理でピッチ周期に対応した時間的基準位置であるピッチマークを付与することができる。また、基本波成分のピーク検出において、差分基本波のゼロクロス位置を直線補間する事によって高精細なピッチマーク情報を生成することが可能である。従って、本実施の形態のピッチマーク付与方法はそれ自身高精細なピッチ分析法と位置づけることもできる。
【0042】
ところで、本実施の形態は、ピッチ分析部1002を用いるが、そのピッチ分析部1002においては予備的なピッチ分析をある程度正確に行う必要があるといえる。もし、ピッチ分析部1002の出力するピッチ情報に誤りがあると、適応型低域フィルタ1003は基本波も遮断してしまうことや、高調波も通過させてしまうことがある。このようなピッチ分析の誤りは出来るだけ避けることが望ましい。
【0043】
このような問題を考慮して、低域フィルタとピーク検出という基本構成を複数組用いることによって、上述した予備的なピッチ分析を不要にする方法を次に示す。
(実施の形態2)
図2は本発明のピッチマーク付与方法の第2の実施の形態の構成図である。
【0044】
本実施の形態のピッチマーク付与方法に用いる構造は、固定型低域フィルタ2001−a〜d、ピーク検出部2002−a〜d、チャンネル選択部2003からなり、入力は固定型低域フィルタ2001−a〜dに並列に接続されている。固定型低域フィルタ2001−aの出力はピーク検出部2002−aに、固定型低域フィルタ2001−bの出力はピーク検出部2002−bに、というようにそれぞれ一対一に接続されている。ピーク検出部2002−a〜dの出力はチャンネル選択部2003の複数の入力に接続されている。
【0045】
固定型低域フィルタ2001とピーク検出部2002の対からなる部分をピーク検出チャンネルまたは単にチャンネルと呼び、固定型低域フィルタ2002−aとピーク検出部2002−aからなるチャンネルをピーク検出チャンネルAまたは単にチャンネルAなどと呼ぶことにする。他の対も同様にピーク検出チャンネルB,C,Dと呼ぶ。
【0046】
上記のように構成されたピッチマーク付与のための構成について以下に詳しく説明する。
【0047】
固定型低域フィルタ2001−a〜dには共通の音声波形が入力される。固定型低域フィルタ2001−a〜dの遮断周波数はそれぞれ71Hz、141Hz、283Hz、566Hzに固定されている。このようにフィルタを構成することによって、上記4つの固定型低域フィルタ2001−a〜dのうちの一つが必ず基本波のみを通過させる。これは入力される音声のピッチが36Hz〜566Hzの範囲にある限り成立する。
【0048】
遮断周波数が実際のピッチよりも高いチャンネルでは、固定型低域フィルタ2001は高調波も同時に通過させるため、ピーク検出部2002ではピッチ周期よりも短い間隔の多数のピークが検出される。逆に、遮断周波数が実際のピッチよりも低いチャンネルでは、固定型低域フィルタ2001は基本波も含めてすべての成分を遮断し、ピーク検出部2002には何ら信号が入力されず、ピークは全く検出されない。
【0049】
上記のような各チャンネルからの、多数のピークの存在やピーク不存在などのピーク情報を利用して チャンネル選択部2003がチャンネルを単位時間ごとに適応的に選択する。このようにして、予備的なピッチ分析が不要なピッチマーク付与方法が実現する。
【0050】
以下にチャンネル選択部2003の動作原理について説明する。
【0051】
図10はある音声のチャンネルC(遮断周波数283Hz)およびチャンネルD(遮断周波数566Hz)の出力を示している。横軸はピーク検出部2002−bが出力したピークの位置(単位はミリ秒)、 縦軸は各ピークから次のピークまでの時間的間隔をTp(単位は秒)とした場合、1/Tp(単位はHz)を表したものである。このピーク情報を仮のピッチマーク情報と見なすと、縦軸は仮のピッチ周波数と見なすことができる。この音声データは60ミリ秒から390ミリ秒の区間に有声音声が存在している。同図で60ミリ秒から230ミリ秒にかけてチャンネルDの仮のピッチ周波数は低下している。しかし、230ミリ秒を越えると急激に仮のピッチ周波数は上昇し、それ以降は激しく上下を繰り返している。一方、チャンネルCはそのような領域でもなめらかに仮のピッチ周波数が低下し続けている。
【0052】
この理由は、230ミリ秒以降は音声の真のピッチ周波数が230Hzを下回るために、チャンネルDの固定型低域フィルタ2001−dの出力は基本波ではなく高調波を含んだものとなり、1ピッチ周期内に複数のピークを持つようになるためである。しかも、1ピッチ周期内の複数のピークは間隔が一様ではなく、高調波同士の位相や振幅の関係で極めて複雑な変化をする。
【0053】
このように、高調波を含んだチャンネルの出力は、仮のピッチマークから求められた仮のピッチ周波数の変化の激しさを検出することで判断できる。
【0054】
そこで、チャンネル選択部2003は単位時間ごとにその前後二つの仮のピッチ周波数を比較し、(数6)で表される変化率A(n)が最小であるチャンネルを選択する。
【0055】
【数6】
【0056】
(数6)において、p(n)はある時刻の直前にあるピッチマーク位置を表し、p(n+1)とp(n+2)はそれぞれその直後および二つ後のピッチマーク位置である。
【0057】
また、より正確な判断を行うためにこの選択アルゴリズムは様々な形式が考えられる。例えば、(数7)のようにA(n)とA(n−1)とA(n+1)の分散V(n)を計算し、それを最小にするチャンネルを選択することも有効である。これは、高調波を含むチャンネルの仮のピッチ周波数がなめらかな変化をせず、上下を繰り返す特性を利用したものである。
【0058】
【数7】
【0059】
このようにしてチャンネル選択部2003が逐次チャンネルを選択することにより、図11のようななめらかな曲線を抽出することができる。同図で横軸は時間(単位はミリ秒)、縦軸は逐次選択されたチャンネルのピッチマーク情報から計算されたピッチ周波数(単位はHz)である。
【0060】
なお、ここでは説明の都合上チャンネルを4つとしたが、それ以外のチャンネル数を用いてももちろんかまわない。例えば、入力される音声が非常に低いと分かっている場合は低い周波数のチャンネルを設けることが望ましい。その代わり、高い周波数のチャンネルが省略できる場合もあり得る。また、チャンネル間の遮断周波数の関係を順に2倍になるようにしたが、これより狭い間隔で配置することももちろんかまわない。そうすることによって、常に複数のチャンネルが基本波のみを通過させることになり、隣接するチャンネルなら信頼性が高く、チャンネル選択の信頼性が一層高まる。
【0061】
以上説明したように、本実施の形態のピッチマーク付与方法を用いることで、予備的なピッチ分析をいっさい行わずに適切なピッチマーク付与が可能となる。
【0062】
ところで、この実施の形態2のピッチマーク付与方法は異なるチャンネルからのピッチマーク情報をつなぎ合わせて一つのピッチマーク情報とするために、そのつなぎ目で若干の不規則さが発生する可能性がある。
【0063】
そこで、本実施の形態2のピッチマーク付与方法を一種のピッチ分析法と考え、ピッチマーク情報を一旦ピッチ情報に変換した上で改めで適応型低域フィルタを制御することで一連のピッチマーク情報を正確に作り直すことができる。そのような内容の実施の形態について次に説明する。
(実施の形態3)
図3は本発明の第3の実施の形態のピッチマーク付与方法の構成図である。
【0064】
本実施の形態のピッチマーク付与方法は波形記憶部3001、固定型低域フィルタ3002−a〜d、ピーク検出部3003−a〜d、チャンネル選択部3004、適応型低域フィルタ3005、ピーク検出部3006、極性判定部3007からなる。この構成は本発明の第1の実施の形態において、ピッチ分析部1002を固定型低域フィルタ3002−a〜d、ピーク検出部3003−a〜d、チャンネル選択部3004で置き換えたもの、言い換えれば本発明の第2の実施の形態をピッチ分析部として用いたものである。
【0065】
この構成によれば、予備的ピッチ分析が不要なピッチマーク付与方法を一種のピッチ分析とし、その結果得られるピッチ情報を用いてピッチマーク付与が行える。
(実施の形態4)
図4は本発明の音声分析方法にかかる第4の実施の形態のピッチマーク付与方法の構成図である。
【0066】
本実施の形態のピッチマーク付与方法は波形記憶部4001、固定型低域フィルタ4002−a〜d、ピーク検出部4003−a〜d、チャンネル選択部4004、適応型低域フィルタ4005、ピーク検出部4006、ピッチマーク照合部4007、極性判定部4008からなる。この構成は本発明の第3の実施の形態にピッチマーク照合部4007が追加されたものである。
【0067】
ピッチマーク照合部4007はピーク検出部4006の出力であるピーク位置情報を数種類の値によってシフトすることによって複数のピッチマーク候補を作成する。例えば、ピーク検出部4006によって抽出されたピーク位置を(数8)のような系列で表すとき、ピッチマーク候補を(数9)のように作成する。
【0068】
【数8】
【0069】
【数9】
【0070】
次に、(数9)のように作成されたピッチマーク候補を音声素片波形と照合し、その結果を基にピッチマーク候補の中からピッチマークを選び出し、出力する。
【0071】
照合の方法は以下の通りである。音声素片波形は(数10)のように表されるとすると、(数11)を用いて評価値を算出する。続いて、(数11)を最大にするkを求め、そのkに該当するピッチマーク候補P’(m, k)をピッチマークとして選び出す。
【0072】
【数10】
【0073】
【数11】
【0074】
このような、ピッチマーク照合部1005での処理の流れを言い換えると、検出されたピークを時間的に前後にシフトしながら、音声素片波形のピークとの一致度が最も高い所を検索することを意味する。検索の範囲は適応型低域フィルタ4005の遅延量に応じて適切に選ぶべきで、遅延量を中心に前後1ピッチ周期以内が適切である。
【0075】
もし、適応型低域フィルタ4005の遅延量が小さければ、ピーク検出部4006の出力をそのままピッチマークとして用いることも可能である。
【0076】
さて、上記第1〜第4の実施の形態に示したピッチマーク付与方法を用いることによる利点をまとめると以下のようになる。
【0077】
第一の利点は、既知のアルゴリズムの応用による簡易な手法により実現可能な点である。すなわち、ピッチ分析、ローパスフィルタなどの構成要素は既に確立された手法であるため、安定した動作が期待できる。また、本発明の音声分析にかかるピッチマーク付与方法の第2から第4の実施の形態を用いれば、最初の段階での予備的なピッチ抽出自体が不要となるか、あるいは本発明の音声分析にかかるピッチマーク付与方法を用いることで予備的ピッチ抽出自体を実現することが可能である。
【0078】
第二の利点は、ピッチ周期に対応した確実なピッチマークが付与できる点である。音声素片波形そのものからピークを抽出しようとすると、高調波の影響を受けてうまくピッチ周期に対応したピークが抽出できない場合がある。本発明によれば、ピーク抽出の対象は基本波成分波形であるため、そのような心配がない。また、有声無声の判定も基本波成分波形の振幅がある程度の大きさを持つ部分のみを対象にすることで自動的に行える。また、差分基本波のゼロクロス点を用いるピーク検出法は極めて高い感度で基本波のピークを検出できる。従って、母音開始部や終了部などの微弱な波形の部分からも精度良くピークを検出することが可能である。
【0079】
第三の利点はざらつきのないなめらかな合成音が得られる点である。例えばピッチマークを音声素片波形上のピークに打つことができたとする。しかし、音声素片波形のピークは高調波の影響で様々な揺らぎを持っているため、ピッチマークの位置も複雑に揺らぎを含む。そして音声合成時にはピッチ波形の位置をピッチマークの位置を基準に決めるため、そのようにピッチマークの位置が前後に揺らいでいると合成音が大きなジッタを含むことになり、ざらついた音になる。このようなことを防ぐには、ピッチマークの間隔を平滑化しなくてはならない。また、たとえ声門閉鎖の位置に正確にピッチマークが付与できても、声門閉鎖位置自身が揺らぎを持っていることも考えられる。通常、音声合成時にはピッチ波形の配置をピッチマーク位置に基づいて行うため、音声合成時に、もとのピッチ間隔と異なる間隔で再配置を行うことになる。このことにより、瞬時の揺らぎによる影響を受けない多くの高調波成分などに揺らぎを付加してしまうこととなり、このことが合成音に濁りを生む場合も考えられる。 本発明の音声分析方法にかかるピッチマーク付与方法は、純音に近い基本波成分からピークを抽出するため、本来のなめらかなピッチ変化に対応したピッチマークを適切に付与することができる。その結果、揺らぎの成分を適切に合成音に反映させながらざらつきのないなめらかな音声を合成できる。
【0080】
また、差分基本波のゼロクロス点を前後のサンプルから直線補間で推定することにより、サンプル点の粗さに影響を受けないなめらかなピーク間隔の変化を反映させることができ、その結果極めてなめらかな音質を実現できる。
【0081】
以上述べたように、本発明では、例えば、音声波形を基本波成分のみを通過させるように設定されたFIR直線位相型ローパスフィルタによって正弦波状の基本波成分波形を抽出し、その基本波成分波形のローカルピークにマークを付与し、その位置をピッチマークとする。
【0082】
この方法によれば、ローカルピーク検出の対象が正弦波状の波形であるためにピッチ周期に対応した区分点の抽出を容易にし、さらにゼロクロスではなくピーク位置を区分点として抽出することにより、ほぼ音声波形のローカルピーク及び声門閉鎖点に一致した位置にピッチマークを付与することができる。
(実施の形態5)
次に、本発明の音声合成方法の実施の形態について説明する。
【0083】
図12は本発明の音声合成方法の第1の実施の形態を表している。
【0084】
本実施の形態の音声合成方法は、ピッチマーク記憶部12001と振幅情報記憶部12002と音韻境界記憶部12003と音韻種別記憶部12004とピッチ波形記憶部12005とピッチ波形重畳部12006、およびそれらを全て制御する制御部12007を用いる。
【0085】
ピッチマーク記憶部12001と振幅情報記憶部12002と音韻境界記憶部12003と音韻種別記憶部12004とピッチ波形記憶部12005の出力は全てピッチ波形重畳部12006に接続されている。
【0086】
ピッチマーク記憶部12001にはあらかじめ発声されて録音された自然音声に対して付与されたピッチマーク情報が記憶されている。振幅情報記憶部12002には自然音声のピッチマーク付近での振幅を表す情報がピッチマーク情報と一対一で記録されている。音韻境界記憶部12003には前述の自然音声における音韻境界のタイミングが記憶されている。例えば自然音声が「ありがとう」の場合、「あ」「り」「が」「と」「う」の開始タイミングがそれぞれ記憶される。音韻種別記憶部12004には前述の自然音声における音韻の種別が記憶されている。たとえば、「あ」「り」「が」「と」「う」の五つの音韻を識別する情報が記憶されている。ピッチ波形記憶部12005には音声合成用の素片として録音された音声素片波形からピッチマークを中心として切り出されたピッチ波形が多数記憶されている。
【0087】
なお、ピッチマークの付与は、前述した実施の形態1〜4の本発明によるピッチマーク付与方法によって可能である。また、ピッチ波形記憶部12005におけるピッチ波形の作成およびこの後の動作の説明にあるピッチ波形の配置による音声合成は公知の任意の技術で可能である。例えば特開平7−152396に開示されている。
【0088】
また、振幅情報記憶部12002には自然音声におけるピッチマークの前後、例えば10ミリ秒の間の波形の振幅の絶対値の最大値が各ピッチマークに対して記憶されている。
【0089】
このような条件の下で、自然音声と同じ内容の合成音を合成する場合の動作を図13に示す。以下、図13を参照しながら説明する。
【0090】
まず制御部12007は音韻種別記憶部12004から最初の音韻種別情報Sを取得し(S7002)、続いて音韻境界記憶部12003から最初の音韻境界情報Bを取得する(S7003)。こうして、最初の音韻の種別Sと、その開始タイミングを知る。続いて、制御部12007はピッチマーク記憶部12001からB以降の最も近いピッチマーク情報Pを取得するとともに、振幅情報記憶部12002からそのピッチマークに対応する振幅情報Aを取得する(S7004)。続いて、ピッチ波形記憶部12005からSの開始部分に必要なピッチ波形を取得し(S7006)、ピッチ波形重畳部12006においてPと同じタイミングになるようにピッチ波形を配置し、Aに従って振幅を制御する(S7007)。
【0091】
続いて、ピッチマーク記憶部12001から次のピッチマーク情報Pを取得するとともに、振幅情報記憶部12002からそのピッチマークに対応する振幅情報Aを取得し(S7004)、ピッチ波形記憶部12005からSの時刻(T−B)に対応するピッチ波形を取得し、ピッチ波形重畳部12006においてPと同じタイミングになるように配置し、Aに従って振幅を制御する(S7007)。これ以降、S7004からS7007を繰り返すが、S7004の直後で、取得したピッチマーク情報Pが次の音韻境界を越えている場合はS7002に処理を移す(S7005)。また、S7002の直前で次の音韻がない場合はメッセージ終了を意味するので処理を終了する(S7001)。
【0092】
S7007における振幅の制御は以下のように行う。振幅情報Aの値がaとする。これは、ピッチマーク情報Pに対応する自然音声波形の 前後例えば10ミリ秒の間の振幅の絶対値の最大値である。一方、ピッチ波形Wの振幅の絶対値の最大値をawとすると、(数12)によってこのピッチ波形に与えるゲインgを計算する。
【0093】
【数12】
【0094】
このゲインgの値をピッチ波形Wの前サンプルに乗算することで振幅の制御を行う。
【0095】
ところでピッチ波形記憶部12006にはあらかじめ音声素片専用の波形から切り出されたピッチ波形が記憶されているが、これらのピッチ波形を切り出す際にはやはりピッチマークを用いる。本発明の音声分析方法にかかるピッチマーク付与方法の第1の実施の形態のところで説明したように、ピッチマークを差分基本波のゼロクロス点から求める場合、直線補間により1サンプルよりも細かい単位でのピッチマークが得られる。このことを生かしてピッチ波形の切り出しを1サンプルよりも細かい単位で行っておくことにより、ピッチ波形重畳部12006で合成された波形はより一層ざらつきのないなめらかな音声となる。
【0096】
図14はピッチ波形の切り出し方法を示したものである。上下の二つの図で横軸は時間、縦軸は波形の振幅を表しており、横軸の目盛りはサンプルタイミングである。ディジタルデータにはサンプルタイミングでのみ値が定義される。また、上の図で○はディジタルデータとして記録されている音声波形のサンプルデータを表している。また、曲線はアナログ波形としての音声波形である。縦線はピッチマークの位置を表している。
【0097】
ピッチマークが整数でない場合、この図のようにサンプルタイミングと一致しない。そこで、最寄りのサンプルタイミングとその前後の合計3つのサンプルデータを用いて二次補間でピッチマーク位置でのデータを推定する。また、ピッチマークから前後にサンプル間隔の整数倍の位置(全てサンプルタイミングと一定量ずれている)での全てのデータも同様に推定する。推定された値は×で表されている。また、推定されたデータのみを抜き出したものが下の図に表されている。
【0098】
このようにして推定されたすべての値を切り出し波形として記憶する。補間方法には上記の二次補間の他、直線補間やスプライン補間など、いかなる補間方法を用いることも可能である。
【0099】
また、ピッチマーク記憶部12001に記憶されたピッチマーク情報が整数でない場合はピッチ波形重畳部12006における波形の配置のタイミングも整数でなくなるため、ピッチ波形の切り出しと同様の考え方で補間を用いることにより、なめらかなピッチ変化を持った合成音が生成できる。
【0100】
このようにして合成された音声は、ピッチマークのもとになった自然音声と同一のタイミング、ピッチパターン、振幅の変化 を有するばかりか、波形のタイミングや位相のレベルでほぼ完全に一致するものとなる。このことにより、子音やその前後で細かくピッチが上下する、いわゆるマイクロプロソディ(micro−prosody)の情報を含んだ極めて自然性の高い合成音を得ることが可能となる。
【0101】
なお、本実施の形態では、ピッチパターンと振幅の情報をピッチマーク毎に保持するようにしたが、所定の区間ごとの平均値などを用いてもかまわない。こうすることで、ピッチパターン、振幅の 情報を圧縮することが可能で、合成音の音質もほとんど劣化を伴わない。例えば、音韻開始点に挟まれた区間を一定の区間数に区切れば、音声の発話速度に関わらず音韻の個数に対応した効率の良い情報の保持が可能となる。また、このような情報の持ち方は、音韻開始タイミング情報を変形することによって、たとえ合成音のスピードを任意に変化させても、極めて高い音質が保てるという利点がある。また、ピッチ情報と振幅情報も変形することが可能となる。さらに、音韻系列情報を変更することにより、発話の内容を変更することも可能である。変更が可能な音韻は、変更前と変更後が互いに近い特性の音韻である必要がある。例えば、有声音同士や無声音同士であれば比較的音質劣化が少なく入れ替えが可能である。
【0102】
なお、上記の説明では音韻種別情報Sとしてどのような単位を用いるかは定義しなかったが、具体的には音素を用いると良い。音素は子音や母音などの一つ一つを表す単位で、例えば「カ」という音は/k/と/a/の二つの音素からなる。
【0103】
また、振幅情報を用いた場合についてのみ説明したが、振幅情報を用いずに音声素片が持つ振幅のままで合成することも可能である。この場合、音質は若干の不自然さを伴うものの、タイミングやピッチパターンが自然音声のものであるため、自然性の高いものとなる。
【0104】
振幅情報を用いる場合、上記の説明ではピッチマーク付近の振幅の絶対値の最大値を用いたが、他の値を用いてももちろんかまわない。音声波形は振幅が両方向に均一に分布するのではなく、一般にある極性に偏った波形になる。これは声門閉鎖に伴って発生するパルスが一方向であるためである。このパルスの方向に合わせて片側の振幅の最大値を用いることは、音声波形に含まれる揺らぎや雑音に影響を受けにくくするという効果がある。また、ピッチマーク付近での短時間パワーを用いることも考えられる。
【0105】
さらに、振幅情報を抽出する前に事前に自然音声を低域フィルタを用いて高域の成分を除去しておくことが考えられる。これは、自然音声の振幅が高域成分によって細かく変動することによる振幅情報の揺らぎを除去する効果がある。
【0106】
なお、音声合成の音質はピッチ波形記憶部12005に記憶されたピッチ波形によって決定されるので、ピッチマーク、振幅情報、音韻境界情報、音韻種別情報は比較的低品質の音声から抽出したもので十分である。例えば、ピッチ波形の帯域幅が10kHzであれば、合成音の帯域幅も10kHzになる。従って、帯域幅5kHzの音声からピッチマーク、振幅情報、音韻境界情報、音韻種別情報を抽出しておけば、この音声よりも広帯域の高品質音声として合成することが可能となる。これは、電話回線などを通じて狭帯域になった音声を高品質音声に変換することを可能とするため、極めて利用価値が高い。
(実施の形態6)
次に、本発明の音声合成方法の別の実施の形態について説明する。
【0107】
音声メッセージの提供方法として用いられるものに、録音音声と合成音声の組み合わせがある。そのような方法が適するメッセージは定型の部分と不定形の部分からなるものである。ここで言う定型の部分とは様々なメッセージの中で多くのものに共通の部分であり、不定形な部分とは目的物や地名など数多くのパターンが考えられる部分である。
【0108】
このようなメッセージ提供方法では、定型の部分を録音音声で、不定形の部分を合成音声で提供する。例えば、「次は、京都に止まります」というメッセージがあり、他のメッセージには「次は、熱海に止まります」などがあるとする。これら二つのメッセージは「京都」と「熱海」の違いがあるのみで、「次は」と「に止まります」の部分は共通のものが使用できる。この場合、「次は」と「に止まります」が定型部分で、「京都」と「熱海」の部分は他の地名や駅名が無数に考えられるため、不定形部分となる。そこで、定型部分は種類が少ないのであらかじめ自然に発声した音声を録音しておき、不定形部分を音声合成によって生成するようにすることが行われる。しかし、音声合成の音質が録音された音声と比べて劣るため、接続部分で音質の変化が大きく、違和感を生む。
【0109】
そこで、定型メッセージから合成音声に徐々に切り替わるように混合比を変えながら接続することでその違和感を防ぐことが考えられる。この方法は例えば特開平5−27789などがある。しかし、従来の合成方法では、定型部との重なりの部分でピッチや位相が異なるため、二重の音声として聞こえてしまう問題がある。
【0110】
そこで、本発明の実施の形態では音声合成部に第1の実施の形態の音声合成方法を用いる。その結果、録音音声と合成音声の間で完全にピッチや位相が一致し、両者を重ね合わせても単独の音声として聞こえるような優れた接続方法が実現する。
【0111】
図15にその音声合成方法の構成を示す。その音声合成方法では、定型メッセージ生成部15001と合成メッセージ生成部15002と混合部15003を用いる。定型メッセージ生成部15003にはメッセージの中で定型の部分の波形が記憶されており、必要に応じて読み出されることによりメッセージの一部を出力する。合成メッセージ生成部15002は図12の構成を有し、それらのピッチマーク記憶部12001、振幅情報記憶部12002,音韻境界記憶部12003、音韻種別記憶部12004のそれぞれには、定型メッセージ生成部15001に記憶された波形から取り出されたそれらの情報が記憶されている。
【0112】
以下に図15に示す音声合成方法の動作について、先ほど例として示した「次は、京都に止まります」のメッセージを用いて説明する。
【0113】
説明を簡単にするために、定型メッセージ生成部15001と合成メッセージ生成部15002の両者は、共に同じメッセージ「次は、京都に止まります」を生成するものとする。
【0114】
図16は混合部15003の二つの入力端子のゲインの変化を示したものである。まず、メッセージ開始部において、定型メッセージ生成部15001は「次は」という定型部分の波形の読み出しと混合部15003への出力を開始する。ここで、メッセージ開始部とは、音声メッセージの冒頭部、即ち、図16に示す「つ」の時点のことである。
【0115】
この時点で混合部15003は定型メッセージ生成部15001側の入力ゲインを最大値にし、合成メッセージ生成部15002側の入力ゲインを0にしている(S16001)。
【0116】
一方、合成メッセージ生成部15002も定型メッセージ生成部15001と同時に「次は」の合成を開始する。このとき、ピッチマーク情報、音韻境界情報、音韻種別情報は上述したように全て定型メッセージ部分の波形から取り出したものを用いているので、合成波形は定型メッセージ波形と同じピッチ、同じ位相を有している。
【0117】
メッセージ出力が「次は」の後半にさしかかると、混合部15003は定型メッセージ生成部15001側の入力ゲインを徐々に下げ、合成メッセージ生成部15002側の入力ゲインを徐々に上げる(S16002)。その結果、「次は」の後半部分は両者の波形が重なり合ったものとなる。
【0118】
メッセージ出力が「京都」にさしかかるまでに、混合部15003は定型メッセージ生成部15001側の入力ゲインを0まで下げ、合成メッセージ生成部15002側の入力ゲインを最大値にする(S16003)。その結果、「京都」の部分は合成音声のみで出力される。
【0119】
メッセージ出力が「に止まります」にさしかかると、混合部15003は先ほどと逆に定型メッセージ生成部15001側の入力ゲインを徐々に上げ、合成メッセージ生成部15002側の入力ゲインを徐々に下げる(S16004)。そして、完全に定型メッセージ生成部15001側の入力ゲインを最大に、合成メッセージ生成部15002側の入力ゲインを0にする(S16005)。
【0120】
上記のような動作の結果、定型メッセージ部分は録音音声によって、不定形メッセージ部分は合成音声によってメッセージ提供が行われ、接続部分付近では両者の混合比率を徐々に変更しながらなめらかに移り変わるような動作が実現する。不定形メッセージである「京都」の部分を別の単語(たとえば「熱海」)に変更することで、メッセージの変更が可能である。
【0121】
不定形メッセージ部分のピッチパターンは、定型メッセージのピッチマークを用いて生成してもよいが、他のピッチ生成方法を用いても構わない。特に、「京都」以外の「熱海」などの地名の場合、「京都」のピッチパターンがそのまま当てはまるとは限らないので「藤崎モデル」などのピッチ生成モデルを用いる方が適切と考えられる。
【0122】
なお、上記の説明では定型メッセージ生成部15001と合成メッセージ生成部15002の両者がメッセージ全体の生成を行うようにしていたが、必要最小限の部分のみを受け持つようにしてももちろん構わない。例えば、定型メッセージ生成部15001は「次は」と「に止まります」の部分のみ、合成メッセージ生成部15002は「は、京都に」の部分のみというように部分的に生成したものを接続する事は可能であるし、処理効率の上からもそれが望ましい。
(実施の形態7)
続いて、本発明の音声合成方法の更に別の実施の形態について説明する。
【0123】
上記実施の形態6における音声合成方法の説明でも述べたとおり、定型メッセージ部分と不定形メッセージ部分の組み合わせによるメッセージ提供方法が用いられている。このようなメッセージ提供方法の問題点としては前述の「録音部分と合成部分の音質の差」があるが、そのほかにも「録音部分の記憶に必要な記憶装置の容量の大きさ」がある。特に後者は録音メッセージ部分の種類が多い場合に深刻となる。
【0124】
そこで本実施の形態では定型メッセージ部分を録音によって蓄積するのではなく、ピッチマーク情報、音韻境界情報、および音韻種別情報で蓄積しておき、本発明の音声合成方法の第1の実施の形態によって生成する。
【0125】
なお、本発明の第1のメッセージ、第2のメッセージは、それぞれ、本実施の形態の定型メッセージ、不定形のメッセージに対応する。
【0126】
図17は本実施の形態の音声合成方法の構成を示すものである。その構成はピッチマーク記憶部12001−1〜N、振幅情報記憶部12002−1〜N、音韻境界記憶部12003−1〜N、音韻種別記憶部12004−1〜N、ピッチ波形記憶部12005、ピッチ波形重畳部12005、制御部17006からなる。この構成は、図12とほぼ同じであるが、ピッチマーク記憶部12001、振幅情報記憶部12002、音韻境界記憶部12003、音韻種別記憶部12004がN個ずつ備わっている点が異なる。Nは定型メッセージの個数である。nを定型メッセージの番号とすると、その定型メッセージの情報はピッチマーク記憶部12001−n、振幅情報記憶部12002−n、音韻境界記憶部12003−n、音韻種別記憶部12004−nに記憶されている。
【0127】
k番目の定型メッセージの合成を行うとき、制御部17007はピッチマーク記憶部12001−k、振幅情報記憶部12002−k、音韻境界記憶部12003−k、音韻種別記憶部12004−kを選択する。以下、図13に示したのと同様の手順で合成を行う。すなわち、添え字kを省略すると、ピッチマーク記憶部12001と振幅情報記憶部12002と音韻境界記憶部12003と音韻種別記憶部12004に記憶された定型メッセージに関する情報を用いて合成を行う。
【0128】
不定形メッセージの合成には通常の音声合成と同様に自分自身で生成したピッチパターンに従って音声合成を行う。
【0129】
なお、この不定型メッセージの合成は、第6の実施の形態で説明したものと同じ方法により音声合成を行えば更に良い。すなわち、この場合、定型メッセージと不定型メッセージとの少なくとも接続部においては、不定型メッセージの音声合成に用いる音声波形のピッチ波形をピッチマーク情報に基づいて配置することにより定型メッセージと同じ内容の音声を不定型メッセージとして合成するものである。
【0130】
ここでのピッチマーク情報は、すでに説明した定型メッセージの種類毎にあらかじめ録音された自然音声から抽出したピッチマーク情報のことである。これにより、接続部分での音質の変化の違和感がより一層軽減されるという効果がある。
【0131】
このような動作により、定型メッセージ部分と不定形メッセージ部分はともに合成音で提供されるため、接続部分での音質の違和感は軽減される。さらに、定型メッセージ部分には自然音声から抽出したピッチマーク情報を用いた合成音声を用いるため、従来の合成音に比べて極めて自然性の高いものとなる。
【0132】
また、定型メッセージ部分の記憶容量は録音によるメッセージ蓄積に比べてはるかに少なくすむ。具体的には、1秒間のメッセージを記憶する場合、録音に必要な記憶容量はサンプリング周波数22.05kHzで4ビットADPCMを用いた場合、11キロバイトになる。一方、本実施の形態によるメッセージ蓄積方法によれば、平均ピッチを300Hzとしてピッチマークの個数は1秒あたり300個である。ピッチマーク一つあたり4バイト、振幅情報一つあたり4バイトを割り当てるとすると300×4+300×4=2400バイト=2.4キロバイトとなる。また、振幅情報を省略する方法では300×4=1200バイト=1.2キロバイトである。ピッチマーク情報に比べると音韻境界情報と音韻種別情報は極めて小さいので無視できる。
【0133】
上記の考察によれば、録音に比べて5分の1程度、振幅情報を省略すれば10分の1程度の少ない記憶容量でメッセージ蓄積が可能となる。また、前述したようにピッチマーク情報及び振幅情報はデータの形式を工夫することでさらに効率よく圧縮することが可能である。例えば、有声音素区間を4分割した小区間ごとにピッチ及び振幅情報を割り当てれば、録音データと比較して100分の1程度の情報量に圧縮することができる。
【0134】
このように極めて小さい容量に圧縮された情報から高品質な合成音を得ることができるため、これらの情報を記憶媒体から読み出す場合や、通信路を介して伝送する場合の効率も向上する。従って、情報をCD−ROMなどのアクセス速度の遅い媒体に記憶したり、転送速度の低い通信回線を通して高速の読み出しや伝送が可能である。
【0135】
このような利点を生かして、音声メッセージの効率の良い記憶方法や提示方法が実現できる。
(実施の形態8)
続いて、本発明を利用した音声通報システムの実施の形態について説明する。
【0136】
図18は本実施の形態における音声通報システムの構成図である。
【0137】
本実施の形態の音声通報システムは、複数のセンサ18001、複数のメッセージ情報記憶部18002、複数の通信回線18003、集中監視部18004および音声合成部18005からなる。センサ18001およびメッセージ情報記憶部18002は例えば各家庭のガスメータに取り付けられており、集中監視部18004および音声合成部18005はガス会社の制御室などにある。通信回線18003は電話回線などを利用して、各家庭のガスメータとガス会社をつなぐものである。
【0138】
メッセージ情報記憶部18002には所定のメッセージの音韻系列情報、音韻タイミング情報、ピッチ情報、振幅情報が記憶されている。以後、これらをまとめてメッセージ情報と呼ぶ。センサ18001はガス漏れなどの事象を関知するとメッセージ情報記憶部18002にメッセージ情報を出力させる。メッセージ情報は通信回線18003を介して集中監視部18004に送られ、集中監視部18004はメッセージ情報を用いて音声合成部18005を制御して音声を出力する。音声合成部18005は本発明の実施の形態における音声合成方法を利用した手段である。
【0139】
この形式の利点は、メッセージ情報記憶部18002に極めて小さい記憶容量で大量の音声メッセージを記憶しておくことができる点である。また、通信回線18003を通じて送られる情報が少なくて済むため、回線容量が小さい通信回線でも高速にメッセージ情報を伝送できる。
【0140】
従って、各家庭のガスメータに取り付けられたメッセージ情報記憶部18002には、ガス漏れなどの事象を表す情報以外に、氏名、住所など、その家庭固有の情報を個別に格納しておくことができる。このことにより、ガス会社の制御室には異常の発生場所が適切に通報され、迅速に対策を講じることを可能とする。また、情報を制御室側に登録して管理するよりも、ガスの新規契約や契約解除などに伴う変更が容易である。
【0141】
なお、本実施の形態ではガスメータとガス会社を例に取って説明したが、他のあらゆる場面で本システムを利用することが可能である。
(実施の形態9)
次に、本発明を利用した音声合成システムの実施の形態について説明する。
【0142】
図19は本実施の形態における音声合成システムの構成図である。
【0143】
本実施の形態における音声合成システムはテキスト入力部19001、テキスト音韻系列変換部19002、音韻系列記憶部19003、音声入力部19004、音声記憶部19005、音韻タイミング検出部19006、音韻タイミング記憶部19007、ピッチ分析部19008、ピッチ情報記憶部19009、振幅分析部19010、振幅情報記憶部19011、音声合成部19012からなる。
【0144】
テキスト入力部19001はユーザに対してテキスト入力を促し、ユーザはそれに従いこれからしゃべろうとする内容を仮名のテキストで入力する。テキスト音韻系列変換部19002は仮名文字列を音素などの音韻系列に変換する。音韻系列記憶部は変換された音韻系列を記憶する。
【0145】
続いて、音声入力部19004がユーザに対して音声入力を促し、ユーザはそれに従い、先ほど入力したテキストと同じ内容をしゃべることにより音声を入力する。音声記憶部19005は入力された音声を一時的に記憶する。音韻タイミング検出部19006は、音声記憶部19005に一時的に記憶された音声と音韻系列記憶部19003に記憶された音韻系列を用いて、音声中の音韻のタイミングを全て検出する。このような音韻タイミング検出処理はHMMなどの音声認識アルゴリズムを用いて実現されている。検出された音韻タイミング情報は音韻タイミング記憶部19007に記憶される。
【0146】
ピッチ分析部19008は本発明の音声分析方法の実施の形態におけるピッチマーク付与方法を用いて高性能なピッチ分析が実現できる。ピッチ分析部19008は音声記憶部19005に一時的に記憶された音声のピッチを分析する。ピッチ情報記憶部19009は分析されたピッチ情報を記憶する。また、振幅分析部19010は音声記憶部19005に一時的に記憶された音声の振幅を分析する。振幅情報記憶部19011は分析された振幅情報を記憶する。
【0147】
音声合成部19012は本発明の実施の形態における音声合成方法によるものである。音声合成部19012は音韻系列記憶部19008、音韻タイミング記憶部19007、ピッチ情報記憶部19009、振幅情報記憶部19011からそれぞれ音韻系列情報、音韻タイミング、ピッチ情報、振幅情報を読み出し、それらを用いて音声を合成する。
【0148】
上記の構成により、音声メッセージの以下のような利用が可能になる。本音声合成システムを例えば家庭電化製品に組み込む。組み込む先の例として全自動洗濯機を取り上げる。なお、組み込みが必要なのは音韻系列記憶部19008、音韻タイミング記憶部19007、ピッチ情報記憶部19009、振幅情報記憶部19011のみである(図中破線で囲まれた部分)。それ以外の部分は分析が終了したら取り外して構わない。
【0149】
全自動洗濯機は衣類と洗剤を投入すると、後はスイッチを押すだけで洗いとすすぎと脱水が自動的に行われる。その間、ユーザは別の仕事にかかることができる。しかし、脱水が終わると洗濯物を干さなければならないので、通常の全自動洗濯機にはブザーが内蔵されており、脱水の終了をブザー音で告知する機能がある。
【0150】
しかし、最近は多くの家庭電化製品が同様の機能を有するため、ブザー音が聞こえてもユーザにとって何の告知かがわかりにくいという問題がある。
【0151】
この問題に対し、本音声合成システムを用いることにより、あらかじめユーザが自分で全自動洗濯機にしゃべらせたい内容を自分の声を使って登録することができる。すなわち、脱水の終了を「脱水が終わりました」や「洗濯が終了しました」などのように、ユーザの好みの内容でしゃべらせることができる。
【0152】
本システムはユーザが登録時にしゃべった内容を、登録時と同じ内容とイントネーションで再現するものである。従って、しゃべらせたい内容の抑揚をユーザが好みに応じて自由に変えることができ、利用目的に応じて多彩な応用が可能となる。
【0153】
ところで、自分の声を録音して再生すると普段聞いている自分の声と違って聞こえるために、これを嫌うユーザは多い。これに対し、本システムはイントネーションのみが自分のしゃべり方になるだけで、声の質は音声素片によって決定される。従って、自分がしゃべった音声がプロのナレーターなどの声質に変換される。このことにより、ユーザが自分の声を自分で聞くことに対する抵抗を軽減でき、さらにプロの音声に変換されることによる喜びを味わうことができる。
【0154】
なお、本実施の形態では家庭内の全自動洗濯機を例にとって説明したが、他のあらゆる場面、あらゆる機器に対して本システムを利用することができる。 ところで、以上述べてきた各実施の形態のいずれか一つの実施の形態に記載の各手段の全部又は一部の手段の機能や処理をコンピュータに実行させるためのプログラムを磁気記録媒体や光記録媒体などに記録した媒体を作成し、これを用いて上記と同様の動作を実行してももちろん良い。
【0155】
以上説明したように、本発明によるピッチマーク付与方法は、1)既知のアルゴリズムの応用により実現可能、2)ピッチ周期に対応した確実なピッチマークが付与可能、3)ざらつきのないなめらかな合成音が得られる、という利点がある。
【0156】
また、本発明による音声合成方法は、1)自然音声に含まれる自然なピッチパターンを詳細に再現した自然性の極めて高い合成音が得られる、2)録音音声と合成音声の接続部において極めてなめらかな変化を持った違和感の少ない接続が可能、3)定型部と不定形部の音質の差がないメッセージ提供が可能、4)定型部音声の蓄積を従来の録音方式に比べ格段に少ない記憶容量で実現可能、という利点がある。
【0157】
なお、上記の説明では定型部と不定形部の組み合わせによるメッセージ提供方法を例にとって説明したが、本実施の形態を定型部のみのメッセージ提供に用いてももちろん構わない。
上述した通り本発明によれば、比較的簡単な方法で従来に比べてより適切に音声分析が可能であり、例えばピッチマークがより適切に付与できる。
また、他の発明によれば、従来に比べて自然性が高く、録音音声との接続部においても違和感の少ない音声が合成できる。
【0158】
【発明の効果】
以上述べたところから明らかなように本発明は、比較的簡単な方法で従来に比べてより適切に音声分析が可能であり、例えばピッチマークがより適切に付与できるという長所を有する。
【図面の簡単な説明】
【図1】本発明の音声分析方法にかかるピッチマーク付与方法の第1の実施の形態の構成図
【図2】本発明の音声分析方法にかかるピッチマーク付与方法の第2の実施の形態の構成図
【図3】本発明の音声分析方法にかかるピッチマーク付与方法の第3の実施の形態の構成図
【図4】本発明の音声分析方法にかかるピッチマーク付与方法の第4の実施の形態の構成図
【図5】(a):本実施の形態の音声波形の例を示す図
(b):本実施の形態の基本波の例を示す図
【図6】図1のピーク検出部1004の動作の一例の説明図
【図7】図1のピーク検出部1004の別の動作の一例の説明図
【図8】差分基本波のゼロクロス付近での補間の説明図
【図9】音声波形と基本波の時間的対応の説明図
【図10】図2のチャンネルCおよびチャンネルDの出力を示す図
【図11】図1のチャンネル選択部2003が選択した結果のピッチ周波数を示す図
【図12】本発明の音声合成方法の一実施の形態の構成図
【図13】図12の実施の形態の動作の流れ図
【図14】補間を行いながらピッチ波形を切り出す様子を示した説明図
【図15】本発明の音声合成方法の別の実施の形態の構成図
【図16】図15における混合部15003の二つの入力端子のゲインの変化を示した説明図
【図17】本発明の音声合成方法の更に別の実施の形態の構成図
【図18】本発明の音声通報システムの実施の形態の構成図
【図19】本発明の音声合成システムの実施の形態の構成図
【符号の説明】
1001 波形記憶部
1002 ピッチ分析部
1003 適応型低域フィルタ
1004 ピーク検出部
1005 極性判定部
2001−a〜2001−d 固定型低域フィルタ
2002−a〜2002−d ピーク検出部
2003 チャンネル選択部
3001 波形記憶部
3002−a〜3002−d 固定型低域フィルタ
3003−a〜3003−d ピーク検出部
3004 チャンネル選択部
3005 適応型低域フィルタ
3006 ピーク検出部
3007 極性判定部
4001 波形記憶部
4002−a〜4002−d 固定型低域フィルタ
4003−a〜4003−d ピーク検出部
4004 チャンネル選択部
4005 適応型低域フィルタ
4006 ピーク検出部
4007 ピッチマーク照合部
4008 極性判定部
12001 ピッチマーク記憶部
12002 振幅情報記憶部
12003 音韻境界記憶部
12004 音韻種別記憶部
12005 ピッチ波形記憶部
12006 ピッチ波形重畳部
12007 制御部
15001 定型メッセージ生成部
15002 合成メッセージ生成部
15003 混合部
12001−1〜12001−N ピッチマーク記憶部
12002−1〜12002−N 振幅情報記憶部
12003−1〜12003−N 音韻境界記憶部
12004−1〜12004−N 音韻種別記憶部
17007 制御部
18001−a〜d センサ
18002−a〜d メッセージ情報記憶部
18003−a〜d 通信回線
18004 集中監視部
18005 音声合成部
19001 テキスト入力部
19002 テキスト音韻系列変換部
19003 音韻系列記憶部
19004 音声入力部
19005 音声記憶部
19006 音韻タイミング検出部
19007 音韻タイミング記憶部
19008 ピッチ分析部
19009 ピッチ情報記憶部
19010 振幅分析部
19011 振幅情報記憶部
19012 音声合成部
Claims (12)
- 音声波形を記憶する音声波形記憶手段と、ピッチを分析するピッチ分析手段と、あらゆる周波数に対して実質的に遅延量が0である適応型フィルタと、ピークを検出するピーク検出手段と、を用いて音声波形のピッチ周期に対応する時間的基準位置であるピッチマーク情報を生成する音声分析方法であって、
前記音声波形記憶手段を用いて前記音声波形の一部を一時的に記憶し、
前記ピッチ分析手段を用いて前記一時的に記憶された音声波形の大まかなピッチ情報を生成し、
前記適応型フィルタへ前記一時的に記憶された音声波形を入力させ、前記大まかなピッチ情報に基づいて、前記適応型フィルタの遮断周波数あるいは中心周波数を変化させることによって、その入力された音声波形から基本波のみを通過させ、
前記ピーク検出手段は、前記基本波における片側の複数の極大点を、前記基本波の差分をとった差分基本波の値が正から負または負から正に変化する点の前後の値から直線補間により推定された0交差位置として検出することにより、音声波形全体に対する一連の正確なピッチマーク情報を生成することを特徴とする音声分析方法。 - 前記ピッチ分析手段は、あらゆる周波数に対して実質的に遅延量が0である固定型低域フィルタ及び、ピークを検出する固定型低域フィルタ用ピーク検出手段を有するピーク検出チャンネルの複数組と、前記ピーク検出チャンネルを選択するためのチャンネル選択手段とを有し、
前記複数の固定型低域フィルタのうちの少なくとも一つの固定型低域フィルタは、入力されてくる音声波形の基本波のみを通過させるように設定されており、
前記それぞれの固定型低域フィルタは、入力された音声波形の所定の周波数以下の成分である低域成分波形を出力し、
前記固定型低域フィルタ用ピーク検出手段は、対応した前記固定型低域フィルタから出力された前記低域成分波形における片側の複数の極大点を、前記低域成分波形の差分をとった差分低域成分波形の値が正から負または負から正に変化する点を検出してピーク情報として出力し、
前記チャンネル選択手段は、前記複数のピーク検出チャンネルから出力されたピーク情報の全部又は一部を利用して、所定の時間間隔ごとに所定の選択基準に基づいて、ピーク検出チャンネルを選択し、
前記選択されたピーク検出チャンネルから出力されたピーク情報は、前記音声波形の大まかなピッチ情報として前記ピッチ分析手段から前記適応型フィルタに出力される、請求項1に記載の音声分析方法。 - あらゆる周波数に対して実質的に遅延量が0である固定型低域フィルタ及び、ピークを検出するピーク検出手段を有するピーク検出チャンネルの複数組と、チャンネルを選択するためのチャンネル選択手段とを用いて、音声波形のピッチ周期に対応する時間的基準位置であるピッチマーク情報を生成する音声分析方法であって、
前記複数の固定型低域フィルタのそれぞれの遮断周波数は、それら複数の固定型低域フィルタのうちの少なくとも一つの固定型低域フィルタが、入力されてくる音声波形の基本波のみを通過させるように設定されており、
前記それぞれの固定型低域フィルタを用いて、入力された音声の所定の周波数以下の成分である低域成分波形を出力し、
前記ピーク検出手段は、前記固定型低域フィルタから出力された前記低域成分波形における片側の複数の極大点を、前記低域成分波形の差分をとった差分低域成分波形の値が正から負または負から正に変化する点の前後の値から直線補間により推定された0交差位置として検出してピーク情報として出力し、
前記チャンネル選択手段により、前記複数のピーク検出チャンネルから出力されたピーク情報の全部又は一部を利用して、所定の時間間隔ごとに所定の選択基準に基づいて、ピーク検出チャンネルを選択し、
前記選択されたピーク検出チャンネルから出力されたピーク情報を利用して、音声波形全体に対する一連のピッチマーク情報を生成することを特徴とする音声分析方法。 - 請求項1、又は3記載の音声分析方法によって得られたピッチマーク情報に基づいて、前記音声波形にピッチマークを付与することを特徴とする音声分析方法。
- 請求項1、又は3記載の音声分析方法によって得られたピッチマーク情報を利用して、ピッチ周波数を得ることを特徴とする音声分析方法。
- 請求項1、又は3記載の音声分析方法によって得られたピッチマーク情報を仮のピッチマークとし、所定の単位時間毎にその直前及び直後に存在する前記仮のピッチマークの間隔を用いて、前記ピッチ周波数を計算することを特徴とする音声分析方法。
- 前記複数の固定型低域フィルタは遮断周波数が互いに1:2の関係になるように設定されたことを特徴とする請求項2または3記載の音声分析方法。
- 前記選択基準に基づいてピーク検出チャンネルを選択しとは、
それぞれの前記ピーク検出手段から出力されるピーク情報から得られる、所定のピークとその所定のピークに隣接するピークとの時間的間隔から、前記所定のピーク位置における仮のピッチ周波数を求め、
前記仮のピッチ周波数の所定単位時間内での変化率が最小であるピーク検出チャンネルを選択することを特徴とする請求項2または3に記載の音声分析方法。 - 前記選択基準に基づいてピーク検出チャンネルを選択しとは、
それぞれの前記ピーク検出手段から出力されるピーク情報から得られる、所定のピークとその所定のピークに隣接するピークとの時間的間隔から、前記所定のピーク位置における仮のピッチ周波数を求め、
横軸にピーク位置、縦軸に仮のピッチ周波数を取る座標系に、所定の時間範囲内に含まれる複数のピーク位置とそのピーク位置に対応する前記仮のピッチ周波数を点として表したとき、
それらの点をピーク位置の順に結んだ複数の直線の傾きの分散が最小であるピーク検出チャンネルを選択することを特徴とする請求項2または3に記載の音声分析方法。 - ピッチマーク照合手段により、一旦作成された前記一連のピッチマーク情報に含まれる一つ一つのピッチマークの互いの間隔を一定に保ったまま前後にシフトすることによって複数のピッチマーク情報の候補を作成し、
前記ピッチマーク情報の候補に含まれる一つ一つのピッチマークが表す位置における音声波形の値を前記音声波形記憶部から読み取り、
前記読み取られた値を総合してピーク一致度を計算し、前記ピーク一致度が最大となるようなピッチマーク候補を選択することを特徴とする請求項1または3に記載の音声分析方法。 - 前記ピーク一致度は前記読み取られた値の合計値であることを特徴とする請求項10記載の音声分析方法。
- 請求項1、又は3記載の音声分析方法の各ステップをコンピュータにより実行させるためのプログラムを記録したことを特徴とするプログラム記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9359198A JP3576800B2 (ja) | 1997-04-09 | 1998-04-06 | 音声分析方法、及びプログラム記録媒体 |
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9065797 | 1997-04-09 | ||
| JP9-278683 | 1997-10-13 | ||
| JP27868397 | 1997-10-13 | ||
| JP9-90657 | 1997-10-13 | ||
| JP9359198A JP3576800B2 (ja) | 1997-04-09 | 1998-04-06 | 音声分析方法、及びプログラム記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH11184497A JPH11184497A (ja) | 1999-07-09 |
| JP3576800B2 true JP3576800B2 (ja) | 2004-10-13 |
Family
ID=27306498
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9359198A Expired - Lifetime JP3576800B2 (ja) | 1997-04-09 | 1998-04-06 | 音声分析方法、及びプログラム記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3576800B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8370153B2 (en) | 2008-09-26 | 2013-02-05 | Panasonic Corporation | Speech analyzer and speech analysis method |
Families Citing this family (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN1224956C (zh) * | 2001-08-31 | 2005-10-26 | 株式会社建伍 | 基音波形信号发生设备、基音波形信号发生方法及程序 |
| WO2004049304A1 (ja) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | 音声合成方法および音声合成装置 |
| JP4214842B2 (ja) | 2003-06-13 | 2009-01-28 | ソニー株式会社 | 音声合成装置及び音声合成方法 |
| GB2407952B (en) * | 2003-11-07 | 2006-11-29 | Psytechnics Ltd | Quality assessment tool |
| KR100744288B1 (ko) * | 2005-12-28 | 2007-07-30 | 삼성전자주식회사 | 음성 신호에서 음소를 분절하는 방법 및 그 시스템 |
| KR100735417B1 (ko) | 2006-01-24 | 2007-07-04 | 삼성전자주식회사 | 음성 신호에서의 피크 특징 추출이 가능한 윈도우를정렬하는 방법 및 그 시스템 |
| JP4957496B2 (ja) * | 2007-10-04 | 2012-06-20 | ヤマハ株式会社 | ピッチ変換装置およびプログラム |
| JP6011758B2 (ja) * | 2011-09-09 | 2016-10-19 | 国立研究開発法人情報通信研究機構 | 音声合成システム、音声合成方法、およびプログラム |
| JP6291887B2 (ja) * | 2014-02-14 | 2018-03-14 | カシオ計算機株式会社 | 音声合成装置、方法、およびプログラム |
| JP6502099B2 (ja) * | 2015-01-15 | 2019-04-17 | 日本電信電話株式会社 | 声門閉鎖時刻推定装置、ピッチマーク時刻推定装置、ピッチ波形接続点推定装置、その方法及びプログラム |
-
1998
- 1998-04-06 JP JP9359198A patent/JP3576800B2/ja not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8370153B2 (en) | 2008-09-26 | 2013-02-05 | Panasonic Corporation | Speech analyzer and speech analysis method |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH11184497A (ja) | 1999-07-09 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6490562B1 (en) | Method and system for analyzing voices | |
| EP2264696B1 (en) | Voice converter with extraction and modification of attribute data | |
| Rao et al. | Prosody modification using instants of significant excitation | |
| KR100385603B1 (ko) | 음성세그먼트작성방법,음성합성방법및그장치 | |
| US8280738B2 (en) | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method | |
| EP0995190B1 (en) | Audio coding based on determining a noise contribution from a phase change | |
| US20090281807A1 (en) | Voice quality conversion device and voice quality conversion method | |
| EP2388780A1 (en) | Apparatus and method for extending or compressing time sections of an audio signal | |
| WO1999059138A2 (en) | Refinement of pitch detection | |
| JPH06266390A (ja) | 波形編集型音声合成装置 | |
| CN101981612B (zh) | 声音分析装置以及声音分析方法 | |
| JP2003150187A (ja) | スムージングフィルタを用いた音声合成システム及びその方法並びにスムージングフィルタ特性制御装置及びその方法 | |
| JPH031200A (ja) | 規則型音声合成装置 | |
| Stylianou | Concatenative speech synthesis using a harmonic plus noise model. | |
| JP3576800B2 (ja) | 音声分析方法、及びプログラム記録媒体 | |
| US6950798B1 (en) | Employing speech models in concatenative speech synthesis | |
| Bonada et al. | Sample-based singing voice synthesizer by spectral concatenation | |
| JPH0193795A (ja) | 音声の発声速度変換方法 | |
| Ferreira | An odd-DFT based approach to time-scale expansion of audio signals | |
| Pfitzinger | DFW-based spectral smoothing for concatenative speech synthesis. | |
| Bonada et al. | Spectral approach to the modeling of the singing voice | |
| JP2005524118A (ja) | 合成音声 | |
| KR100359988B1 (ko) | 실시간 화속 변환 장치 | |
| JP4826580B2 (ja) | 音声信号の再生方法及び装置 | |
| Su et al. | Pitch-Scale Modification Based on Formant Extraction from Resampled Speech |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040120 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040318 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040629 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040708 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20070716 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080716 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090716 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100716 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110716 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120716 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 9 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| EXPY | Cancellation because of completion of term |