JP2001117597A

JP2001117597A - 音声変換装置、音声変換方法及び音声変換用辞書の生成方法

Info

Publication number: JP2001117597A
Application number: JP30026899A
Authority: JP
Inventors: Yasuo Yoshioka; 靖雄吉岡; Sera Xavier; セラザビエル; Shiimentsu Marc; シーメンツマーク; Bonada Jordi; ボナダジョルディ
Original assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Current assignee: Universitat Pompeu Fabra UPF; Yamaha Corp
Priority date: 1999-10-21
Filing date: 1999-10-21
Publication date: 2001-04-27
Anticipated expiration: 2019-10-21
Also published as: JP4430174B2

Abstract

(57)【要約】【目的】入力された歌唱者の音声を目標とする歌唱者
の歌い方に似せることができるとともに、ターゲットの
歌唱者の分析データの容量を低減する。【解決手段】入力音声信号ＳVに対応する入力フレー
ムデータＦSMSを抽出し、入力フレームデータＦSMSと生
成すべきターゲットフレームデータＴＧＦＬとの間の同
期をとるべくアライメント調整を行うとともに、ターゲ
ット音声から予め抽出したターゲットフレーム生成デー
タに基づいてターゲットフレームデータＴＧＦＬとを生
成し、入力フレームデータＦSMS及びターゲットフレー
ムデータＴＧＦＬに基づいて変換音声信号を生成し出力
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、処理対象となる
音声を目標とする他の音声に近似させる音声変換装置、
音声変換方法ならびに音声変換を行うに際し用いる他の
音声に対応する音声変換用辞書を生成する音声変換用辞
書の生成方法に係り、特にカラオケ装置に用いるのに好
適な音声変換装置、音声変換方法及び音声変換用辞書の
生成方法に関する。

【０００２】

【従来の技術】入力された音声の周波数特性などを変え
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある（例えば、特表平８−５０８５
８１号）。

【０００３】

【発明が解決しようとする課題】しかしながら、従来の
音声変換装置においては、音声の変換（例えば、男声→
女声、女声→男声など）は行われるものの、単に声質を
変えるだけに止まっていたので、例えば、特定の歌唱者
（例えば、プロの歌手）の声に似せるように変換すると
いうことはできなかった。また、声質だけでなく、歌い
方までも特定の歌唱者に似させるという、ものまねのよ
うな機能があれば、カラオケ装置などにおいては大変に
面白いが、従来の音声変換装置ではこのような処理は不
可能であった。

【０００４】そこで、発明者らは、声質を目標（ターゲ
ット）とする歌唱者（ターゲット歌唱者）の声に似させ
るために、ターゲット歌唱者の音声を分析し、得られた
分析データである正弦波成分属性ピッチ、アンプリチュ
ード、スペクトル・シェイプ及び残差成分を１曲分全て
のフレームについてターゲットフレームデータとして保
持し、入力音声を分析して得られる入力ターゲットフレ
ームデータとの同期をとって、変換処理を行うことによ
りターゲット歌唱者の声に似せるように変換を行う音声
変換装置を提案している（特願平１０−１８３３３８号
等参照）。上記音声変換装置は、声質だけでなく、歌い
方までも特定の歌唱者に似させることができるが、ター
ゲット歌唱者の分析データが一曲毎に必要となり、複数
の曲の分析データを記憶させるような場合には、データ
量が膨大になってしまうという不具合があった。

【０００５】そこで、本発明の目的は、入力された歌唱
者の音声を目標とする歌唱者の歌い方に似せることがで
きるとともに、ターゲット歌唱者の分析データの容量を
低減することが可能な音声変換装置、音声変換方法およ
び音声変換用辞書の生成方法を提供することにある。

【０００６】

【課題を解決するための手段】上記課題を解決するた
め、請求項１記載の構成は、入力音声信号に対応する入
力フレームデータを抽出する入力フレームデータ抽出手
段と、前記入力フレームデータと生成すべきターゲット
フレームデータとの間の同期をとるべくアライメント調
整を行うとともに、ターゲット音声から予め抽出したタ
ーゲットフレーム生成データに基づいて前記ターゲット
フレームデータを生成するターゲットフレームデータ生
成手段と、前記入力フレームデータ及び前記ターゲット
フレームデータに基づいて変換音声信号を生成し出力す
る変換音声信号生成手段と、を備えたことを特徴として
いる。

【０００７】請求項２記載の構成は、請求項１記載の構
成において、前記ターゲットフレーム生成データには、
ターゲット音声のピッチ軌跡データ、接続時間付き音素
表記情報および音素毎のスペクトル・シェイプが含まれ
ることを特徴としている。

【０００８】請求項３記載の構成は、請求項１または請
求項２記載の構成において、前記ターゲットフレーム生
成情報には、アンプリチュード軌跡情報が含まれること
を特徴としている。

【０００９】請求項４記載の構成は、請求項１記載の構
成において、前記ターゲットフレームデータ生成手段
は、前記入力音声信号から特徴ベクトルを抽出する特徴
ベクトル抽出手段と、予め記憶した認識用音素データ及
び予め記憶したターゲット挙動データに基づいて前記入
力フレームデータと前記ターゲットフレームデータとの
間の時間的位置関係を判別し、前記時間的位置関係に対
応するアライメントデータを出力するアライメント処理
手段と、前記ターゲットデータ、前記アライメントデー
タ、予め記憶したターゲット音素データ及び前記入力フ
レームデータに基づいて前記ターゲットフレームデータ
を生成するターゲットデコード手段と、を備えたことを
特徴としている。

【００１０】請求項５記載の構成は、請求項４記載の構
成において、予めターゲット音声の挙動を表すターゲッ
ト挙動データを記憶するターゲット挙動データ記憶手段
と、前記ターゲット挙動データおよび外部より入力され
たパラメータコントロールデータに基づいてピッチデー
タ、アンプリチュードデータおよび接続時間付き音素表
記データを生成し出力するデータ変換手段と、を備えた
ことを特徴としている。

【００１１】請求項６記載の構成は、請求項４記載の構
成において、前記ターゲットデコード手段は、ターゲッ
ト音素辞書内の同一音素についての二つのピッチに対応
したスペクトル・シェイプを用いて補間処理を行い、所
望のピッチに対応するスペクトル・シェイプを算出する
スペクトル・シェイプ補間手段を備えたことを特徴とし
ている。

【００１２】請求項７記載の構成は、請求項６記載の構
成において、音素が安定状態あるいは遷移状態のいずれ
にあるかを判別する状態判別手段を備え、前記スペクト
ル・シェイプ補間手段は、前記状態判別手段の判別状態
に基づいて前記音素が遷移状態にある場合に、遷移元の
音素に対応するスペクトル・シェイプ及び遷移先の音素
に対応するスペクトル・シェイプを用いて前記補間処理
を行うことを特徴としている。

【００１３】請求項８記載の構成は、請求項６記載の構
成において、前記スペクトル・シェイプ補間手段は、二
つのスペクトル・シェイプを用いて補間を行うに際し、
前記二つのスペクトル・シェイプ間におけるスペクトル
・シェイプ遷移関数を用いて前記補間処理を行うことを
特徴としている。

【００１４】請求項９記載の構成は、請求項８記載の構
成において、前記遷移関数は、線形関数あるいは非線形
関数として予め定義されていることを特徴としている。

【００１５】請求項１０記載の構成は、請求項８記載の
構成において、前記二つのスペクトル・シェイプを周波
数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷
移関数を定めることを特徴としている。

【００１６】請求項１１記載の構成は、請求項８記載の
構成において、前記スペクトル・シェイプ補間手段は、
前記遷移先の音素に対応させて前記遷移関数を定めるこ
とを特徴としている。

【００１７】請求項１２記載の構成は、請求項８記載の
構成において、前記スペクトル・シェイプ補間手段は、
前記入力音声信号に対応する、あるいは、前記ターゲッ
ト音声に対応するピッチ若しくはスペクトル・シェイプ
に基づいて前記遷移関数をリアルタイムで決定する遷移
関数リアルタイム決定手段と、を備えたことを特徴とし
ている。

【００１８】請求項１３記載の構成は、請求項８記載の
構成において、前記スペクトル・シェイプ補間手段は、
前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域に属する前記二つのスペク
トル・シェイプ上の実在の周波数およびマグニチュード
の組に対し、前記遷移関数としての線形関数を用いた前
記補間処理を前記複数の領域にわたって行うことを特徴
としている。

【００１９】請求項１４記載の構成は、請求項１３記載
の構成において、前記スペクトル・シェイプ補間手段
は、前記各領域に属する一方のスペクトル・シェイプの
周波数である第１周波数及び当該第１周波数に対応する
他方のスペクトル・シェイプの周波数である第２周波数
を前記線形関数を用いて補間することにより補間周波数
を算出する周波数補間手段と、前記各領域に属する一方
のスペクトル・シェイプのマグニチュードである第１マ
グニチュードおよび当該第１マグニチュードに対応する
他方のスペクトル・シェイプのマグニチュードである第
２マグニチュードを前記線形関数を用いて補間するマグ
ニチュード補間手段と、を備えたことを特徴としてい
る。

【００２０】請求項１５記載の構成は、請求項４記載の
構成において、前記ターゲットフレームデータは、ター
ゲットスペクトル・シェイプを含み、前記ターゲットデ
コード手段は、前記ターゲットスペクトル・シェイプの
アンプリチュードに応じて当該ターゲットスペクトル・
シェイプのスペクトル傾きを補正するスペクトル傾き補
正手段を備えたことを特徴としている。

【００２１】請求項１６記載の構成は、請求項１５記載
の構成において、前記スペクトル傾き補正手段は、前記
ターゲットスペクトル・シェイプのスペクトル傾きと、
当該ターゲットスペクトル・シェイプに対応し、かつ、
前記入力音声信号に対応する入力スペクトル・シェイプ
のスペクトル傾きと、の差に相当するスペクトル傾き補
正フィルタ手段を備えたことを特徴としている。

【００２２】請求項１７記載の構成は、入力音声信号に
対応する入力フレームデータを抽出する入力フレームデ
ータ抽出過程と、前記入力フレームデータと生成すべき
ターゲットフレームデータとの間の同期をとるべくアラ
イメント調整を行うとともに、ターゲット音声から予め
抽出したターゲットフレーム生成データに基づいて前記
ターゲットフレームデータを生成するターゲットフレー
ムデータ生成過程と、前記入力フレームデータ及び前記
ターゲットフレームデータに基づいて変換音声信号を生
成し出力する変換音声信号生成過程と、を備えたことを
特徴としている。

【００２３】請求項１８記載の構成は、請求項１７記載
の構成において、前記ターゲットフレームデータ生成過
程は、前記入力音声信号から特徴ベクトルを抽出する特
徴ベクトル抽出過程と、予め記憶した認識用音素データ
及び予め記憶したターゲット挙動データに基づいて前記
入力フレームデータと前記ターゲットフレームデータと
の間の時間的位置関係を判別し、前記時間的位置関係に
対応するアライメントデータを出力するアライメント処
理過程と、前記ターゲットデータ、前記アライメントデ
ータ、予め記憶したターゲット音素データ及び前記入力
フレームデータに基づいて前記ターゲットフレームデー
タを生成するターゲットデコード過程と、を備えたこと
を特徴としている。

【００２４】請求項１９記載の構成は、請求項１８記載
の構成において、予め記憶したターゲット音声の挙動を
表すターゲット挙動データおよび外部より入力されたパ
ラメータコントロールデータに基づいてピッチデータ、
アンプリチュードデータおよび接続時間付き音素表記デ
ータを生成し出力するデータ変換過程と、を備えたこと
を特徴としている。

【００２５】請求項２０記載の構成は、請求項１８記載
の構成において、前記ターゲットデコード過程は、ター
ゲット音素辞書内の同一音素についての二つのピッチに
対応したスペクトル・シェイプを用いて補間処理を行
い、所望のピッチに対応するスペクトル・シェイプを算
出するスペクトル・シェイプ補間過程を備えたことを特
徴としている。

【００２６】請求項２１記載の構成は、請求項２０記載
の構成において、音素が安定状態あるいは遷移状態のい
ずれにあるかを判別する状態判別過程を備え、前記スペ
クトル・シェイプ補間過程は、前記状態判別過程の判別
状態に基づいて前記音素が遷移状態にある場合に、遷移
元の音素に対応するスペクトル・シェイプ及び遷移先の
音素に対応するスペクトル・シェイプを用いて前記補間
処理を行うことを特徴としている。

【００２７】請求項２２記載の構成は、請求項２０記載
の構成において、前記スペクトル・シェイプ補間過程
は、二つのスペクトル・シェイプを用いて補間を行うに
際し、前記二つのスペクトル・シェイプ間におけるスペ
クトル・シェイプ遷移関数を用いて前記補間処理を行う
ことを特徴としている。

【００２８】請求項２３記載の構成は、請求項２２記載
の構成において、前記遷移関数は、線形関数あるいは非
線形関数として予め定義されていることを特徴としてい
る。

【００２９】請求項２４記載の構成は、請求項２２記載
の構成において、前記二つのスペクトル・シェイプを周
波数軸上でそれぞれ複数の領域に分け、各領域毎に前記
遷移関数を定めることを特徴としている。

【００３０】請求項２５記載の構成は、請求項２２記載
の構成において、前記スペクトル・シェイプ補間過程
は、前記遷移先の音素に対応させて前記遷移関数を定め
ることを特徴としている。

【００３１】請求項２６記載の構成は、請求項２２記載
の構成において、前記スペクトル・シェイプ補間過程
は、前記入力音声信号に対応する、あるいは、前記ター
ゲット音声に対応するピッチ若しくはスペクトル・シェ
イプに基づいて前記遷移関数をリアルタイムで決定する
遷移関数リアルタイム決定過程と、を備えたことを特徴
としている。

【００３２】請求項２７記載の構成は、請求項２２記載
の構成において、前記スペクトル・シェイプ補間過程
は、前記二つのスペクトル・シェイプを周波数軸上でそ
れぞれ複数の領域に分け、各領域に属する前記二つのス
ペクトル・シェイプ上の実在の周波数およびマグニチュ
ードの組に対し、前記遷移関数としての線形関数を用い
た前記補間処理を前記複数の領域にわたって行うことを
特徴としている。

【００３３】請求項２８記載の構成は、請求項２７記載
の構成において、前記スペクトル・シェイプ補間過程
は、前記各領域に属する一方のスペクトル・シェイプの
周波数である第１周波数及び当該第１周波数に対応する
他方のスペクトル・シェイプの周波数である第２周波数
を前記線形関数を用いて補間することにより補間周波数
を算出する周波数補間過程と、前記各領域に属する一方
のスペクトル・シェイプのマグニチュードである第１マ
グニチュードおよび当該第１マグニチュードに対応する
他方のスペクトル・シェイプのマグニチュードである第
２マグニチュードを前記線形関数を用いて補間するマグ
ニチュード補間過程と、を備えたことを特徴としてい
る。

【００３４】請求項２９記載の構成は、請求項１８記載
の構成において、前記ターゲットフレームデータは、タ
ーゲットスペクトル・シェイプを含み、前記ターゲット
デコード過程は、前記ターゲットスペクトル・シェイプ
のアンプリチュードに応じて当該ターゲットスペクトル
・シェイプのスペクトル傾きを補正するスペクトル傾き
補正過程を備えたことを特徴としている。

【００３５】請求項３０記載の構成は、請求項２９記載
の構成において、前記スペクトル傾き補正過程は、前記
ターゲットスペクトル・シェイプのスペクトル傾きと、
当該ターゲットスペクトル・シェイプに対応し、かつ、
前記入力音声信号に対応する入力スペクトル・シェイプ
のスペクトル傾きと、の差に相当するスペクトル傾き補
正を行うことを特徴としている。

【００３６】請求項３１記載の構成は、ターゲット歌手
の音声であるターゲット音声に対応する音声変換用辞書
を生成する音声変換用辞書の生成方法において、各音素
について前記ターゲット歌手により低域側ピッチから高
域側ピッチにわたって連続的に発声させた音素発声信号
に基づいてスペクトル・シェイプを算出し、得られたス
ペクトル・シェイプを同一のスペクトル・シェイプとみ
なせるスペクトル・シェイプが属するピッチの区間をセ
グメントと定義し、前記セグメントに属する全ての前記
スペクトル・シェイプを予め定めた所定の周波数帯域幅
を有する周波数帯域毎に分割し、各前記周波数帯域の中
心周波数を算出し、各前記周波数帯域に属するスペクト
ル・シェイプの当該周波数帯域に対応する前記中心周波
数におけるマグニチュードの平均値を平均マグニチュー
ドとし、前記平均マグニチュードを前記セグメントに属
する全ての前記周波数帯域について算出し、前記セグメ
ントに属する全ての前記周波数帯域について算出した平
均マグニチュードを前記セグメント区間の平均ピッチに
おけるターゲットスペクトル・シェイプとして、前記音
声変換用辞書に格納する、ことを特徴としている。

【００３７】

【発明の実施の形態】次に図面を参照して本発明の好適
な実施形態について説明する。［Ａ］第１実施形態まず、本発明の第１実施形態について説明する。［１］音声変換装置の全体構成図１に実施形態の音声変換装置（音声変換方法）をカラ
オケ装置に適用し、ものまねを行うことができるカラオ
ケ装置として構成した場合の例である。音声変換装置１
０は、歌唱者の音声が入力され、歌唱信号を出力する歌
唱信号入力部１１と、予め定めたコードブックに基づい
て歌唱信号から各種特徴ベクトルを抽出する認識特徴分
析部１２と、歌唱信号のＳＭＳ（Spectral Modeling Sy
nthesis）分析を行って入力ＳＭＳフレームデータおよ
び有声／無声情報を出力するＳＭＳ分析部１３と、各種
コードブックおよび各音素の隠れマルコフモデル（ＨＭ
Ｍ）を予め記憶した認識用音素辞書記憶部１４と、曲に
依存したターゲット挙動データを記憶するターゲット挙
動データ記憶部１５と、キー情報、テンポ情報、似具合
パラメータ、変換パラメータなどの各種パラメータを制
御するためのパラメータコントロール部１６と、ターゲ
ット挙動データ記憶部に記憶されたターゲット挙動デー
タ、キー情報およびテンポ情報に基づいてデータ変換を
行い、変換された持続時間付音素表記情報、ピッチ情報
およびアンプリチュード（振幅）情報を生成し出力する
データ変換部１７と、を備えて構成されている。

【００３８】また、音声変換装置１０は、抽出された特
徴ベクトル、各音素のＨＭＭおよび持続時間付音素表記
情報に基づいて歌唱者が対象としている曲中のどの部分
を歌っているかをビタビアルゴリズムを用いて求め、ア
ライメント情報（＝ターゲット歌手が歌うべき曲中の歌
唱位置および音素）を検出するアライメント処理部１８
と、ターゲット歌手に依存するスペクトル・シェイプ情
報を記憶するターゲット音素辞書記憶部１９と、アライ
メント情報、ターゲット挙動データのピッチ情報、ター
ゲット挙動データのアンプリチュード情報、入力ＳＭＳ
フレームデータおよびターゲット音素辞書のスペクトル
・シェイプ情報に基づいてターゲットのフレームデータ
（以下、ターゲットフレームデータという。）ＴＧＦＬ
を生成し出力するターゲット・デコーダ部２０と、パラ
メータコントロール部１６から入力される似具合パラメ
ータ、ターゲットフレームデータＴＧＦＬおよびＳＭＳ
フレームデータＦSMSに基づいてモーフィング処理を行
い、モーフィングフレームデータＭＦＬを出力するモー
フィング処理部２１と、モーフィングフレームデータＭ
ＦＬおよびパラメータコントロール部１６より入力され
た変換パラメータに基づいて変換処理を行い、変換フレ
ームデータＭＭＦＬを出力する変換処理部２２と、を備
えて構成されている。

【００３９】さらに、音声変換装置１０は、変換フレー
ムデータＭＭＦＬのＳＭＳ合成を行い、変換音声信号で
ある波形信号ＳWAVを出力するＳＭＳ合成部２３と、Ｓ
ＭＳ分析部１３からの有声／無声情報に基づいて波形信
号ＳWAVあるいは入力された歌唱信号ＳVのいずれかを選
択的に出力する選択部２４と、パラメータコントロール
部１６からのキー情報およびテンポ情報に基づいて音源
部２５を駆動するシーケンサ２６と、選択部２４から出
力された波形信号ＳWAVあるいは歌唱信号ＳVと音源部２
５からの出力信号であるミュージック信号ＳMSCを加算
して出力する加算部２７と、加算部２７の出力信号を増
幅等行ってカラオケ信号として出力する出力部２８と、
を備えて構成されている。

【００４０】ここで、音声変換装置の各部の構成の説明
に先立ち、ＳＭＳ分析について説明する。ＳＭＳ分析で
は、まず標本化された音声波形に窓関数を乗じた音声波
形（Frame）を切り出し、高速フーリエ変換（FFT）を行
って得られる周波数スペクトルから、正弦波成分と残差
成分とを抽出する。この場合において、正弦波成分と
は、基本周波数（Pitch）および基本周波数の倍数にあ
たる周波数（倍音）の成分をいう。そして、正弦波成分
として本実施形態では、基本周波数、各成分の平均アン
プリチュードおよびスペクトル包絡をエンベロープとし
て保持する。また、残差成分とは、入力信号から正弦波
成分を除いた成分であり、本実施形態では周波数領域の
データとして保持する。さらに得られた正弦波成分およ
び残差成分で示される周波数分析データは、フレーム単
位で記憶されることとなる。このとき、フレーム間の時
間間隔は固定（例えば、５ｍｓ）となっているので、フ
レームをカウントすることによって時間を特定すること
ができるようになっている。さらに各フレームには曲の
冒頭からの経過時間に相当するタイムスタンプが付され
ている。

【００４１】［２］音声変換装置の各部の構成［２．１］認識用音素辞書記憶部認識用音素辞書記憶部１４は、コードブック及び音素の
隠れマルコフモデルを記憶している。記憶しているコー
ドブックは、歌唱信号を各種特徴ベクトル（より具体的
には、メルケプストラム、差分メルケプストラム、エネ
ルギー、差分エネルギー、ボイスネス（有声音尤度））
にベクトル量子化するために用いられる。また、本音声
変換装置においては、アライメント処理を行うために音
声認識の一手法である隠れマルコフモデル（ＨＭＭ）を
用いており、ＨＭＭパラメータ（初期状態分布、状態遷
移確率行列、観測シンボル確率行列）を各音素（/a/、/
i/等）について求めたものが記憶されている。

【００４２】［２．２］ターゲット挙動データ記憶部ターゲット挙動データ記憶部１５はターゲット挙動デー
タを記憶しており、このターゲット挙動データは、音声
変換を行う曲それぞれに対応した曲依存のデータであ
る。具体的には、対象となる曲を物まねの対象となるタ
ーゲット歌手が歌ったものから、ピッチ、アンプリチュ
ードの時間的変化を抽出したもの（なお、これらを静的
変化成分、ビブラート的変化成分に分離して抽出してお
くと、後処理の自由度がより高くなる）および対象とな
る曲の歌詞に基づいて歌詞を音素列の並びに置き換えた
音素表記に持続時間を含めた持続時間付音素表記が含ま
れる。例えば、持続時間付音素表記は、音素表記/n//a/
/k//i/……に対し、各々の持続時間、すなわち、/n/の
持続時間、/a/の持続時間、/k/の持続時間、/i/の持続
時間、……が含められる。

【００４３】［２．３］ターゲット音素辞書記憶部ターゲット音素辞書記憶部は、物まね対象となるターゲ
ット歌手の各音素に対応したスペクトル情報であるター
ゲット音素辞書を記憶しており、ターゲット音素辞書に
は、何種類かのピッチに対応したスペクトル・シェイプ
およびスペクトル補間を行うためのアンカーポイント情
報が含まれている。ここで、ターゲット音素辞書記憶部
１９に記憶されている音声変換用辞書としてのターゲッ
ト音素辞書の作成について図２及び図３を参照して説明
する。［２．３．１］ターゲット音素辞書ターゲット音素辞書は、各音素毎にいくつかのピッチに
対応してスペクトル・シェイプと、アンカーポイント情
報を有している。図２にターゲット音素辞書の説明図を
示す。図２（ｂ）、（ｃ）、（ｄ）は、ある音素におけ
るピッチｆ0i+1、ｆ0i、ｆ0i-1にそれぞれ対応するスペ
クトル・シェイプを示したものであり、一つの音素に対
して複数の（上述の例の場合、３個）スペクトル・シェ
イプがターゲット音素辞書には含まれる。このように複
数のピッチに対応したスペクトル・シェイプをターゲッ
ト音素辞書として持つ理由は、一般的に同一人物が同一
の音素を発声したとしても、ピッチに応じてスペクトル
・シェイプの形状は多少変化するものだからである。ま
た、図２（ｂ）、（ｃ）、（ｄ）中、点線は周波数軸上
で複数の領域に分ける際の境界線であり、各領域の境界
の周波数がアンカーポイントであり、アンカーポイント
情報として当該周波数がターゲット音素辞書に含まれて
いる。

【００４４】［２．３．２］ターゲット音素辞書の作
成次にターゲット音素辞書の作成について説明する。ま
ず、ターゲット歌手がそれぞれの音素について出しうる
一番低いピッチから一番高いピッチまで、連続して発生
したものを録音する。より具体的には図２（ａ）のよう
に、時間とともにピッチをあげていくように発声する。
このように録音を行う理由は、より正確なスペクトル・
シェイプを算出するためである。すなわち、ある固定ピ
ッチで発生したサンプルから分析して求めたスペクトル
・シェイプには、実際に存在するフォルマントが必ずし
も現れるとは限らないからである。従って、求めるスペ
クトル・シェイプに正確にフォルマントが現れるように
するために、あるピッチの前後で同じスペクトル・シェ
イプとみなせる範囲内の分析結果の全てを用いる必要が
ある。

【００４５】同じスペクトル・シェイプと見なせるピッ
チの周波数範囲を同じセグメントであるとすると、ｉ番
目のセグメントの中心周波数ｆ0iは、

【数１】ここで、ｆ_i ^(low)、ｆ_i ^(high)は、ある音素のｉ番目の
セグメントの境界のピッチ周波数であり、ｆ_i ^(low)が低
ピッチ側のピッチ周波数を表し、ｆ_i ^(high)が高ピッチ
側のピッチ周波数を表す。同じセグメントとみなせるピ
ッチにおけるスペクトル・シェイプの全ての値（周波数
及びマグニチュードの組）を一つにまとめる。より具体
的には、例えば、図３（ａ）に示すように、同じセグメ
ントとみなせるピッチにおけるスペクトル・シェイプを
同一の周波数軸／マグニチュード軸上にプロットする。
次に周波数軸上で周波数範囲［０，ｆ_S／２］を等間隔
（例えば３０［Ｈｚ］）に分割する。ここで、ｆ_Sは、
サンプリング周波数である。

【００４６】このときの分割幅をＢＷ［Ｈｚ］、分割数
をＢ（バンド番号ｂ∈［０，Ｂ−１］）とし、各分割範
囲内に含まれる実際の周波数及びマグニチュードの組を（ｘn、ｙn）ここで、ｎ＝０、……、Ｎ−１である。とすると、当該バンドｂの中心周波数ｆb及び平均マグ
ニチュードＭbは、それぞれ、

【数２】と計算される。このようにして求めた（ｆb、Ｍb）ここで、ｂ＝０、……、Ｂ−１である。の組が最終的なあるピッチにおけるスペクトル・シェイ
プである。

【００４７】より具体的には、図３（ａ）に示した周波
数及びマグニチュードの組を用いてスペクトル・シェイ
プを算出した場合には、図３（ｃ）に示すようにターゲ
ット音素辞書に格納すべき、フォルマントがはっきりと
現れた良好なスペクトル・シェイプが得られる。これに
対し図３（ｂ）に示すように、同じセグメントとみなす
ことができないようなピッチにおけるスペクトル・シェ
イプの全ての値（周波数及びマグニチュードの組）を一
つにまとめ、まとめた周波数及びマグニチュードの組を
用いてスペクトル・シェイプを算出した場合には、図３
（ｄ）に示すように、図３（ｃ）の場合と比較してフォ
ルマントがあまりはっきりしないスペクトル・シェイプ
が得られることとなる。

【００４８】［２．４］ターゲット・デコーダ部［２．４．１］ターゲット・デコーダ部の構成図４にターゲット・デコーダ部の構成ブロック図を示
す。ターゲット・デコーダ部２０は、歌唱者及びターゲ
ット歌唱者のピッチ、アライメントおよび既に処理済み
のデコードフレームからデコードされるべきフレームに
対応する音素が安定状態にあるかあるいは他の音素に移
行する遷移状態にあるかを決定する安定状態／遷移状態
決定部３１と、スムーズなフレームデータの生成のため
に既に処理済みのデコードフレームを格納するフレーム
メモリ部３２と、安定状態／遷移状態決定部３１におけ
る決定結果に基づいてデコードされるべきフレームに対
応する音素が安定状態にある場合には現在の音素のスペ
クトル・シェイプを現在のターゲットのピッチ付近の二
つのスペクトル・シェイプから後述のスペクトル補間の
方法を用いて第１補間スペクトル・シェイプＳＳ１とし
て生成し、デコードされるべきフレームに対応する音素
が遷移状態にある場合には遷移元の音素のスペクトル・
シェイプを現在のターゲットのピッチ付近の二つのスペ
クトル・シェイプから後述のスペクトル補間の方法を用
いて第２補間スペクトル・シェイプＳＳ２として生成す
る第１スペクトル補間部３３と、を備えて構成されてい
る。

【００４９】また、ターゲット・デコーダ部２０は、安
定状態／遷移状態決定部３１における決定結果に基づい
てデコードされるべきフレームに対応する音素が遷移状
態にある場合に遷移先の音素のスペクトル・シェイプを
現在のターゲットのピッチ付近の二つのスペクトル・シ
ェイプから後述のスペクトル補間の方法を用いて第３補
間スペクトル・シェイプＳＳ３として生成する第２スペ
クトル補間部３４と、遷移元の音素及び遷移先の音素並
びに歌唱者のピッチ、ターゲット歌唱者のピッチ及びス
ペクトル・シェイプなどを考慮に入れて遷移元の音素か
ら遷移先の音素に遷移させる場合の遷移のさせかたを規
定する遷移関数を発生する遷移関数発生部３５と、安定
状態／遷移状態決定部３１における決定結果に基づいて
デコードされるべきフレームに対応する音素が遷移状態
にある場合に遷移関数発生部３５において発生された遷
移関数並びに第２補間スペクトル・シェイプＳＳ２及び
第３補間スペクトル・シェイプＳＳ３の二つのスペクト
ル・シェイプから後述のスペクトル補間の方法を用いて
第４スペクトル・シェイプＳＳ４として生成する第３ス
ペクトル補間部３６と、を備えて構成されている。

【００５０】さらに、ターゲット・デコーダ部２０は、
出力されるデコードフレームがよりリアルであるように
ターゲットのピッチ及びフレームメモリ部３２に格納さ
れている処理済みのデコードフレームに基づいてスペク
トル・シェイプの微細構造を時間軸に沿って変化させ
（例えば、マグニチュードを時間とともに少しずつ変化
させる）、時間的変化が付加されたスペクトル・シェイ
プＳＳｔを出力する時間的変化付加部３７と、時間的変
化付加部３７により時間的変化が付加されたスペクトル
・シェイプＳＳｔをさらにリアルにするためにターゲッ
トのアンプリチュードに対応させてスペクトル・シェイ
プＳＳｔのスペクトル傾きを補正してターゲットスペク
トル・シェイプＳＳＴＧとして出力するスペクトル傾き
補正部３８と、アライメント情報、ターゲットのピッチ
及びアンプリチュードに基づいて出力するデコードフレ
ームに対応するターゲットのピッチおよびアンプリチュ
ードを算出するターゲットピッチ／アンプリチュード算
出部３９と、を備えて構成されている。

【００５１】［２．４．２］ターゲット・デコーダ部
の詳細動作ここで、ターゲット・デコーダ部２０の詳細動作につい
て説明する。この場合において、よりスムーズなフレー
ムデータの生成の為、ターゲット・デコーダ部２０が出
力すべきフレームデータ（デコードフレーム；ターゲッ
トスペクトル・シェイプ）はフレームメモリ部に記憶さ
れる。ターゲット・デコーダ部２０への入力情報として
は、歌唱音声の情報（ピッチ、アンプリチュード、スペ
クトル・シェイプ、アライメント）、ターゲット挙動デ
ータ（ピッチ、アンプリチュード、持続時間付音素表
記）、ターゲット音素辞書（スペクトル・シェイプ）が
含まれている。

【００５２】そして、安定状態／遷移状態決定部３１
は、歌唱者、ターゲット歌手のピッチ、アライメント情
報、過去のデコード・フレームからデコードされるべき
フレームが安定状態（ある音素からある音素への遷移
（変化）途中ではなく、ある音素であることが特定でき
る状態にあるか否かを決定し、決定結果を第１スペクト
ル補間部３３及び第２スペクトル補間部３４に通知す
る。第１スペクトル補間部３３は、安定状態／遷移状態
決定部３１の通知に基づいて、デコードされるべきフレ
ームが安定状態である場合には、現在の音素のスペクト
ル・シェイプを現在のターゲットのピッチ付近の２つの
スペクトル・シェイプから、後述するスペクトル補間の
方法を用いて補間されたスペクトル・シェイプである第
１補間スペクトル・シェイプＳＳ１を算出し時間的変化
付加部３７に出力する。

【００５３】また、第１スペクトル補間部３３は、安定
状態／遷移状態決定部３１の通知に基づいて、デコード
されるべきフレームが遷移状態である場合には、遷移元
の音素（第１の音素から第２の音素に遷移途中の場合に
おける、第１の音素）のスペクトル・シェイプを現在の
ターゲットのピッチ付近の２つのスペクトル・シェイプ
から、後述するスペクトル補間の方法を用いて補間され
たスペクトル・シェイプである第２補間スペクトル・シ
ェイプＳＳ２を算出し、第３スペクトル補間部３６に出
力する。一方、第２スペクトル補間部３４は、安定状態
／遷移状態決定部３１の通知に基づいて、デコードされ
るべきフレームが遷移状態である場合に、遷移先の音素
（第１の音素から第２の音素に遷移途中の場合におけ
る、第２の音素）のスペクトル・シェイプを現在のター
ゲットのピッチ付近の２つのスペクトル・シェイプか
ら、後述するスペクトル補間の方法を用いて補間された
スペクトル・シェイプである第３補間スペクトル・シェ
イプを算出し、第３スペクトル補間部３６に出力する。

【００５４】これらの結果、第３スペクトル補間部３６
は、安定状態／遷移状態決定部３１の通知に基づいて、
デコードされるべきフレームが遷移状態である場合に、
第１補間スペクトル・シェイプおよび第２スペクトル補
間処理において算出された第２補間スペクトル・シェイ
プに基づいて後述するスペクトル補間の方法を用いて補
間し、第４スペクトル・シェイプＳＳ４を算出し、時間
的変化付加部３７に出力する。この第４スペクトル・シ
ェイプＳＳ４は、二つの異なる音素の中間的な音素のス
ペクトル・シェイプに相当するものとなる。この場合に
おいて、第４スペクトル・シェイプＳＳ４を求めるべく
補間を行う際には、単純にある時間に亘って対応する領
域（その境界点はアンカー・ポイントで示される。）内
で線形に補間を行うのではなく、遷移関数発生部３５に
おいて生成される遷移関数に従ってスペクトル補間を行
うことにより、より現実に近いスペクトル補間を行うこ
とができる。

【００５５】例えば、遷移関数発生部３５は、音素/a/
から音素/e/に変化する際には、１０フレームかけて対
応する領域内（後述するアンカー・ポイント間）のスペ
クトルを時間的に線形に変化させ、また、音素/a/から
音素/u/に変化する際には、５フレームかけて変化する
が、ある周波数帯域内（後述するアンカー・ポイント
間）のスペクトルについては、線形に変化させ、他の周
波数帯域内（後述するアンカー・ポイント間）のスペク
トルについては、指数関数的に変化させることにより、
自然な音素間の移動をスムーズに実現することができ
る。このため、遷移関数発生処理においては、音素、ピ
ッチに基づくとともに、歌唱者、ターゲットのピッチや
スペクトル・シェイプ等を考慮に入れて、遷移関数を発
生させる。この場合において、後述するようにターゲッ
ト音素辞書の中にこれらの情報を含めてしまうように構
成することも可能である。次に時間的変化付加部３７
は、入力された第１補間スペクトル・シェイプＳＳ１ま
たは第４補間スペクトル・シェイプＳＳ４に対し、ター
ゲット・デコーダ部２０より出力されるターゲットスペ
クトル・シェイプ（＝デコードフレーム）がより実在す
るフレームと近似するようにターゲットのピッチおよび
過去のデコードフレームに基づいて、スペクトル・シェ
イプの微細構造を変化させ、時間的変化付加スペクトル
・シェイプＳＳｔとしてスペクトル傾き補正部３８に出
力する。

【００５６】例えば、スペクトル・シェイプの微細構造
としてのマグニチュードを時間的に少しづつ変化させる
ようにする。スペクトル傾き補正部３８は、入力された
時間的変化付加スペクトル・シェイプＳＳｔに対し、出
力されるターゲットスペクトル・シェイプ（＝デコード
フレーム）ＳＳＴＧがより実在するフレームと近似する
ようにターゲットのアンプリチュードに応じたスペクト
ル傾きを有するように補正を行い、補正後のスペクトル
・シェイプをターゲットスペクトル・シェイプＳＳＴＧ
として出力する。スペクトル傾き補正処理としては、出
力する音量が大きいときは一般的にスペクトル・シェイ
プの高域が豊か（リッチ）であり、音量が小さいときは
スペクトル・シェイプの高域が乏しい（＝こもったよう
な音）ことをシミュレートするために、スペクトル・シ
ェイプの高域部の形状を音量に応じて変化させてやるの
である。そして、スペクトル傾き補正して得られるター
ゲットスペクトル・シェイプＳＳＴＧをフレームメモリ
部３２に格納することとなる。一方、ターゲットピッチ
／アンプリチュード算出部３９は、出力するターゲット
スペクトル・シェイプＳＳＴＧに対応するピッチＴＧ
Ｐ、アンプリチュードＴＧＡを算出し出力する。

【００５７】［２．４．３］スペクトル補間処理ここで、図５を参照してターゲット・デコーダ部のスペ
クトル補間処理について説明する。［２．４．３．１］スペクトル補間処理の概要まず、安定状態／遷移状態決定部３１における決定結果
に基づいてデコードされるべきフレームに対応する音素
が安定状態にある場合には、ターゲットデコーダ部２０
は、当該音素に対応する二つのスペクトル・シェイプを
ターゲットの音素辞書から取り出し、また、デコードさ
れるべきフレームに対応する音素が遷移状態にある場合
には、遷移元の音素に対応する二つのスペクトル・シェ
イプをターゲットの音素辞書から取り出す。図５（ａ）
及び図５（ｂ）は、安定状態にある音素あるいは遷移元
の音素に対応させてターゲット音素辞書から取り出され
た二つのスペクトル・シェイプであり、この二つのスペ
クトル・シェイプのピッチは異なっている。例えば、求
めたいスペクトル・シェイプがピッチ１４０［Ｈｚ］、
音素/a/のものだとすると、図５（ａ）のスペクトル・
シェイプは、ピッチ１００［Ｈｚ］の音素/a/に対応す
るものであり、図５（ｂ）のスペクトル・シェイプは、
ピッチ２００［Ｈｚ］の音素/a/に対応するものであ
る。すなわち、求めたいスペクトル・シェイプのピッチ
を挟むような前後のピッチでそれぞれ最も近いピッチを
有する二つのスペクトル・シェイプであって、かつ、求
めたいスペクトル・シェイプと同一の音素に対応する二
つのスペクトル・シェイプを用いる。

【００５８】得られた二つのスペクトル・シェイプを第
１スペクトル補間部３３でスペクトル補間の方法で補間
することにより、図５（ｅ）に示すような所望のスペク
トル・シェイプ（第１スペクトル・シェイプＳＳ１ある
いは第２スペクトル・シェイプＳＳ２に相当）を得る。
得られたスペクトル・シェイプは、安定状態／遷移状態
決定部３１における決定結果に基づいてデコードされる
べきフレームに対応する音素が安定状態にある場合に
は、そのまま得られたスペクトル・シェイプを時間的変
化付加部３７に出力する。、さらに安定状態／遷移状態
決定部３１における決定結果に基づいてデコードされる
べきフレームに対応する音素が遷移状態にある場合に
は、遷移先の音素に対応する二つのスペクトル・シェイ
プをターゲットの音素辞書から取り出す。図５（ｃ）及
び図５（ｄ）は、遷移先の音素に対応させてターゲット
音素辞書から取り出された二つのスペクトル・シェイプ
であり、この二つのスペクトル・シェイプのピッチも図
５（ａ）及び図５（ｂ）の場合と同様に異なっている。
そして得られた二つのスペクトル・シェイプを第２スペ
クトル補間部３４で補間することにより、図５（ｆ）に
示すような所望のスペクトル・シェイプ（第３スペクト
ル・シェイプＳＳ３に相当）を得る。さらにまた、安定
状態／遷移状態決定部３１における決定結果に基づいて
デコードされるべきフレームに対応する音素が遷移状態
にある場合には、図５（ｅ）及び図５（ｆ）に示したス
ペクトル・シェイプを第３スペクトル補間部３６でスペ
クトル補間の方法で補間することにより、図５（ｇ）に
示すような所望のスペクトル・シェイプ（第４スペクト
ル・シェイプＳＳ４に相当）を得る。

【００５９】［２．４．３．２］スペクトル補間手法ここで、スペクトル補間の手法について詳細に説明す
る。スペクトル補間を用いる目的は、以下の二つに大別
される。（１）二つの時間的に連続するフレームのスペクトル
・シェイプを補間し、時間的に二つのフレームの間にあ
るフレームのスペクトル・シェイプを求める。（２）二つの異なる音のスペクトル・シェイプを補間
し、中間的な音のスペクトル・シェイプを求める。図６（ａ）に示すように、補間のもととなる二つのスペ
クトル・シェイプ（以下、便宜上、第１スペクトル・シ
ェイプＳＳ１１および第２スペクトル・シェイプＳＳ１
２とする。なお、これらは、上述の第１スペクトル・シ
ェイプＳ１および第２スペクトル・シェイプＳ２とは全
く別個のものである。）を各々周波数軸上で複数の領域
Ｚ１、Ｚ２、……に分割する。そして、各領域を区切る
境界の周波数を各スペクトル・シェイプ毎にそれぞれ以
下のように設定する。この設定した境界の周波数をアン
カー・ポイントと呼んでいる。第１スペクトル・シェイプＳＳ１１：ＲＢ1,1、ＲＢ2,
1、……、ＲＢN,1 第２スペクトル・シェイプＳＳ１２：ＲＢ1,2、ＲＢ2,
2、……、ＲＢM,2

【００６０】図６（ｂ）に線形スペクトル補間の説明図
を示す。線形スペクトル補間は、補間位置により定義さ
れ、補間位置Ｘは、０から１までの範囲である。この場
合において、補間位置Ｘ＝０は、第１スペクトル・シェ
イプＳＳ１１そのもの、補間位置Ｘ＝１は第２スペクト
ル・シェイプＳＳ１２そのものに相当する。図６（ｂ）
は、補間位置Ｘ＝０．３５の場合である。また、図６
（ｂ）において、縦軸上の白丸（○）は、スペクトル・
シェイプを構成する周波数およびマグニチュードの組の
それぞれを示す。従って、紙面垂直方向にマグニチュー
ド軸が存在すると考えるのが適当である。補間位置Ｘ＝
０の軸上の第１スペクトル・シェイプＳＳ１１の注目す
るある領域Ｚｉに対応するアンカー・ポイントが、ＲＢi,1およびＲＢi+1,1 であり、当該領域Ｚｉに属する具体的な周波数およびマ
グニチュードの組のうちいずれかの組の周波数＝ｆi1で
あり、マグニチュード＝Ｓ1（ｆi1）であるものとす
る。補間位置Ｘ＝１の軸上の第２スペクトル・シェイプ
ＳＳ１２の注目するある領域Ｚｉに対応するアンカー・
ポイントが、ＲＢi,2およびＲＢi+1,2 であり、当該領域Ｚｉに属する具体的な周波数およびマ
グニチュードの組のうちいずれかの組の周波数＝ｆi2で
あり、マグニチュード＝Ｓ2（ｆi2）であるものとす
る。ここで、スペクトル遷移関数ｆtrans1（ｘ）及びス
ペクトル遷移関数ｆtrans2（ｘ）を求める。

【００６１】例えば、これらを最も簡単な線形関数で表
すとすると、以下のようになる。ｆtrans1（ｘ）＝ｍ1・ｘ＋ｂ1 ｆtrans2（ｘ）＝ｍ2・ｘ＋ｂ2 ここで、ｍ1＝ＲＢi,2−ＲＢi,1 ｂ1＝ＲＢi,1 ｍ2＝ＲＢi+1,2−ＲＢi+1,1 ｂ2＝ＲＢi+1,2 である。次に第１スペクトル・シェイプＳＳ１１上に実
在する周波数およびマグニチュードの組に対応する補間
スペクトル・シェイプ上の周波数およびマグニチュード
の組を求める。

【００６２】まず、第１スペクトル・シェイプＳＳ１１
上に実在する周波数およびマグニチュードの組、具体的
には、周波数ｆi1、マグニチュードＳ1（ｆi1）に対応
する第２スペクトル・シェイプ上の周波数＝ｆi1,2、マ
グニチュード＝Ｓ2（ｆi1,2）を以下のように算出す
る。

【数３】ここで、Ｗ1 ＝ＲＢi+1,1−ＲＢi,1 Ｗ2 ＝ＲＢi+1,2−ＲＢi,2 である。マグニチュード＝Ｓ2（ｆi1,2）を算出するに
あたり、第２スペクトル・シェイプＳＳ１２上に実在す
る周波数およびマグニチュードの組のうちで周波数＝ｆ
i1,2をはさむように最も近い周波数をそれぞれ、(+)、
(-)のサフィックスを付して表すとすると、

【数４】となる。

【００６３】以上から、補間位置＝ｘとすると、第１ス
ペクトル・シェイプＳＳ１１上に実在する周波数および
マグニチュードの組に対応する補間スペクトル・シェイ
プ上の周波数ｆi1,xおよびマグニチュードＳx（ｆi1,
x）は以下の式で求められる。

【数５】Ｓx（ｆi1,x）＝Ｓ1 （ｆi1）＋｛Ｓ2（ｆi1,2）−Ｓ1
（ｆi1）｝・ｘ同様にして、第１スペクトル・シェイプＳＳ１１上の全
ての周波数およびマグニチュードの組に対して算出す
る。続いて、第２スペクトル・シェイプＳＳ１２上に実
在する周波数およびマグニチュードの組に対応する補間
スペクトル・シェイプ上の周波数およびマグニチュード
の組を求める。

【００６４】まず、第２スペクトル・シェイプＳＳ１２
上に実在する周波数およびマグニチュードの組、具体的
には、周波数ｆi2、マグニチュードＳ2（ｆi2）に対応
する第１スペクトル・シェイプ上の周波数＝ｆi1,1、マ
グニチュード＝Ｓ1（ｆi1,1）を以下のように算出す
る。

【数６】ここで、Ｗ1 ＝ＲＢi+1,1−ＲＢi,1 Ｗ2 ＝ＲＢi+1,2−ＲＢi,2 である。マグニチュード＝Ｓ1（ｆi1,1 2）を算出する
にあたり、第１スペクトル・シェイプＳＳ１１上に実在
する周波数およびマグニチュードの組のうちで周波数＝
ｆi2,1をはさむように最も近い周波数をそれぞれ、
(+)、(-)のサフィックスを付して表すとすると、

【数７】となる。以上から、補間位置＝ｘとすると、第２スペク
トル・シェイプＳＳ１２上に実在する周波数およびマグ
ニチュードの組に対応する補間スペクトル・シェイプ上
の周波数ｆi2,xおよびマグニチュードＳx（ｆi2,x）は
以下の式で求められる。

【数８】Ｓx（ｆi2,x）＝Ｓ2（ｆi2）＋｛Ｓ2（ｆi1,2）−Ｓ1
（ｆi2）｝・（ｘ−１）

【００６５】同様にして、第２スペクトル・シェイプＳ
Ｓ１２上の全ての周波数およびマグニチュードの組に対
して算出する。上述したように第１スペクトル・シェイ
プＳＳ１１上に実在する周波数ｆi1およびマグニチュー
ドＳ1（ｆi1）の組に対応する補間スペクトル・シェイ
プ上の周波数＝ｆi1,x、マグニチュード＝Ｓx（ｆi1,
x）並びに第２スペクトル・シェイプ上に実在する周波
数ｆi2およびマグニチュードＳ2（ｆi2）の組に対応す
る補間スペクトル・シェイプ上の周波数ｆi2,xおよびマ
グニチュードＳx（ｆi2,x）の全ての算出結果を周波数
順に並び替えることにより、補間スペクトル・シェイプ
を求める。これらを全ての領域Ｚ1 、Ｚ2、……につい
て行い、全周波数帯域の補間スペクトル・シェイプを算
出する。上述の例においては、スペクトル遷移関数ｆtr
ans1（ｘ）、ｆtrans2（ｘ）を線形な関数としたが、二
次関数、指数関数など非線形な関数として定義あるいは
関数に対応する変化をテーブルとして用意するように構
成することも可能である。

【００６６】また、アンカー・ポイントに応じてそれら
の遷移関数を変更してやることによりより現実に近いス
ペクトル補間を行うことが可能である。この場合、ター
ゲット音素辞書の内容は、アンカー・ポイントに付随し
た遷移関数情報を含めるように構成すればよい。さらに
遷移関数情報としては、遷移先の音素に応じて設定する
ようにすればよい。すなわち、遷移先の音素が音素Ｂの
場合には、遷移関数Ｙを用い、遷移先の音素が音素Ｃの
場合には、遷移関数Ｚを用いる等のように設定し、設定
状態を音素辞書に組み込むようにすればよい。さらに歌
唱者、ターゲット歌手のピッチやスペクトル・シェイプ
等を考慮に入れ、リアルタイムに最適な遷移関数を設定
するようにしても良い。

【００６７】［３］全体動作次に音声変換装置１０の全体動作を順を追って説明す
る。まず、歌唱信号入力部１１により、信号入力処理が
行われ、歌唱者の歌った信号を入力する。続いて認識特
徴分析部１２により認識特徴分析処理が行われ、歌唱信
号入力部１１を介して入力された歌唱信号ＳVを以降の
アライメント処理部１８へ入力すべく、認識用音素辞書
に含まれるコードブックに基づいてベクトル量子化を行
い、各特徴ベクトルＶＣ（メルケプストラム、差分メル
ケプストラム、エネルギー、差分エネルギー、ボイスネ
ス（有声音尤度）など）を算出する。なお、差分メルケ
プストラムとは、前フレームと現在のフレームのメルケ
プストラムの差分値を示す。差分エネルギーとは、前フ
レームと現在のフレームの信号エネルギーの差分値を示
す。ボイスネスとは、ゼロ交差数、ピッチ検出を行うと
きに求まる検出誤差等から総合的に求められる値、ある
いは、総合的に重み付けして求められる値であり、有声
音らしさを表す数値である。

【００６８】一方、ＳＭＳ分析部１３は、歌唱信号入力
部１１を介して入力された歌唱信号ＳVをＳＭＳ分析し
て、ＳＭＳフレームデータＦSMSを得て、ターゲット・
デコーダ部２０およびモーフィング処理部２１に出力す
る。具体的には、ピッチに応じた窓幅で切り出した波形
に対して、（１）高速フーリエ変換（ＦＦＴ）処理（２）ピーク検出処理（３）有声／無声判別処理およびピッチ検出処理（４）ピーク連携処理（５）正弦波成分属性ピッチ、アンプリチュード、ス
ペクトル・シェイプの計算処理（６）残差成分算出処理が行われる。アライメント処理部１８は、認識特徴分析
部１２により出力された各種特徴ベクトルＶＣ、認識用
音素辞書１４からの各音素のＨＭＭおよびターゲット挙
動データに含まれる持続時間付音素表記情報より、歌唱
者が対象としている曲中のどの部分を歌っているかをビ
タビアルゴリズムを用いて求める。これにより、アライ
メント情報が求まり、この結果、ターゲット歌手が歌う
べきピッチ、アンプリチュード、音素を検出することが
できる。

【００６９】この処理のなかで、歌唱者がある音素をタ
ーゲット歌唱者に比較して長く歌った場合には、持続時
間付音素表記情報の持続時間を超えてある音素を歌って
いると判断し、ループ処理に入る旨をアライメント情報
に含めて出力することとなる。これらの結果、ターゲッ
ト・デコーダ部２０は、アライメント処理部１８により
出力されたアライメント情報およびターゲット音素辞書
１９に含まれるスペクトル情報よりターゲット歌手のフ
レーム情報（ピッチ、アンプリチュード、スペクトル・
シェイプ）であるターゲットスペクトル・シェイプＳＳ
ＴＧ、ピッチＴＧＰ、アンプリチュードＴＧＡを算出
し、ターゲットフレームデータＴＧＦＬとしてモーフィ
ング処理部２１に出力する。モーフィング処理部２１
は、ターゲット・デコーダ部２０から出力されたターゲ
ットフレームデータＴＧＦＬおよび歌唱信号ＳVに対応
するＳＭＳフレームデータＦSMS並びにパラメータコン
トロール部１６から入力された似具合パラメータに基づ
いてモーフィング処理を行い、似具合パラメータに応じ
た所望のスペクトル・シェイプ、ピッチ、アンプリチュ
ードを有するモーフィングフレームデータＭＦＬを生成
し、変換処理部２２に出力する。

【００７０】変換処理部２２は、パラメータコントロー
ル部１６からの変換パラメータに従って、モーフィング
フレームデータＭＦＬを変形し、変換フレームデータＭ
ＭＦＬとしてＳＭＳ合成部２３に出力する。この場合に
おいて、出力アンプリチュードに応じたスペクトル傾き
補正を行うことにより、よりリアルな出力音声を得るこ
とが可能となる。また、変換処理部２２で行う処理とし
ては、例えば偶数倍音をなくす等の処理があげられる。
ＳＭＳ合成部２３は、変換フレームデータＭＭＦＬをフ
レームスペクトルに変換し、逆高速フーリエ変換（ＩＦ
ＦＴ）、オーバーラップ処理および加算処理を行い、波
形信号ＳWAVとして選択部２４に出力する。選択部２４
は、ＳＭＳ分析部１３からの有声／無声情報に基づいて
歌唱信号ＳVに対応する歌唱者の音声が無声音である場
合には、歌唱信号ＳVをそのまま加算部２７に出力し、
歌唱信号ＳVに対応する歌唱者の音声が有声音である場
合には、波形信号ＳWAVを加算部２７に出力する。

【００７１】これらの動作と並行して、シーケンサ２６
は、パラメータコントロール部１６の制御下で音源２５
を駆動してミュージック信号ＳMSCを生成して加算部２
７に出力する。加算部２７は、選択部２４から出力され
た波形信号ＳWAVあるいは歌唱信号Ｓvと音源２５から出
力されたミュージック信号ＳMSCとを適当な割合で混合
して加算し、出力部２８に出力する。出力部２８は、加
算部２７の出力信号に基づいてカラオケ信号（音声＋ミ
ュージック）を出力することとなる。

【００７２】［Ｂ］第２実施形態次に、本発明の第２実施形態について説明する。本第２
実施形態が第１実施形態と異なる点は、第１実施形態の
ターゲット・デコーダ部においては、モーフィング処理
部に出力されるスペクトル・シェイプは、ターゲット挙
動データに含まれるターゲットのピッチ、アンプリチュ
ードに基づいて算出していたが、本第２実施形態におい
ては、歌唱者のピッチ及びスペクトル傾き情報に基づい
て算出している点である。これに伴い、本第２実施形態
のＳＭＳ分析部では、正弦波成分属性として、ピッチア
ンプリチュード、スペクトル・シェイプに加えて、スペ
クトル傾きも算出しておく必要があるが、ターゲット・
デコーダ部を除く各部の構成は第１実施形態と同様であ
る。

【００７３】［１］ターゲット・デコーダ部図７に第２実施形態のターゲット・デコーダ部の構成ブ
ロック図を示す。図７において図４の第１実施形態と同
様の部分には同一の符号を付し、その詳細な説明を省略
する。ターゲット・デコーダ部５０は、安定状態／遷移
状態決定部３１と、フレームメモリ部３２と、第１スペ
クトル補間部３３と、第２スペクトル補間部３４と、遷
移関数発生部３５と、第３スペクトル補間部３６と、出
力されるデコードフレームがよりリアルであるように歌
唱者のピッチ及びフレームメモリ部３２に格納されてい
る処理済みのデコードフレームに基づいてスペクトル・
シェイプの微細構造を時間軸に沿って変化させる（例え
ば、マグニチュードを時間とともに少しずつ変化させ
る）時間的変化付加部５７と、時間的変化付加部５７に
より時間的変化が付加されたスペクトル・シェイプをさ
らにリアルにするために歌唱者のスペクトル傾きと既に
生成されたスペクトル・シェイプの傾きを比較し、スペ
クトル・シェイプのスペクトル傾きを補正して補正後の
スペクトル・シェイプをターゲットスペクトル・シェイ
プＳＳＴＧとして出力し、フレームメモリ部３２にター
ゲットスペクトル・シェイプＳＳＴＧを格納するスペク
トル傾き補正部５８と、ターゲットピッチ／アンプリチ
ュード算出部３９と、を備えて構成されている。

【００７４】［２］第２実施形態の動作本第２実施形態の動作は全体としては、第１実施形態と
同様であるので、主要部の動作のみを説明する。ターゲ
ット・デコーダ部５０の時間的変化付加部５７は、出力
されるデコードフレームであるターゲットフレームがよ
りリアルであるように歌唱者のピッチ及びフレームメモ
リ部３２に格納されている処理済みのデコードフレーム
に基づいてスペクトル・シェイプ（第１スペクトル・シ
ェイプＳＳ１あるいは第４スペクトル・シェイプＳＳ
４）の微細構造を時間軸に沿って変化させて（例えば、
マグニチュードを時間とともに少しずつ変化させて）、
スペクトル傾き補正部５８に出力する。スペクトル傾き
補正部５８は、ターゲット・デコーダ部５０から出力す
るターゲットスペクトル・シェイプＳＳＴＧをさらにリ
アルにするために歌唱者のスペクトル傾きと既に生成さ
れたスペクトル・シェイプの傾きを比較し、スペクトル
・シェイプのスペクトル傾きを補正して補正後のスペク
トル・シェイプをターゲットスペクトル・シェイプＳＳ
ＴＧとして出力し、フレームメモリ部３２にターゲット
スペクトル・シェイプＳＳＴＧを格納する。より具体的
には、歌唱者のスペクトル傾きと生成されたターゲット
のスペクトル・シェイプのスペクトル傾きの差であるス
ペクトル傾き補正値（Tilt Correction値）を算出し、
図８に示すように、スペクトル傾き補正値に応じた特性
を有するスペクトル傾き補正フィルタを生成されたター
ゲットのスペクトル・シェイプに対してかける。これに
より、より自然なスペクトル・シェイプを得ることが可
能となる。

【００７５】［Ｃ］実施形態の変形例［１］第１変形例ピッチ、アンプリチュードに関して、前もって静的変化
成分と、ビブラート的変化成分（ビブラートを早さ、深
さのパラメータとして有する）に分けた情報として持っ
ていれば、例えば、同じ音素を歌唱者がターゲットに比
較して長く歌った場合でも、適切なビブラートを付加し
たピッチ、アンプリチュードを生成することができるの
で、自然な音の伸びを得ることができる。このような処
理を行う理由としては、このような処理を行わない場合
には、歌唱者がターゲット歌手と比較して長く音をのば
した場合などには、途中でビブラートがかからなくなる
などの現象が生じ、不自然なものとなり、また、歌唱者
がターゲット歌手と比較してテンポを変更した場合につ
いては、ビブラート成分を持っていない場合には、テン
ポを挙げるとビブラートが早くなってしまい同様に不自
然なものとなるからである。

【００７６】［２］第２変形例以上の説明においては、ターゲット歌唱者の残差成分に
ついては、考慮していないものであったが、ターゲット
歌唱者の残差成分を考慮する場合に、全てのフレームに
ついて残差成分を保持することは、情報圧縮の観点から
いっても本音声変換装置のシステムには適合しない。そ
こで、残差について予め代表的なスペクトルエンベロー
プを用意し、これらのスペクトルエンベロープを特定す
るためのインデックス情報を持つようにすればよい。よ
り具体的には、ターゲット挙動データとして残差スペク
トルエンベロープ情報インデックスを持たせ、例えば、
歌唱経過時間０秒〜２秒の間は、残差スペクトルエンベ
ロープ情報インデックス＝１のスペクトルエンベロープ
を使用し、歌唱経過時間２秒〜３秒までは残差スペクト
ルエンベロープ情報インデックス＝３のスペクトルエン
ベロープを使用する。そして、残差スペクトルエンベロ
ープ情報インデックスに対応するスペクトルエンベロー
プから実際の残差スペクトルを生成して、モーフィング
処理において用いるようにすれば、残差についてもモー
フィングを可能とすることができる。

【００７７】

【発明の効果】本発明によれば、入力された歌唱者の音
声を目標とするターゲット歌唱者の歌い方に似せること
ができるとともに、ターゲット歌唱者の分析データの容
量を低減して、リアルタイムに処理を行うことが可能と
なる。

【図面の簡単な説明】

【図１】実施形態にかかる音声変換装置の概要構成ブロ
ック図である。

【図２】ターゲット音素辞書の説明図（その１）であ
る。

【図３】ターゲット音素辞書の説明図（その２）であ
る。

【図４】第１実施形態のターゲット・デコーダ部の概要
構成ブロック図である。

【図５】ターゲット・デコーダ部のスペクトル補間処理
の説明図（その１）である。

【図６】ターゲット・デコーダ部のスペクトル補間処理
の説明図（その２）である。

【図７】第２実施形態のターゲット・デコーダ部の概要
構成ブロック図である。

【図８】第２実施形態のスペクトル傾き補正フィルタの
特性説明図である。

【符号の説明】

１０…音声変換装置、１１…歌唱信号入力部、１２…認
識特徴分析部、１３…ＳＭＳ分析部、１４…認識用音素
辞書、１５…ターゲット挙動データ、１６…パラメータ
コントロール部、１７…データ変換部、１８…アライメ
ント処理部、１９…ターゲット音素辞書、２０…ターゲ
ット・デコーダ部、２１…モーフィング処理部、２２…
変換処理部、２３…ＳＭＳ合成部、２４…選択部、２５
…音源、２６…シーケンサ、２７…加算部、２８…出力
部、３１…安定状態／遷移状態決定部、３２…フレーム
メモリ部、３３…第１スペクトル補間部、３４…第２ス
ペクトル補間部、３５…遷移関数発生部、３６…第３ス
ペクトル補間部、３７…時間的変化付加部、３８…スペ
クトル傾き補正部、３９…ターゲットピッチ／アンプリ
チュード算出部、５０…ターゲット・デコーダ部、５７
…時間的変化付加部、５８…スペクトル傾き補正部、Ｓ
Ｓ１…第１スペクトル・シェイプ、ＳＳ２…第２スペク
トル・シェイプ、ＳＳ３…第３スペクトル・シェイプ、
ＳＳ４…第４スペクトル・シェイプ、ＳＳｔ…時間的変
化付加スペクトル・シェイプ、ＳＳＴＧ…ターゲットス
ペクトル・シェイプ。

───────────────────────────────────────────────────── フロントページの続き (72)発明者ザビエルセラスペインバルセロナ 08002 メルセ 12 (72)発明者マークシーメンツスペインバルセロナ 08002 メルセ 12 (72)発明者ジョルディボナダスペインバルセロナ 08002 メルセ 12 Ｆターム(参考） 5D015 AA06 BB02 KK04 5D045 AA07 BA01 5D108 BD08 BD11 BF20

Claims

【特許請求の範囲】

【請求項１】入力音声信号に対応する入力フレーム
データを抽出する入力フレームデータ抽出手段と、前記入力フレームデータと生成すべきターゲットフレー
ムデータとの間の同期をとるべくアライメント調整を行
うとともに、ターゲット音声から予め抽出したターゲッ
トフレーム生成データに基づいて前記ターゲットフレー
ムデータを生成するターゲットフレームデータ生成手段
と、前記入力フレームデータ及び前記ターゲットフレームデ
ータに基づいて変換音声信号を生成し出力する変換音声
信号生成手段と、を備えたことを特徴とする音声変換装置。
【請求項２】請求項１記載の音声変換装置において、前記ターゲットフレーム生成データには、ターゲット音
声のピッチ軌跡データ、接続時間付き音素表記情報およ
び音素毎のスペクトル・シェイプが含まれることを特徴
とする音声変換装置。
【請求項３】請求項１または請求項２記載の音声変換
装置において、前記ターゲットフレーム生成情報には、アンプリチュー
ド軌跡情報が含まれることを特徴とする音声変換装置。
【請求項４】請求項１記載の音声変換装置において、前記ターゲットフレームデータ生成手段は、前記入力音
声信号から特徴ベクトルを抽出する特徴ベクトル抽出手
段と、予め記憶した認識用音素データ及び予め記憶したターゲ
ット挙動データに基づいて前記入力フレームデータと前
記ターゲットフレームデータとの間の時間的位置関係を
判別し、前記時間的位置関係に対応するアライメントデ
ータを出力するアライメント処理手段と、前記ターゲットデータ、前記アライメントデータ、予め
記憶したターゲット音素データ及び前記入力フレームデ
ータに基づいて前記ターゲットフレームデータを生成す
るターゲットデコード手段と、を備えたことを特徴とする音声変換装置。
【請求項５】請求項４記載の音声変換装置において、予めターゲット音声の挙動を表すターゲット挙動データ
を記憶するターゲット挙動データ記憶手段と、前記ターゲット挙動データおよび外部より入力されたパ
ラメータコントロールデータに基づいてピッチデータ、
アンプリチュードデータおよび接続時間付き音素表記デ
ータを生成し出力するデータ変換手段と、を備えたことを特徴とする音声変換装置。
【請求項６】請求項４記載の音声変換装置において、前記ターゲットデコード手段は、ターゲット音素辞書内
の同一音素についての二つのピッチに対応したスペクト
ル・シェイプを用いて補間処理を行い、所望のピッチに
対応するスペクトル・シェイプを算出するスペクトル・
シェイプ補間手段を備えたことを特徴とする音声変換装
置。
【請求項７】請求項６記載の音声変換装置において、音素が安定状態あるいは遷移状態のいずれにあるかを判
別する状態判別手段を備え、前記スペクトル・シェイプ補間手段は、前記状態判別手
段の判別状態に基づいて前記音素が遷移状態にある場合
に、遷移元の音素に対応するスペクトル・シェイプ及び
遷移先の音素に対応するスペクトル・シェイプを用いて
前記補間処理を行うことを特徴とする音声変換装置。
【請求項８】請求項６記載の音声変換装置において、前記スペクトル・シェイプ補間手段は、二つのスペクト
ル・シェイプを用いて補間を行うに際し、前記二つのス
ペクトル・シェイプ間におけるスペクトル・シェイプ遷
移関数を用いて前記補間処理を行うことを特徴とする音
声変換装置。
【請求項９】請求項８記載の音声変換装置において、前記遷移関数は、線形関数あるいは非線形関数として予
め定義されていることを特徴とする音声変換装置。
【請求項１０】請求項８記載の音声変換装置におい
て、前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換装置。
【請求項１１】請求項８記載の音声変換装置におい
て、前記スペクトル・シェイプ補間手段は、前記遷移先
の音素に対応させて前記遷移関数を定めることを特徴と
する音声変換装置。
【請求項１２】請求項８記載の音声変換装置におい
て、前記スペクトル・シェイプ補間手段は、前記入力音声信
号に対応する、あるいは、前記ターゲット音声に対応す
るピッチ若しくはスペクトル・シェイプに基づいて前記
遷移関数をリアルタイムで決定する遷移関数リアルタイ
ム決定手段と、を備えたことを特徴とする音声変換装
置。
【請求項１３】請求項８記載の音声変換装置におい
て、前記スペクトル・シェイプ補間手段は、前記二つのスペ
クトル・シェイプを周波数軸上でそれぞれ複数の領域に
分け、各領域に属する前記二つのスペクトル・シェイプ
上の実在の周波数およびマグニチュードの組に対し、前
記遷移関数としての線形関数を用いた前記補間処理を前
記複数の領域にわたって行うことを特徴とする音声変換
装置。
【請求項１４】請求項１３記載の音声変換装置におい
て、前記スペクトル・シェイプ補間手段は、前記各領域に属
する一方のスペクトル・シェイプの周波数である第１周
波数及び当該第１周波数に対応する他方のスペクトル・
シェイプの周波数である第２周波数を前記線形関数を用
いて補間することにより補間周波数を算出する周波数補
間手段と、前記各領域に属する一方のスペクトル・シェイプのマグ
ニチュードである第１マグニチュードおよび当該第１マ
グニチュードに対応する他方のスペクトル・シェイプの
マグニチュードである第２マグニチュードを前記線形関
数を用いて補間するマグニチュード補間手段と、を備えたことを特徴とする音声変換装置。
【請求項１５】請求項４記載の音声変換装置におい
て、前記ターゲットフレームデータは、ターゲットスペクト
ル・シェイプを含み、前記ターゲットデコード手段は、前記ターゲットスペク
トル・シェイプのアンプリチュードに応じて当該ターゲ
ットスペクトル・シェイプのスペクトル傾きを補正する
スペクトル傾き補正手段を備えたことを特徴とする音声
変換装置。
【請求項１６】請求項１５記載の音声変換装置におい
て、前記スペクトル傾き補正手段は、前記ターゲットスペク
トル・シェイプのスペクトル傾きと、当該ターゲットス
ペクトル・シェイプに対応し、かつ、前記入力音声信号
に対応する入力スペクトル・シェイプのスペクトル傾き
と、の差に相当するスペクトル傾き補正フィルタ手段を
備えたことを特徴とする音声変換装置。
【請求項１７】入力音声信号に対応する入力フレーム
データを抽出する入力フレームデータ抽出過程と、前記入力フレームデータと生成すべきターゲットフレー
ムデータとの間の同期をとるべくアライメント調整を行
うとともに、ターゲット音声から予め抽出したターゲッ
トフレーム生成データに基づいて前記ターゲットフレー
ムデータを生成するターゲットフレームデータ生成過程
と、前記入力フレームデータ及び前記ターゲットフレームデ
ータに基づいて変換音声信号を生成し出力する変換音声
信号生成過程と、を備えたことを特徴とする音声変換方法。
【請求項１８】請求項１７記載の音声変換方法におい
て、前記ターゲットフレームデータ生成過程は、前記入力音
声信号から特徴ベクトルを抽出する特徴ベクトル抽出過
程と、予め記憶した認識用音素データ及び予め記憶したターゲ
ット挙動データに基づいて前記入力フレームデータと前
記ターゲットフレームデータとの間の時間的位置関係を
判別し、前記時間的位置関係に対応するアライメントデ
ータを出力するアライメント処理過程と、前記ターゲットデータ、前記アライメントデータ、予め
記憶したターゲット音素データ及び前記入力フレームデ
ータに基づいて前記ターゲットフレームデータを生成す
るターゲットデコード過程と、を備えたことを特徴とする音声変換方法。
【請求項１９】請求項１８記載の音声変換方法におい
て、予め記憶したターゲット音声の挙動を表すターゲット挙
動データおよび外部より入力されたパラメータコントロ
ールデータに基づいてピッチデータ、アンプリチュード
データおよび接続時間付き音素表記データを生成し出力
するデータ変換過程と、を備えたことを特徴とする音声変換方法。
【請求項２０】請求項１８記載の音声変換方法におい
て、前記ターゲットデコード過程は、ターゲット音素辞書内
の同一音素についての二つのピッチに対応したスペクト
ル・シェイプを用いて補間処理を行い、所望のピッチに
対応するスペクトル・シェイプを算出するスペクトル・
シェイプ補間過程を備えたことを特徴とする音声変換方
法。
【請求項２１】請求項２０記載の音声変換方法におい
て、音素が安定状態あるいは遷移状態のいずれにあるかを判
別する状態判別過程を備え、前記スペクトル・シェイプ補間過程は、前記状態判別過
程の判別状態に基づいて前記音素が遷移状態にある場合
に、遷移元の音素に対応するスペクトル・シェイプ及び
遷移先の音素に対応するスペクトル・シェイプを用いて
前記補間処理を行うことを特徴とする音声変換方法。
【請求項２２】請求項２０記載の音声変換方法におい
て、前記スペクトル・シェイプ補間過程は、二つのスペクト
ル・シェイプを用いて補間を行うに際し、前記二つのス
ペクトル・シェイプ間におけるスペクトル・シェイプ遷
移関数を用いて前記補間処理を行うことを特徴とする音
声変換方法。
【請求項２３】請求項２２記載の音声変換方法におい
て、前記遷移関数は、線形関数あるいは非線形関数として予
め定義されていることを特徴とする音声変換方法。
【請求項２４】請求項２２記載の音声変換方法におい
て、前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換方法。
【請求項２５】請求項２２記載の音声変換方法におい
て、前記スペクトル・シェイプ補間過程は、前記遷移先の音
素に対応させて前記遷移関数を定めることを特徴とする
音声変換方法。
【請求項２６】請求項２２記載の音声変換方法におい
て、前記スペクトル・シェイプ補間過程は、前記入力音声信
号に対応する、あるいは、前記ターゲット音声に対応す
るピッチ若しくはスペクトル・シェイプに基づいて前記
遷移関数をリアルタイムで決定する遷移関数リアルタイ
ム決定過程と、を備えたことを特徴とする音声変換方法。
【請求項２７】請求項２２記載の音声変換方法におい
て、前記スペクトル・シェイプ補間過程は、前記二つのスペ
クトル・シェイプを周波数軸上でそれぞれ複数の領域に
分け、各領域に属する前記二つのスペクトル・シェイプ
上の実在の周波数およびマグニチュードの組に対し、前
記遷移関数としての線形関数を用いた前記補間処理を前
記複数の領域にわたって行うことを特徴とする音声変換
方法。
【請求項２８】請求項２７記載の音声変換方法におい
て、前記スペクトル・シェイプ補間過程は、前記各領域に属
する一方のスペクトル・シェイプの周波数である第１周
波数及び当該第１周波数に対応する他方のスペクトル・
シェイプの周波数である第２周波数を前記線形関数を用
いて補間することにより補間周波数を算出する周波数補
間過程と、前記各領域に属する一方のスペクトル・シェイプのマグ
ニチュードである第１マグニチュードおよび当該第１マ
グニチュードに対応する他方のスペクトル・シェイプの
マグニチュードである第２マグニチュードを前記線形関
数を用いて補間するマグニチュード補間過程と、を備えたことを特徴とする音声変換方法。
【請求項２９】請求項１８記載の音声変換方法におい
て、前記ターゲットフレームデータは、ターゲットスペクト
ル・シェイプを含み、前記ターゲットデコード過程は、前記ターゲットスペク
トル・シェイプのアンプリチュードに応じて当該ターゲ
ットスペクトル・シェイプのスペクトル傾きを補正する
スペクトル傾き補正過程を備えたことを特徴とする音声
変換方法。
【請求項３０】請求項２９記載の音声変換方法におい
て、前記スペクトル傾き補正過程は、前記ターゲットスペク
トル・シェイプのスペクトル傾きと、当該ターゲットス
ペクトル・シェイプに対応し、かつ、前記入力音声信号
に対応する入力スペクトル・シェイプのスペクトル傾き
と、の差に相当するスペクトル傾き補正を行うことを特
徴とする音声変換方法。
【請求項３１】ターゲット歌手の音声であるターゲッ
ト音声に対応する音声変換用辞書を生成する音声変換用
辞書の生成方法において、各音素について前記ターゲット歌手により低域側ピッチ
から高域側ピッチにわたって連続的に発声させた音素発
声信号に基づいてスペクトル・シェイプを算出し、得られたスペクトル・シェイプを同一のスペクトル・シ
ェイプとみなせるスペクトル・シェイプが属するピッチ
の区間をセグメントと定義し、前記セグメントに属する全ての前記スペクトル・シェイ
プを予め定めた所定の周波数帯域幅を有する周波数帯域
毎に分割し、各前記周波数帯域の中心周波数を算出し、各前記周波数帯域に属するスペクトル・シェイプの当該
周波数帯域に対応する前記中心周波数におけるマグニチ
ュードの平均値を平均マグニチュードとし、前記平均マグニチュードを前記セグメントに属する全て
の前記周波数帯域について算出し、前記セグメントに属する全ての前記周波数帯域について
算出した平均マグニチュードを前記セグメント区間の平
均ピッチにおけるターゲットスペクトル・シェイプとし
て、前記音声変換用辞書に格納する、ことを特徴とする音声変換用辞書の生成方法。