JP2001117597A - 音声変換装置、音声変換方法及び音声変換用辞書の生成方法 - Google Patents
音声変換装置、音声変換方法及び音声変換用辞書の生成方法Info
- Publication number
- JP2001117597A JP2001117597A JP30026899A JP30026899A JP2001117597A JP 2001117597 A JP2001117597 A JP 2001117597A JP 30026899 A JP30026899 A JP 30026899A JP 30026899 A JP30026899 A JP 30026899A JP 2001117597 A JP2001117597 A JP 2001117597A
- Authority
- JP
- Japan
- Prior art keywords
- target
- spectrum
- data
- phoneme
- shape
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 94
- 238000000034 method Methods 0.000 title claims description 70
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims description 328
- 230000007704 transition Effects 0.000 claims description 111
- 239000011295 pitch Substances 0.000 claims description 97
- 230000003595 spectral effect Effects 0.000 claims description 91
- 238000012545 processing Methods 0.000 claims description 50
- 238000012886 linear function Methods 0.000 claims description 23
- 230000002123 temporal effect Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 238000012937 correction Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 39
- 230000008859 change Effects 0.000 description 23
- 230000006399 behavior Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 12
- 101100366707 Arabidopsis thaliana SSL11 gene Proteins 0.000 description 11
- 101100366711 Arabidopsis thaliana SSL13 gene Proteins 0.000 description 10
- 101100366561 Panax ginseng SS11 gene Proteins 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 101100366562 Panax ginseng SS12 gene Proteins 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012887 quadratic function Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
Abstract
の歌い方に似せることができるとともに、ターゲットの
歌唱者の分析データの容量を低減する。 【解決手段】 入力音声信号SVに対応する入力フレー
ムデータFSMSを抽出し、入力フレームデータFSMSと生
成すべきターゲットフレームデータTGFLとの間の同
期をとるべくアライメント調整を行うとともに、ターゲ
ット音声から予め抽出したターゲットフレーム生成デー
タに基づいてターゲットフレームデータTGFLとを生
成し、入力フレームデータFSMS及びターゲットフレー
ムデータTGFLに基づいて変換音声信号を生成し出力
する。
Description
音声を目標とする他の音声に近似させる音声変換装置、
音声変換方法ならびに音声変換を行うに際し用いる他の
音声に対応する音声変換用辞書を生成する音声変換用辞
書の生成方法に係り、特にカラオケ装置に用いるのに好
適な音声変換装置、音声変換方法及び音声変換用辞書の
生成方法に関する。
て出力する音声変換装置は種々開発されており、例え
ば、カラオケ装置の中には、歌い手の歌った歌声のピッ
チを変換して、男性の声を女性の声に、あるいはその逆
に変換させるものもある(例えば、特表平8−5085
81号)。
音声変換装置においては、音声の変換(例えば、男声→
女声、女声→男声など)は行われるものの、単に声質を
変えるだけに止まっていたので、例えば、特定の歌唱者
(例えば、プロの歌手)の声に似せるように変換すると
いうことはできなかった。また、声質だけでなく、歌い
方までも特定の歌唱者に似させるという、ものまねのよ
うな機能があれば、カラオケ装置などにおいては大変に
面白いが、従来の音声変換装置ではこのような処理は不
可能であった。
ット)とする歌唱者(ターゲット歌唱者)の声に似させ
るために、ターゲット歌唱者の音声を分析し、得られた
分析データである正弦波成分属性ピッチ、アンプリチュ
ード、スペクトル・シェイプ及び残差成分を1曲分全て
のフレームについてターゲットフレームデータとして保
持し、入力音声を分析して得られる入力ターゲットフレ
ームデータとの同期をとって、変換処理を行うことによ
りターゲット歌唱者の声に似せるように変換を行う音声
変換装置を提案している(特願平10−183338号
等参照)。上記音声変換装置は、声質だけでなく、歌い
方までも特定の歌唱者に似させることができるが、ター
ゲット歌唱者の分析データが一曲毎に必要となり、複数
の曲の分析データを記憶させるような場合には、データ
量が膨大になってしまうという不具合があった。
者の音声を目標とする歌唱者の歌い方に似せることがで
きるとともに、ターゲット歌唱者の分析データの容量を
低減することが可能な音声変換装置、音声変換方法およ
び音声変換用辞書の生成方法を提供することにある。
め、請求項1記載の構成は、入力音声信号に対応する入
力フレームデータを抽出する入力フレームデータ抽出手
段と、前記入力フレームデータと生成すべきターゲット
フレームデータとの間の同期をとるべくアライメント調
整を行うとともに、ターゲット音声から予め抽出したタ
ーゲットフレーム生成データに基づいて前記ターゲット
フレームデータを生成するターゲットフレームデータ生
成手段と、前記入力フレームデータ及び前記ターゲット
フレームデータに基づいて変換音声信号を生成し出力す
る変換音声信号生成手段と、を備えたことを特徴として
いる。
成において、前記ターゲットフレーム生成データには、
ターゲット音声のピッチ軌跡データ、接続時間付き音素
表記情報および音素毎のスペクトル・シェイプが含まれ
ることを特徴としている。
求項2記載の構成において、前記ターゲットフレーム生
成情報には、アンプリチュード軌跡情報が含まれること
を特徴としている。
成において、前記ターゲットフレームデータ生成手段
は、前記入力音声信号から特徴ベクトルを抽出する特徴
ベクトル抽出手段と、予め記憶した認識用音素データ及
び予め記憶したターゲット挙動データに基づいて前記入
力フレームデータと前記ターゲットフレームデータとの
間の時間的位置関係を判別し、前記時間的位置関係に対
応するアライメントデータを出力するアライメント処理
手段と、前記ターゲットデータ、前記アライメントデー
タ、予め記憶したターゲット音素データ及び前記入力フ
レームデータに基づいて前記ターゲットフレームデータ
を生成するターゲットデコード手段と、を備えたことを
特徴としている。
成において、予めターゲット音声の挙動を表すターゲッ
ト挙動データを記憶するターゲット挙動データ記憶手段
と、前記ターゲット挙動データおよび外部より入力され
たパラメータコントロールデータに基づいてピッチデー
タ、アンプリチュードデータおよび接続時間付き音素表
記データを生成し出力するデータ変換手段と、を備えた
ことを特徴としている。
成において、前記ターゲットデコード手段は、ターゲッ
ト音素辞書内の同一音素についての二つのピッチに対応
したスペクトル・シェイプを用いて補間処理を行い、所
望のピッチに対応するスペクトル・シェイプを算出する
スペクトル・シェイプ補間手段を備えたことを特徴とし
ている。
成において、音素が安定状態あるいは遷移状態のいずれ
にあるかを判別する状態判別手段を備え、前記スペクト
ル・シェイプ補間手段は、前記状態判別手段の判別状態
に基づいて前記音素が遷移状態にある場合に、遷移元の
音素に対応するスペクトル・シェイプ及び遷移先の音素
に対応するスペクトル・シェイプを用いて前記補間処理
を行うことを特徴としている。
成において、前記スペクトル・シェイプ補間手段は、二
つのスペクトル・シェイプを用いて補間を行うに際し、
前記二つのスペクトル・シェイプ間におけるスペクトル
・シェイプ遷移関数を用いて前記補間処理を行うことを
特徴としている。
成において、前記遷移関数は、線形関数あるいは非線形
関数として予め定義されていることを特徴としている。
構成において、前記二つのスペクトル・シェイプを周波
数軸上でそれぞれ複数の領域に分け、各領域毎に前記遷
移関数を定めることを特徴としている。
構成において、前記スペクトル・シェイプ補間手段は、
前記遷移先の音素に対応させて前記遷移関数を定めるこ
とを特徴としている。
構成において、前記スペクトル・シェイプ補間手段は、
前記入力音声信号に対応する、あるいは、前記ターゲッ
ト音声に対応するピッチ若しくはスペクトル・シェイプ
に基づいて前記遷移関数をリアルタイムで決定する遷移
関数リアルタイム決定手段と、を備えたことを特徴とし
ている。
構成において、前記スペクトル・シェイプ補間手段は、
前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域に属する前記二つのスペク
トル・シェイプ上の実在の周波数およびマグニチュード
の組に対し、前記遷移関数としての線形関数を用いた前
記補間処理を前記複数の領域にわたって行うことを特徴
としている。
の構成において、前記スペクトル・シェイプ補間手段
は、前記各領域に属する一方のスペクトル・シェイプの
周波数である第1周波数及び当該第1周波数に対応する
他方のスペクトル・シェイプの周波数である第2周波数
を前記線形関数を用いて補間することにより補間周波数
を算出する周波数補間手段と、前記各領域に属する一方
のスペクトル・シェイプのマグニチュードである第1マ
グニチュードおよび当該第1マグニチュードに対応する
他方のスペクトル・シェイプのマグニチュードである第
2マグニチュードを前記線形関数を用いて補間するマグ
ニチュード補間手段と、を備えたことを特徴としてい
る。
構成において、前記ターゲットフレームデータは、ター
ゲットスペクトル・シェイプを含み、前記ターゲットデ
コード手段は、前記ターゲットスペクトル・シェイプの
アンプリチュードに応じて当該ターゲットスペクトル・
シェイプのスペクトル傾きを補正するスペクトル傾き補
正手段を備えたことを特徴としている。
の構成において、前記スペクトル傾き補正手段は、前記
ターゲットスペクトル・シェイプのスペクトル傾きと、
当該ターゲットスペクトル・シェイプに対応し、かつ、
前記入力音声信号に対応する入力スペクトル・シェイプ
のスペクトル傾きと、の差に相当するスペクトル傾き補
正フィルタ手段を備えたことを特徴としている。
対応する入力フレームデータを抽出する入力フレームデ
ータ抽出過程と、前記入力フレームデータと生成すべき
ターゲットフレームデータとの間の同期をとるべくアラ
イメント調整を行うとともに、ターゲット音声から予め
抽出したターゲットフレーム生成データに基づいて前記
ターゲットフレームデータを生成するターゲットフレー
ムデータ生成過程と、前記入力フレームデータ及び前記
ターゲットフレームデータに基づいて変換音声信号を生
成し出力する変換音声信号生成過程と、を備えたことを
特徴としている。
の構成において、前記ターゲットフレームデータ生成過
程は、前記入力音声信号から特徴ベクトルを抽出する特
徴ベクトル抽出過程と、予め記憶した認識用音素データ
及び予め記憶したターゲット挙動データに基づいて前記
入力フレームデータと前記ターゲットフレームデータと
の間の時間的位置関係を判別し、前記時間的位置関係に
対応するアライメントデータを出力するアライメント処
理過程と、前記ターゲットデータ、前記アライメントデ
ータ、予め記憶したターゲット音素データ及び前記入力
フレームデータに基づいて前記ターゲットフレームデー
タを生成するターゲットデコード過程と、を備えたこと
を特徴としている。
の構成において、予め記憶したターゲット音声の挙動を
表すターゲット挙動データおよび外部より入力されたパ
ラメータコントロールデータに基づいてピッチデータ、
アンプリチュードデータおよび接続時間付き音素表記デ
ータを生成し出力するデータ変換過程と、を備えたこと
を特徴としている。
の構成において、前記ターゲットデコード過程は、ター
ゲット音素辞書内の同一音素についての二つのピッチに
対応したスペクトル・シェイプを用いて補間処理を行
い、所望のピッチに対応するスペクトル・シェイプを算
出するスペクトル・シェイプ補間過程を備えたことを特
徴としている。
の構成において、音素が安定状態あるいは遷移状態のい
ずれにあるかを判別する状態判別過程を備え、前記スペ
クトル・シェイプ補間過程は、前記状態判別過程の判別
状態に基づいて前記音素が遷移状態にある場合に、遷移
元の音素に対応するスペクトル・シェイプ及び遷移先の
音素に対応するスペクトル・シェイプを用いて前記補間
処理を行うことを特徴としている。
の構成において、前記スペクトル・シェイプ補間過程
は、二つのスペクトル・シェイプを用いて補間を行うに
際し、前記二つのスペクトル・シェイプ間におけるスペ
クトル・シェイプ遷移関数を用いて前記補間処理を行う
ことを特徴としている。
の構成において、前記遷移関数は、線形関数あるいは非
線形関数として予め定義されていることを特徴としてい
る。
の構成において、前記二つのスペクトル・シェイプを周
波数軸上でそれぞれ複数の領域に分け、各領域毎に前記
遷移関数を定めることを特徴としている。
の構成において、前記スペクトル・シェイプ補間過程
は、前記遷移先の音素に対応させて前記遷移関数を定め
ることを特徴としている。
の構成において、前記スペクトル・シェイプ補間過程
は、前記入力音声信号に対応する、あるいは、前記ター
ゲット音声に対応するピッチ若しくはスペクトル・シェ
イプに基づいて前記遷移関数をリアルタイムで決定する
遷移関数リアルタイム決定過程と、を備えたことを特徴
としている。
の構成において、前記スペクトル・シェイプ補間過程
は、前記二つのスペクトル・シェイプを周波数軸上でそ
れぞれ複数の領域に分け、各領域に属する前記二つのス
ペクトル・シェイプ上の実在の周波数およびマグニチュ
ードの組に対し、前記遷移関数としての線形関数を用い
た前記補間処理を前記複数の領域にわたって行うことを
特徴としている。
の構成において、前記スペクトル・シェイプ補間過程
は、前記各領域に属する一方のスペクトル・シェイプの
周波数である第1周波数及び当該第1周波数に対応する
他方のスペクトル・シェイプの周波数である第2周波数
を前記線形関数を用いて補間することにより補間周波数
を算出する周波数補間過程と、前記各領域に属する一方
のスペクトル・シェイプのマグニチュードである第1マ
グニチュードおよび当該第1マグニチュードに対応する
他方のスペクトル・シェイプのマグニチュードである第
2マグニチュードを前記線形関数を用いて補間するマグ
ニチュード補間過程と、を備えたことを特徴としてい
る。
の構成において、前記ターゲットフレームデータは、タ
ーゲットスペクトル・シェイプを含み、前記ターゲット
デコード過程は、前記ターゲットスペクトル・シェイプ
のアンプリチュードに応じて当該ターゲットスペクトル
・シェイプのスペクトル傾きを補正するスペクトル傾き
補正過程を備えたことを特徴としている。
の構成において、前記スペクトル傾き補正過程は、前記
ターゲットスペクトル・シェイプのスペクトル傾きと、
当該ターゲットスペクトル・シェイプに対応し、かつ、
前記入力音声信号に対応する入力スペクトル・シェイプ
のスペクトル傾きと、の差に相当するスペクトル傾き補
正を行うことを特徴としている。
の音声であるターゲット音声に対応する音声変換用辞書
を生成する音声変換用辞書の生成方法において、各音素
について前記ターゲット歌手により低域側ピッチから高
域側ピッチにわたって連続的に発声させた音素発声信号
に基づいてスペクトル・シェイプを算出し、得られたス
ペクトル・シェイプを同一のスペクトル・シェイプとみ
なせるスペクトル・シェイプが属するピッチの区間をセ
グメントと定義し、前記セグメントに属する全ての前記
スペクトル・シェイプを予め定めた所定の周波数帯域幅
を有する周波数帯域毎に分割し、各前記周波数帯域の中
心周波数を算出し、各前記周波数帯域に属するスペクト
ル・シェイプの当該周波数帯域に対応する前記中心周波
数におけるマグニチュードの平均値を平均マグニチュー
ドとし、前記平均マグニチュードを前記セグメントに属
する全ての前記周波数帯域について算出し、前記セグメ
ントに属する全ての前記周波数帯域について算出した平
均マグニチュードを前記セグメント区間の平均ピッチに
おけるターゲットスペクトル・シェイプとして、前記音
声変換用辞書に格納する、ことを特徴としている。
な実施形態について説明する。 [A] 第1実施形態 まず、本発明の第1実施形態について説明する。 [1] 音声変換装置の全体構成 図1に実施形態の音声変換装置(音声変換方法)をカラ
オケ装置に適用し、ものまねを行うことができるカラオ
ケ装置として構成した場合の例である。音声変換装置1
0は、歌唱者の音声が入力され、歌唱信号を出力する歌
唱信号入力部11と、予め定めたコードブックに基づい
て歌唱信号から各種特徴ベクトルを抽出する認識特徴分
析部12と、歌唱信号のSMS(Spectral Modeling Sy
nthesis)分析を行って入力SMSフレームデータおよ
び有声/無声情報を出力するSMS分析部13と、各種
コードブックおよび各音素の隠れマルコフモデル(HM
M)を予め記憶した認識用音素辞書記憶部14と、曲に
依存したターゲット挙動データを記憶するターゲット挙
動データ記憶部15と、キー情報、テンポ情報、似具合
パラメータ、変換パラメータなどの各種パラメータを制
御するためのパラメータコントロール部16と、ターゲ
ット挙動データ記憶部に記憶されたターゲット挙動デー
タ、キー情報およびテンポ情報に基づいてデータ変換を
行い、変換された持続時間付音素表記情報、ピッチ情報
およびアンプリチュード(振幅)情報を生成し出力する
データ変換部17と、を備えて構成されている。
徴ベクトル、各音素のHMMおよび持続時間付音素表記
情報に基づいて歌唱者が対象としている曲中のどの部分
を歌っているかをビタビアルゴリズムを用いて求め、ア
ライメント情報(=ターゲット歌手が歌うべき曲中の歌
唱位置および音素)を検出するアライメント処理部18
と、ターゲット歌手に依存するスペクトル・シェイプ情
報を記憶するターゲット音素辞書記憶部19と、アライ
メント情報、ターゲット挙動データのピッチ情報、ター
ゲット挙動データのアンプリチュード情報、入力SMS
フレームデータおよびターゲット音素辞書のスペクトル
・シェイプ情報に基づいてターゲットのフレームデータ
(以下、ターゲットフレームデータという。)TGFL
を生成し出力するターゲット・デコーダ部20と、パラ
メータコントロール部16から入力される似具合パラメ
ータ、ターゲットフレームデータTGFLおよびSMS
フレームデータFSMSに基づいてモーフィング処理を行
い、モーフィングフレームデータMFLを出力するモー
フィング処理部21と、モーフィングフレームデータM
FLおよびパラメータコントロール部16より入力され
た変換パラメータに基づいて変換処理を行い、変換フレ
ームデータMMFLを出力する変換処理部22と、を備
えて構成されている。
ムデータMMFLのSMS合成を行い、変換音声信号で
ある波形信号SWAVを出力するSMS合成部23と、S
MS分析部13からの有声/無声情報に基づいて波形信
号SWAVあるいは入力された歌唱信号SVのいずれかを選
択的に出力する選択部24と、パラメータコントロール
部16からのキー情報およびテンポ情報に基づいて音源
部25を駆動するシーケンサ26と、選択部24から出
力された波形信号SWAVあるいは歌唱信号SVと音源部2
5からの出力信号であるミュージック信号SMSCを加算
して出力する加算部27と、加算部27の出力信号を増
幅等行ってカラオケ信号として出力する出力部28と、
を備えて構成されている。
に先立ち、SMS分析について説明する。SMS分析で
は、まず標本化された音声波形に窓関数を乗じた音声波
形(Frame)を切り出し、高速フーリエ変換(FFT)を行
って得られる周波数スペクトルから、正弦波成分と残差
成分とを抽出する。この場合において、正弦波成分と
は、基本周波数(Pitch)および基本周波数の倍数にあ
たる周波数(倍音)の成分をいう。そして、正弦波成分
として本実施形態では、基本周波数、各成分の平均アン
プリチュードおよびスペクトル包絡をエンベロープとし
て保持する。また、残差成分とは、入力信号から正弦波
成分を除いた成分であり、本実施形態では周波数領域の
データとして保持する。さらに得られた正弦波成分およ
び残差成分で示される周波数分析データは、フレーム単
位で記憶されることとなる。このとき、フレーム間の時
間間隔は固定(例えば、5ms)となっているので、フ
レームをカウントすることによって時間を特定すること
ができるようになっている。さらに各フレームには曲の
冒頭からの経過時間に相当するタイムスタンプが付され
ている。
隠れマルコフモデルを記憶している。記憶しているコー
ドブックは、歌唱信号を各種特徴ベクトル(より具体的
には、メルケプストラム、差分メルケプストラム、エネ
ルギー、差分エネルギー、ボイスネス(有声音尤度))
にベクトル量子化するために用いられる。また、本音声
変換装置においては、アライメント処理を行うために音
声認識の一手法である隠れマルコフモデル(HMM)を
用いており、HMMパラメータ(初期状態分布、状態遷
移確率行列、観測シンボル確率行列)を各音素(/a/、/
i/等)について求めたものが記憶されている。
タを記憶しており、このターゲット挙動データは、音声
変換を行う曲それぞれに対応した曲依存のデータであ
る。具体的には、対象となる曲を物まねの対象となるタ
ーゲット歌手が歌ったものから、ピッチ、アンプリチュ
ードの時間的変化を抽出したもの(なお、これらを静的
変化成分、ビブラート的変化成分に分離して抽出してお
くと、後処理の自由度がより高くなる)および対象とな
る曲の歌詞に基づいて歌詞を音素列の並びに置き換えた
音素表記に持続時間を含めた持続時間付音素表記が含ま
れる。例えば、持続時間付音素表記は、音素表記/n//a/
/k//i/……に対し、各々の持続時間、すなわち、/n/の
持続時間、/a/の持続時間、/k/の持続時間、/i/の持続
時間、……が含められる。
ット歌手の各音素に対応したスペクトル情報であるター
ゲット音素辞書を記憶しており、ターゲット音素辞書に
は、何種類かのピッチに対応したスペクトル・シェイプ
およびスペクトル補間を行うためのアンカーポイント情
報が含まれている。ここで、ターゲット音素辞書記憶部
19に記憶されている音声変換用辞書としてのターゲッ
ト音素辞書の作成について図2及び図3を参照して説明
する。 [2.3.1] ターゲット音素辞書 ターゲット音素辞書は、各音素毎にいくつかのピッチに
対応してスペクトル・シェイプと、アンカーポイント情
報を有している。図2にターゲット音素辞書の説明図を
示す。図2(b)、(c)、(d)は、ある音素におけ
るピッチf0i+1、f0i、f0i-1にそれぞれ対応するスペ
クトル・シェイプを示したものであり、一つの音素に対
して複数の(上述の例の場合、3個)スペクトル・シェ
イプがターゲット音素辞書には含まれる。このように複
数のピッチに対応したスペクトル・シェイプをターゲッ
ト音素辞書として持つ理由は、一般的に同一人物が同一
の音素を発声したとしても、ピッチに応じてスペクトル
・シェイプの形状は多少変化するものだからである。ま
た、図2(b)、(c)、(d)中、点線は周波数軸上
で複数の領域に分ける際の境界線であり、各領域の境界
の周波数がアンカーポイントであり、アンカーポイント
情報として当該周波数がターゲット音素辞書に含まれて
いる。
成 次にターゲット音素辞書の作成について説明する。ま
ず、ターゲット歌手がそれぞれの音素について出しうる
一番低いピッチから一番高いピッチまで、連続して発生
したものを録音する。より具体的には図2(a)のよう
に、時間とともにピッチをあげていくように発声する。
このように録音を行う理由は、より正確なスペクトル・
シェイプを算出するためである。すなわち、ある固定ピ
ッチで発生したサンプルから分析して求めたスペクトル
・シェイプには、実際に存在するフォルマントが必ずし
も現れるとは限らないからである。従って、求めるスペ
クトル・シェイプに正確にフォルマントが現れるように
するために、あるピッチの前後で同じスペクトル・シェ
イプとみなせる範囲内の分析結果の全てを用いる必要が
ある。
チの周波数範囲を同じセグメントであるとすると、i番
目のセグメントの中心周波数f0iは、
セグメントの境界のピッチ周波数であり、fi (low)が低
ピッチ側のピッチ周波数を表し、fi (high)が高ピッチ
側のピッチ周波数を表す。同じセグメントとみなせるピ
ッチにおけるスペクトル・シェイプの全ての値(周波数
及びマグニチュードの組)を一つにまとめる。より具体
的には、例えば、図3(a)に示すように、同じセグメ
ントとみなせるピッチにおけるスペクトル・シェイプを
同一の周波数軸/マグニチュード軸上にプロットする。
次に周波数軸上で周波数範囲[0,fS/2]を等間隔
(例えば30[Hz])に分割する。ここで、fSは、
サンプリング周波数である。
をB(バンド番号b∈[0,B−1])とし、各分割範
囲内に含まれる実際の周波数及びマグニチュードの組を (xn、yn) ここで、n=0、……、N−1である。 とすると、当該バンドbの中心周波数fb及び平均マグ
ニチュードMbは、それぞれ、
プである。
数及びマグニチュードの組を用いてスペクトル・シェイ
プを算出した場合には、図3(c)に示すようにターゲ
ット音素辞書に格納すべき、フォルマントがはっきりと
現れた良好なスペクトル・シェイプが得られる。これに
対し図3(b)に示すように、同じセグメントとみなす
ことができないようなピッチにおけるスペクトル・シェ
イプの全ての値(周波数及びマグニチュードの組)を一
つにまとめ、まとめた周波数及びマグニチュードの組を
用いてスペクトル・シェイプを算出した場合には、図3
(d)に示すように、図3(c)の場合と比較してフォ
ルマントがあまりはっきりしないスペクトル・シェイプ
が得られることとなる。
す。ターゲット・デコーダ部20は、歌唱者及びターゲ
ット歌唱者のピッチ、アライメントおよび既に処理済み
のデコードフレームからデコードされるべきフレームに
対応する音素が安定状態にあるかあるいは他の音素に移
行する遷移状態にあるかを決定する安定状態/遷移状態
決定部31と、スムーズなフレームデータの生成のため
に既に処理済みのデコードフレームを格納するフレーム
メモリ部32と、安定状態/遷移状態決定部31におけ
る決定結果に基づいてデコードされるべきフレームに対
応する音素が安定状態にある場合には現在の音素のスペ
クトル・シェイプを現在のターゲットのピッチ付近の二
つのスペクトル・シェイプから後述のスペクトル補間の
方法を用いて第1補間スペクトル・シェイプSS1とし
て生成し、デコードされるべきフレームに対応する音素
が遷移状態にある場合には遷移元の音素のスペクトル・
シェイプを現在のターゲットのピッチ付近の二つのスペ
クトル・シェイプから後述のスペクトル補間の方法を用
いて第2補間スペクトル・シェイプSS2として生成す
る第1スペクトル補間部33と、を備えて構成されてい
る。
定状態/遷移状態決定部31における決定結果に基づい
てデコードされるべきフレームに対応する音素が遷移状
態にある場合に遷移先の音素のスペクトル・シェイプを
現在のターゲットのピッチ付近の二つのスペクトル・シ
ェイプから後述のスペクトル補間の方法を用いて第3補
間スペクトル・シェイプSS3として生成する第2スペ
クトル補間部34と、遷移元の音素及び遷移先の音素並
びに歌唱者のピッチ、ターゲット歌唱者のピッチ及びス
ペクトル・シェイプなどを考慮に入れて遷移元の音素か
ら遷移先の音素に遷移させる場合の遷移のさせかたを規
定する遷移関数を発生する遷移関数発生部35と、安定
状態/遷移状態決定部31における決定結果に基づいて
デコードされるべきフレームに対応する音素が遷移状態
にある場合に遷移関数発生部35において発生された遷
移関数並びに第2補間スペクトル・シェイプSS2及び
第3補間スペクトル・シェイプSS3の二つのスペクト
ル・シェイプから後述のスペクトル補間の方法を用いて
第4スペクトル・シェイプSS4として生成する第3ス
ペクトル補間部36と、を備えて構成されている。
出力されるデコードフレームがよりリアルであるように
ターゲットのピッチ及びフレームメモリ部32に格納さ
れている処理済みのデコードフレームに基づいてスペク
トル・シェイプの微細構造を時間軸に沿って変化させ
(例えば、マグニチュードを時間とともに少しずつ変化
させる)、時間的変化が付加されたスペクトル・シェイ
プSStを出力する時間的変化付加部37と、時間的変
化付加部37により時間的変化が付加されたスペクトル
・シェイプSStをさらにリアルにするためにターゲッ
トのアンプリチュードに対応させてスペクトル・シェイ
プSStのスペクトル傾きを補正してターゲットスペク
トル・シェイプSSTGとして出力するスペクトル傾き
補正部38と、アライメント情報、ターゲットのピッチ
及びアンプリチュードに基づいて出力するデコードフレ
ームに対応するターゲットのピッチおよびアンプリチュ
ードを算出するターゲットピッチ/アンプリチュード算
出部39と、を備えて構成されている。
の詳細動作 ここで、ターゲット・デコーダ部20の詳細動作につい
て説明する。この場合において、よりスムーズなフレー
ムデータの生成の為、ターゲット・デコーダ部20が出
力すべきフレームデータ(デコードフレーム;ターゲッ
トスペクトル・シェイプ)はフレームメモリ部に記憶さ
れる。ターゲット・デコーダ部20への入力情報として
は、歌唱音声の情報(ピッチ、アンプリチュード、スペ
クトル・シェイプ、アライメント)、ターゲット挙動デ
ータ(ピッチ、アンプリチュード、持続時間付音素表
記)、ターゲット音素辞書(スペクトル・シェイプ)が
含まれている。
は、歌唱者、ターゲット歌手のピッチ、アライメント情
報、過去のデコード・フレームからデコードされるべき
フレームが安定状態(ある音素からある音素への遷移
(変化)途中ではなく、ある音素であることが特定でき
る状態にあるか否かを決定し、決定結果を第1スペクト
ル補間部33及び第2スペクトル補間部34に通知す
る。第1スペクトル補間部33は、安定状態/遷移状態
決定部31の通知に基づいて、デコードされるべきフレ
ームが安定状態である場合には、現在の音素のスペクト
ル・シェイプを現在のターゲットのピッチ付近の2つの
スペクトル・シェイプから、後述するスペクトル補間の
方法を用いて補間されたスペクトル・シェイプである第
1補間スペクトル・シェイプSS1を算出し時間的変化
付加部37に出力する。
状態/遷移状態決定部31の通知に基づいて、デコード
されるべきフレームが遷移状態である場合には、遷移元
の音素(第1の音素から第2の音素に遷移途中の場合に
おける、第1の音素)のスペクトル・シェイプを現在の
ターゲットのピッチ付近の2つのスペクトル・シェイプ
から、後述するスペクトル補間の方法を用いて補間され
たスペクトル・シェイプである第2補間スペクトル・シ
ェイプSS2を算出し、第3スペクトル補間部36に出
力する。一方、第2スペクトル補間部34は、安定状態
/遷移状態決定部31の通知に基づいて、デコードされ
るべきフレームが遷移状態である場合に、遷移先の音素
(第1の音素から第2の音素に遷移途中の場合におけ
る、第2の音素)のスペクトル・シェイプを現在のター
ゲットのピッチ付近の2つのスペクトル・シェイプか
ら、後述するスペクトル補間の方法を用いて補間された
スペクトル・シェイプである第3補間スペクトル・シェ
イプを算出し、第3スペクトル補間部36に出力する。
は、安定状態/遷移状態決定部31の通知に基づいて、
デコードされるべきフレームが遷移状態である場合に、
第1補間スペクトル・シェイプおよび第2スペクトル補
間処理において算出された第2補間スペクトル・シェイ
プに基づいて後述するスペクトル補間の方法を用いて補
間し、第4スペクトル・シェイプSS4を算出し、時間
的変化付加部37に出力する。この第4スペクトル・シ
ェイプSS4は、二つの異なる音素の中間的な音素のス
ペクトル・シェイプに相当するものとなる。この場合に
おいて、第4スペクトル・シェイプSS4を求めるべく
補間を行う際には、単純にある時間に亘って対応する領
域(その境界点はアンカー・ポイントで示される。)内
で線形に補間を行うのではなく、遷移関数発生部35に
おいて生成される遷移関数に従ってスペクトル補間を行
うことにより、より現実に近いスペクトル補間を行うこ
とができる。
から音素/e/に変化する際には、10フレームかけて対
応する領域内(後述するアンカー・ポイント間)のスペ
クトルを時間的に線形に変化させ、また、音素/a/から
音素/u/に変化する際には、5フレームかけて変化する
が、ある周波数帯域内(後述するアンカー・ポイント
間)のスペクトルについては、線形に変化させ、他の周
波数帯域内(後述するアンカー・ポイント間)のスペク
トルについては、指数関数的に変化させることにより、
自然な音素間の移動をスムーズに実現することができ
る。このため、遷移関数発生処理においては、音素、ピ
ッチに基づくとともに、歌唱者、ターゲットのピッチや
スペクトル・シェイプ等を考慮に入れて、遷移関数を発
生させる。この場合において、後述するようにターゲッ
ト音素辞書の中にこれらの情報を含めてしまうように構
成することも可能である。次に時間的変化付加部37
は、入力された第1補間スペクトル・シェイプSS1ま
たは第4補間スペクトル・シェイプSS4に対し、ター
ゲット・デコーダ部20より出力されるターゲットスペ
クトル・シェイプ(=デコードフレーム)がより実在す
るフレームと近似するようにターゲットのピッチおよび
過去のデコードフレームに基づいて、スペクトル・シェ
イプの微細構造を変化させ、時間的変化付加スペクトル
・シェイプSStとしてスペクトル傾き補正部38に出
力する。
としてのマグニチュードを時間的に少しづつ変化させる
ようにする。スペクトル傾き補正部38は、入力された
時間的変化付加スペクトル・シェイプSStに対し、出
力されるターゲットスペクトル・シェイプ(=デコード
フレーム)SSTGがより実在するフレームと近似する
ようにターゲットのアンプリチュードに応じたスペクト
ル傾きを有するように補正を行い、補正後のスペクトル
・シェイプをターゲットスペクトル・シェイプSSTG
として出力する。スペクトル傾き補正処理としては、出
力する音量が大きいときは一般的にスペクトル・シェイ
プの高域が豊か(リッチ)であり、音量が小さいときは
スペクトル・シェイプの高域が乏しい(=こもったよう
な音)ことをシミュレートするために、スペクトル・シ
ェイプの高域部の形状を音量に応じて変化させてやるの
である。そして、スペクトル傾き補正して得られるター
ゲットスペクトル・シェイプSSTGをフレームメモリ
部32に格納することとなる。一方、ターゲットピッチ
/アンプリチュード算出部39は、出力するターゲット
スペクトル・シェイプSSTGに対応するピッチTG
P、アンプリチュードTGAを算出し出力する。
クトル補間処理について説明する。 [2.4.3.1] スペクトル補間処理の概要 まず、安定状態/遷移状態決定部31における決定結果
に基づいてデコードされるべきフレームに対応する音素
が安定状態にある場合には、ターゲットデコーダ部20
は、当該音素に対応する二つのスペクトル・シェイプを
ターゲットの音素辞書から取り出し、また、デコードさ
れるべきフレームに対応する音素が遷移状態にある場合
には、遷移元の音素に対応する二つのスペクトル・シェ
イプをターゲットの音素辞書から取り出す。図5(a)
及び図5(b)は、安定状態にある音素あるいは遷移元
の音素に対応させてターゲット音素辞書から取り出され
た二つのスペクトル・シェイプであり、この二つのスペ
クトル・シェイプのピッチは異なっている。例えば、求
めたいスペクトル・シェイプがピッチ140[Hz]、
音素/a/のものだとすると、図5(a)のスペクトル・
シェイプは、ピッチ100[Hz]の音素/a/に対応す
るものであり、図5(b)のスペクトル・シェイプは、
ピッチ200[Hz]の音素/a/に対応するものであ
る。すなわち、求めたいスペクトル・シェイプのピッチ
を挟むような前後のピッチでそれぞれ最も近いピッチを
有する二つのスペクトル・シェイプであって、かつ、求
めたいスペクトル・シェイプと同一の音素に対応する二
つのスペクトル・シェイプを用いる。
1スペクトル補間部33でスペクトル補間の方法で補間
することにより、図5(e)に示すような所望のスペク
トル・シェイプ(第1スペクトル・シェイプSS1ある
いは第2スペクトル・シェイプSS2に相当)を得る。
得られたスペクトル・シェイプは、安定状態/遷移状態
決定部31における決定結果に基づいてデコードされる
べきフレームに対応する音素が安定状態にある場合に
は、そのまま得られたスペクトル・シェイプを時間的変
化付加部37に出力する。、さらに安定状態/遷移状態
決定部31における決定結果に基づいてデコードされる
べきフレームに対応する音素が遷移状態にある場合に
は、遷移先の音素に対応する二つのスペクトル・シェイ
プをターゲットの音素辞書から取り出す。図5(c)及
び図5(d)は、遷移先の音素に対応させてターゲット
音素辞書から取り出された二つのスペクトル・シェイプ
であり、この二つのスペクトル・シェイプのピッチも図
5(a)及び図5(b)の場合と同様に異なっている。
そして得られた二つのスペクトル・シェイプを第2スペ
クトル補間部34で補間することにより、図5(f)に
示すような所望のスペクトル・シェイプ(第3スペクト
ル・シェイプSS3に相当)を得る。さらにまた、安定
状態/遷移状態決定部31における決定結果に基づいて
デコードされるべきフレームに対応する音素が遷移状態
にある場合には、図5(e)及び図5(f)に示したス
ペクトル・シェイプを第3スペクトル補間部36でスペ
クトル補間の方法で補間することにより、図5(g)に
示すような所望のスペクトル・シェイプ(第4スペクト
ル・シェイプSS4に相当)を得る。
る。スペクトル補間を用いる目的は、以下の二つに大別
される。 (1) 二つの時間的に連続するフレームのスペクトル
・シェイプを補間し、時間的に二つのフレームの間にあ
るフレームのスペクトル・シェイプを求める。 (2) 二つの異なる音のスペクトル・シェイプを補間
し、中間的な音のスペクトル・シェイプを求める。 図6(a)に示すように、補間のもととなる二つのスペ
クトル・シェイプ(以下、便宜上、第1スペクトル・シ
ェイプSS11および第2スペクトル・シェイプSS1
2とする。なお、これらは、上述の第1スペクトル・シ
ェイプS1および第2スペクトル・シェイプS2とは全
く別個のものである。)を各々周波数軸上で複数の領域
Z1、Z2、……に分割する。そして、各領域を区切る
境界の周波数を各スペクトル・シェイプ毎にそれぞれ以
下のように設定する。この設定した境界の周波数をアン
カー・ポイントと呼んでいる。 第1スペクトル・シェイプSS11:RB1,1、RB2,
1、……、RBN,1 第2スペクトル・シェイプSS12:RB1,2、RB2,
2、……、RBM,2
を示す。線形スペクトル補間は、補間位置により定義さ
れ、補間位置Xは、0から1までの範囲である。この場
合において、補間位置X=0は、第1スペクトル・シェ
イプSS11そのもの、補間位置X=1は第2スペクト
ル・シェイプSS12そのものに相当する。図6(b)
は、補間位置X=0.35の場合である。また、図6
(b)において、縦軸上の白丸(○)は、スペクトル・
シェイプを構成する周波数およびマグニチュードの組の
それぞれを示す。従って、紙面垂直方向にマグニチュー
ド軸が存在すると考えるのが適当である。補間位置X=
0の軸上の第1スペクトル・シェイプSS11の注目す
るある領域Ziに対応するアンカー・ポイントが、 RBi,1およびRBi+1,1 であり、当該領域Ziに属する具体的な周波数およびマ
グニチュードの組のうちいずれかの組の周波数=fi1で
あり、マグニチュード=S1(fi1)であるものとす
る。補間位置X=1の軸上の第2スペクトル・シェイプ
SS12の注目するある領域Ziに対応するアンカー・
ポイントが、 RBi,2およびRBi+1,2 であり、当該領域Ziに属する具体的な周波数およびマ
グニチュードの組のうちいずれかの組の周波数=fi2で
あり、マグニチュード=S2(fi2)であるものとす
る。ここで、スペクトル遷移関数ftrans1(x)及びス
ペクトル遷移関数ftrans2(x)を求める。
すとすると、以下のようになる。 ftrans1(x)=m1・x+b1 ftrans2(x)=m2・x+b2 ここで、 m1=RBi,2−RBi,1 b1=RBi,1 m2=RBi+1,2−RBi+1,1 b2=RBi+1,2 である。次に第1スペクトル・シェイプSS11上に実
在する周波数およびマグニチュードの組に対応する補間
スペクトル・シェイプ上の周波数およびマグニチュード
の組を求める。
上に実在する周波数およびマグニチュードの組、具体的
には、周波数fi1、マグニチュードS1(fi1)に対応
する第2スペクトル・シェイプ上の周波数=fi1,2、マ
グニチュード=S2(fi1,2)を以下のように算出す
る。
あたり、第2スペクトル・シェイプSS12上に実在す
る周波数およびマグニチュードの組のうちで周波数=f
i1,2をはさむように最も近い周波数をそれぞれ、(+)、
(-)のサフィックスを付して表すとすると、
ペクトル・シェイプSS11上に実在する周波数および
マグニチュードの組に対応する補間スペクトル・シェイ
プ上の周波数fi1,xおよびマグニチュードSx(fi1,
x)は以下の式で求められる。
(fi1)}・x 同様にして、第1スペクトル・シェイプSS11上の全
ての周波数およびマグニチュードの組に対して算出す
る。続いて、第2スペクトル・シェイプSS12上に実
在する周波数およびマグニチュードの組に対応する補間
スペクトル・シェイプ上の周波数およびマグニチュード
の組を求める。
上に実在する周波数およびマグニチュードの組、具体的
には、周波数fi2、マグニチュードS2(fi2)に対応
する第1スペクトル・シェイプ上の周波数=fi1,1、マ
グニチュード=S1(fi1,1)を以下のように算出す
る。
にあたり、第1スペクトル・シェイプSS11上に実在
する周波数およびマグニチュードの組のうちで周波数=
fi2,1をはさむように最も近い周波数をそれぞれ、
(+)、(-)のサフィックスを付して表すとすると、
トル・シェイプSS12上に実在する周波数およびマグ
ニチュードの組に対応する補間スペクトル・シェイプ上
の周波数fi2,xおよびマグニチュードSx(fi2,x)は
以下の式で求められる。
(fi2)}・(x−1)
S12上の全ての周波数およびマグニチュードの組に対
して算出する。上述したように第1スペクトル・シェイ
プSS11上に実在する周波数fi1およびマグニチュー
ドS1(fi1)の組に対応する補間スペクトル・シェイ
プ上の周波数=fi1,x、マグニチュード=Sx(fi1,
x)並びに第2スペクトル・シェイプ上に実在する周波
数fi2およびマグニチュードS2(fi2)の組に対応す
る補間スペクトル・シェイプ上の周波数fi2,xおよびマ
グニチュードSx(fi2,x)の全ての算出結果を周波数
順に並び替えることにより、補間スペクトル・シェイプ
を求める。これらを全ての領域Z1 、Z2、……につい
て行い、全周波数帯域の補間スペクトル・シェイプを算
出する。上述の例においては、スペクトル遷移関数ftr
ans1(x)、ftrans2(x)を線形な関数としたが、二
次関数、指数関数など非線形な関数として定義あるいは
関数に対応する変化をテーブルとして用意するように構
成することも可能である。
の遷移関数を変更してやることによりより現実に近いス
ペクトル補間を行うことが可能である。この場合、ター
ゲット音素辞書の内容は、アンカー・ポイントに付随し
た遷移関数情報を含めるように構成すればよい。さらに
遷移関数情報としては、遷移先の音素に応じて設定する
ようにすればよい。すなわち、遷移先の音素が音素Bの
場合には、遷移関数Yを用い、遷移先の音素が音素Cの
場合には、遷移関数Zを用いる等のように設定し、設定
状態を音素辞書に組み込むようにすればよい。さらに歌
唱者、ターゲット歌手のピッチやスペクトル・シェイプ
等を考慮に入れ、リアルタイムに最適な遷移関数を設定
するようにしても良い。
る。まず、歌唱信号入力部11により、信号入力処理が
行われ、歌唱者の歌った信号を入力する。続いて認識特
徴分析部12により認識特徴分析処理が行われ、歌唱信
号入力部11を介して入力された歌唱信号SVを以降の
アライメント処理部18へ入力すべく、認識用音素辞書
に含まれるコードブックに基づいてベクトル量子化を行
い、各特徴ベクトルVC(メルケプストラム、差分メル
ケプストラム、エネルギー、差分エネルギー、ボイスネ
ス(有声音尤度)など)を算出する。なお、差分メルケ
プストラムとは、前フレームと現在のフレームのメルケ
プストラムの差分値を示す。差分エネルギーとは、前フ
レームと現在のフレームの信号エネルギーの差分値を示
す。ボイスネスとは、ゼロ交差数、ピッチ検出を行うと
きに求まる検出誤差等から総合的に求められる値、ある
いは、総合的に重み付けして求められる値であり、有声
音らしさを表す数値である。
部11を介して入力された歌唱信号SVをSMS分析し
て、SMSフレームデータFSMSを得て、ターゲット・
デコーダ部20およびモーフィング処理部21に出力す
る。具体的には、ピッチに応じた窓幅で切り出した波形
に対して、 (1) 高速フーリエ変換(FFT)処理 (2) ピーク検出処理 (3) 有声/無声判別処理およびピッチ検出処理 (4) ピーク連携処理 (5) 正弦波成分属性ピッチ、アンプリチュード、ス
ペクトル・シェイプの計算処理 (6) 残差成分算出処理 が行われる。アライメント処理部18は、認識特徴分析
部12により出力された各種特徴ベクトルVC、認識用
音素辞書14からの各音素のHMMおよびターゲット挙
動データに含まれる持続時間付音素表記情報より、歌唱
者が対象としている曲中のどの部分を歌っているかをビ
タビアルゴリズムを用いて求める。これにより、アライ
メント情報が求まり、この結果、ターゲット歌手が歌う
べきピッチ、アンプリチュード、音素を検出することが
できる。
ーゲット歌唱者に比較して長く歌った場合には、持続時
間付音素表記情報の持続時間を超えてある音素を歌って
いると判断し、ループ処理に入る旨をアライメント情報
に含めて出力することとなる。これらの結果、ターゲッ
ト・デコーダ部20は、アライメント処理部18により
出力されたアライメント情報およびターゲット音素辞書
19に含まれるスペクトル情報よりターゲット歌手のフ
レーム情報(ピッチ、アンプリチュード、スペクトル・
シェイプ)であるターゲットスペクトル・シェイプSS
TG、ピッチTGP、アンプリチュードTGAを算出
し、ターゲットフレームデータTGFLとしてモーフィ
ング処理部21に出力する。モーフィング処理部21
は、ターゲット・デコーダ部20から出力されたターゲ
ットフレームデータTGFLおよび歌唱信号SVに対応
するSMSフレームデータFSMS並びにパラメータコン
トロール部16から入力された似具合パラメータに基づ
いてモーフィング処理を行い、似具合パラメータに応じ
た所望のスペクトル・シェイプ、ピッチ、アンプリチュ
ードを有するモーフィングフレームデータMFLを生成
し、変換処理部22に出力する。
ル部16からの変換パラメータに従って、モーフィング
フレームデータMFLを変形し、変換フレームデータM
MFLとしてSMS合成部23に出力する。この場合に
おいて、出力アンプリチュードに応じたスペクトル傾き
補正を行うことにより、よりリアルな出力音声を得るこ
とが可能となる。また、変換処理部22で行う処理とし
ては、例えば偶数倍音をなくす等の処理があげられる。
SMS合成部23は、変換フレームデータMMFLをフ
レームスペクトルに変換し、逆高速フーリエ変換(IF
FT)、オーバーラップ処理および加算処理を行い、波
形信号SWAVとして選択部24に出力する。選択部24
は、SMS分析部13からの有声/無声情報に基づいて
歌唱信号SVに対応する歌唱者の音声が無声音である場
合には、歌唱信号SVをそのまま加算部27に出力し、
歌唱信号SVに対応する歌唱者の音声が有声音である場
合には、波形信号SWAVを加算部27に出力する。
は、パラメータコントロール部16の制御下で音源25
を駆動してミュージック信号SMSCを生成して加算部2
7に出力する。加算部27は、選択部24から出力され
た波形信号SWAVあるいは歌唱信号Svと音源25から出
力されたミュージック信号SMSCとを適当な割合で混合
して加算し、出力部28に出力する。出力部28は、加
算部27の出力信号に基づいてカラオケ信号(音声+ミ
ュージック)を出力することとなる。
実施形態が第1実施形態と異なる点は、第1実施形態の
ターゲット・デコーダ部においては、モーフィング処理
部に出力されるスペクトル・シェイプは、ターゲット挙
動データに含まれるターゲットのピッチ、アンプリチュ
ードに基づいて算出していたが、本第2実施形態におい
ては、歌唱者のピッチ及びスペクトル傾き情報に基づい
て算出している点である。これに伴い、本第2実施形態
のSMS分析部では、正弦波成分属性として、ピッチア
ンプリチュード、スペクトル・シェイプに加えて、スペ
クトル傾きも算出しておく必要があるが、ターゲット・
デコーダ部を除く各部の構成は第1実施形態と同様であ
る。
ロック図を示す。図7において図4の第1実施形態と同
様の部分には同一の符号を付し、その詳細な説明を省略
する。ターゲット・デコーダ部50は、安定状態/遷移
状態決定部31と、フレームメモリ部32と、第1スペ
クトル補間部33と、第2スペクトル補間部34と、遷
移関数発生部35と、第3スペクトル補間部36と、出
力されるデコードフレームがよりリアルであるように歌
唱者のピッチ及びフレームメモリ部32に格納されてい
る処理済みのデコードフレームに基づいてスペクトル・
シェイプの微細構造を時間軸に沿って変化させる(例え
ば、マグニチュードを時間とともに少しずつ変化させ
る)時間的変化付加部57と、時間的変化付加部57に
より時間的変化が付加されたスペクトル・シェイプをさ
らにリアルにするために歌唱者のスペクトル傾きと既に
生成されたスペクトル・シェイプの傾きを比較し、スペ
クトル・シェイプのスペクトル傾きを補正して補正後の
スペクトル・シェイプをターゲットスペクトル・シェイ
プSSTGとして出力し、フレームメモリ部32にター
ゲットスペクトル・シェイプSSTGを格納するスペク
トル傾き補正部58と、ターゲットピッチ/アンプリチ
ュード算出部39と、を備えて構成されている。
同様であるので、主要部の動作のみを説明する。ターゲ
ット・デコーダ部50の時間的変化付加部57は、出力
されるデコードフレームであるターゲットフレームがよ
りリアルであるように歌唱者のピッチ及びフレームメモ
リ部32に格納されている処理済みのデコードフレーム
に基づいてスペクトル・シェイプ(第1スペクトル・シ
ェイプSS1あるいは第4スペクトル・シェイプSS
4)の微細構造を時間軸に沿って変化させて(例えば、
マグニチュードを時間とともに少しずつ変化させて)、
スペクトル傾き補正部58に出力する。スペクトル傾き
補正部58は、ターゲット・デコーダ部50から出力す
るターゲットスペクトル・シェイプSSTGをさらにリ
アルにするために歌唱者のスペクトル傾きと既に生成さ
れたスペクトル・シェイプの傾きを比較し、スペクトル
・シェイプのスペクトル傾きを補正して補正後のスペク
トル・シェイプをターゲットスペクトル・シェイプSS
TGとして出力し、フレームメモリ部32にターゲット
スペクトル・シェイプSSTGを格納する。より具体的
には、歌唱者のスペクトル傾きと生成されたターゲット
のスペクトル・シェイプのスペクトル傾きの差であるス
ペクトル傾き補正値(Tilt Correction値)を算出し、
図8に示すように、スペクトル傾き補正値に応じた特性
を有するスペクトル傾き補正フィルタを生成されたター
ゲットのスペクトル・シェイプに対してかける。これに
より、より自然なスペクトル・シェイプを得ることが可
能となる。
成分と、ビブラート的変化成分(ビブラートを早さ、深
さのパラメータとして有する)に分けた情報として持っ
ていれば、例えば、同じ音素を歌唱者がターゲットに比
較して長く歌った場合でも、適切なビブラートを付加し
たピッチ、アンプリチュードを生成することができるの
で、自然な音の伸びを得ることができる。このような処
理を行う理由としては、このような処理を行わない場合
には、歌唱者がターゲット歌手と比較して長く音をのば
した場合などには、途中でビブラートがかからなくなる
などの現象が生じ、不自然なものとなり、また、歌唱者
がターゲット歌手と比較してテンポを変更した場合につ
いては、ビブラート成分を持っていない場合には、テン
ポを挙げるとビブラートが早くなってしまい同様に不自
然なものとなるからである。
ついては、考慮していないものであったが、ターゲット
歌唱者の残差成分を考慮する場合に、全てのフレームに
ついて残差成分を保持することは、情報圧縮の観点から
いっても本音声変換装置のシステムには適合しない。そ
こで、残差について予め代表的なスペクトルエンベロー
プを用意し、これらのスペクトルエンベロープを特定す
るためのインデックス情報を持つようにすればよい。よ
り具体的には、ターゲット挙動データとして残差スペク
トルエンベロープ情報インデックスを持たせ、例えば、
歌唱経過時間0秒〜2秒の間は、残差スペクトルエンベ
ロープ情報インデックス=1のスペクトルエンベロープ
を使用し、歌唱経過時間2秒〜3秒までは残差スペクト
ルエンベロープ情報インデックス=3のスペクトルエン
ベロープを使用する。そして、残差スペクトルエンベロ
ープ情報インデックスに対応するスペクトルエンベロー
プから実際の残差スペクトルを生成して、モーフィング
処理において用いるようにすれば、残差についてもモー
フィングを可能とすることができる。
声を目標とするターゲット歌唱者の歌い方に似せること
ができるとともに、ターゲット歌唱者の分析データの容
量を低減して、リアルタイムに処理を行うことが可能と
なる。
ック図である。
る。
る。
構成ブロック図である。
の説明図(その1)である。
の説明図(その2)である。
構成ブロック図である。
特性説明図である。
識特徴分析部、13…SMS分析部、14…認識用音素
辞書、15…ターゲット挙動データ、16…パラメータ
コントロール部、17…データ変換部、18…アライメ
ント処理部、19…ターゲット音素辞書、20…ターゲ
ット・デコーダ部、21…モーフィング処理部、22…
変換処理部、23…SMS合成部、24…選択部、25
…音源、26…シーケンサ、27…加算部、28…出力
部、31…安定状態/遷移状態決定部、32…フレーム
メモリ部、33…第1スペクトル補間部、34…第2ス
ペクトル補間部、35…遷移関数発生部、36…第3ス
ペクトル補間部、37…時間的変化付加部、38…スペ
クトル傾き補正部、39…ターゲットピッチ/アンプリ
チュード算出部、50…ターゲット・デコーダ部、57
…時間的変化付加部、58…スペクトル傾き補正部、S
S1…第1スペクトル・シェイプ、SS2…第2スペク
トル・シェイプ、SS3…第3スペクトル・シェイプ、
SS4…第4スペクトル・シェイプ、SSt…時間的変
化付加スペクトル・シェイプ、SSTG…ターゲットス
ペクトル・シェイプ。
Claims (31)
- 【請求項1】 入力音声信号に対応する入力フレーム
データを抽出する入力フレームデータ抽出手段と、 前記入力フレームデータと生成すべきターゲットフレー
ムデータとの間の同期をとるべくアライメント調整を行
うとともに、ターゲット音声から予め抽出したターゲッ
トフレーム生成データに基づいて前記ターゲットフレー
ムデータを生成するターゲットフレームデータ生成手段
と、 前記入力フレームデータ及び前記ターゲットフレームデ
ータに基づいて変換音声信号を生成し出力する変換音声
信号生成手段と、 を備えたことを特徴とする音声変換装置。 - 【請求項2】 請求項1記載の音声変換装置において、 前記ターゲットフレーム生成データには、ターゲット音
声のピッチ軌跡データ、接続時間付き音素表記情報およ
び音素毎のスペクトル・シェイプが含まれることを特徴
とする音声変換装置。 - 【請求項3】 請求項1または請求項2記載の音声変換
装置において、 前記ターゲットフレーム生成情報には、アンプリチュー
ド軌跡情報が含まれることを特徴とする音声変換装置。 - 【請求項4】 請求項1記載の音声変換装置において、 前記ターゲットフレームデータ生成手段は、前記入力音
声信号から特徴ベクトルを抽出する特徴ベクトル抽出手
段と、 予め記憶した認識用音素データ及び予め記憶したターゲ
ット挙動データに基づいて前記入力フレームデータと前
記ターゲットフレームデータとの間の時間的位置関係を
判別し、前記時間的位置関係に対応するアライメントデ
ータを出力するアライメント処理手段と、 前記ターゲットデータ、前記アライメントデータ、予め
記憶したターゲット音素データ及び前記入力フレームデ
ータに基づいて前記ターゲットフレームデータを生成す
るターゲットデコード手段と、 を備えたことを特徴とする音声変換装置。 - 【請求項5】 請求項4記載の音声変換装置において、 予めターゲット音声の挙動を表すターゲット挙動データ
を記憶するターゲット挙動データ記憶手段と、 前記ターゲット挙動データおよび外部より入力されたパ
ラメータコントロールデータに基づいてピッチデータ、
アンプリチュードデータおよび接続時間付き音素表記デ
ータを生成し出力するデータ変換手段と、 を備えたことを特徴とする音声変換装置。 - 【請求項6】 請求項4記載の音声変換装置において、 前記ターゲットデコード手段は、ターゲット音素辞書内
の同一音素についての二つのピッチに対応したスペクト
ル・シェイプを用いて補間処理を行い、所望のピッチに
対応するスペクトル・シェイプを算出するスペクトル・
シェイプ補間手段を備えたことを特徴とする音声変換装
置。 - 【請求項7】 請求項6記載の音声変換装置において、 音素が安定状態あるいは遷移状態のいずれにあるかを判
別する状態判別手段を備え、 前記スペクトル・シェイプ補間手段は、前記状態判別手
段の判別状態に基づいて前記音素が遷移状態にある場合
に、遷移元の音素に対応するスペクトル・シェイプ及び
遷移先の音素に対応するスペクトル・シェイプを用いて
前記補間処理を行うことを特徴とする音声変換装置。 - 【請求項8】 請求項6記載の音声変換装置において、 前記スペクトル・シェイプ補間手段は、二つのスペクト
ル・シェイプを用いて補間を行うに際し、前記二つのス
ペクトル・シェイプ間におけるスペクトル・シェイプ遷
移関数を用いて前記補間処理を行うことを特徴とする音
声変換装置。 - 【請求項9】 請求項8記載の音声変換装置において、 前記遷移関数は、線形関数あるいは非線形関数として予
め定義されていることを特徴とする音声変換装置。 - 【請求項10】 請求項8記載の音声変換装置におい
て、 前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換装置。 - 【請求項11】 請求項8記載の音声変換装置におい
て、前記スペクトル・シェイプ補間手段は、前記遷移先
の音素に対応させて前記遷移関数を定めることを特徴と
する音声変換装置。 - 【請求項12】 請求項8記載の音声変換装置におい
て、 前記スペクトル・シェイプ補間手段は、前記入力音声信
号に対応する、あるいは、前記ターゲット音声に対応す
るピッチ若しくはスペクトル・シェイプに基づいて前記
遷移関数をリアルタイムで決定する遷移関数リアルタイ
ム決定手段と、を備えたことを特徴とする音声変換装
置。 - 【請求項13】 請求項8記載の音声変換装置におい
て、 前記スペクトル・シェイプ補間手段は、前記二つのスペ
クトル・シェイプを周波数軸上でそれぞれ複数の領域に
分け、各領域に属する前記二つのスペクトル・シェイプ
上の実在の周波数およびマグニチュードの組に対し、前
記遷移関数としての線形関数を用いた前記補間処理を前
記複数の領域にわたって行うことを特徴とする音声変換
装置。 - 【請求項14】 請求項13記載の音声変換装置におい
て、 前記スペクトル・シェイプ補間手段は、前記各領域に属
する一方のスペクトル・シェイプの周波数である第1周
波数及び当該第1周波数に対応する他方のスペクトル・
シェイプの周波数である第2周波数を前記線形関数を用
いて補間することにより補間周波数を算出する周波数補
間手段と、 前記各領域に属する一方のスペクトル・シェイプのマグ
ニチュードである第1マグニチュードおよび当該第1マ
グニチュードに対応する他方のスペクトル・シェイプの
マグニチュードである第2マグニチュードを前記線形関
数を用いて補間するマグニチュード補間手段と、 を備えたことを特徴とする音声変換装置。 - 【請求項15】 請求項4記載の音声変換装置におい
て、 前記ターゲットフレームデータは、ターゲットスペクト
ル・シェイプを含み、 前記ターゲットデコード手段は、前記ターゲットスペク
トル・シェイプのアンプリチュードに応じて当該ターゲ
ットスペクトル・シェイプのスペクトル傾きを補正する
スペクトル傾き補正手段を備えたことを特徴とする音声
変換装置。 - 【請求項16】 請求項15記載の音声変換装置におい
て、 前記スペクトル傾き補正手段は、前記ターゲットスペク
トル・シェイプのスペクトル傾きと、当該ターゲットス
ペクトル・シェイプに対応し、かつ、前記入力音声信号
に対応する入力スペクトル・シェイプのスペクトル傾き
と、の差に相当するスペクトル傾き補正フィルタ手段を
備えたことを特徴とする音声変換装置。 - 【請求項17】 入力音声信号に対応する入力フレーム
データを抽出する入力フレームデータ抽出過程と、 前記入力フレームデータと生成すべきターゲットフレー
ムデータとの間の同期をとるべくアライメント調整を行
うとともに、ターゲット音声から予め抽出したターゲッ
トフレーム生成データに基づいて前記ターゲットフレー
ムデータを生成するターゲットフレームデータ生成過程
と、 前記入力フレームデータ及び前記ターゲットフレームデ
ータに基づいて変換音声信号を生成し出力する変換音声
信号生成過程と、 を備えたことを特徴とする音声変換方法。 - 【請求項18】 請求項17記載の音声変換方法におい
て、 前記ターゲットフレームデータ生成過程は、前記入力音
声信号から特徴ベクトルを抽出する特徴ベクトル抽出過
程と、 予め記憶した認識用音素データ及び予め記憶したターゲ
ット挙動データに基づいて前記入力フレームデータと前
記ターゲットフレームデータとの間の時間的位置関係を
判別し、前記時間的位置関係に対応するアライメントデ
ータを出力するアライメント処理過程と、 前記ターゲットデータ、前記アライメントデータ、予め
記憶したターゲット音素データ及び前記入力フレームデ
ータに基づいて前記ターゲットフレームデータを生成す
るターゲットデコード過程と、 を備えたことを特徴とする音声変換方法。 - 【請求項19】 請求項18記載の音声変換方法におい
て、 予め記憶したターゲット音声の挙動を表すターゲット挙
動データおよび外部より入力されたパラメータコントロ
ールデータに基づいてピッチデータ、アンプリチュード
データおよび接続時間付き音素表記データを生成し出力
するデータ変換過程と、 を備えたことを特徴とする音声変換方法。 - 【請求項20】 請求項18記載の音声変換方法におい
て、 前記ターゲットデコード過程は、ターゲット音素辞書内
の同一音素についての二つのピッチに対応したスペクト
ル・シェイプを用いて補間処理を行い、所望のピッチに
対応するスペクトル・シェイプを算出するスペクトル・
シェイプ補間過程を備えたことを特徴とする音声変換方
法。 - 【請求項21】 請求項20記載の音声変換方法におい
て、 音素が安定状態あるいは遷移状態のいずれにあるかを判
別する状態判別過程を備え、 前記スペクトル・シェイプ補間過程は、前記状態判別過
程の判別状態に基づいて前記音素が遷移状態にある場合
に、遷移元の音素に対応するスペクトル・シェイプ及び
遷移先の音素に対応するスペクトル・シェイプを用いて
前記補間処理を行うことを特徴とする音声変換方法。 - 【請求項22】 請求項20記載の音声変換方法におい
て、 前記スペクトル・シェイプ補間過程は、二つのスペクト
ル・シェイプを用いて補間を行うに際し、前記二つのス
ペクトル・シェイプ間におけるスペクトル・シェイプ遷
移関数を用いて前記補間処理を行うことを特徴とする音
声変換方法。 - 【請求項23】 請求項22記載の音声変換方法におい
て、 前記遷移関数は、線形関数あるいは非線形関数として予
め定義されていることを特徴とする音声変換方法。 - 【請求項24】 請求項22記載の音声変換方法におい
て、 前記二つのスペクトル・シェイプを周波数軸上でそれぞ
れ複数の領域に分け、各領域毎に前記遷移関数を定める
ことを特徴とする音声変換方法。 - 【請求項25】 請求項22記載の音声変換方法におい
て、 前記スペクトル・シェイプ補間過程は、前記遷移先の音
素に対応させて前記遷移関数を定めることを特徴とする
音声変換方法。 - 【請求項26】 請求項22記載の音声変換方法におい
て、 前記スペクトル・シェイプ補間過程は、前記入力音声信
号に対応する、あるいは、前記ターゲット音声に対応す
るピッチ若しくはスペクトル・シェイプに基づいて前記
遷移関数をリアルタイムで決定する遷移関数リアルタイ
ム決定過程と、 を備えたことを特徴とする音声変換方法。 - 【請求項27】 請求項22記載の音声変換方法におい
て、 前記スペクトル・シェイプ補間過程は、前記二つのスペ
クトル・シェイプを周波数軸上でそれぞれ複数の領域に
分け、各領域に属する前記二つのスペクトル・シェイプ
上の実在の周波数およびマグニチュードの組に対し、前
記遷移関数としての線形関数を用いた前記補間処理を前
記複数の領域にわたって行うことを特徴とする音声変換
方法。 - 【請求項28】 請求項27記載の音声変換方法におい
て、 前記スペクトル・シェイプ補間過程は、前記各領域に属
する一方のスペクトル・シェイプの周波数である第1周
波数及び当該第1周波数に対応する他方のスペクトル・
シェイプの周波数である第2周波数を前記線形関数を用
いて補間することにより補間周波数を算出する周波数補
間過程と、 前記各領域に属する一方のスペクトル・シェイプのマグ
ニチュードである第1マグニチュードおよび当該第1マ
グニチュードに対応する他方のスペクトル・シェイプの
マグニチュードである第2マグニチュードを前記線形関
数を用いて補間するマグニチュード補間過程と、 を備えたことを特徴とする音声変換方法。 - 【請求項29】 請求項18記載の音声変換方法におい
て、 前記ターゲットフレームデータは、ターゲットスペクト
ル・シェイプを含み、 前記ターゲットデコード過程は、前記ターゲットスペク
トル・シェイプのアンプリチュードに応じて当該ターゲ
ットスペクトル・シェイプのスペクトル傾きを補正する
スペクトル傾き補正過程を備えたことを特徴とする音声
変換方法。 - 【請求項30】 請求項29記載の音声変換方法におい
て、 前記スペクトル傾き補正過程は、前記ターゲットスペク
トル・シェイプのスペクトル傾きと、当該ターゲットス
ペクトル・シェイプに対応し、かつ、前記入力音声信号
に対応する入力スペクトル・シェイプのスペクトル傾き
と、の差に相当するスペクトル傾き補正を行うことを特
徴とする音声変換方法。 - 【請求項31】 ターゲット歌手の音声であるターゲッ
ト音声に対応する音声変換用辞書を生成する音声変換用
辞書の生成方法において、 各音素について前記ターゲット歌手により低域側ピッチ
から高域側ピッチにわたって連続的に発声させた音素発
声信号に基づいてスペクトル・シェイプを算出し、 得られたスペクトル・シェイプを同一のスペクトル・シ
ェイプとみなせるスペクトル・シェイプが属するピッチ
の区間をセグメントと定義し、 前記セグメントに属する全ての前記スペクトル・シェイ
プを予め定めた所定の周波数帯域幅を有する周波数帯域
毎に分割し、 各前記周波数帯域の中心周波数を算出し、 各前記周波数帯域に属するスペクトル・シェイプの当該
周波数帯域に対応する前記中心周波数におけるマグニチ
ュードの平均値を平均マグニチュードとし、 前記平均マグニチュードを前記セグメントに属する全て
の前記周波数帯域について算出し、 前記セグメントに属する全ての前記周波数帯域について
算出した平均マグニチュードを前記セグメント区間の平
均ピッチにおけるターゲットスペクトル・シェイプとし
て、前記音声変換用辞書に格納する、 ことを特徴とする音声変換用辞書の生成方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30026899A JP4430174B2 (ja) | 1999-10-21 | 1999-10-21 | 音声変換装置及び音声変換方法 |
| US09/693,144 US6836761B1 (en) | 1999-10-21 | 2000-10-20 | Voice converter for assimilation by frame synthesis with temporal alignment |
| US10/951,328 US7464034B2 (en) | 1999-10-21 | 2004-09-27 | Voice converter for assimilation by frame synthesis with temporal alignment |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP30026899A JP4430174B2 (ja) | 1999-10-21 | 1999-10-21 | 音声変換装置及び音声変換方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001117597A true JP2001117597A (ja) | 2001-04-27 |
| JP4430174B2 JP4430174B2 (ja) | 2010-03-10 |
Family
ID=17882754
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP30026899A Expired - Fee Related JP4430174B2 (ja) | 1999-10-21 | 1999-10-21 | 音声変換装置及び音声変換方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4430174B2 (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005071664A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
| JP2010085656A (ja) * | 2008-09-30 | 2010-04-15 | Brother Ind Ltd | 音域特定システム、プログラム |
| JP2010186032A (ja) * | 2009-02-12 | 2010-08-26 | Brother Ind Ltd | 歌唱音高差特定装置、及びプログラム |
| WO2011004579A1 (ja) * | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
| CN112489629A (zh) * | 2020-12-02 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音转写模型、方法、介质及电子设备 |
| CN113362856A (zh) * | 2021-06-21 | 2021-09-07 | 国网上海市电力公司 | 一种应用于电力物联网的声音故障检测方法以及装置 |
-
1999
- 1999-10-21 JP JP30026899A patent/JP4430174B2/ja not_active Expired - Fee Related
Cited By (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2005071664A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | 音声合成装置 |
| US7571099B2 (en) | 2004-01-27 | 2009-08-04 | Panasonic Corporation | Voice synthesis device |
| JP2010085656A (ja) * | 2008-09-30 | 2010-04-15 | Brother Ind Ltd | 音域特定システム、プログラム |
| JP2010186032A (ja) * | 2009-02-12 | 2010-08-26 | Brother Ind Ltd | 歌唱音高差特定装置、及びプログラム |
| WO2011004579A1 (ja) * | 2009-07-06 | 2011-01-13 | パナソニック株式会社 | 声質変換装置、音高変換装置および声質変換方法 |
| US8280738B2 (en) | 2009-07-06 | 2012-10-02 | Panasonic Corporation | Voice quality conversion apparatus, pitch conversion apparatus, and voice quality conversion method |
| CN112489629A (zh) * | 2020-12-02 | 2021-03-12 | 北京捷通华声科技股份有限公司 | 语音转写模型、方法、介质及电子设备 |
| CN113362856A (zh) * | 2021-06-21 | 2021-09-07 | 国网上海市电力公司 | 一种应用于电力物联网的声音故障检测方法以及装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP4430174B2 (ja) | 2010-03-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7464034B2 (en) | Voice converter for assimilation by frame synthesis with temporal alignment | |
| US7016841B2 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
| Bonada et al. | Synthesis of the singing voice by performance sampling and spectral models | |
| CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和系统 | |
| US10008193B1 (en) | Method and system for speech-to-singing voice conversion | |
| Cano Vila et al. | Voice morphing system for impersonating in karaoke applications | |
| US20130151256A1 (en) | System and method for singing synthesis capable of reflecting timbre changes | |
| Wouters et al. | Control of spectral dynamics in concatenative speech synthesis | |
| JP2001522471A (ja) | 特定の声を目標とする音声変換 | |
| Bonada et al. | Expressive singing synthesis based on unit selection for the singing synthesis challenge 2016 | |
| JP2003255974A (ja) | 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム | |
| JP3732793B2 (ja) | 音声合成方法、音声合成装置及び記録媒体 | |
| JP4364977B2 (ja) | 音声変換装置及び方法 | |
| JP4430174B2 (ja) | 音声変換装置及び音声変換方法 | |
| JP2003345400A (ja) | ピッチ変換装置、ピッチ変換方法及びプログラム | |
| US11183169B1 (en) | Enhanced virtual singers generation by incorporating singing dynamics to personalized text-to-speech-to-singing | |
| Bonada et al. | Spectral approach to the modeling of the singing voice | |
| JP3706249B2 (ja) | 音声変換装置、音声変換方法、および音声変換プログラムを記録した記録媒体 | |
| JP5573529B2 (ja) | 音声処理装置およびプログラム | |
| JP2000010597A (ja) | 音声変換装置及び音声変換方法 | |
| JP3967571B2 (ja) | 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム | |
| JP3540609B2 (ja) | 音声変換装置及び音声変換方法 | |
| JP2000003187A (ja) | 音声特徴情報記憶方法および音声特徴情報記憶装置 | |
| JP3447220B2 (ja) | 音声変換装置及び音声変換方法 | |
| Bonada et al. | Improvements to a sample-concatenation based singing voice synthesizer |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060223 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090224 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090522 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090818 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091118 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091215 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091217 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121225 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131225 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |