[go: up one dir, main page]

JP3555490B2 - 声質変換システム - Google Patents

声質変換システム Download PDF

Info

Publication number
JP3555490B2
JP3555490B2 JP08272899A JP8272899A JP3555490B2 JP 3555490 B2 JP3555490 B2 JP 3555490B2 JP 08272899 A JP08272899 A JP 08272899A JP 8272899 A JP8272899 A JP 8272899A JP 3555490 B2 JP3555490 B2 JP 3555490B2
Authority
JP
Japan
Prior art keywords
voice
fundamental frequency
unit
frequency
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP08272899A
Other languages
English (en)
Other versions
JP2000276200A (ja
Inventor
章 寺澤
博昭 竹山
聖 今井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Electric Works Co Ltd
Original Assignee
Matsushita Electric Works Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Works Ltd filed Critical Matsushita Electric Works Ltd
Priority to JP08272899A priority Critical patent/JP3555490B2/ja
Publication of JP2000276200A publication Critical patent/JP2000276200A/ja
Application granted granted Critical
Publication of JP3555490B2 publication Critical patent/JP3555490B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、声質変換システムに関するものである。
【0002】
【従来の技術】
現在、音声合成技術の応用が盛んに進められ、特にマルチメディア技術への応用としてインターネットでの情報提供のための音声活用や、カーナビゲーションのための音声メッセージ等の製品が開発されつつある。これら音声情報提供に対して、利用者の好みに合わせて音声を選択したい、利用者自身の発声を別の声質に変換して相手に伝えたい等の要求が利用者から出ている。これらの要求に対して、利用者の好みに合わせた音声情報提供や任意話者への声質変換する声質変換システムとしては、特開平9−292898号、特開平9−258779号、特開平9−305197号等に示されるシステムがある。これらの従来のシステムは、予め記憶しておいた平均標準パターンやターゲット話者音声パターンと入力音声のマッチングを行うことにより、声質を変換することを特徴としている。ところが、これらの方式では、変換に要する様々な音声パターンを予め記憶させておく必要があり、また入力音声と記憶させておいた音声パターンとの照合を行うための演算量が必要であると考えられる。そのため、これら従来装置を実現するためには、膨大な記憶容量をもつメモリと極めて処理能力の高い演算処理装置が必要である。
【0003】
【発明が解決しようとする課題】
実際、声質変換システムを活用しようとした場合、膨大な音声パターンの記憶メモリ容量と処理能力の高い演算処理装置が必要である点は、活用しようとする製品の選択に支障をきたす恐れがある。また、声質変換後の音声は特定話者へ声質変換する必要もなく、単に利用者自身の発声を別の声質に変換すればよい分野も多い。
【0004】
例えば住戸外に取り付けられるカメラ付きドアホンと住戸内に取り付けられるモニタ付きインターホンから構成されるインターホンシステムにおいて、住戸内の住人の性別にかかわらず、男性の声で住戸外の来客と応答することができるようにする場合等がある。また電話機の受話口に取り付けるアダプタ形状の装置等により、電話機に任意に取り付けて、相手によっては応対時の音声を男性の声にするような場合等がある。
【0005】
本発明は、上記のような点に鑑みて為されたもので、その目的とするところは入力音声をメモリに記憶しておく音声パターンに変換するのではなく、入力音声信号を信号処理技術を活用して略リアルタイミングで声質を変換することができる声質変換システムを提供することにある。
【0006】
【課題を解決するための手段】
上記目的を達成するために、請求項1の発明では、音声分析処理、音声合成処理の際に、周波数軸変換処理を制御するための周波数処理制御部と、入力音声を上記周波数処理制御部の制御により音声分析する音声分析部と、上記音声分析部による音声分析により得られる音声特徴パラメータから入力音声が有声音か否かを判別する有声音検出部と、上記有声音検出部で有声音と検出した場合、入力音声の基本周波数を検出する基本周波数検出部と、上記基本周波数検出部で検出された基本周波数を逓倍して基本周波数変換を行う基本周波数処理部と、上記有声音検出部で有声音を検出した場合、基本周波数処理部で基本周波数変換された得られた基本周波数に応じてパルス信号を発生させ、有声音を検出しなかった場合、白色雑音信号を発生させ、これらパルス信号及び白色雑音信号を音源信号として出力する音源信号発生部と、上記音声分析部で音声分析することにより得られた特徴パラメータと、上記音源信号発生部から得られた音源信号とを用いて、上記周波数処理制御部による周波数制御に従い音声合成する音声合成部とから成ることを特徴とする。
【0007】
請求項2の発明では、請求項1の発明において、上記音声分析部をMLSA分析フィルタで構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うことを特徴とする。
【0008】
請求項3の発明では、請求項1の発明において、上記音声分析部をフーリエ変換分析を用いたメルケプストラム分析部で構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うことを特徴とする。
【0009】
請求項4の発明では、請求項1乃至3の何れかの発明において、上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータをフーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域の入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とすることを特徴とする。
【0010】
請求項5の発明では、請求項1乃至3の何れかの発明において、上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータを近似フーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域での入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とすることを特徴とする。
【0011】
請求項6の発明では、請求項1乃至3の何れかの発明において、上記有声音検出部は、音声分析パラメータの対数パワーを用いて、対数パワー値が閾値よりも大きい場合に有声音検出とすることを特徴とする。
【0012】
請求項7の発明では、請求項4乃至6の何れかの発明において、上記閾値は、音声入力信号に応じて設定されることを特徴とする。
【0013】
請求項8の発明では、請求項2の発明において、上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号の自己相関を用いたピーク検出の間隔により基本周波数を検出することを特徴とする。
【0014】
請求項9の発明では、請求項3の発明において、上記基本周波数検出部は、上記メルケプストラム分析部により得られるメルケプストラムパラメータの高次成分のピーク検出の間隔により基本周波数を検出することを特徴とする。
【0015】
請求項10の発明では、請求項2の発明において、上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号の零交差数解析により基本周波数を検出することを特徴とする。
【0016】
請求項11の発明では、請求項2の発明において、上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号を入力とするニューラルネットワークにより基本周波数を推定検出することを特徴とする。
【0017】
請求項12の発明では、請求項1乃至11の何れかの発明において、上記基本周波数検出部により検出した基本周波数と1時刻前の基本周波数との傾きが予め設定した傾き範囲を越えた場合に、該傾き範囲に入るように上記検出した基本周波数を補正する基本周波数補正処理部を付設したことを特徴とする。
【0018】
請求項13の発明では、請求項1乃至12の何れかの発明において、上記基本周波数処理部は、検出される基本周波数に応じた、基本周波数変換処理を行うことを特徴とする。
【0019】
請求項14の発明では、請求項1乃至13の何れかの発明において、上記音源信号発生部は、発生させるパルス信号の振幅に応じて上記白色雑音信号の振幅を制御することを特徴とする。
【0020】
請求項15の発明では、請求項1乃至14の何れかの発明において、上記音声合成部より出力される合成音声信号に対してダウンサンプリングを行って再生音声の周波数帯域の制限を加えた合成音声信号を出力するダウンサンプリング部を付設したことを特徴とする。
【0021】
【発明の実施の形態】
以下本発明を実施形態により説明する。
【0022】
(実施形態1)
本実施形態装置は、図1に示す構成を基本構成とし、図示するように音声分析部1と、有声音検出部2と、基本周波数検出部3と、基本周波数処理部4と、音源信号発生部5と、周波数処理制御部6と、音声合成部7とから構成されており、音声分析部1では、入力音声信号の周波数スペクトルを音声特徴パラメータとして抽出し、有声音検出部2では、上記音声分析部1で抽出された周波数スペクトル(音声特徴パラメータ)を利用して有声音判別を行う。また、有声音検出部2で有声音と判別された音声区間は、入力音声信号に周期性のある基本周波数が存在すると考えられるので、基本周波数検出部3で基本周波数の検出を行う。ここで女性音声は、男性音声に比べて基本周波数が高いため、基本周波数処理部4では基本周波数検出部3で検出された基本周波数を低い周波数に変換する。音源信号発生部5では、有声音検出部2の検出結果に基づき、有声音検出区間において、基本周波数処理部4で処理された基本周波数に従いパルス信号を発生させ、それ以外の区間において、白色雑音信号を発生させ、これら信号を音声を合成するための音源信号としして出力する。音声合成部7では、上記音声分析部1で得られた周波数スペクトル(音声特徴パラメータ)を周波数処理制御部6で低域側に周波数シフトした周波数スペクトルと音源信号発生部5により発生させた音源信号を用いて音声を合成して合成音声信号を出力する。
【0023】
ここで本実施形態を、インターホンに組み込んだり、電話機にアダプタとして付加し、通話を行う際に、発話者の希望に応じて当該システムを動作させ、発話者の音声信号を入力音声信号として入力し、その入力音声信号に基づいて、上述のように音声合成を行うことにより、略リアルタイムに声質を変換して通話することが可能となる。また、声質を変換して通話することにより、女性の単身住宅でも男性の声質で対応できるため、簡易的な防犯が可能となる。さらに、 計算量が少なく実現することが可能であり、またメモリ量もほとんど必要ない。
【0024】
(実施形態2)
本実施形態では、基本構成としては実施形態1と同じであるが、音声特徴パラメータを音声分析により抽出する音声分析部としてリアルタイムで適応メルケプストラム分析を行う適応デジタルフィルタであるMLSA分析フィルタ100を用い、音声合成部として、MLSA合成フィルタ70を用いて構成する。
【0025】
MLSA分析フィルタ100及びMLSA合成フィルタ70はメル周波数軸上の分析処理を活用しているものである。MLSA分析フィルタはpade近似によりメル対数スペクトルを近似するデジタルフィルタであり、メル尺度を規定するパラメータαとメル対数化プストラム係数b(m)からなる複数の基本フィルタF(z)<図3(a)参照>と、pade係数p …とから図3(b)のように構成される。また適応デジタルフィルタ技術を用いて、入力音声信号に応じて適応的にメル対数ケプストラム係数b(m)を基本フィルタF(z)で算出することにより、MLSA分析フィルタ100は、入力音声信号のメル対数スペクトルモデルを適応的に近似するフィルタとなり、その出力として、残差信号が得られる。特に、メル尺度を規定するパラメータαの選択により、人間の聴覚特性を生かした適応デジタルフィルタであると言える。そのため、従来の音声分析法に比べて分析次数を減らすことができ、例えば8kHzサンプリングでは、m=12、α=0.31にとることにより、略リアルタイムで人間の聴覚特性に合わせた音声分析が行える。
【0026】
音声合成部を構成するMLSA合成フィルタ70は、MLSA分析フィルタ100の逆フィルタであり、メル周波数軸上の分析処理を活用しており、該周波数軸の伸縮を利用し、周波数処理制御部6では、メル周波数軸変換の伸縮パラメータを制御する。
【0027】
而して本実施形態では、入力音声信号から音声分析部であるMLSA分析フィルタ100は音声分析して、メルケプストラムパラメータを音声特徴パラメータとして有声音検出部2へ出力する。このメルケプストラムパラメータに基づいて有声音検出部2では有声音判別を行い、一方有声音区間に対応して基本周波数検出部3ではMLSA分析フィルタ100からの残差信号から基本周波数の検出を行う。音源信号発生部5では、有声音検出部2の検出結果に基づき、有声音検出区間において、基本周波数処理部4で処理された基本周波数に従いパルス信号を発振出力し、それ以外の区間において、白色雑音信号を発振出力し、これら発振出力を音声合成のための音源信号としてMLSA合成フィルタ70へ出力する。MLSA合成フィルタ70では、MLSA分析フィルタ100からのメルケプストラムパラメータと、音源信号とを用いて、周波数処理制御部6の周波数制御処理による制御に従い音声合成を行い、合成音声信号を出力する。
【0028】
ここで本実施形態に用いることができる基本周波数検出部3の例を次に説明する。
【0029】
例1
図4は本例を示しており、本例の基本周波数検出部3は、図示するようにMLSA分析フィルタ100から出力される残差信号の自己相関を基本周波数が存在すると考えられる区間に対して計算する自己相関計算部30と、該自己相関計算部30で計算された自己関数のピークが出現する区間を検出するピーク検出部31と、該ピーク検出部31により検出された区間を用いて基本周波数を算出する基本周波数算出部32とにより構成される。
【0030】
本例の基本周波数検出部3では、MLSA分析フィルタ100から出力される残差信号を利用することで、入力音声信号レベルを吸収することが可能となるため、常に一定に検出精度で基本周波数の検出が可能となる。
【0031】
例2
本例の基本周波数検出部3は図5に示すようにMLSA分析フィルタ100から出力される残差信号の零交差を解析して零交差数値を求める零交差解析部33と、零交差数値から基本周波数を算出する基本周波数算出部34とにより構成される。
【0032】
例3
本例の基本周波数検出部3は図6に示すようにMLSA分析フィルタ100から出力される残差信号を入力とする基本周波数検出ニューラルネットワーク35からなり、この基本周波数検出ニューラルネットワーク35は入力音声信号に対応したピッチの値を出力するように予め学習が行われているものであって、基本周波数を推定する。
【0033】
上記の例1〜3の何れの基本周波数検出部3もMLSA分析フィルタ100の残差信号を利用することで、入力音声信号レベルを吸収することが可能となり、そのため常に一定に検出精度で基本周波数の検出ができることになる。
【0034】
またMLSA分析フィルタ100による適応デジタルフィルタの精度の高い分析結果を利用することにより、高い精度の検出が可能となる。
【0035】
更に例3の場合には、残差信号を予め学習した基本周波数検出ニューラルネットワーク35を利用しているため、ニューラルネットワーク構成時の統計的な検出を行うことが可能となり、その結果精度の高い基本周波数の検出ができることになる。
【0036】
(実施形態3)
上記実施形態2では音声合成部をMLSA分析フィルタ100で構成しているが、本実施形態では図7に示すようにメルケプストラム分析部101により構成している点で実施形態1とは相違する。
【0037】
メルケプストラム分析部101は、入力音声信号に対してフーリエ変換、対数変換、メル周波数軸変換、逆フーリエ変換を行うメルケプストラム分析を行い、音声特徴パラメータとしてメルケプストラムパラメータを抽出するもので、音声合成部を構成するMLSA合成フィルタ70と互いにメル周波数軸上の分析処理を活用しており、その周波数軸の伸縮を利用し、周波数処理制御部6ではメル周波数軸変換のパラメータを制御するようになっている。
【0038】
また基本周波数検出部3は、例えば図8に示すようにメルケプストラム分析部101から出力されるメルケプストラムパラメータの内、高次数部(高ケフレンシー部パラメータ)のピーク検出をピーク検出部36で行い、その検出されたピークの区間から基本周波数算出部37で基本周波数を算出するようになっている。その他の構成は実施形態2と同じであるので、ここでは説明は省略する。
【0039】
而して本実施形態ではメルケプストラム分析部101から抽出される音声特徴パラメータであるメルケプストラムパラメータに基づいて有声音検出部2により有声音検出を行い、基本周波数検出部3で基本周波数を検出する。音源信号発生部5では実施形態2と同様に、有声音検出部2の検出結果に基づき、有声音検出区間において、基本周波数処理部4で処理された基本周波数に従いパルス信号を発振出力し、それ以外の区間において、白色雑音信号を発振出力し、これら発振出力を音声合成のための音源信号としてMLSA合成フィルタ70へ出力する。MLSA合成フィルタ70では、メルケプストラム分析部101からのメルケプストラムパラメータと、音源信号とを用いて、周波数処理制御部6の周波数制御処理による制御に従い音声合成を行い、合成音声信号を出力する。
【0040】
ここでメルケプストラムパラメータを用いて有声音を検出する本実施形態(上記実施形態2)に用いることができる有声検出部2の例を次に示す。
【0041】
例1
本例の有声検出部2は図9に示すようにメルケプストラムパラメータをフーリエ変換し、メル対数軸上のスペクトルに変換するフーリエ変換部20と、その変換結果から得られるメル対数スペクトルの指定周波数帯域、例えば図10に示す80Hz〜600Hzのレベル検出を行うレベル検出部21と、検出したレベル値を予め設定しておいた有声音検出閾値とを比較してその閾値より入力音声のレベル値が大きい場合有声音を検出したとする比較部22とで構成される。図10はメル対数軸上のメル対数スペクトルの例と上述した指定周波数帯域の例を示しており、図示する指定周波数帯域は、音声の有声音の代表である母音のフォルマント周波数帯域を利用したものである。
【0042】
本例の場合、日本語の特徴を生かし、有声音の代表的且つ勢力の大きい母音を誤り無く検出することにより、有声音検出性能を上げることが可能なものであり、またレベルを検知する周波数帯域を指定することにより、周囲騒音の影響にも強くなる。
【0043】
例2
本例の有声音検出部2は図11に示すように複数の指定周波数帯域のレベル検出部211〜21n及び夫々のレベル検出部211〜21nに対応した閾値が設定された比較部221〜21nを設け、指定帯域とその閾値は1つ決めておくだけでなく、各母音に対して、各々の指定帯域と各々の閾値を用意しており、どこかの指定帯域の一つでも閾値を超えると有声音検出と見なすようになっている。尚ORは比較部221〜22nの出力の論理和を取るオアゲートである。
【0044】
例3
上記例1の有声音検出部2における比較部22の閾値を本実施形態では、図12に示すようにフーリエ変換部20から出力されるメル対数スペクトルから入力音声信号のレベルを常時検出して、有声音検出の閾値を入力音声信号のレベルに応じて決定する閾値決定部27を具備し、この閾値決定部27で決定した閾値を比較部22に与えるようにしてある。
【0045】
勿論例2の各比較部221〜22nの閾値を決定する場合にも本例の閾値決定部27を用いても良い。
【0046】
本例によれば、有声音検出の閾値を入力音声信号レベルに応じて決定変更することにより、入力音声のレベルの大小の影響や入力される周囲騒音の影響に対応することが可能となる。
【0047】
例4
上記例1〜3はフーリエ変換を行ってメル対数スペクトルに変換するものであったが、この場合メルケプストラムパラメータをメル対数スペクトルに変換する際に必要なフーリエ変換の計算量が多い。そこで、本例の有声検出部2は同じ作用をするフーリエ変換近似算出法を用いて、フーリエ変換を行わずに、指定周波数帯域のレベルを検出するようにしたものである。
【0048】
つまり、所望周波数帯域のみ一定値をまずとり、その他の帯域は0とする矩形スペクトル(対数スペクトル)を図13(a)に示すように用意し、この矩形スペクトルに対してメル周波数軸変換を音声分析時と同じメル周波数軸伸縮パラメータにより行う。その結果図13(b)示すように得られるメル対数スペクトルの逆フーリエ変換を行い、所望帯域のみ値をもつメル周波数スペクトルのメルケプストラム係数a(1)…を得る。実際、この所望帯域のみ値をもつメル周波数スペクトルのメルケプストラム係数は、指定周波数帯域を決定しておけば前もって算出可能であり、音声検出する際に毎回計算する必要はない。
【0049】
図14は本例の有声音検出部2の構成を示しており、上述の所望の周波数帯域のスペクトルのメルケプストラム係数a(m)を予め決定される所定周波数帯域に基づいて算出記憶している所定周指定周波数用メルケプストラム係数算出部23と、音声分析部1から入力するメルケプストラムパラメータから入力音声信号のメルケプストラム係数c(m)を算出する入力音声信号用メルケプストラム係数算出部24と、両メルケプストラム係数a(m)、c(m)の積和演算(Σa(m)c(m))を行う積和部25と、その結果積和演算の値を閾値と比較して、有声音を検出する比較部22とからなる。上記の指定周波数帯域は、音声の有声音の代表である母音のフォルマント周波数帯域を利用したものであり、指定帯域とその閾値は1つ決めておくだけでなく、例2と同様に各母音に対して、各々の指定帯域と各々の閾値を用意し、どこかの指定帯域の一つでも閾値を超えると有声音検出とを見なすようにしても良い。
【0050】
本例の場合も、日本語の特徴を生かし、有声音の代表的且つ勢力の大きい母音を誤り無く検出することにより、有声音検出性能を上げることが可能なものであり、またレベルを検出する周波数帯域を指定することにより、周囲騒音の影響にも強くなる。
【0051】
例5
本例の有声音検出部2は、メルケプストラムパラメータの0次成分が入力音声信号の対数パワーを表していることに着目したもので、図15に示すように音声分析部1から入力するメルケプストラムパラメータから入力音声信号のメルケプストラム係数c(m)を算出する入力音声信号用メルケプストラム係数算出部24と、算出されたメルケプストラム係数c(m)からm=0、つまり0次元(c(0))のデータを抽出する0次元データ抽出部26と、この抽出された値と閾値とを比較して有声音の検出を行う比較部22とから構成される。
【0052】
本例の場合、音声分析の結果を利用することで、音声パワーをリアルタイムで活用することが可能となる。
【0053】
ところで、本実施形態での有声音検出部2の例1乃至5の構成は本実施形態と同様に音声特徴パラメータとしてメルケプストラムパラメータを用いる実施形態2の有声音検出部2として用いることができるのは勿論のことである。
【0054】
(実施形態4)
本実施形態は実施形態1〜3における基本周波数検出部3で検出される基本周波数の検出誤りの影響を小さくするために、図16に示すように基本周波数検出部3の後段に、基本周波数検出部3で検出した基本周波数と、1時刻前の基本周波数との傾きを計算し、この傾きが、予め設定しておいた傾きの範囲外の場合、基本周波数を誤検出したとして、予め設定しておいた傾きの範囲内に入る様に補正を加える処理を行う基本周波数補正部8を設け、この基本周波数補正部8で補正された基本周波数を、実施形態1〜3における、基本周波数処理部4へ出力するのである。
【0055】
図17は基本周波数補正の例を示しており、この例の場合現時点tで検出された基本周波数がfで、1時刻前t−1で検出された基本周波数がft−1であって、その時の傾きが予め設定してある傾きの範囲外にある場合を示しており、この場合基本周波数補正部8は基本周波数fを予め設定しておいた傾きの範囲内に入るようにようにf’に補正するのである。
【0056】
尚その他の構成は実施形態1〜3の何れかの構成と同じ構成を採用することができるから、ここでは図示及び説明を省略する。
【0057】
而して本実施形態では、検出される基本周波数の時間的な変動が急激な場合、誤検出した可能性が高いため、その補正を行うことで、合成された音声の声質を向上させることができる。またその補正された基本周波数の時間的な変化は緩やかなものとなり、急激な基本周波数変化によって発生する合成音声のイントネーションの不自然性を解消することが可能となる。
【0058】
(実施形態5)
本実施形態は、実施形態1〜3(或いは実施形態4)において、基本周波数検出部3で検出された基本周波数を逓倍して高周波数から低周波数に変換するための基本周波数処理部4において、図示するように検出された基本周波数に応じて基本周波数の変換処理を行うか行わないかを決定し、基本周波数処理部4の制御を行う基本周波数処理制御部9を付加したものである。その他の構成は実施形態1〜3或いは実施形態4と同じ構成を採用することができるので、図示及び説明を省略する。
【0059】
而して本実施形態では、入力音声が男性周波数帯域(低い周波数)の場合に、更に低周波数に変換されるのを防ぐことができ、また合成音声は、常に一般的な男性音声周波数帯域の音声となり、合成音声として、通常音声と違和感の無い音声を提供することができる。
【0060】
(実施形態6)
本実施形態は、有声音検出部2の検出結果と、基本周波数処理部4の結果を用いて音源信号を発生させる音源信号発生部5において、音源信号のパワー集中を防ぐために、発生させるパルス信号Pの列(図19(b)参照)及び白色雑音信号WN(図19(a)参照)の振幅を推定する推定機能と、パルス信号Pの振幅に対応して白色雑音信号WNの発生の振幅を適応的に制御する処理機能とを設け、パルス信号の発生のタイミングを、基本周波数処理部4の結果に依存するものとし、音源信号のパワー集中を防ぐために、図20に示すように白色雑音信号WNの直後のパルス信号Pは、音源信号のパワー集中を防ぐため、白色雑音信号WNの直後数ms間無音信号Sを発生させ、その後パルス信号Pを発生させる構成とする。
【0061】
尚本実施形態は音源信号発生部5以外の構成は上記実施形態1乃至5の何れかの構成を採用すればよいので、その他の構成は図示せず、説明も省略する。
【0062】
而して本実施形態では合成音声に急激なパワー変動に起因するクリック性の雑音が発生するのを防ぐことができ、またパルス信号Pと白色雑音信号WNの振幅制御を行うことにより、合成音声の音質として滑らかな音声を提供することができる。
【0063】
(実施形態7)
ところで、音声合成部により出力される音声は、入力音声信号の声質を変換した音声であり、周波数スペクトルの移動を伴った処理を行っているために、再生可能周波数の高周波帯域の処理の効果が少ないことにより合成音声に歪が生じる可能性があり、この歪を削除するために、本実施形態では、図21に示すように音声合成部を構成するMLSA合成フィルタ70より出力した合成音声信号に対して、ダウンサンプリング部10でサンプリング周波数制限を行い、上記の高周波帯域を再生周波数帯域から除外するようにしたものである。つまり本実施形態では、例えば10kHzのサンプリング周波数で得られた合成音声信号をダウンサンプリング部10により8kHzのサンプリング周波数でダウンサンプリングを行うようなっている。
【0064】
尚その他の構成は実施形態2乃至6の何れかの構成と同じ構成を採用できるからここでは図示及び説明を省略する。またMLSA合成フィルタ70を用いず、他の音声合成手段を用いる、例えば実施形態1の構成に採用しても良い。
【0065】
而して図22(a)に示すように周波数軸変動大の周波数帯域と、周波数軸変動小の周波数帯域の内、合成音声に歪みが発生し易いスペクトル成分の高周波数帯域を図22(b)に示すようにダウンサンプリング部71にてダウンサンプリングして再生周波数帯域から除外する。
【0066】
このようにして本実施形態では、合成音声の歪み成分の影響が無くなり、合成音声の音質を向上させることができる。
【0067】
【発明の効果】
請求項1の発明は、音声分析処理、音声合成処理の際に、周波数軸変換処理を制御するための周波数処理制御部と、入力音声を上記周波数処理制御部の制御により音声分析する音声分析部と、上記音声分析部による音声分析により得られる音声特徴パラメータから入力音声が有声音か否かを判別する有声音検出部と、上記有声音検出部で有声音と検出した場合、入力音声の基本周波数を検出する基本周波数検出部と、上記基本周波数検出部で検出された基本周波数を逓倍して基本周波数変換を行う基本周波数処理部と、上記有声音検出部で有声音を検出した場合、基本周波数処理部で基本周波数変換された得られた基本周波数に応じてパルス信号を発生させ、有声音を検出しなかった場合、白色雑音信号を発生させ、これらパルス信号及び白色雑音信号を音源信号として出力する音源信号発生部と、上記音声分析部で音声分析することにより得られた特徴パラメータと、上記音源信号発生部から得られた音源信号とを用いて、上記周波数処理制御部による周波数制御に従い音声合成する音声合成部とから成るので、大容量のメモリや複雑な演算処理が不要で、入力音声をリアルタイムに且つ少ない演算量で声質を変換することができ、その結果小型のシステムとして実現が可能となり、インターホンに内蔵したり、通常の電話機にアダプタとして取り付けるシステムとして構築することができ、更に声質変換後の音声が、入力音声を変換するので、決まった人の声になることがなく、簡易的な防犯装置にも有効に活用できるという効果がある。
【0068】
請求項2の発明は、請求項1の発明において、上記音声分析部をMLSA分析フィルタで構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うので、人間の聴覚的特徴を生かした適応的な分析方法により、極めて簡易に音声分析が可能となり、またMLSA分析フィルタと、MLSA合成フィルタの分析パラメータであるメル周波数軸変換パラメータを制御することにより、入力音声信号のメル対数スペクトル分布を変換することが可能となるという効果がある。
【0069】
請求項3の発明は、請求項1の発明において、上記音声分析部をフーリエ変換分析を用いたメルケプストラム分析部で構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うので、人間の聴覚的特徴を生かした精度の高い音声分析ができ、また分析において、メル周波数帯域分析を行うため、合成時のMLSA分析フィルタと共に、メル周波数軸変換パラメータを制御することにより、入力音声信号のメル対数スペクトル分布を変換できるという効果がある。
【0070】
請求項4の発明は、請求項1乃至3の何れかの発明において、上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータをフーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域の入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とするので、有声音検出部の検出性能を上げることができ、特に日本語の特徴を生かし、有声音の代表的かつ勢力の大きい母音を誤り無く検出することにより有声音検出性能を上げることが可能となり、またレベルを検出する周波数帯域を指定することにより、周囲騒音の影響にも強くになるという効果がある。特に、検出性能を落とさずに計算量を下げることを可能とあるという効果がある。
【0071】
請求項5の発明は、請求項1乃至3の何れかの発明において、上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータを近似フーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域での入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とするので、有声音検出部の検出性能をあげることができ、請求項4の発明と同様に、特に日本語の特徴を生かし、有声音の代表的かつ勢力の大きい母音を誤り無く検出することにより有声音検出性能を上げることが可能となり、またレベルを検出する周波数帯域を指定することにより、周囲騒音の影響にも強くなるという効果がある。
【0072】
請求項6の発明は、請求項1乃至3の何れかの発明において、上記有声音検出部が、音声分析パラメータの対数パワーを用いて、対数パワー値が閾値よりも大きい場合に有声音検出とするので、有声音検出に音声分析の結果を利用することができ、また、分析結果を利用することで、音声パワーをリアルタイムで活用することが可能となるという効果がある。
【0073】
請求項7の発明は、請求項4乃至6の何れかの発明において、上記閾値を、入力音声信号に応じて設定するので、検出閾値を入力音声信号レベルに応じて変更することにより、入力音声のレベルの大小の影響や入力される周囲騒音の影響にも対応することが可能となるという効果がある。
【0074】
請求項8の発明は、請求項2の発明において、上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号の自己相関を用いたピーク検出の間隔により基本周波数を検出するので、入力音声信号レベルを吸収することが可能となり、そのため常に一定の検出精度で検出が可能となるという効果がある。
【0075】
請求項9の発明は、請求項3の発明において、上記基本周波数検出部が、メルケプストラム分析部により得られるメルケプストラムパラメータの高次成分のピーク検出の間隔により基本周波数を検出するので、分析精度と同等の検出精度を保つことが可能となるという効果がある。
【0076】
請求項10の発明は、請求項2の発明において、上記基本周波数検出部が、上記MLSA分析フィルタから出力される残差信号の零交差数解析により基本周波数を検出するので、MLSA分析フィルタによる適応デジタルフィルタの精度の高い分析結果を利用することが可能となるという効果がある。
【0077】
請求項11の発明は、請求項2の発明において、上記基本周波数検出部が、上記MLSA分析フィルタから出力される残差信号を入力とするニューラルネットワークにより基本周波数を推定検出するので、入力音声信号の変化に対応でき、ニューラルネットワーク構成時の統計的な検出を行うことが可能となり、その結果精度の高い基本周波数検出が可能となるという効果がある。
【0078】
請求項12の発明は、請求項1乃至11の何れかの発明において、上記基本周波数検出部により検出した基本周波数と1時刻前の基本周波数との傾きが予め設定した傾き範囲を越えた場合に、該傾き範囲に入るように上記検出した基本周波数を補正する基本周波数補正処理部を付設したので、検出された基本周波数の時間的な変動が急激で、誤検出した可能性が高い場合にも、補正を行うことで、合成された音声の音質を向上させることができ、また、その補正された基本周波数の時間的な変化を緩やかなものとして、急激な基本周波数変化によって発生する合成音声のイントネーションの不自然性を解消することが可能となるという効果がある。
【0079】
請求項13の発明は、請求項1乃至12の何れかの発明において、上記基本周波数処理部が、検出される基本周波数に応じた、基本周波数変換処理を行うので、入力音声が声質変換に不適当な基本周波数帯域の場合に声質変換を行なわれるのを防ぐことができ、得られる合成音声が、常に所定の基本周波数帯域の音声となり、合成音声の音質として、通常音声と違和感の無い音声を提供することが可能となるという効果がある。
【0080】
請求項14の発明は、請求項1乃至13の何れかの発明において、上記音源信号発生部が、発生させるパルス信号の振幅に応じて上記白色雑音信号の振幅を制御するので、合成音声に急激なパワー変動に起因するクリック性の雑音が発生しないようにでき、また、パルス信号と白色性雑音信号の振幅制御を行うことにより、合成音声の音質として、滑らかな音声を提供することが可能となるという効果がある。
【0081】
請求項15の発明は、請求項1乃至14の何れかの発明において、上記音声合成部より出力される合成音声信号に対してダウンサンプリングを行って再生音声の周波数帯域の制限を加えた合成音声信号を出力するダウンサンプリング部を付設したので、スペクトルの処理に起因する再生可能周波数の高周波数部の処理の効果の少ない帯域における音声歪みの影響を、サンプリング周波数制限を行うことにより、音声歪みを起こす可能性のある周波数帯域を再生周波数帯域から除外することが可能となり、合成音声の音質に歪み成分の影響がなくなり、合成音声の音質を向上させることが可能となるという効果がある。
【図面の簡単な説明】
【図1】本発明の実施形態1の構成図である。
【図2】本発明の実施形態2の構成図である。
【図3】(a)は同上に用いるMLSA分析フィルタを構成する基本フィルタの構成図である。(b)は同上に用いるMLSA分析フィルタの具体的例の構成図である。
【図4】同上に用いる基本周波数検出部の例1を示す構成図である。
【図5】同上に用いる基本周波数検出部の例2を示す構成図である。
【図6】同上に用いる基本周波数検出部の例3を示す構成図である。
【図7】本発明の実施形態3の構成図である。
【図8】同上に用いる基本周波数検出部の一例を示す構成図である。
【図9】同上に用いる有声音検出部の例1を示す構成図である。
【図10】同上の音声有声音検出部のレベル検出の説明図である。
【図11】同上に用いる有声音検出部の例2を示す構成図である。
【図12】同上に用いる有声音検出部の例3を示す構成図である。
【図13】同上に用いる有声音検出部の例4の原理説明図である。
【図14】同上の有声音検出部の例4を示す構成図である。
【図15】同上に用いる有声音検出部の例5を示す構成図である。
【図16】本発明の実施形態4に要部の構成図である。
【図17】同上に用いる基本周波数補正部の動作説明図である。
【図18】本発明の実施形態5に要部の構成図である。
【図19】本発明の実施形態6の音源信号発生部5の発生信号例の説明図である。
【図20】同上の音源信号発生部の動作説明図である。
【図21】本発明の実施形態7の要部の構成図である。
【図22】同上のダウンサンプリング部の動作説明図である。
【符号の説明】
1 音声分析部
2 有声音検出部
3 基本周波数検出部
4 基本周波数処理部
5 音源信号発生部
6 周波数処理制御部
7 音声合成部

Claims (15)

  1. 音声分析処理、音声合成処理の際に、周波数軸変換処理を制御するための周波数処理制御部と、
    入力音声を上記周波数処理制御部の制御により音声分析する音声分析部と、
    上記音声分析部による音声分析により得られる音声特徴パラメータから入力音声が有声音か否かを判別する有声音検出部と、
    上記有声音検出部で有声音と検出した場合、入力音声の基本周波数を検出する基本周波数検出部と、
    上記基本周波数検出部で検出された基本周波数を逓倍して基本周波数変換を行う基本周波数処理部と、
    上記有声音検出部で有声音を検出した場合、基本周波数処理部で基本周波数変換された得られた基本周波数に応じてパルス信号を発生させ、有声音を検出しなかった場合、白色雑音信号を発生させ、これらパルス信号及び白色雑音信号を音源信号として出力する音源信号発生部と、
    上記音声分析部で音声分析することにより得られた特徴パラメータと、上記音源信号発生部から得られた音源信号とを用いて、上記周波数処理制御部による周波数制御に従い音声合成する音声合成部とから成ることを特徴とする声質変換システム。
  2. 上記音声分析部をMLSA分析フィルタで構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うことを特徴とする請求項1記載の声質変換システム。
  3. 上記音声分析部をフーリエ変換分析を用いたメルケプストラム分析部で構成し、上記音声合成部をMLSA合成フィルタで構成し、メル周波数軸変換をメルケプストラム分析時と音声合成時とで変えることで周波数軸変換処理を行うことを特徴とする請求項1記載の声質変換システム。
  4. 上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータをフーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域の入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とすることを特徴とする請求項1乃至3の何れかに記載の声質変換システム。
  5. 上記有声音検出部は、上記音声分析部により得られた音声特徴パラメータを近似フーリエ変換により周波数軸上のパラメータに変換して、所望周波数帯域での入力音声レベルを検出し、該検出レベルが閾値よりも大きい場合に有声音検出とすることを特徴とする請求項1乃至3の何れかに記載の声質変換システム。
  6. 上記有声音検出部は、音声分析パラメータの対数パワーを用いて、対数パワー値が閾値よりも大きい場合に有声音検出とすることを特徴とする請求項1乃至3の何れかに記載の声質変換システム。
  7. 上記閾値は、音声入力信号に応じて設定されることを特徴とする請求項4乃至6の何れかに記載の声質変換システム。
  8. 上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号の自己相関を用いたピーク検出の間隔により基本周波数を検出することを特徴とする請求項2記載の声質変換システム。
  9. 上記基本周波数検出部は、上記メルケプストラム分析部により得られるメルケプストラムパラメータの高次成分のピーク検出の間隔により基本周波数を検出することを特徴とする請求項3記載の声質変換システム。
  10. 上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号の零交差数解析により基本周波数を検出することを特徴とする請求項2記載の声質変換システム。
  11. 上記基本周波数検出部は、上記MLSA分析フィルタから出力される残差信号を入力とするニューラルネットワークにより基本周波数を推定検出することを特徴とする請求項2記載の声質変換システム。
  12. 上記基本周波数検出部により検出した基本周波数と1時刻前の基本周波数との傾きが予め設定した傾き範囲を越えた場合に、該傾き範囲に入るように上記検出した基本周波数を補正する基本周波数補正処理部を付設したことを特徴とする請求項1乃至11の何れかに記載の声質変換システム。
  13. 上記基本周波数処理部は、検出される基本周波数に応じた、基本周波数変換処理を行うことを特徴とする請求項1乃至12の何れかに記載の声質変換システム。
  14. 上記音源信号発生部は、発生させるパルス信号の振幅に応じて上記白色雑音信号の振幅を制御することを特徴とする請求項1乃至13の何れかに記載の声質変換システム。
  15. 上記音声合成部より出力される合成音声信号に対してダウンサンプリングを行って再生音声の周波数帯域の制限を加えた合成音声信号を出力するダウンサンプリング部を付設したことを特徴とする請求項1乃至14の何れかに記載の声質変換システム。
JP08272899A 1999-03-26 1999-03-26 声質変換システム Expired - Fee Related JP3555490B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP08272899A JP3555490B2 (ja) 1999-03-26 1999-03-26 声質変換システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08272899A JP3555490B2 (ja) 1999-03-26 1999-03-26 声質変換システム

Publications (2)

Publication Number Publication Date
JP2000276200A JP2000276200A (ja) 2000-10-06
JP3555490B2 true JP3555490B2 (ja) 2004-08-18

Family

ID=13782494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP08272899A Expired - Fee Related JP3555490B2 (ja) 1999-03-26 1999-03-26 声質変換システム

Country Status (1)

Country Link
JP (1) JP3555490B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113522B2 (en) 2001-01-24 2006-09-26 Qualcomm, Incorporated Enhanced conversion of wideband signals to narrowband signals
JP4848706B2 (ja) 2005-08-25 2011-12-28 富士ゼロックス株式会社 液滴吐出装置及び液滴吐出方法
JP2008107706A (ja) * 2006-10-27 2008-05-08 Yamaha Corp 話速変換装置およびプログラム
JP2008197247A (ja) * 2007-02-09 2008-08-28 Yamaha Corp 音声処理装置
JP2012003162A (ja) * 2010-06-18 2012-01-05 Adtex:Kk 人工的に有声音を生成する方法および有声音生成装置
JP6664670B2 (ja) * 2016-07-05 2020-03-13 クリムゾンテクノロジー株式会社 声質変換システム
US11257480B2 (en) * 2020-03-03 2022-02-22 Tencent America LLC Unsupervised singing voice conversion with pitch adversarial network
CN111402922B (zh) * 2020-03-06 2023-06-30 武汉轻工大学 基于小样本的音频信号分类方法、装置、设备及存储介质
CN111768800B (zh) * 2020-06-23 2024-06-25 中兴通讯股份有限公司 语音信号处理方法、设备及存储介质

Also Published As

Publication number Publication date
JP2000276200A (ja) 2000-10-06

Similar Documents

Publication Publication Date Title
CN112712812B (zh) 音频信号生成方法、装置、设备以及存储介质
US8898055B2 (en) Voice quality conversion device and voice quality conversion method for converting voice quality of an input speech using target vocal tract information and received vocal tract information corresponding to the input speech
JP4520732B2 (ja) 雑音低減装置、および低減方法
Talkin et al. A robust algorithm for pitch tracking (RAPT)
EP1252621B1 (en) System and method for modifying speech signals
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
US7272561B2 (en) Speech recognition device and speech recognition method
CN113571047B (zh) 一种音频数据的处理方法、装置及设备
KR20030035522A (ko) 스무딩 필터를 이용한 음성 합성 시스템 및 그 방법
NL8300718A (nl) Werkwijze en inrichting voor herkenning van een foneem in een stemsignaal.
JPH0916194A (ja) 音声信号の雑音低減方法
JP4150798B2 (ja) デジタルフィルタリング方法、デジタルフィルタ装置、デジタルフィルタプログラム及びコンピュータで読み取り可能な記録媒体
US20050143997A1 (en) Method and apparatus using spectral addition for speaker recognition
JP3307875B2 (ja) 符号化音声再生装置および符号化音声再生方法
JP3555490B2 (ja) 声質変換システム
US11727949B2 (en) Methods and apparatus for reducing stuttering
JP4914319B2 (ja) コミュニケーション音声処理方法とその装置、及びそのプログラム
EP1426926A2 (en) Apparatus and method for changing the playback rate of recorded speech
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
JP2002297199A (ja) 合成音声判別方法と装置及び音声合成装置
JP2951514B2 (ja) 声質制御型音声合成装置
JP2002258899A (ja) 雑音抑圧方法および雑音抑圧装置
CN116072152A (zh) 语音合成方法、装置及电子设备
Close et al. PAMGAN+/-: Improving phase-aware speech enhancement performance via expanded discriminator training
JP2905112B2 (ja) 環境音分析装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040503

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080521

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 5

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090521

Year of fee payment: 5

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100521

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100521

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110521

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120521

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120521

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees