JPH1124692A - 音声波の有音/休止区間判定方法およびその装置 - Google Patents
音声波の有音/休止区間判定方法およびその装置Info
- Publication number
- JPH1124692A JPH1124692A JP9176076A JP17607697A JPH1124692A JP H1124692 A JPH1124692 A JP H1124692A JP 9176076 A JP9176076 A JP 9176076A JP 17607697 A JP17607697 A JP 17607697A JP H1124692 A JPH1124692 A JP H1124692A
- Authority
- JP
- Japan
- Prior art keywords
- section
- waveform
- audio
- speech
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【課題】 背景雑音に影響され難く、かつ、演算量が少
ない。 【解決手段】 入力音声を短時間パワー検出し(3
1)、直接、また複数の遅延素子で順次遅延してニュー
ラルネットワーク(NNW)34へ供給し、入力音声の
自己相関をピッチ周期より長い範囲で最大を検出し(3
2)、NNW34へ入力し、入力音声のLSP係数を求
め(33)、これと特定LSPベクトルとの誤差を算出
し(35)、NNW34へ入力し、NNW34は予め有
音で1、休止区間で0を出力するように学習しておき、
NNW34の出力をしきい値判定して(37)、有音/
休止区間の判定結果とする。
ない。 【解決手段】 入力音声を短時間パワー検出し(3
1)、直接、また複数の遅延素子で順次遅延してニュー
ラルネットワーク(NNW)34へ供給し、入力音声の
自己相関をピッチ周期より長い範囲で最大を検出し(3
2)、NNW34へ入力し、入力音声のLSP係数を求
め(33)、これと特定LSPベクトルとの誤差を算出
し(35)、NNW34へ入力し、NNW34は予め有
音で1、休止区間で0を出力するように学習しておき、
NNW34の出力をしきい値判定して(37)、有音/
休止区間の判定結果とする。
Description
【0001】
【発明の属する技術分野】この発明は音声のディジタル
伝送等の分野に応用が可能であり、音声のディジタル処
理の分野に属し音声波中の有音区間と休止区間とを判別
する方法及びその装置に関する。
伝送等の分野に応用が可能であり、音声のディジタル処
理の分野に属し音声波中の有音区間と休止区間とを判別
する方法及びその装置に関する。
【0002】
【従来の技術】はじめに音声波形における有音区間と休
止区間について説明する。図9に実際の音声波形におけ
る有音区間と休止区間の例を示す。図9Aでは音声の前
後に音声を発声しないことによる休止区間TUS,TUEが
存在する様子が明らかである。また、音声を発声してい
る最中にもごく短時間の休止区間TUMが存在することが
判る。図9Bは発声区間中に存在する休止区間TUMの近
傍を拡大した図である。同図に見られる休止区間T
UMは、破裂音や摩擦音の直前に現れるものである。
止区間について説明する。図9に実際の音声波形におけ
る有音区間と休止区間の例を示す。図9Aでは音声の前
後に音声を発声しないことによる休止区間TUS,TUEが
存在する様子が明らかである。また、音声を発声してい
る最中にもごく短時間の休止区間TUMが存在することが
判る。図9Bは発声区間中に存在する休止区間TUMの近
傍を拡大した図である。同図に見られる休止区間T
UMは、破裂音や摩擦音の直前に現れるものである。
【0003】これらの休止区間TUS,TUEおよびTUMで
は音声波はパワーを持たないため、音声情報伝送におい
てはこれらの区間については休止区間であるという情報
のみを伝送すればよく、主に音声のディジタル伝送の分
野において伝送路の周波数資源を有効に利用することを
目的として、休止区間については休止区間であることを
ごく少ない情報量で伝送し、全体としての伝送情報量を
削減する方法が用いられる。
は音声波はパワーを持たないため、音声情報伝送におい
てはこれらの区間については休止区間であるという情報
のみを伝送すればよく、主に音声のディジタル伝送の分
野において伝送路の周波数資源を有効に利用することを
目的として、休止区間については休止区間であることを
ごく少ない情報量で伝送し、全体としての伝送情報量を
削減する方法が用いられる。
【0004】このような音声伝送方法を実現するにあた
り、音声が有音区間であるか休止区間であるかを正確に
特定することのできる音声の有音/休止区間判定装置が
必要である。音声の有音区間と休止区間を判定する最も
簡単な手法としては、音声波の短時間区間パワーを測定
し、これを一定のしきい値と比較する方法が挙げられ
る。しかしながらこの方法は音声のレベル変動や背景雑
音の影響を受けやすく、有音/休止区間の判定誤りを生
じやすい。
り、音声が有音区間であるか休止区間であるかを正確に
特定することのできる音声の有音/休止区間判定装置が
必要である。音声の有音区間と休止区間を判定する最も
簡単な手法としては、音声波の短時間区間パワーを測定
し、これを一定のしきい値と比較する方法が挙げられ
る。しかしながらこの方法は音声のレベル変動や背景雑
音の影響を受けやすく、有音/休止区間の判定誤りを生
じやすい。
【0005】このような問題点を解消する手法として
は、文献“VOX制御における有音・無音検出回路の一
検討”,電子通信情報学会春期大会,B−422,19
93がある。図10にその構成を示す。入力音声11は
帯域フィルタ12で処理され、増幅器13で増幅され、
PCM符号器14でPCM符号化され、出力端子15で
出力される。またPCM符号化された音声は無音検出回
路16においてパワーが算出され、一定のしきい値と比
較されて有音/休止区間の判定が行われる。一方増幅器
13の出力は検出回路17でレベルが検出され、その検
出レベルにホールド回路18を経て利得制御回路19へ
伝えられ、利得制御回路19の制御信号により増幅器1
3の利得を適応的に制御する。さらに、無音検出回路1
6が休止区間を検出している間は検出回路17の出力を
ホールドするようホールド回路18を制御し、休止区間
で利得制御を行わないように動作する。
は、文献“VOX制御における有音・無音検出回路の一
検討”,電子通信情報学会春期大会,B−422,19
93がある。図10にその構成を示す。入力音声11は
帯域フィルタ12で処理され、増幅器13で増幅され、
PCM符号器14でPCM符号化され、出力端子15で
出力される。またPCM符号化された音声は無音検出回
路16においてパワーが算出され、一定のしきい値と比
較されて有音/休止区間の判定が行われる。一方増幅器
13の出力は検出回路17でレベルが検出され、その検
出レベルにホールド回路18を経て利得制御回路19へ
伝えられ、利得制御回路19の制御信号により増幅器1
3の利得を適応的に制御する。さらに、無音検出回路1
6が休止区間を検出している間は検出回路17の出力を
ホールドするようホールド回路18を制御し、休止区間
で利得制御を行わないように動作する。
【0006】この方法においては、自動利得制御回路1
9により増幅器13の利得を制御し増幅器13の出力を
ある一定のレベルにすることにより、入力音声のレベル
変動に起因する有音/休止区間の判定誤りを軽減すると
ともに、無音検出回路16が休止区間を検出している
間、自動利得制御回路19の動作をホールドすることで
音声休止区間で増幅器13の利得が必要以上に大きくな
ることを防ぎ、背景雑音に起因する有音/休止区間の判
定誤りを抑止している。
9により増幅器13の利得を制御し増幅器13の出力を
ある一定のレベルにすることにより、入力音声のレベル
変動に起因する有音/休止区間の判定誤りを軽減すると
ともに、無音検出回路16が休止区間を検出している
間、自動利得制御回路19の動作をホールドすることで
音声休止区間で増幅器13の利得が必要以上に大きくな
ることを防ぎ、背景雑音に起因する有音/休止区間の判
定誤りを抑止している。
【0007】また、他の方法としては音声波の短時間パ
ワーに加え、音声波の自己相関係数やピッチラグを用い
て有音/休止区間の判定を行う方法がある。このような
装置の例として、文献“Europian digital cellular te
lecommunications system(Phase 2);Voice Activity D
etection(VAD)(GSM 06.32)”,European Tel
ecommunications Standards Institute(1994)がある。
図11にその構成を示す。入力音声はPCM符号化され
た後に自己相関係数およびピッチラグが分析され、それ
ぞれ自己相関係数入力端子21およびピッチラグ入力端
子22よりこの装置に入力される。自己相関係数は残差
パワー算出部23に送られ有音/休止区間判定対象とな
る区間の線形予測残差パワーが算出される。同時に自己
相関係数は自己相関係数平均化部24へ送られ、有音/
休止区間判定対象となる区間を含む過去数フレーム分の
自己相関係数の平均値が算出されてスペクトル比較部2
5へ送られるとともに、過去の自己相関係数平均値が予
測値算出部26へ送られる。予測値算出部26では過去
の自己相関係数平均値を用いて現在の自己相関係数平均
値を予測し、これをスペクトル比較部25へ送る。スペ
クトル比較部25では入力された二つの自己相関平均値
からスペクトルの比較を行い、スペクトルの定常性の判
定を行う。入力されたピッチラグは周期性判定部27へ
送られ、ここでピッチの定常性の判定が行われる。残差
パワー、スペクトル定常性判定結果、ピッチ定常性判定
結果はしきい値適応化部28へ送られ、ここで有音/休
止区間判定のための残差パワーのしきい値が決定され
る。決定されたしきい値はVAD判定部29で残差パワ
ーと比較され、有音/休止区間の判定が行われる。
ワーに加え、音声波の自己相関係数やピッチラグを用い
て有音/休止区間の判定を行う方法がある。このような
装置の例として、文献“Europian digital cellular te
lecommunications system(Phase 2);Voice Activity D
etection(VAD)(GSM 06.32)”,European Tel
ecommunications Standards Institute(1994)がある。
図11にその構成を示す。入力音声はPCM符号化され
た後に自己相関係数およびピッチラグが分析され、それ
ぞれ自己相関係数入力端子21およびピッチラグ入力端
子22よりこの装置に入力される。自己相関係数は残差
パワー算出部23に送られ有音/休止区間判定対象とな
る区間の線形予測残差パワーが算出される。同時に自己
相関係数は自己相関係数平均化部24へ送られ、有音/
休止区間判定対象となる区間を含む過去数フレーム分の
自己相関係数の平均値が算出されてスペクトル比較部2
5へ送られるとともに、過去の自己相関係数平均値が予
測値算出部26へ送られる。予測値算出部26では過去
の自己相関係数平均値を用いて現在の自己相関係数平均
値を予測し、これをスペクトル比較部25へ送る。スペ
クトル比較部25では入力された二つの自己相関平均値
からスペクトルの比較を行い、スペクトルの定常性の判
定を行う。入力されたピッチラグは周期性判定部27へ
送られ、ここでピッチの定常性の判定が行われる。残差
パワー、スペクトル定常性判定結果、ピッチ定常性判定
結果はしきい値適応化部28へ送られ、ここで有音/休
止区間判定のための残差パワーのしきい値が決定され
る。決定されたしきい値はVAD判定部29で残差パワ
ーと比較され、有音/休止区間の判定が行われる。
【0008】図12にしきい値適応化部の処理を示す。
残差パワーが仮判定のしきい値pth(定数)より小さ
な場合は(S1)、無条件に休止区間と判定され、有音
/休止区間判定しきい値thvadを初期値plevに
設定して終了する(S2)。残差パワーがpth以上で
あり(S1)、スペクトル非定常(S3)もしくはピッ
チ定常(S4)の場合は、無条件に有音区間と判定さ
れ、有音/休止区間判定しきい値の変更は行われず、し
きい値適応回数カウンタの値countを0として終了
する(S5)。
残差パワーが仮判定のしきい値pth(定数)より小さ
な場合は(S1)、無条件に休止区間と判定され、有音
/休止区間判定しきい値thvadを初期値plevに
設定して終了する(S2)。残差パワーがpth以上で
あり(S1)、スペクトル非定常(S3)もしくはピッ
チ定常(S4)の場合は、無条件に有音区間と判定さ
れ、有音/休止区間判定しきい値の変更は行われず、し
きい値適応回数カウンタの値countを0として終了
する(S5)。
【0009】上記以外の場合つまり残差パワーがpth
以上であり、スペクトルが定常であり、かつピッチが定
常でない場合は背景雑音区間として扱われ、これが一定
回数adp以上連続した場合に有音/休止区間判定しき
い値が変更される。即ち、背景雑音区間と判定される
と、しきい値適応回数カウンタの計数値countを+
1し(S6)、その計数値countが適応猶予回数a
dpを越えなければ終了とし(S7)、越えると、有音
/休止区間判定しきい値thvadをしきい値変更ステ
ップサイズ係数decで割算し、その結果を、しきい値
thvadから減算して新たなしきい値thvadとす
る(S8)。次に残差パワーpvadに音声パワー/残
差パワー比較係数facを乗算した結果がしきい値th
vadより大である場合は(S9)、しきい値thva
dを、しきい値変更の下限を規定する係数incで割算
した値にthvadを加算した値と、残差パワーpva
dに音声パワー/残差パワー比較係数facとの積の値
との小さい方をしきい値thvadとし(S10)、そ
のしきい値thvad又はステップS9でしきい値th
vadがpvad×facを越えなかった時のしきい値
thvadが、残差パワーpvadと残差パワーマージ
ンmarginとの和より大であれば(S11)、その
残差パワーpvadとマージンmarginとを加算し
たしきい値thvadとした後(S12)、またはステ
ップS11でしきい値thvadの方が大でないと判定
されると、適応猶予回数adpを+1してしきい値適応
回数カウンタの計数値countとして終了する(S1
3)。
以上であり、スペクトルが定常であり、かつピッチが定
常でない場合は背景雑音区間として扱われ、これが一定
回数adp以上連続した場合に有音/休止区間判定しき
い値が変更される。即ち、背景雑音区間と判定される
と、しきい値適応回数カウンタの計数値countを+
1し(S6)、その計数値countが適応猶予回数a
dpを越えなければ終了とし(S7)、越えると、有音
/休止区間判定しきい値thvadをしきい値変更ステ
ップサイズ係数decで割算し、その結果を、しきい値
thvadから減算して新たなしきい値thvadとす
る(S8)。次に残差パワーpvadに音声パワー/残
差パワー比較係数facを乗算した結果がしきい値th
vadより大である場合は(S9)、しきい値thva
dを、しきい値変更の下限を規定する係数incで割算
した値にthvadを加算した値と、残差パワーpva
dに音声パワー/残差パワー比較係数facとの積の値
との小さい方をしきい値thvadとし(S10)、そ
のしきい値thvad又はステップS9でしきい値th
vadがpvad×facを越えなかった時のしきい値
thvadが、残差パワーpvadと残差パワーマージ
ンmarginとの和より大であれば(S11)、その
残差パワーpvadとマージンmarginとを加算し
たしきい値thvadとした後(S12)、またはステ
ップS11でしきい値thvadの方が大でないと判定
されると、適応猶予回数adpを+1してしきい値適応
回数カウンタの計数値countとして終了する(S1
3)。
【0010】この方法においては音声のパワーだけでな
く、スペクトルの定常性やピッチの定常性等の情報を用
いて適応的に有音/休止区間の判定のためのパワーのし
きい値を変化させることで音声のレベル変動や背景雑音
に起因する有音/休止区間判定の判定誤りを低減してい
る。
く、スペクトルの定常性やピッチの定常性等の情報を用
いて適応的に有音/休止区間の判定のためのパワーのし
きい値を変化させることで音声のレベル変動や背景雑音
に起因する有音/休止区間判定の判定誤りを低減してい
る。
【0011】
【発明が解決しようとする課題】従来の自動利得制御回
路を用いた方法においては、入力音声波を利得の変動す
る増幅器を用いて増幅するため音声波の忠実な伝送とい
う点で問題がある。一方自己相関係数とピッチラクグを
用いる方法では、その構成上しきい値との比較、条件分
岐といった制御が多数要求され、装置実現にあたり制御
回路が複雑化するという問題点がある。
路を用いた方法においては、入力音声波を利得の変動す
る増幅器を用いて増幅するため音声波の忠実な伝送とい
う点で問題がある。一方自己相関係数とピッチラクグを
用いる方法では、その構成上しきい値との比較、条件分
岐といった制御が多数要求され、装置実現にあたり制御
回路が複雑化するという問題点がある。
【0012】
【課題を解決するための手段】請求項1記載の発明は、
一つないし複数の短時間音声パワーと、音声波を分析す
ることにより得られるスペクトル包絡に関係付けられる
パラメータベクトルと、これと同種のパラメータでスペ
クトルが平坦なパラメータベクトルとのベクトル間距離
と、音声のピッチ周期をほぼカバーする範囲内での音声
波の自己相関の最大値とをニューラルネットワークに入
力し、その出力によって有音/休止区間の判定を行う。
一つないし複数の短時間音声パワーと、音声波を分析す
ることにより得られるスペクトル包絡に関係付けられる
パラメータベクトルと、これと同種のパラメータでスペ
クトルが平坦なパラメータベクトルとのベクトル間距離
と、音声のピッチ周期をほぼカバーする範囲内での音声
波の自己相関の最大値とをニューラルネットワークに入
力し、その出力によって有音/休止区間の判定を行う。
【0013】また請求項2記載の発明は、一つないし複
数の短時間区間内における音声波の量子化されたサンプ
リング値の分散を、請求項1の発明における短時間音声
パワーの代りに用いる点が異なる。請求項1および2記
載の各発明においては入力音声を利得の変動する増幅器
を用いて増幅する必要がないため、自動利得制御回路を
用いる方法よりも音声波の忠実な伝送という点で優れて
いる。
数の短時間区間内における音声波の量子化されたサンプ
リング値の分散を、請求項1の発明における短時間音声
パワーの代りに用いる点が異なる。請求項1および2記
載の各発明においては入力音声を利得の変動する増幅器
を用いて増幅する必要がないため、自動利得制御回路を
用いる方法よりも音声波の忠実な伝送という点で優れて
いる。
【0014】また請求項1および2記載の各発明におい
ては、自己相関係数とピッチラグを用いる手法と同様に
複数のパラメータを用いて有音/休止区間の判定を行う
が、パラメータの組をニューラルネットワークに入力し
て得られる出力のみを用いて有音/休止区間の判定を行
うため、しきい値との比較が一回必要となるだけで条件
分岐制御は一切不要である利点を有する。
ては、自己相関係数とピッチラグを用いる手法と同様に
複数のパラメータを用いて有音/休止区間の判定を行う
が、パラメータの組をニューラルネットワークに入力し
て得られる出力のみを用いて有音/休止区間の判定を行
うため、しきい値との比較が一回必要となるだけで条件
分岐制御は一切不要である利点を有する。
【0015】さらに請求項2記載の発明においては音声
波がバイアスを持っているような場合、例えばAD変換
器のゼロレベルとマイクロフォン入力のゼロレベルが一
致しないような場合でも安定して有音/休止区間の判定
を行なうことが可能である。
波がバイアスを持っているような場合、例えばAD変換
器のゼロレベルとマイクロフォン入力のゼロレベルが一
致しないような場合でも安定して有音/休止区間の判定
を行なうことが可能である。
【0016】
【発明の実施の形態】図1に請求項1記載の発明の実施
の形態を示す。端子11からの入力音声は短時間音声パ
ワー算出部31、最大自己相関算出部32、LSP係数
算出部33に送られ、それぞれ短時間音声パワー、最大
自己相関、線スペクトル対(LSP)パラメータが算出
される。その算出された短時間音声パワーはニューラル
ネットワーク部34へ直接送られるとともに、遅延素子
351 ,352 ,…,35n を順次通されると共にその
各遅延素子の出力がそれぞれニューラルネットワーク部
31へ送られる。
の形態を示す。端子11からの入力音声は短時間音声パ
ワー算出部31、最大自己相関算出部32、LSP係数
算出部33に送られ、それぞれ短時間音声パワー、最大
自己相関、線スペクトル対(LSP)パラメータが算出
される。その算出された短時間音声パワーはニューラル
ネットワーク部34へ直接送られるとともに、遅延素子
351 ,352 ,…,35n を順次通されると共にその
各遅延素子の出力がそれぞれニューラルネットワーク部
31へ送られる。
【0017】最大自己相関算出部32は入力音声のピッ
チ周期を再現し得るに十分な時間遅れまでの自己相関係
数を算出し、その最大値はニューラルネットワーク部3
4に入力される。LSP係数算出部33で算出されたL
SPパラメータベクトルはLSPベクトル誤差算出部3
6において予め設定された平坦なスペクトル包絡のLS
Pパラメータベクトルとのベクトル誤差が算出され、得
られたベクトル誤差はニューラルネットワーク部34へ
入力される。
チ周期を再現し得るに十分な時間遅れまでの自己相関係
数を算出し、その最大値はニューラルネットワーク部3
4に入力される。LSP係数算出部33で算出されたL
SPパラメータベクトルはLSPベクトル誤差算出部3
6において予め設定された平坦なスペクトル包絡のLS
Pパラメータベクトルとのベクトル誤差が算出され、得
られたベクトル誤差はニューラルネットワーク部34へ
入力される。
【0018】ニューラルネットワーク部34は、多数の
学習音声を有音/休止区間の情報とともに与えられ、例
えば有音区間は1、無音区間は0を出力するように学習
される。この学習には一般的な手法、例えば誤差逆伝搬
法等を用いればよい。ニューラルネットワーク部34の
出力は有音/休止区間判定部37においてある一定のし
きい値と比較され、有音/休止区間が判定される。
学習音声を有音/休止区間の情報とともに与えられ、例
えば有音区間は1、無音区間は0を出力するように学習
される。この学習には一般的な手法、例えば誤差逆伝搬
法等を用いればよい。ニューラルネットワーク部34の
出力は有音/休止区間判定部37においてある一定のし
きい値と比較され、有音/休止区間が判定される。
【0019】短時間音声パワー算出部31では、従来の
この種の有音/休止区間検出方法で行われていると同様
の手法でかつ、同程度の時間区間、例えば5〜20ms
程度ごとに音声パワーが計算される。最大自己相関算出
部32では音声ピッチ間隔をほぼカバーする範囲内で自
己相関の最大値を求めていることになる。遅延素子35
1 ,352 ,…の各遅延時間は、短時間音声パワーの計
算時間区間と等しくされる、つまり例えば5msごとに
短時間音声パワーを計算する場合は、遅延素子351 ,
352 ,…の各遅延時間は5msとされる。ニューラル
ネットワーク部34に入力する短時間音声パワーの最も
遅れているものが15〜40ms程度が好ましい。つま
り短時間音声パワーの計算時間区間が5msであれば遅
延素子は3〜10個程度がよい。この取込みの遅延時間
が短かいと、判定性能が低下し、20ms程度が特に好
ましく、これより長くしても、判定性能はそれ程よくな
らず、処理量が多くなる。
この種の有音/休止区間検出方法で行われていると同様
の手法でかつ、同程度の時間区間、例えば5〜20ms
程度ごとに音声パワーが計算される。最大自己相関算出
部32では音声ピッチ間隔をほぼカバーする範囲内で自
己相関の最大値を求めていることになる。遅延素子35
1 ,352 ,…の各遅延時間は、短時間音声パワーの計
算時間区間と等しくされる、つまり例えば5msごとに
短時間音声パワーを計算する場合は、遅延素子351 ,
352 ,…の各遅延時間は5msとされる。ニューラル
ネットワーク部34に入力する短時間音声パワーの最も
遅れているものが15〜40ms程度が好ましい。つま
り短時間音声パワーの計算時間区間が5msであれば遅
延素子は3〜10個程度がよい。この取込みの遅延時間
が短かいと、判定性能が低下し、20ms程度が特に好
ましく、これより長くしても、判定性能はそれ程よくな
らず、処理量が多くなる。
【0020】有音/休止区間の判定は、例えば10〜4
0ms程度の一定時間区間ごとに行われ、短時間音声パ
ワーの計算時間区間は、この判定のための一定時間区間
と同程度か、短かく選定される。この構成によれば、従
来と同様に短時間音声パワーを判断の1ファクタとして
いるのみならず、自己相関の最大値を用いることによ
り、ピッチが定常的であれば有音と判断でき、更にベク
トル距離は、スペクトルの周波数特性に片寄りがある。
つまり平坦な特性ではない場合は有音と判定でき(雑音
のスペクトルは平坦)、これら複数のパラメータを用
い、図11、図12に示した従来の方法と同様に背景雑
音や音声のレベル変動に影響されず、正しい判定ができ
る。
0ms程度の一定時間区間ごとに行われ、短時間音声パ
ワーの計算時間区間は、この判定のための一定時間区間
と同程度か、短かく選定される。この構成によれば、従
来と同様に短時間音声パワーを判断の1ファクタとして
いるのみならず、自己相関の最大値を用いることによ
り、ピッチが定常的であれば有音と判断でき、更にベク
トル距離は、スペクトルの周波数特性に片寄りがある。
つまり平坦な特性ではない場合は有音と判定でき(雑音
のスペクトルは平坦)、これら複数のパラメータを用
い、図11、図12に示した従来の方法と同様に背景雑
音や音声のレベル変動に影響されず、正しい判定ができ
る。
【0021】LSPベクトル誤差算出部36では前述し
たようにスペクトルの片寄りを検出するためのものであ
るから、LSPパラメータのみならず、LPC(線形予
測係数)、PARCOR係数など、要するにスペクトル
包絡に関係ずけられるパラメータであればよい。請求項
2記載の発明は、請求項1記載の発明のうち短時間パワ
ー出力部31を短時間分散算出部で置き換えることで実
施される。短時間分散算出は、短時間区間における量子
化されたサンプル値の分散が算出される。音声の場合は
この分散が大きく、雑音の場合は小さい。またAD変換
器のゼロレベルとマイクロフォン入力のゼロレベルが一
致しない場合のように入力がバイアスを持っていると、
休止区間で比較的大きな短時間音声パワーが検出される
が、そのサンプル値は一定値であるため、分散は著しく
小さいものとなり、有音と区別され、誤判定のおそれが
ない。
たようにスペクトルの片寄りを検出するためのものであ
るから、LSPパラメータのみならず、LPC(線形予
測係数)、PARCOR係数など、要するにスペクトル
包絡に関係ずけられるパラメータであればよい。請求項
2記載の発明は、請求項1記載の発明のうち短時間パワ
ー出力部31を短時間分散算出部で置き換えることで実
施される。短時間分散算出は、短時間区間における量子
化されたサンプル値の分散が算出される。音声の場合は
この分散が大きく、雑音の場合は小さい。またAD変換
器のゼロレベルとマイクロフォン入力のゼロレベルが一
致しない場合のように入力がバイアスを持っていると、
休止区間で比較的大きな短時間音声パワーが検出される
が、そのサンプル値は一定値であるため、分散は著しく
小さいものとなり、有音と区別され、誤判定のおそれが
ない。
【0022】請求項1および2に記載の発明は短時間パ
ワー算出部と短時間分散算出部が異なるだけであるの
で、ここでは主に請求項1記載の発明について実施例を
示す。図2に各パラメータの分析条件等を示す。入力さ
れた音声は8000[Hz]の標本化周波数で標本化さ
れ、5[ms]ごとに音声パワーが算出される。自己相
関係数は図2に示した範囲のすべてのサンプル遅れに対
して算出し、そのうち最大の自己相関の値を求める。
ワー算出部と短時間分散算出部が異なるだけであるの
で、ここでは主に請求項1記載の発明について実施例を
示す。図2に各パラメータの分析条件等を示す。入力さ
れた音声は8000[Hz]の標本化周波数で標本化さ
れ、5[ms]ごとに音声パワーが算出される。自己相
関係数は図2に示した範囲のすべてのサンプル遅れに対
して算出し、そのうち最大の自己相関の値を求める。
【0023】また、図3にLSPベクトル誤差を算出す
る基準となるLSPパラメータベクトルを示す。この図
から各次数の間隔は等しく、これはスペクトルが平坦な
ものであることを示している。LSPベクトル誤差は同
図に示されたLSPベクトルと分析により求められたL
SPベクトルのユークリッド距離として定義した。ニュ
ーラルネットワーク部34は4層のモデルを用い、入力
層、第一中間層、第二中間層、出力層のニューロン数は
それぞれ7,3,3,1とした。第i層の第jニューロ
ンの出力oi,j は oi,j =(1/(e-x+1)−(1/2)) (1) ただし、 x=Σk wi.k,j oi-1,k +βi,j (2) ここに、wi.j,k は第i−1層第kニューロンの出力が
第i層第jニューロンへ入力される際の重み係数であ
り、またβi,j は第i層第jニューロンの入力に対する
バイアスである。ただし入力層を第0層とし、出力層を
第3層とする。式(1)は−0.5から0.5の範囲の
出力をとるので、出力層の出力に0.5を加えて出力範
囲を0から1とした。図4に各重み係数を、図5に各バ
イアスの例を示す。
る基準となるLSPパラメータベクトルを示す。この図
から各次数の間隔は等しく、これはスペクトルが平坦な
ものであることを示している。LSPベクトル誤差は同
図に示されたLSPベクトルと分析により求められたL
SPベクトルのユークリッド距離として定義した。ニュ
ーラルネットワーク部34は4層のモデルを用い、入力
層、第一中間層、第二中間層、出力層のニューロン数は
それぞれ7,3,3,1とした。第i層の第jニューロ
ンの出力oi,j は oi,j =(1/(e-x+1)−(1/2)) (1) ただし、 x=Σk wi.k,j oi-1,k +βi,j (2) ここに、wi.j,k は第i−1層第kニューロンの出力が
第i層第jニューロンへ入力される際の重み係数であ
り、またβi,j は第i層第jニューロンの入力に対する
バイアスである。ただし入力層を第0層とし、出力層を
第3層とする。式(1)は−0.5から0.5の範囲の
出力をとるので、出力層の出力に0.5を加えて出力範
囲を0から1とした。図4に各重み係数を、図5に各バ
イアスの例を示す。
【0024】請求項2記載の発明は請求項1記載の発明
のうち、短時間音声パワー算出部を短時間分散算出部に
変更するとともに、ニューラルネットワーク部34の重
みおよびバイアスを図6および図7に変更することで実
現できる。
のうち、短時間音声パワー算出部を短時間分散算出部に
変更するとともに、ニューラルネットワーク部34の重
みおよびバイアスを図6および図7に変更することで実
現できる。
【0025】
【発明の効果】請求項1および2記載の発明は、音声の
短時間パワー以外にスペクトル包絡に関係付けられたパ
ラメータベクトルのその平坦特性のベクトルとのベクト
ル誤差および一定時間内の音声波の自己相関最大値を用
いることにより、背景雑音が有音/休止区間判定に及ぼ
す影響を軽減する効果がある。
短時間パワー以外にスペクトル包絡に関係付けられたパ
ラメータベクトルのその平坦特性のベクトルとのベクト
ル誤差および一定時間内の音声波の自己相関最大値を用
いることにより、背景雑音が有音/休止区間判定に及ぼ
す影響を軽減する効果がある。
【0026】また、複数のパラメータをニューラルネッ
トワークを用いて処理することによって条件分岐処理が
一切不要となり、これにより複雑な制御回路を用いるこ
となく装置を実現することが可能となる効果を有する。
従来法のうち自己相関係数とピッチラグを用いる手法と
この発明の所要演算量を比較すると、実施例に示したパ
ラメータを用いた場合で、この発明は従来法の約半分程
度の演算で動作するものと見積もられる。
トワークを用いて処理することによって条件分岐処理が
一切不要となり、これにより複雑な制御回路を用いるこ
となく装置を実現することが可能となる効果を有する。
従来法のうち自己相関係数とピッチラグを用いる手法と
この発明の所要演算量を比較すると、実施例に示したパ
ラメータを用いた場合で、この発明は従来法の約半分程
度の演算で動作するものと見積もられる。
【0027】さらに請求項2記載の発明においては、音
声の短時間パワーを用いずに音声波の瞬時値の短時間分
散を用いることにより、音声波に一定のバイアスが重畳
する際にも安定して有音/休止区間を判定することが可
能となるという効果を有する。図8に音声の短時間パワ
ーを一定のしきい値と比較して有音/休止区間判定を行
なう従来方法と、この発明による判定試験結果の比較を
示す。同判定試験において背景雑音のない状態の音声
を、短時間パワーのしきい値との比較による方法(従来
法)により有音/休止区間の判定を行なった結果を基準
として用いている。この時しきい値は音声の長時間平均
パワーに比して−45[dB]を採用している。
声の短時間パワーを用いずに音声波の瞬時値の短時間分
散を用いることにより、音声波に一定のバイアスが重畳
する際にも安定して有音/休止区間を判定することが可
能となるという効果を有する。図8に音声の短時間パワ
ーを一定のしきい値と比較して有音/休止区間判定を行
なう従来方法と、この発明による判定試験結果の比較を
示す。同判定試験において背景雑音のない状態の音声
を、短時間パワーのしきい値との比較による方法(従来
法)により有音/休止区間の判定を行なった結果を基準
として用いている。この時しきい値は音声の長時間平均
パワーに比して−45[dB]を採用している。
【0028】背景雑音のない状態(同図にノイズフリー
と示す)の音声にこの発明を適用した場合、有音区間を
休止区間と判定する誤りが若干存在するが、この誤りの
大部分は大きなパワーを有する音声以外の音、例えば呼
吸音や舌打ちのような音を休止区間と判定したものであ
って、特に問題とはならないものであった。音声の長時
間平均パワーに比して−20[dB]の背景雑音を重畳
した音声について有音/休止区間判定を行なった結果、
従来法においてしきい値を−45[dB]および−30
[dB]とした場合は休止区間を一切判定しなかった。
また、しきい値を−20[dB]とすることで休止区間
の60%程度を正しく判定することができた。一方、こ
の発明を用いた場合、休止区間の95%程度を正しく判
定した。このときの有音区間の判定誤りの内容は背景雑
音を重畳しない場合と同様であった。
と示す)の音声にこの発明を適用した場合、有音区間を
休止区間と判定する誤りが若干存在するが、この誤りの
大部分は大きなパワーを有する音声以外の音、例えば呼
吸音や舌打ちのような音を休止区間と判定したものであ
って、特に問題とはならないものであった。音声の長時
間平均パワーに比して−20[dB]の背景雑音を重畳
した音声について有音/休止区間判定を行なった結果、
従来法においてしきい値を−45[dB]および−30
[dB]とした場合は休止区間を一切判定しなかった。
また、しきい値を−20[dB]とすることで休止区間
の60%程度を正しく判定することができた。一方、こ
の発明を用いた場合、休止区間の95%程度を正しく判
定した。このときの有音区間の判定誤りの内容は背景雑
音を重畳しない場合と同様であった。
【0029】音声の長時間平均パワーに比して−20
[dB]相当のバイアスを重畳した音声について有音/
休止区間判定を行なった結果、請求項1記載の発明を用
いた場合は休止区間をほとんど判定できなかったが、請
求項2記載の発明を用いると休止区間の65%程度を正
しく判定することができた。
[dB]相当のバイアスを重畳した音声について有音/
休止区間判定を行なった結果、請求項1記載の発明を用
いた場合は休止区間をほとんど判定できなかったが、請
求項2記載の発明を用いると休止区間の65%程度を正
しく判定することができた。
【図1】請求項1の発明の実施例の機能構成を示す図。
【図2】請求項1の発明を実施する場合の各パラメータ
の数値例を示す図。
の数値例を示す図。
【図3】基準のLSPパラメータベクトルの例を示す
図。
図。
【図4】請求項1の発明の実施例におけるニューラルネ
ットワーク部34の各重み係数の例を示す図。
ットワーク部34の各重み係数の例を示す図。
【図5】請求項1の発明の実施例におけるニューラルネ
ットワーク部のバイアスβi,jの例を示す図。
ットワーク部のバイアスβi,jの例を示す図。
【図6】請求項2の発明の実施例におけるニューラルネ
ットワーク部34の各重み係数の例を示す図。
ットワーク部34の各重み係数の例を示す図。
【図7】請求項2の発明の実施例におけるニューラルネ
ットワーク部34のバイアスβ i,j の例を示す図。
ットワーク部34のバイアスβ i,j の例を示す図。
【図8】この発明方法と従来方法とによる有音/休止区
間判定実施結果を示す図。
間判定実施結果を示す図。
【図9】音声波における有音区間と休止区間の例を示す
波形図。
波形図。
【図10】従来の自動利得制御を用いた有音/休止区間
判定装置の機能構成を示す図。
判定装置の機能構成を示す図。
【図11】従来の自己相関係数とピッチラグを用いた音
声の有音/休止区間判定装置の機能構成を示す図。
声の有音/休止区間判定装置の機能構成を示す図。
【図12】図11の従来装置におけるしきい値適応処理
の手順を示す流れ図。
の手順を示す流れ図。
Claims (4)
- 【請求項1】 音声波形を一定の周期でサンプリングし
量子化したものを、一定の時間区間に分割し、その各時
間区間毎にそこに含まれる音声が有音区間であるか休止
区間であるかを判定する方法において、 上記音声波形を分析してスペクトル包絡に関係ずけられ
るパラメータベクトルを求め、 そのパラメータベクトルを、これと同種のパラメータベ
クトルでスペクトル包絡がほぼ平坦なものとのベクトル
距離を求め、 上記音声波形の短時間音声パワーを求め、 上記音声波形の自己相関の音声のピッチ周期をほぼカバ
ーする範囲内で最大値を求め、 上記ベクトル距離と、上記短時間音声パワーの少なくと
も1つと、上記自己相関の最大値とをニューラルネット
ワークに入力し、その1つの出力をしきい値と比較し、
その大小によって上記音声波形が有音区間であるか休止
区間であるかを判定することを特徴とする音声波の有音
/休止区間判定方法。 - 【請求項2】 音声波形を一定の周期でサンプリングし
量子化したものを、一定の時間区間に分割し、その各時
間区間毎にそこに含まれる音声が有音区間であるか休止
区間であるかを判定する方法において、 上記音声波形を分析してスペクトル包絡に関係ずけられ
るパラメータベクトルを求め、 そのパラメータベクトルを、これと同種のパラメータベ
クトルでスペクトル包絡がほぼ平坦なものとのベクトル
距離を求め、 上記音声波形の短時間区間内における上記音声波形の量
子化されたサンプリング値の分散を求め、 上記音声波形の自己相関の音声のピッチ周期をほぼカバ
ーする範囲内で最大値を求め、 上記ベクトル距離と、上記分散の少なくとも1つと、上
記自己相関の最大値とをニューラルネットワークに入力
し、その1つの出力をしきい値と比較し、その大小によ
って上記音声波形が有音区間であるか休止区間であるか
を判定することを特徴とする音声波の有音/休止区間判
定方法。 - 【請求項3】 音声波形を一定の周期でサンプリングし
量子化したものを入力して一定時間区間毎にそこに含ま
れる音声が有音区間であるか休止区間であるかを判定す
る装置において、 上記音声波形を分析してスペクトル包絡に関係ずけられ
るパラメータベクトルを求める手段と、 上記パラメータベクトルを、これと同種のパラメータベ
クトルでスペクトル包絡がほぼ平坦なものとのベクトル
距離を求める手段と、 上記音声波形の短時間音声パワーを求める手段と、 上記音声波形の自己相関の音声のピッチ周期をほぼカバ
ーする範囲内で最大値を求める手段と、 上記ベクトル距離と、上記短時間音声パワーの少なくと
も1つと、上記自己相関の最大値とが入力され、1つの
出力端子から出力を出すニューラルネットワークと、 上記出力端子の出力をしきい値と比較し、その大小によ
って上記音声波形が有音区間であるか休止区間であるか
を判定することを特徴とする音声波の有音/休止区間判
定方法。 - 【請求項4】 音声波形を一定の周期でサンプリングし
量子化したものを入力して、一定時間区間毎にそこに含
まれる音声が有音区間であるか休止区間であるかを判定
する装置において、 上記音声波形を分析してスペクトル包絡に関係ずけられ
るパラメータベクトルを求める手段と、 上記パラメータベクトルを、これと同種のパラメータベ
クトルでスペクトル包絡がほぼ平坦なものとのベクトル
距離を求める手段と、 上記音声波形の短時間区間における上記音声波形の量子
化されたサンプリング値の分散を求める手段と、 上記音声波形の自己相関の音声のピッチ周期をほぼカバ
ーする範囲内で最大値を求める手段と、 上記ベクトル距離と、上記分散の少なくとも1つと、上
記自己相関の最大値とが入力され、1つの出力端子から
出力を出すニューラルネットワークと、 上記出力端子の出力をしきい値と比較し、その大小によ
って上記音声波形が有音区間であるか休止区間であるか
を判定する手段と、 を具備する音声波の有音/休止区間判定装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9176076A JPH1124692A (ja) | 1997-07-01 | 1997-07-01 | 音声波の有音/休止区間判定方法およびその装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP9176076A JPH1124692A (ja) | 1997-07-01 | 1997-07-01 | 音声波の有音/休止区間判定方法およびその装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH1124692A true JPH1124692A (ja) | 1999-01-29 |
Family
ID=16007307
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP9176076A Pending JPH1124692A (ja) | 1997-07-01 | 1997-07-01 | 音声波の有音/休止区間判定方法およびその装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH1124692A (ja) |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100555473B1 (ko) * | 1999-05-12 | 2006-03-03 | 삼성전자주식회사 | 반도체 집적회로에서의 전압강하를 고속으로 해석하기 위한 선형회로망 해석방법 |
| JP2013518607A (ja) * | 2010-02-25 | 2013-05-23 | シャープ株式会社 | 携帯型モニタリングのための生理学的信号の品質を分類する方法およびシステム |
| JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
| JP2019204073A (ja) * | 2018-05-24 | 2019-11-28 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声区間の認識方法、装置及び機器 |
| CN114746939A (zh) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | 信息处理装置、检测方法和检测程序 |
| WO2025249074A1 (ja) * | 2024-05-29 | 2025-12-04 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
-
1997
- 1997-07-01 JP JP9176076A patent/JPH1124692A/ja active Pending
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100555473B1 (ko) * | 1999-05-12 | 2006-03-03 | 삼성전자주식회사 | 반도체 집적회로에서의 전압강하를 고속으로 해석하기 위한 선형회로망 해석방법 |
| JP2013518607A (ja) * | 2010-02-25 | 2013-05-23 | シャープ株式会社 | 携帯型モニタリングのための生理学的信号の品質を分類する方法およびシステム |
| US8949077B2 (en) | 2010-02-25 | 2015-02-03 | Sharp Laboratories Of America, Inc. | Physiological signal quality classification for ambulatory monitoring |
| JP6392950B1 (ja) * | 2017-08-03 | 2018-09-19 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
| JP2019028405A (ja) * | 2017-08-03 | 2019-02-21 | ヤフー株式会社 | 検出装置、検出方法、および検出プログラム |
| JP2019204073A (ja) * | 2018-05-24 | 2019-11-28 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 音声区間の認識方法、装置及び機器 |
| US10847179B2 (en) | 2018-05-24 | 2020-11-24 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method, apparatus and device for recognizing voice endpoints |
| CN114746939A (zh) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | 信息处理装置、检测方法和检测程序 |
| WO2025249074A1 (ja) * | 2024-05-29 | 2025-12-04 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Avila et al. | Non-intrusive speech quality assessment using neural networks | |
| US11270707B2 (en) | Analysing speech signals | |
| US5848384A (en) | Analysis of audio quality using speech recognition and synthesis | |
| KR101060533B1 (ko) | 신호 변화 검출을 위한 시스템, 방법 및 장치 | |
| US9953661B2 (en) | Neural network voice activity detection employing running range normalization | |
| Kubichek | Mel-cepstral distance measure for objective speech quality assessment | |
| KR100944252B1 (ko) | 오디오 신호 내에서 음성활동 탐지 | |
| Sambur et al. | LPC analysis/synthesis from speech inputs containing quantizing noise or additive white noise | |
| Santos et al. | An improved non-intrusive intelligibility metric for noisy and reverberant speech | |
| US5715372A (en) | Method and apparatus for characterizing an input signal | |
| CN102549657B (zh) | 用于确定音频系统的感知质量的方法和系统 | |
| US7856355B2 (en) | Speech quality assessment method and system | |
| WO1997022117A1 (en) | Method and device for voice activity detection and a communication device | |
| US9953663B2 (en) | Method of and apparatus for evaluating quality of a degraded speech signal | |
| US9472202B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
| Dubey et al. | Non-intrusive speech quality assessment using several combinations of auditory features | |
| US20110029310A1 (en) | Procedure for processing noisy speech signals, and apparatus and computer program therefor | |
| US20120209598A1 (en) | State detecting device and storage medium storing a state detecting program | |
| JPH1124692A (ja) | 音声波の有音/休止区間判定方法およびその装置 | |
| US9659565B2 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal, through providing a difference function representing a difference between signal frames and an output signal indicative of a derived quality parameter | |
| US6539350B1 (en) | Method and circuit arrangement for speech level measurement in a speech signal processing system | |
| US20090161882A1 (en) | Method of Measuring an Audio Signal Perceived Quality Degraded by a Noise Presence | |
| Shiran et al. | Enhanced PESQ algorithm for objective assessment of speech quality at a continuous varying delay | |
| AU1222688A (en) | An adaptive multivariate estimating apparatus | |
| Lightburn | Mask-based enhancement of very noisy speech |