JP6693340B2 - 音声処理プログラム、音声処理装置、及び音声処理方法 - Google Patents
音声処理プログラム、音声処理装置、及び音声処理方法 Download PDFInfo
- Publication number
- JP6693340B2 JP6693340B2 JP2016168045A JP2016168045A JP6693340B2 JP 6693340 B2 JP6693340 B2 JP 6693340B2 JP 2016168045 A JP2016168045 A JP 2016168045A JP 2016168045 A JP2016168045 A JP 2016168045A JP 6693340 B2 JP6693340 B2 JP 6693340B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency spectrum
- gain
- distribution
- level difference
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R23/00—Arrangements for measuring frequencies; Arrangements for analysing frequency spectra
- G01R23/16—Spectrum analysis; Fourier analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/04—Studio equipment; Interconnection of studios
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/22—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only
- H04R1/222—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired frequency characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
図1は、第1の実施形態に係る音声処理装置の機能的構成を示す図である。
(状態1)発話している人物がいない状態。
(状態2)第1の収音装置2Aの近傍にいる人物のみが発話している状態。
(状態3)第2の収音装置2Bの近傍にいる人物のみが発話している状態。
(状態4)第1の収音装置2Aの近傍にいる人物と第2の収音装置2Bの近傍にいる人物とが発話している状態。
伝達特性分布算出部142は、処理対象のフレームについての伝達特性と、伝達特性情報保持部191で保持している所定期間内の伝達特性とに基づいて、伝達特性の分布を算出し、伝達特性のばらつきの度合いを算出する。伝達特性分布算出部142は、例えば、所定期間内における伝達特性の平均を伝達特性の分布のピーク値とし、当該ピーク値からのばらつきの度合いを算出する。伝達特性分布算出部142は、算出した伝達特性の分布とばらつきの度合いを、伝達特性情報保持部191に格納する。
図3には、本実施形態に係る音声処理装置1の適用例として、テーブル3を挟んで向かい合う2人の人物4A,4Bによる会話を録音する場合の収音装置2A,2Bと人物4A.4Bとの位置関係を示している。2人の人物4A,4Bによる会話は、音声処理装置1に接続された第1の収音装置2Aと、第2の収音装置2Bとにより収音する。この際、第1の収音装置2Aは、第1の人物4Aの近傍に設置し、第2の人物4Bから第1の収音装置2Aまでの距離が、第1の人物4Aから第1の収音装置2Aまでの距離よりも長くなるようにする。これに対し、第2の収音装置2Bは、第2の人物4Bの近傍に設置し、第1の人物4Aから第2の収音装置2Bまでの距離が、第2の人物4Bから第2の収音装置2Bまでの距離よりも長くなるように設置する。すなわち、第1の収音装置2Aは第1の人物4Aが発した音声の収音を目的として第1の人物4Bの近傍に設置され、第2の収音装置2Bは第2の人物4Bが発した音声の収音を目的として設置される。
d2(m,k)=none ・・・(2−2)
d2(m,k)=X1(m,k)−X2(m,k) ・・・(2−4)
Gn’(m,k)=BNn’(m,k)/Xn’(m,k) ・・・(5−2)
Gn’(m,k)=1 ・・・(5−4)
音声信号を周波数スペクトルに変換して伝達特性を算出した場合、伝達特性の分布のピーク値及び伝達特性のばらつきの度合いは、帯域毎に異なる。ある音声信号の所定期間における周波数スペクトルX1(m,k)の帯域k=k1についての伝達特性の分布は、例えば、図6の(a)に示すように、伝達特性のばらつきの度合いが小さく、ピークの鋭い分布となる。このとき、当該周波数スペクトルX1(m,k)の別の帯域k=k2についての伝達特性の分布は、例えば、図6の(b)に示すように、帯域k1の伝達特性の分布と比べてばらつきの度合いが大きく、ピークの鈍い分布となることがある。このため、例えば、伝達特性の分布のピーク値と、ある一定の抑圧閾値THとに基づいて抑圧範囲を設定した場合、帯域k2の周波数スペクトルXn(m,k2)の抑圧が不十分になることがある。
図7の(a)には、帯域k1についての伝達特性の分布のばらつきの度合いσ(k1)に基づいて抑圧範囲を設定した場合の、伝達特性d(k1)の時系列変化の例を示している。この場合、各時間における帯域k1の伝達特性d(k1)は、例えば、伝達特性の分布のピーク値D(k1)を中心とする上限値D(k1)+σ(k1)と下限値D(k1)−σ(k1)との間で推移する。このように、伝達特性d(k1)がばらつきの度合いσ(k1)に基づいて設定される抑圧範囲内である場合、上記のように、対応する周波数スペクトルは適切なゲインにより抑圧される。
図8には、第1の収音装置2Aから入力された第1の音声信号x1と、第2の収音信号2Bから入力された第2の音声信号x2とを示している。ここで、第1の収音装置2Aと第2の収音装置2Bとは、それぞれ、図3に示したように、第1の収音装置2Aが第1の人物4Aの近傍に設置され、第2の収音装置2Bが第2の人物4Bの近傍に設置されているとする。
図9には、第1の収音装置2Aから入力された第1の音声信号x1と、第2の収音信号2Bから入力された第2の音声信号x2とを示している。ここで、第1の収音装置2Aと第2の収音装置2Bとは、それぞれ、図3に示したように、第1の収音装置2Aが第1の人物4Aの近傍に設置され、第2の収音装置2Bが第2の人物4Bの近傍に設置されているとする。
本実施形態では、インターネット等の通信ネットワークを利用して、収音装置で収音した音声信号を音声処理装置1に送信し、音声信号を抑圧する例を説明する。
図11に示すように、本実施形態に係る音声処理装置1は、サーバ装置5に内蔵されている。サーバ装置5は、音声処理装置1の他、分析装置510と、記憶部520とを含む。分析装置510は、例えば、音声処理装置1で抑圧処理をした音声信号に対する音声分析を行いパラメータ化する。記憶部520は、音声処理装置1で抑圧処理をした音声信号や、分析装置510で行った分析処理の結果等を記憶する。サーバ装置5は、インターネット等のネットワーク6と通信可能に接続される。
図12に示すように、本実施形態に係る音声処理装置1は、通信部180と、周波数変換部120と、発話状態推定部130と、ゲイン決定部140と、ゲイン付加部150と、表示信号出力部172と、を備える。更に、音声処理装置1は、伝達特性情報保持部191を備える。
d2(m,k)=d3(m,k)=none ・・・(6−2)
d2(m,k)=X1(m,k)−X2(m,k) ・・・(6−4)
d3(m,k)=X1(m,k)−X3(m,k) ・・・(6−6)
THψn(m,k)=Dn(m,k)−d(k)・σn(m,k) ・・・(7−2)
G2(m,k)=BN2(m,k)/X2(m,k) ・・・(8−2)
G3(m,k)=BN3(m,k)/X3(m,k) ・・・(8−3)
G2(m,k)=1 ・・・(8−5)
G3(m,k)=BN3(m,k)/X3(m,k) ・・・(8−6)
G2(m,k)=BN2(m,k)/X2(m,k) ・・・(8−8)
G3(m,k)=1 ・・・(8−9)
図15の(a)には、図6のような伝達特性の分布のヒストグラムを簡略化した伝達特性の分布を示している。伝達特性の分布は、例えば、図15の(a)に示すように、伝達特性がピーク値Dn(m,k)よりも大きい区間におけるばらつきの度合いφと、ピーク値Dn(m,k)よりも小さい区間におけるばらつきの度合いψとが異なる場合がある。図15の(a)に示した伝達特性の分布では、伝達特性がピーク値Dn(m,k)よりも大きくなる場合が、伝達特性がピーク値Dn(m,k)よりも小さくなる場合よりも多い。そのため、抑圧閾値THn(m,k)を算出する際には、図15の(b)に示すように、ピーク値D2(m,k2)よりも大きい伝達特性に対する抑圧範囲が、ピーク値D2(m,k)よりも小さい伝達特性に対する抑圧範囲よりも広くなるようにすることが好ましい。これにより、伝達特性の分布に応じたより適切な抑圧範囲を設定することが可能となる。なお、図15の(b)には、帯域k=k2の場合の抑圧閾値を例示しているが、他の帯域kについても、同様に、伝達特性の分布に基づいて抑圧閾値を設定する。この際、各帯域における抑圧範囲は、ピーク値Dn(m,k)よりも大きい区間のほうが広くなる帯域と、ピーク値Dn(m,k)よりも小さい区間のほうが広くなる帯域と、が混在していてもよいことはもちろんである。
図16の(a)には、ある帯域における、周波数スペクトルX1(m,k)についての伝達特性のピーク値D1及び抑圧閾値THφ1と、周波数スペクトルX2(m,k)についての伝達特性のピーク値D2及び抑圧閾値THφ2,THψ2とを示している。図16の(a)では、周波数スペクトルX1(m,k)についての上限側の抑圧閾値THφ1(m,k)と、周波数スペクトルX2(m,k)についての下限側の抑圧閾値THψ2(m,k)との大小関係が、THφ1(m,k)>THψ2(m,k)となっている。すなわち、周波数スペクトルX1(m,k)に対する抑圧範囲と、周波数スペクトルX2(m,k)に対する抑圧範囲とに重なりがある。このように抑圧範囲に重なりがあると、例えば、付加するゲインG1(m,k),G2(m,k)を算出する際に誤った判定をし、誤った抑圧をしてしまう可能性がある。
図17に示すように、コンピュータ15は、プロセッサ1501と、主記憶装置1502と、補助記憶装置1503と、入力装置1504と、出力装置1505と、入出力インタフェース1506と、通信制御装置1507と、媒体駆動装置1508と、を備える。コンピュータ15におけるこれらの要素1501〜1508は、バス1510により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
(付記1)
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する第2の周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。
(付記2)
前記ゲインを決定する処理は、
前記第1の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定するとともに、
前記第2の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記3)
前記レベル差の分布の広がりを算出する処理は、
前記レベル差のばらつきの度合いを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記4)
前記レベル差のばらつきの度合いを算出させる処理は、
前記レベル差の分布についての散布度を算出する処理である、
ことを特徴とする付記3に記載の音声処理プログラム。
(付記5)
前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値の時間変化及び前記レベル差の少なくともいずれか1つに基づいて、前記レベル差の分布の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記6)
前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値よりも大きい前記レベル差の分布に基づいて第1の広がりを算出するとともに、前記ピーク値よりも小さい前記レベル差の分布に基づいて第2の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記7)
前記ゲインを決定する処理は、
前記所定期間内における前記レベル差の分布のピーク値と、前記レベル差の分布の広がりを示す値を定数倍した値との和及び差のいずれかに基づいて抑圧閾値を算出し、
前記レベル差が前記抑圧閾値により特定される範囲内であるか否かに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加する前記ゲインと、前記第2の周波数スペクトルの前記周波数成分に付加する前記ゲインとを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記8)
前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲とに重なりが生じる場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする付記2に記載の音声処理プログラム。
(付記9)
前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲との間隙が閾値以上である場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする付記2に記載の音声処理プログラム。
(付記10)
前記音声処理プログラムは、前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する処理を更に含み、
前記ゲインを決定する処理は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記11)
前記音声処理プログラムは、前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて、前記音声信号における発話状態を推定する処理を更に含み、
前記レベル差の広がりを算出する処理は、前記発話状態の推定結果が、一人の人物が発話している状態である場合に、前記レベル差の広がりを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記12)
前記音声処理プログラムは、前記第1の周波数スペクトルの前記周波数成分と、前記第2の周波数スペクトルの前記周波数成分のそれぞれに決定した前記ゲインを付加し、
前記ゲインを付加した前記第1の周波数スペクトルと、前記第2の周波数スペクトルとを時間領域の音声信号に変換させる処理、を更に含む、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記13)
前記音声処理プログラムは、前記第1の周波数スペクトルについての第1の背景雑音スペクトルと、前記第2の周波数スペクトルについての第2の背景雑音スペクトルとを算出させる処理を更に含み、
前記ゲインを決定する処理は、前記第1の周波数スペクトルと前記第1の背景雑音スペクトルとに基づいて前記第1の周波数スペクトルに付加する前記ゲインを算出し、前記第2の周波数スペクトルと前記第2の背景雑音スペクトルとに基づいて前記第2の周波数スペクトルに付加する前記ゲインを算出する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記14)
前記周波数スペクトルを取得する処理は、前記第1の音声信号及び前記第2の音声信号を含む3以上の音声信号のそれぞれに対応する3以上の周波数スペクトルを取得し、
前記ゲインを決定する処理は、前記3以上の周波数スペクトルの中から選択した前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差の分布の広がりと、前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差と、に基づいて、前記3以上の周波数スペクトルの各周波数成分に付加するゲインを決定する処理である、
ことを特徴とする付記1に記載の音声処理プログラム。
(付記15)
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する周波数変換部と、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する伝達特性推定部と、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出する伝達特性分布算出部と、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを算出するゲイン算出部と、
を備えることを特徴とする音声処理装置。
(付記16)
前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて前記第1の音声信号及び前記第2の音声信号の発話状態を推定する発話状態推定部、を更に備え、
前記伝達特性推定部は、前記発話状態が一人の人物が発話している状態である場合に前記レベル差の広がりを算出する、
ことを特徴とする付記15に記載の音声処理装置。
(付記17)
前記第1の周波数スペクトルについての第1の背景雑音スペクトルと、前記第2の周波数スペクトルについての第2の背景雑音スペクトルとを算出する背景雑音推定部、を更に備え、
前記ゲイン算出部は、前記第1の周波数スペクトルと前記第1の背景雑音スペクトルとに基づいて前記第1の周波数スペクトルに付加する前記ゲインを算出し、前記第2の周波数スペクトルと第2の背景雑音スペクトルとに基づいて前記第2の周波数スペクトルに付加する前記ゲインを算出する、
ことを特徴とする付記15に記載の音声処理装置。
(付記18)
前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する収束判定部、を更に備え、
前記ゲイン算出部は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記第1の周波数スペクトルに付加する前記ゲインと、前記第2の周波数スペクトルに付加する前記ゲインとを算出する
ことを特徴とする付記15に記載の音声処理装置。
(付記19)
コンピュータが、
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
ことを特徴とする音声処理方法。
110 入力受付部
120 周波数変換部
130 発話状態推定部
140 ゲイン決定部
141 伝達特性推定部
142 伝達特性分布算出部
143 収束判定部
144 背景雑音推定部
145 ゲイン算出部
150 ゲイン付加部
160 逆変換部
171 ファイル化部
172 表示信号出力部
180 通信部
191 伝達特性情報保持部
192 音声ファイル記憶部
2,2A,2B,2C 収音装置
201 収音部
202 表示部
4A,4B,4C 人物
5 サーバ装置
501 分析装置
502 記憶部
6 ネットワーク
7 通信端末
701 通信部
702 ファイル化部
15 コンピュータ
1501 プロセッサ
1502 主記憶装置
1503 補助記憶装置
1504 入力装置
1505 出力装置
1506 入出力インタフェース
1507 通信制御装置
1508 媒体駆動装置
16 可搬型記録媒体
Claims (13)
- 第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する第2の周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
処理をコンピュータに実行させることを特徴とする音声処理プログラム。 - 前記ゲインを決定する処理は、
前記第1の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定するとともに、
前記第2の周波数スペクトルの前記周波数成分毎に、前記レベル差の分布の広がりに基づいて、前記ゲインを付加する範囲を示す抑圧閾値を設定する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記レベル差の分布の広がりを算出する処理は、前記コンピュータに、
前記レベル差のばらつきの度合いを算出する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値の時間変化及び前記レベル差の少なくともいずれか1つに基づいて、前記レベル差の分布の広がりを算出する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記レベル差の分布の広がりを算出する処理は、
前記所定期間内における前記レベル差の分布のピーク値を算出し、
前記ピーク値よりも大きい前記レベル差の分布に基づいて第1の広がりを算出するとともに、前記ピーク値よりも小さい前記レベル差の分布に基づいて第2の広がりを算出する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記ゲインを決定する処理は、
前記所定期間内における前記レベル差の分布のピーク値と、前記レベル差の分布の広がりを示す値を定数倍した値との和及び差のいずれかに基づいて抑圧閾値を算出し、
前記レベル差が前記抑圧閾値により特定される範囲内であるか否かに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加する前記ゲインと、前記第2の周波数スペクトルの前記周波数成分に付加する前記ゲインとを決定する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲とに重なりが生じる場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする請求項2に記載の音声処理プログラム。 - 前記ゲインを決定する処理は、
1つの周波数成分における、前記第1の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲と、前記第2の周波数スペクトルについての前記抑圧閾値に基づいて特定される前記ゲインを付加する範囲との間隙が閾値以上である場合に、前記抑圧閾値を修正する処理を含む、
ことを特徴とする請求項2に記載の音声処理プログラム。 - 前記音声処理プログラムは、前記所定期間内における前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束しているか否かを判定する処理を更に含み、
前記ゲインを決定する処理は、前記レベル差の分布のピーク値の時間変化と、前記レベル差の分布の広がりの時間変化とが収束している場合に、前記コンピュータに、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記音声処理プログラムは、前記第1の周波数スペクトルと、前記第2の周波数スペクトルとに基づいて、前記音声信号における発話状態を推定する処理を更に含み、
前記レベル差の広がりを算出する処理は、前記発話状態の推定結果が、一人の人物が発話している状態である場合に、前記コンピュータに、前記レベル差の広がりを算出する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 前記周波数スペクトルを取得する処理は、前記第1の音声信号及び前記第2の音声信号を含む3以上の音声信号のそれぞれに対応する3以上の周波数スペクトルを取得し、
前記ゲインを決定する処理は、前記3以上の周波数スペクトルの中から選択した前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差の分布の広がりと、前記第1の周波数スペクトルと、前記前記第2の周波数スペクトルとの組みについての前記レベル差と、に基づいて、前記3以上の周波数スペクトルの各周波数成分に付加するゲインを決定する処理である、
ことを特徴とする請求項1に記載の音声処理プログラム。 - 第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得する周波数変換部と、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出する伝達特性推定部と、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出する伝達特性分布算出部と、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを算出するゲイン算出部と、
を備えることを特徴とする音声処理装置。 - コンピュータが、
第1の音声信号に対応する第1の周波数スペクトルと、第2の音声信号に対応する周波数スペクトルとを取得し、
前記第1の周波数スペクトルにおける各周波数成分のレベルと、前記第2の周波数スペクトルにおける各周波数成分のレベルとのレベル差を算出し、
前記周波数成分毎に、所定期間内における前記レベル差の分布の広がりを算出し、
前記レベル差の分布の広がりに基づいて、前記第1の周波数スペクトルの前記周波数成分に付加するゲインと、前記第2の周波数スペクトルの前記周波数成分に付加するゲインとを決定する、
ことを特徴とする音声処理方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016168045A JP6693340B2 (ja) | 2016-08-30 | 2016-08-30 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
| EP17180231.7A EP3291229B1 (en) | 2016-08-30 | 2017-07-07 | Sound processing program, sound processing device, and sound processing method |
| US15/645,011 US10094862B2 (en) | 2016-08-30 | 2017-07-10 | Sound processing device and sound processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016168045A JP6693340B2 (ja) | 2016-08-30 | 2016-08-30 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2018036378A JP2018036378A (ja) | 2018-03-08 |
| JP6693340B2 true JP6693340B2 (ja) | 2020-05-13 |
Family
ID=59313038
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016168045A Expired - Fee Related JP6693340B2 (ja) | 2016-08-30 | 2016-08-30 | 音声処理プログラム、音声処理装置、及び音声処理方法 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US10094862B2 (ja) |
| EP (1) | EP3291229B1 (ja) |
| JP (1) | JP6693340B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6892598B2 (ja) * | 2017-06-16 | 2021-06-23 | アイコム株式会社 | ノイズ抑圧回路、ノイズ抑圧方法、および、プログラム |
Family Cites Families (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH02230895A (ja) | 1989-03-03 | 1990-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号入力装置 |
| JP3878892B2 (ja) | 2002-08-21 | 2007-02-07 | 日本電信電話株式会社 | 収音方法、収音装置、および収音プログラム |
| US7716044B2 (en) * | 2003-02-07 | 2010-05-11 | Nippon Telegraph And Telephone Corporation | Sound collecting method and sound collecting device |
| JP4873913B2 (ja) | 2004-12-17 | 2012-02-08 | 学校法人早稲田大学 | 音源分離システムおよび音源分離方法、並びに音響信号取得装置 |
| JP4616736B2 (ja) * | 2005-09-09 | 2011-01-19 | 日本電信電話株式会社 | 収音再生装置 |
| JP2008135933A (ja) * | 2006-11-28 | 2008-06-12 | Tohoku Univ | 音声強調処理システム |
| JP2011033717A (ja) * | 2009-07-30 | 2011-02-17 | Secom Co Ltd | 雑音抑圧装置 |
| JP5482854B2 (ja) * | 2012-09-28 | 2014-05-07 | 沖電気工業株式会社 | 収音装置及びプログラム |
| US9106196B2 (en) * | 2013-06-20 | 2015-08-11 | 2236008 Ontario Inc. | Sound field spatial stabilizer with echo spectral coherence compensation |
| EP3120355B1 (en) * | 2014-03-17 | 2018-08-29 | Koninklijke Philips N.V. | Noise suppression |
| JP2016042132A (ja) * | 2014-08-18 | 2016-03-31 | ソニー株式会社 | 音声処理装置、音声処理方法、並びにプログラム |
-
2016
- 2016-08-30 JP JP2016168045A patent/JP6693340B2/ja not_active Expired - Fee Related
-
2017
- 2017-07-07 EP EP17180231.7A patent/EP3291229B1/en not_active Not-in-force
- 2017-07-10 US US15/645,011 patent/US10094862B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| US20180059155A1 (en) | 2018-03-01 |
| EP3291229B1 (en) | 2020-07-22 |
| JP2018036378A (ja) | 2018-03-08 |
| US10094862B2 (en) | 2018-10-09 |
| EP3291229A1 (en) | 2018-03-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP2643834B1 (en) | Device and method for producing an audio signal | |
| JP5507596B2 (ja) | スピーチ増強 | |
| EP2643981B1 (en) | A device comprising a plurality of audio sensors and a method of operating the same | |
| CN102016995B (zh) | 用于处理音频信号的设备及其方法 | |
| JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
| WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
| CN102612711A (zh) | 信号处理方法、信息处理装置和用于存储信号处理程序的存储介质 | |
| US9076446B2 (en) | Method and apparatus for robust speaker and speech recognition | |
| US9478235B2 (en) | Voice signal processing device and voice signal processing method | |
| JP6320963B2 (ja) | 音声認識システム、クライアント装置、音声認識方法、プログラム | |
| JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
| JP7156084B2 (ja) | 音信号処理プログラム、音信号処理方法及び音信号処理装置 | |
| JP6389787B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
| JP6693340B2 (ja) | 音声処理プログラム、音声処理装置、及び音声処理方法 | |
| CN109741761B (zh) | 声音处理方法和装置 | |
| CN112133320A (zh) | 语音处理装置及语音处理方法 | |
| JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
| CN115348507A (zh) | 脉冲噪声抑制方法、系统、可读存储介质及计算机设备 | |
| JP6273227B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
| JP6320962B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
| CN111009259B (zh) | 一种音频处理方法和装置 | |
| JP7159767B2 (ja) | 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置 | |
| US12112764B2 (en) | Delay estimation using frequency spectral descriptors | |
| JP4550674B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム | |
| Hoover et al. | The consonant-weighted Envelope Difference Index (cEDI): A proposed technique for quantifying envelope distortion |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190513 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200218 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200317 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200330 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6693340 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |