[go: up one dir, main page]

JP2017067990A - Voice processing device, program, and method - Google Patents

Voice processing device, program, and method Download PDF

Info

Publication number
JP2017067990A
JP2017067990A JP2015192761A JP2015192761A JP2017067990A JP 2017067990 A JP2017067990 A JP 2017067990A JP 2015192761 A JP2015192761 A JP 2015192761A JP 2015192761 A JP2015192761 A JP 2015192761A JP 2017067990 A JP2017067990 A JP 2017067990A
Authority
JP
Japan
Prior art keywords
coherence
flooring
signal
calculation unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015192761A
Other languages
Japanese (ja)
Inventor
克之 高橋
Katsuyuki Takahashi
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2015192761A priority Critical patent/JP2017067990A/en
Publication of JP2017067990A publication Critical patent/JP2017067990A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice processing device that can execute flooring processing so as to suppress a disturbing voice appropriately without excess or deficiency.SOLUTION: A voice processing device of the present invention is characterized by having: a front suppression signal generation unit for acquiring a converted frequency domain input signal from a plurality of microphones, and generating a front suppression signal having a dead angle at the front on the basis of a difference between frequency domain input signals for each microphone; a coherence calculation unit for calculating coherence and a coherence filter coefficient; a feature value calculation unit for calculating the feature value of the front suppression signal with the coherence; a flooring threshold calculation unit for calculating a flooring threshold; and a filter processing unit for performing flooring processing on the coherence filter coefficient applying the calculated flooring threshold, and then suppressing a disturbing voice and acquiring a post-suppression signal.SELECTED DRAWING: Figure 1

Description

この発明は、音声処理装置、プログラム及び方法に関し、例えば、電話やテレビ会議などにおける音声処理や、音声認識処理に際して、目的音以外の非目的音(例えば、妨害音声)の抑制処理に適用し得る。   The present invention relates to an audio processing apparatus, program, and method, and can be applied to a process for suppressing non-target sounds (for example, disturbing sounds) other than target sounds, for example, in audio processing in telephone calls, video conferences, etc., and in audio recognition processing. .

近年、スマートフォンやカーナビゲーションなどの音声通話機能や音声認識機能などの様々な音声処理機能に対応する装置(以下、これらの装置を総称して「音声処理装置」と呼ぶものとする)が普及している。しかし、これらの音声処理装置が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理装置が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、音声処理装置の需要が高まっている。   In recent years, devices that support various voice processing functions such as voice call functions and voice recognition functions such as smartphones and car navigation systems (hereinafter, these devices are collectively referred to as “voice processing devices”) have become widespread. ing. However, with the widespread use of these voice processing devices, the voice processing devices have come to be used in harsher noise environments than before, such as in crowded streets and in running cars. For this reason, there is an increasing demand for speech processing devices that can maintain call quality and speech recognition performance even in noisy environments.

従来の音声処理装置において、目的音を抽出して取得する際には、目的音以外の非目的音を抑制する処理が行われる。   When a target sound is extracted and acquired in a conventional speech processing apparatus, processing for suppressing non-target sounds other than the target sound is performed.

特開2015−26956号公報JP 2015-26956 A

ところで、通常非目的音に含まれる成分としては、例えば、背景雑音(例えば、街中での雑踏や、自動車の走行雑音など)と、妨害音声(例えば、当該音声処理装置の使用者以外の人の話し声)に大別できる。従来、背景雑音は周波数特性やパワーが定常であることを前提に、様々な有効な抑圧方法が提案されている。一方で、妨害音声は信号パワーや周波数特性が非定常であるうえに、目的音声(音声処理機能使用者の声)と同様に人間の声である。したがって、従来の音声処理装置において、妨害音声を検出しようとする場合、背景雑音のように目的音声との挙動の差異に基づいて存在の有無を判定することが困難である。このため、従来の音声処理装置で、妨害音声を抑制しようとすると、妨害音声の有無によらず、過度に抑圧処理を施して音質の歪が顕著になったり、抑圧不足で妨害音声の残留成分によって通話音質や音声認識性能が所定の水準に達しない、といった問題が生じる。   By the way, the components included in the normal non-target sound include, for example, background noise (for example, crowds in the city, driving noise of automobiles, etc.) and disturbing sound (for example, people other than the user of the sound processing device). (Speaking voice). Conventionally, various effective suppression methods have been proposed on the assumption that the background noise has constant frequency characteristics and power. On the other hand, the disturbing voice is a human voice as well as the target voice (voice of the voice processing function user) in addition to non-stationary signal power and frequency characteristics. Therefore, in the conventional speech processing device, when detecting the disturbing speech, it is difficult to determine the presence / absence based on the difference in behavior from the target speech such as background noise. For this reason, when trying to suppress interfering speech with a conventional speech processing device, excessive suppression processing is performed regardless of the presence or absence of interfering speech, resulting in significant distortion in sound quality, or residual components of interfering speech due to insufficient suppression Therefore, there arises a problem that the voice quality and voice recognition performance do not reach predetermined levels.

ここで、従来の音声処理装置は、上記の問題(過度な抑圧処理等)に鑑みて、「入力信号に基づいて算出した抑圧係数を所定の閾値と比較し、抑圧係数が閾値より小さい場合には、その抑圧係数を用いずに閾値を抑圧係数にする」というフロアリング処理を用いることがある(特許文献1参照)。   Here, in view of the above problem (excessive suppression processing, etc.), the conventional speech processing apparatus “compares the suppression coefficient calculated based on the input signal with a predetermined threshold value, and the suppression coefficient is smaller than the threshold value. May use a flooring process that uses a threshold value as a suppression coefficient without using the suppression coefficient (see Patent Document 1).

ただし、フロアリング処理用の閾値(以下、フロアリング閾値と呼ぶ)は大き過ぎると抑圧性能が不足し、小さ過ぎると目的音声の歪みが増す(つまり、音質に影響を及ぼす)。   However, if the flooring threshold (hereinafter referred to as the flooring threshold) is too large, the suppression performance is insufficient, and if it is too small, distortion of the target speech increases (that is, the sound quality is affected).

そのため、音質に影響を及ぼすことなく、過不足なく妨害音声を抑圧できるようなフロアリング処理を実行できる音声処理装置、プログラム及び方法が望まれている。   Therefore, there is a demand for a speech processing apparatus, program, and method that can execute flooring processing that can suppress disturbing speech without excessive or insufficient without affecting sound quality.

第1の本発明の音声処理装置は、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算するコヒーレンス計算部と、(3)前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出する特徴量算出部と、(4)前記特徴量を用いて、フロアリング閾値を算出するフロアリング閾値算出部と、(5)前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得するフィルター処理部とを有することを特徴とする。   The speech processing apparatus according to the first aspect of the present invention acquires (1) a frequency domain input signal obtained by converting input signals obtained from a plurality of microphones from a time domain to a frequency domain, and the obtained frequency domain input for each microphone. A front suppression signal generator for generating a front suppression signal having a blind spot on the front based on the signal difference; and (2) coherence calculation for calculating coherence and a coherence filter coefficient from input signals obtained from the plurality of microphones. And (3) a feature value calculation unit that calculates a feature value that represents the relationship between the front suppression signal and the coherence, and (4) a flooring threshold value that calculates a flooring threshold value using the feature value. And (5) applying a flooring threshold calculated using the flooring threshold calculation unit to the coherence filter coefficient, After performing grayed process, by suppressing the interference sound included in the input signal, and having a filtering section for acquiring a suppression after signal.

第2の本発明の音声処理プログラムは、コンピュータを、(1)複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算するコヒーレンス計算部と、(3)前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出する特徴量算出部と、(4)前記特徴量を用いて、フロアリング閾値を算出するフロアリング閾値算出部と、(5)前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得するフィルター処理部として機能させることを特徴とする。   The audio processing program according to the second aspect of the present invention acquires a frequency domain input signal obtained by converting a computer from (1) an input signal obtained from a plurality of microphones from a time domain to a frequency domain. Based on the difference between the frequency domain input signals, a front suppression signal generator that generates a front suppression signal having a blind spot in front, and (2) calculating coherence and a coherence filter coefficient from input signals obtained from the plurality of microphones. A coherence calculation unit that performs (3) a feature amount calculation unit that calculates a feature amount that represents the relationship between the front suppression signal and the coherence, and (4) calculates a flooring threshold using the feature amount. A flooring threshold value calculation unit; and (5) a flooring threshold value calculated using the flooring threshold value calculation unit for the coherence filter coefficient. By applying, after performing flooring processing, by suppressing the interference sound included in the input signal, characterized in that to function as a filter processing unit that acquires the suppression after signal.

第3の本発明は、複数のマイクから得られた入力信号から妨害音声を抑圧する音声処理方法において、正面抑圧信号生成部、コヒーレンス計算部、特徴量算出部、フロアリング閾値算出部、及びフィルター処理部を備え、(1)前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、(2)前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算し、(3)前記特徴量算出部は、前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出し、(4)フロアリング閾値算出部は、前記特徴量を用いて、フロアリング閾値を算出し、(5)前記フィルター処理部は、前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得することを特徴とする。   According to a third aspect of the present invention, there is provided a speech processing method for suppressing interfering speech from input signals obtained from a plurality of microphones, a front suppression signal generator, a coherence calculator, a feature amount calculator, a flooring threshold calculator, and a filter. (1) The front suppression signal generation unit acquires a frequency domain input signal obtained by converting input signals obtained from a plurality of microphones from a time domain to a frequency domain, and acquires the frequency for each acquired microphone. Based on the difference between the region input signals, a front suppression signal having a blind spot in front is generated. (2) The coherence calculation unit calculates coherence and a coherence filter coefficient from the input signals obtained from the plurality of microphones. (3) The feature amount calculation unit calculates a feature amount representing a relationship between the front suppression signal and the coherence, and (4) a flooring threshold value. The output unit calculates the flooring threshold using the feature amount, and (5) the filter processing unit calculates the flooring threshold calculated using the flooring threshold calculation unit for the coherence filter coefficient. The method is characterized in that after applying flooring processing, the interfering voice included in the input signal is suppressed to obtain a post-suppression signal.

本発明によれば、音質に影響を及ぼすことなく、過不足なく妨害音声を抑圧できるようなフロアリング処理を実行できる音声処理装置、プログラム及び方法を提供することができる。   According to the present invention, it is possible to provide an audio processing device, a program, and a method capable of executing a flooring process that can suppress disturbing sound without being excessive or insufficient without affecting sound quality.

実施形態に係る音声処理装置の機能的構成について示したブロック図である。It is the block diagram shown about the functional structure of the speech processing unit which concerns on embodiment. 実施形態に係るマイクの配置例について示した説明図である。It is explanatory drawing shown about the example of arrangement | positioning of the microphone which concerns on embodiment. 実施形態に係る音声処理装置で適用される指向性信号の特性について示した図(その1)である。It is the figure (the 1) shown about the characteristic of the directional signal applied with the audio processing apparatus which concerns on embodiment. 実施形態に係る音声処理装置で適用される指向性信号の特性について示した図(その2)である。It is the figure (the 2) shown about the characteristic of the directional signal applied with the audio processing apparatus which concerns on embodiment. 実施形態に係る音声処理装置の動作の例について示したフローチャート(その1)である。It is the flowchart (the 1) shown about the example of operation | movement of the speech processing unit which concerns on embodiment. 実施形態に係る音声処理装置の動作の例について示したフローチャート(その2)である。It is the flowchart (the 2) shown about the example of operation | movement of the audio processing apparatus which concerns on embodiment.

(A)主たる実施形態
以下、本発明による音声処理装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
(A) Main Embodiment Hereinafter, an embodiment of a sound processing apparatus, a program, and a method according to the present invention will be described in detail with reference to the drawings.

(A−1)実施形態の構成
図1は、この実施形態の音声処理装置1の全体構成を示すブロック図である。
(A-1) Configuration of Embodiment FIG. 1 is a block diagram showing the overall configuration of the speech processing apparatus 1 of this embodiment.

音声処理装置1は、一対のマイクm_1、m_2のそれぞれから、図示しないAD変換器を介して入力信号s1(n)、s2(n)を取得する。なお、nはサンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nが小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるものとする。   The audio processing device 1 acquires input signals s1 (n) and s2 (n) from each of the pair of microphones m_1 and m_2 via an AD converter (not shown). Note that n is an index indicating the input order of samples, and is expressed as a positive integer. In the text, it is assumed that the smaller n is the older input sample, and the larger n is the newer input sample.

音声処理装置1は、マイクm_1、m_2で捕捉される入力信号に含まれる非目的音(例えば、妨害音声)を抑圧する処理を行うものである。音声処理装置1が出力する音声信号の出力形式については限定されないものであり、任意の形式のディジタル音声データとして出力するようにしてもよいし、アナログ音声信号として出力するようにしてもよい。この実施形態では、音声処理装置1は、例えば、PCM(Pulse−code modulation)形式等のディジタル音声データをフレーム単位で出力するものとして説明する。音声処理装置1は、例えば、テレビ会議システムや携帯電話端末などの通信装置や音声認識機能で用いられる音声信号の前処理(例えば、妨害音声の抑制処理等)に利用される。   The sound processing device 1 performs processing for suppressing non-target sounds (for example, disturbing sounds) included in input signals captured by the microphones m_1 and m_2. The output format of the audio signal output by the audio processing device 1 is not limited, and may be output as digital audio data of an arbitrary format or may be output as an analog audio signal. In this embodiment, the audio processing device 1 will be described assuming that digital audio data in the PCM (Pulse-code modulation) format or the like is output in units of frames. The audio processing device 1 is used for preprocessing (for example, interference noise suppression processing) used for a communication device such as a video conference system or a mobile phone terminal or a voice recognition function.

図2は、マイクm_1、m_2の配置の例について示した説明図である。   FIG. 2 is an explanatory diagram showing an example of the arrangement of the microphones m_1 and m_2.

図2に示すように、この実施形態では、マイクm_1、m_2は、2つのマイクm_1、m_2を含む面が目的音の到来する方向(目的音の音源の方向)に対して垂直となるように配置されているものとする。また、以下では、図2に示すように、2つのマイクm_1、m_2の間の位置から見て、目的音の到来方向を前方向又は正面方向と呼ぶものとする。また、以下では、図2に示すように、右方向、左方向、後方向と呼ぶ場合は、2つのマイクm_1、m_2の間の位置から目的音の到来方向を見た場合の各方向を示すものとして説明する。なお、この実施形態では、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。   As shown in FIG. 2, in this embodiment, the microphones m_1 and m_2 are such that the plane including the two microphones m_1 and m_2 is perpendicular to the direction in which the target sound arrives (the direction of the target sound source). It is assumed that it is arranged. In the following, as shown in FIG. 2, the arrival direction of the target sound is referred to as the front direction or the front direction when viewed from the position between the two microphones m_1 and m_2. In the following, as shown in FIG. 2, when referring to the right direction, the left direction, and the rear direction, each direction when the arrival direction of the target sound is viewed from the position between the two microphones m_1 and m_2 is shown. It will be explained as a thing. In this embodiment, it is assumed that the target sound comes from the front direction of the microphones m_1 and m_2, and the non-target sound including the disturbing sound comes from the left-right direction (lateral direction).

音声処理装置1は、FFT部10、正面抑圧信号生成部20、コヒーレンス計算部30、相関計算部40、コヒーレンスフィルター処理部50、及びIFFT部60を有している。   The speech processing device 1 includes an FFT unit 10, a front suppression signal generation unit 20, a coherence calculation unit 30, a correlation calculation unit 40, a coherence filter processing unit 50, and an IFFT unit 60.

音声処理装置1は、プロセッサやメモリ等を有するコンピュータにプログラム(実施形態に係る音声処理プログラムを含むプログラム)をインストールして実現するようにしてもよいが、この場合でも、音声処理装置1は機能的には図1を用いて示すことができる。なお、音声処理装置1については一部又は全部をハードウェア的に実現するようにしてもよい。   The voice processing apparatus 1 may be realized by installing a program (a program including the voice processing program according to the embodiment) in a computer having a processor, a memory, and the like. Specifically, it can be shown using FIG. Note that part or all of the audio processing device 1 may be realized by hardware.

FFT部10は、マイクm1及びマイクm2から入力信号系列s1及びs2を受け取り、その入力信号s1及びs2に高速フーリエ変換(あるいは離散フーリエ変換)を行うものである。これにより、入力信号s1及びs2が周波数領域で表現されることになる。なお、FFT部10は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成するものとする。入力信号s1からFRAME1を構成する例を以下の(1)式に示す。なお、以下の(1)式において、Kはフレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値が大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。
FRAME1(1)={s1(1)、s1(2)・・、s1(i)、・・s1(n)}
FRAME1(K)={s1(N×K+1)、s1(N×K+2)・・、s1(N×K+i)、・・s1(N×K+N)} …(1)
The FFT unit 10 receives input signal sequences s1 and s2 from the microphone m1 and the microphone m2, and performs fast Fourier transform (or discrete Fourier transform) on the input signals s1 and s2. As a result, the input signals s1 and s2 are expressed in the frequency domain. Note that, in performing the fast Fourier transform, the FFT unit 10 includes an analysis frame FRAME1 (K) including predetermined N samples (N is an arbitrary integer) from the input signals s1 (n) and s2 (n). Assume that FRAME2 (K) is configured. An example of configuring FRAME1 from the input signal s1 is shown in the following equation (1). In the following equation (1), K is an index representing the order of frames and is represented by a positive integer. In the following, it is assumed that the smaller the K value, the older the analysis frame, and the larger the K value, the newer the analysis frame. In the following description of the operation, it is assumed that the index representing the latest analysis frame to be analyzed is K unless otherwise specified.
FRAME1 (1) = {s1 (1), s1 (2)... S1 (i),.
FRAME1 (K) = {s1 (N × K + 1), s1 (N × K + 2).., S1 (N × K + i),... S1 (N × K + N)} (1)

FFT部10は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)をフーリエ変換して得た周波数領域信号X2(f,K)とを取得する。なおfは周波数を表すインデックスである。また(f,K)は単一の値ではなく、以下の(2)式のように、複数の周波数f1〜fmのm個(mは任意の整数)の成分(スペクトル成分)から構成されるものであるものとする。   The FFT unit 10 performs a fast Fourier transform process for each analysis frame, thereby performing a frequency domain signal X1 (f, K) obtained by performing a Fourier transform on the analysis frame FRAME1 (K) configured from the input signal s1, and an input signal. A frequency domain signal X2 (f, K) obtained by Fourier transforming the analysis frame FRAME2 (K) configured from s2 is acquired. Note that f is an index representing a frequency. Further, (f, K) is not a single value, but is composed of m components (spectrum components) of a plurality of frequencies f1 to fm (m is an arbitrary integer) as shown in the following equation (2). It shall be a thing.

FFT部10は、周波数領域信号X1(f,K)、X2(f,K)を、正面抑圧信号生成部20及びコヒーレンス計算部30に供給する。   The FFT unit 10 supplies the frequency domain signals X 1 (f, K) and X 2 (f, K) to the front suppression signal generation unit 20 and the coherence calculation unit 30.

なお、X1(f,K)は複素数であり、実部と虚部で構成される。これは、X2(f,K)及び、後述する正面抑圧信号生成部20で説明する「N(f,K)」についても同様である。
X1(f,K)={X1(f1,K)、X1(f2,K)、・・X1(fi,K)・・、X1(fm,K)} …(2)
X1 (f, K) is a complex number and is composed of a real part and an imaginary part. The same applies to X2 (f, K) and “N (f, K)” described in the front suppression signal generation unit 20 described later.
X1 (f, K) = {X1 (f1, K), X1 (f2, K),... X1 (fi, K) .., X1 (fm, K)} (2)

次に、正面抑圧信号生成部20について説明する。   Next, the front suppression signal generation unit 20 will be described.

正面抑圧信号生成部20は、FFT部10から供給された信号について、周波数成分ごとに正面方向の信号成分を抑圧する処理を行う。言い換えると、正面抑圧信号生成部20は、正面方向の成分を抑圧する指向性フィルターとして機能する。   The front suppression signal generation unit 20 performs processing for suppressing the signal component in the front direction for each frequency component of the signal supplied from the FFT unit 10. In other words, the front suppression signal generation unit 20 functions as a directivity filter that suppresses a component in the front direction.

例えば、正面抑圧信号生成部20は、図3に示すように、正面方向に死角を有する8の字型の双指向性のフィルターを用いて、FFT部10から供給された信号から正面方向の成分を抑圧する指向性フィルターを形成する。   For example, as shown in FIG. 3, the front suppression signal generation unit 20 uses an 8-shaped bi-directional filter having a blind spot in the front direction to generate a component in the front direction from the signal supplied from the FFT unit 10. A directional filter that suppresses the noise is formed.

具体的には、正面抑圧信号生成部20は、FFT部10から供給された信号「X1(f,K)」、「X2(f,K)」に基づいて以下の(3)式のような計算を行って、周波数成分ごとの正面抑圧信号N(f,K)を生成する。以下の(3)式の計算は、上述の図3のような、正面方向に死角を有する8の字型の双指向性のフィルターを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
Specifically, the front suppression signal generation unit 20 is represented by the following equation (3) based on the signals “X1 (f, K)” and “X2 (f, K)” supplied from the FFT unit 10. A calculation is performed to generate a front suppression signal N (f, K) for each frequency component. The calculation of the following equation (3) corresponds to a process of forming an 8-shaped bi-directional filter having a blind spot in the front direction as shown in FIG.
N (f, K) = X1 (f, K) -X2 (f, K) (3)

そして、正面抑圧信号生成部20は、以下の(4)式を用いて、全周波数にわたってN(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。

Figure 2017067990
Then, the front suppression signal generation unit 20 calculates an average front suppression signal AVE_N (K) by averaging N (f, K) over all frequencies using the following equation (4).
Figure 2017067990

次に、コヒーレンス計算部30の処理について説明する。   Next, the process of the coherence calculation unit 30 will be described.

コヒーレンス計算部30は、周波数領域信号X1(f,K)、X2(f,K)について、左方向(第1の方向)に強い指向性(例えば、図4(a)に示すような単一指向性)のフィルターで処理された信号(以下、「指向性信号B1(f)」と呼ぶ)と、右方向(第2の方向)に強い指向性(例えば、図4(b)に示すような単一指向性)のフィルターで処理された信号(以下、「指向性信号B2(f)」と呼ぶ)とに基づくコヒーレンスCOH(K)、及びコヒーレンスフィルター係数coef(f,K)を取得する。   The coherence calculator 30 has a strong directivity (for example, as shown in FIG. 4A) in the left direction (first direction) for the frequency domain signals X1 (f, K) and X2 (f, K). A signal processed by a filter of directivity (hereinafter referred to as “directivity signal B1 (f)”) and directivity strong in the right direction (second direction) (for example, as shown in FIG. 4B) A coherence COH (K) and a coherence filter coefficient coef (f, K) based on a signal (hereinafter, referred to as “directional signal B2 (f)”) processed by a filter having a unidirectionality). .

coef(f,K)は、インデックスが任意のインデックス値Kのフレーム(分析フレームFRAME1(K)及びFRAME2(K))を構成する任意の周波数f(周波数f1〜fmのいずれかの周波数)の成分におけるコヒーレンス(すなわち、指向性信号B1(f)と、指向性信号B2(f)とのコヒーレンス)を表しているものとする。   coef (f, K) is a component of an arbitrary frequency f (any one of frequencies f1 to fm) constituting a frame (analysis frame FRAME1 (K) and FRAME2 (K)) having an index value K of an arbitrary index. (Ie, the coherence between the directivity signal B1 (f) and the directivity signal B2 (f)).

なお、COH(K)、及びcoef(f,K)を求める際に、指向性信号B1(f)及び指向性信号B2(f)に係る指向性の方向は正面方向以外の任意の方向(ただし、B1(f)とB2(f)とで異なる方向とする必要がある)とするようにしてもよい。   When obtaining COH (K) and coef (f, K), the directionality of the directivity signal B1 (f) and the directivity signal B2 (f) is an arbitrary direction other than the front direction (however, , B1 (f) and B2 (f) need to be in different directions).

コヒーレンスCOH(K)を算出する具体的な算出処理(例えば、計算式)については限定されないものであるが、例えば、特開2013−182044号公報(以下、「参考文献1」と呼ぶ)と同様の処理(例えば、参考文献1に記載された(3)式〜(7)式の計算処理)を適用することができるため、詳細については省略する。また、コヒーレンスフィルター係数coef(f,K)についても、例えば、参考文献1に記載された(3)式〜(6)式の計算処理を適用することができるため、詳細については省略する。   A specific calculation process (for example, a calculation formula) for calculating the coherence COH (K) is not limited, but is similar to, for example, Japanese Patent Application Laid-Open No. 2013-182044 (hereinafter referred to as “Reference Document 1”). Since the above process (for example, the calculation process of Expressions (3) to (7) described in Reference Document 1) can be applied, details are omitted. Also, with respect to the coherence filter coefficient coef (f, K), for example, the calculation processing of Expressions (3) to (6) described in Reference Document 1 can be applied, and thus details thereof are omitted.

以上のように、コヒーレンス計算部30は、算出したコヒーレンスCOH(K)を相関計算部40に、コヒーレンスフィルター係数coef(f,K)をコヒーレンスフィルター処理部50に供給する。   As described above, the coherence calculator 30 supplies the calculated coherence COH (K) to the correlation calculator 40 and the coherence filter coefficient coef (f, K) to the coherence filter processor 50.

相関計算部40は、正面以外に指向性を有する正面抑圧信号N(f,K)(平均正面抑圧信号AVE_N(K))と、コヒーレンスCOH(K)を用いて、非目的音の有無を判定できる相関係数cor(K)を算出する。   The correlation calculation unit 40 determines the presence / absence of a non-target sound by using the front suppression signal N (f, K) having a directivity other than the front (average front suppression signal AVE_N (K)) and coherence COH (K). A possible correlation coefficient cor (K) is calculated.

ここでは、目的音がマイクm_1、m_2の正面方向から到来し、妨害音声を含む非目的音が左右方向(横方向)から到来するものとして説明する。例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、目的音としての話者(ユーザ)の音声はマイクm_1、m_2の正面方向から到来し、当該電話端末の話者以外の音声は、左右方向(横方向)から到来することになる。   Here, description will be made assuming that the target sound comes from the front direction of the microphones m_1 and m_2, and the non-target sound including the disturbing sound comes from the left-right direction (lateral direction). For example, when the microphones m_1 and m_2 are applied to the microphone portion of the handset of a telephone terminal (for example, a mobile phone terminal), the voice of the speaker (user) as the target sound comes from the front direction of the microphones m_1 and m_2. However, the voice other than the speaker of the telephone terminal comes from the left-right direction (lateral direction).

したがって、例えば、「妨害音声が存在せず」かつ「目的音が存在する」場合は、正面抑圧信号N(f,K)の平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、「妨害音声が存在せず」かつ「目的音が存在する」場合でも、正面方向から到来する信号成分も含まれることになるためである。ただし、図2に示すように、平均正面抑圧信号AVE_N(K)(正面抑圧信号N(f,K))生成時の指向性特性には、正面方向から到来する信号成分も含まれるが、横方向のゲインと比較すると非常に小さい。また、「妨害音声が存在せず」かつ「目的音が存在する」場合の正面抑圧信号N(f,K)のゲインは、妨害音声が存在する場合よりも小さくなる。   Therefore, for example, when “no disturbing voice exists” and “the target sound exists”, the average front suppression signal AVE_N (K) of the front suppression signal N (f, K) has the magnitude of the target sound component. Proportional value. As shown in FIG. 2, the directivity characteristics when generating the average front suppression signal AVE_N (K) (front suppression signal N (f, K)) are “no disturbing speech” and “the target sound exists”. This is because the signal component coming from the front direction is also included. However, as shown in FIG. 2, the directivity characteristic when generating the average front suppression signal AVE_N (K) (front suppression signal N (f, K)) includes a signal component coming from the front direction. Very small compared to the direction gain. In addition, the gain of the front suppression signal N (f, K) when “no disturbing sound exists” and “the target sound exists” is smaller than when the disturbing sound exists.

また、コヒーレンスCOH(K)は、簡単に述べれば、第1の方向(右方向)から到来する信号と第2の方向(左方向)から到来する信号の相関(特徴量)と言える。従って、コヒーレンスCOH(K)が小さい場合とは、2つの指向性信号B1(f)、B2(f)の相関が小さい場合であり、反対にコヒーレンスCOH(K)が大きい場合とは相関が大きい場合と言い換えることができる。そして、相関が小さい場合は、目的音の到来方向が右又は左のどちらかに大きく偏った場合か、偏りがなくても雑音のような明確な規則性の少ない信号の場合である。また、例えば、マイクm_1、m_2を電話端末(例えば、携帯電話端末等)の受話器のマイク部分に適用した場合には、話者の音声(目的音声)は正面から到来し、妨害音声は正面以外から到来する傾向が強い。以上のようにコヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量となる。したがって、「妨害音声が存在せず」かつ「目的音が存在する」場合には、コヒーレンスCOH(K)の値は大きくなる傾向となり、「妨害音声が存在する」場合には、コヒーレンスCOH(K)の値は小さくなる傾向となる。   The coherence COH (K) can be simply described as a correlation (feature amount) between a signal arriving from the first direction (right direction) and a signal arriving from the second direction (left direction). Therefore, the case where the coherence COH (K) is small is a case where the correlation between the two directivity signals B1 (f) and B2 (f) is small, and conversely, the case where the coherence COH (K) is large is large. In other words. The case where the correlation is small is when the arrival direction of the target sound is greatly deviated to the right or left, or a signal having a clear and regularity such as noise even if there is no deviation. For example, when the microphones m_1 and m_2 are applied to the microphone part of a telephone terminal (for example, a cellular phone terminal), the speaker's voice (target voice) comes from the front and the disturbing voice is other than the front. The tendency to come from is strong. As described above, the coherence COH (K) is a feature amount having a deep relationship with the arrival direction of the input signal. Therefore, the value of coherence COH (K) tends to increase when “no disturbing speech exists” and “the target sound exists”, and when “jamming speech exists”, coherence COH (K ) Tends to be smaller.

以上の各値の挙動を妨害音声の有無に着目して整理すると以下のような条件で、妨害音声の有無を判断することができる。以下では、「妨害音声が存在せず」かつ「目的音が存在する」という条件(以下、「第1の条件」と呼ぶ)と、「妨害音声が存在する」という条件(以下、「第2の条件」と呼ぶ)に場合分けして、妨害音声の有無の判定方法について説明する。   If the behavior of each of the above values is organized by paying attention to the presence or absence of interfering speech, the presence or absence of interfering speech can be determined under the following conditions. In the following, the condition that “no disturbing sound exists” and “the target sound exists” (hereinafter referred to as “first condition”) and the condition that “the disturbing sound exists” (hereinafter referred to as “second sound”). The method for determining the presence / absence of interfering speech will be described for each case.

第1の条件の場合(「妨害音声が存在せず」かつ「目的音が存在する」場合)には、コヒーレンスCOH(K)が比較的大きな値となり、平均正面抑圧信号AVE_N(K)は、目的音成分の大きさに比例した値となる。   In the case of the first condition (“no disturbing sound” and “target sound”), the coherence COH (K) is a relatively large value, and the average front suppression signal AVE_N (K) is The value is proportional to the size of the target sound component.

一方、第2の条件の場合(「妨害音声が存在する」場合)には、コヒーレンスCOH(K)の値は小さい値となり、平均正面抑圧信号AVE_N(K)は大きな値となる傾向にある。   On the other hand, in the case of the second condition (when “disturbing speech is present”), the value of coherence COH (K) tends to be a small value, and average front suppression signal AVE_N (K) tends to be a large value.

したがって、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の相関係数cor(K)を導入すると、相関係数cor(K)と妨害音声の有無との関係は以下のような関係となる。   Therefore, when the correlation coefficient cor (K) of the average front suppression signal AVE_N (K) and coherence COH (K) is introduced, the relationship between the correlation coefficient cor (K) and the presence or absence of disturbing speech is as follows: Become.

妨害音声が存在しない場合は、相関係数cor(K)は正の値(相関性が高いことを示す所定値以上の値)となる傾向となる。一方、妨害音声が存在する場合には、相関係数cor(K)は負の値(相関性が低いことを示す所定値未満の値)となる傾向となる。   When no disturbing speech exists, the correlation coefficient cor (K) tends to be a positive value (a value equal to or higher than a predetermined value indicating high correlation). On the other hand, when disturbing speech exists, the correlation coefficient cor (K) tends to be a negative value (a value less than a predetermined value indicating that the correlation is low).

すなわち、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を導入することにより、例えば、相関係数cor(K)の正負判断というシンプルな処理で、妨害音声の有無を判定することができる。   That is, by introducing the correlation coefficient cor (K) between the average front suppression signal AVE_N (K) and the coherence COH (K), for example, simple processing of determining whether the correlation coefficient cor (K) is positive or negative can be performed. The presence or absence of sound can be determined.

そこで、この実施形態の相関計算部40は、まず、妨害音声の有無を判定するための相関係数cor(K)を求めるものとする。   Therefore, the correlation calculation unit 40 of this embodiment first obtains a correlation coefficient cor (K) for determining the presence or absence of disturbing speech.

相関計算部40が、相関係数cor(K)を求める際の算出方法については限定されないものであるが、例えば、参考文献2(平岡 和幸、堀 玄著、「プログラミングのための確率統計」、オーム社、2009/10/20発行)に記載された計算方法を適用することができる。相関計算部40は、例えば、以下の(5)式を用いて、相関係数cor(K)を求めるようにしてもよい。   The calculation method used when the correlation calculation unit 40 calculates the correlation coefficient cor (K) is not limited. For example, Reference 2 (Kazuyuki Hiraoka, Gen Hori, “Probability Statistics for Programming”, The calculation method described in Ohm, 2009/10/20) can be applied. The correlation calculation unit 40 may obtain the correlation coefficient cor (K) using, for example, the following equation (5).

なお、以下の(5)式において、Cov[AVE_N(K),COH(K)]は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の共分散を示している。また、以下の(5)式において、σAVE_N(K)は、平均正面抑圧信号AVE_N(K)の標準偏差を示している。さらに、以下の(5)式において、σCOH(K)は、コヒーレンスCOH(K)の標準偏差を示している。以下の(5)式にて相関係数cor(K)を求める場合には、AVE_N(K)及びCOH(K)についてそれぞれ直近に処理した所定数i個のフレームの結果を用いて、標準偏差や共分散を求めるようにしてもよい。具体的には、以下の(5)式にて相関係数cor(K)を求める過程において、例えば、直近に処理したi個のフレーム(K−i番目のフレーム、K−(i−1)番目のフレーム、…、K−1番目のフレーム、K番目のフレームの)のそれぞれに係るCOH及びAVE_Nを用いて、標準偏差(σN(f,K)、及びσCOH(K))や共分散(Cov[AVE_N(K),COH(K)])を求めるようにしてもよい。言い換えると、相関計算部40は、相関係数cor(K)を求める過程において、直近に求めたi個のAVE_N及びCOHをサンプルとして用いて、以下の(5)式における標準偏差や共分散を求めるようにしてもよい。

Figure 2017067990
In the following equation (5), Cov [AVE_N (K), COH (K)] indicates the covariance between the average front suppression signal AVE_N (K) and the coherence COH (K). In the following equation (5), σAVE_N (K) indicates the standard deviation of the average front suppression signal AVE_N (K). Furthermore, in the following equation (5), σCOH (K) represents a standard deviation of coherence COH (K). When the correlation coefficient cor (K) is obtained by the following equation (5), the standard deviation is obtained using the result of a predetermined number i frames most recently processed for AVE_N (K) and COH (K). Or covariance may be obtained. Specifically, in the process of obtaining the correlation coefficient cor (K) by the following equation (5), for example, i frames (Ki-th frame, K- (i-1) processed most recently) The standard deviations (σN (f, K) and σCOH (K)) and covariances (CON and AVE_N) of the first frame,..., K−1th frame, Kth frame) and covariance ( Cov [AVE_N (K), COH (K)]) may be obtained. In other words, in the process of obtaining the correlation coefficient cor (K), the correlation calculation unit 40 uses the i AVE_N and COH obtained most recently as samples, and calculates the standard deviation and covariance in the following equation (5). You may make it ask.
Figure 2017067990

次に、コヒーレンスフィルター処理部50の処理について説明する。   Next, processing of the coherence filter processing unit 50 will be described.

図1に示すように、この実施形態のコヒーレンスフィルター処理部50は、X1(f,K)に対して妨害音声の成分を抑圧した音声信号を生成するものとして説明する。したがって、この実施形態では、妨害音声抑圧信号O(f,K)は、X1(f,K)に対して、妨害音声抑圧処理(フィルター処理)を行った信号となる。   As shown in FIG. 1, the coherence filter processing unit 50 of this embodiment will be described as generating an audio signal in which a disturbing audio component is suppressed with respect to X1 (f, K). Therefore, in this embodiment, the disturbing speech suppression signal O (f, K) is a signal obtained by performing disturbing speech suppression processing (filter processing) on X1 (f, K).

なお、コヒーレンスフィルター処理部50は、X1(f,K)及びX2(f,K)の両方について妨害音声の成分を抑圧する処理を行うようにしてもよい。また、コヒーレンスフィルター処理部50は、X1(f,K)とX2(f,K)とを合成した信号(例えば、複数の信号の平均値)を取得して、取得した信号について妨害音声の成分を抑圧する処理を行うようにしてもよい。コヒーレンスフィルター処理部50が雑音抑圧する具体的処理内容については後述する。   The coherence filter processing unit 50 may perform a process of suppressing the disturbing sound component for both X1 (f, K) and X2 (f, K). Further, the coherence filter processing unit 50 acquires a signal (for example, an average value of a plurality of signals) obtained by synthesizing X1 (f, K) and X2 (f, K), and a disturbing sound component for the acquired signal. You may make it perform the process which suppresses. Specific processing contents in which the coherence filter processing unit 50 suppresses noise will be described later.

以上のように、コヒーレンスフィルター処理部50は、各フレームの各周波数(周波数f1〜fm)について、妨害音声抑圧信号O(f,K)を求めて、IFFT部60に供給する。   As described above, the coherence filter processing unit 50 obtains the interfering speech suppression signal O (f, K) for each frequency (frequency f1 to fm) of each frame and supplies it to the IFFT unit 60.

次に、IFFT部60の処理について説明する。   Next, processing of the IFFT unit 60 will be described.

IFFT部60は、供給されたO(f,K)を周波数領域から時間領域の信号に変換して、妨害音声抑圧信号o(n)を生成する処理を行う。IFFT部60は、FFT部10で行った変換処理に対する逆変換処理を行う。この実施形態では、FFT部10はFFT(高速フーリエ変換)を行っているため、IFFT部60は、IFFT(逆フーリエ変換)を行う。   The IFFT unit 60 performs a process of converting the supplied O (f, K) from a frequency domain signal to a time domain signal to generate an interfering speech suppression signal o (n). The IFFT unit 60 performs an inverse conversion process on the conversion process performed by the FFT unit 10. In this embodiment, since the FFT unit 10 performs FFT (Fast Fourier Transform), the IFFT unit 60 performs IFFT (Inverse Fourier Transform).

次に、コヒーレンスフィルター処理部50が行う妨害音声抑圧処理の詳細について説明する。   Next, details of the interfering speech suppression processing performed by the coherence filter processing unit 50 will be described.

この実施形態のコヒーレンスフィルター処理部50は、先述の相関係数cor(f,K)に基づき、コヒーレンスフィルター係数coef(f,K)にフロアリング処理を行う。そして、コヒーレンスフィルター処理部50は、フロアリング処理を施したコヒーレンスフィルター係数coef(f,K)を、入力信号X1(f,K)に乗算することにより、妨害音声抑圧信号O(f,K)を得る。   The coherence filter processing unit 50 of this embodiment performs flooring processing on the coherence filter coefficient coef (f, K) based on the above-described correlation coefficient cor (f, K). Then, the coherence filter processing unit 50 multiplies the input signal X1 (f, K) by the coherence filter coefficient coef (f, K) subjected to the flooring process, thereby causing the interference sound suppression signal O (f, K). Get.

ところで、フロアリング処理で用いるフロアリング閾値Θ(K)は、妨害音声の影響が小さいほど大きい値で、妨害音声の影響が大きいほど小さい値であることが、妨害音抑圧の過不足を減らす観点からは望ましい。上述の通り、妨害音声の有無によって正負が変動する相関係数cor(f,K)を、予め設定されているフロアリング閾値Θ(K)に加算することで、コヒーレンスフィルター処理部50は、この制御を実現できる。相関計算部40は、例えば、以下の(6)式を用いて、フロアリング閾値Θ(K)を求めるようにしてもよい。なお、以下の(6)式において、Ψ(K)は、予め定められた定数である。
Θ(K)=Ψ(K)+cor(K) …(6)
By the way, the flooring threshold Θ (K) used in the flooring process is a larger value as the influence of the disturbing voice is smaller, and a smaller value as the influence of the disturbing voice is larger. Is desirable. As described above, the coherence filter processing unit 50 adds the correlation coefficient cor (f, K) that varies depending on the presence / absence of interfering sound to a preset flooring threshold value Θ (K). Control can be realized. The correlation calculation unit 40 may obtain the flooring threshold Θ (K) using, for example, the following equation (6). In the following equation (6), Ψ (K) is a predetermined constant.
Θ (K) = Ψ (K) + cor (K) (6)

コヒーレンスフィルター処理部50は、生成したフロアリング閾値Θ(K)を用いて、コヒーレンスフィルター係数coef(f,K)にフロアリング処理を施す(詳細については、動作の項で述べる)。   The coherence filter processing unit 50 performs flooring processing on the coherence filter coefficient coef (f, K) using the generated flooring threshold Θ (K) (details will be described in the operation section).

そして、コヒーレンスフィルター処理部50は、フロアリング処理が施されたコヒーレンスフィルター係数coef(f,K)を用いて、入力信号(この実施形態ではX1(f,K))の妨害音声(妨害音成分)を抑圧して、妨害音声抑圧信号O(f,K)を生成する。この実施形態の例では、コヒーレンスフィルター処理部50は、以下の(7)式のように、周波数成分ごとに、入力信号X1(f,K)にコヒーレンスフィルター係数coef(f,K)を乗じることで、妨害音声抑圧信号O(f,K)を求めることができる。
妨害音声抑圧信号O(f,K)= 入力信号X1(f,K)×コヒーレンスフィルター係数coef(f,K)) …(7)
Then, the coherence filter processing unit 50 uses the coherence filter coefficient coef (f, K) that has been subjected to the flooring process, and uses the interference signal (interference sound component) of the input signal (X1 (f, K) in this embodiment). ) To suppress the disturbing voice suppression signal O (f, K). In the example of this embodiment, the coherence filter processing unit 50 multiplies the input signal X1 (f, K) by the coherence filter coefficient coef (f, K) for each frequency component as shown in the following equation (7). Thus, the interfering voice suppression signal O (f, K) can be obtained.
Interfering voice suppression signal O (f, K) = input signal X1 (f, K) × coherence filter coefficient coef (f, K)) (7)

(A−2)実施形態の動作
次に、以上のような構成を有するこの実施形態の音声処理装置1の動作を説明する。
(A-2) Operation | movement of embodiment Next, operation | movement of the audio | voice processing apparatus 1 of this embodiment which has the above structures is demonstrated.

まず、音声処理装置1の全体の動作について図1を用いて説明する。   First, the overall operation of the speech processing apparatus 1 will be described with reference to FIG.

マイクm_1、m_2のそれぞれから図示しないAD変換器を介して、1フレーム分(1つの処理単位分)の入力信号s1(n)及びs2(n)がFFT部10に供給されたものとする。そして、FFT部10は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)、FRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)、X2(f,K)を取得する。そして、FFT部10で生成された信号X1(f,K)、X2(f,K)が、正面抑圧信号生成部20及びコヒーレンス計算部30に供給される。また、FFT部10で生成された信号X1(f,K)がコヒーレンスフィルター処理部50に供給される。   Assume that input signals s1 (n) and s2 (n) for one frame (for one processing unit) are supplied to the FFT unit 10 from each of the microphones m_1 and m_2 via an AD converter (not shown). Then, the FFT unit 10 performs Fourier transform on the analysis frames FRAME1 (K) and FRAME2 (K) based on the input signals s1 (n) and s2 (n) for one frame, and the signal X1 (f, K) and X2 (f, K) are acquired. Then, the signals X1 (f, K) and X2 (f, K) generated by the FFT unit 10 are supplied to the front suppression signal generation unit 20 and the coherence calculation unit 30. Further, the signal X 1 (f, K) generated by the FFT unit 10 is supplied to the coherence filter processing unit 50.

正面抑圧信号生成部20は、供給されたX1(f,K)、X2(f,K)に基づいて、正面抑圧信号N(f,K)を算出する。そして、正面抑圧信号生成部20は、正面抑圧信号N(f,K)に基づいて平均正面抑圧信号AVE_N(K)を算出し、相関計算部40に供給する。   The front suppression signal generator 20 calculates the front suppression signal N (f, K) based on the supplied X1 (f, K) and X2 (f, K). Then, the front suppression signal generation unit 20 calculates an average front suppression signal AVE_N (K) based on the front suppression signal N (f, K) and supplies the average front suppression signal AVE_N (K) to the correlation calculation unit 40.

一方、コヒーレンス計算部30は、供給されたX1(f,K)、X2(f,K)に基づいて、コヒーレンスCOH(K)、及びコヒーレンスフィルター係数coef(f,K)を生成する。そして、コヒーレンス計算部30は、生成したコヒーレンスCOH(K)を相関計算部40に、コヒーレンスフィルター係数coef(f,K)をコヒーレンスフィルター処理部50に供給する。   On the other hand, the coherence calculation unit 30 generates a coherence COH (K) and a coherence filter coefficient coef (f, K) based on the supplied X1 (f, K) and X2 (f, K). Then, the coherence calculation unit 30 supplies the generated coherence COH (K) to the correlation calculation unit 40 and the coherence filter coefficient coef (f, K) to the coherence filter processing unit 50.

相関計算部40は、平均正面抑圧信号AVE_N(K)及びコヒーレンスCOH(K)に基づいて、相関係数cor(K)を算出し、コヒーレンスフィルター処理部50に供給する。   The correlation calculation unit 40 calculates a correlation coefficient cor (K) based on the average front suppression signal AVE_N (K) and the coherence COH (K), and supplies the correlation coefficient cor (K) to the coherence filter processing unit 50.

コヒーレンスフィルター処理部50は、供給された相関係数cor(K)からフロアリング閾値Θ(K)を算出する。コヒーレンスフィルター処理部50は、算出したフロアリング閾値Θ(K)を用いて、供給されたコヒーレンスフィルター係数coef(f,K)にフロアリング処理を施す。そして、コヒーレンスフィルター処理部50は、フロアリング処理が施されたコヒーレンスフィルター係数coef(f,K)を用いて、入力信号X1(f,K)の妨害音声(妨害音声成分)を抑圧して、妨害音声抑圧信号O(f,K)を生成しIFFT部60に供給する。   The coherence filter processing unit 50 calculates the flooring threshold Θ (K) from the supplied correlation coefficient cor (K). The coherence filter processing unit 50 performs a flooring process on the supplied coherence filter coefficient coef (f, K) using the calculated flooring threshold Θ (K). Then, the coherence filter processing unit 50 uses the coherence filter coefficient coef (f, K) subjected to the flooring process to suppress the disturbing sound (disturbing sound component) of the input signal X1 (f, K), The interfering voice suppression signal O (f, K) is generated and supplied to the IFFT unit 60.

IFFT部60は、供給された妨害音声抑圧信号O(f,K)に逆フーリエ変換(IFFT)の処理を行って時間領域の妨害音声抑圧信号o(n)に変換して出力する。   The IFFT unit 60 performs inverse Fourier transform (IFFT) processing on the supplied interfering speech suppression signal O (f, K) to convert it to a disturbing speech suppression signal o (n) in the time domain and outputs it.

次に、コヒーレンスフィルター処理部50の動作詳細について図5、図6のフローチャートを用いて説明する。   Next, details of the operation of the coherence filter processing unit 50 will be described with reference to the flowcharts of FIGS.

図5は、コヒーレンスフィルター処理部50の処理について示したフローチャートである。図6は、図5のフローチャートの一部の処理(フロアリング処理)について示したフローチャートである。コヒーレンスフィルター処理部50は、相関係数cor(K)、コヒーレンスフィルター係数coef(f,K)、及び入力信号X1(f,K)が供給されるごとに、図5、図6のフローチャートの処理を行い、妨害音声抑圧信号O(f,K)を出力するものとする。   FIG. 5 is a flowchart showing the processing of the coherence filter processing unit 50. FIG. 6 is a flowchart showing a part of processing (flooring processing) in the flowchart of FIG. Each time the coherence filter processing unit 50 is supplied with the correlation coefficient cor (K), the coherence filter coefficient coef (f, K), and the input signal X1 (f, K), the processing of the flowcharts of FIGS. And the disturbing voice suppression signal O (f, K) is output.

まず、コヒーレンスフィルター処理部50に、相関係数cor(K)、コヒーレンスフィルター係数coef(f,K)、及び入力信号X1(f,K)が供給されたものとする(S101)。   First, it is assumed that the correlation coefficient cor (K), the coherence filter coefficient coef (f, K), and the input signal X1 (f, K) are supplied to the coherence filter processing unit 50 (S101).

次に、コヒーレンスフィルター処理部50は、相関係数cor(K)に基づいてフロアリング閾値Θ(K)を算出する(S102)。具体的には、コヒーレンスフィルター処理部50は、上記の(6)式を用いてフロアリング閾値Θ(K)を求めることができる。   Next, the coherence filter processing unit 50 calculates a flooring threshold Θ (K) based on the correlation coefficient cor (K) (S102). Specifically, the coherence filter processing unit 50 can obtain the flooring threshold Θ (K) using the above equation (6).

次に、コヒーレンスフィルター処理部50は、算出したフロアリング閾値Θ(K)を用いて、コヒーレンスフィルター係数coef(f,K)に対してフロアリング処理を行う(S103)。   Next, the coherence filter processing unit 50 performs a flooring process on the coherence filter coefficient coef (f, K) using the calculated flooring threshold Θ (K) (S103).

次に、コヒーレンスフィルター処理部50は、フロアリング処理が施されたコヒーレンスフィルター係数coef(f,K)を用いて、入力信号X1(f,K)の妨害音成分を抑圧する処理(フィルター処理)を行って、妨害音声抑圧信号O(f,K)を生成する(S104)。具体的には、コヒーレンスフィルター処理部50は、は、上記の(7)式のように、周波数成分ごとに、入力信号X1(f,K)にフロアリング処理が施されたコヒーレンスフィルター係数coef(f,K)を乗じる(乗算する)ことで、妨害音声抑圧信号O(f,K)を求める。   Next, the coherence filter processing unit 50 uses the coherence filter coefficient coef (f, K) subjected to the flooring process to suppress the interference sound component of the input signal X1 (f, K) (filter processing). To generate a disturbing voice suppression signal O (f, K) (S104). Specifically, the coherence filter processing unit 50 performs the coherence filter coefficient coef () obtained by performing flooring processing on the input signal X1 (f, K) for each frequency component, as in the above equation (7). By multiplying (multiplying) f, K), the interfering voice suppression signal O (f, K) is obtained.

次に、コヒーレンスフィルター処理部50は、求めた妨害音声抑圧信号O(f,K)を出力(IFFT部60に送信)する(S105)。   Next, the coherence filter processing unit 50 outputs (transmits to the IFFT unit 60) the obtained interfering voice suppression signal O (f, K) (S105).

次に、コヒーレンスフィルター処理部50が上述のステップS103で行うフロアリング処理の具体例について図6のフローチャートを用いて説明する。   Next, a specific example of the flooring process performed by the coherence filter processing unit 50 in step S103 described above will be described with reference to the flowchart of FIG.

コヒーレンスフィルター処理部50は、フロアリング処理を開始すると、コヒーレンスフィルター係数coef(f,K)、及びフロアリング閾値Θ(K)の値を確認し(S201)、両値の大小を比較する。   When the flooring process is started, the coherence filter processing unit 50 checks the values of the coherence filter coefficient coef (f, K) and the flooring threshold value Θ (K) (S201), and compares the magnitudes of both values.

コヒーレンスフィルター処理部50は、コヒーレンスフィルター係数coef(f,K)がフロアリング閾値Θ(K)より小さい場合には、コヒーレンスフィルター係数coef(f,K)の値をフロアリング閾値Θ(K)とする処理を行う(S202)。   When the coherence filter coefficient coef (f, K) is smaller than the flooring threshold Θ (K), the coherence filter processing unit 50 sets the value of the coherence filter coefficient coef (f, K) as the flooring threshold Θ (K). (S202).

一方、コヒーレンスフィルター処理部50は、コヒーレンスフィルター係数coef(f,K)がフロアリング閾値Θ(K)以上の場合には、コヒーレンスフィルター係数coef(f,K)の値はそのまま(特に何も処理しない)とする(S203)。   On the other hand, when the coherence filter coefficient coef (f, K) is equal to or larger than the flooring threshold Θ (K), the coherence filter processing unit 50 keeps the value of the coherence filter coefficient coef (f, K) as it is (especially nothing is processed). (S203).

(A−3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of Embodiment According to this embodiment, the following effects can be achieved.

この実施形態の音声処理装置1では、妨害音声が存在する場合には平均正面抑圧信号AVE_N(K)と、コヒーレンスCOH(K)との相関係数cor(K)が負で、妨害音声が存在しない場合には正となる特徴的な挙動に基づいてコヒーレンスフィルター係数coef(f,K)にフロアリング処理を施すことで、妨害音声抑圧の精度を高めることができる。これにより、この実施形態の音声処理装置1では、入力信号に対して、音質に影響を及ぼすことなく、過不足なく妨害音声を抑圧できる。すなわち、音声処理装置1の音声処理(例えば、テレビ会議システムや携帯電話などの通信装置や音声認識機能の前処理)では、性能向上(例えば、妨害音声等の非目的音の抑制性能の向上)が期待できる。   In the speech processing apparatus 1 of this embodiment, when the disturbing speech exists, the correlation coefficient cor (K) between the average front suppression signal AVE_N (K) and the coherence COH (K) is negative, and the disturbing speech exists. If not, the flooring process is performed on the coherence filter coefficient coef (f, K) based on the positive characteristic behavior, so that the accuracy of interfering speech suppression can be improved. Thereby, in the voice processing apparatus 1 of this embodiment, the disturbing voice can be suppressed without excess or deficiency without affecting the sound quality with respect to the input signal. That is, in the audio processing of the audio processing device 1 (for example, pre-processing of a communication device such as a video conference system or a cellular phone or a voice recognition function), the performance is improved (for example, the suppression performance of non-target sounds such as disturbing sounds is improved) Can be expected.

(B)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.

(B−1)上記の実施形態の音声処理装置1は、相関係数cor(K)を加算することによりフロアリング閾値Θ(K)を求めていたが(例えば、(6)式)、これに限らず、妨害音声の寄与の大小に応じて所望のフロアリング特性が得られるのなら任意の演算を施しても良い。   (B-1) The speech processing apparatus 1 according to the above embodiment calculates the flooring threshold Θ (K) by adding the correlation coefficient cor (K) (for example, equation (6)). Not limited to this, an arbitrary calculation may be performed as long as a desired flooring characteristic can be obtained according to the contribution of the disturbing sound.

(B−2)上記の実施形態の音声処理装置1は、フレーム単位でフロアリング閾値Θ(K)を求めていたが、これに限らず、例えば、周波数ビン毎にフロアリング閾値Θ(K)を求めても良い。この場合には、音声処理装置1は、フロアリング閾値Θ(K)の基となる相関係数cor(K)についても周波数ビン毎に算出すれば良い。   (B-2) The speech processing apparatus 1 according to the above embodiment calculates the flooring threshold Θ (K) in units of frames. However, the present invention is not limited to this, and for example, the flooring threshold Θ (K) for each frequency bin. You may ask for. In this case, the speech processing apparatus 1 may calculate the correlation coefficient cor (K) that is the basis of the flooring threshold Θ (K) for each frequency bin.

(B−3)上記の実施形態の音声処理装置1は、2つのマイクから供給される入力信号に基づいた処理を行う例について説明したが、音声処理装置1では3つ以上のマイクから供給される入力信号に基づいて判定処理を行うようにしてもよい。例えば、音声処理装置1において、3つ以上のマイクから供給される入力信号に基づき、正面方向に死角を有する正面抑圧信号N(f,K)や、正面以外の所定の方向に指向性を有する指向性信号B1(f)、B2(f)を取得して上記の実施形態と同様の処理を行うようにしてもよい。すなわち、音声処理装置1において、正面抑圧信号N(f,K)や、指向性信号B1(f)、B2(f)を取得するためのマイクの構成等は限定されないものである。   (B-3) The audio processing apparatus 1 of the above embodiment has been described with respect to an example in which processing is performed based on input signals supplied from two microphones. However, the audio processing apparatus 1 is supplied from three or more microphones. The determination process may be performed based on the input signal. For example, in the audio processing device 1, based on input signals supplied from three or more microphones, a front suppression signal N (f, K) having a blind spot in the front direction or directivity in a predetermined direction other than the front is provided. The directivity signals B1 (f) and B2 (f) may be acquired and the same processing as in the above embodiment may be performed. That is, in the speech processing apparatus 1, the configuration of the microphone for obtaining the front suppression signal N (f, K) and the directivity signals B1 (f) and B2 (f) is not limited.

(B−4)上記の実施形態のコヒーレンスフィルター処理部50では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を適用しているが、他の種類の値を特徴量として適用するようにしてもよい。例えば、コヒーレンスフィルター処理部50では、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との関係性を表す特徴量として、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との共分散を適用するようにしてもよい。   (B-4) In the coherence filter processing unit 50 of the above-described embodiment, the average front suppression signal AVE_N (K) is used as a feature amount representing the relationship between the average front suppression signal AVE_N (K) and the coherence COH (K). Although the correlation coefficient cor (K) with the coherence COH (K) is applied, other types of values may be applied as feature quantities. For example, in the coherence filter processing unit 50, as the feature quantity indicating the relationship between the average front suppression signal AVE_N (K) and the coherence COH (K), the average front suppression signal AVE_N (K) and the coherence COH (K) are combined. You may make it apply dispersion | distribution.

1…音声処理装置、10…FFT部、20…正面抑圧信号生成部、30…コヒーレンス計算部、40…相関計算部、50…コヒーレンスフィルター処理部、60…IFFT部、m_1、m_2…マイク。   DESCRIPTION OF SYMBOLS 1 ... Speech processing apparatus, 10 ... FFT part, 20 ... Front suppression signal generation part, 30 ... Coherence calculation part, 40 ... Correlation calculation part, 50 ... Coherence filter processing part, 60 ... IFFT part, m_1, m_2 ... Microphone.

Claims (6)

複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算するコヒーレンス計算部と、
前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出する特徴量算出部と、
前記特徴量を用いて、フロアリング閾値を算出するフロアリング閾値算出部と、
前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得するフィルター処理部と
を有することを特徴とする音声処理装置。
Obtaining a frequency domain input signal obtained by converting input signals obtained from a plurality of microphones from a time domain to a frequency domain, and based on the obtained difference of the frequency domain input signals for each microphone, frontal suppression having a blind spot in front A front suppression signal generator for generating a signal;
A coherence calculation unit for calculating coherence and a coherence filter coefficient from input signals obtained from the plurality of microphones;
A feature amount calculating unit that calculates a feature amount representing a relationship between the front suppression signal and the coherence;
A flooring threshold value calculation unit that calculates a flooring threshold value using the feature amount;
Applying the flooring threshold calculated by using the flooring threshold calculation unit to the coherence filter coefficient, performing flooring processing, and suppressing the disturbing voice included in the input signal to suppress And a filter processing unit that acquires a post signal.
前記フィルター処理部は、フロアリング処理を行ったコヒーレンスフィルター係数を、前記入力信号に乗算することで、前記抑圧後信号を取得することを特徴とする請求項1に記載の音声処理装置。   The audio processing apparatus according to claim 1, wherein the filter processing unit obtains the post-suppression signal by multiplying the input signal by a coherence filter coefficient subjected to flooring processing. 前記特徴量は、前記正面抑圧信号と前記コヒーレンスの相関係数であり、
前記フロアリング閾値算出部は、予め定めた所定値と、前記特徴量とを用いて、所定の演算処理により、前記フロアリング閾値を算出することを特徴とする請求項1又は2に記載の音声処理装置。
The feature amount is a correlation coefficient between the front suppression signal and the coherence,
The voice according to claim 1 or 2, wherein the flooring threshold value calculation unit calculates the flooring threshold value by a predetermined calculation process using a predetermined value and a feature amount. Processing equipment.
前記所定値は、正の定数であり、前記演算処理は、加算処理であることを特徴とする請求項3に記載の音声処理装置。   The audio processing apparatus according to claim 3, wherein the predetermined value is a positive constant, and the calculation process is an addition process. コンピュータを、
複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算するコヒーレンス計算部と、
前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出する特徴量算出部と、
前記特徴量を用いて、フロアリング閾値を算出するフロアリング閾値算出部と、
前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得するフィルター処理部と
して機能させることを特徴とする音声処理プログラム。
Computer
Obtaining a frequency domain input signal obtained by converting input signals obtained from a plurality of microphones from a time domain to a frequency domain, and based on the obtained difference of the frequency domain input signals for each microphone, frontal suppression having a blind spot in front A front suppression signal generator for generating a signal;
A coherence calculation unit for calculating coherence and a coherence filter coefficient from input signals obtained from the plurality of microphones;
A feature amount calculating unit that calculates a feature amount representing a relationship between the front suppression signal and the coherence;
A flooring threshold value calculation unit that calculates a flooring threshold value using the feature amount;
Applying the flooring threshold calculated by using the flooring threshold calculation unit to the coherence filter coefficient, performing flooring processing, and suppressing the disturbing voice included in the input signal to suppress An audio processing program that functions as a filter processing unit that acquires a post-signal.
複数のマイクから得られた入力信号から妨害音声を抑圧する音声処理方法において、
正面抑圧信号生成部、コヒーレンス計算部、特徴量算出部、フロアリング閾値算出部、及びフィルター処理部を備え、
前記正面抑圧信号生成部は、複数のマイクから得られた入力信号を時間領域から周波数領域に変換された周波数領域入力信号を取得し、取得した前記マイクごとの周波数領域入力信号の差に基づいて、正面に死角を有する正面抑圧信号を生成し、
前記コヒーレンス計算部は、前記複数のマイクから得られた入力信号からコヒーレンス、及びコヒーレンスフィルター係数を計算し、
前記特徴量算出部は、前記正面抑圧信号と、前記コヒーレンスとの関係性を表す特徴量を算出し、
フロアリング閾値算出部は、前記特徴量を用いて、フロアリング閾値を算出し、
前記フィルター処理部は、前記コヒーレンスフィルター係数に対し、前記フロアリング閾値算出部を用いて算出されたフロアリング閾値を適用して、フロアリング処理を行った上で、前記入力信号に含まれる妨害音声を抑圧して、抑圧後信号を取得する
ことを特徴とする音声処理方法。
In a speech processing method for suppressing interfering speech from input signals obtained from a plurality of microphones,
A front suppression signal generation unit, a coherence calculation unit, a feature amount calculation unit, a flooring threshold calculation unit, and a filter processing unit,
The front suppression signal generation unit obtains a frequency domain input signal obtained by converting input signals obtained from a plurality of microphones from a time domain to a frequency domain, and based on the obtained frequency domain input signal difference for each microphone. Generate a frontal suppression signal with a blind spot in front,
The coherence calculation unit calculates coherence and a coherence filter coefficient from input signals obtained from the plurality of microphones,
The feature amount calculation unit calculates a feature amount representing a relationship between the front suppression signal and the coherence,
The flooring threshold calculation unit calculates a flooring threshold using the feature amount,
The filter processing unit applies a flooring threshold calculated using the flooring threshold calculation unit to the coherence filter coefficient, performs a flooring process, and then includes disturbing speech included in the input signal. And a signal after suppression is acquired.
JP2015192761A 2015-09-30 2015-09-30 Voice processing device, program, and method Pending JP2017067990A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015192761A JP2017067990A (en) 2015-09-30 2015-09-30 Voice processing device, program, and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015192761A JP2017067990A (en) 2015-09-30 2015-09-30 Voice processing device, program, and method

Publications (1)

Publication Number Publication Date
JP2017067990A true JP2017067990A (en) 2017-04-06

Family

ID=58494673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015192761A Pending JP2017067990A (en) 2015-09-30 2015-09-30 Voice processing device, program, and method

Country Status (1)

Country Link
JP (1) JP2017067990A (en)

Similar Documents

Publication Publication Date Title
JP6703525B2 (en) Method and device for enhancing sound source
JP5762956B2 (en) System and method for providing noise suppression utilizing nulling denoising
CN101828335B (en) Robust dual microphone noise suppression system
JP5007442B2 (en) System and method using level differences between microphones for speech improvement
CN103718241B (en) Noise-suppressing device
US11380312B1 (en) Residual echo suppression for keyword detection
US20130016854A1 (en) Microphone array processing system
US9532138B1 (en) Systems and methods for suppressing audio noise in a communication system
JP6840302B2 (en) Information processing equipment, programs and information processing methods
WO2019143429A1 (en) Noise reduction in an audio system
JP6854967B1 (en) Noise suppression device, noise suppression method, and noise suppression program
JP6631127B2 (en) Voice determination device, method and program, and voice processing device
KR101182017B1 (en) Method and Apparatus for removing noise from signals inputted to a plurality of microphones in a portable terminal
JP6638248B2 (en) Audio determination device, method and program, and audio signal processing device
JP6314475B2 (en) Audio signal processing apparatus and program
JP6903947B2 (en) Non-purpose sound suppressors, methods and programs
JP2014164191A (en) Signal processor, signal processing method and program
JP6763319B2 (en) Non-purpose sound determination device, program and method
JP2017067990A (en) Voice processing device, program, and method
JP2019035915A (en) Talk state-determining device, method, and program
JP6544182B2 (en) Voice processing apparatus, program and method
JP6361360B2 (en) Reverberation judgment device and program
JP6263890B2 (en) Audio signal processing apparatus and program
The et al. A Method for Extracting Target Speaker in Dual–Microphone System
JP2019036917A (en) Parameter control equipment, method and program