JP6657965B2 - Audio signal processing device, audio signal processing method, and audio signal processing program - Google Patents
Audio signal processing device, audio signal processing method, and audio signal processing program Download PDFInfo
- Publication number
- JP6657965B2 JP6657965B2 JP2016001086A JP2016001086A JP6657965B2 JP 6657965 B2 JP6657965 B2 JP 6657965B2 JP 2016001086 A JP2016001086 A JP 2016001086A JP 2016001086 A JP2016001086 A JP 2016001086A JP 6657965 B2 JP6657965 B2 JP 6657965B2
- Authority
- JP
- Japan
- Prior art keywords
- relative value
- audio signal
- frequency
- frequency domain
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声信号の状態を判定する、オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラムに関する。 The present invention relates to an audio signal processing device, an audio signal processing method, and an audio signal processing program for determining a state of an audio signal.
近年、走行中の自動車内においては運転者が電話機を操作して通話等を行うことが規制されており、近距離無線通信等を用いたハンズフリー通話システムが導入されている。 2. Description of the Related Art In recent years, it has been restricted that a driver operates a telephone to make a telephone call or the like in a running automobile, and a hands-free communication system using short-range wireless communication or the like has been introduced.
ハンズフリー通話システムにおいては、通話中に話者(near end)の発した音声が、通話相手側(far end)のスピーカから伝播してマイクロフォンに入力され、電話回線やネットワーク等を経由して話者自身にも聞こえてしまう、いわゆるエコー音声信号が通話の妨げとなる。 In a hands-free communication system, a voice generated by a speaker (near end) during a call propagates from a speaker of a communication partner (far end) and is input to a microphone, and is transmitted via a telephone line or a network. The so-called echo sound signal, which is heard by the person himself, disturbs the call.
このようなエコー音声信号を抑圧するため、種々のエコーキャンセル、エコーサプレッサ技術が提案されている。ところが、far endとnear endとの双方で発話がなされている状態、いわゆるダブルトークの状態で音声信号を抑圧すると、不要なfar endのエコー音声信号だけでなく、必要なnearendの音声信号も抑圧されてしまう。従って、ダブルトークか否かの判定が必要となる。 In order to suppress such an echo sound signal, various echo cancellation and echo suppressor techniques have been proposed. However, when the audio signal is suppressed in a state in which both the far end and the near end are uttering, that is, in a so-called double talk state, not only the unnecessary far end echo sound signal but also the necessary near end sound signal is suppressed. Will be done. Therefore, it is necessary to determine whether or not double talk has occurred.
ここで、far endの音声信号については、通話相手の音声信号の有無を判定すればよいため、公知の音声判定技術を用いることができる。一方、near endの音声信号については、単に音声信号の有無だけでなく、その音声が、話者の音声信号なのか、エコー音声信号なのかを判定する必要がある。従って、公知の音声判定技術では、near endの音声信号に話者の音声信号が含まれるか否かの判定は困難であった。 Here, for the far end voice signal, it is sufficient to determine the presence / absence of the voice signal of the other party, so that a known voice determination technique can be used. On the other hand, for the near end audio signal, it is necessary to determine not only the presence / absence of an audio signal but also whether the audio is a speaker's audio signal or an echo audio signal. Therefore, it is difficult to determine whether or not the near end voice signal includes the voice signal of the speaker by the known voice determination technology.
特許文献1には、音声出力信号と音声入力信号との音量比に基づいてnear endの音声の状態を判定する技術が記載されている。
走行中の自動車内においては、様々なノイズがあるため、音声出力信号と音声入力信号との音量比に基づいてnear endの音声の状態を正確に判定できない場合がある。 In a running automobile, there are various kinds of noises, so that it may not be possible to accurately determine the state of the near end sound based on the volume ratio between the sound output signal and the sound input signal.
本発明は、音量に依存せずにnear endの音声信号の状態を判定することができる、オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラムを提供することを目的とする。 An object of the present invention is to provide an audio signal processing device, an audio signal processing method, and an audio signal processing program that can determine the state of a near end audio signal without depending on the volume.
本発明は、異なる位置で取得された複数の入力オーディオ信号を、それぞれ周波数領域情報に変換することによって、複数の周波数領域情報を生成する周波数領域変換部と、前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出する相対値算出部と、事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定する信号判定部と、前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出する相対値閾値算出部とを備えるオーディオ信号処理装置を提供する。 The present invention is a frequency domain conversion unit that generates a plurality of frequency domain information by converting a plurality of input audio signals acquired at different positions into frequency domain information, respectively, among the plurality of frequency domain information, A relative value calculating unit that calculates a relative value of a time frequency component of at least one set of frequency domain information, and the relative value is included in a range specified based on a relative value threshold stored in advance in a storage unit. A signal determining unit that determines whether the input audio signal includes an audio signal component emitted from a predetermined position based on whether the input audio signal includes an audio signal component emitted from the predetermined position. A histogram of the generated relative values is generated, and the frequency indicating the frequency of appearance is included in a distribution range of the relative values where the frequency is equal to or higher than a predetermined frequency. The maximum and minimum values of the relative value to provide Luo Dio signal processing device and a relative value threshold calculating unit that calculates, as the relative value threshold that.
本発明は、異なる位置で取得された複数の入力オーディオ信号を、それぞれ周波数領域情報に変換することによって、複数の周波数領域情報を生成し、前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出し、事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定し、前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出するオーディオ信号処理方法を提供する。 The present invention generates a plurality of frequency domain information by converting a plurality of input audio signals obtained at different positions into frequency domain information, respectively, wherein at least one set of frequency Calculating the relative value of the time frequency component of the area information, and determining whether the input audio data is included in the range specified based on the relative value threshold value stored in advance in the storage unit. Determining whether the signal includes an audio signal component emitted from a predetermined position; generating a histogram of the relative values generated from the input audio signal including the audio signal component emitted from the predetermined position; The relative value threshold and the maximum value and the minimum value of the relative value included in the distribution range of the relative value, wherein the frequency indicating the frequency is equal to or greater than a preset frequency. Providing Oh Dio signal processing method of calculating Te.
本発明は、コンピュータに、異なる位置で取得された複数の入力オーディオ信号を、それぞれ周波数領域情報に変換することによって、複数の周波数領域情報を生成する周波数領域変換処理と、前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出する相対値算出処理と、事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定する信号判定処理と、前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出する相対値閾値算出処理とを実行させるオーディオ信号処理プログラムを提供する。 The present invention provides a computer that converts a plurality of input audio signals obtained at different positions into frequency domain information, thereby generating a plurality of frequency domain information, and the plurality of frequency domain information. A relative value calculation process of calculating a relative value of a time frequency component of at least one set of frequency domain information, and a range specified based on a relative value threshold stored in advance in the storage unit, the relative value And a signal determination process for determining whether the input audio signal includes an audio signal component emitted from a predetermined position based on whether or not the input audio signal includes an audio signal component emitted from the predetermined position. Generate a histogram of the relative value generated from the audio signal, the frequency indicating the appearance frequency is equal to or more than a preset frequency Providing said relative value maximum and Luo Dio signal processing program the minimum value to execute the relative value threshold value calculation processing for calculating, as the relative value threshold included in the distribution range of the relative value.
本発明のオーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラムによれば、音量に依存せずにnear endの音声信号の状態を判定することができる。 According to the audio signal processing device, the audio signal processing method, and the audio signal processing program of the present invention, it is possible to determine the state of the near end audio signal without depending on the volume.
<実施の形態1>
以下、図面を参照して本発明の実施の形態1について説明する。図1に実施の形態1のオーディオ信号処理装置1のブロック図を示す。オーディオ信号処理装置1は、異なる位置に設置された2以上の音声取得部(例えば、マイクロフォン等のセンサ)から音声取得部毎に入力オーディオ信号を取得する。
<First Embodiment>
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 shows a block diagram of an audio
図1に示すように、オーディオ信号処理装置1は、信号入力部10、周波数領域変換部11、相対値算出部12、相対値閾値算出部13、記憶部14、信号判定部15を有する。
As shown in FIG. 1, the audio
信号入力部10、記憶部14はハードウェアにより構成される。周波数領域変換部11、相対値算出部12、相対値閾値算出部13、信号判定部15は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等の演算部により実行されるオーディオ処理プログラムにより実現される。この場合、オーディオ信号処理プログラムは、様々なタイプの非一時的なコンピュータで読み取り可能な記憶媒体に格納され、コンピュータに供給される。また、プログラムにより実現される各構成要素はハードウェアによって構成されてもよい。
The signal input unit 10 and the
信号入力部10は、図示しない複数の音声取得部から複数の入力オーディオ信号Ain(1)〜Ain(n)を取得する。そして、信号入力部10は、入力された複数の入力オーディオ信号Ain(1)〜Ain(n)をデジタル信号に変換する。なお、入力オーディオ信号が既にデジタル値の場合、デジタル信号に変換するための構成は必要ない。以下、2つの音声取得部を用いて取得した、第1の入力オーディオ信号Ain(1)と第2の入力オーディオ信号Ain(2)との2つの入力オーディオ信号を処理する例について説明する。 The signal input unit 10 acquires a plurality of input audio signals Ain (1) to Ain (n) from a plurality of audio acquisition units (not shown). Then, the signal input unit 10 converts the input plurality of input audio signals Ain (1) to Ain (n) into digital signals. If the input audio signal is already a digital value, there is no need for a configuration for converting it to a digital signal. Hereinafter, an example will be described in which two input audio signals, that is, a first input audio signal Ain (1) and a second input audio signal Ain (2), acquired using two audio acquisition units, are processed.
オーディオ信号処理装置1を自動車の車内で用いる場合、マイクロフォンは、ステアリングホイール、サンバイザ、マップランプ、ダッシュボード内など、話者(主に運転者)の前方位置に設置することが望ましい。また、2つのマイクロフォンは、振幅比、位相差の情報を正確に算出するため、数センチメートル未満の間隔で設置することが望ましい。
When the audio
周波数領域変換部11は、信号入力部10で取得された2つの入力オーディオ信号Ain(1)とAin(2)を入力オーディオ信号毎に周波数領域情報に変換し、2つの周波数領域情報を生成する。ここで、周波数領域変換部11は、所定のフレーム長の窓関数により入力オーディオ信号を分割し、分割したフレーム毎にFFT等の処理を施して周波数領域情報を生成する。 The frequency domain conversion unit 11 converts the two input audio signals Ain (1) and Ain (2) acquired by the signal input unit 10 into frequency domain information for each input audio signal, and generates two frequency domain information. . Here, the frequency domain conversion unit 11 divides the input audio signal by a window function having a predetermined frame length, and performs processing such as FFT on each of the divided frames to generate frequency domain information.
ここで、τをフレーム番号、fを周波数、nを入力オーディオ信号の番号として、周波数領域情報をXn(f,τ)と記載する。周波数領域変換部11は、第1の入力オーディオ信号Ain(1)に対応して周波数領域情報X1(f,τ)を生成し、第2の入力オーディオ信号Ain(2)に対応して周波数領域情報X2(f,τ)を生成する。そして、周波数領域変換部11は、生成した周波数領域情報を相対値算出部12へ供給する。
Here, τ is a frame number, f is a frequency, n is an input audio signal number, and the frequency domain information is described as Xn (f, τ). The frequency domain converter 11 generates frequency domain information X1 (f, τ) corresponding to the first input audio signal Ain (1), and generates frequency domain information X1 (f, τ) corresponding to the second input audio signal Ain (2). The information X2 (f, τ) is generated. Then, the frequency domain conversion unit 11 supplies the generated frequency domain information to the relative
相対値算出部12は、周波数領域変換部11が生成した周波数領域情報毎に、一の周波数領域情報に含まれる時間周波数成分と、他の周波数領域情報に含まれる時間周波数成分との相対値を算出し、2つの周波数領域情報に対応した2つの相対値を算出する。
The relative
具体的には、相対値算出部12は、振幅相対値と、位相相対値との少なくとも一方を相対値として算出する。振幅相対値は、一の周波数領域情報に含まれる時間周波数成分の振幅成分と他の周波数領域情報に含まれる時間周波数成分の振幅成分との比を示す。位相相対値は、一の周波数領域情報に含まれる時間周波数成分の位相成分と他の周波数領域情報に含まれる時間周波数成分の位相成分との差を示す。
Specifically, the relative
ここで、相対値算出部12における相対値の算出方法の一例について説明する。相対値算出部12は、例えば、周波数領域情報X1(f,τ)と周波数領域情報X2(f,τ)との振幅相対値α(f,τ)を式(1)に基づき算出する。また、相対値算出部12は、周波数領域情報X1(f,τ)と周波数領域情報X2(f,τ)との位相相対値δ(f,τ)を式(2)に基づき算出する。式(2)のImは複素数の虚部を示し、ωは角周波数を示す。
Here, an example of a method of calculating a relative value in the relative
相対値算出部12は、初期設定処理においては、相対値を相対値閾値算出部13に供給する。また、相対値算出部12は、信号判定処理においては相対値を信号判定部15に供給する。初期設定処理、及び信号判定処理については後述する。
The relative
音声取得部が3以上ある場合、相対値算出部12は、各音声取得部から取得される全ての入力オーディオ信号の組(n個の入力オーディオ信号から2つの入力オーディオ信号を選択する組み合わせの数)において相対値を算出してもよいし、一部の入力オーディオ信号の組(例えば一組のみ)において相対値を算出してもよい。
When there are three or more audio acquisition units, the relative
相対値閾値算出部13は、相対値算出部12が算出する相対値に基づいて、相対値閾値を算出する。
The relative
相対値閾値算出部13は、相対値算出部12から供給された相対値を記憶部14に記憶させる。そして、相対値閾値算出部13は、記憶させた2つの相対値を用いて二次元ヒストグラムを生成する。
The relative
相対値閾値算出部13は、二次元ヒストグラムを用いて相対値閾値を算出する。相対値閾値算出部13は、相対値閾値を記憶部14に記憶させる。相対値閾値については、後述する。
The
信号判定部15は、相対値算出部12から供給される相対値と、記憶部14に記憶されている相対値閾値とに基づき、入力信号が所定の信号を含むか否かを判定する。
The
すなわち、信号判定部15は、入力信号に所定の位置(例えば自動車内ならば運転者)から発せられたオーディオ信号成分(以下、所定オーディオ信号成分とする)を含むか否かを判定する処理を行う。
That is, the
オーディオ信号を、異なる位置に設置した複数の音声取得部で取得すると、複数の入力オーディオ信号の間で振幅または位相の差異が所定の範囲に偏って生じる。これは、オーディオ信号を発する信号源と、複数の音声取得部との位置関係に基づいて、一定の振幅の減衰、及び位相のずれが生じるからである。 When an audio signal is acquired by a plurality of audio acquisition units installed at different positions, a difference in amplitude or phase among a plurality of input audio signals is biased to a predetermined range. This is because constant amplitude attenuation and phase shift occur based on the positional relationship between the signal source that emits the audio signal and the plurality of audio acquisition units.
そこで、信号判定部15は、2つの入力オーディオ信号の振幅または位相に生じた差異に基づき、入力信号が所定オーディオ信号成分を含むか否かを判定する。
Therefore, the
具体的には、相対値閾値算出部13は、2つの入力オーディオ信号間の振幅比または位相差が偏って存在する範囲を特定する値を相対値閾値として記憶部14に記憶させる。
Specifically, the relative value
信号判定部15は、相対値算出部12から供給された相対値が、相対値閾値によって特定される範囲内にあるか否かを判定する。信号判定部15は、相対値が範囲内にあるか否かの判定結果に基づき、入力信号が所定オーディオ信号成分を含むか否かを判定する。
The
信号判定処理において、信号判定部15は、記憶部14に記憶した相対値閾値を用いて所定オーディオ信号成分を有するか否かを判定する。この相対値閾値は、装置の設置前に(例えば装置の出荷段階等において)予め記憶部14に記憶しておくことが可能である。しかし、信号判定部15が精度よく判定できるようにするためには、オーディオ信号処理装置1が設置された環境において、相対値閾値算出部13が相対値閾値を算出することが好ましい。
In the signal determination process, the
次に、図2を用いて、オーディオ信号処理装置1の初期設定処理を説明する。以下に説明する処理は、オーディオ信号処理方法やオーディオ信号処理プログラムで実行される手順についても同様である。
Next, an initialization process of the audio
この初期設定処理では、所定オーディオ信号成分以外のオーディオ信号成分(他の話者の音声信号やノイズ信号等)が少ない状態で初期設定用オーディオ信号を発生させることが好ましい。相対値閾値算出部13が生成する二次元ヒストグラムのピークをより明瞭にするためである。
In this initial setting process, it is preferable to generate the initial setting audio signal in a state where there are few audio signal components other than the predetermined audio signal component (such as a voice signal of another speaker or a noise signal). This is to make the peak of the two-dimensional histogram generated by the relative
また、初期設定用オーディオ信号は、所定オーディオ信号成分が発せられる位置に置いた音声出力手段から発生させることが好ましい。所定オーディオ信号成分の振幅相対値及び位相相対値を再現し、正確な相対値閾値を生成するためである。 Further, it is preferable that the initial setting audio signal is generated from a sound output unit located at a position where a predetermined audio signal component is generated. This is for reproducing an amplitude relative value and a phase relative value of a predetermined audio signal component and generating an accurate relative value threshold.
初期設定用オーディオ信号は、上述のように、図示しない音声出力手段が発生させる所定のオーディオ信号でもよいし、運転席に座った運転者等の声でもよい。また、音声出力手段から初期設定用オーディオ信号が発せられたことに応じて図2のフローチャートに基づく処理を開始するようにしてもよい。 As described above, the initial setting audio signal may be a predetermined audio signal generated by an audio output unit (not shown) or a voice of a driver sitting in a driver's seat. Further, the processing based on the flowchart of FIG. 2 may be started in response to the initial setting audio signal being emitted from the audio output unit.
信号入力部10は、ステップS10にて、入力オーディオ信号の有無を判定する。入力オーディオ信号がある場合(ステップS10:YES)、信号入力部10は、処理をステップS11へ移行させる。 In step S10, the signal input unit 10 determines whether there is an input audio signal. If there is an input audio signal (step S10: YES), the signal input unit 10 shifts the processing to step S11.
すなわち、オーディオ信号処理装置1は、初期設定処理においては、入力オーディオ信号が継続して入力される期間において、ステップS11〜ステップS14の処理を繰り返し実行する。
That is, in the initial setting process, the audio
なお、周波数領域変換部11が、周波数領域情報を用いて、入力オーディオ信号の有無を判定してもよい。この場合、入力オーディオ信号の有無の判定は、ステップS12の後、ステップS13の前に実施する。 Note that the frequency domain conversion unit 11 may determine the presence or absence of an input audio signal using the frequency domain information. In this case, the determination of the presence or absence of the input audio signal is performed after step S12 and before step S13.
周波数領域変換部11は、ステップS11にて、入力オーディオ信号をフレーム分割する。また、周波数領域変換部11は、ステップS12にて入力オーディオ信号を時間領域の情報から周波数領域の情報へ変換する。 In step S11, the frequency domain transform unit 11 divides the input audio signal into frames. The frequency domain conversion unit 11 converts the input audio signal from time domain information to frequency domain information in step S12.
相対値算出部12は、ステップS13にて、複数の入力オーディオ信号を用いて相対値を算出する。そして、相対値算出部12は、ステップS14にて算出した相対値を、記憶部14に記憶させる。
In step S13, the relative
ステップS10に戻り、信号入力部10が、入力オーディオ信号の入力がない場合(ステップS10:NO)、信号入力部10は、処理をステップS15へ移行させる。 Returning to step S10, when there is no input audio signal input to the signal input unit 10 (step S10: NO), the signal input unit 10 shifts the processing to step S15.
相対値閾値算出部13は、ステップS15にて、記憶部14に記憶された相対値から二次元ヒストグラムを生成する。
In step S15, the relative
ここで、二次元ヒストグラムと相対値閾値との関係について詳細に説明する。図3〜図5に、相対値閾値によって定まる範囲を示すグラフの第1の例〜第3の例を示す。 Here, the relationship between the two-dimensional histogram and the relative value threshold will be described in detail. FIGS. 3 to 5 show first to third examples of graphs showing ranges determined by the relative value threshold.
図3〜図5に示す各グラフは、横軸を振幅相対値α、縦軸を位相相対値δとし、z方向の軸を相対値の出現頻度を示す度数を示す二次元ヒストグラムを示すグラフである。すなわち、二次元ヒストグラムの各座標は、αとδの相対値の組に対応する度数として、(振幅相対値α,位相相対値δ,度数z)と表される。度数が高い座標は、その座標に対応する入力オーディオ信号の頻度が高いことを示す。各グラフのハッチング部分は、所定の度数以上の相対値が存在する範囲を示す。各グラフの二等辺三角形は、所定の度数以上の相対値の一部を模式的に表している。各グラフの詳細については、後述する。 Each of the graphs shown in FIGS. 3 to 5 is a graph showing a two-dimensional histogram in which the horizontal axis represents the amplitude relative value α, the vertical axis represents the phase relative value δ, and the axis in the z direction represents the frequency indicating the appearance frequency of the relative value. is there. That is, each coordinate of the two-dimensional histogram is represented as (amplitude relative value α, phase relative value δ, frequency z) as a frequency corresponding to a set of relative values of α and δ. A coordinate having a high frequency indicates that the frequency of the input audio signal corresponding to the coordinate is high. The hatched portion of each graph indicates a range in which a relative value equal to or higher than a predetermined frequency exists. The isosceles triangle in each graph schematically represents a part of a relative value equal to or higher than a predetermined frequency. Details of each graph will be described later.
なお、度数に代えて、座標に対応する入力オーディオ信号の時間周波数成分の振幅値またはエネルギ値の和(以下、度数等とする)を用いてもよい。振幅値、またはエネルギ値が大きい時間周波数成分は、所定オーディオ信号成分に由来する時間周波数成分である確率が高いためである。和に限らず、振幅値またはエネルギ値の平均値や中央値等の統計値を用いてもよい。 Note that, instead of the frequency, a sum of the amplitude value or the energy value of the time frequency component of the input audio signal corresponding to the coordinates (hereinafter, referred to as frequency) may be used. This is because a time frequency component having a large amplitude value or energy value has a high probability of being a time frequency component derived from a predetermined audio signal component. Not limited to the sum, a statistical value such as an average value or a median value of amplitude values or energy values may be used.
図2に戻り、相対値閾値算出部13は、ステップS16にて、度数が所定値以上となる相対値の組が存在する範囲を検出する。相対値閾値算出部13は、この範囲を所定オーディオ信号成分が存在する範囲として特定する相対値閾値を算出する。
Returning to FIG. 2, in step S16, the relative value
ここで、相対値閾値算出部13が相対値閾値を算出する処理について詳細に説明する。以下の説明では、所定値以上の度数を示すピークを有意なピークと称する。この所定値としては、各座標の度数の平均値や中央値などの統計値を用いてもよい。また、この所定値としては、統計値と最大度数値との間に位置する値、統計値と標準偏差等のばらつきを示す値との和、または最大度数値に所定の係数を乗じた値等を用いてもよい。
Here, the process in which the relative
図3に示す第1の例では、二次元ヒストグラム上に有意なピークが存在する範囲の振幅相対値の上限値を振幅比上限値maxαとし、下限値を振幅比下限値minαとして範囲を特定する。また、二次元ヒストグラム上に有意なピークが存在する範囲の位相相対値の上限値を位相差上限値maxδ、下限値を位相差下限値minδとして範囲を特定する。 In the first example shown in FIG. 3, the upper limit value of the amplitude relative value in the range where a significant peak exists on the two-dimensional histogram is defined as the amplitude ratio upper limit value maxα, and the lower limit value is specified as the amplitude ratio lower limit value minα. . Further, the range is specified by defining the upper limit of the phase relative value in the range where a significant peak exists on the two-dimensional histogram as the phase difference upper limit value maxδ and the lower limit as the phase difference lower limit value minδ.
図3に示す第1の例では、相対値閾値算出部13は、振幅比上限値maxα、振幅比下限値minα、位相差上限値maxδ、位相差下限値minδの4つの値から定まる矩形領域を所定オーディオ信号成分が存在する範囲として特定する。この場合、相対値閾値算出部13は、相対値閾値として、振幅比上限値maxα、振幅比下限値minα、位相差上限値maxδ、位相差下限値minδの4つの値を記憶部14に記憶させる。
In the first example shown in FIG. 3, the relative
図4に示す第2の例では、相対値閾値算出部13は、二次元ヒストグラム上に有意なピークが存在する相対値の一部または全部を含む所定の形状(例えば、楕円又は円)の領域を所定オーディオ信号成分が存在する範囲として特定する。この場合、相対値閾値算出部13は、相対値閾値として、所定の形状を特定する情報(例えば、円の中心及び半径、楕円の中心、短径及び長径、等)を記憶部14に記憶させる。
In the second example illustrated in FIG. 4, the relative
図5に示す第3の例では、相対値閾値算出部13は、二次元ヒストグラム上に有意なピークが存在する相対値の一部または全部を含む任意の形状(例えば、有意なピークの座標を直線または曲線で結んだ形状)の領域を、所定オーディオ信号成分が存在する範囲として特定する。この場合、相対値閾値算出部13は、相対値閾値として、任意の形状の外周に位置する有意なピークの座標の一部または全部を記憶部14に記憶させる。
In the third example illustrated in FIG. 5, the relative value threshold
このように、相対値閾値算出部13は、有意なピークが検出された相対値の全て、または一部を含むように、矩形、楕円等の所定形状、または任意の形状によって領域を特定する。相対値閾値算出部13は、事前に決めた形状を用いてもよいし、有意なピークの分布に最も類似する形状を選択して用いてもよい。
As described above, the relative value threshold
次に、図6を用いて、実施の形態1のオーディオ信号処理装置1の信号判定処理を説明する。
Next, a signal determination process of the audio
周波数領域変換部11は、ステップS20にて、入力オーディオ信号をフレーム分割する。また、周波数領域変換部11は、ステップS21にて、入力オーディオ信号を時間領域の情報から周波数領域の情報へ変換する。 In step S20, the frequency domain transforming unit 11 divides the input audio signal into frames. In step S21, the frequency domain conversion unit 11 converts the input audio signal from time domain information to frequency domain information.
相対値算出部12は、ステップS22にて、複数の入力オーディオ信号を用いて相対値を算出する。
In step S22, the relative
信号判定部15は、ステップS23にて、記憶部14に記憶されている相対値閾値を参照し、入力オーディオ信号が所定オーディオ信号成分を含むか否かを判定する。
In step S23, the
信号判定部15は、相対値閾値によって特定されるヒストグラムの領域内の度数等が所定値を超えているか否かによって、入力オーディオ信号が所定オーディオ信号成分を含むか否かを判定することが望ましい。また、相対値閾値によって特定されるヒストグラムの領域の内外における度数等を比較することで当該信号判定処理を実施してもよい。
The
実施の形態1のオーディオ信号処理装置1は、事前に記憶した相対値閾値と、連続して入力される入力オーディオ信号から算出される相対値とに基づき、入力オーディオ信号が所定オーディオ信号成分を含むか否かを判定する。
The audio
このように、実施の形態1のオーディオ信号処理装置1は、複数の入力オーディオ信号から算出される相対値に基づいて、入力オーディオ信号が所定オーディオ信号成分に由来する信号を含むか否かを判定する。実施の形態1のオーディオ信号処理装置1は、相対値を用いることにより、入力オーディオ信号の音量に依存することなく、当該判定ができる。よって、実施の形態1のオーディオ信号処理装置1は、入力オーディオ信号の音量に依存せず、near endの音声信号の状態を判定することができる。
As described above, the audio
実施の形態1のオーディオ信号処理装置1は、公知の音声判定技術を用いてfar endの音声信号の有無を判定し、ダブルトークか否かを判定することができる。
The audio
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、所定オーディオ信号成分の信号源と、音声取得部と、の位置関係を複数定め、記憶部14に複数の位置関係毎に複数の相対値閾値を記憶させてもよい。この場合、オーディオ信号処理装置1の利用状況に応じて、複数の相対値閾値から、利用する相対値閾値を選択して用いることができる。
It should be noted that the present invention is not limited to the above-described embodiment, and can be appropriately changed without departing from the gist. For example, a plurality of positional relationships between the signal source of the predetermined audio signal component and the audio acquisition unit may be determined, and the
<実施の形態2>
実施の形態1のオーディオ信号処理装置は、信号入力部10として、フラットな指向特性を持つ、いわゆる無指向性マイクロフォンを採用するのが望ましい。しかし装置の構成上、一定の指向特性を持つマイクロフォンや、低コストのマイクロフォンを採用せざるを得ない場合もある。
<Embodiment 2>
In the audio signal processing device according to the first embodiment, it is desirable that a so-called omnidirectional microphone having flat directional characteristics is employed as the signal input unit 10. However, due to the configuration of the device, a microphone having a constant directional characteristic or a low-cost microphone may be necessarily used.
前者の場合、一定の方向から到来する信号成分について、二つのマイクロフォンにおける正確な相対値を、構造上算出できない場合がある。後者の場合、入力感度等のハードウェア性能に個体差が生じ、正確な相対値を算出できない場合がある。 In the former case, it may not be possible to calculate an accurate relative value between two microphones for a signal component arriving from a certain direction due to its structure. In the latter case, there may be individual differences in hardware performance such as input sensitivity, and an accurate relative value may not be calculated.
こうした場合、複数のマイクロフォンから算出した振幅比と位相差の二次元ヒストグラムの分布は、無指向性マイクロフォンの場合と比較して乱雑になる。その結果、適切な振幅比、及び位相差の範囲を定め、相対値閾値を算出することが困難となる。 In such a case, the distribution of the two-dimensional histogram of the amplitude ratio and the phase difference calculated from the plurality of microphones is more messy than in the case of the non-directional microphone. As a result, it is difficult to determine an appropriate range of the amplitude ratio and the phase difference and calculate the relative value threshold.
そこで実施の形態2では、位相差と振幅比の二次元ヒストグラムではなく、位相差と振幅比、それぞれ別箇の一次元ヒストグラムを生成し、振幅比、及び位相差の分布範囲を求める。 Therefore, in the second embodiment, instead of a two-dimensional histogram of the phase difference and the amplitude ratio, one-dimensional histograms of the phase difference and the amplitude ratio are separately generated, and the distribution range of the amplitude ratio and the phase difference is obtained.
実施の形態1と実施の形態2との差異は、初期設定処理における相対値閾値算出部13の処理のみである。従って、実施の形態2では当該処理の詳細のみについて記載し、その他のブロックについての処理は記載を省略する。
The difference between the first embodiment and the second embodiment is only the processing of the relative value threshold
相対値閾値算出部13は、相対値算出部12が算出した振幅比、位相差、それぞれについて、ヒストグラムを生成する。ヒストグラムは、横軸を振幅比又は位相差とし、縦軸を度数等とすることが望ましい。また、ヒストグラムは、度数等を算出するための階級幅の設定によって、度数等の変動が大きくなる場合がある。階級幅を一定程度広くしてヒストグラムを生成する、またはヒストグラム生成後に平滑化処理を実施することが望ましい。
The relative
ここで、無指向性マイクロフォンと前方指向性マイクロフォンとのヒストグラムの差異について説明する。前方指向性マイクロフォンは、指向性を有するマイクロフォンの一例である。図7及び図8に、無指向性マイクロフォンを用いた場合のヒストグラムの一例を示す。いずれも点線が実際の度数等の値、実線が度数等の値を移動平均により平滑化した値である。ヒストグラムの生成に用いたデータは、2つのマイクロフォンの正面に話者が位置した場合のデータである。 Here, the difference between the histograms of the omnidirectional microphone and the forward directional microphone will be described. The front directional microphone is an example of a microphone having directivity. 7 and 8 show an example of a histogram when an omnidirectional microphone is used. In each case, the dotted line is a value obtained by smoothing the value such as the actual frequency by a moving average, and the solid line is a value obtained by smoothing the value such as the frequency. The data used for generating the histogram is data when a speaker is located in front of two microphones.
図7に、横軸を振幅比、縦軸を振幅値の和としたヒストグラムの一例を示す。原点(α=1とする)の近傍にヒストグラムのピークが表れている。すなわち、2つのマイクロフォンから音源である話者が等距離に位置することを示している。 FIG. 7 shows an example of a histogram in which the horizontal axis represents the amplitude ratio and the vertical axis represents the sum of the amplitude values. A histogram peak appears near the origin (α = 1). In other words, this indicates that the speakers as sound sources are located at the same distance from the two microphones.
図8に、横軸を位相差、縦軸を振幅値の和としたヒストグラムの一例を示す。原点(δ=0とする)の近傍にヒストグラムのピークが表れている。すなわち、音源である話者が、2つのマイクロフォンから等距離に位置することを示している。 FIG. 8 shows an example of a histogram in which the horizontal axis represents the phase difference and the vertical axis represents the sum of the amplitude values. The peak of the histogram appears near the origin (assuming δ = 0). In other words, this indicates that the speaker as the sound source is located at the same distance from the two microphones.
無指向性マイクロフォンを用いて、その正面に話者が位置する場合、図7及び図8に示すように、いずれのヒストグラムも原点の近傍に急峻なピークを示す。この場合、二次元ヒストグラムでは、概ね円錐状の急峻なピークを示す。このように、無指向性マイクロフォンの場合は、分布範囲を取得するのは容易である。 When a speaker is positioned in front of the omnidirectional microphone, both histograms show a steep peak near the origin as shown in FIGS. 7 and 8. In this case, the two-dimensional histogram shows a steep peak having a substantially conical shape. As described above, in the case of the omnidirectional microphone, it is easy to obtain the distribution range.
図9及び図10に、前方指向性を有するマイクロフォンを用いた場合のヒストグラムの一例を示す。図7及び図8と同様、いずれも点線が実際の度数等の値、実線が度数等の値を移動平均により平滑化した値である。ヒストグラム生成に用いたデータは、2つのマイクロフォンの斜め前方に話者が位置していた場合のデータである。すなわち2つのマイクロフォンから音源である話者までの各距離は異なる。 9 and 10 show an example of a histogram when a microphone having forward directivity is used. As in FIGS. 7 and 8, the dotted line is a value obtained by smoothing a value such as the actual frequency by a moving average, and the solid line is a value obtained by moving average. The data used for generating the histogram is data when a speaker is positioned diagonally forward of the two microphones. That is, the distances from the two microphones to the speaker as the sound source are different.
図9に、横軸を振幅比、縦軸を振幅値の和としたヒストグラムの一例を示す。原点(α=1)から離れてピークが位置しており、音源である話者とマイクロフォンの位置関係と一致する。また、無指向性マイクロフォンの分布と比較すると、分布範囲が広く、振幅値の幅も広いことがわかる。2つの分布を比較すると、指向性を有するマイクロフォンの分布の方が乱雑な分布である。 FIG. 9 shows an example of a histogram in which the horizontal axis represents the amplitude ratio and the vertical axis represents the sum of the amplitude values. The peak is located away from the origin (α = 1), and coincides with the positional relationship between the speaker as the sound source and the microphone. Further, as compared with the distribution of the omnidirectional microphone, it can be seen that the distribution range is wide and the amplitude value width is wide. Comparing the two distributions, the distribution of microphones having directivity is more random.
図10に、横軸を位相差、縦軸を振幅値の和としたヒストグラムの一例を示す。原点(δ=0)から離れてピークが位置しており、音源である話者とマイクロフォンの位置関係と一致する。また、無指向性マイクロフォンの分布と比較すると、複数の小さいピークが存在していることがわかる。 FIG. 10 shows an example of a histogram in which the horizontal axis represents the phase difference and the vertical axis represents the sum of the amplitude values. The peak is located away from the origin (δ = 0), and matches the positional relationship between the speaker as the sound source and the microphone. Further, when compared with the distribution of the omnidirectional microphone, it can be seen that there are a plurality of small peaks.
この場合、無指向性マイクロフォンと異なり、二次元ヒストグラムは円錐状の分布にはならず、山状に連なって分布したり、小さいピークが点在する分布になったりと、測定の状況によって多岐にわたる乱雑な分布となる。こうした乱雑な分布では、ある相対値が、相対値閾値の範囲内か否かを判定するための条件が多くなるため、処理時間の増大につながる。 In this case, unlike an omnidirectional microphone, the two-dimensional histogram does not have a conical distribution, but is distributed in a mountain-like manner, or has a distribution in which small peaks are scattered. The distribution is messy. In such a random distribution, conditions for determining whether or not a certain relative value is within the range of the relative value threshold are increased, which leads to an increase in processing time.
相対値閾値算出部13は、ヒストグラム生成後、振幅比、位相差毎に、相対値の分布範囲から相対値閾値を算出する。具体的には、相対値の出現頻度を示す度数等が所定値以上となる相対値の分布範囲に含まれる、相対値の最大値及び最小値を相対値閾値とする。すなわち、図11に示すように、度数等が所定値以上となる相対値の分布範囲である、両矢印の範囲の最大値(上限値)及び最小値(下限値)を相対値閾値とする。
After generating the histogram, the relative
車室内の場合、サイドウィンドウ等に反射して遅延した信号成分により、度数等が最大値を示すピークから離れた位置にもピークが生成され、度数等が所定値以上となる範囲が複数生じる場合もある。遅延した信号成分により生じる範囲は除外する必要があるため、相対値閾値を求める範囲は、度数等が最大値を示すピークの位置を含む範囲とすることが望ましい。 In the case of a vehicle interior, when a signal component reflected by a side window or the like is delayed and a peak is generated at a position distant from a peak at which the frequency or the like has a maximum value, and a plurality of ranges in which the frequency or the like becomes a predetermined value or more occur. There is also. Since it is necessary to exclude the range caused by the delayed signal component, it is desirable that the range for calculating the relative value threshold is a range including the position of the peak at which the frequency or the like shows the maximum value.
ここで、度数等の所定値を算出する方法について説明する。相対値閾値の上限及び下限は、図12に示す拡大図の点線円部分のように、急峻にピークへ向かって増加するポイントと概ね一致する。これは、所定オーディオ信号成分に由来する時間周波数成分が現れるため、振幅値が急激に大きくなるためである。 Here, a method of calculating a predetermined value such as a frequency will be described. The upper limit and the lower limit of the relative value threshold substantially coincide with a point that sharply increases toward the peak, as indicated by a dotted circle in the enlarged view of FIG. This is because a time-frequency component derived from the predetermined audio signal component appears, and the amplitude value sharply increases.
ところが、ヒストグラムの左右両端のx軸へ漸近する部分は、図12に拡大表示するように変動が大きいため、単純にヒストグラムの増加量だけでは当該ポイントを算出できない場合がある。よって、当該ポイントを検出する方法としては、ヒストグラムの平滑化微分を実施し、微分値の極値を求める方法が挙げられる。 However, since the portions asymptotic to the x-axis at both left and right ends of the histogram have large fluctuations as shown in an enlarged view in FIG. 12, the point may not be calculated simply by the increased amount of the histogram. Therefore, as a method of detecting the point, there is a method of performing smoothing differentiation of the histogram to obtain an extreme value of the differential value.
また、ヒストグラムから平均値等の統計値を算出して当該所定値とする方法も挙げられる。しかし、単にヒストグラムの全区間から平均値等の統計値を算出すると、ヒストグラムの左右両端のx軸へ漸近する部分とピーク周辺部分との値の乖離が大きいことから、望ましい所定値より大きい値が算出されてしまう。すなわち、相対値閾値の範囲が狭く算出されてしまう。 Further, there is a method of calculating a statistical value such as an average value from a histogram and setting the statistical value to the predetermined value. However, when a statistic such as an average value is simply calculated from the entire section of the histogram, the value of a value larger than a desired predetermined value is large because the difference between the values asymptotic to the x-axis at the left and right ends of the histogram and the portion around the peak is large. Will be calculated. That is, the range of the relative value threshold is calculated to be narrow.
そこで、まず最大値を示すピークの度数等の値に基づいて、一度暫定的な所定値(例えば最大値に0.1を乗算した値など)を算出し、その値以上の区間を除外する。次に、残った区間から平均値等の統計値を算出することで当該所定値とする方法が挙げられる。このように、段階的に所定値を算出することで、当該所定値による区間は、図12のx軸漸近部分より常に大きい区間であり、かつ、点線円部分のように急峻な増加ポイントを精度よく捉えることができる。 Therefore, first, a provisional predetermined value (for example, a value obtained by multiplying the maximum value by 0.1) is calculated once based on the value of the frequency of the peak indicating the maximum value, and a section having a value equal to or more than that value is excluded. Next, there is a method of calculating a statistical value such as an average value from the remaining sections to obtain the predetermined value. As described above, by calculating the predetermined value stepwise, the section based on the predetermined value is a section that is always larger than the asymptotic portion of the x-axis in FIG. I can catch it well.
相対値閾値算出部13は、上述した処理により相対値閾値を算出後、相対値閾値を記憶部14に記憶させ、初期設定処理を完了する。その後の信号判定処理は実施の形態1と同様である。
After calculating the relative value threshold value by the above-described processing, the relative value threshold
以上の処理により、無指向性マイクロフォン以外のマイクロフォンを用いても、処理時間が膨大にならず、かつ、一定の判定精度を維持できる相対値閾値を算出できる。 By the above processing, even if a microphone other than the omnidirectional microphone is used, the processing time does not become enormous, and the relative value threshold that can maintain a certain determination accuracy can be calculated.
1 オーディオ信号処理装置
10 信号入力部
11 周波数領域変換部
12 相対値算出部
13 相対値閾値算出部
14 記憶部
15 信号判定部
Claims (8)
前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出する相対値算出部と、
事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定する信号判定部と、
前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出する相対値閾値算出部と、
を備えるオーディオ信号処理装置。 A plurality of input audio signals obtained at different positions, by converting each to frequency domain information, a frequency domain conversion unit that generates a plurality of frequency domain information,
Of the plurality of frequency domain information, a relative value calculation unit that calculates a relative value of a time frequency component of at least one set of frequency domain information,
The input audio signal includes an audio signal component emitted from a predetermined position based on whether the relative value is included in a range specified based on the relative value threshold stored in advance in the storage unit. A signal determination unit for determining whether or not
A histogram of the relative value generated from an input audio signal including an audio signal component emitted from the predetermined position is generated, and a frequency indicating an appearance frequency is included in a distribution range of the relative value in which the frequency is equal to or higher than a predetermined frequency. A relative value threshold calculating unit that calculates the maximum value and the minimum value of the relative values as the relative value threshold,
Luo Dio signal processing apparatus comprising a.
前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出し、
事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定し、
前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出する
オーディオ信号処理方法。 By converting a plurality of input audio signals obtained at different positions into frequency domain information, to generate a plurality of frequency domain information,
Among the plurality of frequency domain information, a relative value of a time frequency component of at least one set of frequency domain information is calculated,
The input audio signal includes an audio signal component emitted from a predetermined position based on whether the relative value is included in a range specified based on the relative value threshold stored in advance in the storage unit. whether or not it is determined,
A histogram of the relative value generated from an input audio signal including an audio signal component emitted from the predetermined position is generated, and a frequency indicating an appearance frequency is included in a distribution range of the relative value in which the frequency is equal to or higher than a predetermined frequency. Calculating the maximum value and the minimum value of the relative value to be used as the relative value threshold
Oh Dio signal processing method.
異なる位置で取得された複数の入力オーディオ信号を、それぞれ周波数領域情報に変換することによって、複数の周波数領域情報を生成する周波数領域変換処理と、
前記複数の周波数領域情報のうち、少なくとも一組の周波数領域情報の時間周波数成分の相対値を算出する相対値算出処理と、
事前に記憶部に記憶されている相対値閾値に基づいて特定される範囲に、前記相対値が含まれるか否かに基づいて、前記入力オーディオ信号が所定の位置から発せられるオーディオ信号成分を含むか否かを判定する信号判定処理と、
前記所定の位置から発せられるオーディオ信号成分を含む入力オーディオ信号から生成される前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の分布範囲に含まれる前記相対値の最大値及び最小値を前記相対値閾値として算出する相対値閾値算出処理と、
を実行させるオーディオ信号処理プログラム。 On the computer,
A plurality of input audio signals obtained at different positions, by converting each into frequency domain information, frequency domain conversion processing to generate a plurality of frequency domain information,
Among the plurality of frequency domain information, a relative value calculation process of calculating a relative value of a time frequency component of at least one set of frequency domain information,
The input audio signal includes an audio signal component emitted from a predetermined position based on whether the relative value is included in a range specified based on the relative value threshold stored in advance in the storage unit. Signal determination processing for determining whether or not
A histogram of the relative value generated from an input audio signal including an audio signal component emitted from the predetermined position is generated, and a frequency indicating an appearance frequency is included in a distribution range of the relative value in which the frequency is equal to or higher than a predetermined frequency. Relative value threshold calculation processing for calculating the maximum value and the minimum value of the relative values as the relative value threshold,
Allowed to run Luo Dio signal processing program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US15/057,624 US9865278B2 (en) | 2015-03-10 | 2016-03-01 | Audio signal processing device, audio signal processing method, and audio signal processing program |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015046990 | 2015-03-10 | ||
| JP2015046990 | 2015-03-10 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016170391A JP2016170391A (en) | 2016-09-23 |
| JP6657965B2 true JP6657965B2 (en) | 2020-03-04 |
Family
ID=56982392
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2016001086A Active JP6657965B2 (en) | 2015-03-10 | 2016-01-06 | Audio signal processing device, audio signal processing method, and audio signal processing program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6657965B2 (en) |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4580210B2 (en) * | 2004-10-19 | 2010-11-10 | ソニー株式会社 | Audio signal processing apparatus and audio signal processing method |
| JP5034607B2 (en) * | 2006-11-02 | 2012-09-26 | 株式会社日立製作所 | Acoustic echo canceller system |
| JP4871191B2 (en) * | 2007-04-09 | 2012-02-08 | 日本電信電話株式会社 | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium |
| US8767975B2 (en) * | 2007-06-21 | 2014-07-01 | Bose Corporation | Sound discrimination method and apparatus |
| KR20120080409A (en) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | Apparatus and method for estimating noise level by noise section discrimination |
-
2016
- 2016-01-06 JP JP2016001086A patent/JP6657965B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016170391A (en) | 2016-09-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6260504B2 (en) | Audio signal processing apparatus, audio signal processing method, and audio signal processing program | |
| KR101260131B1 (en) | Audio source proximity estimation using sensor array for noise reduction | |
| US8891780B2 (en) | Microphone array device | |
| EP2748816B1 (en) | Processing audio signals | |
| JP2012150237A (en) | Sound signal processing apparatus, sound signal processing method, and program | |
| US9761244B2 (en) | Voice processing device, noise suppression method, and computer-readable recording medium storing voice processing program | |
| KR102847393B1 (en) | Method and device for fingerprinting audio signals using exponential normalization | |
| US10015592B2 (en) | Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium | |
| US9911428B2 (en) | Noise suppressing apparatus, speech recognition apparatus, and noise suppressing method | |
| JP6794887B2 (en) | Computer program for voice processing, voice processing device and voice processing method | |
| US20170309293A1 (en) | Method and apparatus for processing audio signal including noise | |
| JP6048596B2 (en) | Sound collector, input signal correction method for sound collector, and mobile device information system | |
| US9865278B2 (en) | Audio signal processing device, audio signal processing method, and audio signal processing program | |
| JP5459220B2 (en) | Speech detection device | |
| JP6657965B2 (en) | Audio signal processing device, audio signal processing method, and audio signal processing program | |
| JP5772591B2 (en) | Audio signal processing device | |
| JP2007047427A (en) | Audio processing device | |
| JP5970985B2 (en) | Audio signal processing apparatus, method and program | |
| US10186279B2 (en) | Device for detecting, monitoring, and cancelling ghost echoes in an audio signal | |
| JP6638248B2 (en) | Audio determination device, method and program, and audio signal processing device | |
| JP6763319B2 (en) | Non-purpose sound determination device, program and method | |
| JP2017143459A (en) | Method and device for measuring propagation delay characteristics | |
| JP6361360B2 (en) | Reverberation judgment device and program | |
| KR102012522B1 (en) | Apparatus for processing directional sound | |
| JP2017067990A (en) | Voice processing device, program, and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181207 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191015 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191105 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191218 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200107 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200120 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6657965 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |