[go: up one dir, main page]

JP5078032B2 - 音源同定方法及び音源同定装置 - Google Patents

音源同定方法及び音源同定装置 Download PDF

Info

Publication number
JP5078032B2
JP5078032B2 JP2008250360A JP2008250360A JP5078032B2 JP 5078032 B2 JP5078032 B2 JP 5078032B2 JP 2008250360 A JP2008250360 A JP 2008250360A JP 2008250360 A JP2008250360 A JP 2008250360A JP 5078032 B2 JP5078032 B2 JP 5078032B2
Authority
JP
Japan
Prior art keywords
sound source
sound
vector
category
pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008250360A
Other languages
English (en)
Other versions
JP2010079188A (ja
Inventor
彰 岩田
クグレ マウリシオ
Original Assignee
国立大学法人 名古屋工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 名古屋工業大学 filed Critical 国立大学法人 名古屋工業大学
Priority to JP2008250360A priority Critical patent/JP5078032B2/ja
Publication of JP2010079188A publication Critical patent/JP2010079188A/ja
Application granted granted Critical
Publication of JP5078032B2 publication Critical patent/JP5078032B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

本発明は、音源の種類を同定する音源同定方法及び音源同定装置に関する。
音による周辺環境把握の基本機能は、音源方向を識別する音源定位と、音源種類を識別する音源同定(音源認識)であり、パルスニューロンモデルを用いた音源同定装置には、下記非特許文献1に記載されたものがある。また、出願人による音源同定に関する出願に、下記特許文献1、2があり、特許文献2には、処理の高速化のため、音源定位・同定装置をFPGA(Field Programmable Gate Array)に実装した例が示されている。
特開2008−77177号公報 特開2008−85472号公報 坂口晋也、黒柳奨、岩田彰、「環境把握のための音源同定システム」、電子情報通信学会NC研究会技術研究報告、社団法人電子情報通信学会、1999年12月、NC99−70、p.61−68
しかし、上記特許文献2の表1から分かるように、特許文献2記載の装置では、音源同定用周波数パターン検出部のみでも約5,000ALUTsの回路数が必要であり、更なる処理の高速化と装置のコンパクト化のためには、より少ない回路数でハードウェア化可能な音源同定方法が望まれていた。
この発明は、上述した問題を解決するものであり、より少ない回路数でハードウェア化可能な音源同定方法及び音源同定装置を提供することを目的とする。
本発明の音源同定方法は、入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換し、前記各周波数帯域のパルス列を用いて入力音の音源を識別する音源同定方法であって、前記各周波数帯域のパルス列において、時間軸方向に所定幅を有するカウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成する第1ステップと、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する第2ステップと、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類されて記憶されている複数の参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する第3ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする。
なお、好ましくは、前記第1ステップと、前記第2ステップと、前記第3ステップと、前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記第3ステップで出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げる第4ステップとを、前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定する。
本発明の音源同定装置は、入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換するパルス列生成手段と、時間軸方向に所定幅を有し時間軸方向に重ならないように設定されるカウント範囲毎に、前記各周波数帯域のパルス列における前記カウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成するパルス数ベクトル生成手段と、前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する特徴ベクトル生成手段と、音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類された複数の参照ベクトルを記憶した参照ベクトル記憶手段と、前記参照ベクトル記憶手段に記憶されている参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する音源カテゴリ識別手段と、を有し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする。
なお、好ましくは、前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記音源カテゴリ識別手段によって出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げるポテンシャル値処理手段を有し、前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定する。
本発明の音源同定方法及び音源同定装置は、入力音の特徴を0、1で表した特徴ベクトルを生成し、音源が分かっている音から特徴ベクトルと同様に生成された参照ベクトルを用いて、特徴ベクトルと参照ベクトルとの遠近(類似度)をハミング距離で決定するという、シンプルで演算容易なロジックを用いているので、より少ない回路数でハードウェア化可能である。
以下、本発明の一実施形態について図面に基づいて説明する。
音源同定装置Sは、図1に示すように、マイクロホン(図示せず。)に接続されたパルス列生成手段6を備えている。パルス列生成手段6は、AD変換部14と、人の聴覚系の蝸牛に相当する周波数分解部15と、有毛細胞に相当する非線形変換部16と、蝸牛神経に相当するパルス変換部17とを備えている。AD変換部14は、マイクロホンから入力された信号(入力音)をAD変換する。周波数分解部15は、バンドパスフィルタ(BPF)群により構成され、AD変換された信号を所定の周波数範囲について対数スケールで複数の周波数帯域(以下、「チャンネル」ともいう。)別の信号に分解する。非線形変換部16は、周波数分解部15から入力された各周波数帯域の信号に対して、それぞれ、非線形変換を行うことによりその正の成分だけを取り出すとともに、ローパスフィルタ(LPF)によりエンベロープ検出を行う。パルス変換部17は、非線形変換部16から入力された各周波数帯域の信号を、それぞれ、信号強度(すなわち、音圧)に比例したパルス頻度を持つパルス列に変換する。これらの処理により、パルス列生成手段6は、入力音を、チャンネル別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換する。
また、音源同定装置Sは、図2に示すように、パルス数ベクトル生成手段1と、特徴ベクトル生成手段2と、音源カテゴリ識別手段3と、参照ベクトル記憶手段4とを備えている。
パルス数ベクトル生成手段1には、パルス列生成手段6で生成された各チャンネルのパルス列が入力される。実施形態では、チャンネル数は43である。パルス数ベクトル生成手段1は、チャンネル数分のパルスカウンタ5を備え、各チャンネルのパルス列におけるカウント範囲内のパルス数を、各パルスカウンタ5により数え、それらのパルス数を要素とするパルス数ベクトルを生成する。パルス数ベクトルの要素数は、チャンネル数すなわち43となる。カウント範囲は、実施形態ではパルス1000個分の幅とする。実施形態では、入力信号を48kHzでサンプリングしてパルス列を生成するため、1secに48000個のパルスを発生可能であり、パルス1000個分の幅とは1000÷48000≒0.02secの幅となる。すなわち、各チャンネルのパルス列を、約20msec間隔で区切って数える。
特徴ベクトル生成手段2には、パルス数ベクトルが入力される。特徴ベクトル生成手段2は、パルス数ベクトルの各要素のうちの大きい方からN個の要素を1とし、残りの要素を0とした特徴ベクトルを生成するものである。すなわち、特徴ベクトルは、音圧の強い部分を1とし残りの部分を0とすることにより音の特徴を表すバイナリーベクトルである。なお、Nは、パルス数ベクトルの要素数以下の正整数であり、実施形態ではN=9とする。
音源カテゴリ識別手段3には、特徴ベクトルが入力される。音源カテゴリ識別手段3は、参照ベクトル記憶手段4に記憶されている参照ベクトルから、特徴ベクトルにハミング距離で近い方からk個の参照ベクトルを検索し、それらk個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、その音源カテゴリを示すカテゴリ情報を出力するものである。kは、参照ベクトルの総数以下の正整数であり、実施形態ではk=12とする。
参照ベクトル記憶手段4は、複数の参照ベクトルを記憶したもの(実施形態ではROM)である。各参照ベクトルは、音源が分かっている入力音から上記特徴ベクトルと同様にして生成したバイナリーベクトルである。すなわち、所定時間長さを持つ入力音からチャンネル別のパルス列を生成し、時間軸方向に所定幅(パルス1000個分)を有するカウント範囲を、時間軸方向に重ならないように、かつ、間隔が開かないように移動させつつ、各パルス列におけるカウント範囲内のパルス数をカウントして、各パルス列におけるパルス数を要素とするパルス数ベクトルを生成する。そして、パルス数ベクトルの要素のうち大きい方からN(=9)個を1に、残りの要素を0にした特徴ベクトルを生成し、その特徴ベクトルを参照ベクトルとする。各参照ベクトルは、元の音源を示す音源カテゴリ(音源種類)に、例えばその音源カテゴリを示すカテゴリ情報に関連付けることにより、分類されている。なお、参照ベクトルの総数を少なくするために、K平均法(K-means clustering)を用いて、各音源カテゴリについて、その音源カテゴリに属する特徴ベクトルを複数のクラスタに分けるクラスタリングを行い、各クラスタの代表(中心)をその音源カテゴリの参照ベクトルとする。実施形態では、各音源カテゴリについて参照ベクトルを1,000個とした。勿論、クラスタリングの方法は、K平均法以外の方法であってもよい。
音源同定装置Sにおいて実行される音源同定方法について、次に説明する。
音源同定装置Sでは、まず、パルス列生成手段6により入力音をチャンネル別のパルス列に変換する。図3は、入力音(入力信号)からパルス列が生成される様子を示したイメージ図であるが、図の最上段が入力信号(audio signal)であり、図の2段目以降に、この入力信号をチャンネル毎に周波数分解したものを破線で、周波数分解された信号から生成されたパルス列を実線で示している。なお、図3では、チャンネル1(channel 1)、チャンネル4(channel 4)、チャンネル7(channel 7)、チャンネル10(channel 10)、チャンネル13(channel 13)のみを図示している。
また、図4−1〜図6−2は、音源が分かっている入力音、具体的には、図4−1は目覚まし時計のアラーム音、図4−2はインターホンの呼び出し音、図4−3は笛吹きケトルの沸騰音、図5−1は救急車のサイレン音、図5−2はパトカーのサイレン音、図5−3は電話のベル音、図6−1は消防車のサイレン音、図6−2は人の声から生成されたパルス列を示す。なお、縦軸はチャンネル、横軸は時間を示し、濃淡が濃い程パルス頻度大であることを示している。
〈第1ステップ〉次に、音源同定装置Sは、パルス数ベクトル生成手段1により、チャンネル別のパルス列からパルス数ベクトルを生成する第1のステップを実行する。第1のステップでは、パルス数ベクトル生成手段1は、図7のステップS01に示すように、各ウィンドウ(時間窓)についてパルスカウンタ5によりパルス数を数える。ここで、ウィンドウとは、カウント範囲を示すものであり、図8のウィンドウA、ウィンドウBに示すように、すべてのチャンネルを通してパルス列を所定幅(実施形態ではパルス1000個分の幅)で言わば覗いて数えるためのものである。
パルス数ベクトル生成手段1は、まず、最初のウィンドウ内に存在するパルス数を数える。最初のウィンドウは、時刻0から約20msecの範囲となる。パルス数を数えている間は、図7に示すように、待機状態(アイドリング状態)となる。そのウィンドウについてパルス数を数え終わると、パルス数ベクトル生成手段1は、パルス数をチャンネル順に並べたパルス数ベクトルを、特徴ベクトル生成手段2に渡す。次にステップS01を行うときは、パルス数ベクトル生成手段1は、ウィンドウを、最初のウィンドウに重ならないように、かつ、最初のウィンドウとの間に間隔が開かないように移動させ、そのウィンドウ内に存在するパルス数を数える。そして、そのウィンドウについてパルス数を数え終わると、パルス数をチャンネル順に並べたパルス数ベクトルを、特徴ベクトル生成手段2に渡す。パルス数ベクトル生成手段1は、かかる処理を、ウィンドウを時間軸方向に(すなわち、時間の早い方から遅い方に向かって)、前のウィンドウと後のウィンドウとが重ならないように、かつ、前のウィンドウと後のウィンドウとで間隔が開かないように移動させつつ、繰り返す。
かかる処理により、例えば、図8に示すように、ウィンドウAについてはパルス数ベクトルA1=(3,2,4,3,…,5,2,4,5)が、ウィンドウBについてはパルス数ベクトルB1=(2,3,5,3,…,3,5,9,10)が生成される。
〈第2ステップ〉パルス数ベクトル生成手段1からパルス数ベクトルを受け取った特徴ベクトル生成手段2は、パルス数ベクトルから特徴ベクトルを生成する第2のステップを実行する(図7のS02)。
詳しくは、図9に示すように、特徴ベクトル生成手段2は、パルス数ベクトルの各要素からN(=9)個の要素を任意に選択し、それらの要素を所定領域に格納する(S101)。次に、所定領域に格納された9個の要素の中で最小値の要素を見つける(S102)。最小値の要素を見つけたら、所定領域に格納されなかった残りの要素とその最小値の要素とを比較する(S103)。そして、残りの要素の中から、その最小値の要素より大きい値の要素を見つけたら、その最小値の要素の代わりに、見つかったより大きい値の要素を所定領域に格納し、ステップS102に戻って、所定領域に格納されている要素の中で最小値の要素を見つける。
ステップS102、103は、所定領域中の最小値の要素より大きい値の要素が、残りの要素から見つからなくなるまで繰り返される。ステップS103で、所定領域中の最小値の要素より大きい値の要素が、残りの要素から見つからなかったら、所定領域にはパルス数ベクトルの各要素のうちの大きい方から9個の要素が格納されているので、パルス数ベクトル中のそれら9個の要素を1とし、それら9個以外の要素を0とすることにより、特徴ベクトルを生成する(S104)。
かかる処理により、例えば、図8に示すように、パルス数ベクトルA1については特徴ベクトルA2が、パルス数ベクトルB1については特徴ベクトルB2が生成される。生成された特徴ベクトルは音源カテゴリ識別手段3に渡される。
〈第3ステップ〉特徴ベクトル生成手段2から特徴ベクトルを受け取った音源カテゴリ識別手段3は、参照ベクトルと特徴ベクトルとの距離を調べ、特徴ベクトルに近い参照ベクトルが多く属する音源カテゴリのカテゴリ情報を出力する第3のステップを実行する(図7のS03)。
詳しくは、図10に示すように、音源カテゴリ識別手段3は、まず、参照ベクトル記憶手段4から参照ベクトルをすべて作業領域に読み出す(S201)。次に、作業領域中の参照ベクトルから任意のk(=12)個の参照ベクトルを選択し、それらの参照ベクトルを所定領域に格納する(S202)。
そして、所定領域に格納された12個の参照ベクトルの中から、特徴ベクトルとの距離が最大のものを見つける(S203)。なお、距離はハミング距離とする。最大距離の参照ベクトルを見つけたら、所定領域に格納されなかった残りの参照ベクトルと特徴ベクトルとの距離をそれぞれ調べ、それらの距離と見つけた最大距離とを比較する(S204)。そして、残りの参照ベクトルの中から、その最大距離より小さい距離の参照ベクトルを見つけたら、その最大距離の参照ベクトルの代わりに、見つかったより小さい距離の参照ベクトルを所定領域に格納し、ステップS203に戻って、所定領域に格納されている参照ベクトルの中で最大距離の参照ベクトルを見つける。
ステップS203、204は、所定領域中の最大距離の参照ベクトルより小さい距離の参照ベクトルが、残りの参照ベクトルから見つからなくなるまで繰り返される。ステップS204で、最大距離の参照ベクトルより小さい距離の参照ベクトルが、残りの参照ベクトルから見つからなかったら、所定領域には、すべての参照ベクトルのうち、特徴ベクトルとの距離が小さい方からk(=12)個の参照ベクトル(k-Nearest Neighbor)が格納されている(k最近隣法)。各参照ベクトルはその参照ベクトルが属する音源カテゴリに分類されているので、所定領域の12個の参照ベクトルが属する音源カテゴリをそれぞれ調べて、例えば、救急車のサイレン音であれば救急車のサイレン音の投票数に1を加える等、属する音源カテゴリに投票を行う(S205)。そして、所定領域の12個の参照ベクトルの中で最も多くの参照ベクトルが属する音源カテゴリを決定して、その音源カテゴリを示すカテゴリ情報を、識別結果として出力する(S206)。
この出力されたカテゴリ情報によって示される音源カテゴリは、特徴ベクトルに最も近い方から12個の参照ベクトルのうち、最も多くの参照ベクトルが属するものであるので、特徴ベクトルが属する音源カテゴリであると判断できる。
図7に示すように、カテゴリ情報の出力を終えると(すなわち、クラス分けが終了すると)、音源同定装置Sは、ステップS01に戻って、次のカウント範囲についてパルス数ベクトルの生成を行い、以下、ステップS01〜S03の処理をパルス列が終了するまで繰り返す。なお、ステップS01〜03の処理は、例えば、前のパルス数ベクトルについてステップS02、S03の処理が行われているときに、次のパルス数ベクトルの生成をステップS01で行う等、平行して行ってもよい。
図11−1〜図13−2は、各種の入力音を音源同定装置Sで識別したときの識別結果を示す図であり、出力されたカテゴリ情報が示す音源カテゴリを黒の棒線で示している。図11−1は目覚まし時計のアラーム音、図11−2はインターホンの呼び出し音、図11−3は笛吹きケトルの沸騰音、図12−1は救急車のサイレン音、図12−2はパトカーのサイレン音、図12−3は電話のベル音、図13−1は消防車のサイレン音、図13−2は人の声をそれぞれ入力したときの識別結果を表す。なお、縦軸は音源カテゴリで、上から順に、不明(Unknown)、目覚まし時計のアラーム音(Alarm)、インターホンの呼び出し音(Interphone)、笛吹きケトルの沸騰音(Kettle)、救急車のサイレン音(Ambulance)、パトカーのサイレン音(Police)、電話のベル音(Phone)、消防車のサイレン音(Fire)、人の声(Voice)であり、横軸は時間である。これらの図から、音源同定装置Sは、かなり正確に音源を識別していることが分かる。
音源同定装置Sにおいて、パルス数ベクトルをそのまま識別に用いずに特徴ベクトルに変換したのは、パルス数ベクトルをそのまま用いると、音圧(音の強さ)の影響を強く受けるため、ノイズに弱くなってしまうからである。1つのウィンドウ内の各チャンネルのパルス数は、そのウィンドウに相当する時間内の各チャンネルの平均エネルギーに比例するので、特徴ベクトルは、その時間内の音のエネルギーの強い部分を表すことになるが、強い部分を「1」でその他の部分を「0」で表しているので、音圧の影響は小さくなって、ノイズに強い。
また、図14に示すように、パルス数ベクトルをそのまま用いるとともに、参照ベクトルとしてパルス数ベクトルと同様のベクトルを用いて、両者の距離をマンハッタン距離で計測すると、幾つかの要素が入れ替わっただけの殆ど同じベクトルでも、距離が遠くなってしまうことがある。図14では、参照ベクトル(reference)と殆ど同じベクトルA(vector A)が、参照ベクトルに似ていないベクトルB(vector B)よりも、参照ベクトルから遠くなってしまっている。音源同定装置Sでは、特徴ベクトルと参照ベクトルとをいずれもバイナリーベクトルとし、両者の距離をハミング距離で計測しているので、似ているもの同士は距離が近く、似ていないもの同士は距離が遠くなり、識別の正確さが向上する。また、ハミング距離は排他的論理和を用いて容易に演算可能である。
なお、図11−1〜図13−2から分かるように、音源同定装置Sは、単純な音については正しく分類できるが、複雑な音については分類ミスを生じている。この分類ミスを除去するには、音源カテゴリ識別手段3がカテゴリ情報を出力する度に、そのカテゴリ情報が示す音源カテゴリのポテンシャル値を上げ、他の音源カテゴリのポテンシャル値を下げるポテンシャル値処理手段を、音源カテゴリ識別手段3の後段に設け、ポテンシャル値が最大になった音源カテゴリを、入力音の音源と判定することが好ましい。以下、ポテンシャル値処理手段が行う第4のステップについて説明する。第4のステップは、第3のステップの次に実行される。
〈第4のステップ〉ポテンシャル値処理手段は、各音源カテゴリiのポテンシャル値P(t)を記憶している。なお、iは、上記8種類の音源カテゴリにそれぞれ付されたインデックスでi=0〜7である。例えば、i=0は目覚まし時計のアラーム音(Alarm)に、i=1はインターホンの呼び出し音(Interphone)に付されたインデックスである。音源カテゴリ識別手段3は、カテゴリ情報として、かかるインデックスを出力するものとする。また、tは時刻であり、P(0)=0(i=0〜7)とする。
ポテンシャル値処理手段は、音源カテゴリ識別手段3から時刻tにおけるカテゴリ情報y(t)を受け取ると、次の数式(1)(2)に従って、P(t)(i=0〜7)を増減する。
i=y(t)に対しては、P(t)=min(Pmax,P(t−1)+γ)…(1)
i≠y(t)に対しては、P(t)=max(0,P(t−1)−1)…(2)
すなわち、カテゴリ情報y(t)で示された音源カテゴリに対しては、そのポテンシャル値をγ上昇させ、それ以外の音源カテゴリに対しては、そのポテンシャル値を1下降させる。なお、1回あたりの上昇幅は1回あたりの下降幅よりも大きいもの(すなわち、γ>1)とし、ここではγ=2とする。また、Pmaxはポテンシャル値の上限であり、ポテンシャル値の下限は0とする。
このように、時間情報を加えれば、音源は一般に急変することはないので、時間の経過と共にその音源が識別されるようになる。以下に実験例を示す。
〈実験例〉
上記8種類の音源をマイクの周囲に並べ、インデックスが小さい音源から順に音を発してマイクで集音し、サンプリング周波数48kHzで3つの音信号ファイルを作った。そのうち2つのファイルをトレーニング(すなわち、参照ベクトルの作成)に用い、1つのファイルをテストに用いた。各パラメータは、次のように定めた。
ウィンドウ(カウント範囲)の幅=1000(パルス1000個分)
N=9
k=12
max=192
γ=2
テスト・ファイルの音信号を音源同定装置Sに入力したときの出力結果を、図15に示す。図15の最上段(Original Labels)は入力音を示し、2段目(k-Nearest Neighbor Classification Result)は音源カテゴリ識別手段3の出力結果を×印で示す。なお、×印が多数密集している部分は棒状に見える。また、4段目(Time Potentials)のグラフは、ポテンシャル値処理手段によって処理されたポテンシャル値を示す。なお、このグラフにおいて、符号P0が付された線はP(t)、符号P1が付された線はP(t)、符号P2が付された線はP(t)、符号P3が付された線はP(t)、符号P4が付された線はP(t)、符号P5が付された線はP(t)、符号P6が付された線はP(t)、符号P7が付された線はP(t)を表している。4段目のグラフからは、時間の経過と共に正しい音源がポテンシャル値によって示されることが分かる。なお、3段目(Time Potentials Classification Result)は、4段目のポテンシャル値のうち最大となったものの音源カテゴリを示している。
このように、時間情報を加えたポテンシャル値によって音源を判定すれば、複雑な音であっても入力音の音源を正しく識別できることが分かる。
本発明の音源同定方法は、一般のコンピュータでソフトウェアにより実行させることもできる(すなわち、音源同定装置Sを一般のコンピュータで実現することもできる)が、処理の高速化のためには処理ロジックをハードウェア化することが好ましい。実施形態の音源同定方法(但し、ポテンシャル値の処理を行う第4ステップを除く。)をコーディングしてFPGAに書き込みハードウェア化した場合、回路数は約2,300ALUTsとなり、上記特許文献2記載の装置に比して回路数が大幅に少なくなった。これは、処理ロジックがシンプルでステップ数が少ないためである。このように、本発明の音源同定方法は、少ない回路数でハードウェア化可能であるので、音源同定装置Sのコンパクト化と処理の高速化が可能である。
また、本発明の音源同定方法では、パラメータ数が、従来のパルスニューロンモデルを用いた手法に比して少ない。しかも、図16に、パラメータN(Number of Features)の値を6〜12の範囲で変更するとともにパラメータk(Nearest Neighbor)の値を1〜17の範囲で変更して、識別の正確さ(正しく識別された割合)の変化を調べた結果を示すが、図16から分かるように、パラメータN、kは、ある程度大きいところからは値を変えても識別の正確さを維持できる。すなわち、これらのパラメータはいずれも臨界的(critical)でないため、調整が容易であり、新しい音を学習させる(すなわち、新しい音により参照ベクトルを生成する)ときも、パラメータの調整が容易である。
また、参照ベクトルがバイナリーベクトルであるため、参照ベクトルを記憶するメモリの容量が少なくて済む。
なお、上記実施形態では、カウント範囲を、時間軸方向に重ならないように、かつ、間隔が開かないように移動させつつ、各パルス列におけるカウント範囲内のパルス数をカウントしたが、カウント範囲同士の間隔を開けるように構成してもよい。適宜間隔を開けつつカウント範囲を移動させてパルス数をカウントしても、入力音の特徴を抽出でき、音源同定が可能であるとともに、データ量を減少させることができるからである。
本発明の一実施形態に係る音源同定装置のパルス列生成手段のブロック構成図である。 同実施形態に係る音源同定装置のブロック構成図である。 入力信号からパルス列を生成する様子を示したイメージ図である。 目覚まし時計のアラーム音から生成されたパルス列を示す図である。 インターホンの呼び出し音から生成されたパルス列を示す図である。 笛吹きケトルの沸騰音から生成されたパルス列を示す図である。 救急車のサイレン音から生成されたパルス列を示す図である。 パトカーのサイレン音から生成されたパルス列を示す図である。 電話のベル音から生成されたパルス列を示す図である。 消防車のサイレン音から生成されたパルス列を示す図である。 人の声から生成されたパルス列を示す図である。 同実施形態に係る音源同定方法を示すフローチャートである。 パルス列からパルス数ベクトル、特徴ベクトルが生成される様子を示したイメージ図である。 同実施形態に係る音源同定方法の第2ステップのフローチャートである。 同実施形態に係る音源同定方法の第3ステップのフローチャートである。 目覚まし時計のアラーム音を入力したときの識別結果を示す図である。 インターホンの呼び出し音を入力したときの識別結果を示す図である。 笛吹きケトルの沸騰音を入力したときの識別結果を示す図である。 救急車のサイレン音を入力したときの識別結果を示す図である。 パトカーのサイレン音を入力したときの識別結果を示す図である。 電話のベル音を入力したときの識別結果を示す図である。 消防車のサイレン音を入力したときの識別結果を示す図である。 人の声を入力したときの識別結果を示す図である。 パルス数ベクトルと、パルス数ベクトルと同様の参照ベクトルとの距離をマンハッタン距離で計測した例である。 テスト・ファイルの音信号を入力したときの出力結果を示す図である。 パラメータN、kの値を変えて、識別の正確さの変化を調べた結果を示す図である。
符号の説明
S…音源同定装置
1…パルス数ベクトル生成手段
2…特徴ベクトル生成手段
3…音源カテゴリ識別手段
4…参照ベクトル記憶手段
6…パルス列生成手段

Claims (4)

  1. 入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換し、前記各周波数帯域のパルス列を用いて入力音の音源を識別する音源同定方法であって、
    前記各周波数帯域のパルス列において、時間軸方向に所定幅を有するカウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成する第1ステップと、
    前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する第2ステップと、
    音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類されて記憶されている複数の参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する第3ステップとを、
    前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、
    出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定方法。
  2. 前記第1ステップと、
    前記第2ステップと、
    前記第3ステップと、
    前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記第3ステップで出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げる第4ステップとを、
    前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、
    前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項1記載の音源同定方法。
  3. 入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換するパルス列生成手段と、
    時間軸方向に所定幅を有し時間軸方向に重ならないように設定されるカウント範囲毎に、前記各周波数帯域のパルス列における前記カウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成するパルス数ベクトル生成手段と、
    前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する特徴ベクトル生成手段と、
    音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類された複数の参照ベクトルを記憶した参照ベクトル記憶手段と、
    前記参照ベクトル記憶手段に記憶されている参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する音源カテゴリ識別手段と、
    を有し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定装置。
  4. 前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記音源カテゴリ識別手段によって出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げるポテンシャル値処理手段を有し、
    前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項3記載の音源同定装置。
JP2008250360A 2008-09-29 2008-09-29 音源同定方法及び音源同定装置 Expired - Fee Related JP5078032B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008250360A JP5078032B2 (ja) 2008-09-29 2008-09-29 音源同定方法及び音源同定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008250360A JP5078032B2 (ja) 2008-09-29 2008-09-29 音源同定方法及び音源同定装置

Publications (2)

Publication Number Publication Date
JP2010079188A JP2010079188A (ja) 2010-04-08
JP5078032B2 true JP5078032B2 (ja) 2012-11-21

Family

ID=42209660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008250360A Expired - Fee Related JP5078032B2 (ja) 2008-09-29 2008-09-29 音源同定方法及び音源同定装置

Country Status (1)

Country Link
JP (1) JP5078032B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2996927C (en) * 2017-03-01 2024-05-28 Soltare Inc. Systems and methods for detection of a target sound

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2879989B2 (ja) * 1991-03-22 1999-04-05 松下電器産業株式会社 音声認識方法
JP3730144B2 (ja) * 2001-08-03 2005-12-21 日本電信電話株式会社 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体
JP4972739B2 (ja) * 2006-09-19 2012-07-11 国立大学法人 名古屋工業大学 音学習装置
JP4982743B2 (ja) * 2006-09-26 2012-07-25 国立大学法人 名古屋工業大学 音源定位・同定装置

Also Published As

Publication number Publication date
JP2010079188A (ja) 2010-04-08

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
CN104252864B (zh) 实时语音分析方法和系统
ES2371619B1 (es) Procedimiento de detección de segmentos de voz.
CN117095694B (zh) 一种基于标签层级结构属性关系的鸟类鸣声识别方法
CN103500579B (zh) 语音识别方法、装置及系统
JP6246636B2 (ja) パターン識別装置、パターン識別方法およびプログラム
US20240194213A1 (en) Audio Source Separation using Hyperbolic Embeddings
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN112712809B (zh) 一种语音检测方法、装置、电子设备及存储介质
Phan et al. Spatio-temporal attention pooling for audio scene classification
Zhang et al. Automatic detection and classification of marmoset vocalizations using deep and recurrent neural networks
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US20220093089A1 (en) Model constructing method for audio recognition
Wu et al. Collapsed speech segment detection and suppression for WaveNet vocoder
Tan et al. Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions.
KR102193656B1 (ko) 상담 내용 분석을 지원하는 녹취 서비스 제공 시스템 및 방법
CN113724694B (zh) 语音转换模型训练方法、装置、电子设备及存储介质
JP5078032B2 (ja) 音源同定方法及び音源同定装置
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
CN117497008A (zh) 基于声门振动序列动态建模的语音情感识别方法和工具
CN116186524A (zh) 一种自监督机器异常声音检测方法
CN110298150B (zh) 一种基于语音识别的身份验证方法及系统
CN114999531B (zh) 一种基于频谱分割与深度学习的语音情感识别方法
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120823

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150907

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees