JP5078032B2 - 音源同定方法及び音源同定装置 - Google Patents
音源同定方法及び音源同定装置 Download PDFInfo
- Publication number
- JP5078032B2 JP5078032B2 JP2008250360A JP2008250360A JP5078032B2 JP 5078032 B2 JP5078032 B2 JP 5078032B2 JP 2008250360 A JP2008250360 A JP 2008250360A JP 2008250360 A JP2008250360 A JP 2008250360A JP 5078032 B2 JP5078032 B2 JP 5078032B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- vector
- category
- pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
i≠y(t)に対しては、Pi(t)=max(0,Pi(t−1)−1)…(2)
すなわち、カテゴリ情報y(t)で示された音源カテゴリに対しては、そのポテンシャル値をγ上昇させ、それ以外の音源カテゴリに対しては、そのポテンシャル値を1下降させる。なお、1回あたりの上昇幅は1回あたりの下降幅よりも大きいもの(すなわち、γ>1)とし、ここではγ=2とする。また、Pmaxはポテンシャル値の上限であり、ポテンシャル値の下限は0とする。
上記8種類の音源をマイクの周囲に並べ、インデックスが小さい音源から順に音を発してマイクで集音し、サンプリング周波数48kHzで3つの音信号ファイルを作った。そのうち2つのファイルをトレーニング(すなわち、参照ベクトルの作成)に用い、1つのファイルをテストに用いた。各パラメータは、次のように定めた。
N=9
k=12
Pmax=192
γ=2
テスト・ファイルの音信号を音源同定装置Sに入力したときの出力結果を、図15に示す。図15の最上段(Original Labels)は入力音を示し、2段目(k-Nearest Neighbor Classification Result)は音源カテゴリ識別手段3の出力結果を×印で示す。なお、×印が多数密集している部分は棒状に見える。また、4段目(Time Potentials)のグラフは、ポテンシャル値処理手段によって処理されたポテンシャル値を示す。なお、このグラフにおいて、符号P0が付された線はP0(t)、符号P1が付された線はP1(t)、符号P2が付された線はP2(t)、符号P3が付された線はP3(t)、符号P4が付された線はP4(t)、符号P5が付された線はP5(t)、符号P6が付された線はP6(t)、符号P7が付された線はP7(t)を表している。4段目のグラフからは、時間の経過と共に正しい音源がポテンシャル値によって示されることが分かる。なお、3段目(Time Potentials Classification Result)は、4段目のポテンシャル値のうち最大となったものの音源カテゴリを示している。
1…パルス数ベクトル生成手段
2…特徴ベクトル生成手段
3…音源カテゴリ識別手段
4…参照ベクトル記憶手段
6…パルス列生成手段
Claims (4)
- 入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換し、前記各周波数帯域のパルス列を用いて入力音の音源を識別する音源同定方法であって、
前記各周波数帯域のパルス列において、時間軸方向に所定幅を有するカウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成する第1ステップと、
前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する第2ステップと、
音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類されて記憶されている複数の参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する第3ステップとを、
前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、
出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定方法。 - 前記第1ステップと、
前記第2ステップと、
前記第3ステップと、
前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記第3ステップで出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げる第4ステップとを、
前記カウント範囲を時間軸方向に重ならないように移動させつつ、繰り返し、
前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項1記載の音源同定方法。 - 入力音を、複数の周波数帯域別に、音圧に応じたパルス頻度を持ち時間軸方向にパルスが並んだパルス列に変換するパルス列生成手段と、
時間軸方向に所定幅を有し時間軸方向に重ならないように設定されるカウント範囲毎に、前記各周波数帯域のパルス列における前記カウント範囲内のパルス数を数えて、前記各パルス列における前記パルス数を要素とするパルス数ベクトルを生成するパルス数ベクトル生成手段と、
前記パルス数ベクトルの各要素のうちの大きい方からN(N:正整数)個の要素を1とし、残りの要素を0とした特徴ベクトルを生成する特徴ベクトル生成手段と、
音源が分かっている音から前記特徴ベクトルと同様に生成され、それぞれ元の音源を示す音源カテゴリに分類された複数の参照ベクトルを記憶した参照ベクトル記憶手段と、
前記参照ベクトル記憶手段に記憶されている参照ベクトルから、前記特徴ベクトルにハミング距離で近い方からk(k:正整数)個の参照ベクトルを検索し、前記k個の参照ベクトルのうちの最も多くの参照ベクトルが属する音源カテゴリを決定し、該音源カテゴリを示すカテゴリ情報を出力する音源カテゴリ識別手段と、
を有し、出力された前記カテゴリ情報に基づいて前記入力音の音源を識別することを特徴とする音源同定装置。 - 前記複数の参照ベクトルが分類される複数の音源カテゴリのうち、前記音源カテゴリ識別手段によって出力された前記カテゴリ情報が示す音源カテゴリについてはポテンシャル値を上げて、他の音源カテゴリについてはポテンシャル値を下げるポテンシャル値処理手段を有し、
前記複数の音源カテゴリのうち、前記ポテンシャル値が最大になった音源カテゴリを、前記入力音の音源と判定することを特徴とする請求項3記載の音源同定装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008250360A JP5078032B2 (ja) | 2008-09-29 | 2008-09-29 | 音源同定方法及び音源同定装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2008250360A JP5078032B2 (ja) | 2008-09-29 | 2008-09-29 | 音源同定方法及び音源同定装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010079188A JP2010079188A (ja) | 2010-04-08 |
| JP5078032B2 true JP5078032B2 (ja) | 2012-11-21 |
Family
ID=42209660
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2008250360A Expired - Fee Related JP5078032B2 (ja) | 2008-09-29 | 2008-09-29 | 音源同定方法及び音源同定装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5078032B2 (ja) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CA2996927C (en) * | 2017-03-01 | 2024-05-28 | Soltare Inc. | Systems and methods for detection of a target sound |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2879989B2 (ja) * | 1991-03-22 | 1999-04-05 | 松下電器産業株式会社 | 音声認識方法 |
| JP3730144B2 (ja) * | 2001-08-03 | 2005-12-21 | 日本電信電話株式会社 | 類似音楽検索装置ならびにその方法、および類似音楽検索プログラムならびにその記録媒体 |
| JP4972739B2 (ja) * | 2006-09-19 | 2012-07-11 | 国立大学法人 名古屋工業大学 | 音学習装置 |
| JP4982743B2 (ja) * | 2006-09-26 | 2012-07-25 | 国立大学法人 名古屋工業大学 | 音源定位・同定装置 |
-
2008
- 2008-09-29 JP JP2008250360A patent/JP5078032B2/ja not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010079188A (ja) | 2010-04-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN111292764B (zh) | 辨识系统及辨识方法 | |
| CN104252864B (zh) | 实时语音分析方法和系统 | |
| ES2371619B1 (es) | Procedimiento de detección de segmentos de voz. | |
| CN117095694B (zh) | 一种基于标签层级结构属性关系的鸟类鸣声识别方法 | |
| CN103500579B (zh) | 语音识别方法、装置及系统 | |
| JP6246636B2 (ja) | パターン識別装置、パターン識別方法およびプログラム | |
| US20240194213A1 (en) | Audio Source Separation using Hyperbolic Embeddings | |
| CN110600059B (zh) | 声学事件检测方法、装置、电子设备及存储介质 | |
| CN114596879B (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
| CN112712809B (zh) | 一种语音检测方法、装置、电子设备及存储介质 | |
| Phan et al. | Spatio-temporal attention pooling for audio scene classification | |
| Zhang et al. | Automatic detection and classification of marmoset vocalizations using deep and recurrent neural networks | |
| JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
| US20220093089A1 (en) | Model constructing method for audio recognition | |
| Wu et al. | Collapsed speech segment detection and suppression for WaveNet vocoder | |
| Tan et al. | Evaluation of a Sparse Representation-Based Classifier For Bird Phrase Classification Under Limited Data Conditions. | |
| KR102193656B1 (ko) | 상담 내용 분석을 지원하는 녹취 서비스 제공 시스템 및 방법 | |
| CN113724694B (zh) | 语音转换模型训练方法、装置、电子设备及存储介质 | |
| JP5078032B2 (ja) | 音源同定方法及び音源同定装置 | |
| JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
| CN117497008A (zh) | 基于声门振动序列动态建模的语音情感识别方法和工具 | |
| CN116186524A (zh) | 一种自监督机器异常声音检测方法 | |
| CN110298150B (zh) | 一种基于语音识别的身份验证方法及系统 | |
| CN114999531B (zh) | 一种基于频谱分割与深度学习的语音情感识别方法 | |
| CN113257284B (zh) | 语音活动检测模型训练、语音活动检测方法及相关装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110816 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110824 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120712 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120724 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120823 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150907 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |