JP6013951B2

JP6013951B2 - 環境音検索装置、環境音検索方法

Info

Publication number: JP6013951B2
Application number: JP2013052424A
Authority: JP
Inventors: 一博中臺; 圭佑中村; 祐介山村; 博奥乃
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2016-10-25
Anticipated expiration: 2033-03-14
Also published as: JP2014178886A; US20140278372A1

Description

本発明は、環境音検索装置、環境音検索方法に関する。

音源の中から所望の音を見つけるとき、ユーザが実際に音源の音を聞いて欲しい音を探す場合、探すのに時間がかかる。このため、多くの音データの中からユーザが欲しい音を探索する装置が提案されている。

例えば、特許文献１に記載の技術では、擬音語入力装置から入力された文字列の音響特徴量に変換し、複数の効果音データが蓄積されている効果音データベースから変換した音響特徴量を満たす波形データを探索する。ここで、擬音語とは、ある音を抽象的に表現したものである。また、文字列の音響特徴量とは、音（波形データ）の長さや周波数特性などを示す数値である。

また、非特許文献に記載の技術では、複数の音源信号について、おのおの音声認識処理を行う。そして、非特許文献に記載の技術では、ユーザが発した擬音語と、認識された音源信号おのおのとの類似度を比較することで、ユーザが所望する音源を推定することが提案されている。

特許第２８９７７０１号公報

"Sound Sources Selection System by Using Onomatopoeic Querries from Multiple Sound Sources"、Yusuke Yamamura, Toru Takahashi, Tetsuya Ogata and Hiroshi G. Okuno、2012 IEEE/RSJ International Conference on Intelligent Robots and Systems、IEEE 、2012.10

しかしながら、特許文献１および非特許文献１に記載の技術では、ユーザが探索のために擬音語を入力したとき、複数の効果音データが候補として探索される場合があるにも関わらず、その中からユーザが所望する効果音データを決定する手法については開示されていない。このため、特許文献１に記載の技術では、入力された探索したい擬音語に対応する効果データが複数合った場合、ユーザが所望する効果音データを得ることが困難な場合があるという課題があった。

本発明は、上記の問題点に鑑みてなされたものであって、候補が複数であってもユーザが所望する効果音データを効率よく提供することができる環境音検索装置、環境音検索方法を提供することを目的としている。

（１）上記目的を達成するため、本発明の一態様に係る環境音検索装置は、音声信号を入力する音声入力部と、前記音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と、第２の擬音語と、該第１の擬音語が前記音声認識部で認識されたときに該第２の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識部が認識した第１の擬音語に対応する第２の擬音語に変換する変換部と、前記変換部が変換した前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、を備えることを特徴としている。

（２）また、本発明の一態様に係る環境音検索装置において、前記第１の擬音語は、前記環境音に対応する擬声語を前記音声認識部が認識したものであり、前記第２の擬音語は、前記環境音を前記音声認識部が認識したものであるようにしてもよい。

（３）また、本発明の一態様に係る環境音検索装置において、前記対応付け情報は、前記第２の擬音語を前記環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、前記第１の擬音語が定められているようにしてもよい。

（４）上記目的を達成するため、本発明の一態様に係る環境音検索装置は、テキスト情報を入力するテキスト入力部と、前記テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と、第２の擬音語と、該第１の擬音語が前記テキスト認識部で抽出されたときに該第２の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識部が抽出した第１の擬音語に対応する第２の擬音語に変換する変換部と、前記変換部が変換した前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、を備えることを特徴としている。

（５）上記目的を達成するため、本発明の一態様に係る環境音検索方法は、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と第２の擬音語と該第１の擬音語が音声認識手順により認識されたときに該第２の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、音声入力部が、音声信号を入力する音声入力手順と、音声認識部が、前記音声入力手順により入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識手順と、変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識手順により認識した第１の擬音語に対応する第２の擬音語に変換する変換手順と、検索抽出部が、前記変換手順により変換された前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、を含むことを特徴としている。

（６）上記目的を達成するため、本発明の一態様に係る環境音検索方法は、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と第２の擬音語と該第１の擬音語がテキスト認識手順により認識されたときに該第２の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、テキスト入力部が、テキスト情報を入力するテキスト入力手順と、テキスト認識部が、前記テキスト入力手順により入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識手順と、変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識手順により認識した第１の擬音語に対応する第２の擬音語に変換する変換手順と、検索抽出部が、前記変換手順により変換された前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、を含むことを特徴としている。

本発明の態様（１）、（２）、および（５）によれば、入力された音源を認識した第１の擬音語を、対応情報を用いて変換した第２の擬音語を用いて音データ保持部から環境音の候補を抽出し、抽出された環境音の候補をランク付けして提示するので、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
本発明の態様（３）によれば、第２の擬音語を環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、第１の擬音語が定められている対応情報を用いて、第１の擬音語を第２の擬音語に変換するので、複数の環境音の候補を精度良く抽出することができる。
本発明の態様（４）および（６）によれば、入力されたテキストを認識した第１の擬音語を、対応情報を用いて変換した第２の擬音語を用いて音データ保持部から環境音の候補を抽出し、抽出された環境音の候補をランク付けするランク付けして提示するので、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。

第１実施形態に係る環境音検索装置の構成を表すブロック図である。第１実施形態に係る環境音の音響信号とタグとの関連を説明する図である。第１実施形態に係るシステム辞書に格納されている情報を説明する図である。第１実施形態に係る環境音データベースに格納されている情報を説明する図である。第１実施形態に係る対応記憶部に記憶されている情報を説明する図である。第１実施形態に係る出力部に提示されるランク付け部によりランク付け処理された環境音の例を示す図である。第１実施形態に係る環境音検索装置が行う環境音の検索手順のフローチャートである。第１実施形態の環境音検索装置による環境音の候補を提示した場合の確認結果の一例を説明する図である。第２実施形態に係る環境音検索装置の構成を表すブロック図である。第２実施形態に係る環境音検索装置が行う環境音の検索手順のフローチャートである。

まず、本発明の概要を説明する。
本発明の環境音検索装置では、検索したい音源を擬音語としてユーザにより発声された音声に対して音声認識処理をオンラインで行う。そして、環境音検索装置は、認識した結果を第１の擬音語（ユーザ擬音語）とし、この第１の擬音語を、複数の音源に対して音声認識処理を行って予め作成されているシステム辞書に登録されている第２の擬音語（システム擬音語）に、予め作成されている対応情報を用いて変換する。次に、環境音検索装置は、変換された第２の擬音語に対応する音源を、予め複数の音源が登録されているデータベースから探索する。そして、環境音検索装置は、探索した複数の音源候補に対してランク付けを行った後、ランク付けした複数の音源候補をユーザへ提示する。これにより、本発明の環境音検索装置では、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。

以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、利用者が、日本語を用いて環境音を検索する例について説明する。

［第１実施形態］
図１は、本実施形態に係る環境音検索装置１の構成を表すブロック図である。図１に示すように、環境音検索装置１は、音声入力部１０、映像入力部２０、音響信号抽出部３０、音響認識部４０、ユーザ辞書（音響モデル）５０、システム辞書６０、環境音データベース（音データ保持部）７０、対応付け部８０、対応記憶部９０、変換部１００、音源検索部（検索抽出部）１１０、ランク付け部（検索抽出部）１２０、および出力部（検索抽出部）１３０を備えている。

音声入力部１０は、到来した音声を集音し、集音した音声をアナログ音声信号に変換する。ここで、音声入力部１０が集音する音声は、物が発する音を字句で模倣した擬音語による音声である。音声入力部１０は、変換したアナログ音声信号を音響認識部４０に出力する。音声入力部１０は、例えば人間が発する音声の周波数帯域（例えば２００Ｈｚ〜４ｋＨｚ）の音波を受信するマイクロホンである。

映像入力部２０は、外部から入力された音響信号を含む映像信号を音響信号抽出部３０に出力する。なお、外部から入力される映像信号は、アナログ信号であってもディジタル信号であってもよい。映像入力部２０は、入力された映像信号がアナログ信号の場合、ディジタル信号に変換して音響信号抽出部３０に出力するようにしてもよい。なお、検索される対象は、音声信号のみでもよい。この場合、環境音検索装置１は、映像入力部２０と音響信号抽出部３０とを備えていなくてもよい。

音響信号抽出部３０は、映像入力部２０が出力した映像信号に含まれる音響信号のうち、環境音の音響信号を抽出する。ここで、環境音とは、人間が発した音声や音楽以外の音であり、例えば人間が道具を操作したときに道具が発した音、人間が物を叩いた時にものが発する音、紙が破かれたときに発する音、物と物とがぶつかることにより発生した音、風により生じる音、波の音、動物が発する鳴き声等である。音響信号抽出部３０は、抽出した環境音の音響信号を、音響認識部４０に出力する。また、音響信号抽出部３０は、抽出した環境音の音響信号を、環境音の音響信号を抽出した位置を示す位置情報と関連づけて、環境音データベース７０に記憶させる。

音響認識部４０は、音声入力部１０が出力した音声信号を、ユーザ辞書５０に記憶されている音声認識に対する音響モデルと言語モデルを用いて周知の音声認識手法により、音声認識処理を行う。音声入力部１０は、認識した音素から連続する音素列を、擬音語の音声信号に対応する音素列（ｕ）として決定する。音響認識部４０は、決定した音素列（ｕ）を変換部１００に出力する。音響認識部４０は、例えば音響特徴量と音素との関係を示す音声認識に対する音響モデルと、音素と単語等の言語との関係を示す言語モデルとを有する大語彙連続音声認識エンジンを用いて音声認識を行う。

また、音響認識部４０は、音響信号抽出部３０が出力した環境音の音響信号に対して、システム辞書６０に記憶されている環境音の音響信号に対する音響モデルを用いて、周知の認識手法により、認識処理を行い擬音語に変換する。音響認識部４０は、例えば環境音の音響信号の音響特徴量を算出する。音響特徴量は、例えば３４次のメル周波数ケプストラム（ＭＦＣＣ；Ｍｅｌ−ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔｓ）である。音響認識部４０は、算出した音響特徴量に基づきシステム辞書６０を用いて、周知の音韻認識手法によって、音声信号について音声認識処理を行う。なお、音響認識部４０による認識結果は、音素表記である。

また、音響認識部４０は、抽出した音響特徴量を用いて、システム辞書６０に登録されている音素列の中で最も尤度が高い音素列を、環境音に対応する音素列（ｓ）として決定する。音響認識部４０は、決定した音素列（ｓ）を、環境音が抽出された位置のタグとして、環境音データベース７０に記憶させる。タグ付け処理とは、環境音に対応する音響信号の区間に対して、その環境音の音響信号に対して認識処理を行った結果である音素列（ｓ）を対応づける処理である。また、音響認識部４０は、音源方向の推定処理、雑音等の抑圧処理を行い、環境音の音響信号に対して認識処理を行うようにしてもよい。

図２は、本実施形態に係る環境音の音響信号とタグとの関連を説明する図である。図２において、横軸は時間を表し、縦軸は音響信号の信号レベルを表している。図２に示した例では、時刻ｔ_１〜ｔ_２の区間の環境音が「Ｋａ：Ｎ（ｓ）」であると音響認識部４０により認識され、時刻ｔ_３〜ｔ_４の区間の環境音が「Ｋｏ：Ｎ（ｓ）」であると音響認識部４０により認識される。また、音響認識部４０は、音素列（ｓ）に、その音素列（ｓ）を表すラベル付けを行い、このラベルを環境音データと音素列（ｓ）と関連づけて環境音データベース７０に記憶させる。

図１に戻って、環境音検索装置１の説明を続ける。
ユーザ辞書５０には、音響認識部４０が人間により発した擬音語を認識するための辞書が格納されている。ユーザ辞書５０には、音響特徴量と音素との関係を示す音響モデルと、音素と単語等の言語との関係を示す言語モデルが格納されている。なお、ユーザ辞書５０は、ユーザが複数いる場合、複数のユーザに対応した情報が格納されていてもよく、あるいは、ユーザ毎にユーザ辞書５０を備えるようにしてもよい。

システム辞書６０には、環境音の音響信号を認識するための辞書が格納されている。システム辞書６０の中には、音響認識部４０が環境音の音響信号を認識するためのデータが、辞書の一部として格納されている。ここで、日本語における擬音語の多くが子音と母音の組み合わせにより成り立っているため「子音+母音または長母音を含む」の形式についての音素列が、システム辞書６０に格納されている。図３は、本実施形態に係るシステム辞書６０に格納されている情報を説明する図である。図３に示すように、システム辞書６０には、音素列２０１とその尤度２０２とが関連づけられて格納されている。システム辞書６０は、後述するように例えば隠れマルコフモデル（ＨＭＭ；ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いて学習させて作成した辞書である。なお、システム辞書６０に格納される情報の生成方法については後述する。

環境音データベース７０には、検索対象である環境音の音響信号（環境音データ）が格納されている。環境音データベース７０には、環境音データ、環境音信号が抽出された位置を示す情報、認識した環境音の音素列を示す情報、環境音に付けられたラベルが関連づけられて格納されている。図４は、本実施形態に係る環境音データベース７０に格納されている情報を説明する図である。図４に示すように、環境音データベース７０には、ラベル「ｃｙｍｂａｌｓ」、音素列（ｓ）「Ｃｈａ：Ｎ（ｓ）」、環境音データ「環境音データ_１」、および位置情報「位置_１」として関連づけられて格納されている。ここで、ラベル「ｃｙｍｂａｌｓ」は、例えば楽器のシンバルにより発生した環境音であり、ラベル「ｃａｎｄｙｗｏｌｓ」の環境音は、例えば調理用の金属ボールが金属の箸で叩かれたときに発する環境音である。なお、環境音が、映像信号から抽出された音響信号である場合、環境音データベース７０には、環境音が抽出された位置の映像信号が、環境音データに関連づけられて格納されていてもよい。

対応付け部８０は、ユーザ辞書５０により認識された音素列（ｕ）と、システム辞書６０により認識された音素列（ｓ）とを対応づけて、対応関係を対応記憶部９０に記憶させる。なお、対応付け部８０が行う処理については後述する。

対応記憶部９０には、ユーザ辞書５０により認識されたｎ（ｎは１以上の整数）個の音素列（ｕ）と、システム辞書６０により認識されたｎ個の音素列（ｓ）と、選択回数とが図５に示すようにマトリックス状に記憶されている。図５は、本実施形態に係る対応記憶部９０に記憶されている情報を説明する図である。図５において、行方向の項目２５１は、システム辞書６０により認識された音素列であり、列方向の項目２５２は、ユーザ辞書５０により認識された音素列を列方向である。

図５に示すように、対応記憶部９０には、ユーザ辞書５０により認識されたｎ（ｎは１以上の整数）個の音素列（ｕ）と、システム辞書６０により認識されたｎ個の音素列（ｓ）とがマトリックス状に記憶されている。図５に示すように、対応記憶部９０には、例えば、音素列（ｕ）「Ｋａ：Ｎ（ｕ）」に対して、音素列（ｓ）「Ｋａ：Ｎ（ｓ）」が選ばれた選択回数_１１が関連づけられて記憶されている。また、ユーザ辞書５０により認識された音素列毎に、システム辞書により選択された音素列における選択回数の総数Ｔ_ｍ（ｎは１からｎの整数）が記憶されている。例えばＴ_１は、選択回数_１１＋選択回数_２１＋・・・選択回数_２ｎである。なお、対応記憶部９０は、この総数Ｔ_ｍを記憶していなくてもよく、その場合、後述するランク付けの処理において、ランク付け部１２０が算出するようにしてもよい。

例えば、対応記憶部９０に記憶させるとき、ユーザに聞かせた環境音を、ユーザが擬音語として発した音声「カーン」に対して音声認識した結果が音素列（ｕ）「Ｋａ：Ｎ（ｕ）」である。そして、音素列（ｓ）「Ｋａ：Ｎ（ｓ）」に関連付けられている環境音データを出力したとき、ユーザが出力された音素列（ｓ）「Ｋａ：Ｎ（ｓ）」に関連付けられている環境音データを、音素列（ｕ）「Ｋａ：Ｎ（ｕ）」に対する正解とした回数が選択回数_１１である。同様に、音素列（ｓ）「Ｋｉ：Ｎ（ｓ）」に関連付けられている環境音データを出力したとき、ユーザが出力された音素列（ｓ）「Ｋｉ：Ｎ（ｓ）」に関連付けられている環境音データを、音素列（ｕ）「Ｋａ：Ｎ（ｕ）」に対する正解とした回数が選択回数_２１である。選択回数は、このように対応記憶部９０の作成時に、学習によりカウントされた回数である。

変換部１００は、対応記憶部９０に記憶されている情報を用いて、音響認識部４０が出力した音素列（ｕ）をシステム辞書６０に記憶されている音素列（ｓ）に変換し、変換した音素列（ｓ）を音源検索部１１０に出力する。なお、本実施形態では、音素列（ｕ）をユーザ擬音語ともいい、音素列（ｓ）をシステム擬音語ともいう。なお、本実施形態において、変換部１００が行う変換処理を翻訳処理ともいう。

音源検索部１１０は、変換部１００が出力した音素列（ｓ）を含む環境音データを環境音データベース７０から探索する。音源検索部１１０は、探索した環境音データの候補をランク付け部１２０に出力する。なお、音源検索部１１０は、環境音の候補が複数ある場合、複数の環境音の候補をランク付け部１２０に出力する。

ランク付け部１２０は、環境音の候補毎に認識スコアを算出する。ここで認識スコアとは、どれが最も「ユーザの求めている音源らしいか」を表す評価値である。ランク付け部１２０は、例えば、認識スコアとして、変換頻度を算出する。なお、ランク付け部１２０が行う処理については後述する。ランク付け部１２０は、ランク付け処理した環境音データを示す情報を、環境音の候補として出力部１３０に出力する。なお、ランク付け部１２０は、複数の環境音の候補の中から、上位から順に予め定められている個数の環境音の候補のみを出力部１３０に出力するようにしてもよい。

出力部１３０は、ランク付け部１２０によりランク付け処理された環境音を示す情報を出力する。出力部１３０は、例えば画像表示装置と音声再生装置である。図６は、本実施形態に係る出力部１３０に提示されるランク付け部１２０によりランク付け処理された環境音の例を示す図である。図６に示すように、環境音の候補を示す情報がランクの高い順に出力部１３０に提示される。図６に示すように、出力部１３０には、環境音の候補を示す情報毎に、順位３０１、ラベル名３０２、変換頻度３０３が関連づけられて表示される。なお、ランクの高い順とは、ランク付け部１２０が算出した変換頻度３０３の値が大きい順である。また、出力部１３０に提示される情報は、ラベル名３０２のみであってもよい。出力部１３０は、ラベル名３０２を表示する場合、上から下に順位に従って提示するようにしてもよい。

例えば、図６において、環境音の候補として、１段目に順位が１位、ラベル名「ｃｙｍｂａｌｓ」、変換頻度０．４０５が関連づけられて出力部１３０に提示される。また、図６において、ラベル名「ｔｒａｓｈｂｏｘ」は、例えば金属製のゴミ箱を金属の棒で叩いたときに発せられた環境音を表している。ラベル名「ｃｕｐ１」は、例えば金属製のコップを金属の棒で叩いたときに発せられた環境音を表し、ラベル名「ｃｕｐ２」は、例えば樹脂製のコップを金属の棒で叩いたときに発せられた環境音を表している。

なお、図１において、システム辞書６０、環境音データベース７０を予めオフラインで作成しておくため、環境音検索装置１は、映像入力部２０と音響信号抽出部３０とを備えていなくてもよい。また、対応記憶部９０を予め作成しておいてもよいので、環境音検索装置１は、対応付け部８０を備えていなくてもよい。

次に、対応付け部８０が行うシステムが擬音語を認識する場合に用いるシステム擬音語モデルの生成の例について説明する。
まず、対応付け部８０は、ユーザが発した音声に対して音声信号に対する音響モデルを用いて音声認識により与えられたラベルや、ユーザが与えたラベルを用いてＨＭＭ学習を行い、システム擬音語に対する音響モデルを作成する。次に、対応付け部８０は、作成した音響モデルによって、学習データを認識させ、認識させた結果を使って、先述したラベルを更新する。
対応付け部８０は、この音響モデルと学習と認識を、収束するまで繰り返し、学習に用いたラベルと認識結果とが所定の値以上一致した場合、収束したと判断する。所定の値は、例えば、９５％である。対応付け部８０は、学習の過程で選択されたユーザ擬音語（ｕ）に対するシステム擬音語（ｓ）の選択回数を、図５に示したように、対応記憶部９０に記憶させる。

次に、ランク付け部１２０が行う処理について説明する。
ある利用者が発話したユーザ擬音語をｐ_ｉとし、そのｐ_ｉから翻訳されるシステム擬音語をｑ_ｊとする。このとき、あるユーザ擬音語ｐ_ｉが別のシステム擬音語ｑ_ｊに変換される割合Ｒ_ｉｊは、次式（１）である。

このＲ_ｉｊを変換頻度と呼び、ランク付け部１２０は、環境音の候補の中で、この値が高いものから順番にランク付けを行う。この変換頻度Ｒ_ｉｊは、辞書内でユーザの擬音語がシステムのある擬音語に翻訳される統計的な割合を表している。
式（１）において、ｃｏｕｎｔ（ｐ_ｉ）は、対応記憶部９０に記憶されているユーザ辞書により認識された音素列ごとの総数Ｔ_ｎ（図５参照）である。式（１）において、ｃｏｕｎｔ（ｑ_ｉ）は、システム擬音語ｑ_ｉの選択回数（図５参照）である。

例えば、ユーザ擬音語がＫａ：Ｎ（ｕ）であった場合、Ｋａ：Ｎ（ｕ）の総数Ｔ_１は１００であったとする。そして、ユーザ擬音語がＫａ：Ｎ（ｕ）に対応するシステム擬音語Ｋａ：Ｎ（ｓ）の選択回数が６０、ユーザ擬音語がＫｉ：Ｎ（ｕ）に対応するシステム擬音語Ｋａ：Ｎ（ｓ）の選択回数が４０、他のユーザ擬音語がＫｉ：Ｎ（ｕ）に対応するシステム擬音語の選択回数が０であったとする。この場合、ユーザ擬音語Ｋａ：Ｎ（ｕ）がシステム擬音語Ｋａ：Ｎ（ｓ）に変換される割合Ｒ_ｉｊは、０．６（＝６０／１００）である。また、ユーザ擬音語Ｋａ：Ｎ（ｕ）がシステム擬音語Ｋｉ：Ｎ（ｓ）に変換される割合Ｒ_ｉｊは、０．４（＝４０／１００）である。
なお、ランク付け部１２０は、算出した変換頻度Ｒ_ｉｊを、例えば選択回数と関連づけて対応記憶部９０に記憶させておいてもよい。

次に、環境音検索装置１が行う環境音の検索手順を説明する。図７は、本実施形態に係る環境音検索装置１が行う環境音の検索手順のフローチャートである。なお、ユーザ辞書５０、システム辞書６０、環境音データベース７０、および対応記憶部９０は、環境音の検索を行う前に作成されている。

（ステップＳ１０１）まず、例えば、ユーザは、検索したい環境音に対してイメージした擬音語を発声する。次に、音声入力部１０は、このユーザが発声した音声を集音して、集音した音声を音響認識部４０に出力する。次に、音響認識部４０は、音声入力部１０が出力した音声信号に対してユーザ辞書５０を用いて音声認識処理を行い、認識したユーザ擬音語（ｕ）を変換部１００に出力する。
（ステップＳ１０２）変換部１００は、対応記憶部９０に記憶されている情報を用いて、音響認識部４０が認識したユーザ擬音語（ｕ）をシステム擬音語（ｓ）に変換（翻訳）する。次に、変換部１００は、変換したユーザ擬音語（ｓ）を音源検索部１１０に出力する。

（ステップＳ１０３）音源検索部１１０は、変換部１００が出力したシステム擬音語（ｓ）に対応する環境音の候補を、環境音データベース７０から検索する。
（ステップＳ１０４）ランク付け部１２０は、ステップＳ１０３で検索された複数の環境音の候補に対して、おのおの変換頻度Ｒ_ｉｊを算出することでランク付けを行う。ランク付け部１２０は、ランク付け処理した環境音データを示す情報を、環境音の候補として出力部１３０に出力する。

（ステップＳ１０５）出力部１３０は、ランク付け部１２０が出力した環境音の候補を、例えば図６に示したようにランク付けして提示する。
（ステップＳ１０６）出力部１３０は、ユーザにより選択されたラベルの位置を検出し、検出したラベルに対応する環境音データを環境音データベース７０から読み出す。次に、出力部１３０は、読み出した環境音データを再生する。

以下に、具体的な処理の一例を説明する。
ユーザは、検索したい環境音を決定する。ここでは、ユーザは、楽器のシンバルが叩かれたときの音を、検索したい環境音に決定する。次に、ユーザは、楽器のシンバルが叩かれたときの音を、ユーザが思い浮かべた擬音語「ジャーン」として発する。
次に、音響認識部４０は、音声入力部１０が出力した音声信号「ジャーン」に対して、ユーザ辞書５０を用いて音声認識処理を行う。音響認識部４０が認識したユーザ擬音語（ｕ）は「Ｊａ：Ｎ（ｕ）」であったとする（ステップＳ１０１）。

次に、変換部１００は、対応記憶部９０に記憶されている情報を用いて音響認識部４０が認識したユーザ擬音語（ｕ）「Ｊａ：Ｎ（ｕ）」を、システム擬音語（ｓ）「Ｃｈａ：Ｎ（ｓ）」に変換する（ステップＳ１０２）。
次に、音源検索部１１０は、変換されたシステム擬音語（ｓ）「Ｃｈａ：Ｎ（ｓ）」に対応する環境音の候補「ｃｙｍｂａｌｓ」、「ｃａｎｄｙｂｗｌ」、・・・を、環境音データベース７０から検索する（ステップＳ１０３）。

次に、ランク付け部１２０は、検索された複数の環境音の候補「ｃｙｍｂａｌｓ」、「ｃａｎｄｙｂｗｌ」、・・・に対して各々、変換頻度Ｒ_ｉｊを算出することでランク付けを行う（ステップＳ１０４）。
次に、出力部１３０は、複数の環境音の候補を、例えば、図６に示したように表示部にランク付けして提示する（ステップＳ１０５）。

次に、出力部１３０が例えばタッチパネルを備えている場合、ユーザは出力部１３０に表示された環境音の候補をタッチする。ランクが１位である「ｃｙｍｂａｌｓ」が表示されている位置をユーザがタッチした位置を出力部１３０が検出した場合、出力部１３０は、「ｃｙｍｂａｌｓ」に関連づけられている環境音信号を環境音データベース７０から読み出して再生する（ステップＳ１０６）。ユーザは、再生された「ｃｙｍｂａｌｓ」に関連づけられている環境音が所望の環境音でなかった場合、さらにランクが２位、３位の環境音の候補をタッチする。

以上のように、本実施形態に係る環境音検索装置１は、音声信号を入力する音声入力部１０と、音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部（音響認識部４０）と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部（環境音データベース７０）と、第１の擬音語（ユーザ擬音語）と、第２の擬音語（システム擬音語）と、第１の擬音語が音声認識部で認識されたときに第２の擬音語が与えられる頻度（変換頻度Ｒ_ｉｊ）とが対応付けられた対応付け情報を保持する対応保持部（対応記憶部９０）と、対応保持部が保持する対応付け情報を用いて、音声認識部が認識した第１の擬音語に対応する第２の擬音語に変換する変換部１００と、変換部が変換した第２の擬音語に対応する環境音を音データ保持部から抽出し、抽出された複数の環境音の候補が与えられる頻度に基づいて、抽出された複数の環境音の候補をランク付けして提示する検索抽出部（音源検索部１１０、ランク付け部１２０、出力部１３０）と、を備える。

この構成により本実施形態の環境音検索装置１は、対応記憶部９０に記憶されている情報を用いて、ユーザが発声した音声を音声認識処理したユーザ擬音語をシステム擬音語に変換する。そして、本実施形態の環境音検索装置１は、変換されたシステム擬音語に対応する環境音の候補を、環境音データベース７０から探索し、探索した複数の環境音にランク付けして出力部１３０により提示する。これにより、本実施形態の環境音検索装置１では、ユーザは所望の環境音に対する候補が複数提示された場合であっても、簡単に所望の環境音をユーザが得ることができる。

図８は、本実施形態の環境音検索装置１による環境音の候補を提示した場合の確認結果の一例を説明する図である。図８において、横軸はユーザが所望の環境音が再生されるまでに環境音の候補を選択した回数であり、縦軸は各選択回数で所望の環境音が得られた環境音の個数である。
なお、図８に示した確認では、環境音が３１４６ファイル、６５クラス（サンプリング周波数１６ｋＨｚ、量子化１６ｂｉｔ）である実環境音声・音響データベースを用いた。環境音としては、陶器を叩く音、笛の音、紙を破る音、鈴の音、楽器の音などである。これらの環境音の音響信号に対して音響認識部４０が、システム辞書６０を用いて認識処理して生成した音素列（システム擬音語）を環境音データベース７０に予め格納した。

図８に示した確認は、交差検定（Ｃｒｏｓｓ−ｖａｌｉｄａｔｉｏｎ）の手法により標本データの一部で対応記憶部９０の学習を行い、残りの標本データを用いて環境音の検索確認を行った。
確認は、以下のような手順で行った。まず、残りの標本データの環境音を、ユーザにランダムに聞かせる。その後、ユーザは、聞いた環境音の中から、検索したい環境音を１つ決定し、決定した環境音を擬音語として発声する。そして、環境音検索装置１は、ユーザにより発声された擬音語に対応する複数の環境音の候補をランク付けして出力部１３０に提示した。ユーザは、出力部１３０に提示された複数の環境音の候補を示す情報を、順位１から順に選択する。そして、ユーザは、選択した環境音の候補を示す情報に対応する環境音が再生されたとき、その環境音が所望の環境音であったか否かを判定する。例えば、順位１の環境音の候補が、ユーザにより所望の環境音であると判定された場合、１回目の選択であるので選択回数を１とした。順位２の環境音の候補が、ユーザにより所望の環境音であると判定された場合、２回目の選択であるので選択回数を２とした。確認は、残りの標本データの環境音毎に行った。そして、選択回数毎の環境音の個数を集計したのが、図８に示した確認結果である。

図８に示すように、１回の選択回数で所望の環境音が得られた環境音は約１５０個であり、２回の選択回数で所望の環境音が得られた環境音は約７５個であり、３回の選択回数で所望の環境音が得られた環境音は約６０個であった。
このため、図８に示した確認結果では、１回目の選択により所望の環境音が得られた音源選択率が約１４％であり、２回目の選択により所望の環境音が得られた音源選択率が約４５％であった。ここで、音源選択率は、次式（２）である。

式（２）において分母のアクセス回数の総数とは、ユーザが確認において、複数の標本データに対して、出力部１３０に提示された環境音の候補から所望の環境音を得られるまでにアクセスした総数である。また、分子の平均選択回数毎の個数とは、図８における横軸の平均選択回数に対応する個数である。
図８に示したように、本実施形態の環境音検索装置１によれば、ユーザは少ない選択回数で、所望の環境音を得られる。

なお、本実施形態では、検索対象の擬音語の例として、「カーン」等を説明したが、これに限られない。擬音語の他の例として「カチ」等の「子音＋母音＋・・・＋子音＋母音」の音素列、「ガチャガチャ」等の繰り返し語による音素列等であってもよい。

また、本実施形態では、ユーザが検索したい環境音を表した擬音語を発声し、この音声を音声認識処理する例を説明したが、これに限られない。音響認識部４０は、音声入力部１０から入力された音声信号を、ユーザ辞書５０および周知の技術を用いて係り受け等の解析、単語の品詞の解析等を行うことで、擬音語を抽出するようにしてもよい。例えば、ユーザが発声した音声が「ガシャーンを探してください」の場合、音響認識部４０は、この音声信号の中から「ガシャーン」を擬音語として認識するようにしてもよい。

［第２実施形態］
第１実施形態では、所望の環境音を検索するためにユーザが発声した擬音語を音声認識処理してユーザが所望の環境音を検索する例を説明したが、本実施形態では、ユーザが入力したテキストを用いて環境音を検索する例を説明する。

図９は、本実施形態に係る環境音検索装置１Ａの構成を表すブロック図である。図９に示すように、環境音検索装置１Ａは、映像入力部２０、音響信号抽出部３０、音響認識部４０、ユーザ辞書（音響モデル）５０Ａ、システム辞書６０、環境音データベース（音データ保持部）７０、対応付け部８０Ａ、対応記憶部９０、変換部１００Ａ、音源検索部（検索抽出部）１１０、ランク付け部（検索抽出部）１２０、出力部（検索抽出部）１３０、テキスト入力部１５０、およびテキスト認識部１６０を備えている。図１と同じ機能を有する機能部には、同じ符号を用いて説明を省略する。

テキスト入力部１５０は、ユーザによりキーボード等から入力されたテキスト情報を取得し、取得したテキスト情報をテキスト認識部１６０に出力する。ここで、ユーザによりキーボード等から入力されるテキスト情報とは、所望の環境音に対応する擬音語を含むテキストである。なお、テキスト入力部１５０に入力されるテキストは、擬音語のみであってもよい。この場合、テキスト入力部１５０は、取得したテキスト情報を変換部１００Ａに出力するようにしてもよい。

テキスト認識部１６０は、ユーザ辞書５０Ａを用いて、テキスト入力部１５０が出力したテキスト情報に対して係り受け解析等と行い、テキスト情報から擬音語を抽出する。テキスト認識部１６０は、抽出した擬音語を音素列（ｕ）（システム擬音語（ｕ））として、変換部１００Ａに出力する。テキスト入力部１５０に入力されるテキストが擬音語のみの場合、環境音検索装置１Ａは、テキスト認識部１６０を備えていなくてもよい。
ユーザ辞書５０Ａには、第１実施形態で説明した音響モデルに加え、複数の擬音語に対応する音素列がテキストとして格納されていてもよい。

対応付け部８０Ａは、ユーザ辞書５０Ａにより認識された音素列（ｕ）と、システム辞書６０により認識された音素列（ｓ）とを予め対応づけて、対応関係を対応記憶部９０に記憶させる。
変換部１００Ａは、テキスト認識部１６０が出力したユーザ擬音語（ｕ）をシステム擬音語（ｓ）に第１実施形態と同様の処理により変換（翻訳）する。変換部１００Ａは、変換したシステム擬音語（ｓ）を音源検索部１１０に出力する。

図１０は、本実施形態に係る環境音検索装置１Ａが行う環境音の検索手順のフローチャートである。図７と同じ処理は、同じ符号を用いている。
（ステップＳ２０１）ユーザは、検索したい環境音に対してイメージした擬音語を含むテキストを入力する。次に、テキスト入力部１５０は、ユーザによりキーボード等から入力されたテキスト情報を取得し、取得したテキスト情報をテキスト認識部１６０に出力する。次に、テキスト認識部１６０は、テキスト入力部１５０が出力したテキスト情報から、擬音語を抽出する。テキスト認識部１６０は、抽出した擬音語を音素列（ｕ）（システム擬音語（ｕ））として、変換部１００Ａに出力する。
（ステップＳ１０２〜Ｓ１０６）環境音検索装置１Ａは、以下、第１実施形態で説明したステップＳ１０２〜Ｓ１０６と同様の処理を行う。

以上のように、本実施形態に係る環境音検索装置１Ａは、テキスト情報を入力するテキスト入力部１５０と、テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部１６０と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部（環境音データベース７０）と、第１の擬音語と、第２の擬音語と、第１の擬音語がテキスト認識部で抽出されたときに第２の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部（対応記憶部９０）と、対応保持部が保持する対応付け情報を用いて、テキスト認識部が抽出した第１の擬音語に対応する第２の擬音語に変換する変換部１００Ａと、変換部が変換した第２の擬音語に対応する環境音を音データ保持部から抽出し、抽出された複数の環境音の候補が与えられる頻度に基づいて、抽出された複数の環境音の候補をランク付けして提示する検索抽出部（音源検索部１１０、ランク付け部１２０、出力部１３０）と、を備える。

この構成により、本実施形態の環境音検索装置１Ａは、環境音検索装置１Ａは、検索したい環境音をイメージした擬音語のテキストをユーザが入力することで、所望の環境音を探索して、探索した環境音の候補をランク付けして出力部１３０に提示する。

なお、図９において、環境音データベース７０、対応記憶部９０が予め作成されている場合、環境音検索装置１Ａは、映像入力部２０、音響信号抽出部３０、音響認識部４０、システム辞書６０、および対応付け部８０Ａを備えていなくてもよい。

第１実施形態で説明した環境音検索装置１、および第２実施形態で説明した環境音検索装置１Ａは、例えば、ＩＣレコーダ等の音声を録音して格納しておく装置、携帯端末、タブレット端末、ゲーム機器、パソコン、ロボット、車両等に適用してもよい。

なお、第１および第２実施形態で説明した環境音データベース７０に格納されている映像信号または音声信号は、環境音検索装置１にネットワーク経由で接続されている装置に保存されていてもよく、あるいはネットワークを経由してアクセス可能な装置に保存されていてもよい。さらに、検索対象である映像信号または音声信号は、１つであっても複数であってもよい。

なお、本発明における環境音検索装置１または１Ａの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１、１Ａ…環境音検索装置、１０…音声入力部、２０…映像入力部、３０…音響信号抽出部、４０…音響認識部、５０、５０Ａ…ユーザ辞書、６０…システム辞書、７０…環境音データベース、８０、８０Ａ…対応付け部、９０…対応記憶部、１００、１００Ａ…変換部、１１０…音源検索部、１２０…ランク付け部、１３０…出力部、１５０…テキスト入力部、１６０…テキスト認識部

Claims

音声信号を入力する音声入力部と、
前記音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部と、
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
第１の擬音語と、第２の擬音語と、該第１の擬音語が前記音声認識部で認識されたときに該第２の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識部が認識した第１の擬音語に対応する第２の擬音語に変換する変換部と、
前記変換部が変換した前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
を備えることを特徴とする環境音検索装置。
前記第１の擬音語は、
前記環境音に対応する擬声語を前記音声認識部が認識したものであり、
前記第２の擬音語は、
前記環境音を前記音声認識部が認識したものである
ことを特徴とする請求項１に記載の環境音検索装置。
前記対応付け情報は、
前記第２の擬音語を前記環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、前記第１の擬音語が定められている
ことを特徴とする請求項１または請求項２に記載の環境音検索装置。
テキスト情報を入力するテキスト入力部と、
前記テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部と、
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
第１の擬音語と、第２の擬音語と、該第１の擬音語が前記テキスト認識部で抽出されたときに該第２の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識部が抽出した第１の擬音語に対応する第２の擬音語に変換する変換部と、
前記変換部が変換した前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
を備えることを特徴とする環境音検索装置。
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と第２の擬音語と該第１の擬音語が音声認識手順により認識されたときに該第２の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
音声入力部が、音声信号を入力する音声入力手順と、
音声認識部が、前記音声入力手順により入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識手順と、
変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識手順により認識した第１の擬音語に対応する第２の擬音語に変換する変換手順と、
検索抽出部が、前記変換手順により変換された前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
を含むことを特徴とする環境音検索方法。
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第１の擬音語と第２の擬音語と該第１の擬音語がテキスト認識手順により認識されたときに該第２の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
テキスト入力部が、テキスト情報を入力するテキスト入力手順と、
テキスト認識部が、前記テキスト入力手順により入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識手順と、
変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識手順により認識した第１の擬音語に対応する第２の擬音語に変換する変換手順と、
検索抽出部が、前記変換手順により変換された前記第２の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
を含むことを特徴とする環境音検索方法。