[go: up one dir, main page]

JP6013951B2 - 環境音検索装置、環境音検索方法 - Google Patents

環境音検索装置、環境音検索方法 Download PDF

Info

Publication number
JP6013951B2
JP6013951B2 JP2013052424A JP2013052424A JP6013951B2 JP 6013951 B2 JP6013951 B2 JP 6013951B2 JP 2013052424 A JP2013052424 A JP 2013052424A JP 2013052424 A JP2013052424 A JP 2013052424A JP 6013951 B2 JP6013951 B2 JP 6013951B2
Authority
JP
Japan
Prior art keywords
onomatopoeia
environmental sound
unit
sound
procedure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013052424A
Other languages
English (en)
Other versions
JP2014178886A (ja
Inventor
一博 中臺
一博 中臺
圭佑 中村
圭佑 中村
祐介 山村
祐介 山村
博 奥乃
博 奥乃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2013052424A priority Critical patent/JP6013951B2/ja
Priority to US14/196,079 priority patent/US20140278372A1/en
Publication of JP2014178886A publication Critical patent/JP2014178886A/ja
Application granted granted Critical
Publication of JP6013951B2 publication Critical patent/JP6013951B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、環境音検索装置、環境音検索方法に関する。
音源の中から所望の音を見つけるとき、ユーザが実際に音源の音を聞いて欲しい音を探す場合、探すのに時間がかかる。このため、多くの音データの中からユーザが欲しい音を探索する装置が提案されている。
例えば、特許文献1に記載の技術では、擬音語入力装置から入力された文字列の音響特徴量に変換し、複数の効果音データが蓄積されている効果音データベースから変換した音響特徴量を満たす波形データを探索する。ここで、擬音語とは、ある音を抽象的に表現したものである。また、文字列の音響特徴量とは、音(波形データ)の長さや周波数特性などを示す数値である。
また、非特許文献に記載の技術では、複数の音源信号について、おのおの音声認識処理を行う。そして、非特許文献に記載の技術では、ユーザが発した擬音語と、認識された音源信号おのおのとの類似度を比較することで、ユーザが所望する音源を推定することが提案されている。
特許第2897701号公報
"Sound Sources Selection System by Using Onomatopoeic Querries from Multiple Sound Sources"、Yusuke Yamamura, Toru Takahashi, Tetsuya Ogata and Hiroshi G. Okuno、2012 IEEE/RSJ International Conference on Intelligent Robots and Systems、IEEE 、2012.10
しかしながら、特許文献1および非特許文献1に記載の技術では、ユーザが探索のために擬音語を入力したとき、複数の効果音データが候補として探索される場合があるにも関わらず、その中からユーザが所望する効果音データを決定する手法については開示されていない。このため、特許文献1に記載の技術では、入力された探索したい擬音語に対応する効果データが複数合った場合、ユーザが所望する効果音データを得ることが困難な場合があるという課題があった。
本発明は、上記の問題点に鑑みてなされたものであって、候補が複数であってもユーザが所望する効果音データを効率よく提供することができる環境音検索装置、環境音検索方法を提供することを目的としている。
(1)上記目的を達成するため、本発明の一態様に係る環境音検索装置は、音声信号を入力する音声入力部と、前記音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と、第2の擬音語と、該第1の擬音語が前記音声認識部で認識されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識部が認識した第1の擬音語に対応する第2の擬音語に変換する変換部と、前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、を備えることを特徴としている。
(2)また、本発明の一態様に係る環境音検索装置において、前記第1の擬音語は、前記環境音に対応する擬声語を前記音声認識部が認識したものであり、前記第2の擬音語は、前記環境音を前記音声認識部が認識したものであるようにしてもよい。
(3)また、本発明の一態様に係る環境音検索装置において、前記対応付け情報は、前記第2の擬音語を前記環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、前記第1の擬音語が定められているようにしてもよい。
(4)上記目的を達成するため、本発明の一態様に係る環境音検索装置は、テキスト情報を入力するテキスト入力部と、前記テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と、第2の擬音語と、該第1の擬音語が前記テキスト認識部で抽出されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識部が抽出した第1の擬音語に対応する第2の擬音語に変換する変換部と、前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、を備えることを特徴としている。
(5)上記目的を達成するため、本発明の一態様に係る環境音検索方法は、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語が音声認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、音声入力部が、音声信号を入力する音声入力手順と、音声認識部が、前記音声入力手順により入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識手順と、変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、を含むことを特徴としている。
(6)上記目的を達成するため、本発明の一態様に係る環境音検索方法は、環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語がテキスト認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、テキスト入力部が、テキスト情報を入力するテキスト入力手順と、テキスト認識部が、前記テキスト入力手順により入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識手順と、変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、を含むことを特徴としている。
本発明の態様(1)、(2)、および(5)によれば、入力された音源を認識した第1の擬音語を、対応情報を用いて変換した第2の擬音語を用いて音データ保持部から環境音の候補を抽出し、抽出された環境音の候補をランク付けして提示するので、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
本発明の態様(3)によれば、第2の擬音語を環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、第1の擬音語が定められている対応情報を用いて、第1の擬音語を第2の擬音語に変換するので、複数の環境音の候補を精度良く抽出することができる。
本発明の態様(4)および(6)によれば、入力されたテキストを認識した第1の擬音語を、対応情報を用いて変換した第2の擬音語を用いて音データ保持部から環境音の候補を抽出し、抽出された環境音の候補をランク付けするランク付けして提示するので、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
第1実施形態に係る環境音検索装置の構成を表すブロック図である。 第1実施形態に係る環境音の音響信号とタグとの関連を説明する図である。 第1実施形態に係るシステム辞書に格納されている情報を説明する図である。 第1実施形態に係る環境音データベースに格納されている情報を説明する図である。 第1実施形態に係る対応記憶部に記憶されている情報を説明する図である。 第1実施形態に係る出力部に提示されるランク付け部によりランク付け処理された環境音の例を示す図である。 第1実施形態に係る環境音検索装置が行う環境音の検索手順のフローチャートである。 第1実施形態の環境音検索装置による環境音の候補を提示した場合の確認結果の一例を説明する図である。 第2実施形態に係る環境音検索装置の構成を表すブロック図である。 第2実施形態に係る環境音検索装置が行う環境音の検索手順のフローチャートである。
まず、本発明の概要を説明する。
本発明の環境音検索装置では、検索したい音源を擬音語としてユーザにより発声された音声に対して音声認識処理をオンラインで行う。そして、環境音検索装置は、認識した結果を第1の擬音語(ユーザ擬音語)とし、この第1の擬音語を、複数の音源に対して音声認識処理を行って予め作成されているシステム辞書に登録されている第2の擬音語(システム擬音語)に、予め作成されている対応情報を用いて変換する。次に、環境音検索装置は、変換された第2の擬音語に対応する音源を、予め複数の音源が登録されているデータベースから探索する。そして、環境音検索装置は、探索した複数の音源候補に対してランク付けを行った後、ランク付けした複数の音源候補をユーザへ提示する。これにより、本発明の環境音検索装置では、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
以下、図面を参照しながら本発明の実施形態について説明する。また、以下の説明では、利用者が、日本語を用いて環境音を検索する例について説明する。
[第1実施形態]
図1は、本実施形態に係る環境音検索装置1の構成を表すブロック図である。図1に示すように、環境音検索装置1は、音声入力部10、映像入力部20、音響信号抽出部30、音響認識部40、ユーザ辞書(音響モデル)50、システム辞書60、環境音データベース(音データ保持部)70、対応付け部80、対応記憶部90、変換部100、音源検索部(検索抽出部)110、ランク付け部(検索抽出部)120、および出力部(検索抽出部)130を備えている。
音声入力部10は、到来した音声を集音し、集音した音声をアナログ音声信号に変換する。ここで、音声入力部10が集音する音声は、物が発する音を字句で模倣した擬音語による音声である。音声入力部10は、変換したアナログ音声信号を音響認識部40に出力する。音声入力部10は、例えば人間が発する音声の周波数帯域(例えば200Hz〜4kHz)の音波を受信するマイクロホンである。
映像入力部20は、外部から入力された音響信号を含む映像信号を音響信号抽出部30に出力する。なお、外部から入力される映像信号は、アナログ信号であってもディジタル信号であってもよい。映像入力部20は、入力された映像信号がアナログ信号の場合、ディジタル信号に変換して音響信号抽出部30に出力するようにしてもよい。なお、検索される対象は、音声信号のみでもよい。この場合、環境音検索装置1は、映像入力部20と音響信号抽出部30とを備えていなくてもよい。
音響信号抽出部30は、映像入力部20が出力した映像信号に含まれる音響信号のうち、環境音の音響信号を抽出する。ここで、環境音とは、人間が発した音声や音楽以外の音であり、例えば人間が道具を操作したときに道具が発した音、人間が物を叩いた時にものが発する音、紙が破かれたときに発する音、物と物とがぶつかることにより発生した音、風により生じる音、波の音、動物が発する鳴き声等である。音響信号抽出部30は、抽出した環境音の音響信号を、音響認識部40に出力する。また、音響信号抽出部30は、抽出した環境音の音響信号を、環境音の音響信号を抽出した位置を示す位置情報と関連づけて、環境音データベース70に記憶させる。
音響認識部40は、音声入力部10が出力した音声信号を、ユーザ辞書50に記憶されている音声認識に対する音響モデルと言語モデルを用いて周知の音声認識手法により、音声認識処理を行う。音声入力部10は、認識した音素から連続する音素列を、擬音語の音声信号に対応する音素列(u)として決定する。音響認識部40は、決定した音素列(u)を変換部100に出力する。音響認識部40は、例えば音響特徴量と音素との関係を示す音声認識に対する音響モデルと、音素と単語等の言語との関係を示す言語モデルとを有する大語彙連続音声認識エンジンを用いて音声認識を行う。
また、音響認識部40は、音響信号抽出部30が出力した環境音の音響信号に対して、システム辞書60に記憶されている環境音の音響信号に対する音響モデルを用いて、周知の認識手法により、認識処理を行い擬音語に変換する。音響認識部40は、例えば環境音の音響信号の音響特徴量を算出する。音響特徴量は、例えば34次のメル周波数ケプストラム(MFCC;Mel−Frequency Cepstrum Coefficients)である。音響認識部40は、算出した音響特徴量に基づきシステム辞書60を用いて、周知の音韻認識手法によって、音声信号について音声認識処理を行う。なお、音響認識部40による認識結果は、音素表記である。
また、音響認識部40は、抽出した音響特徴量を用いて、システム辞書60に登録されている音素列の中で最も尤度が高い音素列を、環境音に対応する音素列(s)として決定する。音響認識部40は、決定した音素列(s)を、環境音が抽出された位置のタグとして、環境音データベース70に記憶させる。タグ付け処理とは、環境音に対応する音響信号の区間に対して、その環境音の音響信号に対して認識処理を行った結果である音素列(s)を対応づける処理である。また、音響認識部40は、音源方向の推定処理、雑音等の抑圧処理を行い、環境音の音響信号に対して認識処理を行うようにしてもよい。
図2は、本実施形態に係る環境音の音響信号とタグとの関連を説明する図である。図2において、横軸は時間を表し、縦軸は音響信号の信号レベルを表している。図2に示した例では、時刻t〜tの区間の環境音が「Ka:N(s)」であると音響認識部40により認識され、時刻t〜tの区間の環境音が「Ko:N(s)」であると音響認識部40により認識される。また、音響認識部40は、音素列(s)に、その音素列(s)を表すラベル付けを行い、このラベルを環境音データと音素列(s)と関連づけて環境音データベース70に記憶させる。
図1に戻って、環境音検索装置1の説明を続ける。
ユーザ辞書50には、音響認識部40が人間により発した擬音語を認識するための辞書が格納されている。ユーザ辞書50には、音響特徴量と音素との関係を示す音響モデルと、音素と単語等の言語との関係を示す言語モデルが格納されている。なお、ユーザ辞書50は、ユーザが複数いる場合、複数のユーザに対応した情報が格納されていてもよく、あるいは、ユーザ毎にユーザ辞書50を備えるようにしてもよい。
システム辞書60には、環境音の音響信号を認識するための辞書が格納されている。システム辞書60の中には、音響認識部40が環境音の音響信号を認識するためのデータが、辞書の一部として格納されている。ここで、日本語における擬音語の多くが子音と母音の組み合わせにより成り立っているため「子音+母音または長母音を含む」の形式についての音素列が、システム辞書60に格納されている。図3は、本実施形態に係るシステム辞書60に格納されている情報を説明する図である。図3に示すように、システム辞書60には、音素列201とその尤度202とが関連づけられて格納されている。システム辞書60は、後述するように例えば隠れマルコフモデル(HMM;Hidden Markov Model)を用いて学習させて作成した辞書である。なお、システム辞書60に格納される情報の生成方法については後述する。
環境音データベース70には、検索対象である環境音の音響信号(環境音データ)が格納されている。環境音データベース70には、環境音データ、環境音信号が抽出された位置を示す情報、認識した環境音の音素列を示す情報、環境音に付けられたラベルが関連づけられて格納されている。図4は、本実施形態に係る環境音データベース70に格納されている情報を説明する図である。図4に示すように、環境音データベース70には、ラベル「cymbals」、音素列(s)「Cha:N(s)」、環境音データ「環境音データ」、および位置情報「位置」として関連づけられて格納されている。ここで、ラベル「cymbals」は、例えば楽器のシンバルにより発生した環境音であり、ラベル「candywols」の環境音は、例えば調理用の金属ボールが金属の箸で叩かれたときに発する環境音である。なお、環境音が、映像信号から抽出された音響信号である場合、環境音データベース70には、環境音が抽出された位置の映像信号が、環境音データに関連づけられて格納されていてもよい。
対応付け部80は、ユーザ辞書50により認識された音素列(u)と、システム辞書60により認識された音素列(s)とを対応づけて、対応関係を対応記憶部90に記憶させる。なお、対応付け部80が行う処理については後述する。
対応記憶部90には、ユーザ辞書50により認識されたn(nは1以上の整数)個の音素列(u)と、システム辞書60により認識されたn個の音素列(s)と、選択回数とが図5に示すようにマトリックス状に記憶されている。図5は、本実施形態に係る対応記憶部90に記憶されている情報を説明する図である。図5において、行方向の項目251は、システム辞書60により認識された音素列であり、列方向の項目252は、ユーザ辞書50により認識された音素列を列方向である。
図5に示すように、対応記憶部90には、ユーザ辞書50により認識されたn(nは1以上の整数)個の音素列(u)と、システム辞書60により認識されたn個の音素列(s)とがマトリックス状に記憶されている。図5に示すように、対応記憶部90には、例えば、音素列(u)「Ka:N(u)」に対して、音素列(s)「Ka:N(s)」が選ばれた選択回数11が関連づけられて記憶されている。また、ユーザ辞書50により認識された音素列毎に、システム辞書により選択された音素列における選択回数の総数T(nは1からnの整数)が記憶されている。例えばTは、選択回数11+選択回数21+・・・選択回数2nである。なお、対応記憶部90は、この総数Tを記憶していなくてもよく、その場合、後述するランク付けの処理において、ランク付け部120が算出するようにしてもよい。
例えば、対応記憶部90に記憶させるとき、ユーザに聞かせた環境音を、ユーザが擬音語として発した音声「カーン」に対して音声認識した結果が音素列(u)「Ka:N(u)」である。そして、音素列(s)「Ka:N(s)」に関連付けられている環境音データを出力したとき、ユーザが出力された音素列(s)「Ka:N(s)」に関連付けられている環境音データを、音素列(u)「Ka:N(u)」に対する正解とした回数が選択回数11である。同様に、音素列(s)「Ki:N(s)」に関連付けられている環境音データを出力したとき、ユーザが出力された音素列(s)「Ki:N(s)」に関連付けられている環境音データを、音素列(u)「Ka:N(u)」に対する正解とした回数が選択回数21である。選択回数は、このように対応記憶部90の作成時に、学習によりカウントされた回数である。
変換部100は、対応記憶部90に記憶されている情報を用いて、音響認識部40が出力した音素列(u)をシステム辞書60に記憶されている音素列(s)に変換し、変換した音素列(s)を音源検索部110に出力する。なお、本実施形態では、音素列(u)をユーザ擬音語ともいい、音素列(s)をシステム擬音語ともいう。なお、本実施形態において、変換部100が行う変換処理を翻訳処理ともいう。
音源検索部110は、変換部100が出力した音素列(s)を含む環境音データを環境音データベース70から探索する。音源検索部110は、探索した環境音データの候補をランク付け部120に出力する。なお、音源検索部110は、環境音の候補が複数ある場合、複数の環境音の候補をランク付け部120に出力する。
ランク付け部120は、環境音の候補毎に認識スコアを算出する。ここで認識スコアとは、どれが最も「ユーザの求めている音源らしいか」を表す評価値である。ランク付け部120は、例えば、認識スコアとして、変換頻度を算出する。なお、ランク付け部120が行う処理については後述する。ランク付け部120は、ランク付け処理した環境音データを示す情報を、環境音の候補として出力部130に出力する。なお、ランク付け部120は、複数の環境音の候補の中から、上位から順に予め定められている個数の環境音の候補のみを出力部130に出力するようにしてもよい。
出力部130は、ランク付け部120によりランク付け処理された環境音を示す情報を出力する。出力部130は、例えば画像表示装置と音声再生装置である。図6は、本実施形態に係る出力部130に提示されるランク付け部120によりランク付け処理された環境音の例を示す図である。図6に示すように、環境音の候補を示す情報がランクの高い順に出力部130に提示される。図6に示すように、出力部130には、環境音の候補を示す情報毎に、順位301、ラベル名302、変換頻度303が関連づけられて表示される。なお、ランクの高い順とは、ランク付け部120が算出した変換頻度303の値が大きい順である。また、出力部130に提示される情報は、ラベル名302のみであってもよい。出力部130は、ラベル名302を表示する場合、上から下に順位に従って提示するようにしてもよい。
例えば、図6において、環境音の候補として、1段目に順位が1位、ラベル名「cymbals」、変換頻度0.405が関連づけられて出力部130に提示される。また、図6において、ラベル名「trashbox」は、例えば金属製のゴミ箱を金属の棒で叩いたときに発せられた環境音を表している。ラベル名「cup1」は、例えば金属製のコップを金属の棒で叩いたときに発せられた環境音を表し、ラベル名「cup2」は、例えば樹脂製のコップを金属の棒で叩いたときに発せられた環境音を表している。
なお、図1において、システム辞書60、環境音データベース70を予めオフラインで作成しておくため、環境音検索装置1は、映像入力部20と音響信号抽出部30とを備えていなくてもよい。また、対応記憶部90を予め作成しておいてもよいので、環境音検索装置1は、対応付け部80を備えていなくてもよい。
次に、対応付け部80が行うシステムが擬音語を認識する場合に用いるシステム擬音語モデルの生成の例について説明する。
まず、対応付け部80は、ユーザが発した音声に対して音声信号に対する音響モデルを用いて音声認識により与えられたラベルや、ユーザが与えたラベルを用いてHMM学習を行い、システム擬音語に対する音響モデルを作成する。次に、対応付け部80は、作成した音響モデルによって、学習データを認識させ、認識させた結果を使って、先述したラベルを更新する。
対応付け部80は、この音響モデルと学習と認識を、収束するまで繰り返し、学習に用いたラベルと認識結果とが所定の値以上一致した場合、収束したと判断する。所定の値は、例えば、95%である。対応付け部80は、学習の過程で選択されたユーザ擬音語(u)に対するシステム擬音語(s)の選択回数を、図5に示したように、対応記憶部90に記憶させる。
次に、ランク付け部120が行う処理について説明する。
ある利用者が発話したユーザ擬音語をpとし、そのpから翻訳されるシステム擬音語をqとする。このとき、あるユーザ擬音語pが別のシステム擬音語qに変換される割合Rijは、次式(1)である。
Figure 0006013951
このRijを変換頻度と呼び、ランク付け部120は、環境音の候補の中で、この値が高いものから順番にランク付けを行う。この変換頻度Rijは、辞書内でユーザの擬音語がシステムのある擬音語に翻訳される統計的な割合を表している。
式(1)において、count(p)は、対応記憶部90に記憶されているユーザ辞書により認識された音素列ごとの総数T(図5参照)である。式(1)において、count(q)は、システム擬音語qの選択回数(図5参照)である。
例えば、ユーザ擬音語がKa:N(u)であった場合、Ka:N(u)の総数Tは100であったとする。そして、ユーザ擬音語がKa:N(u)に対応するシステム擬音語Ka:N(s)の選択回数が60、ユーザ擬音語がKi:N(u)に対応するシステム擬音語Ka:N(s)の選択回数が40、他のユーザ擬音語がKi:N(u)に対応するシステム擬音語の選択回数が0であったとする。この場合、ユーザ擬音語Ka:N(u)がシステム擬音語Ka:N(s)に変換される割合Rijは、0.6(=60/100)である。また、ユーザ擬音語Ka:N(u)がシステム擬音語Ki:N(s)に変換される割合Rijは、0.4(=40/100)である。
なお、ランク付け部120は、算出した変換頻度Rijを、例えば選択回数と関連づけて対応記憶部90に記憶させておいてもよい。
次に、環境音検索装置1が行う環境音の検索手順を説明する。図7は、本実施形態に係る環境音検索装置1が行う環境音の検索手順のフローチャートである。なお、ユーザ辞書50、システム辞書60、環境音データベース70、および対応記憶部90は、環境音の検索を行う前に作成されている。
(ステップS101)まず、例えば、ユーザは、検索したい環境音に対してイメージした擬音語を発声する。次に、音声入力部10は、このユーザが発声した音声を集音して、集音した音声を音響認識部40に出力する。次に、音響認識部40は、音声入力部10が出力した音声信号に対してユーザ辞書50を用いて音声認識処理を行い、認識したユーザ擬音語(u)を変換部100に出力する。
(ステップS102)変換部100は、対応記憶部90に記憶されている情報を用いて、音響認識部40が認識したユーザ擬音語(u)をシステム擬音語(s)に変換(翻訳)する。次に、変換部100は、変換したユーザ擬音語(s)を音源検索部110に出力する。
(ステップS103)音源検索部110は、変換部100が出力したシステム擬音語(s)に対応する環境音の候補を、環境音データベース70から検索する。
(ステップS104)ランク付け部120は、ステップS103で検索された複数の環境音の候補に対して、おのおの変換頻度Rijを算出することでランク付けを行う。ランク付け部120は、ランク付け処理した環境音データを示す情報を、環境音の候補として出力部130に出力する。
(ステップS105)出力部130は、ランク付け部120が出力した環境音の候補を、例えば図6に示したようにランク付けして提示する。
(ステップS106)出力部130は、ユーザにより選択されたラベルの位置を検出し、検出したラベルに対応する環境音データを環境音データベース70から読み出す。次に、出力部130は、読み出した環境音データを再生する。
以下に、具体的な処理の一例を説明する。
ユーザは、検索したい環境音を決定する。ここでは、ユーザは、楽器のシンバルが叩かれたときの音を、検索したい環境音に決定する。次に、ユーザは、楽器のシンバルが叩かれたときの音を、ユーザが思い浮かべた擬音語「ジャーン」として発する。
次に、音響認識部40は、音声入力部10が出力した音声信号「ジャーン」に対して、ユーザ辞書50を用いて音声認識処理を行う。音響認識部40が認識したユーザ擬音語(u)は「Ja:N(u)」であったとする(ステップS101)。
次に、変換部100は、対応記憶部90に記憶されている情報を用いて音響認識部40が認識したユーザ擬音語(u)「Ja:N(u)」を、システム擬音語(s)「Cha:N(s)」に変換する(ステップS102)。
次に、音源検索部110は、変換されたシステム擬音語(s)「Cha:N(s)」に対応する環境音の候補「cymbals」、「candybwl」、・・・を、環境音データベース70から検索する(ステップS103)。
次に、ランク付け部120は、検索された複数の環境音の候補「cymbals」、「candybwl」、・・・に対して各々、変換頻度Rijを算出することでランク付けを行う(ステップS104)。
次に、出力部130は、複数の環境音の候補を、例えば、図6に示したように表示部にランク付けして提示する(ステップS105)。
次に、出力部130が例えばタッチパネルを備えている場合、ユーザは出力部130に表示された環境音の候補をタッチする。ランクが1位である「cymbals」が表示されている位置をユーザがタッチした位置を出力部130が検出した場合、出力部130は、「cymbals」に関連づけられている環境音信号を環境音データベース70から読み出して再生する(ステップS106)。ユーザは、再生された「cymbals」に関連づけられている環境音が所望の環境音でなかった場合、さらにランクが2位、3位の環境音の候補をタッチする。
以上のように、本実施形態に係る環境音検索装置1は、音声信号を入力する音声入力部10と、音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部(音響認識部40)と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部(環境音データベース70)と、第1の擬音語(ユーザ擬音語)と、第2の擬音語(システム擬音語)と、第1の擬音語が音声認識部で認識されたときに第2の擬音語が与えられる頻度(変換頻度Rij)とが対応付けられた対応付け情報を保持する対応保持部(対応記憶部90)と、対応保持部が保持する対応付け情報を用いて、音声認識部が認識した第1の擬音語に対応する第2の擬音語に変換する変換部100と、変換部が変換した第2の擬音語に対応する環境音を音データ保持部から抽出し、抽出された複数の環境音の候補が与えられる頻度に基づいて、抽出された複数の環境音の候補をランク付けして提示する検索抽出部(音源検索部110、ランク付け部120、出力部130)と、を備える。
この構成により本実施形態の環境音検索装置1は、対応記憶部90に記憶されている情報を用いて、ユーザが発声した音声を音声認識処理したユーザ擬音語をシステム擬音語に変換する。そして、本実施形態の環境音検索装置1は、変換されたシステム擬音語に対応する環境音の候補を、環境音データベース70から探索し、探索した複数の環境音にランク付けして出力部130により提示する。これにより、本実施形態の環境音検索装置1では、ユーザは所望の環境音に対する候補が複数提示された場合であっても、簡単に所望の環境音をユーザが得ることができる。
図8は、本実施形態の環境音検索装置1による環境音の候補を提示した場合の確認結果の一例を説明する図である。図8において、横軸はユーザが所望の環境音が再生されるまでに環境音の候補を選択した回数であり、縦軸は各選択回数で所望の環境音が得られた環境音の個数である。
なお、図8に示した確認では、環境音が3146ファイル、65クラス(サンプリング周波数16kHz、量子化16bit)である実環境音声・音響データベースを用いた。環境音としては、陶器を叩く音、笛の音、紙を破る音、鈴の音、楽器の音などである。これらの環境音の音響信号に対して音響認識部40が、システム辞書60を用いて認識処理して生成した音素列(システム擬音語)を環境音データベース70に予め格納した。
図8に示した確認は、交差検定(Cross−validation)の手法により標本データの一部で対応記憶部90の学習を行い、残りの標本データを用いて環境音の検索確認を行った。
確認は、以下のような手順で行った。まず、残りの標本データの環境音を、ユーザにランダムに聞かせる。その後、ユーザは、聞いた環境音の中から、検索したい環境音を1つ決定し、決定した環境音を擬音語として発声する。そして、環境音検索装置1は、ユーザにより発声された擬音語に対応する複数の環境音の候補をランク付けして出力部130に提示した。ユーザは、出力部130に提示された複数の環境音の候補を示す情報を、順位1から順に選択する。そして、ユーザは、選択した環境音の候補を示す情報に対応する環境音が再生されたとき、その環境音が所望の環境音であったか否かを判定する。例えば、順位1の環境音の候補が、ユーザにより所望の環境音であると判定された場合、1回目の選択であるので選択回数を1とした。順位2の環境音の候補が、ユーザにより所望の環境音であると判定された場合、2回目の選択であるので選択回数を2とした。確認は、残りの標本データの環境音毎に行った。そして、選択回数毎の環境音の個数を集計したのが、図8に示した確認結果である。
図8に示すように、1回の選択回数で所望の環境音が得られた環境音は約150個であり、2回の選択回数で所望の環境音が得られた環境音は約75個であり、3回の選択回数で所望の環境音が得られた環境音は約60個であった。
このため、図8に示した確認結果では、1回目の選択により所望の環境音が得られた音源選択率が約14%であり、2回目の選択により所望の環境音が得られた音源選択率が約45%であった。ここで、音源選択率は、次式(2)である。
Figure 0006013951
式(2)において分母のアクセス回数の総数とは、ユーザが確認において、複数の標本データに対して、出力部130に提示された環境音の候補から所望の環境音を得られるまでにアクセスした総数である。また、分子の平均選択回数毎の個数とは、図8における横軸の平均選択回数に対応する個数である。
図8に示したように、本実施形態の環境音検索装置1によれば、ユーザは少ない選択回数で、所望の環境音を得られる。
なお、本実施形態では、検索対象の擬音語の例として、「カーン」等を説明したが、これに限られない。擬音語の他の例として「カチ」等の「子音+母音+・・・+子音+母音」の音素列、「ガチャガチャ」等の繰り返し語による音素列等であってもよい。
また、本実施形態では、ユーザが検索したい環境音を表した擬音語を発声し、この音声を音声認識処理する例を説明したが、これに限られない。音響認識部40は、音声入力部10から入力された音声信号を、ユーザ辞書50および周知の技術を用いて係り受け等の解析、単語の品詞の解析等を行うことで、擬音語を抽出するようにしてもよい。例えば、ユーザが発声した音声が「ガシャーンを探してください」の場合、音響認識部40は、この音声信号の中から「ガシャーン」を擬音語として認識するようにしてもよい。
[第2実施形態]
第1実施形態では、所望の環境音を検索するためにユーザが発声した擬音語を音声認識処理してユーザが所望の環境音を検索する例を説明したが、本実施形態では、ユーザが入力したテキストを用いて環境音を検索する例を説明する。
図9は、本実施形態に係る環境音検索装置1Aの構成を表すブロック図である。図9に示すように、環境音検索装置1Aは、映像入力部20、音響信号抽出部30、音響認識部40、ユーザ辞書(音響モデル)50A、システム辞書60、環境音データベース(音データ保持部)70、対応付け部80A、対応記憶部90、変換部100A、音源検索部(検索抽出部)110、ランク付け部(検索抽出部)120、出力部(検索抽出部)130、テキスト入力部150、およびテキスト認識部160を備えている。図1と同じ機能を有する機能部には、同じ符号を用いて説明を省略する。
テキスト入力部150は、ユーザによりキーボード等から入力されたテキスト情報を取得し、取得したテキスト情報をテキスト認識部160に出力する。ここで、ユーザによりキーボード等から入力されるテキスト情報とは、所望の環境音に対応する擬音語を含むテキストである。なお、テキスト入力部150に入力されるテキストは、擬音語のみであってもよい。この場合、テキスト入力部150は、取得したテキスト情報を変換部100Aに出力するようにしてもよい。
テキスト認識部160は、ユーザ辞書50Aを用いて、テキスト入力部150が出力したテキスト情報に対して係り受け解析等と行い、テキスト情報から擬音語を抽出する。テキスト認識部160は、抽出した擬音語を音素列(u)(システム擬音語(u))として、変換部100Aに出力する。テキスト入力部150に入力されるテキストが擬音語のみの場合、環境音検索装置1Aは、テキスト認識部160を備えていなくてもよい。
ユーザ辞書50Aには、第1実施形態で説明した音響モデルに加え、複数の擬音語に対応する音素列がテキストとして格納されていてもよい。
対応付け部80Aは、ユーザ辞書50Aにより認識された音素列(u)と、システム辞書60により認識された音素列(s)とを予め対応づけて、対応関係を対応記憶部90に記憶させる。
変換部100Aは、テキスト認識部160が出力したユーザ擬音語(u)をシステム擬音語(s)に第1実施形態と同様の処理により変換(翻訳)する。変換部100Aは、変換したシステム擬音語(s)を音源検索部110に出力する。
図10は、本実施形態に係る環境音検索装置1Aが行う環境音の検索手順のフローチャートである。図7と同じ処理は、同じ符号を用いている。
(ステップS201)ユーザは、検索したい環境音に対してイメージした擬音語を含むテキストを入力する。次に、テキスト入力部150は、ユーザによりキーボード等から入力されたテキスト情報を取得し、取得したテキスト情報をテキスト認識部160に出力する。次に、テキスト認識部160は、テキスト入力部150が出力したテキスト情報から、擬音語を抽出する。テキスト認識部160は、抽出した擬音語を音素列(u)(システム擬音語(u))として、変換部100Aに出力する。
(ステップS102〜S106)環境音検索装置1Aは、以下、第1実施形態で説明したステップS102〜S106と同様の処理を行う。
以上のように、本実施形態に係る環境音検索装置1Aは、テキスト情報を入力するテキスト入力部150と、テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部160と、環境音とその環境音に対応する擬音語とが格納されている音データ保持部(環境音データベース70)と、第1の擬音語と、第2の擬音語と、第1の擬音語がテキスト認識部で抽出されたときに第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部(対応記憶部90)と、対応保持部が保持する対応付け情報を用いて、テキスト認識部が抽出した第1の擬音語に対応する第2の擬音語に変換する変換部100Aと、変換部が変換した第2の擬音語に対応する環境音を音データ保持部から抽出し、抽出された複数の環境音の候補が与えられる頻度に基づいて、抽出された複数の環境音の候補をランク付けして提示する検索抽出部(音源検索部110、ランク付け部120、出力部130)と、を備える。
この構成により、本実施形態の環境音検索装置1Aは、環境音検索装置1Aは、検索したい環境音をイメージした擬音語のテキストをユーザが入力することで、所望の環境音を探索して、探索した環境音の候補をランク付けして出力部130に提示する。
なお、図9において、環境音データベース70、対応記憶部90が予め作成されている場合、環境音検索装置1Aは、映像入力部20、音響信号抽出部30、音響認識部40、システム辞書60、および対応付け部80Aを備えていなくてもよい。
第1実施形態で説明した環境音検索装置1、および第2実施形態で説明した環境音検索装置1Aは、例えば、ICレコーダ等の音声を録音して格納しておく装置、携帯端末、タブレット端末、ゲーム機器、パソコン、ロボット、車両等に適用してもよい。
なお、第1および第2実施形態で説明した環境音データベース70に格納されている映像信号または音声信号は、環境音検索装置1にネットワーク経由で接続されている装置に保存されていてもよく、あるいはネットワークを経由してアクセス可能な装置に保存されていてもよい。さらに、検索対象である映像信号または音声信号は、1つであっても複数であってもよい。
なお、本発明における環境音検索装置1または1Aの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音源方向の推定を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1、1A…環境音検索装置、10…音声入力部、20…映像入力部、30…音響信号抽出部、40…音響認識部、50、50A…ユーザ辞書、60…システム辞書、70…環境音データベース、80、80A…対応付け部、90…対応記憶部、100、100A…変換部、110…音源検索部、120…ランク付け部、130…出力部、150…テキスト入力部、160…テキスト認識部

Claims (6)

  1. 音声信号を入力する音声入力部と、
    前記音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部と、
    環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
    第1の擬音語と、第2の擬音語と、該第1の擬音語が前記音声認識部で認識されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
    前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識部が認識した第1の擬音語に対応する第2の擬音語に変換する変換部と、
    前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
    を備えることを特徴とする環境音検索装置。
  2. 前記第1の擬音語は、
    前記環境音に対応する擬声語を前記音声認識部が認識したものであり、
    前記第2の擬音語は、
    前記環境音を前記音声認識部が認識したものである
    ことを特徴とする請求項1に記載の環境音検索装置。
  3. 前記対応付け情報は、
    前記第2の擬音語を前記環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、前記第1の擬音語が定められている
    ことを特徴とする請求項1または請求項2に記載の環境音検索装置。
  4. テキスト情報を入力するテキスト入力部と、
    前記テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部と、
    環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
    第1の擬音語と、第2の擬音語と、該第1の擬音語が前記テキスト認識部で抽出されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
    前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識部が抽出した第1の擬音語に対応する第2の擬音語に変換する変換部と、
    前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
    を備えることを特徴とする環境音検索装置。
  5. 環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語が音声認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
    音声入力部が、音声信号を入力する音声入力手順と、
    音声認識部が、前記音声入力手順により入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識手順と、
    変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、
    検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
    前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
    前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
    を含むことを特徴とする環境音検索方法。
  6. 環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語がテキスト認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
    テキスト入力部が、テキスト情報を入力するテキスト入力手順と、
    テキスト認識部が、前記テキスト入力手順により入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識手順と、
    変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、
    検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
    前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
    前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
    を含むことを特徴とする環境音検索方法。
JP2013052424A 2013-03-14 2013-03-14 環境音検索装置、環境音検索方法 Expired - Fee Related JP6013951B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013052424A JP6013951B2 (ja) 2013-03-14 2013-03-14 環境音検索装置、環境音検索方法
US14/196,079 US20140278372A1 (en) 2013-03-14 2014-03-04 Ambient sound retrieving device and ambient sound retrieving method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013052424A JP6013951B2 (ja) 2013-03-14 2013-03-14 環境音検索装置、環境音検索方法

Publications (2)

Publication Number Publication Date
JP2014178886A JP2014178886A (ja) 2014-09-25
JP6013951B2 true JP6013951B2 (ja) 2016-10-25

Family

ID=51531800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013052424A Expired - Fee Related JP6013951B2 (ja) 2013-03-14 2013-03-14 環境音検索装置、環境音検索方法

Country Status (2)

Country Link
US (1) US20140278372A1 (ja)
JP (1) JP6013951B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230342549A1 (en) * 2019-09-20 2023-10-26 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, methods and programs for the same

Families Citing this family (74)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106775794B (zh) * 2015-11-24 2021-02-12 北京搜狗科技发展有限公司 一种输入法客户端安装方法和装置
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10531157B1 (en) * 2017-09-21 2020-01-07 Amazon Technologies, Inc. Presentation and management of audio and visual content across devices
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
WO2020060311A1 (en) * 2018-09-20 2020-03-26 Samsung Electronics Co., Ltd. Electronic device and method for providing or obtaining data for training thereof
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
JPWO2020183845A1 (ja) 2019-03-08 2021-11-25 日本電気株式会社 音響処理方法
EP3709194A1 (en) 2019-03-15 2020-09-16 Spotify AB Ensemble-based data comparison
CN110097872B (zh) * 2019-04-30 2021-07-30 维沃移动通信有限公司 一种音频处理方法及电子设备
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11094319B2 (en) 2019-08-30 2021-08-17 Spotify Ab Systems and methods for generating a cleaned version of ambient sound
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11308959B2 (en) 2020-02-11 2022-04-19 Spotify Ab Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices
US11328722B2 (en) * 2020-02-11 2022-05-10 Spotify Ab Systems and methods for generating a singular voice audio stream
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) * 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US12387716B2 (en) 2020-06-08 2025-08-12 Sonos, Inc. Wakewordless voice quickstarts
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US12283269B2 (en) 2020-10-16 2025-04-22 Sonos, Inc. Intent inference in audiovisual communication sessions
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
CN113889146B (zh) * 2021-09-22 2025-05-27 北京小米移动软件有限公司 音频识别方法、装置、电子设备和存储介质
WO2023056258A1 (en) 2021-09-30 2023-04-06 Sonos, Inc. Conflict management for wake-word detection processes
US12327556B2 (en) 2021-09-30 2025-06-10 Sonos, Inc. Enabling and disabling microphones and voice assistants
JP7726757B2 (ja) * 2021-11-29 2025-08-20 株式会社日立製作所 音抽出システム及び音抽出方法
US12327549B2 (en) 2022-02-09 2025-06-10 Sonos, Inc. Gatekeeping for voice intent processing
JP2024043949A (ja) * 2022-09-20 2024-04-02 本田技研工業株式会社 音声認識装置、音声認識方法、およびプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0877155A (ja) * 1994-07-07 1996-03-22 Sanyo Electric Co Ltd 情報処理装置及び情報処理方法
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
JP2897701B2 (ja) * 1995-11-20 1999-05-31 日本電気株式会社 効果音検索装置
JP2956621B2 (ja) * 1996-11-20 1999-10-04 日本電気株式会社 擬音語を用いた音検索システムおよび擬音語を用いた音検索方法
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
JP2000081892A (ja) * 1998-09-04 2000-03-21 Nec Corp 効果音付加装置および効果音付加方法
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
US7131117B2 (en) * 2002-09-04 2006-10-31 Sbc Properties, L.P. Method and system for automating the analysis of word frequencies
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
US20040153963A1 (en) * 2003-02-05 2004-08-05 Simpson Todd G. Information entry mechanism for small keypads
US6988990B2 (en) * 2003-05-29 2006-01-24 General Electric Company Automatic annotation filler system and method for use in ultrasound imaging
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
US20070154176A1 (en) * 2006-01-04 2007-07-05 Elcock Albert F Navigating recorded video using captioning, dialogue and sound effects
US20090306989A1 (en) * 2006-03-31 2009-12-10 Masayo Kaji Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device
US7881928B2 (en) * 2006-09-01 2011-02-01 International Business Machines Corporation Enhanced linguistic transformation
JP4952469B2 (ja) * 2007-09-19 2012-06-13 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2009089621A1 (en) * 2008-01-14 2009-07-23 Algo Communication Products Ltd. Methods and systems for searching audio records
US20110144993A1 (en) * 2009-12-15 2011-06-16 Disfluency Group, LLC Disfluent-utterance tracking system and method
JP2012133250A (ja) * 2010-12-24 2012-07-12 Sony Corp 音情報表示装置、音情報表示方法およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230342549A1 (en) * 2019-09-20 2023-10-26 Nippon Telegraph And Telephone Corporation Learning apparatus, estimation apparatus, methods and programs for the same

Also Published As

Publication number Publication date
JP2014178886A (ja) 2014-09-25
US20140278372A1 (en) 2014-09-18

Similar Documents

Publication Publication Date Title
JP6013951B2 (ja) 環境音検索装置、環境音検索方法
JP4485694B2 (ja) 並列する認識エンジン
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
JP4987203B2 (ja) 分散型リアルタイム音声認識装置
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
JP5377430B2 (ja) 質問応答データベース拡張装置および質問応答データベース拡張方法
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
CN111243599B (zh) 语音识别模型构建方法、装置、介质及电子设备
CN1264468A (zh) 给用户提供声音反馈的可扩展语音识别系统
JP2010224194A (ja) 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
JP5221768B2 (ja) 翻訳装置、及びプログラム
CN112382274B (zh) 音频合成方法、装置、设备以及存储介质
JP2018159788A (ja) 情報処理装置、方法及びプログラム
JP5054711B2 (ja) 音声認識装置および音声認識プログラム
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
Shahriar et al. A communication platform between bangla and sign language
JP2014066779A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2013029652A (ja) 音声認識装置および音声認識プログラム
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
KR20180033875A (ko) 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스
CA2613154A1 (en) Dictionary lookup for mobile devices using spelling recognition
Jackson Automatic speech recognition: Human computer interface for kinyarwanda language
KR101553469B1 (ko) 다언어 어휘 음성 인식 장치 및 방법
JP2011048405A (ja) 音声認識装置及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160822

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160906

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160923

R150 Certificate of patent or registration of utility model

Ref document number: 6013951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees