JP6013951B2 - 環境音検索装置、環境音検索方法 - Google Patents
環境音検索装置、環境音検索方法 Download PDFInfo
- Publication number
- JP6013951B2 JP6013951B2 JP2013052424A JP2013052424A JP6013951B2 JP 6013951 B2 JP6013951 B2 JP 6013951B2 JP 2013052424 A JP2013052424 A JP 2013052424A JP 2013052424 A JP2013052424 A JP 2013052424A JP 6013951 B2 JP6013951 B2 JP 6013951B2
- Authority
- JP
- Japan
- Prior art keywords
- onomatopoeia
- environmental sound
- unit
- sound
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/686—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明の態様(3)によれば、第2の擬音語を環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、第1の擬音語が定められている対応情報を用いて、第1の擬音語を第2の擬音語に変換するので、複数の環境音の候補を精度良く抽出することができる。
本発明の態様(4)および(6)によれば、入力されたテキストを認識した第1の擬音語を、対応情報を用いて変換した第2の擬音語を用いて音データ保持部から環境音の候補を抽出し、抽出された環境音の候補をランク付けするランク付けして提示するので、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
本発明の環境音検索装置では、検索したい音源を擬音語としてユーザにより発声された音声に対して音声認識処理をオンラインで行う。そして、環境音検索装置は、認識した結果を第1の擬音語(ユーザ擬音語)とし、この第1の擬音語を、複数の音源に対して音声認識処理を行って予め作成されているシステム辞書に登録されている第2の擬音語(システム擬音語)に、予め作成されている対応情報を用いて変換する。次に、環境音検索装置は、変換された第2の擬音語に対応する音源を、予め複数の音源が登録されているデータベースから探索する。そして、環境音検索装置は、探索した複数の音源候補に対してランク付けを行った後、ランク付けした複数の音源候補をユーザへ提示する。これにより、本発明の環境音検索装置では、候補が複数であってもユーザが所望する効果音データを効率よく提供できる。
図1は、本実施形態に係る環境音検索装置1の構成を表すブロック図である。図1に示すように、環境音検索装置1は、音声入力部10、映像入力部20、音響信号抽出部30、音響認識部40、ユーザ辞書(音響モデル)50、システム辞書60、環境音データベース(音データ保持部)70、対応付け部80、対応記憶部90、変換部100、音源検索部(検索抽出部)110、ランク付け部(検索抽出部)120、および出力部(検索抽出部)130を備えている。
ユーザ辞書50には、音響認識部40が人間により発した擬音語を認識するための辞書が格納されている。ユーザ辞書50には、音響特徴量と音素との関係を示す音響モデルと、音素と単語等の言語との関係を示す言語モデルが格納されている。なお、ユーザ辞書50は、ユーザが複数いる場合、複数のユーザに対応した情報が格納されていてもよく、あるいは、ユーザ毎にユーザ辞書50を備えるようにしてもよい。
まず、対応付け部80は、ユーザが発した音声に対して音声信号に対する音響モデルを用いて音声認識により与えられたラベルや、ユーザが与えたラベルを用いてHMM学習を行い、システム擬音語に対する音響モデルを作成する。次に、対応付け部80は、作成した音響モデルによって、学習データを認識させ、認識させた結果を使って、先述したラベルを更新する。
対応付け部80は、この音響モデルと学習と認識を、収束するまで繰り返し、学習に用いたラベルと認識結果とが所定の値以上一致した場合、収束したと判断する。所定の値は、例えば、95%である。対応付け部80は、学習の過程で選択されたユーザ擬音語(u)に対するシステム擬音語(s)の選択回数を、図5に示したように、対応記憶部90に記憶させる。
ある利用者が発話したユーザ擬音語をpiとし、そのpiから翻訳されるシステム擬音語をqjとする。このとき、あるユーザ擬音語piが別のシステム擬音語qjに変換される割合Rijは、次式(1)である。
式(1)において、count(pi)は、対応記憶部90に記憶されているユーザ辞書により認識された音素列ごとの総数Tn(図5参照)である。式(1)において、count(qi)は、システム擬音語qiの選択回数(図5参照)である。
なお、ランク付け部120は、算出した変換頻度Rijを、例えば選択回数と関連づけて対応記憶部90に記憶させておいてもよい。
(ステップS102)変換部100は、対応記憶部90に記憶されている情報を用いて、音響認識部40が認識したユーザ擬音語(u)をシステム擬音語(s)に変換(翻訳)する。次に、変換部100は、変換したユーザ擬音語(s)を音源検索部110に出力する。
(ステップS104)ランク付け部120は、ステップS103で検索された複数の環境音の候補に対して、おのおの変換頻度Rijを算出することでランク付けを行う。ランク付け部120は、ランク付け処理した環境音データを示す情報を、環境音の候補として出力部130に出力する。
(ステップS106)出力部130は、ユーザにより選択されたラベルの位置を検出し、検出したラベルに対応する環境音データを環境音データベース70から読み出す。次に、出力部130は、読み出した環境音データを再生する。
ユーザは、検索したい環境音を決定する。ここでは、ユーザは、楽器のシンバルが叩かれたときの音を、検索したい環境音に決定する。次に、ユーザは、楽器のシンバルが叩かれたときの音を、ユーザが思い浮かべた擬音語「ジャーン」として発する。
次に、音響認識部40は、音声入力部10が出力した音声信号「ジャーン」に対して、ユーザ辞書50を用いて音声認識処理を行う。音響認識部40が認識したユーザ擬音語(u)は「Ja:N(u)」であったとする(ステップS101)。
次に、音源検索部110は、変換されたシステム擬音語(s)「Cha:N(s)」に対応する環境音の候補「cymbals」、「candybwl」、・・・を、環境音データベース70から検索する(ステップS103)。
次に、出力部130は、複数の環境音の候補を、例えば、図6に示したように表示部にランク付けして提示する(ステップS105)。
なお、図8に示した確認では、環境音が3146ファイル、65クラス(サンプリング周波数16kHz、量子化16bit)である実環境音声・音響データベースを用いた。環境音としては、陶器を叩く音、笛の音、紙を破る音、鈴の音、楽器の音などである。これらの環境音の音響信号に対して音響認識部40が、システム辞書60を用いて認識処理して生成した音素列(システム擬音語)を環境音データベース70に予め格納した。
確認は、以下のような手順で行った。まず、残りの標本データの環境音を、ユーザにランダムに聞かせる。その後、ユーザは、聞いた環境音の中から、検索したい環境音を1つ決定し、決定した環境音を擬音語として発声する。そして、環境音検索装置1は、ユーザにより発声された擬音語に対応する複数の環境音の候補をランク付けして出力部130に提示した。ユーザは、出力部130に提示された複数の環境音の候補を示す情報を、順位1から順に選択する。そして、ユーザは、選択した環境音の候補を示す情報に対応する環境音が再生されたとき、その環境音が所望の環境音であったか否かを判定する。例えば、順位1の環境音の候補が、ユーザにより所望の環境音であると判定された場合、1回目の選択であるので選択回数を1とした。順位2の環境音の候補が、ユーザにより所望の環境音であると判定された場合、2回目の選択であるので選択回数を2とした。確認は、残りの標本データの環境音毎に行った。そして、選択回数毎の環境音の個数を集計したのが、図8に示した確認結果である。
このため、図8に示した確認結果では、1回目の選択により所望の環境音が得られた音源選択率が約14%であり、2回目の選択により所望の環境音が得られた音源選択率が約45%であった。ここで、音源選択率は、次式(2)である。
図8に示したように、本実施形態の環境音検索装置1によれば、ユーザは少ない選択回数で、所望の環境音を得られる。
第1実施形態では、所望の環境音を検索するためにユーザが発声した擬音語を音声認識処理してユーザが所望の環境音を検索する例を説明したが、本実施形態では、ユーザが入力したテキストを用いて環境音を検索する例を説明する。
ユーザ辞書50Aには、第1実施形態で説明した音響モデルに加え、複数の擬音語に対応する音素列がテキストとして格納されていてもよい。
変換部100Aは、テキスト認識部160が出力したユーザ擬音語(u)をシステム擬音語(s)に第1実施形態と同様の処理により変換(翻訳)する。変換部100Aは、変換したシステム擬音語(s)を音源検索部110に出力する。
(ステップS201)ユーザは、検索したい環境音に対してイメージした擬音語を含むテキストを入力する。次に、テキスト入力部150は、ユーザによりキーボード等から入力されたテキスト情報を取得し、取得したテキスト情報をテキスト認識部160に出力する。次に、テキスト認識部160は、テキスト入力部150が出力したテキスト情報から、擬音語を抽出する。テキスト認識部160は、抽出した擬音語を音素列(u)(システム擬音語(u))として、変換部100Aに出力する。
(ステップS102〜S106)環境音検索装置1Aは、以下、第1実施形態で説明したステップS102〜S106と同様の処理を行う。
Claims (6)
- 音声信号を入力する音声入力部と、
前記音声入力部に入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識部と、
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
第1の擬音語と、第2の擬音語と、該第1の擬音語が前記音声認識部で認識されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識部が認識した第1の擬音語に対応する第2の擬音語に変換する変換部と、
前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
を備えることを特徴とする環境音検索装置。 - 前記第1の擬音語は、
前記環境音に対応する擬声語を前記音声認識部が認識したものであり、
前記第2の擬音語は、
前記環境音を前記音声認識部が認識したものである
ことを特徴とする請求項1に記載の環境音検索装置。 - 前記対応付け情報は、
前記第2の擬音語を前記環境音の候補に対応する擬音語として認識される認識率が所定の値以上となるように、前記第1の擬音語が定められている
ことを特徴とする請求項1または請求項2に記載の環境音検索装置。 - テキスト情報を入力するテキスト入力部と、
前記テキスト入力部に入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識部と、
環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、
第1の擬音語と、第2の擬音語と、該第1の擬音語が前記テキスト認識部で抽出されたときに該第2の擬音語が与えられる頻度と、が対応付けられた対応付け情報を保持する対応保持部と、
前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識部が抽出した第1の擬音語に対応する第2の擬音語に変換する変換部と、
前記変換部が変換した前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出し、抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けして提示する検索抽出部と、
を備えることを特徴とする環境音検索装置。 - 環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語が音声認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
音声入力部が、音声信号を入力する音声入力手順と、
音声認識部が、前記音声入力手順により入力された音声信号に対して音声認識処理を行って擬音語を生成する音声認識手順と、
変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記音声認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、
検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
を含むことを特徴とする環境音検索方法。 - 環境音とその環境音に対応する擬音語とが格納されている音データ保持部と、第1の擬音語と第2の擬音語と該第1の擬音語がテキスト認識手順により認識されたときに該第2の擬音語が与えられる頻度とが対応付けられた対応付け情報を保持する対応保持部と、を有する環境音検索装置における環境音検索方法であって、
テキスト入力部が、テキスト情報を入力するテキスト入力手順と、
テキスト認識部が、前記テキスト入力手順により入力されたテキスト情報に対してテキスト抽出処理を行って擬音語を生成するテキスト認識手順と、
変換部が、前記対応保持部が保持する前記対応付け情報を用いて、前記テキスト認識手順により認識した第1の擬音語に対応する第2の擬音語に変換する変換手順と、
検索抽出部が、前記変換手順により変換された前記第2の擬音語に対応する前記環境音を前記音データ保持部から抽出する抽出手順と、
前記検索抽出部が、前記抽出手順により抽出された複数の前記環境音の候補が与えられる頻度に基づいて、抽出された複数の前記環境音の候補をランク付けするランク付け手順と、
前記検索抽出部が、前記ランク付け手順によりランク付けされた複数の前記環境音の候補を提示する提示手順と、
を含むことを特徴とする環境音検索方法。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013052424A JP6013951B2 (ja) | 2013-03-14 | 2013-03-14 | 環境音検索装置、環境音検索方法 |
| US14/196,079 US20140278372A1 (en) | 2013-03-14 | 2014-03-04 | Ambient sound retrieving device and ambient sound retrieving method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013052424A JP6013951B2 (ja) | 2013-03-14 | 2013-03-14 | 環境音検索装置、環境音検索方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2014178886A JP2014178886A (ja) | 2014-09-25 |
| JP6013951B2 true JP6013951B2 (ja) | 2016-10-25 |
Family
ID=51531800
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013052424A Expired - Fee Related JP6013951B2 (ja) | 2013-03-14 | 2013-03-14 | 環境音検索装置、環境音検索方法 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US20140278372A1 (ja) |
| JP (1) | JP6013951B2 (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20230342549A1 (en) * | 2019-09-20 | 2023-10-26 | Nippon Telegraph And Telephone Corporation | Learning apparatus, estimation apparatus, methods and programs for the same |
Families Citing this family (74)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN106775794B (zh) * | 2015-11-24 | 2021-02-12 | 北京搜狗科技发展有限公司 | 一种输入法客户端安装方法和装置 |
| US10264030B2 (en) | 2016-02-22 | 2019-04-16 | Sonos, Inc. | Networked microphone device control |
| US9965247B2 (en) | 2016-02-22 | 2018-05-08 | Sonos, Inc. | Voice controlled media playback system based on user profile |
| US9772817B2 (en) | 2016-02-22 | 2017-09-26 | Sonos, Inc. | Room-corrected voice detection |
| US9947316B2 (en) | 2016-02-22 | 2018-04-17 | Sonos, Inc. | Voice control of a media playback system |
| US10095470B2 (en) | 2016-02-22 | 2018-10-09 | Sonos, Inc. | Audio response playback |
| US10509626B2 (en) | 2016-02-22 | 2019-12-17 | Sonos, Inc | Handling of loss of pairing between networked devices |
| US9978390B2 (en) | 2016-06-09 | 2018-05-22 | Sonos, Inc. | Dynamic player selection for audio signal processing |
| US10134399B2 (en) | 2016-07-15 | 2018-11-20 | Sonos, Inc. | Contextualization of voice inputs |
| US10115400B2 (en) | 2016-08-05 | 2018-10-30 | Sonos, Inc. | Multiple voice services |
| US9942678B1 (en) | 2016-09-27 | 2018-04-10 | Sonos, Inc. | Audio playback settings for voice interaction |
| US10181323B2 (en) | 2016-10-19 | 2019-01-15 | Sonos, Inc. | Arbitration-based voice recognition |
| US11183181B2 (en) | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
| US10475449B2 (en) | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
| US10048930B1 (en) | 2017-09-08 | 2018-08-14 | Sonos, Inc. | Dynamic computation of system response volume |
| US10531157B1 (en) * | 2017-09-21 | 2020-01-07 | Amazon Technologies, Inc. | Presentation and management of audio and visual content across devices |
| US10446165B2 (en) | 2017-09-27 | 2019-10-15 | Sonos, Inc. | Robust short-time fourier transform acoustic echo cancellation during audio playback |
| US10051366B1 (en) | 2017-09-28 | 2018-08-14 | Sonos, Inc. | Three-dimensional beam forming with a microphone array |
| US10621981B2 (en) | 2017-09-28 | 2020-04-14 | Sonos, Inc. | Tone interference cancellation |
| US10482868B2 (en) | 2017-09-28 | 2019-11-19 | Sonos, Inc. | Multi-channel acoustic echo cancellation |
| US10466962B2 (en) | 2017-09-29 | 2019-11-05 | Sonos, Inc. | Media playback system with voice assistance |
| US10880650B2 (en) | 2017-12-10 | 2020-12-29 | Sonos, Inc. | Network microphone devices with automatic do not disturb actuation capabilities |
| US10818290B2 (en) | 2017-12-11 | 2020-10-27 | Sonos, Inc. | Home graph |
| US11343614B2 (en) | 2018-01-31 | 2022-05-24 | Sonos, Inc. | Device designation of playback and network microphone device arrangements |
| US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
| US11175880B2 (en) | 2018-05-10 | 2021-11-16 | Sonos, Inc. | Systems and methods for voice-assisted media content selection |
| US10959029B2 (en) | 2018-05-25 | 2021-03-23 | Sonos, Inc. | Determining and adapting to changes in microphone performance of playback devices |
| US10681460B2 (en) | 2018-06-28 | 2020-06-09 | Sonos, Inc. | Systems and methods for associating playback devices with voice assistant services |
| US10461710B1 (en) | 2018-08-28 | 2019-10-29 | Sonos, Inc. | Media playback system with maximum volume setting |
| US11076035B2 (en) | 2018-08-28 | 2021-07-27 | Sonos, Inc. | Do not disturb feature for audio notifications |
| US10587430B1 (en) | 2018-09-14 | 2020-03-10 | Sonos, Inc. | Networked devices, systems, and methods for associating playback devices based on sound codes |
| WO2020060311A1 (en) * | 2018-09-20 | 2020-03-26 | Samsung Electronics Co., Ltd. | Electronic device and method for providing or obtaining data for training thereof |
| US11024331B2 (en) | 2018-09-21 | 2021-06-01 | Sonos, Inc. | Voice detection optimization using sound metadata |
| US10811015B2 (en) | 2018-09-25 | 2020-10-20 | Sonos, Inc. | Voice detection optimization based on selected voice assistant service |
| US11100923B2 (en) | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
| US10692518B2 (en) | 2018-09-29 | 2020-06-23 | Sonos, Inc. | Linear filtering for noise-suppressed speech detection via multiple network microphone devices |
| US11899519B2 (en) | 2018-10-23 | 2024-02-13 | Sonos, Inc. | Multiple stage network microphone device with reduced power consumption and processing load |
| EP3654249A1 (en) | 2018-11-15 | 2020-05-20 | Snips | Dilated convolutions and gating for efficient keyword spotting |
| US11183183B2 (en) | 2018-12-07 | 2021-11-23 | Sonos, Inc. | Systems and methods of operating media playback systems having multiple voice assistant services |
| US11132989B2 (en) | 2018-12-13 | 2021-09-28 | Sonos, Inc. | Networked microphone devices, systems, and methods of localized arbitration |
| US10602268B1 (en) | 2018-12-20 | 2020-03-24 | Sonos, Inc. | Optimization of network microphone devices using noise classification |
| US10867604B2 (en) | 2019-02-08 | 2020-12-15 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing |
| US11315556B2 (en) | 2019-02-08 | 2022-04-26 | Sonos, Inc. | Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification |
| JPWO2020183845A1 (ja) | 2019-03-08 | 2021-11-25 | 日本電気株式会社 | 音響処理方法 |
| EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
| CN110097872B (zh) * | 2019-04-30 | 2021-07-30 | 维沃移动通信有限公司 | 一种音频处理方法及电子设备 |
| US11120794B2 (en) | 2019-05-03 | 2021-09-14 | Sonos, Inc. | Voice assistant persistence across multiple network microphone devices |
| US11361756B2 (en) | 2019-06-12 | 2022-06-14 | Sonos, Inc. | Conditional wake word eventing based on environment |
| US10586540B1 (en) | 2019-06-12 | 2020-03-10 | Sonos, Inc. | Network microphone device with command keyword conditioning |
| US11200894B2 (en) | 2019-06-12 | 2021-12-14 | Sonos, Inc. | Network microphone device with command keyword eventing |
| US11138969B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
| US11138975B2 (en) | 2019-07-31 | 2021-10-05 | Sonos, Inc. | Locally distributed keyword detection |
| US10871943B1 (en) | 2019-07-31 | 2020-12-22 | Sonos, Inc. | Noise classification for event detection |
| US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
| US11189286B2 (en) | 2019-10-22 | 2021-11-30 | Sonos, Inc. | VAS toggle based on device orientation |
| US11200900B2 (en) | 2019-12-20 | 2021-12-14 | Sonos, Inc. | Offline voice control |
| US11562740B2 (en) | 2020-01-07 | 2023-01-24 | Sonos, Inc. | Voice verification for media playback |
| US11556307B2 (en) | 2020-01-31 | 2023-01-17 | Sonos, Inc. | Local voice data processing |
| US11308958B2 (en) | 2020-02-07 | 2022-04-19 | Sonos, Inc. | Localized wakeword verification |
| US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
| US11328722B2 (en) * | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
| US11482224B2 (en) | 2020-05-20 | 2022-10-25 | Sonos, Inc. | Command keywords with input detection windowing |
| US11308962B2 (en) * | 2020-05-20 | 2022-04-19 | Sonos, Inc. | Input detection windowing |
| US11727919B2 (en) | 2020-05-20 | 2023-08-15 | Sonos, Inc. | Memory allocation for keyword spotting engines |
| US12387716B2 (en) | 2020-06-08 | 2025-08-12 | Sonos, Inc. | Wakewordless voice quickstarts |
| US11698771B2 (en) | 2020-08-25 | 2023-07-11 | Sonos, Inc. | Vocal guidance engines for playback devices |
| US12283269B2 (en) | 2020-10-16 | 2025-04-22 | Sonos, Inc. | Intent inference in audiovisual communication sessions |
| US11984123B2 (en) | 2020-11-12 | 2024-05-14 | Sonos, Inc. | Network device interaction by range |
| CN113889146B (zh) * | 2021-09-22 | 2025-05-27 | 北京小米移动软件有限公司 | 音频识别方法、装置、电子设备和存储介质 |
| WO2023056258A1 (en) | 2021-09-30 | 2023-04-06 | Sonos, Inc. | Conflict management for wake-word detection processes |
| US12327556B2 (en) | 2021-09-30 | 2025-06-10 | Sonos, Inc. | Enabling and disabling microphones and voice assistants |
| JP7726757B2 (ja) * | 2021-11-29 | 2025-08-20 | 株式会社日立製作所 | 音抽出システム及び音抽出方法 |
| US12327549B2 (en) | 2022-02-09 | 2025-06-10 | Sonos, Inc. | Gatekeeping for voice intent processing |
| JP2024043949A (ja) * | 2022-09-20 | 2024-04-02 | 本田技研工業株式会社 | 音声認識装置、音声認識方法、およびプログラム |
Family Cites Families (20)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0877155A (ja) * | 1994-07-07 | 1996-03-22 | Sanyo Electric Co Ltd | 情報処理装置及び情報処理方法 |
| US5818437A (en) * | 1995-07-26 | 1998-10-06 | Tegic Communications, Inc. | Reduced keyboard disambiguating computer |
| JP2897701B2 (ja) * | 1995-11-20 | 1999-05-31 | 日本電気株式会社 | 効果音検索装置 |
| JP2956621B2 (ja) * | 1996-11-20 | 1999-10-04 | 日本電気株式会社 | 擬音語を用いた音検索システムおよび擬音語を用いた音検索方法 |
| JP2000163418A (ja) * | 1997-12-26 | 2000-06-16 | Canon Inc | 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
| JP2000081892A (ja) * | 1998-09-04 | 2000-03-21 | Nec Corp | 効果音付加装置および効果音付加方法 |
| JP2002221980A (ja) * | 2001-01-25 | 2002-08-09 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
| JP2002318594A (ja) * | 2001-04-20 | 2002-10-31 | Sony Corp | 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体 |
| US7131117B2 (en) * | 2002-09-04 | 2006-10-31 | Sbc Properties, L.P. | Method and system for automating the analysis of word frequencies |
| CN1290036C (zh) * | 2002-12-30 | 2006-12-13 | 国际商业机器公司 | 根据机器可读词典建立概念知识的计算机系统及方法 |
| US20040153963A1 (en) * | 2003-02-05 | 2004-08-05 | Simpson Todd G. | Information entry mechanism for small keypads |
| US6988990B2 (en) * | 2003-05-29 | 2006-01-24 | General Electric Company | Automatic annotation filler system and method for use in ultrasound imaging |
| US20050192802A1 (en) * | 2004-02-11 | 2005-09-01 | Alex Robinson | Handwriting and voice input with automatic correction |
| US20070154176A1 (en) * | 2006-01-04 | 2007-07-05 | Elcock Albert F | Navigating recorded video using captioning, dialogue and sound effects |
| US20090306989A1 (en) * | 2006-03-31 | 2009-12-10 | Masayo Kaji | Voice input support device, method thereof, program thereof, recording medium containing the program, and navigation device |
| US7881928B2 (en) * | 2006-09-01 | 2011-02-01 | International Business Machines Corporation | Enhanced linguistic transformation |
| JP4952469B2 (ja) * | 2007-09-19 | 2012-06-13 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
| WO2009089621A1 (en) * | 2008-01-14 | 2009-07-23 | Algo Communication Products Ltd. | Methods and systems for searching audio records |
| US20110144993A1 (en) * | 2009-12-15 | 2011-06-16 | Disfluency Group, LLC | Disfluent-utterance tracking system and method |
| JP2012133250A (ja) * | 2010-12-24 | 2012-07-12 | Sony Corp | 音情報表示装置、音情報表示方法およびプログラム |
-
2013
- 2013-03-14 JP JP2013052424A patent/JP6013951B2/ja not_active Expired - Fee Related
-
2014
- 2014-03-04 US US14/196,079 patent/US20140278372A1/en not_active Abandoned
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20230342549A1 (en) * | 2019-09-20 | 2023-10-26 | Nippon Telegraph And Telephone Corporation | Learning apparatus, estimation apparatus, methods and programs for the same |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2014178886A (ja) | 2014-09-25 |
| US20140278372A1 (en) | 2014-09-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6013951B2 (ja) | 環境音検索装置、環境音検索方法 | |
| JP4485694B2 (ja) | 並列する認識エンジン | |
| KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
| JP4987203B2 (ja) | 分散型リアルタイム音声認識装置 | |
| JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
| JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
| JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
| CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
| CN1264468A (zh) | 给用户提供声音反馈的可扩展语音识别系统 | |
| JP2010224194A (ja) | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム | |
| JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
| JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
| CN112382274B (zh) | 音频合成方法、装置、设备以及存储介质 | |
| JP2018159788A (ja) | 情報処理装置、方法及びプログラム | |
| JP5054711B2 (ja) | 音声認識装置および音声認識プログラム | |
| KR20060070605A (ko) | 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법 | |
| Shahriar et al. | A communication platform between bangla and sign language | |
| JP2014066779A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
| JP2013029652A (ja) | 音声認識装置および音声認識プログラム | |
| KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
| KR20180033875A (ko) | 음성 신호를 번역하는 방법 및 그에 따른 전자 디바이스 | |
| CA2613154A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
| Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language | |
| KR101553469B1 (ko) | 다언어 어휘 음성 인식 장치 및 방법 | |
| JP2011048405A (ja) | 音声認識装置及び音声認識プログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151126 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160822 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160906 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160923 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6013951 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |