JP7471279B2 - 検出された口運動および/または注視に基づく自動化アシスタントの適応 - Google Patents
検出された口運動および/または注視に基づく自動化アシスタントの適応 Download PDFInfo
- Publication number
- JP7471279B2 JP7471279B2 JP2021512357A JP2021512357A JP7471279B2 JP 7471279 B2 JP7471279 B2 JP 7471279B2 JP 2021512357 A JP2021512357 A JP 2021512357A JP 2021512357 A JP2021512357 A JP 2021512357A JP 7471279 B2 JP7471279 B2 JP 7471279B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- client device
- mouth
- audio data
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/002—Specific input/output arrangements not covered by G06F3/01 - G06F3/16
- G06F3/005—Input arrangements through a video camera
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
- G06F9/453—Help systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/164—Detection; Localisation; Normalisation using holistic features
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Ophthalmology & Optometry (AREA)
- Software Systems (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Position Input By Displaying (AREA)
Description
106 クライアントコンピューティングデバイス、クライアントデバイス
106A クライアントデバイス
107 視覚構成要素、視覚センサ
107A カメラ
109 マイクロフォン
110 自動化アシスタントクライアント
112 スピーチキャプチャモジュール
114 ローカルおよび/またはワイドエリアネットワーク、視覚的キャプチャモジュール
115 適応エンジン
116 注視および口モジュール
116A 口モジュール、モジュール
116B 注視モジュール、モジュール
116C 検出および分類モジュール
117 トレーニング済み機械学習モデル、機械学習モデル
117A 口機械学習モデル
117B 注視機械学習モデル
117C オブジェクト検出および分類機械学習モデル、検出および分類機械学習モデル
118 他条件モジュール
119 機械学習モデル
120 自動化アシスタント
130 クラウドベース自動化アシスタント構成要素
131 クラウドベースTTSモジュール、TTSモジュール
132 クラウドベースSTTモジュール、STTモジュール
133 自然言語プロセッサ
134 意図照合器
135 自然言語理解モジュール、意図理解モジュール
136 自然言語ジェネレータ
138 遂行モジュール
150 検索モジュール
510 コンピューティングデバイス
512 バスサブシステム
514 プロセッサ
516 ネットワークインターフェースサブシステム
520 ユーザインターフェース出力デバイス
522 ユーザインターフェース入力デバイス
524 記憶サブシステム
525 メモリサブシステム、メモリ
526 ファイル記憶サブシステム
530 メインランダムアクセスメモリ(RAM)
532 読出し専用メモリ(ROM)
Claims (19)
前記クライアントデバイスの1つまたは複数のカメラからの出力に基づく画像フレームのストリームを受信するステップと、
前記クライアントデバイス上でローカルに記憶された少なくとも1つのトレーニング済み機械学習モデルを使って、
前記クライアントデバイスの前記1つまたは複数のカメラの方へ向けられた、ユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記画像フレームを処理するステップと、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出するステップと、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることであって、前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることが、前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、ことと、
前記クライアントデバイスによるオーディオデータ処理を適応させることの両方を実施するステップとを含む方法。
前記ユーザの口運動に時間的に対応する前記オーディオデータの前記ボイスアクティビティ検出に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
前記クライアントデバイスによってレンダリングされた前記可聴ユーザインターフェース出力の前記ボリュームを低下させることは、ボイスアクティビティの前記出現を判断したことにさらに応答し、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づく、請求項1に記載の方法。
前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力の前記レンダリングを停止することを含む、請求項2に記載の方法。
前記ユーザの口運動に時間的に対応する前記オーディオデータの前記ボイスアクティビティ検出に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
前記クライアントデバイスによってレンダリングされた前記可聴ユーザインターフェース出力の前記レンダリングを停止することは、ボイスアクティビティの前記出現を判断したことにさらに応答したものであり、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づくものである、請求項4に記載の方法。
前記クライアントデバイスによるオーディオデータ処理を適応させることは、前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して実施され、
前記クライアントデバイスによる前記オーディオデータ処理を適応させることは、前記クライアントデバイスにおけるローカル自動スピーチ認識を開始すること、または前記クライアントデバイスの1つもしくは複数のマイクロフォンによりキャプチャされたオーディオデータの、前記自動化アシスタントに関連付けられたリモートサーバへの送信を開始することを含み、
前記ローカル自動スピーチ認識を開始すること、または前記リモートサーバへのオーディオデータの前記送信を開始することは、合図の前記レンダリングに続いて、前記ユーザの前記注視が、前記クライアントデバイスの前記1つまたは複数のカメラの方へ向けられ続けることを検出したことにさらに応答する、請求項1から5のいずれか一項に記載の方法。
前記ユーザの口運動に時間的に対応する前記特定のオーディオデータの前記ボイスアクティビティ分析に基づいて、ボイスアクティビティの出現を判断するステップとをさらに含み、
オーディオデータの前記送信を開始することは、ボイスアクティビティの前記出現を判断したことにさらに応答し、前記ボイスアクティビティの前記出現が、前記ユーザの前記口運動に時間的に対応する前記オーディオデータについてであることに基づく、請求項8に記載の方法。
前記画像フレームのうちの1つまたは複数に基づいて、前記クライアントデバイスに相対した前記ユーザの位置を判断することと、
前記クライアントデバイスの1つまたは複数のマイクロフォンによりキャプチャされたオーディオデータの処理の際に前記ユーザの前記位置を使うこととを含む、請求項7に記載の方法。
前記ユーザの前記注視の出現を監視するのに、第1のトレーニング済み機械学習モデルを使うことと、
前記ユーザの前記口の前記運動を監視するのに、第2のトレーニング済み機械学習モデルを使うこととを含む、請求項1から12のいずれか一項に記載の方法。
前記環境に前記人間が存在することを検出したことに応答して、前記1つまたは複数のカメラに、画像フレームの前記ストリームを提供させるステップとをさらに含む、請求項1から13のいずれか一項に記載の方法。
少なくとも1つのマイクロフォンと、
1つまたは複数のプロセッサと、
前記1つまたは複数のプロセッサと動作可能に結合されたメモリとを備えるクライアントデバイスであって、前記メモリは命令を記憶し、前記命令は、前記プロセッサのうちの1つまたは複数による前記命令の実行に応答して、前記プロセッサのうちの1つまたは複数に、
前記クライアントデバイスの前記視覚構成要素からの出力に基づく視覚データのストリームを受信する動作と、
前記クライアントデバイス上でローカルに記憶された少なくとも1つのトレーニング済み機械学習モデルを使って、
前記クライアントデバイスの前記視覚構成要素の方へ向けられたユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記視覚データを処理する動作と、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出する動作と、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させる動作であって、前記クライアントデバイスのユーザインターフェース出力のレンダリングを適応させることが、前記クライアントデバイスによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、動作とを実施させる、クライアントデバイス。
1つまたは複数のマイクロフォンと、
前記視覚構成要素からの出力に基づく視覚データのストリームを受信する1つまたは複数のプロセッサとを備えるシステムであって、前記プロセッサのうちの1つまたは複数は、
少なくとも1つのトレーニング済み機械学習モデルを使って、
前記視覚構成要素の方へ向けられたユーザの注視と、
前記ユーザの口の運動
の両方の出現を監視するために、前記ストリームの前記視覚データを処理することと、
前記監視に基づいて、
閾持続時間にわたる前記ユーザの前記注視と、
前記ユーザの前記口の前記運動
の両方の出現を検出することと、
前記閾持続時間にわたる前記ユーザの前記注視と前記ユーザの前記口の前記運動の両方の前記出現を検出したことに応答して、
前記システムのユーザインターフェース出力のレンダリングを適応させることであって、前記システムのユーザインターフェース出力のレンダリングを適応させることが、前記システムによってレンダリングされた可聴ユーザインターフェース出力のボリュームを低下させることを含む、ことと、
前記1つまたは複数のマイクロフォンによりキャプチャされたオーディオデータの処理を適応させることの両方を実施することとを行うように構成される、システム。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2022188506A JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
| JP2024075262A JP7749743B2 (ja) | 2018-05-04 | 2024-05-07 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/US2018/031170 WO2019212569A1 (en) | 2018-05-04 | 2018-05-04 | Adapting automated assistant based on detected mouth movement and/or gaze |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022188506A Division JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021521497A JP2021521497A (ja) | 2021-08-26 |
| JP7471279B2 true JP7471279B2 (ja) | 2024-04-19 |
Family
ID=62386962
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021512357A Active JP7471279B2 (ja) | 2018-05-04 | 2018-05-04 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
| JP2022188506A Active JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
| JP2024075262A Active JP7749743B2 (ja) | 2018-05-04 | 2024-05-07 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Family Applications After (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022188506A Active JP7487276B2 (ja) | 2018-05-04 | 2022-11-25 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
| JP2024075262A Active JP7749743B2 (ja) | 2018-05-04 | 2024-05-07 | 検出された口運動および/または注視に基づく自動化アシスタントの適応 |
Country Status (6)
| Country | Link |
|---|---|
| US (3) | US11614794B2 (ja) |
| EP (3) | EP3859494B1 (ja) |
| JP (3) | JP7471279B2 (ja) |
| KR (3) | KR20210002722A (ja) |
| CN (2) | CN112236739B (ja) |
| WO (1) | WO2019212569A1 (ja) |
Families Citing this family (34)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
| US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
| US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
| US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
| US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
| US12197817B2 (en) | 2016-06-11 | 2025-01-14 | Apple Inc. | Intelligent device arbitration and control |
| WO2020050882A2 (en) | 2018-05-04 | 2020-03-12 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
| JP7277569B2 (ja) | 2018-05-04 | 2023-05-19 | グーグル エルエルシー | 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し |
| CN112236739B (zh) * | 2018-05-04 | 2024-05-17 | 谷歌有限责任公司 | 基于检测到的嘴运动和/或凝视的适配自动助理 |
| US11200893B2 (en) * | 2018-05-07 | 2021-12-14 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
| JP7203865B2 (ja) | 2018-05-07 | 2023-01-13 | グーグル エルエルシー | ユーザと、自動化されたアシスタントと、他のコンピューティングサービスとの間のマルチモーダル対話 |
| US12125486B2 (en) | 2018-05-07 | 2024-10-22 | Google Llc | Multi-modal interaction between users, automated assistants, and other computing services |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
| US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
| WO2020219643A1 (en) * | 2019-04-23 | 2020-10-29 | Apple Inc. | Training a model with human-intuitive inputs |
| US11430485B2 (en) * | 2019-11-19 | 2022-08-30 | Netflix, Inc. | Systems and methods for mixing synthetic voice with original audio tracks |
| SE545310C2 (en) * | 2019-12-20 | 2023-06-27 | Tobii Ab | Improved turn-taking |
| CN111243587A (zh) * | 2020-01-08 | 2020-06-05 | 北京松果电子有限公司 | 语音交互方法、装置、设备及存储介质 |
| US12301635B2 (en) | 2020-05-11 | 2025-05-13 | Apple Inc. | Digital assistant hardware abstraction |
| US20210397991A1 (en) * | 2020-06-23 | 2021-12-23 | Dell Products, L.P. | Predictively setting information handling system (ihs) parameters using learned remote meeting attributes |
| KR102800094B1 (ko) | 2021-03-02 | 2025-04-28 | 상라오 신위안 웨동 테크놀러지 디벨롭먼트 컴퍼니, 리미티드 | 태양 전지 및 그를 포함하는 태양 전지 모듈 |
| US11854115B2 (en) * | 2021-11-04 | 2023-12-26 | Adobe Inc. | Vectorized caricature avatar generator |
| US12020704B2 (en) | 2022-01-19 | 2024-06-25 | Google Llc | Dynamic adaptation of parameter set used in hot word free adaptation of automated assistant |
| WO2023177077A1 (ko) * | 2022-03-15 | 2023-09-21 | 삼성전자 주식회사 | 전자 장치 및 그의 동작 방법 |
| EP4533446A1 (en) * | 2022-05-27 | 2025-04-09 | Apple Inc. | Detecting visual attention during user speech |
| US20230386469A1 (en) * | 2022-05-27 | 2023-11-30 | Apple Inc. | Detecting visual attention during user speech |
| US12423917B2 (en) | 2022-06-10 | 2025-09-23 | Apple Inc. | Extended reality based digital assistant interactions |
| US12400649B2 (en) * | 2022-07-21 | 2025-08-26 | Sony Interactive Entertainment LLC | Customized dialogue support |
| US12183340B2 (en) | 2022-07-21 | 2024-12-31 | Sony Interactive Entertainment LLC | Intent identification for dialogue support |
| CN115762502B (zh) * | 2022-07-26 | 2025-08-26 | 惠州市德赛西威汽车电子股份有限公司 | 一种免唤醒的语音识别方法、装置、设备及存储介质 |
Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000322098A (ja) | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
| JP2005301742A (ja) | 2004-04-13 | 2005-10-27 | Denso Corp | 運転者の外観認識システム |
| JP2010224715A (ja) | 2009-03-23 | 2010-10-07 | Olympus Corp | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 |
| US20150161992A1 (en) | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
| JP2016502137A (ja) | 2012-11-16 | 2016-01-21 | エーテル シングス、 インコーポレイテッド | デバイス設定、対話および制御のための統一フレームワーク、および関連する方法、デバイスおよびシステム |
| WO2017002473A1 (ja) | 2015-06-30 | 2017-01-05 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
| JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
| US20170330566A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed Volume Control for Speech Recognition |
| WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
Family Cites Families (94)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH1124694A (ja) | 1997-07-04 | 1999-01-29 | Sanyo Electric Co Ltd | 命令認識装置 |
| US7028269B1 (en) | 2000-01-20 | 2006-04-11 | Koninklijke Philips Electronics N.V. | Multi-modal video target acquisition and re-direction system and method |
| US6964023B2 (en) * | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
| US20030083872A1 (en) * | 2001-10-25 | 2003-05-01 | Dan Kikinis | Method and apparatus for enhancing voice recognition capabilities of voice recognition software and systems |
| US8745541B2 (en) | 2003-03-25 | 2014-06-03 | Microsoft Corporation | Architecture for controlling a computer using hand gestures |
| US20050033571A1 (en) | 2003-08-07 | 2005-02-10 | Microsoft Corporation | Head mounted multi-sensory audio input system |
| US20060192775A1 (en) | 2005-02-25 | 2006-08-31 | Microsoft Corporation | Using detected visual cues to change computer system operating states |
| US9250703B2 (en) | 2006-03-06 | 2016-02-02 | Sony Computer Entertainment Inc. | Interface with gaze detection and voice input |
| JP4884417B2 (ja) * | 2008-04-01 | 2012-02-29 | 富士フイルム株式会社 | 携帯型電子装置及びその制御方法 |
| JP5396062B2 (ja) | 2008-10-27 | 2014-01-22 | 株式会社ブイシンク | 電子広告システム |
| JP5323770B2 (ja) | 2010-06-30 | 2013-10-23 | 日本放送協会 | ユーザ指示取得装置、ユーザ指示取得プログラムおよびテレビ受像機 |
| US9274744B2 (en) | 2010-09-10 | 2016-03-01 | Amazon Technologies, Inc. | Relative position-inclusive device interfaces |
| JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
| US8885882B1 (en) * | 2011-07-14 | 2014-11-11 | The Research Foundation For The State University Of New York | Real time eye tracking for human computer interaction |
| US9318129B2 (en) * | 2011-07-18 | 2016-04-19 | At&T Intellectual Property I, Lp | System and method for enhancing speech activity detection using facial feature detection |
| US20190102706A1 (en) | 2011-10-20 | 2019-04-04 | Affectomatics Ltd. | Affective response based recommendations |
| JP5035467B2 (ja) | 2011-10-24 | 2012-09-26 | 日本電気株式会社 | 立体性認証方法、立体性認証装置および立体性認証プログラム |
| US9152376B2 (en) | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
| US9214157B2 (en) | 2011-12-06 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for machine-mediated human-human conversation |
| US20150138333A1 (en) * | 2012-02-28 | 2015-05-21 | Google Inc. | Agent Interfaces for Interactive Electronics that Support Social Cues |
| US9626150B2 (en) | 2012-04-27 | 2017-04-18 | Hewlett-Packard Development Company, L.P. | Audio input from user |
| US9423870B2 (en) * | 2012-05-08 | 2016-08-23 | Google Inc. | Input determination method |
| US8542879B1 (en) | 2012-06-26 | 2013-09-24 | Google Inc. | Facial recognition |
| US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
| JP2014048936A (ja) | 2012-08-31 | 2014-03-17 | Omron Corp | ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム |
| JP6056323B2 (ja) * | 2012-09-24 | 2017-01-11 | 富士通株式会社 | 視線検出装置、視線検出用コンピュータプログラム |
| US9081571B2 (en) | 2012-11-29 | 2015-07-14 | Amazon Technologies, Inc. | Gesture detection management for an electronic device |
| US20140247208A1 (en) | 2013-03-01 | 2014-09-04 | Tobii Technology Ab | Invoking and waking a computing device from stand-by mode based on gaze detection |
| US9304594B2 (en) | 2013-04-12 | 2016-04-05 | Microsoft Technology Licensing, Llc | Near-plane segmentation using pulsed light source |
| US9313200B2 (en) | 2013-05-13 | 2016-04-12 | Hoyos Labs Ip, Ltd. | System and method for determining liveness |
| US9691411B2 (en) * | 2013-05-24 | 2017-06-27 | Children's Hospital Medical Center | System and method for assessing suicide risk of a patient based upon non-verbal characteristics of voice data |
| US9286029B2 (en) | 2013-06-06 | 2016-03-15 | Honda Motor Co., Ltd. | System and method for multimodal human-vehicle interaction and belief tracking |
| EP3012833B1 (en) | 2013-06-19 | 2022-08-10 | Panasonic Intellectual Property Corporation of America | Voice interaction method, and device |
| US20190265802A1 (en) * | 2013-06-20 | 2019-08-29 | Uday Parshionikar | Gesture based user interfaces, apparatuses and control systems |
| US10884493B2 (en) * | 2013-06-20 | 2021-01-05 | Uday Parshionikar | Gesture based user interfaces, apparatuses and systems using eye tracking, head tracking, hand tracking, facial expressions and other user actions |
| US9832452B1 (en) | 2013-08-12 | 2017-11-28 | Amazon Technologies, Inc. | Robust user detection and tracking |
| WO2015066475A1 (en) | 2013-10-31 | 2015-05-07 | The University of North Carlina at Chapel Hill | Methods, systems, and computer readable media for leveraging user gaze in user monitoring subregion selection systems |
| US9110635B2 (en) * | 2013-12-03 | 2015-08-18 | Lenova (Singapore) Pte. Ltd. | Initiating personal assistant application based on eye tracking and gestures |
| JP6851133B2 (ja) | 2014-01-03 | 2021-03-31 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | ユーザに方向付けられた個人情報アシスタント |
| US10203762B2 (en) | 2014-03-11 | 2019-02-12 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
| US9342147B2 (en) | 2014-04-10 | 2016-05-17 | Microsoft Technology Licensing, Llc | Non-visual feedback of visual change |
| WO2016018488A2 (en) * | 2014-05-09 | 2016-02-04 | Eyefluence, Inc. | Systems and methods for discerning eye signals and continuous biometric identification |
| US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
| US10852838B2 (en) | 2014-06-14 | 2020-12-01 | Magic Leap, Inc. | Methods and systems for creating virtual and augmented reality |
| US9569174B2 (en) | 2014-07-08 | 2017-02-14 | Honeywell International Inc. | Methods and systems for managing speech recognition in a multi-speech system environment |
| US9645641B2 (en) * | 2014-08-01 | 2017-05-09 | Microsoft Technology Licensing, Llc | Reflection-based control activation |
| US20160042648A1 (en) * | 2014-08-07 | 2016-02-11 | Ravikanth V. Kothuri | Emotion feedback based training and personalization system for aiding user performance in interactive presentations |
| US10228904B2 (en) | 2014-11-12 | 2019-03-12 | Lenovo (Singapore) Pte. Ltd. | Gaze triggered voice recognition incorporating device velocity |
| WO2016076898A1 (en) | 2014-11-13 | 2016-05-19 | Intel Corporation | Facial spoofing detection in image based biometrics |
| JP2016131288A (ja) | 2015-01-13 | 2016-07-21 | 東芝テック株式会社 | 情報処理装置及びプログラム |
| US20160227107A1 (en) * | 2015-02-02 | 2016-08-04 | Lenovo (Singapore) Pte. Ltd. | Method and device for notification preview dismissal |
| JP2016161835A (ja) | 2015-03-03 | 2016-09-05 | シャープ株式会社 | 表示装置、制御プログラム、および制御方法 |
| US9791917B2 (en) * | 2015-03-24 | 2017-10-17 | Intel Corporation | Augmentation modification based on user interaction with augmented reality scene |
| US20180107275A1 (en) * | 2015-04-13 | 2018-04-19 | Empire Technology Development Llc | Detecting facial expressions |
| JP6558064B2 (ja) | 2015-05-08 | 2019-08-14 | 富士ゼロックス株式会社 | 認証装置および画像形成装置 |
| JP6739907B2 (ja) | 2015-06-18 | 2020-08-12 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 機器特定方法、機器特定装置及びプログラム |
| US10149958B1 (en) * | 2015-07-17 | 2018-12-11 | Bao Tran | Systems and methods for computer assisted operation |
| US10884503B2 (en) * | 2015-12-07 | 2021-01-05 | Sri International | VPA with integrated object recognition and facial expression recognition |
| US9990921B2 (en) | 2015-12-09 | 2018-06-05 | Lenovo (Singapore) Pte. Ltd. | User focus activated voice recognition |
| US9451210B1 (en) * | 2015-12-10 | 2016-09-20 | Google Inc. | Directing communications using gaze interaction |
| JP2017138476A (ja) | 2016-02-03 | 2017-08-10 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
| US20170289766A1 (en) * | 2016-03-29 | 2017-10-05 | Microsoft Technology Licensing, Llc | Digital Assistant Experience based on Presence Detection |
| KR101904889B1 (ko) * | 2016-04-21 | 2018-10-05 | 주식회사 비주얼캠프 | 표시 장치와 이를 이용한 입력 처리 방법 및 시스템 |
| US10046229B2 (en) | 2016-05-02 | 2018-08-14 | Bao Tran | Smart device |
| US20170315825A1 (en) * | 2016-05-02 | 2017-11-02 | John C. Gordon | Presenting Contextual Content Based On Detected User Confusion |
| WO2017203769A1 (ja) | 2016-05-23 | 2017-11-30 | アルプス電気株式会社 | 視線検出方法 |
| EP3267289B1 (en) | 2016-07-05 | 2019-02-27 | Ricoh Company, Ltd. | Information processing apparatus, position information generation method, and information processing system |
| US10192551B2 (en) | 2016-08-30 | 2019-01-29 | Google Llc | Using textual input and user state information to generate reply content to present in response to the textual input |
| US10127728B2 (en) * | 2016-09-30 | 2018-11-13 | Sony Interactive Entertainment Inc. | Facial feature views of user viewing into virtual reality scenes and integration of facial features into virtual reality views into scenes |
| US20180121432A1 (en) * | 2016-11-02 | 2018-05-03 | Microsoft Technology Licensing, Llc | Digital assistant integration with music services |
| US10467510B2 (en) | 2017-02-14 | 2019-11-05 | Microsoft Technology Licensing, Llc | Intelligent assistant |
| JP6828508B2 (ja) * | 2017-02-27 | 2021-02-10 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
| US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
| WO2018195099A1 (en) * | 2017-04-19 | 2018-10-25 | Magic Leap, Inc. | Multimodal task execution and text editing for a wearable system |
| US10366691B2 (en) * | 2017-07-11 | 2019-07-30 | Samsung Electronics Co., Ltd. | System and method for voice command context |
| EP3698359A1 (en) | 2017-10-18 | 2020-08-26 | Soapbox Labs Ltd. | Methods and systems for speech detection |
| US11016729B2 (en) | 2017-11-08 | 2021-05-25 | International Business Machines Corporation | Sensor fusion service to enhance human computer interactions |
| US11221669B2 (en) * | 2017-12-20 | 2022-01-11 | Microsoft Technology Licensing, Llc | Non-verbal engagement of a virtual assistant |
| US11423896B2 (en) * | 2017-12-22 | 2022-08-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Gaze-initiated voice control |
| US10650338B2 (en) | 2017-12-27 | 2020-05-12 | Pearson Education, Inc. | Automated registration and greeting process—custom queueing (security) |
| US20190246036A1 (en) | 2018-02-02 | 2019-08-08 | Futurewei Technologies, Inc. | Gesture- and gaze-based visual data acquisition system |
| US10540015B2 (en) | 2018-03-26 | 2020-01-21 | Chian Chiu Li | Presenting location related information and implementing a task based on gaze and voice detection |
| US11430171B2 (en) | 2018-04-03 | 2022-08-30 | Sri International | Explainable artificial intelligence |
| US10726521B2 (en) * | 2018-04-17 | 2020-07-28 | Google Llc | Dynamic adaptation of device interfaces in a voice-based system |
| US10853911B2 (en) * | 2018-04-17 | 2020-12-01 | Google Llc | Dynamic adaptation of images for projection, and/or of projection parameters, based on user(s) in environment |
| US10782986B2 (en) | 2018-04-20 | 2020-09-22 | Facebook, Inc. | Assisting users with personalized and contextual communication content |
| CN119179420A (zh) * | 2018-05-04 | 2024-12-24 | 谷歌有限责任公司 | 根据用户和自动化助理界面之间的距离来生成和/或适应自动化助理内容 |
| CN112236739B (zh) * | 2018-05-04 | 2024-05-17 | 谷歌有限责任公司 | 基于检测到的嘴运动和/或凝视的适配自动助理 |
| JP7277569B2 (ja) * | 2018-05-04 | 2023-05-19 | グーグル エルエルシー | 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し |
| WO2020050882A2 (en) * | 2018-05-04 | 2020-03-12 | Google Llc | Hot-word free adaptation of automated assistant function(s) |
| DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
| EP3803632A4 (en) | 2018-06-04 | 2022-03-02 | Disruptel, Inc. | Systems and methods for operating an output device |
| JP7240910B2 (ja) * | 2019-03-14 | 2023-03-16 | 本田技研工業株式会社 | 乗員観察装置 |
| US10681453B1 (en) * | 2019-06-12 | 2020-06-09 | Bose Corporation | Automatic active noise reduction (ANR) control to improve user interaction |
-
2018
- 2018-05-04 CN CN201880094290.7A patent/CN112236739B/zh active Active
- 2018-05-04 JP JP2021512357A patent/JP7471279B2/ja active Active
- 2018-05-04 KR KR1020207034907A patent/KR20210002722A/ko not_active Ceased
- 2018-05-04 US US16/606,030 patent/US11614794B2/en active Active
- 2018-05-04 WO PCT/US2018/031170 patent/WO2019212569A1/en not_active Ceased
- 2018-05-04 EP EP21156633.6A patent/EP3859494B1/en active Active
- 2018-05-04 KR KR1020237042404A patent/KR20230173211A/ko active Pending
- 2018-05-04 KR KR1020237026718A patent/KR102677096B1/ko active Active
- 2018-05-04 EP EP18727930.2A patent/EP3596584B1/en active Active
- 2018-05-04 EP EP23211832.3A patent/EP4343499A3/en active Pending
- 2018-05-04 CN CN202410569162.0A patent/CN118567472A/zh active Pending
-
2022
- 2022-11-25 JP JP2022188506A patent/JP7487276B2/ja active Active
-
2023
- 2023-03-27 US US18/126,717 patent/US20230229229A1/en active Pending
-
2024
- 2024-05-07 JP JP2024075262A patent/JP7749743B2/ja active Active
-
2025
- 2025-01-18 US US19/031,898 patent/US20250298462A1/en active Pending
Patent Citations (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000322098A (ja) | 1999-05-13 | 2000-11-24 | Denso Corp | 音声認識装置 |
| JP2005301742A (ja) | 2004-04-13 | 2005-10-27 | Denso Corp | 運転者の外観認識システム |
| JP2010224715A (ja) | 2009-03-23 | 2010-10-07 | Olympus Corp | 画像表示システム、デジタルフォトフレーム、情報処理システム、プログラム及び情報記憶媒体 |
| US20150161992A1 (en) | 2012-07-09 | 2015-06-11 | Lg Electronics Inc. | Speech recognition apparatus and method |
| JP2016502137A (ja) | 2012-11-16 | 2016-01-21 | エーテル シングス、 インコーポレイテッド | デバイス設定、対話および制御のための統一フレームワーク、および関連する方法、デバイスおよびシステム |
| WO2017002473A1 (ja) | 2015-06-30 | 2017-01-05 | ソニー株式会社 | 情報処理装置、情報処理方法及びプログラム |
| JP2017138536A (ja) | 2016-02-05 | 2017-08-10 | 株式会社Nttドコモ | 音声処理装置 |
| US20170330566A1 (en) | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed Volume Control for Speech Recognition |
| WO2018061173A1 (ja) | 2016-09-30 | 2018-04-05 | 株式会社オプティム | Tv会議システム、tv会議方法、およびプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| CN118567472A (zh) | 2024-08-30 |
| US20230229229A1 (en) | 2023-07-20 |
| EP3859494A1 (en) | 2021-08-04 |
| US20250298462A1 (en) | 2025-09-25 |
| KR20230121930A (ko) | 2023-08-21 |
| KR20210002722A (ko) | 2021-01-08 |
| KR102677096B1 (ko) | 2024-06-21 |
| US11614794B2 (en) | 2023-03-28 |
| EP3596584A1 (en) | 2020-01-22 |
| CN112236739A (zh) | 2021-01-15 |
| EP4343499A2 (en) | 2024-03-27 |
| WO2019212569A1 (en) | 2019-11-07 |
| JP7487276B2 (ja) | 2024-05-20 |
| JP2023014167A (ja) | 2023-01-26 |
| KR20230173211A (ko) | 2023-12-26 |
| CN112236739B (zh) | 2024-05-17 |
| JP2021521497A (ja) | 2021-08-26 |
| EP3859494B1 (en) | 2023-12-27 |
| EP4343499A3 (en) | 2024-06-05 |
| EP3596584B1 (en) | 2021-03-24 |
| US20200342223A1 (en) | 2020-10-29 |
| JP2024102239A (ja) | 2024-07-30 |
| JP7749743B2 (ja) | 2025-10-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7487276B2 (ja) | 検出された口運動および/または注視に基づく自動化アシスタントの適応 | |
| JP7581415B2 (ja) | 検出されたジェスチャおよび凝視に基づく自動化アシスタントの機能の呼び出し | |
| KR102714774B1 (ko) | 자동화된 어시스턴트 기능(들)의 핫-워드 프리 적응 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201209 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211228 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220329 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220725 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221125 |
|
| C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20221125 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20221205 |
|
| C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20221212 |
|
| A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20230113 |
|
| C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20230123 |
|
| C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20230130 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231201 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240409 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7471279 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |