JP6448950B2 - 音声対話装置及び電子機器 - Google Patents
音声対話装置及び電子機器 Download PDFInfo
- Publication number
- JP6448950B2 JP6448950B2 JP2014167856A JP2014167856A JP6448950B2 JP 6448950 B2 JP6448950 B2 JP 6448950B2 JP 2014167856 A JP2014167856 A JP 2014167856A JP 2014167856 A JP2014167856 A JP 2014167856A JP 6448950 B2 JP6448950 B2 JP 6448950B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- dialogue
- conversation
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Navigation (AREA)
Description
以下、本発明の実施形態について、詳細に説明する。
図1は、本実施形態に係る発明の音声対話システム(音声対話装置)101の概略を示す概略構成ブロック図である。音声対話システム101は、図1に示すように、当該システムを操作する操作者(使用者)1と音声対話するシステムであって、集音装置2、音声認識装置(ASR)3、話題管理装置(発話内容特定部)4、話題取得装置(応答内容取得部)5、一時保存装置6、ファイルシステム7、通信装置8、音声合成装置(TTS)9、音波出力装置10を備えている。
話題管理装置4は、話題取得装置5、一時保存装置6、ファイルシステム7、通信装置8を用いて、対話用データを取得する。
図2は、対話用データ(A1〜A4)のデータ構造の一例を示している。上記対話用データは、対話を行う際に、想定される応答を細分化した一単位を示している。
まず、図7を参照しながら、操作者1からの話かけによる対話処理のシーケンスについて説明する。
取得した話題データを話題管理装置4に出力(話題返却)する。ここで、話題取得装置5が取得する話題データは、テキストデータ(応答テキスト)である。
次に、図7に示すシーケンスにより操作者1に対する応答が完了した後、連続して会話を行うための処理について、図8に示すシーケンスを参照しながら以下に説明する。
次に、図8に示すシーケンスにより関連した話題データを取得した後、連続した会話の応答までの処理について、図9に示すシーケンスを参照しながら以下に説明する。
上記のシーケンス1〜3では、音声合成装置9を用いて話題データをPCMデータに変換していたが、音声合成装置9を用いずに、音波出力装置10において話題データを直接再生する場合の処理について、図10に示すシーケンスを参照しながら以下に説明する。
上記のシーケンス1〜4では、話題データをファイルシステム7から取得する例を示したが、話題データを外部機器、例えば、本音声対話システム101と通信ネットワークで接続された外部機器から取得する場合の処理について、図11に示すシーケンスを参照しながら以下に説明する。
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
まず、図13を参照しながら、操作者1からの話かけによる対話処理のシーケンスについて説明する。このシーケンスは、前記実施形態1の図7に示すシーケンスとほぼ同じであり、異なるのは、タイマ11を用いて音波出力装置10の音波出力のタイミングを制御している点である。
次に、連続した会話の応答までの処理について、図14に示すシーケンスを参照しながら以下に説明する。
本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
(1)想定される応答を予め細分化された単位(対話マークアップ言語)でメモリ上に保存しておくことで使用者の発話を効率的に、素早く応答させることができる。これにより、実行する電子機器の能力(CPUやメモリ等)に応じて、先読みや事前処理を行う量を調整することができる。
(2)想定される応答以外の内容で使用者が会話をした場合、会話が発散されたとみなし、適切な発話情報を、属性情報を元に検索することができる。
(3)データが比較的小さな単位でまとまるため非力な電子機器でも搭載・実行可能となる。
音声対話システム101、201の制御ブロック(特に話題管理装置4および話題取得装置5)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
本発明の態様1に係るデータ構造は、音声対話装置(音声対話システム101、102)の音声対話に用いられるデータのデータ構造であって、少なくとも、使用者(操作者1)に対して発話する発話内容(Speak)と、当該発話内容に対して会話が成り立つ応答内容(Return)と、当該発話内容の属性を示す属性情報(Entity)とを一つのセットとしたことを特徴としている。
Claims (7)
- 使用者と音声対話を行う音声対話装置であって、
使用者が発する音声を解析して発話内容を特定する発話内容特定部と、
上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容を、予め登録された対話用のデータから取得する応答内容取得部と、
上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部と、
を備え、
上記対話用のデータのデータ構造は、少なくとも、上記使用者に対して発話する上記発話内容と、当該発話内容に対して会話が成り立つ上記応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとし、さらに、上記発話内容に対して会話が成り立つ応答内容に関連した発話内容が登録された別データ構造を指定するデータ構造指定情報が含まれたデータ構造であることを特徴とする音声対話装置。 - 上記属性情報は、上記発話内容からさらに想定される応答内容を特定するためのキーワードであることを特徴とする請求項1に記載の音声対話装置。
- 上記発話内容に対して会話が成り立つ応答内容は、音声データで登録されていることを特徴とする請求項1また2に記載の音声対話装置。
- 上記対話用のデータをファイルとして登録する記憶装置が設けられていることを特徴とする請求項1〜3の何れか1項に記載の音声対話装置。
- 上記応答内容取得部は、ネットワークを介して上記音声対話装置外部から上記対話用のデータを取得することを特徴とする請求項1〜4の何れか1項に記載の音声対話装置。
- 使用者が発する音声を取得した時点からの経過時間を計測するタイマをさらに備え、
上記音声データ出力部は、
音声データを出力する直前の上記タイマによる計測時間を取得し、
上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、
上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力することを特徴とする請求項1〜5の何れか1項に記載の音声対話装置。 - 請求項1〜6の何れか1項に記載の音声対話装置を備えた電子機器。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014167856A JP6448950B2 (ja) | 2014-08-20 | 2014-08-20 | 音声対話装置及び電子機器 |
| PCT/JP2015/078633 WO2016027909A1 (ja) | 2014-08-20 | 2015-10-08 | データ構造、音声対話装置及び電子機器 |
| US15/328,169 US20170221481A1 (en) | 2014-08-20 | 2015-10-08 | Data structure, interactive voice response device, and electronic device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2014167856A JP6448950B2 (ja) | 2014-08-20 | 2014-08-20 | 音声対話装置及び電子機器 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016045253A JP2016045253A (ja) | 2016-04-04 |
| JP6448950B2 true JP6448950B2 (ja) | 2019-01-09 |
Family
ID=55350847
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2014167856A Expired - Fee Related JP6448950B2 (ja) | 2014-08-20 | 2014-08-20 | 音声対話装置及び電子機器 |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US20170221481A1 (ja) |
| JP (1) | JP6448950B2 (ja) |
| WO (1) | WO2016027909A1 (ja) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP3389043A4 (en) * | 2015-12-07 | 2019-05-15 | Yamaha Corporation | VOICE INTERACTION DEVICE AND VOICE INTERACTION METHOD |
| JP2018054790A (ja) * | 2016-09-28 | 2018-04-05 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
| JP7224116B2 (ja) * | 2018-06-15 | 2023-02-17 | シャープ株式会社 | 空気調和機 |
| JP6690767B1 (ja) * | 2019-09-30 | 2020-04-28 | 大日本印刷株式会社 | 対話シナリオのデータ構造、対話システム、サーバ装置、クライアント装置、及びコンピュータプログラム |
| JP7472727B2 (ja) * | 2020-09-04 | 2024-04-23 | 新東工業株式会社 | 対話システム、対話ロボット、プログラム、および情報処理方法 |
Family Cites Families (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0792993A (ja) * | 1993-09-20 | 1995-04-07 | Fujitsu Ltd | 音声認識装置 |
| JP2003091299A (ja) * | 2001-07-13 | 2003-03-28 | Honda Motor Co Ltd | 車載用音声認識装置 |
| US7519534B2 (en) * | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
| JP4729902B2 (ja) * | 2003-12-12 | 2011-07-20 | 株式会社豊田中央研究所 | 音声対話システム |
| US7487085B2 (en) * | 2004-08-24 | 2009-02-03 | International Business Machines Corporation | Method and system of building a grammar rule with baseforms generated dynamically from user utterances |
| JP4353212B2 (ja) * | 2006-07-20 | 2009-10-28 | 株式会社デンソー | 単語列認識装置 |
| US8374874B2 (en) * | 2006-09-11 | 2013-02-12 | Nuance Communications, Inc. | Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction |
| US8073681B2 (en) * | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
| US7949526B2 (en) * | 2007-06-04 | 2011-05-24 | Microsoft Corporation | Voice aware demographic personalization |
| US8374859B2 (en) * | 2008-08-20 | 2013-02-12 | Universal Entertainment Corporation | Automatic answering device, automatic answering system, conversation scenario editing device, conversation server, and automatic answering method |
| JP5195405B2 (ja) * | 2008-12-25 | 2013-05-08 | トヨタ自動車株式会社 | 応答生成装置及びプログラム |
| US20130211841A1 (en) * | 2012-02-15 | 2013-08-15 | Fluential, Llc | Multi-Dimensional Interactions and Recall |
| US8977555B2 (en) * | 2012-12-20 | 2015-03-10 | Amazon Technologies, Inc. | Identification of utterance subjects |
| JP6126870B2 (ja) * | 2013-03-01 | 2017-05-10 | 本田技研工業株式会社 | 音声対話システム及び音声対話方法 |
| US10726831B2 (en) * | 2014-05-20 | 2020-07-28 | Amazon Technologies, Inc. | Context interpretation in natural language processing using previous dialog acts |
-
2014
- 2014-08-20 JP JP2014167856A patent/JP6448950B2/ja not_active Expired - Fee Related
-
2015
- 2015-10-08 US US15/328,169 patent/US20170221481A1/en not_active Abandoned
- 2015-10-08 WO PCT/JP2015/078633 patent/WO2016027909A1/ja not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| WO2016027909A8 (ja) | 2016-04-14 |
| JP2016045253A (ja) | 2016-04-04 |
| US20170221481A1 (en) | 2017-08-03 |
| WO2016027909A1 (ja) | 2016-02-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
| US11361768B2 (en) | Utterance classifier | |
| KR102098136B1 (ko) | 응답을 제공하기 위한 디바이스 선택 | |
| AU2013252518B2 (en) | Embedded system for construction of small footprint speech recognition with user-definable constraints | |
| CN110211567A (zh) | 语音识别终端测评系统及方法 | |
| JP6448950B2 (ja) | 音声対話装置及び電子機器 | |
| CN102543071A (zh) | 用于移动设备的语音识别系统和方法 | |
| CN103514882B (zh) | 一种语音识别方法及系统 | |
| WO2020057624A1 (zh) | 语音识别的方法和装置 | |
| CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
| CN114495981A (zh) | 语音端点的判定方法、装置、设备、存储介质及产品 | |
| CN117059068A (zh) | 语音处理方法、装置、存储介质及计算机设备 | |
| KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
| JP6549009B2 (ja) | 通信端末及び音声認識システム | |
| KR102181583B1 (ko) | 음성인식 교감형 로봇, 교감형 로봇 음성인식 시스템 및 그 방법 | |
| CN111210812A (zh) | 一种人工智能语音中转系统 | |
| CN119889310B (zh) | 基于对话内容生成实时音频的方法、系统及电子设备 | |
| US10847158B2 (en) | Multi-modality presentation and execution engine | |
| JP6306447B2 (ja) | 複数の異なる対話制御部を同時に用いて応答文を再生する端末、プログラム及びシステム | |
| CN102938811A (zh) | 一种基于语音识别的家庭手机通话系统 | |
| CN108010518B (zh) | 一种语音交互设备的语音采集方法、系统及存储介质 | |
| JP7055327B2 (ja) | 会話収集装置、会話収集システム及び会話収集方法 | |
| CN103824560A (zh) | 中文语音识别系统 | |
| CN117238275A (zh) | 基于常识推理的语音合成模型训练方法、装置及合成方法 | |
| CN110534084B (zh) | 一种基于FreeSWITCH的智能语音控制方法及系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170323 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180515 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181205 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6448950 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |