JP2021131472A - Information processor, information processing method and program - Google Patents
Information processor, information processing method and program Download PDFInfo
- Publication number
- JP2021131472A JP2021131472A JP2020026870A JP2020026870A JP2021131472A JP 2021131472 A JP2021131472 A JP 2021131472A JP 2020026870 A JP2020026870 A JP 2020026870A JP 2020026870 A JP2020026870 A JP 2020026870A JP 2021131472 A JP2021131472 A JP 2021131472A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- user
- response
- proxy
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
【課題】対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法を実現する。【解決手段】ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。【選択図】図4PROBLEM TO BE SOLVED: To realize a device and a method for generating and outputting a response utterance on behalf of a user to a device utterance output by an interactive device. SOLUTION: A device utterance from a user utterance partner device, which is a user's utterance partner, is input, and a user proxy utterance is generated and output on behalf of the user. It has a response necessity determination unit for determining the necessity of user proxy utterance, and a response generation unit for generating user proxy utterance when it is determined that user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user behavior history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance. [Selection diagram] FIG. 4
Description
本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザの代わりに発話を行う情報処理装置、および情報処理方法、並びにプログラムに関する。 The present disclosure relates to an information processing device, an information processing method, and a program. More specifically, the present invention relates to an information processing device that speaks on behalf of the user, an information processing method, and a program.
昨今、ハンズフリーのユーザインターフェースとして多くの音声対話システムが実用化されている。
音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に基づく様々な処理や応答を行う。
Recently, many voice dialogue systems have been put into practical use as hands-free user interfaces.
The voice dialogue system analyzes the user's utterance input through the microphone, and performs various processes and responses based on the analysis result.
このようなシステムの一例として、例えば、車両に搭載されたカーナビ(カーナビゲーション)装置がある。
カーナビ装置は、運転者等のユーザ発話、例えば目的地の指定に関するユーザ発話を解析し、目的地までの経路の表示処理や、運転ガイドのためのアナウンス(システム発話)などを行う。
As an example of such a system, for example, there is a car navigation (car navigation) device mounted on a vehicle.
The car navigation device analyzes user utterances such as a driver, for example, user utterances related to designation of a destination, displays a route to the destination, and makes an announcement (system utterance) for a driving guide.
なお、ユーザ発話に従った処理を実行するカーナビ装置については、例えば、特許文献1(米国特許USP5,274,560号公報)に記載がある。
しかし、カーナビ装置のような音声対話システムに対して、ユーザは、発話を行うことが必要であり、これがユーザに心的負担を発生させることがある。例えば運転者が不慣れな道路を緊張しながら運転中に、カーナビへの発話内容を考えさせることは、運転者の運転への集中度を低下させてしまい、危険な状況に陥るといった可能性がある。
A car navigation device that executes processing according to a user's utterance is described in, for example, Patent Document 1 (US Pat. No. 5,274,560).
However, the user needs to speak to a voice dialogue system such as a car navigation device, which may cause a mental burden on the user. For example, if the driver is nervous while driving on an unfamiliar road and makes the driver think about the content of the utterance to the car navigation system, the driver's concentration on driving may be reduced and the driver may be in a dangerous situation. ..
なお、カーナビに限らず、その他の様々な音声対話システムを利用する場合、ユーザが音声対話システムから出力された問い合わせ発話等に対してタイミングよく応答するのは簡単ではない。特に、システムとの会話に不慣れなユーザにとっては容易ではなく、ユーザの負担となることが多い。 When using not only a car navigation system but also various other voice dialogue systems, it is not easy for the user to respond to inquiries and utterances output from the voice dialogue system in a timely manner. In particular, it is not easy for a user who is unfamiliar with conversation with the system, and it is often a burden on the user.
本開示は、例えば、上記問題点に鑑みてなされたものであり、例えばカーナビ装置のようにユーザ発話を解析して処理を行なう音声対話型の装置に対して、ユーザが発話を行わなくても、ユーザの代わりに発話を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。 The present disclosure has been made in view of the above problems, for example, even if the user does not speak to a voice interactive device that analyzes and processes the user's utterance, such as a car navigation device. , An information processing device that speaks on behalf of a user, an information processing method, and a program.
本開示の第1の側面は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置にある。
The first aspect of the disclosure is
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
The information processing device has a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.
さらに、本開示の第2の側面は、
情報処理装置において情報処理を実行する情報処理方法であり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法にある。
Further, the second aspect of the present disclosure is
It is an information processing method that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
This is an information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
さらに、本開示の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラムにある。
Further, the third aspect of the present disclosure is
A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
There is a program that executes a response generation process for generating a user proxy utterance when it is determined that a user proxy utterance is necessary in the response necessity determination process.
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。 The program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an information processing device or a computer system that can execute various program codes. By providing such a program in a computer-readable format, processing according to the program can be realized on an information processing device or a computer system.
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Still other objectives, features and advantages of the present disclosure will become apparent by more detailed description based on the examples of the present disclosure and the accompanying drawings described below. In the present specification, the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
本開示の一実施例の構成によれば、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
具体的には、例えば、ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。
本構成により、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
According to the configuration of one embodiment of the present disclosure, a device and a method for generating and outputting a response utterance on behalf of the user with respect to the device utterance output by the interactive device are realized.
Specifically, for example, the device utterance from the user utterance partner device, which is the user's utterance partner, is input, and the user substitute utterance is generated and output on behalf of the user. It has a response necessity determination unit that determines the necessity of a user proxy utterance, and a response generation unit that generates a user proxy utterance when it is determined that a user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user action history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance.
With this configuration, a device and a method for generating and outputting a response utterance on behalf of the user for the device utterance output by the interactive device are realized.
The effects described in the present specification are merely exemplary and not limited, and may have additional effects.
以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
1.本開示の情報処理装置の実行する処理の概要について
2.本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について
3.本開示のユーザ代行発話装置の構成例について
4.ユーザ代行発話装置の各構成部が実行する処理の詳細について
4−(1).発話検出部101が実行する処理の詳細について
4−(2).音声認識部102が実行する処理の詳細について
4−(3).応答要否判定部103が実行する処理の詳細について
4−(4).応答生成部104が実行する処理の詳細について
4−(5).音声合成部105が実行する処理の詳細について
5.情報処理装置のハードウェア構成例について
6.本開示の構成のまとめ
Hereinafter, the details of the information processing apparatus, the information processing method, and the program of the present disclosure will be described with reference to the drawings. The explanation will be given according to the following items.
1. 1. Outline of processing executed by the information processing apparatus of the
[1.本開示の情報処理装置の実行する処理の概要について]
まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
[1. Outline of processing executed by the information processing apparatus of the present disclosure]
First, the outline of the processing executed by the information processing apparatus of the present disclosure will be described with reference to FIGS. 1 and 1 and below.
前述したように、昨今、ハンズフリーのユーザインターフェースとして音声対話システムが様々な分野で利用されている。
音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に基づく様々な処理や応答を行うシステムであり、このようなシステムの一例として、例えば、車両に搭載されたカーナビ(カーナビゲーション)装置がある。
As mentioned above, recently, voice dialogue systems have been used in various fields as hands-free user interfaces.
A voice dialogue system is a system that analyzes user utterances input through a microphone and performs various processes and responses based on the analysis results. As an example of such a system, for example, a car navigation system mounted on a vehicle ( There is a car navigation) device.
カーナビ装置は、運転者等のユーザ発話、例えば目的地の指定に関するユーザ発話を解析し、目的地までの経路の表示処理や、運転ガイドのためのアナウンス(システム発話)などを行う。
しかし、カーナビ装置のような音声対話システムに対してユーザが発話を行う場合、ユーザの心的負担が発生しシステムとの対話が中断してしまう場合がある。
また、不慣れな道路を緊張しながら運転している運転者にカーナビへの発話内容を考えさせると、運転者の運転への集中度を低下させ、危険な状況に陥る可能性もある。
The car navigation device analyzes user utterances such as a driver, for example, user utterances related to designation of a destination, displays a route to the destination, and makes an announcement (system utterance) for a driving guide.
However, when the user speaks to a voice dialogue system such as a car navigation device, the user's mental burden may occur and the dialogue with the system may be interrupted.
In addition, if a driver who is driving on an unfamiliar road while being tense is made to think about the content of the utterance to the car navigation system, the driver's concentration on driving may be reduced and a dangerous situation may occur.
音声対話システムの利用例と問題点の具体例について図1以下を参照して説明する。
図1には、カーナビ装置をユーザ発話相手装置10として示している。
ユーザ1は、例えば車両の運転者である。
An example of using the voice dialogue system and a specific example of the problem will be described with reference to FIG. 1 and below.
FIG. 1 shows the car navigation device as the user
ユーザ1は、まず、ステップS11において、以下のユーザ発話を行う。
ユーザ発話=「東京タワーまでの経路を教えて」
このユーザ発話に対して、カーナビ装置であるユーザ発話相手装置10は、ステップS12において、以下の装置発話を行う。
装置発話=「東京タワーまでの経路には3つの候補があります。どれにしますか?」
First, the
User utterance = "Tell me the route to Tokyo Tower"
In response to this user utterance, the user
Device utterance = "There are three candidates for the route to Tokyo Tower. Which one do you want?"
ユーザ1が運転に集中しているような場合、この装置発話を聞き逃してしまうことがある。また、聞いていたとしても、とっさに判断できない場合もある。
このような場合、S13において、ユーザ1からのユーザ発話は行われず、その後、カーナビ装置は、処理を進めることができなくなる。
When the
In such a case, in S13, the user utterance is not performed from the
なお、ユーザ発話相手装置10はカーナビ装置に限らない。様々な対話型装置がユーザ発話相手装置10になり得る。
図2は、ユーザ発話相手装置10を英会話レッスン装置とした例である。
The user
FIG. 2 shows an example in which the user speaking
英会話レッスン装置であるユーザ発話相手装置10は、ステップS21において、以下の装置発話を行う。
装置発話=「Have you ever been to New York?」
The user
Device utterance = "Have you ever been to New York?"
ユーザ1は、この装置発話を聞き取れなかった場合や理解できない場合には、ステップS22において、ユーザ発話が行われない。その後、英会話レッスン装置であるユーザ発話相手装置10との対話が中断し、英会話レッスン装置は、処理を進めることができなくなる。
If the
図3は、ユーザ発話相手装置10をキャラクタ対話装置とした例である。なお、キャラクタ対話装置は、ユーザとキャラクタとの間で日常会話のような様々な対話を行うこと可能とした装置である。
キャラクタ対話装置であるユーザ発話相手装置10は、ステップS31において、以下の装置発話を行う。
装置発話=「今日はどこ行ったの?」
FIG. 3 shows an example in which the user
The user
Device utterance = "Where did you go today?"
ユーザ1は、この装置発話を聞き取れなかった場合や、何と答えるべきか迷ってしまった場合、あるいはいった場所の名前を忘れてしまったような場合には、ステップS32において、ユーザ発話が行われない。その後、キャラクタ対話装置であるユーザ発話相手装置10との対話が中断してしまう。
If the
このように、音声対話システムであるユーザ発話相手装置10に対して、ユーザ1がタイミングよくユーザ発話を行えない場面は多く、このような場合、ユーザ1と、ユーザ発話相手装置10との対話が中断し、ユーザ発話相手装置10側での処理が滞ってしまうことになる。
In this way, there are many situations in which the
本開示は、このような事態の発生を防止する。すなわち、ユーザ1の代わりに発話を実行するユーザ代行発話装置を提供する。
図4以下を参照して、本開示のユーザ代行発話装置が実行する処理の具体例について説明する。
The present disclosure prevents the occurrence of such a situation. That is, a user proxy utterance device that executes an utterance on behalf of the
A specific example of the process executed by the user proxy utterance device of the present disclosure will be described with reference to FIG. 4 and the following.
図4は、先に図1を参照して説明したカーナビ装置をユーザ発話相手装置10として示した図である。
図4には、さらに、ユーザ代行発話装置20を示している。
スマホ(スマートフォン)をユーザ代行発話装置20として示している。
FIG. 4 is a diagram showing the car navigation device described above with reference to FIG. 1 as the user
FIG. 4 further shows the user
The smartphone (smartphone) is shown as the user
なお、ユーザ代行発話装置20は、スマホ以外の装置、例えばPCや、タブレット端末であってもよい。さらにその他の専用の情報処理装置として実現することも可能である。また、カーナビ装置等のユーザ発話相手装置10に一体化した構成としてもよい。
The user
例えば、スマホ(スマートフォン)をユーザ代行発話装置20として利用する場合、ユーザ代行発話処理を実行するプログラム(アプリケーション)をスマホにインストールして利用する。
図4に示すユーザ代行発話装置20(スマホ)の処理例について説明する。
For example, when a smartphone (smartphone) is used as the user
A processing example of the user proxy utterance device 20 (smartphone) shown in FIG. 4 will be described.
なお、ユーザ1は例えば、車両の運転者である。
ユーザ1は、まず、ステップS11において、以下のユーザ発話を行う。
ユーザ発話=「東京タワーまでの経路を教えて」
このユーザ発話に対して、カーナビ装置であるユーザ発話相手装置10は、ステップS12において、以下の装置発話を行う。
装置発話=「東京タワーまでの経路には3つの候補があります。どれにしますか?」
The
First, the
User utterance = "Tell me the route to Tokyo Tower"
In response to this user utterance, the user
Device utterance = "There are three candidates for the route to Tokyo Tower. Which one do you want?"
ユーザ1は運転に集中しているような場合、この装置発話を聞き逃してしまうことがある。また、聞いていたとしても、とっさに判断できない場合がある。
このような場合、図4に示すユーザ代行発話装置20(スマホ)は、ステップS13において、ユーザ1の代わりに以下の「ユーザ代行装置発話」を行う。
ユーザ代行装置発話=「一番早い経路を選択して」
When the
In such a case, the user proxy utterance device 20 (smartphone) shown in FIG. 4 performs the following "user proxy utterance" instead of the
User proxy device utterance = "Select the fastest route"
このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわちカーナビ装置に入力される。
カーナビ装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図4の例では、東京タワーまでの3つの経路から、最も早く到着する1つの経路を選択する処理を行なう。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user
The car navigation device interprets this user proxy device utterance as a user speech and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 4, the process of selecting one route that arrives earliest from the three routes to Tokyo Tower is performed.
このように、ユーザ代行発話装置20(スマホ)が、ユーザ1の代わりに、ユーザ代行装置発話を実行することで、カーナビ装置は、ユーザ代行装置発話に応じた処理を進めることができ、処理を滞りなく実行することができる。
In this way, the user proxy utterance device 20 (smartphone) executes the user proxy device utterance instead of the
図5は、先に図2を参照して説明したユーザ発話相手装置10を英会話レッスン装置とした例である。
FIG. 5 is an example in which the user speaking
英会話レッスン装置であるユーザ発話相手装置10は、ステップS21において、以下の装置発話を行う。
装置発話=「Have you ever been to New York?」
The user
Device utterance = "Have you ever been to New York?"
先に図2を参照して説明した例では、ユーザ1は、この装置発話を聞き取れない、あるいは理解できず、即座にユーザ発話を行うことができない。
図5に示す例では、図5に示すユーザ代行発話装置20(スマホ)が、ステップS22において、ユーザ1の代わりに以下のユーザ代行装置発話を行う。
ユーザ代行装置発話=「Yes,I went to New York last summer.」
In the example described above with reference to FIG. 2, the
In the example shown in FIG. 5, the user substitute utterance device 20 (smartphone) shown in FIG. 5 performs the following user substitute utterance device instead of the
User proxy device utterance = "Yes, I want to New York last summer."
このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわち英会話レッスン装置に入力される。
英会話レッスン装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図5の例では、次の装置発話に移行することができる。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user
The English conversation lesson device interprets this user proxy device utterance as a user speech and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 5, it is possible to shift to the next device utterance.
図6は、先に図3を参照して説明したユーザ発話相手装置10をキャラクタ対話装置とした例である。
キャラクタ対話装置であるユーザ発話相手装置10は、ステップS31において、以下の装置発話を行う。
装置発話=「今日はどこ行ったの?」
FIG. 6 is an example in which the user
The user
Device utterance = "Where did you go today?"
ユーザ1は、この装置発話を聞き取れなかった場合や、何と答えるべきか迷ってしまった場合、あるいはいった場所の名前を忘れてしまったような場合、ユーザ発話を行うことができない。
If the
図6に示す例では、図6に示すユーザ代行発話装置20(スマホ)が、ステップS32において、ユーザ1の代わりに以下のユーザ代行装置発話を行う。
ユーザ代行装置発話=「美術館にいったよ」
In the example shown in FIG. 6, the user substitute utterance device 20 (smartphone) shown in FIG. 6 performs the following user substitute utterance device instead of the
User agency utterance = "I went to the museum"
このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわちキャラクタ対話装置に入力される。
キャラクタ対話装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図6の例では、次の装置発話に移行することができる。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user
The character dialogue device interprets this user proxy device utterance as a user speech, and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 6, it is possible to shift to the next device utterance.
[2.本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について]
次に、本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について説明する。
[2. Regarding an example of a specific dialogue sequence involving utterance of the user proxy utterance device of the present disclosure]
Next, an example of a specific dialogue sequence accompanied by the utterance of the user substitute utterance device of the present disclosure will be described.
図7は、先に図4を参照して説明したと同様、ユーザ発話相手装置10がカーナビ装置である場合のユーザ1と、ユーザ発話相手装置10(カーナビ装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.9までの以下の発話シーケンスを示している。
FIG. 7 shows the
Utterance No. 1-No. The following utterance sequences up to 9 are shown.
発話No.1(ユーザ発話)=ここからお台場までナビして
発話No.2(ユーザ発話相手装置(カーナビ装置))=かしこまりました。目的地は台場駅でよろしいですか
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
発話No.4(ユーザ発話相手装置(カーナビ装置))=かしこまりました。お台場海浜公園駅を目的地に設定します
発話No.5(ユーザ代行発話装置(スマホ))=うん。OK
発話No.6(ユーザ発話相手装置(カーナビ装置))=高速道路は利用しますか
発話No.7(ユーザ代行発話装置(スマホ))=うん。使って
発話No.8(ユーザ発話相手装置(カーナビ装置))=かしこまりました。高速道路を利用します。
発話No.9(ユーザ発話)=いや、今日は下道を使って
Utterance No. 1 (User utterance) = Navigating from here to Odaiba, utterance No. 2 (User utterance partner device (car navigation device)) = I'm clever. Are you sure you want to go to Odaiba Station? Utterance No. 3 (User proxy utterance device (smartphone)) = Speaking No. at Odaiba Kaihin Koen Station. 4 (User utterance partner device (car navigation device)) = I'm clever. Set Odaiba Kaihin Koen Station as the destination. Utterance No. 5 (User proxy utterance device (smartphone)) = Yeah. OK
Utterance No. 6 (User utterance partner device (car navigation device)) = Do you use the expressway? Utterance No. 7 (User proxy utterance device (smartphone)) = Yeah. Use utterance No. 8 (User utterance partner device (car navigation device)) = I'm clever. Take the highway.
Utterance No. 9 (user utterance) = No, today using the lower road
発話No.1は、ユーザ発話であり、ユーザが「ここからお台場までナビして」と発話している。
このユーザ発話に対して、ユーザ発話相手装置(カーナビ装置)が、以下の発話を行っている。
発話No.2(ユーザ発話相手装置(カーナビ装置))=かしこまりました。目的地は台場駅でよろしいですか
Utterance No. 1 is a user utterance, and the user utters "navigate from here to Odaiba".
In response to this user utterance, the user utterance partner device (car navigation device) makes the following utterances.
Utterance No. 2 (User utterance partner device (car navigation device)) = I'm clever. Are you sure you want to go to Odaiba Station?
この発話No.2(ユーザ発話相手装置(カーナビ装置))は、カーナビ装置からユーザに対する質問が含まれた発話である。
この質問に対して、ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに変わり、以下の応答を行う。
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
This utterance No. 2 (user utterance partner device (car navigation device)) is an utterance including a question from the car navigation device to the user.
When the user does not respond to this question and a predetermined time elapses, the user proxy utterance device (smartphone) changes to the user and makes the following response.
Utterance No. 3 (User proxy utterance device (smartphone)) = Odaiba Kaihin Koen Station
以下、発話N0.4〜発話N0.8まで、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間で対話が行われる。
ユーザは、この発話N0.4〜発話N0.8の対話に参加することなく、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間の対話を単に聞くのみとなる。
Hereinafter, from utterance N0.4 to utterance N0.8, a dialogue is performed between the user utterance partner device (car navigation device) and the user substitute utterance device (smartphone).
The user does not participate in the dialogue between the utterances N0.4 to N0.8, and simply listens to the dialogue between the user utterance partner device (car navigation device) and the user substitute utterance device (smartphone).
しかし、ユーザ発話相手装置(カーナビ装置)の発話No.8の発話、すなわち、
発話No.8(ユーザ発話相手装置(カーナビ装置))=かしこまりました。高速道路を利用します。
この発話を聞いたユーザは、以下のユーザ発話を行う。
発話No.9(ユーザ発話)=いや、今日は下道を使って
However, the utterance No. of the user utterance partner device (car navigation device). 8 utterances, i.e.
Utterance No. 8 (User utterance partner device (car navigation device)) = I'm clever. Take the highway.
The user who hears this utterance makes the following user utterance.
Utterance No. 9 (user utterance) = No, today using the lower road
これらの発話シーケンスに示すように、ユーザは、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザの意向に沿わない場合には、いつでも、その対話に参加し、ユーザの意向をユーザ発話相手装置(カーナビ装置)に伝えることが可能となる。 As shown in these utterance sequences, the user listens to the dialogue between the user utterance partner device (car navigation device) and the user proxy utterance device (smartphone), and whenever the user does not agree with the intention of the user, the user listens to the dialogue. It is possible to participate in the dialogue and convey the user's intention to the user utterance partner device (car navigation device).
このように、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザ発話相手装置20との対話を行っている。
ユーザ代行発話装置10(スマホ)の記憶部には、ユーザ発話相手装置20との対話に利用可能な「サンプル入力発話」と「応答発話」を対応付けた入力発話対応応答データベースが格納されており、ユーザ代行発話装置10(スマホ)は、この入力発話対応応答データベースに登録された情報から代行発話を選択して出力する。
In this way, the user substitute utterance device 10 (smartphone) has a dialogue with the user
In the storage unit of the user substitute utterance device 10 (smartphone), an input utterance correspondence response database that associates "sample input utterance" and "response utterance" that can be used for dialogue with the user
また、図7に示す対話シーケンスの中には、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザの意向を、ユーザ発話相手装置20(カーナビ装置)に伝えている代行発話が含まれる。
このように、ユーザ1の意向を含む代行発話を行うためには、ユーザ代行発話装置10(スマホ)は、ユーザ1の意思を推定する処理を行なう必要がある。
Further, in the dialogue sequence shown in FIG. 7, the user proxy utterance device 10 (smartphone) includes a proxy utterance that conveys the user's intention to the user speech partner device 20 (car navigation device) instead of the
As described above, in order to perform the proxy utterance including the intention of the
このユーザ意思推定処理のため、ユーザ代行発話装置10(スマホ)は、例えばユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報を参照する。
なお、ユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報の具体例については、後段で説明する。
For this user intention estimation process, the user proxy utterance device 10 (smartphone) refers to, for example, the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone).
A specific example of the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone) will be described later.
ユーザ代行発話装置10(スマホ)内の記憶部には、過去のユーザ1の行動の履歴情報が格納されている。
例えば、ユーザ1が頻繁に訪れる場所や、利用する道路等の情報が記録されている。
ユーザ代行発話装置10(スマホ)は、このユーザ行動履歴情報を参照して、ユーザ意思を推定して、ユーザ1の代行発話を決定して出力する。
In the storage unit in the user proxy utterance device 10 (smartphone), history information of past actions of the
For example, information such as a place frequently visited by the
The user proxy utterance device 10 (smartphone) refers to the user action history information, estimates the user's intention, determines the proxy utterance of the
なお、ユーザ代行発話装置10(スマホ)は、ユーザ行動履歴情報のみならず、その他の情報、例えば、ユーザプロファイル情報や、SNSサーバ等の外部サーバからの取得情報を参照してユーザの意向を推定して、ユーザ1の代行発話を決定する処理を行う場合もある。
これらの処理の具体例については後述する。
The user proxy utterance device 10 (smartphone) estimates the user's intention by referring not only to the user behavior history information but also other information such as user profile information and information acquired from an external server such as an SNS server. Then, a process of determining the proxy utterance of the
Specific examples of these processes will be described later.
図7に示す例では、例えば、以下の発話、すなわち、
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
この発話No.3は、ユーザ代行発話装置20(スマホ)が、ユーザ行動履歴情報を参照して、ユーザ1が「お台場」と発話した場合、ユーザ1は「お台場海浜公園駅」を意図している推定して行ったユーザ代行発話である。
In the example shown in FIG. 7, for example, the following utterance, that is,
Utterance No. 3 (User proxy utterance device (smartphone)) = Odaiba Kaihin Koen Station, and this utterance No. 3 is an estimation that when the user proxy utterance device 20 (smartphone) refers to the user behavior history information and the
また、発話No.6〜7の装置間の対話、すなわち、
発話No.6(ユーザ発話相手装置(カーナビ装置))=高速道路は利用しますか
発話No.7(ユーザ代行発話装置(スマホ))=うん。使って
この場合の発話No.7は、ユーザ代行発話装置20(スマホ)が、ユーザ行動履歴情報を参照して、ユーザ1が高速道路を頻繁に利用していることを確認して、この確認の下に、ユーザ1が、高速道路の利用を望んでいると判断して、上記の発話No.7のユーザ代行発話を行ったものである。
In addition, the utterance No. Dialogue between 6-7 devices, i.e.
Utterance No. 6 (User utterance partner device (car navigation device)) = Do you use the expressway? Utterance No. 7 (User proxy utterance device (smartphone)) = Yeah. Use the utterance No. in this case. In 7, the user proxy utterance device 20 (smartphone) refers to the user behavior history information and confirms that the
ただし、このときはたまたまユーザ本人の希望に沿わなかったため、発話No.9でユーザ本人が「今日は下道を使って」と訂正している。 However, at this time, it happened that the user did not meet his / her wishes, so the utterance No. In 9, the user himself corrected, "Today, use the lower road."
このように、ユーザ1は、ユーザ発話相手装置10(カーナビ装置)と、ユーザ代行発話装置20(スマホ)間で行われる対話を聞きながすことも可能であり、またユーザの意向に沿わない場合には、いつでも、その対話に参加し、ユーザの意向をユーザ発話相手装置10(カーナビ装置)に伝えることができる。
In this way, the
図8は、先に図5を参照して説明したと同様、ユーザ発話相手装置10が英会話レッスン装置である場合のユーザ1と、ユーザ発話相手装置10(英会話レッスン装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.4までの以下の発話シーケンスを示している。
FIG. 8 shows the
Utterance No. 1-No. The following utterance sequences up to 4 are shown.
発話No.1(ユーザ発話相手装置(英会話レッスン装置))=How was your holiday?
発話No.2(ユーザ代行発話装置(スマホ))=I went to my hometown.
発話No.3(ユーザ発話相手装置(英会話レッスン装置))=That's great! Where is your hometown?
発話No.4(ユーザ発話)=Hokkaido.
Utterance No. 1 (User utterance partner device (English conversation lesson device)) = How was your holiday?
Utterance No. 2 (user proxy utterance device (smartphone)) = I want to my homeown.
Utterance No. 3 (User utterance partner device (English conversation lesson device)) = That's great! Where is your homeown?
Utterance No. 4 (user utterance) = Hokkaido.
発話No.1は、ユーザ発話相手装置(英会話レッスン装置)の発話であり、英会話レッスン装置が「How was your holiday?」と発話している。
この発話No.1(ユーザ発話相手装置(英会話レッスン装置))は、英会話レッスン装置からユーザに対する質問が含まれた発話である。
Utterance No.
This utterance No. 1 (user utterance partner device (English conversation lesson device)) is an utterance including a question to the user from the English conversation lesson device.
この質問に対して、ユーザはどう答えるべきか迷って心的負担を感じたので、ユーザ本人は答えず、ユーザ代行発話装置(スマホ)に応答を任せた。
ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに代わり、以下の応答を行う。
発話No.2(ユーザ代行発話装置(スマホ))=I went to my hometown.
Since the user was wondering how to answer this question and felt a mental burden, the user himself did not answer and left the response to the user proxy utterance device (smartphone).
When the user does not respond and a predetermined time elapses, the user proxy utterance device (smartphone) takes the place of the user and makes the following response.
Utterance No. 2 (user proxy utterance device (smartphone)) = I want to my homeown.
ユーザ発話相手装置(英会話レッスン装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.3(ユーザ発話相手装置(英会話レッスン装置))=That's great! Where is your hometown?
この発話No.3(ユーザ発話相手装置(英会話レッスン装置))も、英会話レッスン装置からユーザに対する質問が含まれた発話である。
The user utterance partner device (English conversation lesson device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 3 (User utterance partner device (English conversation lesson device)) = That's great! Where is your homeown?
This utterance No. 3 (User utterance partner device (English conversation lesson device)) is also an utterance including a question to the user from the English conversation lesson device.
この質問に対して、ユーザは、ユーザ発話相手装置(英会話レッスン装置)の質問を理解したため、即座に、以下の発話No.4を発話する。
発話No.4(ユーザ発話)=Hokkaido.
In response to this question, the user understood the question of the user's utterance partner device (English conversation lesson device), and immediately, the following utterance No.
Utterance No. 4 (user utterance) = Hokkaido.
これらの発話シーケンスにおいても、ユーザは、ユーザ発話相手装置(英会話レッスン装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザが発話したいタイミングで対話に参加することが可能となる。 In these utterance sequences as well, the user can participate in the dialogue at the timing when the user wants to speak while listening to the dialogue performed between the user utterance partner device (English conversation lesson device) and the user substitute utterance device (smartphone). Will be.
なお、この図8に示す対話シーケンスにおいて、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザの過去の行動に関する情報を、ユーザ発話相手装置20(カーナビ装置)に伝えている。
ユーザ代行発話装置10(スマホ)が、ユーザ1の過去の行動について発話するためには、ユーザ代行発話装置10(スマホ)は、ユーザ1の過去の行動に関する情報を取得することが必要である。
In the dialogue sequence shown in FIG. 8, the user substitute utterance device 10 (smartphone) transmits information on the past behavior of the user to the user utterance partner device 20 (car navigation device) instead of the
In order for the user substitute utterance device 10 (smartphone) to speak about the past actions of the
前述したように、ユーザ代行発話装置10(スマホ)の記憶部にはユーザ行動履歴情報が格納されており、ユーザ代行発話装置10(スマホ)のデータ処理部は、記憶部に格納されたユーザ行動履歴情報を参照して、参照結果に応じて発話を実行する。
ユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報の具体例については、後段で説明する。
As described above, the user action history information is stored in the storage unit of the user substitute utterance device 10 (smartphone), and the data processing unit of the user substitute utterance device 10 (smartphone) stores the user action stored in the storage unit. Refer to the history information and execute the utterance according to the reference result.
A specific example of the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone) will be described later.
図9は、先に図6を参照して説明したと同様、ユーザ発話相手装置10がキャラクタ対話装置である場合のユーザ1と、ユーザ発話相手装置10(キャラクタ対話装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.6までの以下の発話シーケンスを示している。
FIG. 9 shows the
Utterance No. 1-No. The following utterance sequences up to 6 are shown.
発話No.1(ユーザ発話相手装置(キャラクタ対話装置))=こんにちは。私とお話しましょう
発話No.2(ユーザ代行発話装置(スマホ))=じゃあ、まずは名前を教えて
発話No.3(ユーザ発話相手装置(キャラクタ対話装置))=花子です。あなたは?
発話No.4(ユーザ代行発話装置(スマホ))=太郎だよ
発話No.5(ユーザ発話相手装置(キャラクタ対話装置))=太郎さんですか。趣味について聞きたいです。
発話No.6(ユーザ発話)=僕の趣味は映画観賞だよ。映画館に行くこともあるけど、だいたいは動画配信で見てるよ
Utterance No. 1 (User utterance partner device (character dialogue device)) = Hello. Let's talk with me Utterance No. 2 (User proxy utterance device (smartphone)) = Then, first tell me your name and utterance No. 3 (User utterance partner device (character dialogue device)) = Hanako. you?
Utterance No. 4 (User proxy utterance device (smartphone)) = Taro Speaking No. 5 (User utterance partner device (character dialogue device)) = Mr. Taro? I want to ask about my hobbies.
Utterance No. 6 (User utterance) = My hobby is watching movies. Sometimes I go to the cinema, but most of the time I watch it on video.
発話No.1は、ユーザ発話相手装置(キャラクタ対話装置)の発話であり、キャラクタ対話装置が「こんにちは。私とお話しましょう」と発話している。
この発話に対して、ユーザはどう答えるべきか迷って心的負担を感じたので、ユーザ本人は答えず、ユーザ代行発話装置(スマホ)に応答を任せた。
ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに代わり、以下の発話を行う。
発話No.2(ユーザ代行発話装置(スマホ))=じゃあ、まずは名前を教えて
Utterance No.
Since the user was wondering how to answer this utterance and felt a mental burden, the user himself did not answer and left the response to the user proxy utterance device (smartphone).
When the user does not respond and a predetermined time elapses, the user proxy utterance device (smartphone) takes the place of the user and makes the following utterances.
Utterance No. 2 (User proxy utterance device (smartphone)) = Then, first tell me your name
ユーザ発話相手装置(キャラクタ対話装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.3(ユーザ発話相手装置(キャラクタ対話装置))=花子です。あなたは?
The user utterance partner device (character dialogue device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 3 (User utterance partner device (character dialogue device)) = Hanako. you?
この発話No.3(ユーザ発話相手装置(キャラクタ対話装置))は、キャラクタ対話装置からユーザに対する質問が含まれた発話である。 This utterance No. 3 (user utterance partner device (character dialogue device)) is an utterance including a question from the character dialogue device to the user.
この質問に対して、ユーザは、自分の名前を答えるだけで何の面白みも感じなかったので、代行対話システムに応答を任せた。
ユーザ代行発話装置(スマホ)がユーザに代わり、以下の発話を行う。
発話No.4(ユーザ発話)=太郎だよ
To this question, the user didn't find it interesting just to answer his name, so he left the response to the proxy dialogue system.
The user proxy utterance device (smartphone) makes the following utterances on behalf of the user.
Utterance No. 4 (user utterance) = Taro
ユーザ発話相手装置(キャラクタ対話装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.5(ユーザ発話相手装置(キャラクタ対話装置))=太郎さんですか。趣味について聞きたいです。
The user utterance partner device (character dialogue device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 5 (User utterance partner device (character dialogue device)) = Mr. Taro? I want to ask about my hobbies.
この発話No.3(ユーザ発話相手装置(キャラクタ対話装置))は、キャラクタ対話装置からユーザに対する質問が含まれた発話である。 This utterance No. 3 (user utterance partner device (character dialogue device)) is an utterance including a question from the character dialogue device to the user.
この質問に対して、ユーザは、趣味について語れる点で面白みを感じたので、ユーザ本人が応答した。すなわち、以下のユーザ発話を行った。
発話No.6(ユーザ発話)=僕の趣味は映画観賞だよ。映画館に行くこともあるけど、だいたいは動画配信で見てるよ
The user responded to this question because he found it interesting to be able to talk about his hobbies. That is, the following user utterances were made.
Utterance No. 6 (User utterance) = My hobby is watching movies. Sometimes I go to the cinema, but most of the time I watch it on video.
これらの発話シーケンスにおいても、ユーザは、ユーザ発話相手装置(キャラクタ対話装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザが発話したいタイミングで対話に参加することが可能となる。 Also in these utterance sequences, the user can participate in the dialogue at the timing when the user wants to speak while listening to the dialogue performed between the user utterance partner device (character dialogue device) and the user substitute utterance device (smartphone). It becomes.
なお、この図9に示す対話シーケンスにおいて、ユーザ代行発話装置10(スマホ)は、発話No.2において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、名前を問いかける発話を行っている。
また、ユーザ代行発話装置10(スマホ)は、発話No.4において、ユーザ1の代わりにユーザの名前を答えている。
In the dialogue sequence shown in FIG. 9, the user proxy utterance device 10 (smartphone) has the utterance No. In 2, the user utterance partner device 20 (character dialogue device) is uttered by asking for a name.
In addition, the user proxy utterance device 10 (smartphone) has an utterance No. In 4, the user's name is answered instead of the
ユーザ代行発話装置10(スマホ)が、発話No.2において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、名前を問いかける発話を行うためには、ユーザ発話相手装置20(キャラクタ対話装置)からの発話に対する応答発話を行う機能が必要である。 The user proxy utterance device 10 (smartphone) has the utterance No. In 2, in order to make a name-questioning utterance to the user utterance partner device 20 (character dialogue device), a function of uttering a response to the utterance from the user utterance partner device 20 (character dialogue device) is required. ..
前述したように、ユーザ代行発話装置10(スマホ)の記憶部には、ユーザ発話相手装置20との対話に利用可能な「サンプル入力発話」と「応答発話」を対応付けた入力発話対応応答データベースが格納されている。
ユーザ代行発話装置10(スマホ)は、この入力発話対応応答データベースに登録された情報を参照して、図9の発話No.2における発話、すなわちユーザ発話相手装置20(キャラクタ対話装置)に対する発話を行う。
なお、入力発話対応応答データベースの具体例については後段で説明する。
As described above, the storage unit of the user substitute utterance device 10 (smartphone) is an input utterance correspondence response database in which "sample input utterance" and "response utterance" that can be used for dialogue with the user
The user proxy utterance device 10 (smartphone) refers to the information registered in the input utterance correspondence response database, and refers to the utterance No. of FIG. The utterance in 2, that is, the utterance to the user utterance partner device 20 (character dialogue device) is performed.
A specific example of the input utterance correspondence response database will be described later.
また、ユーザ代行発話装置10(スマホ)が、発話No.4において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、ユーザの名前を発話するためには、ユーザ代行発話装置10(スマホ)はユーザの名前を知らなければならない。
ユーザ代行発話装置10(スマホ)のデータ処理部は、ユーザ代行発話装置10(スマホ)の記憶部に格納されたユーザプロファイル情報からユーザ名を取得し、発話No.4において、ユーザの名前を説明する発話を行っている。
In addition, the user proxy utterance device 10 (smartphone) has the utterance No. In 4, in order to speak the user's name to the user's utterance partner device 20 (character dialogue device), the user proxy utterance device 10 (smartphone) must know the user's name.
The data processing unit of the user substitute utterance device 10 (smartphone) acquires the user name from the user profile information stored in the storage unit of the user substitute utterance device 10 (smartphone), and obtains the user name from the user profile information, and the utterance No. In 4, the utterance explaining the user's name is given.
図4〜図9を参照して説明したように、本開示のユーザ代行発話装置10を利用すれば、ユーザ発話相手装置20との対話の多くをユーザ代行発話装置10に任せ、ユーザが積極的に対話に参加したい状況において、いつでもユーザ発話を行い、対話に参加することが可能となる。
As described with reference to FIGS. 4 to 9, if the user
ユーザが積極的に対話に参加したい状況とは、具体的には、例えばユーザ代行発話装置10の発話に訂正が必要な状況や、ユーザ1が自身でユーザ発話を行うことに心的負担を感じない場合、ユーザ1が自身で説明したい話題がある場合などである。
Specifically, the situation in which the user wants to actively participate in the dialogue is, for example, a situation in which the utterance of the user
[3.本開示のユーザ代行発話装置の構成例について]
次に、本開示の情報処理装置であるユーザ代行発話装置の構成例について説明する。
[3. About the configuration example of the user substitute utterance device of this disclosure]
Next, a configuration example of the user proxy utterance device, which is the information processing device of the present disclosure, will be described.
図10は、本開示の情報処理装置であるユーザ代行発話装置20の構成例を示す図である。
図10に示すように、ユーザ代行発話装置20は、音声入力部(マイク)21と、データ処理部22と、音声出力部(スピーカー)23と、通信部24、記憶部25、画像入力部(カメラ)を有する。
FIG. 10 is a diagram showing a configuration example of the user
As shown in FIG. 10, the user
音声入力部(マイク)21は、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力する。
The voice input unit (microphone) 21 inputs the
音声入力部(マイク)21が入力した音声データは、データ処理部22に入力される。
データ処理部22は、入力音声の解析を実行して、ユーザ代行発話装置20が発話すべきか否かを判定し、発話すべきと判定した場合は、発話を生成して音声出力部(スピーカー)23に出力する。
The voice data input by the voice input unit (microphone) 21 is input to the
The
音声出力部(スピーカー)23は、データ処理部22の生成した発話を、ユーザ発話代行装置発話53として出力する。
The voice output unit (speaker) 23 outputs the utterance generated by the
通信部24は、データ処理部22における発話実行要否判定や発話生成に必要となる情報を外部サーバや、ユーザ発話相手装置10から取得するための通信を行う。
記憶部25には、データ処理部22における発話実行要否判定や発話生成に必要となる情報が記録されている。先に説明したユーザ行動履歴情報や、入力発話対応応答データベース、ユーザプロファイル情報等が記録されている。
The
The
画像入力部(カメラ)は、例えばユーザ1の顔画像や目の画像を撮影する。撮影画像は例えばユーザ1の視線方向解析に利用され、ユーザ発話がユーザ発話相手装置10に向けて行われた発話であるか否かの判定処理等に利用される。
The image input unit (camera) captures, for example, a face image or an eye image of the
次に、ユーザ代行発話装置20のデータ処理部22や記憶部24の詳細構成について、図11を参照して説明する。
Next, the detailed configuration of the
図11は、ユーザ代行発話装置20のデータ処理部22や記憶部24の詳細構成を示す図である。
図11に示すように、ユーザ代行発話装置20のデータ処理部22は、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105を有する。
また、ユーザ代行発話装置20の記憶部24には、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123が格納されている。
FIG. 11 is a diagram showing a detailed configuration of the
As shown in FIG. 11, the
Further, the
また、通信部25は、ユーザ発話相手装置10や、外部サーバ150との通信を実行する。
外部サーバ150は、例えばユーザ代行発話装置20が入力発話を理解するために利用可能な情報、ユーザ代行発話装置20が発話を行うために必要となる情報などを格納したサーバである。例えば、一般常識等を格納した知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等、様々なデータベースによって構成される。
Further, the
The
また、ユーザ発話相手装置10が例えばカーナビ装置の場合、カーナビ装置の記憶部にはカーナビ装置を搭載した車両の走行履歴情報が記録されている場合がある。
データ処理部22は、通信部25を介して走行履歴情報を取得し、ユーザ行動を解析して発話生成時の参考情報として利用することができる。
Further, when the user
The
次に、データ処理部22の構成要素、すなわち、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105、これらの各構成要素の実行する処理について説明する。
Next, the components of the
発話検出部101は、音声入力部(マイク)21を介して、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力する。
発話検出部101は、音声入力部(マイク)21から音声データが入力されたことを検出した場合、入力した音声データを音声認識部102に出力する。
The
When the
音声認識部102は、発話検出部101から入力した音声データに基づくテキスト(発話テキスト)の生成処理を実行する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキスト(発話テキスト)データに変換する。
音声認識部102の生成した発話テキストは、応答要否判定部103に出力される。
The
The
The utterance text generated by the
なお、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別し、その判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けた属性情報として、発話テキストともに応答要否判定部103に出力する。
なお、音声認識部102と別の構成として発話主体を識別する発話主体識別部を設け、発話主体識別部において生成した発話主体識別子(発話主体識別タグ)を発話テキストともに応答要否判定部103に出力する構成としてもよい。
In the
(A) Is it the user-spoken
(B) Whether the user utterance partner
It is determined which of these voices (a) and (b) is, and the utterance subject identifier (speaking subject identification tag) indicating the discrimination information is used as the attribute information associated with the utterance text, and it is necessary to respond to both the utterance texts. Output to the
In addition, a utterance subject identification unit for identifying the utterance subject is provided as a configuration different from the
なお、発話検出部101から入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかの判別処理は、音声データに含まれる音声周波数の解析により行う。カーナビ装置のようなユーザ発話相手装置出力音声52はスピーカーからの出力音声であるため、スピーカーの特性に応じた所定範囲の周波数データのみによって構成され、人の発話に含まれる周波数とは異なる。
The process of determining whether the voice data input from the
音声認識部102は、発話検出部101から入力した音声データの周波数特性を解析して、入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかを判別し、判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けて応答要否判定部103に出力する。
The
応答要否判定部103は、音声認識部102から、発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力し、入力した発話テキストが、ユーザ発話相手装置出力音声52に基づいて生成された発話テキストである場合、この発話テキスト、すなわち、ユーザ発話相手装置出力音声52の出力発話に基づくテキストに対して、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。
The response
応答要否判定部103は、応答発話を行う必要があるか否かを判定する処理として例えば以下の処理を行なう。
ユーザ発話相手装置10の発話完了タイミングから予め規定したしきい値時間(例えば2秒)内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
The response
If the utterance of the
すなわち、ユーザ発話相手装置10の発話完了タイミングからの経過時間を計測して、予め規定したしきい値時間(例えば2秒)内のユーザ1からの発話がない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
That is, when the elapsed time from the utterance completion timing of the user
応答要否判定部103が、ユーザ代行発話装置20が応答すべきと判定した場合、応答要否判定部103は、次の応答生成部104に応答生成を要求する。
When the response
応答生成部104は、応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
この発話テキストの生成に際しては、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123の利用が可能である。また、通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報の利用も可能である。
これらの処理の具体例については後段で説明する。
When the response generation request is input from the response
When generating this utterance text, various information stored in the
Specific examples of these processes will be described later.
応答生成部104の生成した発話テキストは、音声合成部105に入力される。
音声合成部105は、応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、生成した合成音声を、音声出力部(スピーカー)23を介して図に示すユーザ発話代行装置出力音声53として出力する。
The utterance text generated by the
The
なお、本実施例ではユーザ発話相手装置10とユーザ代行発話装置20を別々の装置として構成しているが、両者を一つの装置として構成することも可能である。例えば、カーナビ装置内にユーザの代行発話を行うユーザ代行発話実行部を設けた構成としてもよい。
In this embodiment, the user
[4.ユーザ代行発話装置の各構成部が実行する処理の詳細について]
次に、ユーザ代行発話装置20のデータ処理部22の構成要素、すなわち、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105、これらの各構成要素の具体的な処理の詳細について、順次、説明する。
[4. Details of the processing executed by each component of the user proxy utterance device]
Next, the components of the
(4−(1).発話検出部101が実行する処理の詳細について)
発話検出部101は、前述したように音声入力部(マイク)21を介して、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力し、入力した音声データを音声認識部102に出力する。
(4- (1). Details of the process executed by the utterance detection unit 101)
As described above, the
発話検出部101の入力、出力、および実行処理は以下の通りである。
(a)入力
音声データ
入力には、ユーザ発話相手装置10、ユーザ1の発話音声の他、様々なノイズ音も含まれる。
(b)出力
発話音声(ユーザ発話相手装置10の発話音声、または、ユーザ1の発話音声)
出力は、様々なノイズ音を排除した発話音声データである。
The input, output, and execution processes of the
(A) Input The voice data input includes various noise sounds in addition to the utterance voice of the user
(B) Output utterance voice (speech voice of user
The output is spoken voice data excluding various noise sounds.
(c)処理
様々なノイズ音が含まれる音声データから、ユーザ発話相手装置10、またはユーザ1の発話音声の音声発話区間を抽出して出力データとしての発話音声データを生成する。
なお、音声区間検出処理には、既存の音声区間検出プログラムが利用可能である。例えば自由な利用や改変が認められている既存のオープンソースソフトウェアを利用してもよい。
(C) Processing The utterance voice data of the utterance voice of the user
An existing voice section detection program can be used for the voice section detection process. For example, existing open source software that is allowed to be freely used or modified may be used.
(4−(2).音声認識部102が実行する処理の詳細について)
音声認識部102は、前述したように発話検出部101から入力した音声データに基づくテキスト(発話テキスト)の生成処理を実行する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを1つまたは複数の単語から構成されるテキスト(発話テキスト)データに変換する。
(4- (2). Details of the process executed by the voice recognition unit 102)
The
The
さらに、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別し、その判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキスト対応の属性情報として、発話テキストともに応答要否判定部103に出力する。
Further, the
(A) Is it the user-spoken
(B) Whether the user utterance partner
It is determined which of these voices (a) and (b) is, and the utterance subject identifier (speaking subject identification tag) indicating the discrimination information is used as the attribute information corresponding to the utterance text, and the response necessity determination unit is used for both the utterance texts. Output to 103.
音声認識部102の入力、出力、および実行処理は以下の通りである。
(a)入力
発話音声(ユーザ発話相手装置10の発話音声、または、ユーザ1の発話音声)
(b)出力
発話主体識別子(発話主体識別タグ)を付加した発話テキスト(ユーザ発話相手装置10の発話テキスト、または、ユーザ本人の発話テキスト)
The input, output, and execution processes of the
(A) Input utterance voice (speech voice of user
(B) Output utterance text to which the utterance subject identifier (speaking subject identification tag) is added (the utterance text of the user
(c)処理
発話音声をテキストに自動変換する。この処理(音声認識)には、例えば上述したASR(Automatic Speech Recognition)機能を実行するプログラムを利用する。オープンソースソフトウェアを利用してもよい。
(C) Processing Automatically convert spoken voice to text. For this process (speech recognition), for example, a program that executes the above-mentioned ASR (Automatic Speech Recognition) function is used. Open source software may be used.
さらに、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別する。
Further, the voice data input from the
(A) Is it the user-spoken
(B) Whether the user utterance partner
It is determined which of these voices (a) and (b) is.
前述したように、カーナビ装置のようなユーザ発話相手装置出力音声52はスピーカーからの出力音声であるため、スピーカーの特性に応じた所定範囲の周波数データのみによって構成され、人の発話に含まれる周波数とは異なる。
音声認識部102は、発話検出部101から入力した音声データの周波数特性を解析して、入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかを判別し、判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けて応答要否判定部103に出力する。
As described above, since the
The
(4−(3).応答要否判定部103が実行する処理の詳細について)
応答要否判定部103は、前述したように音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力し、入力した発話テキストに設定されたタグがユーザ発話相手装置出力音声52の出力発話に基づく発話テキストである場合、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。
(4- (3). Details of the process executed by the response necessity determination unit 103)
The response
具体的には、例えば、ユーザ発話相手装置10の発話完了タイミングから予め規定したしきい値時間(例えば2秒)内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
応答要否判定部103が、ユーザ代行発話装置20が応答すべきと判定した場合、応答要否判定部103は、次の応答生成部104に応答生成を要求する。
Specifically, for example, when the utterance of the
When the response
応答要否判定部103の入力、出力、および実行処理は以下の通りである。
(a)入力
発話主体識別子(発話主体識別タグ)が設定された発話テキスト
(b)出力
ユーザ代行発話装置20による応答要否を示す応答要否識別値(例えば必要=1,不要=0)
The input, output, and execution processing of the response
(A) Speaking text in which the input utterance subject identifier (speaking subject identification tag) is set (b) Output utterance necessity identification value indicating the necessity of response by the user substitute utterance device 20 (for example, necessary = 1, unnecessary = 0)
出力である応答要否識別値(例えば必要=1,不要=0)は、応答生成部104に出力される。
なお、ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)を応答生成部104に出力する場合は、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストも併せて応答生成部104に出力する。
The response necessity identification value (for example, necessary = 1, unnecessary = 0), which is an output, is output to the
When the response necessity identification value (necessity = 1) indicating the response required by the user
(c)処理
音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストが、ユーザ発話相手装置出力音声52の出力発話に基づく発話テキストである場合、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。
(C) Processing When the utterance text in which the utterance subject identifier (speaker subject identification tag) generated by the
応答要否判定部103は、例えば以下の処理を行なう。
ユーザ発話相手装置10の発話の完了タイミングから予め規定したしきい値時間(N秒(例えばN=2))内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
The response
When the utterance of the
この判定処理において必要となる、ユーザ発話相手装置10の発話完了タイミングや、ユーザ発話検出タイミングは、音声認識部102から応答要否判定部103へ発話主体識別子(発話主体識別タグ)の設定された発話テキストが入力された時間に基づいて判定する。あるいは、発話検出部101において発話が検出された発話検出時間を用いてもよい。
The utterance completion timing of the user
なお、ユーザ1の代わりにユーザ代行発話装置20が応答すべきか否かを判定する応答要否判定処理の処理態様としては、以下のような複数の異なる処理態様があり、これらのいずれか、あるいは複数の処理例を組み合わせて実行することが可能である。
In addition, there are a plurality of different processing modes as follows as the processing mode of the response necessity determination processing for determining whether or not the user
(処理例1) ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。
(Processing Example 1) At each completion timing of each utterance of the user
(処理例2) 上記(処理例1)の判定処理、すなわち、ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。この処理に併せて、さらに、しきい値時間内に検出されたユーザ発話がユーザ発話相手装置10に対してなされた発話であるか否かを判定してユーザ代行発話装置20の応答要否を判定する処理を行なう。
例えば、しきい値時間内にユーザ1の発話が検出されても、ユーザ発話相手装置10に対してなされたものでない場合には、ユーザ代行発話装置20の応答は必要と判定するといった処理を行う。
(Processing Example 2) The determination process of the above (Processing Example 1), that is, for each utterance completion timing of the user
For example, even if the utterance of the
(処理例3) ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、ユーザ発話相手装置10の発話完了タイミングからユーザ発話検出までの経過時間計測を行わず、すべてユーザ代行発話装置20の応答が必要と判定する。
(Processing Example 3) If the user
(処理例4) ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、しきい値時間を初回のNより短いN秒(例えばN=1)に設定して、ユーザ代行発話装置20の応答要否を判定する。
(Processing Example 4) If the user
(処理例5) ユーザ発話相手装置10の発話完了タイミングからの経過時間(N秒)だけでなく、その他の情報を基にしてユーザ1本人が発話するのを待つかどうか、すなわち、ユーザ代行発話装置20の応答要否を判定する。
(Processing Example 5) Whether or not to wait for one user to speak based on not only the elapsed time (N seconds) from the utterance completion timing of the user
例えば、ユーザ代行発話装置20に備えられた画像入力部(カメラ)26を用いてユーザ1の顔画像を撮影し、撮影した顔画像からユーザ1の視線情報を解析する。
この視線解析結果として、ユーザ1が、発話相手装置10の方を見ていると判定された場合は自ら話す意思があると判断して、ユーザ本人の発話が入力されるのを待つ。
For example, the face image of the
As a result of this line-of-sight analysis, when it is determined that the
あるいは、ユーザ1の画像を撮影し、撮影した画像からユーザ1のジェスチャー(合図)を解析し、「ユーザ本人が発話したいことを示すジェスチャー」や、「ユーザ本人が発話したくないことを示すジェスチャー」を解析して、このジェスチャー解析結果に基づいて、ユーザ代行発話装置20の応答要否を判定してもよい。
Alternatively, an image of the
ユーザ代行発話装置20の応答要否判定部103の実行する複数の応答要否判定処理シーケンスについて、図12〜図15に示すフローチャートを参照して説明する。
A plurality of response necessity determination processing sequences executed by the response
まず、図12に示すフローチャートを参照して、上述した(処理例1)、すなわち、
(処理例1)ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。
この(処理例1)の処理シーケンスについて説明する。
First, with reference to the flowchart shown in FIG. 12, the above-mentioned (processing example 1), that is,
(Processing Example 1) At each completion timing of each utterance of the user
The processing sequence of this (processing example 1) will be described.
(ステップS101)
まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS101において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
(Step S101)
First, in step S101, the response
なお、前述したように、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
As described above, the
(A) Is it the user-spoken
(B) Whether the user utterance partner
これら(a),(b)のいずれの音声であるかの識別情報、すなわち、発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを応答要否判定部103に入力する。
The identification information of which of the voices (a) and (b) is used, that is, the utterance text in which the utterance subject identifier (speaking subject identification tag) is set as additional information is input to the response
応答要否判定部103は、この発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS102以下の処理を実行する。
When the response
(ステップS102)
次に、応答要否判定部103は、ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。
(Step S102)
Next, in step S102, the response
なお、この判定処理において必要となる、ユーザ発話相手装置10の発話完了タイミングや、ユーザ発話検出タイミングは、音声認識部102から応答要否判定部103へ発話主体識別子(発話主体識別タグ)の設定された発話テキストが入力された時間に基づいて判定する。あるいは、発話検出部101における発話検出時間を用いてもよい。
The utterance completion timing of the user
ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS102の判定はYesとなり、ステップS103に進む。
If the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user
すなわち、例えば音声認識部102から応答要否判定部103に対するユーザ発話相手装置10の発話テキスト入力タイミングから規定しきい値時間(N秒)内に、音声認識部102からユーザ1の発話したユーザ発話テキストが入力された場合には、ステップS102の判定はYesとなり、ステップS103に進む。
That is, for example, the user utterance spoken by the
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合には、ステップS102の判定はYesとなり、ステップS103に進む。
On the other hand, if the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user
すなわち、例えば音声認識部102から応答要否判定部103に対するユーザ発話相手装置10の発話テキスト入力タイミングから規定しきい値時間(N秒)内に、音声認識部102からユーザ1の発話したユーザ発話テキストが入力されなかった場合には、ステップS102の判定はNoとなり、ステップS104に進む。
That is, for example, the user utterance spoken by the
(ステップS103)
ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS103の処理を実行する。
(Step S103)
In step S102, when the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user
この場合、応答要否判定部103は、ステップS103において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。
In this case, in step S103, the response
この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理が実行されない。
In this case, the
(ステップS104)
一方、ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合には、ステップS104の処理を実行する。
(Step S104)
On the other hand, in step S102, if the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user
この場合、応答要否判定部103は、ステップS104において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。
In this case, in step S104, the response
この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。
In this case, the
次に、図13に示すフローを参照して、上記(処理例2)、すなわち、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合において、そのユーザ発話が、カーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定して、判定結果に応じて処理を変更する例について説明する。
Next, referring to the flow shown in FIG. 13, when the user utterance is detected within the specified threshold time (N seconds) from the above (processing example 2), that is, the utterance completion timing of the user
具体的には、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであると判定した場合は、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。
Specifically, it is said that the user utterance detected within the specified threshold time (N seconds) from the utterance completion timing of the user
一方、ユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものでないと判定した場合は、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。
On the other hand, when it is determined that the user utterance is not made to the user
なお、ユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かの判定は、例えばユーザ発話の意味解析結果に基づいて実行することができる。ユーザ発話の意味解析により、そのユーザ発話が直前のユーザ発話相手装置10の発話に対する応答としてなされているか否かを判定することができる。
例えば、ユーザ発話のテキストを解析し、カーナビ装置への操作命令(ユーザ発話相手装置10の発話に対する応答)であるか否かを判定することができる。
It should be noted that the determination as to whether or not the user utterance is made to the user
For example, it is possible to analyze the text of the user's utterance and determine whether or not it is an operation command to the car navigation device (a response to the utterance of the user's utterance partner device 10).
あるいは、ユーザ代行発話装置20に装着された画像入力部(カメラ)26によって撮影されたユーザ1の顔画像から、ユーザ1の視線方向を解析して、ユーザ1の視線がユーザ発話相手装置10に向けられている場合には、ユーザ発話がユーザ発話相手装置10に対してなされた発話であると判定し、ユーザ1の視線がユーザ発話相手装置10に向けられていない場合には、ユーザ発話がユーザ発話相手装置10に対してなされた発話でないと判定してもよい。
Alternatively, the line-of-sight direction of the
図13に示すフローの各ステップの処理について説明する。
(ステップS121〜S122)
ステップS121〜S122の処理は、図12を参照して説明したフローのステップS101〜S102の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 13 will be described.
(Steps S121-S122)
The processes of steps S121 to S122 are the same as the processes of steps S101 to S102 of the flow described with reference to FIG.
すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS121において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
That is, first, the response
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the
応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS122以下の処理を実行する。
When the response
応答要否判定部103は、ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。
In step S122, the response
ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS122の判定はYesとなり、ステップS123に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS122の判定はNoとなり、ステップS125に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user
(ステップS123)
ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS123の処理を実行する。
(Step S123)
In step S122, when the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user
この場合、応答要否判定部103は、ステップS123において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定する。
例えばユーザ発話の意味解析結果や、ユーザの顔画像からの視線情報の解析結果を利用して判定する。
In this case, in step S123, the response
For example, the determination is made using the semantic analysis result of the user's utterance and the analysis result of the line-of-sight information from the user's face image.
検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS124に進む。
一方、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS125に進む。
If it is determined that the detected user utterance is made to the user
On the other hand, if it is determined that the detected user utterance is not made to the user
(ステップS124)
ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS123において、そのユーザ発話が、ユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS124に進む。
(Step S124)
In step S122, it is determined that the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user
この場合、応答要否判定部103は、ステップS124において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。
In this case, in step S124, the response
この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。
In this case, the
(ステップS125)
一方、ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合、または、ステップS123において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話が、ユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS125に進む。
(Step S125)
On the other hand, in step S122, when the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user
この場合、応答要否判定部103は、ステップS125において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。
In this case, in step S125, the response
この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。
In this case, the
次に、図14に示すフローを参照して、上記(処理例3)に従った処理シーケンスについて説明する。 Next, a processing sequence according to the above (processing example 3) will be described with reference to the flow shown in FIG.
(処理例3)は、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、ユーザ発話相手装置10の発話完了タイミングからユーザ発話検出までの経過時間計測を行わず、すべてユーザ代行発話装置20の応答が必要と判定する処理例である。
図14を参照して、この処理例に従った処理シーケンスについて説明する。
(Processing example 3) starts from the utterance completion timing of the user
A processing sequence according to this processing example will be described with reference to FIG.
図14に示すフローの各ステップの処理について説明する。
(ステップS141)
ステップS141の処理は、図12を参照して説明したフローのステップS101の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 14 will be described.
(Step S141)
The process of step S141 is the same process as the process of step S101 of the flow described with reference to FIG.
すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS141において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS142以下の処理を実行する。
That is, first, the response
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the
When the response
(ステップS142)
次に、応答要否判定部103は、ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われているか否かを判定する。
(Step S142)
Next, in step S142, the response
行われている場合はステップS142の判定がYesとなり、ステップS144に進む。
行われていない場合はステップS142の判定がNoとなり、ステップS143に進む。
なお、行われていない場合のケースとしては、入力したユーザ発話相手装置10の発話テキストの直前の発話が存在しない場合と、入力したユーザ発話相手装置10の発話テキストの直前の発話がユーザ1のユーザ発話である場合の2通りの場合が含まれる。
If this is done, the determination in step S142 is Yes, and the process proceeds to step S144.
If it has not been performed, the determination in step S142 becomes No, and the process proceeds to step S143.
In the case where the utterance is not performed, the utterance immediately before the input utterance text of the user
(ステップS143)
ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定した場合、ステップS143に進む。
(Step S143)
If it is determined in step S142 that the utterance of the user
この場合、応答要否判定部103は、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。
In this case, the response
ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS143の判定はYesとなり、ステップS145に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS143の判定はNoとなり、ステップS144に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user
(ステップS144)
ステップS144の処理は、以下のいずれかの場合に実行する処理である。
(a)ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていると判定した場合、
(b)ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかったと判定した場合、
(Step S144)
The process of step S144 is a process to be executed in any of the following cases.
(A) In step S142, when it is determined that the utterance of the user
(B) In step S142, it is determined that the user
上記(a),(b)のいずれかの場合、応答要否判定部103は、ステップS144において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。
In the case of any of the above (a) and (b), in step S144, the response
この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。
In this case, the
(ステップS145)
一方、ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定した場合、応答要否判定部103は、ステップS145の処理を実行する。
(Step S145)
On the other hand, in step S142, it is determined that the user
この場合、応答要否判定部103は、ステップS145において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。
In this case, in step S145, the response
この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。
In this case, the
次に、図15を参照して、図13を参照して説明した(処理例2)と図14を参照して説明した(処理例3)を併せて実行する処理例(処理例2+3)について説明する。 Next, with respect to a processing example (processing example 2 + 3) in which (processing example 2) described with reference to FIG. 13 and (processing example 3) described with reference to FIG. 14 are executed together with reference to FIG. explain.
図15に示すフローの各ステップの処理について説明する。
(ステップS151)
ステップS151の処理は、図12を参照して説明したフローのステップS101の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 15 will be described.
(Step S151)
The process of step S151 is the same process as the process of step S101 of the flow described with reference to FIG.
すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS151において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS152以下の処理を実行する。
That is, first, the response
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the
When the response
(ステップS152)
次に、応答要否判定部103は、ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われているか否かを判定する。
(Step S152)
Next, in step S152, the response
行われている場合はステップS152の判定がYesとなり、ステップS155に進む。
行われていない場合はステップS152の判定がNoとなり、ステップS153に進む。
なお、行われていない場合のケースとしては、入力したユーザ発話相手装置10の発話テキストの直前の発話が存在しない場合と、入力したユーザ発話相手装置10の発話テキストの直前の発話がユーザ1のユーザ発話である場合の2通りの場合が含まれる。
If this is done, the determination in step S152 is Yes, and the process proceeds to step S155.
If it has not been performed, the determination in step S152 becomes No, and the process proceeds to step S153.
In the case where the utterance is not performed, the utterance immediately before the input utterance text of the user
(ステップS153)
ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定した場合、ステップS153に進む。
(Step S153)
If it is determined in step S152 that the utterance of the user
この場合、応答要否判定部103は、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。
In this case, the response
ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS153の判定はYesとなり、ステップS154に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS153の判定はNoとなり、ステップS155に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user
(ステップS154)
ステップS154の処理は、以下の場合に実行する処理である。
ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定した場合。
(Step S154)
The process of step S154 is a process to be executed in the following cases.
In step S152, it is determined that the utterance of the user
この場合、応答要否判定部103は、ステップS154において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定する。
例えばユーザ発話の意味解析結果や、ユーザの顔画像からの視線情報の解析結果を利用して判定する。
In this case, in step S154, the response
For example, the determination is made using the semantic analysis result of the user's utterance and the analysis result of the line-of-sight information from the user's face image.
検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS156に進む。
一方、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS155に進む。
If it is determined that the detected user utterance is made to the user
On the other hand, if it is determined that the detected user utterance is not made to the user
(ステップS155)
ステップS155の処理は、以下のいずれかの場合に実行する処理である。
(a)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていると判定した場合、
(b)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかったと判定した場合、
(c)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS154において、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合。
(Step S155)
The process of step S155 is a process to be executed in any of the following cases.
(A) In step S152, when it is determined that the utterance of the user
(B) In step S152, it is determined that the user
(C) In step S152, it is determined that the user
上記(a),(b),(c)いずれかの場合、応答要否判定部103は、ステップS155において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。
In any of the above cases (a), (b), and (c), in step S155, the response
この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。
In this case, the
(ステップS156)
一方、ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS154において、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合、応答要否判定部103は、ステップS156の処理を実行する。
(Step S156)
On the other hand, in step S152, it is determined that the user
この場合、応答要否判定部103は、ステップS156において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。
In this case, in step S156, the response
この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。
In this case, the
以上、応答要否判定部103の実行する処理例について、複数の処理例を説明した。
応答要否判定部103は、さらに、例えば、応答が「必要」(=1)と判定した場合、ユーザ代行発話装置20が発話(応答)しようとしていることをユーザ1に伝えるためのシグナルを出力する構成としてもよい。
具体的には、シグナルとして、例えばLEDランプの点滅、効果音の出力、あるいは「私がお答えします」といった発話を出力するといった構成である。
As described above, a plurality of processing examples have been described with respect to the processing examples executed by the response
Further, for example, when the response
Specifically, as a signal, for example, a blinking LED lamp, an output of a sound effect, or an utterance such as "I will answer" is output.
(4−(4).応答生成部104が実行する処理の詳細について)
次に、応答生成部104が実行する処理の詳細について説明する。
(4- (4). Details of the process executed by the response generator 104)
Next, the details of the process executed by the
応答生成部104は、前述したように応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
この発話テキストの生成に際しては、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123の利用が可能である。また、通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報の利用も可能である。
When the response generation request is input from the response
When generating this utterance text, various information stored in the
応答生成部104の入力、出力、および実行処理は以下の通りである。
(a)入力
ユーザ代行発話装置20による応答要否を示す応答要否識別値(例えば必要=1,不要=0)
ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)が入力される場合は、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストも併せて入力される。
The input, output, and execution processing of the
(A) Response necessity identification value indicating whether or not the response is required by the input user proxy utterance device 20 (for example, required = 1, unnecessary = 0)
When the response necessity identification value (necessary = 1) indicating the response requirement by the user
(b)出力
ユーザ代行発話装置20の出力する発話内容を示す発話テキスト
(B) Output A utterance text indicating the utterance content output by the user
(c)処理
応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
(C) Processing When a response generation request is input from the response
応答生成部104は、ユーザ代行発話装置20から出力する発話の発話テキストを生成する際、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123や、外部サーバ150やユーザ発話相手装置10からの取得情報を利用する。
When the
入力発話対応応答データベース121の具体例を図16に示す。
図16に示すように、入力発話対応応答データベース121は、
(A)サンプル入力発話
(B)応答発話
これら(A),(B)の対応データを多数格納したデータベースである。
A specific example of the input utterance
As shown in FIG. 16, the input utterance
(A) Sample input utterance (B) Response utterance This is a database that stores a large number of corresponding data of (A) and (B).
(A)サンプル入力発話は、ユーザ発話相手装置10の発話を想定した発話テキストのサンプルデータである。
(B)応答発話は、ユーザ発話相手装置10の発話を想定した発話テキストのサンプルデータ各々に対して、ユーザ代行発話装置20から出力する発話の発話テキストデータである。
(A) The sample input utterance is sample data of the utterance text assuming the utterance of the user
(B) The response utterance is the utterance text data of the utterance output from the user
ユーザ代行発話装置20の応答生成部104は、例えば、まず、応答要否判定部103から応答要否識別値(必要=1)に併せて発話テキストを入力する。すなわち、ユーザ発話相手装置10の発話テキストを入力する。
次に、入力した発話テキストと類似度が最も高い「(A)サンプル入力発話」を、入力発話対応応答データベース121から選択する。
さらに、選択した「(A)サンプル入力発話」に対応付けた登録された「(B)応答発話」を選択し、選択した「(B)応答発話」の発話テキストを出力発話とする処理を行なう。
For example, the
Next, "(A) sample input utterance" having the highest degree of similarity to the input utterance text is selected from the input utterance
Further, the registered "(B) response utterance" associated with the selected "(A) sample input utterance" is selected, and the utterance text of the selected "(B) response utterance" is used as the output utterance. ..
ただし、入力発話対応応答データベース121の登録データの参照のみでは、1つのユーザ代行発話装置20から出力する発話テキストを決定できない場合がある。
このような場合には、ユーザ行動履歴情報122、ユーザプロファイル情報123や、外部サーバ150やユーザ発話相手装置10からの取得情報の利用が行われる。
However, it may not be possible to determine the utterance text to be output from one user
In such a case, the user
ユーザ行動履歴情報122の具体例を図17に示す。
図17に示すように、ユーザ行動履歴情報122には、ユーザ1の過去の行動履歴情報として、
(a)日時
(b)行動
これら(a),(b)の対応データが多数格納されている。
A specific example of the user
As shown in FIG. 17, the user
(A) Date and time (b) Behavior A large number of corresponding data of these (a) and (b) are stored.
ユーザ代行発話装置20の応答生成部104は、入力発話対応応答データベース121の登録データの参照のみでは、1つのユーザ代行発話装置20から出力する発話テキストを決定できない場合、ユーザ行動履歴情報122の登録データや、その他の情報を参照して、ユーザ1の意向を推定して、ユーザ1に代わる代行発話を決定する。
When the
ユーザ行動履歴情報122以外のその他の情報とは、例えば、ユーザプロファイル情報123、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々な外部サーバからの取得情報や、ユーザ発話相手装置10の蓄積データ等である。
応答生成部104は、これらの情報を取得、参照して、ユーザ1の意向を推定して、ユーザ1に代わる代行発話を決定する。
Other information other than the user
The
なお、ユーザプロファイル情報123には、ユーザ1の性別、年齢、趣味、家族構成等が記録されている。
また、外部サーバ150には、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々なサーバが含まれる。
例えばSNSサーバには、ユーザ1がSNSを利用して行った発話や画像等が登録されている。ユーザ代行発話装置20の応答生成部104は、例えばSNSサーバに登録されたユーザ1の発話や投稿画像を解析することでユーザの意向を推定する処理を行なう。
The
Further, the
For example, in the SNS server, utterances, images, and the like made by the
以下、応答生成部104の実行する処理の具体例について説明する。
応答要否判定部103からの入力として、
ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)が入力され、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力した場合の処理について説明する。
Hereinafter, a specific example of the processing executed by the
As an input from the response
When a response necessity identification value (necessary = 1) indicating the response required by the user
入力発話テキスト、すなわち、ユーザ発話相手装置10の発話テキストが以下の発話テキストであったとする。
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
It is assumed that the input utterance text, that is, the utterance text of the user
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "
このような発話テキストが入力された場合、応答生成部104は、例えば、以下のようなユーザ代行発話装置20の発話テキストを生成する。
代行装置発話テキスト=『お台場海浜公園駅にしてください』
When such an utterance text is input, the
Proxy device utterance text = "Please make it Odaiba Kaihin Koen Station"
応答生成部104は、上記のような、ユーザ発話相手装置10の発話への応答としてふさわしい発話を生成するため、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123を利用し、また、必要に応じて通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報を利用する。
The
応答生成部104が実行する具体的な応答発話の生成処理シーケンスについて説明する。
A specific response utterance generation processing sequence executed by the
まず、応答生成部104は、応答要否判定部103から応答要否識別値(必要=1)に併せて入力した発話テキスト、すなわち、ユーザ発話相手装置10の発話テキストと類似度が最も高い「(A)サンプル入力発話」を、入力発話対応応答データベース121から選択する。
First, the
例えば、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」が、
『かしこまりました。行き先は台場駅でよろしいですか』
上記のサンプル入力発話であるとする。
For example, "(A) sample input utterance" of the input utterance
"Understood. Are you sure you want to go to Odaiba Station? "
It is assumed that the above sample input utterance is used.
なお、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」を選択する際の判定指標値とする「類似度」は、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定することができる。
The "similarity" used as the determination index value when selecting "(A) sample input utterance" in the input utterance
具体例として、
ユーザ発話相手装置10の発話、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
この発話と、入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データである、図16に示すエントリ122とエントリ201の2つの「(A)サンプル入力発話」との類似度を比較する。
エントリ121のサンプル入力発話=『かしこまりました。目的地を決定してもよいですか』
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらの2つの「(A)サンプル入力発話」との類似度を比較する。
As a specific example
User utterance The utterance of the
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "
The degree of similarity between this utterance and the two "(A) sample input utterances" of
Sample input utterance of
Sample input utterance of
The degree of similarity with these two "(A) sample input utterances" is compared.
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
まず、この相手装置発話テキストを形態素単位の単語に分割する。
『かしこまり/まし/た/。/目的/地/は/台場/駅/で/よろしい/です/か』
(形態素(単語)13語)
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "
First, the utterance text of the other device is divided into words in morpheme units.
"Understood/. / Purpose / Location / Ha / Odaiba / Station / De / OK / Is / Ka ”
(13 morphemes (words))
一方、エントリ122のサンプル入力発話=『かしこまりました。目的地を決定してもよいですか』
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらの2つの「(A)サンプル入力発話」についても、形態素単位の単語に分割する。
On the other hand, the sample input utterance of
Sample input utterance of
These two "(A) sample input utterances" are also divided into words in morpheme units.
エントリ122=『かしこまり/まし/た/。/目的/地/を/決定/し/て/も/よい/です/か』(形態素(単語)13語)
エントリ201=『かしこまり/まし/た/。/行き先/は/台場/駅/で/よろしい/です/か』(形態素(単語)12語)
相手装置発話テキストとエントリ122との共通する形態素の数は8(かしこまり/まし/た/。/目的/地/です/か)となる。
相手装置発話テキストとエントリ201との共通する形態素の数は11(かしこまり/まし/た/。/は/台場/駅/で/よろしい/です/か)であり、
The number of common morphemes between the utterance text of the other device and the
The number of morphemes common to the other device's utterance text and
この結果、応答生成部104は、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』と最も類似度の高い入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データを、
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
上記エントリであると判断する。
As a result, the
The other party's utterance text = "I'm clever. "Are you sure you want to go to Odaiba Station?"
Sample input utterance of
Judge that it is the above entry.
なお、応答生成部104は、類似度判定処理に際して、上記の共通形態素や、単語や、フレーズ等の数の比較のみならず、例えば「目的地」と「行き先」のように、表記は違っても意味的に近い単語やフレーズがあることを考慮したより柔軟な類似度算出を行ってもよい。この場合の具体的処理としては、例えば形態素(単語)や、フレーズの分散表現を用いて類似度解析を行う処理がある。
In the similarity determination process, the
なお、図16に示す入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データである、図16に示す、
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
エントリ202のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらは全く同じサンプル入力発話である。
It should be noted that the registered data of "(A) sample input utterance" of the input utterance
Sample input utterance of
Sample input utterance of
These are exactly the same sample input utterances.
すなわち、入力発話対応応答データベース121に登録されたこれら2つのエントリ201,202が、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』と最も類似度の高いエントリとして選択されることになる。
That is, these two
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? ”Will be selected as the entry with the highest degree of similarity.
このように、入力発話対応応答データベース121の「(A)サンプル入力発話」のエントリとして、相手装置発話テキストに対する類似度が最も高い同一のサンプル入力発話が登録された複数のエントリが検出された場合、応答生成部104は、以下のいずれかの処理を実行する。
(a)ランダムにどちらか一方を選択する。
(b)その他の情報、すなわち、ユーザ行動履歴情報122、ユーザプロファイル情報123、外部サーバ150やユーザ発話相手装置10からの取得情報を利用して選択する。
In this way, when a plurality of entries in which the same sample input utterance having the highest similarity to the utterance text of the other device is registered are detected as the entries of "(A) sample input utterance" in the input utterance
(A) Randomly select one or the other.
(B) Other information, that is, the user
例えば、ユーザ行動履歴情報122を利用して選択する処理を行なう場合、ユーザ行動履歴情報122に、ユーザ1の行動履歴として、「お台場海浜公園駅」を頻繁に訪れていることが確認された場合、エントリ201の応答発話、すなわち、
応答発話=『お台場海浜公園駅にしてください』
この応答発話を選択するといった処理を行なうことができる。
For example, when performing a selection process using the user
Response utterance = "Please make it Odaiba Kaihin Koen Station"
Processing such as selecting this response utterance can be performed.
この他、ユーザプロファイル(氏名、年齢、性別)、SNSでの発言(どのような話題に関心を持ち、情報発信をしているか)などの情報を参照して決定する処理を尾込なってもよい。 In addition to this, even if the process of deciding by referring to information such as user profile (name, age, gender), remarks on SNS (what kind of topic you are interested in and disseminating information) is included. good.
なお、ユーザ行動履歴情報122や、その他の情報を用いても候補を一つに絞ることができなかった場合は、残った候補の中からランダムに選択した候補を出力してもよいし、ユーザ1本人に対して、応答を依頼する発話を行うようにしてもよい。
If the candidate cannot be narrowed down to one even by using the user
また、応答生成部104の付加的な機能として、生成する発話テキストを、ユーザ本人に適した言葉遣いに変換する処理を行なう構成としてもよい。例えば、ユーザ1に合わせて、人称代名詞(例えば、私、俺、ぼく)や文末表現(例えば、かしら、かな、だよ)等、ユーザ1のよく利用する表現を適用する構成としてもよい。このユーザの固有表現については、例えばユーザプロファイル情報123や、外部サーバ150を構成するSNSサーバ等の登録データを参照して取得する。
Further, as an additional function of the
図18は、応答生成部104の詳細構成例を示す図である。
図18に示すように応答生成部104は、代行発話選択部151と、代行発話表現変換部152を有する。
FIG. 18 is a diagram showing a detailed configuration example of the
As shown in FIG. 18, the
代行発話選択部151は、応答要否判定部103から応答生成要求とともに、図18に示す「ユーザ発話相手装置10の発話テキスト」201を入力する。
代行発話選択部151は、この入力テキストに対して、ユーザ代行発話装置20から出力するための発話に対応する発話テキストの選択処理を行なう。
The substitute
The substitute
発話テキスト選択処理は、記憶部24内の入力発話対応応答データベース121から選択する。
すなわち、先に図16を参照して説明した、
(A)サンプル入力発話
(B)応答発話
これらの対応データを登録した入力発話対応応答データベース121から選択する。
The utterance text selection process is selected from the input utterance
That is, it has been described above with reference to FIG.
(A) Sample input utterance (B) Response utterance Select from the input utterance
代行発話選択部151は、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」を選択する。
前述したように、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定する。
The substitute
As mentioned above, for example, the multiplicity of words and phrases contained in an utterance can be used. For example, morphological analysis is performed to determine the degree of similarity based on the number of common morphemes.
なお、入力発話対応応答データベース121の「(A)サンプル入力発話」のエントリとして、相手装置発話テキストに対する類似度が最も高い同一のサンプル入力発話が登録された複数のエントリが検出された場合、代行発話選択部151は、以下のいずれかの処理を実行する。
(a)ランダムにどちらか一方を選択する。
(b)その他の情報、すなわち、ユーザ行動履歴情報122、ユーザプロファイル情報123、外部サーバ150やユーザ発話相手装置10からの取得情報を利用して選択する。
If, as entries for "(A) sample input utterance" in the input utterance
(A) Randomly select one or the other.
(B) Other information, that is, the user
代行発話選択部151が選択した発話は、代行発話表現変換部152に入力される。
代行発話表現変換部152は、代行発話選択部151が選択した発話に対して、ユーザ本人の言葉遣いに変換する処理を行なう。例えば、前述したように、ユーザ1に合わせて、人称代名詞(例えば、私、俺、ぼく)や文末表現(例えば、かしら、かな、だよ)等、ユーザ1のよく利用する表現を適用して発話表現を変更する。ユーザの固有表現については、例えばユーザプロファイル情報123や、外部サーバ150を構成するSNSサーバ等の登録データを参照して取得する。
The utterance selected by the substitute
The substitute utterance
代行発話表現変換部152の生成した発話テキスト、すなわち、図18に示す「ユーザ代行発話装置の発話テキスト」202は音声合成部105に入力される。
The utterance text generated by the substitute utterance
次に、図19に示すフローチャートを参照して、応答生成部104が実行する処理のシーケンスについて説明する。
図19に示すフローの各ステップの処理について、順次、説明する。
Next, a sequence of processes executed by the
The processing of each step of the flow shown in FIG. 19 will be sequentially described.
(ステップS201)
まず、応答生成部104は、ステップS201において、応答要否判定部103から応答生成要求とともに、「ユーザ発話相手装置10の発話テキスト」を入力する。
(Step S201)
First, in step S201, the
(ステップS202)
次に、応答生成部104は、ステップS202において、入力発話対応応答データベース121をアクセスし、ユーザ発話相手装置10の出力発話の発話テキストに基づく検索処理を実行して、データベースに登録されたサンプル入力発話から、類似度が最も高いサンプル入力発話が登録されたエントリを選択する。
(Step S202)
Next, in step S202, the
前述したように、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定する。 As mentioned above, for example, the multiplicity of words and phrases contained in an utterance can be used. For example, morphological analysis is performed to determine the degree of similarity based on the number of common morphemes.
(ステップS203)
次に、応答生成部104は、ステップS203において、ステップS202におけるエントリ選択処理において類似度の高いエントリが選択されたか否かを判定する。
(Step S203)
Next, in step S203, the
類似度の高いエントリの選択に失敗した場合は、ステップS203の判定はNoとなり、処理を終了する。この場合、ユーザ代行発話装置20からの発話は行われない。
一方、類似度の高いエントリの選択に成功した場合は、ステップS203の判定はYesとなり、ステップS204に進む。
If the selection of entries having a high degree of similarity fails, the determination in step S203 becomes No, and the process ends. In this case, no utterance is made from the user
On the other hand, if the selection of entries having a high degree of similarity is successful, the determination in step S203 is Yes, and the process proceeds to step S204.
(ステップS204)
ステップムS202において、入力発話対応応答データベース121から類似度の高いエントリの選択に成功した場合、ステップS204の処理を実行する。
(Step S204)
If the entry with high similarity is successfully selected from the input utterance
応答生成部104は、ステップS204において、ユーザ行動履歴情報122に登録されたユーザ行動履歴や、その他の情報に基づいて、最適と判断可能な応答が登録されたエントリを、1つ選択可能か否かを判定し、選択可能であれば選択する。
In step S204, the
なお、その他の情報とは、ユーザプロファイル情報123、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々な外部サーバからの取得情報や、ユーザ発話相手装置10の蓄積データ等である。
The other information includes
(ステップS205)
次に、応答生成部104は、ステップS205において、ユーザ代行発話装置が出力する代行発話の1つのエントリの選択に成功したか否かを判定する。
(Step S205)
Next, in step S205, the
入力発話対応応答データベース121に登録された1つのエントリ選択に成功した場合、ステップS207に進む。
入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、ステップS206に進む。
If one entry registered in the input utterance
If the narrowing down of the entries registered in the input utterance
(ステップS206)
ステップS205において、入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、応答生成部104は、ステップS206において、選択された複数のエントリから1つをランダムに選択する。
(Step S206)
If the narrowing down of the entries registered in the input utterance
(ステップS207)
最後に、応答生成部104は、ステップS207において、1つの選択エントリに登録された応答発話を選択して音声合成部105に出力する。
(Step S207)
Finally, in step S207, the
なお、ステップS205において、入力発話対応応答データベース121に登録された1つのエントリ選択に成功した場合には、その1つのエントリに登録された応答発話を選択して音声合成部105に出力する。
If one entry registered in the input utterance
一方、ステップS205において、入力発話対応応答データベース121に登録された1つのエントリ選択に失敗した場合には、ステップS206でランダムに選択したエントリに登録された応答発話を選択して音声合成部105に出力する。
On the other hand, if the selection of one entry registered in the input utterance
なお、図19に示すフローでは、応答生成部104は、ステップS205で入力発話対応応答データベース121に登録された1つのエントリ選択に失敗した場合には、ステップS206において、選択された複数エントリから、1つのエントリをランダムに選択する処理を行なう構成としているが、例えば、このような場合、代行発話を停止し、ユーザ発話を待つという処理を行ってもよい。
In the flow shown in FIG. 19, when the
あるいは、ユーザに対して発話をお願いするための発話を出力する構成としてもよい。
ユーザに対して発話をお願いするための発話を出力する処理を実行する場合の処理シーケンスを図20に示す。
Alternatively, the configuration may be such that an utterance for requesting the user to speak is output.
FIG. 20 shows a processing sequence when executing a process of outputting an utterance for requesting an utterance to a user.
図20に示すフローは、ステップS201〜S205の処理と、ステップS207の処理は、図19を参照して説明したフローの各ステップの処理と同じ処理である。 The flow shown in FIG. 20 is the processing of steps S201 to S205, and the processing of step S207 is the same processing as the processing of each step of the flow described with reference to FIG.
図20に示すフローでは、図19に示すフローのステップS206の処理をステップS221の処理に置き換えている。ステップS221の処理について説明する。 In the flow shown in FIG. 20, the process of step S206 of the flow shown in FIG. 19 is replaced with the process of step S221. The process of step S221 will be described.
(ステップS221)
ステップS205において、入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、応答生成部104は、ステップS221において、ユーザに対してユーザ発話を依頼するための発話を生成して出力する。
このような処理を行ってもよい。
(Step S221)
In step S205, when the narrowing down of the entries registered in the input utterance
Such processing may be performed.
(4−(5).音声合成部105が実行する処理の詳細について)
次に、音声合成部105が実行する処理の詳細について説明する。
音声合成部105は、前述したように、応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、生成した合成音声を、音声出力部(スピーカー)23を介して図に示すユーザ発話代行装置出力音声53として出力する。
(4- (5). Details of the process executed by the speech synthesizer 105)
Next, the details of the processing executed by the
As described above, the
音声合成部105の入力、出力、および実行処理は以下の通りである。
(a)入力
応答生成部104が生成したユーザ代行発話装置20の出力する発話内容を示す発話テキスト
(b)出力
応答生成部104の生成した発話テキストに基づいて生成した合成音声
The input, output, and execution processes of the
(A) Spoken text indicating the utterance content output by the user
(c)処理
応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、合成音声を生成する。
生成した合成音声は、音声出力部(スピーカー)23を介して出力される。
(C) Processing A synthetic voice is generated based on the utterance text generated by the
The generated synthetic voice is output via the voice output unit (speaker) 23.
例えば、応答生成部104が生成したユーザ代行発話装置20の出力する発話内容を示す発話テキストが以下のテキストであるとする。
『お台場海浜公園駅にしてください』
音声合成部105は、この発話テキストを音声に変換する。この処理(音声合成)には、音声合成処理(TTS:Text To Speech)実行プログラムを利用可能である。また、オープンソースソフトウェアを利用して実行としてもよい。
For example, it is assumed that the utterance text indicating the utterance content output by the user
"Please make it Odaiba Kaihin Koen Station"
The
なお、音声合成部105は、合成音声生成処理に際して、ユーザ1本人の発話と同様の音声が出力されるように、ユーザ1に合わせて音声合成のモデルを変更してもよい。例えば、ユーザ1の属性(年齢、性別など)に応じたモデルを選択する方法を採ってもよいし、数ある音声合成モデルの中からユーザ本人の声質に似たモデルを選択する処理を行う構成としてもよい。
The
さらに、音声出力中にユーザ1からの発話音声が入力された場合は、ユーザ1がユーザ代行発話装置20の発話に介入し、発話を中止させようとしていると判断し、音声の出力を中止するようにしてもよい。
Further, when the utterance voice from the
なお、音声出力中にユーザ1からの発話音声が入力された場合、そのユーザ発話が、ユーザ代行発話装置20に向けられたものであるかどうかを判断し、ユーザ代行発話装置20に向けられたユーザ発話であると判定した場合に限り、ユーザ代行発話装置20の発話を中止するようにしてもよい。
When the utterance voice from the
[5.情報処理装置のハードウェア構成例について]
次に、図21を参照して、情報処理装置のハードウェア構成例について説明する。
図21を参照して説明するハードウェアは、ユーザ代行発話装置20を構成する情報処理装置のハードウェア構成の一例である。
[5. Information processing device hardware configuration example]
Next, a hardware configuration example of the information processing device will be described with reference to FIG.
The hardware described with reference to FIG. 21 is an example of the hardware configuration of the information processing device constituting the user
CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
The CPU (Central Processing Unit) 301 functions as a control unit or a data processing unit that executes various processes according to a program stored in the ROM (Read Only Memory) 302 or the
CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部306、ディスプレイ、スピーカーなどよりなる出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。
The
入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi−Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
The
入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
The
[6.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
[6. Summary of the structure of this disclosure]
As described above, the examples of the present disclosure have been described in detail with reference to the specific examples. However, it is self-evident that one of ordinary skill in the art can modify or substitute the examples without departing from the gist of the present disclosure. That is, the present invention has been disclosed in the form of an example, and should not be construed in a limited manner. In order to judge the gist of this disclosure, the column of claims should be taken into consideration.
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置。
The technology disclosed in the present specification can have the following configuration.
(1) Input the device utterance output from the user utterance partner device, which is the user's utterance partner, and input the device utterance.
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
An information processing device having a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.
(2) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する(1)に記載の情報処理装置。
(2) The response necessity determination unit is
The information processing device according to (1), wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.
(3) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合に、ユーザ代行発話が不要であると判定する(1)または(2)に記載の情報処理装置。
(3) The response necessity determination unit is
The information processing device according to (1) or (2), wherein it is determined that the user proxy utterance is unnecessary when the user utterance is performed within a predetermined threshold time from the utterance completion timing of the device utterance.
(4) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるかを判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話でないと判定した場合は、ユーザ代行発話が必要であると判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であると判定した場合は、ユーザ代行発話が不要であると判定する(1)〜(3)いずれかに記載の情報処理装置。
(4) The response necessity determination unit is
When the user utterance is performed within the predetermined threshold time from the utterance completion timing of the device utterance.
It is determined whether the user utterance is an utterance made to the user utterance partner device, and the user utterance is determined.
If it is determined that the user utterance is not the utterance made to the user utterance partner device, it is determined that the user proxy utterance is necessary.
The information processing device according to any one of (1) to (3), wherein when it is determined that the user utterance is an utterance made to the user utterance partner device, it is determined that the user proxy utterance is unnecessary.
(5) 前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザ発話の意味解析結果を利用して判定する(4)に記載の情報処理装置。
(5) The response necessity determination unit is
The information processing device according to (4), wherein the determination process of whether or not the user utterance is an utterance made to the user utterance partner device is determined by using the semantic analysis result of the user utterance.
(6) 前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザの視線方向解析結果を利用して判定する(4)に記載の情報処理装置。
(6) The response necessity determination unit is
The information processing device according to (4), wherein the determination process of whether or not the user's utterance is an utterance made to the user's utterance partner device is determined by using the user's line-of-sight direction analysis result.
(7) 前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度も実行していない場合において、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する(1)〜(6)いずれかに記載の情報処理装置。
(7) The response necessity determination unit is
In the case where the substitute utterance has never been executed after the start of the dialogue sequence with the user utterance partner device.
The information according to any one of (1) to (6), in which it is determined that the user substitute utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance. Processing equipment.
(8) 前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度以上、実行している場合、
その後の装置発話に対しては、全てユーザ代行発話が必要であると判定する(7)に記載の情報処理装置。
(8) The response necessity determination unit is
When the proxy utterance is executed more than once after the start of the dialogue sequence with the user utterance partner device
The information processing device according to (7), wherein it is determined that all subsequent device utterances require user proxy utterances.
(9) 前記情報処理装置は、
前記情報処理装置に対する入力発話が前記ユーザの発したユーザ発話であるか、前記ユーザ発話相手装置の出力した装置発話であるかを識別し、識別結果である発話主体識別子を生成する音声認識部を有し、
前記応答要否判定部は、
前記音声認識部から入力する発話主体識別子に基づいて、前記情報処理装置に対する入力発話が前記ユーザ発話相手装置の出力した装置発話であると確認された場合に、
前記ユーザ代行発話の要否を判定する(1)〜(8)いずれかに記載の情報処理装置。
(9) The information processing device is
A voice recognition unit that identifies whether the input utterance to the information processing device is the user utterance uttered by the user or the device utterance output by the user utterance partner device, and generates the utterance subject identifier that is the identification result. Have and
The response necessity determination unit
When it is confirmed that the input utterance to the information processing device is the device utterance output by the user utterance partner device based on the utterance subject identifier input from the voice recognition unit.
The information processing device according to any one of (1) to (8), which determines the necessity of the user proxy utterance.
(10) 前記応答生成部は、
サンプル入力発話と応答発話を対応付けた多数のエントリを格納した入力発話対応データベースから、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択し、
選択したエントリの応答発話を、ユーザ代行発話として設定する(1)〜(9)いずれかに記載の情報処理装置。
(10) The response generation unit
From the input utterance support database that stores a large number of entries that associate sample input utterances with response utterances
Select the entry for the sample input utterance that has the highest similarity to the device utterance.
The information processing device according to any one of (1) to (9), wherein the response utterance of the selected entry is set as the user substitute utterance.
(11) 前記応答生成部は、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択する際、
前記装置発話と、サンプル入力発話各々の形態素、または単語、またはフレーズを比較して類似度を判定する(10)に記載の情報処理装置。
(11) The response generation unit
When selecting the entry for the sample input utterance that has the highest similarity to the device utterance
The information processing apparatus according to (10), wherein the device utterance is compared with each morpheme, word, or phrase of each sample input utterance to determine the degree of similarity.
(12) 前記応答生成部は、
ユーザ行動履歴情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する(1)〜(11)いずれかに記載の情報処理装置。
(12) The response generation unit
The information processing device according to any one of (1) to (11), which estimates the user's intention by referring to the user behavior history information and generates a user proxy utterance that reflects the user's intention.
(13) 前記応答生成部は、
ユーザプロファイル情報、または外部サーバの登録情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する(1)〜(12)いずれかに記載の情報処理装置。
(13) The response generation unit
The information processing apparatus according to any one of (1) to (12), wherein the user's intention is estimated by referring to the user profile information or the registration information of the external server, and the user's proxy utterance reflecting the user's intention is generated.
(14) 前記応答生成部は、
前記ユーザがよく利用する表現を適用したユーザ代行発話を生成する(1)〜(13)いずれかに記載の情報処理装置。
(14) The response generation unit
The information processing device according to any one of (1) to (13), which generates a user proxy utterance to which an expression often used by the user is applied.
(15) 情報処理装置において情報処理を実行する情報処理方法であり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法。
(15) An information processing method for executing information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
An information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
(16) 情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラム。
(16) A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
A program that executes a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。 In addition, the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both. When executing processing by software, install the program that records the processing sequence in the memory in the computer built in the dedicated hardware and execute it, or execute the program on a general-purpose computer that can execute various processing. It can be installed and run. For example, the program can be pre-recorded on a recording medium. In addition to installing on a computer from a recording medium, the program can be received via a network such as LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 The various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. Further, in the present specification, the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.
以上、説明したように、本開示の一実施例の構成によれば、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
具体的には、例えば、ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。
本構成により、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
As described above, according to the configuration of one embodiment of the present disclosure, a device and a method for generating and outputting a response utterance on behalf of the user with respect to the device utterance output by the interactive device are realized. ..
Specifically, for example, the device utterance from the user utterance partner device, which is the user's utterance partner, is input, and the user substitute utterance is generated and output on behalf of the user. It has a response necessity determination unit that determines the necessity of a user proxy utterance, and a response generation unit that generates a user proxy utterance when it is determined that a user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user action history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance.
With this configuration, a device and a method for generating and outputting a response utterance on behalf of the user for the device utterance output by the interactive device are realized.
10 ユーザ発話相手装置
20 ユーザ代行発話装置
21 音声入力部(マイク)
22 データ処理部
23 音声出力部(スピーカー)
24 通信部
25 記憶部
26 画像入力部(カメラ)
101 発話検出部
102 音声認識部
103 応答要否判定部
104 応答生成部
105 音声合成部
121 入力発話対応応答データベース
122 ユーザ行動履歴情報
123 ユーザプロファイル情報
150 外部サーバ
151 代行発話選択部
152 代行発話表現変換部
301 CPU
302 ROM
303 RAM
304 バス
305 入出力インタフェース
306 入力部
307 出力部
308 記憶部
309 通信部
310 ドライブ
311 リムーバブルメディア
10 User
22
24
101
302 ROM
303 RAM
Claims (16)
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置。 Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
An information processing device having a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する請求項1に記載の情報処理装置。 The response necessity determination unit
The information processing device according to claim 1, wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合に、ユーザ代行発話が不要であると判定する請求項1に記載の情報処理装置。 The response necessity determination unit
The information processing device according to claim 1, wherein it is determined that the user proxy utterance is unnecessary when the user utterance is performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるかを判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話でないと判定した場合は、ユーザ代行発話が必要であると判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であると判定した場合は、ユーザ代行発話が不要であると判定する請求項1に記載の情報処理装置。 The response necessity determination unit
When the user utterance is performed within the predetermined threshold time from the utterance completion timing of the device utterance.
It is determined whether the user utterance is an utterance made to the user utterance partner device, and the user utterance is determined.
If it is determined that the user utterance is not the utterance made to the user utterance partner device, it is determined that the user proxy utterance is necessary.
The information processing device according to claim 1, wherein when it is determined that the user utterance is an utterance made to the user utterance partner device, it is determined that the user proxy utterance is unnecessary.
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザ発話の意味解析結果を利用して判定する請求項4に記載の情報処理装置。 The response necessity determination unit
The information processing device according to claim 4, wherein a determination process of whether or not the user utterance is an utterance made to the user utterance partner device is determined by using the semantic analysis result of the user utterance.
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザの視線方向解析結果を利用して判定する請求項4に記載の情報処理装置。 The response necessity determination unit
The information processing device according to claim 4, wherein a determination process of whether or not the user's utterance is an utterance made to the user's utterance partner device is determined by using the user's line-of-sight direction analysis result.
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度も実行していない場合において、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する請求項1に記載の情報処理装置。 The response necessity determination unit
In the case where the substitute utterance has never been executed after the start of the dialogue sequence with the user utterance partner device.
The information processing device according to claim 1, wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度以上、実行している場合、
その後の装置発話に対しては、全てユーザ代行発話が必要であると判定する請求項7に記載の情報処理装置。 The response necessity determination unit
When the proxy utterance is executed more than once after the start of the dialogue sequence with the user utterance partner device
The information processing device according to claim 7, wherein it is determined that all subsequent device utterances require user proxy utterances.
前記情報処理装置に対する入力発話が前記ユーザの発したユーザ発話であるか、前記ユーザ発話相手装置の出力した装置発話であるかを識別し、識別結果である発話主体識別子を生成する音声認識部を有し、
前記応答要否判定部は、
前記音声認識部から入力する発話主体識別子に基づいて、前記情報処理装置に対する入力発話が前記ユーザ発話相手装置の出力した装置発話であると確認された場合に、
前記ユーザ代行発話の要否を判定する請求項1に記載の情報処理装置。 The information processing device
A voice recognition unit that identifies whether the input utterance to the information processing device is the user utterance uttered by the user or the device utterance output by the user utterance partner device, and generates the utterance subject identifier that is the identification result. Have and
The response necessity determination unit
When it is confirmed that the input utterance to the information processing device is the device utterance output by the user utterance partner device based on the utterance subject identifier input from the voice recognition unit.
The information processing device according to claim 1, wherein the necessity of the user proxy utterance is determined.
サンプル入力発話と応答発話を対応付けた多数のエントリを格納した入力発話対応データベースから、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択し、
選択したエントリの応答発話を、ユーザ代行発話として設定する請求項1に記載の情報処理装置。 The response generator
From the input utterance support database that stores a large number of entries that associate sample input utterances with response utterances
Select the entry for the sample input utterance that has the highest similarity to the device utterance.
The information processing device according to claim 1, wherein the response utterance of the selected entry is set as the user proxy utterance.
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択する際、
前記装置発話と、サンプル入力発話各々の形態素、または単語、またはフレーズを比較して類似度を判定する請求項10に記載の情報処理装置。 The response generator
When selecting the entry for the sample input utterance that has the highest similarity to the device utterance
The information processing device according to claim 10, wherein the device utterance is compared with each morpheme, word, or phrase of the sample input utterance to determine the similarity.
ユーザ行動履歴情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する請求項1に記載の情報処理装置。 The response generator
The information processing device according to claim 1, wherein the user's intention is estimated by referring to the user behavior history information, and the user's proxy utterance reflecting the user's intention is generated.
ユーザプロファイル情報、または外部サーバの登録情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する請求項1に記載の情報処理装置。 The response generator
The information processing device according to claim 1, wherein the user's intention is estimated by referring to the user profile information or the registration information of the external server, and the user's proxy utterance reflecting the user's intention is generated.
前記ユーザがよく利用する表現を適用したユーザ代行発話を生成する請求項1に記載の情報処理装置。 The response generator
The information processing device according to claim 1, wherein a user proxy utterance to which an expression often used by the user is applied is generated.
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法。 It is an information processing method that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
An information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラム。 A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
A program that executes a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020026870A JP2021131472A (en) | 2020-02-20 | 2020-02-20 | Information processor, information processing method and program |
| PCT/JP2021/001072 WO2021166504A1 (en) | 2020-02-20 | 2021-01-14 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020026870A JP2021131472A (en) | 2020-02-20 | 2020-02-20 | Information processor, information processing method and program |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2021131472A true JP2021131472A (en) | 2021-09-09 |
Family
ID=77392121
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020026870A Pending JP2021131472A (en) | 2020-02-20 | 2020-02-20 | Information processor, information processing method and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP2021131472A (en) |
| WO (1) | WO2021166504A1 (en) |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4438028B2 (en) * | 1998-07-27 | 2010-03-24 | キヤノン株式会社 | Information processing apparatus and method, and storage medium storing the program |
| JP3178426B2 (en) * | 1998-07-29 | 2001-06-18 | 日本電気株式会社 | Natural language dialogue system and natural language dialogue program recording medium |
| JP4292846B2 (en) * | 2003-03-31 | 2009-07-08 | 三菱電機株式会社 | Spoken dialogue device, spoken dialogue substitution device, and program thereof |
| DE112014006409T5 (en) * | 2014-02-26 | 2016-12-08 | Mitsubishi Electric Corporation | Vehicle control device and vehicle control method |
| CN106796786B (en) * | 2014-09-30 | 2021-03-02 | 三菱电机株式会社 | voice recognition system |
| JP6842095B2 (en) * | 2017-03-10 | 2021-03-17 | 日本電信電話株式会社 | Dialogue methods, dialogue systems, dialogue devices, and programs |
-
2020
- 2020-02-20 JP JP2020026870A patent/JP2021131472A/en active Pending
-
2021
- 2021-01-14 WO PCT/JP2021/001072 patent/WO2021166504A1/en not_active Ceased
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021166504A1 (en) | 2021-08-26 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12249321B2 (en) | Utilizing pre-event and post-event input streams to engage an automated assistant | |
| US20230206940A1 (en) | Method of and system for real time feedback in an incremental speech input interface | |
| US11237793B1 (en) | Latency reduction for content playback | |
| US20230367546A1 (en) | Audio output control | |
| CN110998717B (en) | Automatically determine the language for speech recognition of spoken utterances received through an automated assistant interface | |
| US20220246140A1 (en) | Dynamic and/or context-specific hot words to invoke automated assistant | |
| US11756544B2 (en) | Selectively providing enhanced clarification prompts in automated assistant interactions | |
| US11024303B1 (en) | Communicating announcements | |
| US11574637B1 (en) | Spoken language understanding models | |
| US11687526B1 (en) | Identifying user content | |
| US10706845B1 (en) | Communicating announcements | |
| JP2016122183A (en) | Disambiguating heteronyms in speech synthesis | |
| US10672379B1 (en) | Systems and methods for selecting a recipient device for communications | |
| US10699706B1 (en) | Systems and methods for device communications | |
| US20200219487A1 (en) | Information processing apparatus and information processing method | |
| JPWO2019155717A1 (en) | Information processing equipment, information processing systems, information processing methods, and programs | |
| WO2021166504A1 (en) | Information processing device, information processing method, and program | |
| CN118235197A (en) | Selectively generate and/or selectively render continuation content for spoken utterance completion | |
| US12081628B1 (en) | Account association for voice-enabled devices | |
| JP2020012860A (en) | Voice recognition device and voice recognition method | |
| HK1222942B (en) | Incremental speech input interface with real time feedback |