[go: up one dir, main page]

JP2021131472A - Information processor, information processing method and program - Google Patents

Information processor, information processing method and program Download PDF

Info

Publication number
JP2021131472A
JP2021131472A JP2020026870A JP2020026870A JP2021131472A JP 2021131472 A JP2021131472 A JP 2021131472A JP 2020026870 A JP2020026870 A JP 2020026870A JP 2020026870 A JP2020026870 A JP 2020026870A JP 2021131472 A JP2021131472 A JP 2021131472A
Authority
JP
Japan
Prior art keywords
utterance
user
response
proxy
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020026870A
Other languages
Japanese (ja)
Inventor
千明 宮崎
Chiaki Miyazaki
千明 宮崎
沙也 鈴木
Saya Suzuki
沙也 鈴木
礼夢 肥田
Remu Hida
礼夢 肥田
正則 井上
Masanori Inoue
正則 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Priority to JP2020026870A priority Critical patent/JP2021131472A/en
Priority to PCT/JP2021/001072 priority patent/WO2021166504A1/en
Publication of JP2021131472A publication Critical patent/JP2021131472A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法を実現する。【解決手段】ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。【選択図】図4PROBLEM TO BE SOLVED: To realize a device and a method for generating and outputting a response utterance on behalf of a user to a device utterance output by an interactive device. SOLUTION: A device utterance from a user utterance partner device, which is a user's utterance partner, is input, and a user proxy utterance is generated and output on behalf of the user. It has a response necessity determination unit for determining the necessity of user proxy utterance, and a response generation unit for generating user proxy utterance when it is determined that user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user behavior history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance. [Selection diagram] FIG. 4

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザの代わりに発話を行う情報処理装置、および情報処理方法、並びにプログラムに関する。 The present disclosure relates to an information processing device, an information processing method, and a program. More specifically, the present invention relates to an information processing device that speaks on behalf of the user, an information processing method, and a program.

昨今、ハンズフリーのユーザインターフェースとして多くの音声対話システムが実用化されている。
音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に基づく様々な処理や応答を行う。
Recently, many voice dialogue systems have been put into practical use as hands-free user interfaces.
The voice dialogue system analyzes the user's utterance input through the microphone, and performs various processes and responses based on the analysis result.

このようなシステムの一例として、例えば、車両に搭載されたカーナビ(カーナビゲーション)装置がある。
カーナビ装置は、運転者等のユーザ発話、例えば目的地の指定に関するユーザ発話を解析し、目的地までの経路の表示処理や、運転ガイドのためのアナウンス(システム発話)などを行う。
As an example of such a system, for example, there is a car navigation (car navigation) device mounted on a vehicle.
The car navigation device analyzes user utterances such as a driver, for example, user utterances related to designation of a destination, displays a route to the destination, and makes an announcement (system utterance) for a driving guide.

なお、ユーザ発話に従った処理を実行するカーナビ装置については、例えば、特許文献1(米国特許USP5,274,560号公報)に記載がある。
しかし、カーナビ装置のような音声対話システムに対して、ユーザは、発話を行うことが必要であり、これがユーザに心的負担を発生させることがある。例えば運転者が不慣れな道路を緊張しながら運転中に、カーナビへの発話内容を考えさせることは、運転者の運転への集中度を低下させてしまい、危険な状況に陥るといった可能性がある。
A car navigation device that executes processing according to a user's utterance is described in, for example, Patent Document 1 (US Pat. No. 5,274,560).
However, the user needs to speak to a voice dialogue system such as a car navigation device, which may cause a mental burden on the user. For example, if the driver is nervous while driving on an unfamiliar road and makes the driver think about the content of the utterance to the car navigation system, the driver's concentration on driving may be reduced and the driver may be in a dangerous situation. ..

なお、カーナビに限らず、その他の様々な音声対話システムを利用する場合、ユーザが音声対話システムから出力された問い合わせ発話等に対してタイミングよく応答するのは簡単ではない。特に、システムとの会話に不慣れなユーザにとっては容易ではなく、ユーザの負担となることが多い。 When using not only a car navigation system but also various other voice dialogue systems, it is not easy for the user to respond to inquiries and utterances output from the voice dialogue system in a timely manner. In particular, it is not easy for a user who is unfamiliar with conversation with the system, and it is often a burden on the user.

米国特許USP5,274,560号公報U.S. Pat. No. USP5,274,560

本開示は、例えば、上記問題点に鑑みてなされたものであり、例えばカーナビ装置のようにユーザ発話を解析して処理を行なう音声対話型の装置に対して、ユーザが発話を行わなくても、ユーザの代わりに発話を行う情報処理装置、および情報処理方法、並びにプログラムを提供することを目的とする。 The present disclosure has been made in view of the above problems, for example, even if the user does not speak to a voice interactive device that analyzes and processes the user's utterance, such as a car navigation device. , An information processing device that speaks on behalf of a user, an information processing method, and a program.

本開示の第1の側面は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置にある。
The first aspect of the disclosure is
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
The information processing device has a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.

さらに、本開示の第2の側面は、
情報処理装置において情報処理を実行する情報処理方法であり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法にある。
Further, the second aspect of the present disclosure is
It is an information processing method that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
This is an information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.

さらに、本開示の第3の側面は、
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラムにある。
Further, the third aspect of the present disclosure is
A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
There is a program that executes a response generation process for generating a user proxy utterance when it is determined that a user proxy utterance is necessary in the response necessity determination process.

なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。 The program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium that is provided in a computer-readable format to an information processing device or a computer system that can execute various program codes. By providing such a program in a computer-readable format, processing according to the program can be realized on an information processing device or a computer system.

本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 Still other objectives, features and advantages of the present disclosure will become apparent by more detailed description based on the examples of the present disclosure and the accompanying drawings described below. In the present specification, the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.

本開示の一実施例の構成によれば、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
具体的には、例えば、ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。
本構成により、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
According to the configuration of one embodiment of the present disclosure, a device and a method for generating and outputting a response utterance on behalf of the user with respect to the device utterance output by the interactive device are realized.
Specifically, for example, the device utterance from the user utterance partner device, which is the user's utterance partner, is input, and the user substitute utterance is generated and output on behalf of the user. It has a response necessity determination unit that determines the necessity of a user proxy utterance, and a response generation unit that generates a user proxy utterance when it is determined that a user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user action history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance.
With this configuration, a device and a method for generating and outputting a response utterance on behalf of the user for the device utterance output by the interactive device are realized.
The effects described in the present specification are merely exemplary and not limited, and may have additional effects.

音声対話システムの利用例と問題点について説明する図である。It is a figure explaining the use example and the problem of a voice dialogue system. 音声対話システムの利用例と問題点について説明する図である。It is a figure explaining the use example and the problem of a voice dialogue system. 音声対話システムの利用例と問題点について説明する図である。It is a figure explaining the use example and the problem of a voice dialogue system. ユーザとユーザ発話相手装置に加え、ユーザ代行発話装置を追加した対話例について説明する図である。It is a figure explaining the dialogue example which added the user substitute utterance device in addition to the user and a user utterance partner device. ユーザとユーザ発話相手装置に加え、ユーザ代行発話装置を追加した対話例について説明する図である。It is a figure explaining the dialogue example which added the user substitute utterance device in addition to the user and a user utterance partner device. ユーザとユーザ発話相手装置に加え、ユーザ代行発話装置を追加した対話例について説明する図である。It is a figure explaining the dialogue example which added the user substitute utterance device in addition to the user and a user utterance partner device. ユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について説明する図である。It is a figure explaining the example of the specific dialogue sequence accompanied by the utterance of a user substitute utterance apparatus. ユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について説明する図である。It is a figure explaining the example of the specific dialogue sequence accompanied by the utterance of a user substitute utterance apparatus. ユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について説明する図である。It is a figure explaining the example of the specific dialogue sequence accompanied by the utterance of a user substitute utterance apparatus. 本開示のユーザ代行発話装置の構成例について説明する図である。It is a figure explaining the configuration example of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の構成例について説明する図である。It is a figure explaining the configuration example of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答要否判定部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of the process executed by the response necessity determination part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答要否判定部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of the process executed by the response necessity determination part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答要否判定部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of the process executed by the response necessity determination part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答要否判定部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of the process executed by the response necessity determination part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置が保持する入力発話対応応答データベースの具体例について説明する図である。It is a figure explaining the specific example of the input utterance correspondence response database held by the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置が保持するユーザ行動履歴情報の具体例について説明する図である。It is a figure explaining the specific example of the user behavior history information held by the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答生成部の構成と処理について説明する図である。It is a figure explaining the structure and processing of the response generation part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答生成部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of processing executed by the response generation part of the user substitute utterance apparatus of this disclosure. 本開示のユーザ代行発話装置の応答生成部が実行する処理のシーケンスについて説明するフローチャートを示す図である。It is a figure which shows the flowchart explaining the sequence of processing executed by the response generation part of the user substitute utterance apparatus of this disclosure. 情報処理装置のハードウェア構成例について説明する図である。It is a figure explaining the hardware configuration example of an information processing apparatus.

以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
1.本開示の情報処理装置の実行する処理の概要について
2.本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について
3.本開示のユーザ代行発話装置の構成例について
4.ユーザ代行発話装置の各構成部が実行する処理の詳細について
4−(1).発話検出部101が実行する処理の詳細について
4−(2).音声認識部102が実行する処理の詳細について
4−(3).応答要否判定部103が実行する処理の詳細について
4−(4).応答生成部104が実行する処理の詳細について
4−(5).音声合成部105が実行する処理の詳細について
5.情報処理装置のハードウェア構成例について
6.本開示の構成のまとめ
Hereinafter, the details of the information processing apparatus, the information processing method, and the program of the present disclosure will be described with reference to the drawings. The explanation will be given according to the following items.
1. 1. Outline of processing executed by the information processing apparatus of the present disclosure 2. Regarding an example of a specific dialogue sequence accompanied by the utterance of the user proxy utterance device of the present disclosure. 4. Regarding the configuration example of the user proxy utterance device of the present disclosure. Details of the processing executed by each component of the user proxy utterance device 4- (1). Details of the processing executed by the utterance detection unit 101 4- (2). Details of the processing executed by the voice recognition unit 102 4- (3). Details of the process executed by the response necessity determination unit 103 4- (4). Details of the processing executed by the response generation unit 104 4- (5). Details of the process executed by the voice synthesizer 105 5. About hardware configuration example of information processing device 6. Summary of the structure of this disclosure

[1.本開示の情報処理装置の実行する処理の概要について]
まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
[1. Outline of processing executed by the information processing apparatus of the present disclosure]
First, the outline of the processing executed by the information processing apparatus of the present disclosure will be described with reference to FIGS. 1 and 1 and below.

前述したように、昨今、ハンズフリーのユーザインターフェースとして音声対話システムが様々な分野で利用されている。
音声対話システムは、マイクを介して入力するユーザ発話の解析を行い、解析結果に基づく様々な処理や応答を行うシステムであり、このようなシステムの一例として、例えば、車両に搭載されたカーナビ(カーナビゲーション)装置がある。
As mentioned above, recently, voice dialogue systems have been used in various fields as hands-free user interfaces.
A voice dialogue system is a system that analyzes user utterances input through a microphone and performs various processes and responses based on the analysis results. As an example of such a system, for example, a car navigation system mounted on a vehicle ( There is a car navigation) device.

カーナビ装置は、運転者等のユーザ発話、例えば目的地の指定に関するユーザ発話を解析し、目的地までの経路の表示処理や、運転ガイドのためのアナウンス(システム発話)などを行う。
しかし、カーナビ装置のような音声対話システムに対してユーザが発話を行う場合、ユーザの心的負担が発生しシステムとの対話が中断してしまう場合がある。
また、不慣れな道路を緊張しながら運転している運転者にカーナビへの発話内容を考えさせると、運転者の運転への集中度を低下させ、危険な状況に陥る可能性もある。
The car navigation device analyzes user utterances such as a driver, for example, user utterances related to designation of a destination, displays a route to the destination, and makes an announcement (system utterance) for a driving guide.
However, when the user speaks to a voice dialogue system such as a car navigation device, the user's mental burden may occur and the dialogue with the system may be interrupted.
In addition, if a driver who is driving on an unfamiliar road while being tense is made to think about the content of the utterance to the car navigation system, the driver's concentration on driving may be reduced and a dangerous situation may occur.

音声対話システムの利用例と問題点の具体例について図1以下を参照して説明する。
図1には、カーナビ装置をユーザ発話相手装置10として示している。
ユーザ1は、例えば車両の運転者である。
An example of using the voice dialogue system and a specific example of the problem will be described with reference to FIG. 1 and below.
FIG. 1 shows the car navigation device as the user utterance partner device 10.
User 1 is, for example, a vehicle driver.

ユーザ1は、まず、ステップS11において、以下のユーザ発話を行う。
ユーザ発話=「東京タワーまでの経路を教えて」
このユーザ発話に対して、カーナビ装置であるユーザ発話相手装置10は、ステップS12において、以下の装置発話を行う。
装置発話=「東京タワーまでの経路には3つの候補があります。どれにしますか?」
First, the user 1 makes the following user utterance in step S11.
User utterance = "Tell me the route to Tokyo Tower"
In response to this user utterance, the user utterance partner device 10 which is a car navigation device utters the following device in step S12.
Device utterance = "There are three candidates for the route to Tokyo Tower. Which one do you want?"

ユーザ1が運転に集中しているような場合、この装置発話を聞き逃してしまうことがある。また、聞いていたとしても、とっさに判断できない場合もある。
このような場合、S13において、ユーザ1からのユーザ発話は行われず、その後、カーナビ装置は、処理を進めることができなくなる。
When the user 1 is concentrating on driving, he / she may miss the utterance of this device. Also, even if you listen to it, you may not be able to judge it immediately.
In such a case, in S13, the user utterance is not performed from the user 1, and then the car navigation device cannot proceed with the process.

なお、ユーザ発話相手装置10はカーナビ装置に限らない。様々な対話型装置がユーザ発話相手装置10になり得る。
図2は、ユーザ発話相手装置10を英会話レッスン装置とした例である。
The user utterance partner device 10 is not limited to the car navigation device. Various interactive devices can be the user utterance partner device 10.
FIG. 2 shows an example in which the user speaking partner device 10 is used as an English conversation lesson device.

英会話レッスン装置であるユーザ発話相手装置10は、ステップS21において、以下の装置発話を行う。
装置発話=「Have you ever been to New York?」
The user utterance partner device 10 which is an English conversation lesson device utters the following devices in step S21.
Device utterance = "Have you ever been to New York?"

ユーザ1は、この装置発話を聞き取れなかった場合や理解できない場合には、ステップS22において、ユーザ発話が行われない。その後、英会話レッスン装置であるユーザ発話相手装置10との対話が中断し、英会話レッスン装置は、処理を進めることができなくなる。 If the user 1 cannot hear or understand the device utterance, the user utterance is not performed in step S22. After that, the dialogue with the user speaking partner device 10 which is the English conversation lesson device is interrupted, and the English conversation lesson device cannot proceed with the process.

図3は、ユーザ発話相手装置10をキャラクタ対話装置とした例である。なお、キャラクタ対話装置は、ユーザとキャラクタとの間で日常会話のような様々な対話を行うこと可能とした装置である。
キャラクタ対話装置であるユーザ発話相手装置10は、ステップS31において、以下の装置発話を行う。
装置発話=「今日はどこ行ったの?」
FIG. 3 shows an example in which the user utterance partner device 10 is used as a character dialogue device. The character dialogue device is a device that enables various dialogues such as daily conversations between the user and the character.
The user utterance partner device 10, which is a character dialogue device, performs the following device utterance in step S31.
Device utterance = "Where did you go today?"

ユーザ1は、この装置発話を聞き取れなかった場合や、何と答えるべきか迷ってしまった場合、あるいはいった場所の名前を忘れてしまったような場合には、ステップS32において、ユーザ発話が行われない。その後、キャラクタ対話装置であるユーザ発話相手装置10との対話が中断してしまう。 If the user 1 cannot hear the device utterance, is wondering what to answer, or forgets the name of the place, the user utterance is performed in step S32. No. After that, the dialogue with the user utterance partner device 10 which is the character dialogue device is interrupted.

このように、音声対話システムであるユーザ発話相手装置10に対して、ユーザ1がタイミングよくユーザ発話を行えない場面は多く、このような場合、ユーザ1と、ユーザ発話相手装置10との対話が中断し、ユーザ発話相手装置10側での処理が滞ってしまうことになる。 In this way, there are many situations in which the user 1 cannot speak to the user utterance partner device 10 which is a voice dialogue system in a timely manner. In such a case, the dialogue between the user 1 and the user utterance partner device 10 is performed. It will be interrupted and the processing on the user utterance partner device 10 side will be delayed.

本開示は、このような事態の発生を防止する。すなわち、ユーザ1の代わりに発話を実行するユーザ代行発話装置を提供する。
図4以下を参照して、本開示のユーザ代行発話装置が実行する処理の具体例について説明する。
The present disclosure prevents the occurrence of such a situation. That is, a user proxy utterance device that executes an utterance on behalf of the user 1 is provided.
A specific example of the process executed by the user proxy utterance device of the present disclosure will be described with reference to FIG. 4 and the following.

図4は、先に図1を参照して説明したカーナビ装置をユーザ発話相手装置10として示した図である。
図4には、さらに、ユーザ代行発話装置20を示している。
スマホ(スマートフォン)をユーザ代行発話装置20として示している。
FIG. 4 is a diagram showing the car navigation device described above with reference to FIG. 1 as the user utterance partner device 10.
FIG. 4 further shows the user proxy utterance device 20.
The smartphone (smartphone) is shown as the user proxy utterance device 20.

なお、ユーザ代行発話装置20は、スマホ以外の装置、例えばPCや、タブレット端末であってもよい。さらにその他の専用の情報処理装置として実現することも可能である。また、カーナビ装置等のユーザ発話相手装置10に一体化した構成としてもよい。 The user proxy utterance device 20 may be a device other than a smartphone, for example, a PC or a tablet terminal. Furthermore, it can be realized as another dedicated information processing device. Further, the configuration may be integrated with the user utterance partner device 10 such as a car navigation device.

例えば、スマホ(スマートフォン)をユーザ代行発話装置20として利用する場合、ユーザ代行発話処理を実行するプログラム(アプリケーション)をスマホにインストールして利用する。
図4に示すユーザ代行発話装置20(スマホ)の処理例について説明する。
For example, when a smartphone (smartphone) is used as the user proxy utterance device 20, a program (application) that executes the user proxy utterance process is installed and used on the smartphone.
A processing example of the user proxy utterance device 20 (smartphone) shown in FIG. 4 will be described.

なお、ユーザ1は例えば、車両の運転者である。
ユーザ1は、まず、ステップS11において、以下のユーザ発話を行う。
ユーザ発話=「東京タワーまでの経路を教えて」
このユーザ発話に対して、カーナビ装置であるユーザ発話相手装置10は、ステップS12において、以下の装置発話を行う。
装置発話=「東京タワーまでの経路には3つの候補があります。どれにしますか?」
The user 1 is, for example, a driver of a vehicle.
First, the user 1 makes the following user utterance in step S11.
User utterance = "Tell me the route to Tokyo Tower"
In response to this user utterance, the user utterance partner device 10 which is a car navigation device utters the following device in step S12.
Device utterance = "There are three candidates for the route to Tokyo Tower. Which one do you want?"

ユーザ1は運転に集中しているような場合、この装置発話を聞き逃してしまうことがある。また、聞いていたとしても、とっさに判断できない場合がある。
このような場合、図4に示すユーザ代行発話装置20(スマホ)は、ステップS13において、ユーザ1の代わりに以下の「ユーザ代行装置発話」を行う。
ユーザ代行装置発話=「一番早い経路を選択して」
When the user 1 is concentrating on driving, he / she may miss the utterance of this device. Also, even if you listen to it, you may not be able to judge it immediately.
In such a case, the user proxy utterance device 20 (smartphone) shown in FIG. 4 performs the following "user proxy utterance" instead of the user 1 in step S13.
User proxy device utterance = "Select the fastest route"

このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわちカーナビ装置に入力される。
カーナビ装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図4の例では、東京タワーまでの3つの経路から、最も早く到着する1つの経路を選択する処理を行なう。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user speech partner device 10, that is, the car navigation device.
The car navigation device interprets this user proxy device utterance as a user speech and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 4, the process of selecting one route that arrives earliest from the three routes to Tokyo Tower is performed.

このように、ユーザ代行発話装置20(スマホ)が、ユーザ1の代わりに、ユーザ代行装置発話を実行することで、カーナビ装置は、ユーザ代行装置発話に応じた処理を進めることができ、処理を滞りなく実行することができる。 In this way, the user proxy utterance device 20 (smartphone) executes the user proxy device utterance instead of the user 1, so that the car navigation device can proceed with the process according to the user proxy device utterance, and the process can be performed. It can be executed without delay.

図5は、先に図2を参照して説明したユーザ発話相手装置10を英会話レッスン装置とした例である。 FIG. 5 is an example in which the user speaking partner device 10 described above with reference to FIG. 2 is used as an English conversation lesson device.

英会話レッスン装置であるユーザ発話相手装置10は、ステップS21において、以下の装置発話を行う。
装置発話=「Have you ever been to New York?」
The user utterance partner device 10 which is an English conversation lesson device utters the following devices in step S21.
Device utterance = "Have you ever been to New York?"

先に図2を参照して説明した例では、ユーザ1は、この装置発話を聞き取れない、あるいは理解できず、即座にユーザ発話を行うことができない。
図5に示す例では、図5に示すユーザ代行発話装置20(スマホ)が、ステップS22において、ユーザ1の代わりに以下のユーザ代行装置発話を行う。
ユーザ代行装置発話=「Yes,I went to New York last summer.」
In the example described above with reference to FIG. 2, the user 1 cannot hear or understand the device utterance, and cannot immediately make the user utterance.
In the example shown in FIG. 5, the user substitute utterance device 20 (smartphone) shown in FIG. 5 performs the following user substitute utterance device instead of the user 1 in step S22.
User proxy device utterance = "Yes, I want to New York last summer."

このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわち英会話レッスン装置に入力される。
英会話レッスン装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図5の例では、次の装置発話に移行することができる。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user speech partner device 10, that is, the English conversation lesson device.
The English conversation lesson device interprets this user proxy device utterance as a user speech and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 5, it is possible to shift to the next device utterance.

図6は、先に図3を参照して説明したユーザ発話相手装置10をキャラクタ対話装置とした例である。
キャラクタ対話装置であるユーザ発話相手装置10は、ステップS31において、以下の装置発話を行う。
装置発話=「今日はどこ行ったの?」
FIG. 6 is an example in which the user utterance partner device 10 described above with reference to FIG. 3 is used as the character dialogue device.
The user utterance partner device 10, which is a character dialogue device, performs the following device utterance in step S31.
Device utterance = "Where did you go today?"

ユーザ1は、この装置発話を聞き取れなかった場合や、何と答えるべきか迷ってしまった場合、あるいはいった場所の名前を忘れてしまったような場合、ユーザ発話を行うことができない。 If the user 1 cannot hear the device utterance, is wondering what to answer, or forgets the name of the place, the user 1 cannot make the user utterance.

図6に示す例では、図6に示すユーザ代行発話装置20(スマホ)が、ステップS32において、ユーザ1の代わりに以下のユーザ代行装置発話を行う。
ユーザ代行装置発話=「美術館にいったよ」
In the example shown in FIG. 6, the user substitute utterance device 20 (smartphone) shown in FIG. 6 performs the following user substitute utterance device instead of the user 1 in step S32.
User agency utterance = "I went to the museum"

このユーザ代行発話装置20(スマホ)によるユーザ代行装置発話は、ユーザ発話相手装置10、すなわちキャラクタ対話装置に入力される。
キャラクタ対話装置は、このユーザ代行装置発話をユーザ発話と解釈して、このユーザ代行装置発話に応じた処理を実行する。
すなわち、図6の例では、次の装置発話に移行することができる。
The user proxy device utterance by the user proxy utterance device 20 (smartphone) is input to the user speech partner device 10, that is, the character dialogue device.
The character dialogue device interprets this user proxy device utterance as a user speech, and executes processing according to the user proxy device utterance.
That is, in the example of FIG. 6, it is possible to shift to the next device utterance.

[2.本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について]
次に、本開示のユーザ代行発話装置の発話を伴う具体的な対話シーケンスの例について説明する。
[2. Regarding an example of a specific dialogue sequence involving utterance of the user proxy utterance device of the present disclosure]
Next, an example of a specific dialogue sequence accompanied by the utterance of the user substitute utterance device of the present disclosure will be described.

図7は、先に図4を参照して説明したと同様、ユーザ発話相手装置10がカーナビ装置である場合のユーザ1と、ユーザ発話相手装置10(カーナビ装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.9までの以下の発話シーケンスを示している。
FIG. 7 shows the user 1 when the user utterance partner device 10 is a car navigation device, the user utterance partner device 10 (car navigation device), and the user proxy utterance device 20 (as described above with reference to FIG. 4). It is a figure which shows an example of the dialogue sequence which a smartphone) executes.
Utterance No. 1-No. The following utterance sequences up to 9 are shown.

発話No.1(ユーザ発話)=ここからお台場までナビして
発話No.2(ユーザ発話相手装置(カーナビ装置))=かしこまりました。目的地は台場駅でよろしいですか
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
発話No.4(ユーザ発話相手装置(カーナビ装置))=かしこまりました。お台場海浜公園駅を目的地に設定します
発話No.5(ユーザ代行発話装置(スマホ))=うん。OK
発話No.6(ユーザ発話相手装置(カーナビ装置))=高速道路は利用しますか
発話No.7(ユーザ代行発話装置(スマホ))=うん。使って
発話No.8(ユーザ発話相手装置(カーナビ装置))=かしこまりました。高速道路を利用します。
発話No.9(ユーザ発話)=いや、今日は下道を使って
Utterance No. 1 (User utterance) = Navigating from here to Odaiba, utterance No. 2 (User utterance partner device (car navigation device)) = I'm clever. Are you sure you want to go to Odaiba Station? Utterance No. 3 (User proxy utterance device (smartphone)) = Speaking No. at Odaiba Kaihin Koen Station. 4 (User utterance partner device (car navigation device)) = I'm clever. Set Odaiba Kaihin Koen Station as the destination. Utterance No. 5 (User proxy utterance device (smartphone)) = Yeah. OK
Utterance No. 6 (User utterance partner device (car navigation device)) = Do you use the expressway? Utterance No. 7 (User proxy utterance device (smartphone)) = Yeah. Use utterance No. 8 (User utterance partner device (car navigation device)) = I'm clever. Take the highway.
Utterance No. 9 (user utterance) = No, today using the lower road

発話No.1は、ユーザ発話であり、ユーザが「ここからお台場までナビして」と発話している。
このユーザ発話に対して、ユーザ発話相手装置(カーナビ装置)が、以下の発話を行っている。
発話No.2(ユーザ発話相手装置(カーナビ装置))=かしこまりました。目的地は台場駅でよろしいですか
Utterance No. 1 is a user utterance, and the user utters "navigate from here to Odaiba".
In response to this user utterance, the user utterance partner device (car navigation device) makes the following utterances.
Utterance No. 2 (User utterance partner device (car navigation device)) = I'm clever. Are you sure you want to go to Odaiba Station?

この発話No.2(ユーザ発話相手装置(カーナビ装置))は、カーナビ装置からユーザに対する質問が含まれた発話である。
この質問に対して、ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに変わり、以下の応答を行う。
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
This utterance No. 2 (user utterance partner device (car navigation device)) is an utterance including a question from the car navigation device to the user.
When the user does not respond to this question and a predetermined time elapses, the user proxy utterance device (smartphone) changes to the user and makes the following response.
Utterance No. 3 (User proxy utterance device (smartphone)) = Odaiba Kaihin Koen Station

以下、発話N0.4〜発話N0.8まで、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間で対話が行われる。
ユーザは、この発話N0.4〜発話N0.8の対話に参加することなく、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間の対話を単に聞くのみとなる。
Hereinafter, from utterance N0.4 to utterance N0.8, a dialogue is performed between the user utterance partner device (car navigation device) and the user substitute utterance device (smartphone).
The user does not participate in the dialogue between the utterances N0.4 to N0.8, and simply listens to the dialogue between the user utterance partner device (car navigation device) and the user substitute utterance device (smartphone).

しかし、ユーザ発話相手装置(カーナビ装置)の発話No.8の発話、すなわち、
発話No.8(ユーザ発話相手装置(カーナビ装置))=かしこまりました。高速道路を利用します。
この発話を聞いたユーザは、以下のユーザ発話を行う。
発話No.9(ユーザ発話)=いや、今日は下道を使って
However, the utterance No. of the user utterance partner device (car navigation device). 8 utterances, i.e.
Utterance No. 8 (User utterance partner device (car navigation device)) = I'm clever. Take the highway.
The user who hears this utterance makes the following user utterance.
Utterance No. 9 (user utterance) = No, today using the lower road

これらの発話シーケンスに示すように、ユーザは、ユーザ発話相手装置(カーナビ装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザの意向に沿わない場合には、いつでも、その対話に参加し、ユーザの意向をユーザ発話相手装置(カーナビ装置)に伝えることが可能となる。 As shown in these utterance sequences, the user listens to the dialogue between the user utterance partner device (car navigation device) and the user proxy utterance device (smartphone), and whenever the user does not agree with the intention of the user, the user listens to the dialogue. It is possible to participate in the dialogue and convey the user's intention to the user utterance partner device (car navigation device).

このように、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザ発話相手装置20との対話を行っている。
ユーザ代行発話装置10(スマホ)の記憶部には、ユーザ発話相手装置20との対話に利用可能な「サンプル入力発話」と「応答発話」を対応付けた入力発話対応応答データベースが格納されており、ユーザ代行発話装置10(スマホ)は、この入力発話対応応答データベースに登録された情報から代行発話を選択して出力する。
In this way, the user substitute utterance device 10 (smartphone) has a dialogue with the user utterance partner device 20 instead of the user 1.
In the storage unit of the user substitute utterance device 10 (smartphone), an input utterance correspondence response database that associates "sample input utterance" and "response utterance" that can be used for dialogue with the user utterance partner device 20 is stored. , The user substitute utterance device 10 (smartphone) selects and outputs the substitute utterance from the information registered in the input utterance correspondence response database.

また、図7に示す対話シーケンスの中には、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザの意向を、ユーザ発話相手装置20(カーナビ装置)に伝えている代行発話が含まれる。
このように、ユーザ1の意向を含む代行発話を行うためには、ユーザ代行発話装置10(スマホ)は、ユーザ1の意思を推定する処理を行なう必要がある。
Further, in the dialogue sequence shown in FIG. 7, the user proxy utterance device 10 (smartphone) includes a proxy utterance that conveys the user's intention to the user speech partner device 20 (car navigation device) instead of the user 1. Is done.
As described above, in order to perform the proxy utterance including the intention of the user 1, the user proxy utterance device 10 (smartphone) needs to perform a process of estimating the intention of the user 1.

このユーザ意思推定処理のため、ユーザ代行発話装置10(スマホ)は、例えばユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報を参照する。
なお、ユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報の具体例については、後段で説明する。
For this user intention estimation process, the user proxy utterance device 10 (smartphone) refers to, for example, the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone).
A specific example of the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone) will be described later.

ユーザ代行発話装置10(スマホ)内の記憶部には、過去のユーザ1の行動の履歴情報が格納されている。
例えば、ユーザ1が頻繁に訪れる場所や、利用する道路等の情報が記録されている。
ユーザ代行発話装置10(スマホ)は、このユーザ行動履歴情報を参照して、ユーザ意思を推定して、ユーザ1の代行発話を決定して出力する。
In the storage unit in the user proxy utterance device 10 (smartphone), history information of past actions of the user 1 is stored.
For example, information such as a place frequently visited by the user 1 and a road to be used is recorded.
The user proxy utterance device 10 (smartphone) refers to the user action history information, estimates the user's intention, determines the proxy utterance of the user 1, and outputs it.

なお、ユーザ代行発話装置10(スマホ)は、ユーザ行動履歴情報のみならず、その他の情報、例えば、ユーザプロファイル情報や、SNSサーバ等の外部サーバからの取得情報を参照してユーザの意向を推定して、ユーザ1の代行発話を決定する処理を行う場合もある。
これらの処理の具体例については後述する。
The user proxy utterance device 10 (smartphone) estimates the user's intention by referring not only to the user behavior history information but also other information such as user profile information and information acquired from an external server such as an SNS server. Then, a process of determining the proxy utterance of the user 1 may be performed.
Specific examples of these processes will be described later.

図7に示す例では、例えば、以下の発話、すなわち、
発話No.3(ユーザ代行発話装置(スマホ))=お台場海浜公園駅にして
この発話No.3は、ユーザ代行発話装置20(スマホ)が、ユーザ行動履歴情報を参照して、ユーザ1が「お台場」と発話した場合、ユーザ1は「お台場海浜公園駅」を意図している推定して行ったユーザ代行発話である。
In the example shown in FIG. 7, for example, the following utterance, that is,
Utterance No. 3 (User proxy utterance device (smartphone)) = Odaiba Kaihin Koen Station, and this utterance No. 3 is an estimation that when the user proxy utterance device 20 (smartphone) refers to the user behavior history information and the user 1 speaks "Odaiba", the user 1 intends to "Odaiba Kaihin Koen Station". This is a user proxy utterance.

また、発話No.6〜7の装置間の対話、すなわち、
発話No.6(ユーザ発話相手装置(カーナビ装置))=高速道路は利用しますか
発話No.7(ユーザ代行発話装置(スマホ))=うん。使って
この場合の発話No.7は、ユーザ代行発話装置20(スマホ)が、ユーザ行動履歴情報を参照して、ユーザ1が高速道路を頻繁に利用していることを確認して、この確認の下に、ユーザ1が、高速道路の利用を望んでいると判断して、上記の発話No.7のユーザ代行発話を行ったものである。
In addition, the utterance No. Dialogue between 6-7 devices, i.e.
Utterance No. 6 (User utterance partner device (car navigation device)) = Do you use the expressway? Utterance No. 7 (User proxy utterance device (smartphone)) = Yeah. Use the utterance No. in this case. In 7, the user proxy utterance device 20 (smartphone) refers to the user behavior history information and confirms that the user 1 frequently uses the expressway, and under this confirmation, the user 1 determines. Judging that he wants to use the expressway, the above utterance No. This is the utterance on behalf of the user in 7.

ただし、このときはたまたまユーザ本人の希望に沿わなかったため、発話No.9でユーザ本人が「今日は下道を使って」と訂正している。 However, at this time, it happened that the user did not meet his / her wishes, so the utterance No. In 9, the user himself corrected, "Today, use the lower road."

このように、ユーザ1は、ユーザ発話相手装置10(カーナビ装置)と、ユーザ代行発話装置20(スマホ)間で行われる対話を聞きながすことも可能であり、またユーザの意向に沿わない場合には、いつでも、その対話に参加し、ユーザの意向をユーザ発話相手装置10(カーナビ装置)に伝えることができる。 In this way, the user 1 can also listen to the dialogue performed between the user utterance partner device 10 (car navigation device) and the user substitute utterance device 20 (smartphone), and when the user's intention is not met. Can participate in the dialogue at any time and convey the user's intention to the user utterance partner device 10 (car navigation device).

図8は、先に図5を参照して説明したと同様、ユーザ発話相手装置10が英会話レッスン装置である場合のユーザ1と、ユーザ発話相手装置10(英会話レッスン装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.4までの以下の発話シーケンスを示している。
FIG. 8 shows the user 1 when the user speaking partner device 10 is an English conversation lesson device, the user speaking partner device 10 (English conversation lesson device), and the user proxy speaking device, as described above with reference to FIG. It is a figure which shows an example of the dialogue sequence executed by 20 (smartphone).
Utterance No. 1-No. The following utterance sequences up to 4 are shown.

発話No.1(ユーザ発話相手装置(英会話レッスン装置))=How was your holiday?
発話No.2(ユーザ代行発話装置(スマホ))=I went to my hometown.
発話No.3(ユーザ発話相手装置(英会話レッスン装置))=That's great! Where is your hometown?
発話No.4(ユーザ発話)=Hokkaido.
Utterance No. 1 (User utterance partner device (English conversation lesson device)) = How was your holiday?
Utterance No. 2 (user proxy utterance device (smartphone)) = I want to my homeown.
Utterance No. 3 (User utterance partner device (English conversation lesson device)) = That's great! Where is your homeown?
Utterance No. 4 (user utterance) = Hokkaido.

発話No.1は、ユーザ発話相手装置(英会話レッスン装置)の発話であり、英会話レッスン装置が「How was your holiday?」と発話している。
この発話No.1(ユーザ発話相手装置(英会話レッスン装置))は、英会話レッスン装置からユーザに対する質問が含まれた発話である。
Utterance No. Reference numeral 1 denotes an utterance of the user's utterance partner device (English conversation lesson device), and the English conversation lesson device utters "How was your holiday?".
This utterance No. 1 (user utterance partner device (English conversation lesson device)) is an utterance including a question to the user from the English conversation lesson device.

この質問に対して、ユーザはどう答えるべきか迷って心的負担を感じたので、ユーザ本人は答えず、ユーザ代行発話装置(スマホ)に応答を任せた。
ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに代わり、以下の応答を行う。
発話No.2(ユーザ代行発話装置(スマホ))=I went to my hometown.
Since the user was wondering how to answer this question and felt a mental burden, the user himself did not answer and left the response to the user proxy utterance device (smartphone).
When the user does not respond and a predetermined time elapses, the user proxy utterance device (smartphone) takes the place of the user and makes the following response.
Utterance No. 2 (user proxy utterance device (smartphone)) = I want to my homeown.

ユーザ発話相手装置(英会話レッスン装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.3(ユーザ発話相手装置(英会話レッスン装置))=That's great! Where is your hometown?
この発話No.3(ユーザ発話相手装置(英会話レッスン装置))も、英会話レッスン装置からユーザに対する質問が含まれた発話である。
The user utterance partner device (English conversation lesson device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 3 (User utterance partner device (English conversation lesson device)) = That's great! Where is your homeown?
This utterance No. 3 (User utterance partner device (English conversation lesson device)) is also an utterance including a question to the user from the English conversation lesson device.

この質問に対して、ユーザは、ユーザ発話相手装置(英会話レッスン装置)の質問を理解したため、即座に、以下の発話No.4を発話する。
発話No.4(ユーザ発話)=Hokkaido.
In response to this question, the user understood the question of the user's utterance partner device (English conversation lesson device), and immediately, the following utterance No. Speak 4.
Utterance No. 4 (user utterance) = Hokkaido.

これらの発話シーケンスにおいても、ユーザは、ユーザ発話相手装置(英会話レッスン装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザが発話したいタイミングで対話に参加することが可能となる。 In these utterance sequences as well, the user can participate in the dialogue at the timing when the user wants to speak while listening to the dialogue performed between the user utterance partner device (English conversation lesson device) and the user substitute utterance device (smartphone). Will be.

なお、この図8に示す対話シーケンスにおいて、ユーザ代行発話装置10(スマホ)は、ユーザ1の代わりにユーザの過去の行動に関する情報を、ユーザ発話相手装置20(カーナビ装置)に伝えている。
ユーザ代行発話装置10(スマホ)が、ユーザ1の過去の行動について発話するためには、ユーザ代行発話装置10(スマホ)は、ユーザ1の過去の行動に関する情報を取得することが必要である。
In the dialogue sequence shown in FIG. 8, the user substitute utterance device 10 (smartphone) transmits information on the past behavior of the user to the user utterance partner device 20 (car navigation device) instead of the user 1.
In order for the user substitute utterance device 10 (smartphone) to speak about the past actions of the user 1, the user substitute utterance device 10 (smartphone) needs to acquire information on the past actions of the user 1.

前述したように、ユーザ代行発話装置10(スマホ)の記憶部にはユーザ行動履歴情報が格納されており、ユーザ代行発話装置10(スマホ)のデータ処理部は、記憶部に格納されたユーザ行動履歴情報を参照して、参照結果に応じて発話を実行する。
ユーザ代行発話装置10(スマホ)内の記憶部に格納されたユーザ行動履歴情報の具体例については、後段で説明する。
As described above, the user action history information is stored in the storage unit of the user substitute utterance device 10 (smartphone), and the data processing unit of the user substitute utterance device 10 (smartphone) stores the user action stored in the storage unit. Refer to the history information and execute the utterance according to the reference result.
A specific example of the user action history information stored in the storage unit in the user proxy utterance device 10 (smartphone) will be described later.

図9は、先に図6を参照して説明したと同様、ユーザ発話相手装置10がキャラクタ対話装置である場合のユーザ1と、ユーザ発話相手装置10(キャラクタ対話装置)と、ユーザ代行発話装置20(スマホ)が実行する対話シーケンスの一例を示す図である。
発話No.1〜No.6までの以下の発話シーケンスを示している。
FIG. 9 shows the user 1 when the user utterance partner device 10 is a character dialogue device, the user utterance partner device 10 (character dialogue device), and the user substitute utterance device, as described above with reference to FIG. It is a figure which shows an example of the dialogue sequence executed by 20 (smartphone).
Utterance No. 1-No. The following utterance sequences up to 6 are shown.

発話No.1(ユーザ発話相手装置(キャラクタ対話装置))=こんにちは。私とお話しましょう
発話No.2(ユーザ代行発話装置(スマホ))=じゃあ、まずは名前を教えて
発話No.3(ユーザ発話相手装置(キャラクタ対話装置))=花子です。あなたは?
発話No.4(ユーザ代行発話装置(スマホ))=太郎だよ
発話No.5(ユーザ発話相手装置(キャラクタ対話装置))=太郎さんですか。趣味について聞きたいです。
発話No.6(ユーザ発話)=僕の趣味は映画観賞だよ。映画館に行くこともあるけど、だいたいは動画配信で見てるよ
Utterance No. 1 (User utterance partner device (character dialogue device)) = Hello. Let's talk with me Utterance No. 2 (User proxy utterance device (smartphone)) = Then, first tell me your name and utterance No. 3 (User utterance partner device (character dialogue device)) = Hanako. you?
Utterance No. 4 (User proxy utterance device (smartphone)) = Taro Speaking No. 5 (User utterance partner device (character dialogue device)) = Mr. Taro? I want to ask about my hobbies.
Utterance No. 6 (User utterance) = My hobby is watching movies. Sometimes I go to the cinema, but most of the time I watch it on video.

発話No.1は、ユーザ発話相手装置(キャラクタ対話装置)の発話であり、キャラクタ対話装置が「こんにちは。私とお話しましょう」と発話している。
この発話に対して、ユーザはどう答えるべきか迷って心的負担を感じたので、ユーザ本人は答えず、ユーザ代行発話装置(スマホ)に応答を任せた。
ユーザが応答せず、予め規定した時間が経過すると、ユーザ代行発話装置(スマホ)がユーザに代わり、以下の発話を行う。
発話No.2(ユーザ代行発話装置(スマホ))=じゃあ、まずは名前を教えて
Utterance No. Reference numeral 1 denotes an utterance of the user's utterance partner device (character dialogue device), and the character dialogue device utters "Hello. Let's talk with me."
Since the user was wondering how to answer this utterance and felt a mental burden, the user himself did not answer and left the response to the user proxy utterance device (smartphone).
When the user does not respond and a predetermined time elapses, the user proxy utterance device (smartphone) takes the place of the user and makes the following utterances.
Utterance No. 2 (User proxy utterance device (smartphone)) = Then, first tell me your name

ユーザ発話相手装置(キャラクタ対話装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.3(ユーザ発話相手装置(キャラクタ対話装置))=花子です。あなたは?
The user utterance partner device (character dialogue device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 3 (User utterance partner device (character dialogue device)) = Hanako. you?

この発話No.3(ユーザ発話相手装置(キャラクタ対話装置))は、キャラクタ対話装置からユーザに対する質問が含まれた発話である。 This utterance No. 3 (user utterance partner device (character dialogue device)) is an utterance including a question from the character dialogue device to the user.

この質問に対して、ユーザは、自分の名前を答えるだけで何の面白みも感じなかったので、代行対話システムに応答を任せた。
ユーザ代行発話装置(スマホ)がユーザに代わり、以下の発話を行う。
発話No.4(ユーザ発話)=太郎だよ
To this question, the user didn't find it interesting just to answer his name, so he left the response to the proxy dialogue system.
The user proxy utterance device (smartphone) makes the following utterances on behalf of the user.
Utterance No. 4 (user utterance) = Taro

ユーザ発話相手装置(キャラクタ対話装置)は、このユーザ代行発話装置(スマホ)からの発話をユーザからの応答として認識し、この応答に対して、さらに、以下の発話を行う。
発話No.5(ユーザ発話相手装置(キャラクタ対話装置))=太郎さんですか。趣味について聞きたいです。
The user utterance partner device (character dialogue device) recognizes the utterance from the user substitute utterance device (smartphone) as a response from the user, and further utters the following in response to this response.
Utterance No. 5 (User utterance partner device (character dialogue device)) = Mr. Taro? I want to ask about my hobbies.

この発話No.3(ユーザ発話相手装置(キャラクタ対話装置))は、キャラクタ対話装置からユーザに対する質問が含まれた発話である。 This utterance No. 3 (user utterance partner device (character dialogue device)) is an utterance including a question from the character dialogue device to the user.

この質問に対して、ユーザは、趣味について語れる点で面白みを感じたので、ユーザ本人が応答した。すなわち、以下のユーザ発話を行った。
発話No.6(ユーザ発話)=僕の趣味は映画観賞だよ。映画館に行くこともあるけど、だいたいは動画配信で見てるよ
The user responded to this question because he found it interesting to be able to talk about his hobbies. That is, the following user utterances were made.
Utterance No. 6 (User utterance) = My hobby is watching movies. Sometimes I go to the cinema, but most of the time I watch it on video.

これらの発話シーケンスにおいても、ユーザは、ユーザ発話相手装置(キャラクタ対話装置)と、ユーザ代行発話装置(スマホ)間で行われる対話を聞きながら、ユーザが発話したいタイミングで対話に参加することが可能となる。 Also in these utterance sequences, the user can participate in the dialogue at the timing when the user wants to speak while listening to the dialogue performed between the user utterance partner device (character dialogue device) and the user substitute utterance device (smartphone). It becomes.

なお、この図9に示す対話シーケンスにおいて、ユーザ代行発話装置10(スマホ)は、発話No.2において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、名前を問いかける発話を行っている。
また、ユーザ代行発話装置10(スマホ)は、発話No.4において、ユーザ1の代わりにユーザの名前を答えている。
In the dialogue sequence shown in FIG. 9, the user proxy utterance device 10 (smartphone) has the utterance No. In 2, the user utterance partner device 20 (character dialogue device) is uttered by asking for a name.
In addition, the user proxy utterance device 10 (smartphone) has an utterance No. In 4, the user's name is answered instead of the user 1.

ユーザ代行発話装置10(スマホ)が、発話No.2において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、名前を問いかける発話を行うためには、ユーザ発話相手装置20(キャラクタ対話装置)からの発話に対する応答発話を行う機能が必要である。 The user proxy utterance device 10 (smartphone) has the utterance No. In 2, in order to make a name-questioning utterance to the user utterance partner device 20 (character dialogue device), a function of uttering a response to the utterance from the user utterance partner device 20 (character dialogue device) is required. ..

前述したように、ユーザ代行発話装置10(スマホ)の記憶部には、ユーザ発話相手装置20との対話に利用可能な「サンプル入力発話」と「応答発話」を対応付けた入力発話対応応答データベースが格納されている。
ユーザ代行発話装置10(スマホ)は、この入力発話対応応答データベースに登録された情報を参照して、図9の発話No.2における発話、すなわちユーザ発話相手装置20(キャラクタ対話装置)に対する発話を行う。
なお、入力発話対応応答データベースの具体例については後段で説明する。
As described above, the storage unit of the user substitute utterance device 10 (smartphone) is an input utterance correspondence response database in which "sample input utterance" and "response utterance" that can be used for dialogue with the user utterance partner device 20 are associated with each other. Is stored.
The user proxy utterance device 10 (smartphone) refers to the information registered in the input utterance correspondence response database, and refers to the utterance No. of FIG. The utterance in 2, that is, the utterance to the user utterance partner device 20 (character dialogue device) is performed.
A specific example of the input utterance correspondence response database will be described later.

また、ユーザ代行発話装置10(スマホ)が、発話No.4において、ユーザ発話相手装置20(キャラクタ対話装置)に対して、ユーザの名前を発話するためには、ユーザ代行発話装置10(スマホ)はユーザの名前を知らなければならない。
ユーザ代行発話装置10(スマホ)のデータ処理部は、ユーザ代行発話装置10(スマホ)の記憶部に格納されたユーザプロファイル情報からユーザ名を取得し、発話No.4において、ユーザの名前を説明する発話を行っている。
In addition, the user proxy utterance device 10 (smartphone) has the utterance No. In 4, in order to speak the user's name to the user's utterance partner device 20 (character dialogue device), the user proxy utterance device 10 (smartphone) must know the user's name.
The data processing unit of the user substitute utterance device 10 (smartphone) acquires the user name from the user profile information stored in the storage unit of the user substitute utterance device 10 (smartphone), and obtains the user name from the user profile information, and the utterance No. In 4, the utterance explaining the user's name is given.

図4〜図9を参照して説明したように、本開示のユーザ代行発話装置10を利用すれば、ユーザ発話相手装置20との対話の多くをユーザ代行発話装置10に任せ、ユーザが積極的に対話に参加したい状況において、いつでもユーザ発話を行い、対話に参加することが可能となる。 As described with reference to FIGS. 4 to 9, if the user proxy utterance device 10 of the present disclosure is used, most of the dialogue with the user utterance partner device 20 is left to the user proxy utterance device 10, and the user is positive. It is possible to speak to the user and participate in the dialogue at any time in the situation where he / she wants to participate in the dialogue.

ユーザが積極的に対話に参加したい状況とは、具体的には、例えばユーザ代行発話装置10の発話に訂正が必要な状況や、ユーザ1が自身でユーザ発話を行うことに心的負担を感じない場合、ユーザ1が自身で説明したい話題がある場合などである。 Specifically, the situation in which the user wants to actively participate in the dialogue is, for example, a situation in which the utterance of the user substitute utterance device 10 needs to be corrected, or a situation in which the user 1 feels a mental burden to make the user's utterance by himself / herself. If not, there is a topic that user 1 wants to explain by himself.

[3.本開示のユーザ代行発話装置の構成例について]
次に、本開示の情報処理装置であるユーザ代行発話装置の構成例について説明する。
[3. About the configuration example of the user substitute utterance device of this disclosure]
Next, a configuration example of the user proxy utterance device, which is the information processing device of the present disclosure, will be described.

図10は、本開示の情報処理装置であるユーザ代行発話装置20の構成例を示す図である。
図10に示すように、ユーザ代行発話装置20は、音声入力部(マイク)21と、データ処理部22と、音声出力部(スピーカー)23と、通信部24、記憶部25、画像入力部(カメラ)を有する。
FIG. 10 is a diagram showing a configuration example of the user proxy utterance device 20 which is the information processing device of the present disclosure.
As shown in FIG. 10, the user proxy utterance device 20 includes a voice input unit (mic) 21, a data processing unit 22, a voice output unit (speaker) 23, a communication unit 24, a storage unit 25, and an image input unit ( Has a camera).

音声入力部(マイク)21は、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力する。 The voice input unit (microphone) 21 inputs the user utterance voice 51 emitted from the user 1 and the user utterance partner device output voice 52 output from the user utterance partner device 10 such as a car navigation device.

音声入力部(マイク)21が入力した音声データは、データ処理部22に入力される。
データ処理部22は、入力音声の解析を実行して、ユーザ代行発話装置20が発話すべきか否かを判定し、発話すべきと判定した場合は、発話を生成して音声出力部(スピーカー)23に出力する。
The voice data input by the voice input unit (microphone) 21 is input to the data processing unit 22.
The data processing unit 22 analyzes the input voice, determines whether or not the user proxy utterance device 20 should speak, and if it determines that the utterance should be made, generates an utterance and generates a voice output unit (speaker). ) Output to 23.

音声出力部(スピーカー)23は、データ処理部22の生成した発話を、ユーザ発話代行装置発話53として出力する。 The voice output unit (speaker) 23 outputs the utterance generated by the data processing unit 22 as the user utterance agent utterance 53.

通信部24は、データ処理部22における発話実行要否判定や発話生成に必要となる情報を外部サーバや、ユーザ発話相手装置10から取得するための通信を行う。
記憶部25には、データ処理部22における発話実行要否判定や発話生成に必要となる情報が記録されている。先に説明したユーザ行動履歴情報や、入力発話対応応答データベース、ユーザプロファイル情報等が記録されている。
The communication unit 24 performs communication for acquiring information necessary for determining whether or not the data processing unit 22 needs to execute an utterance and generating an utterance from an external server or a user utterance partner device 10.
The storage unit 25 records information necessary for determining whether or not the data processing unit 22 needs to execute an utterance and for generating an utterance. The user behavior history information described above, the input utterance correspondence response database, the user profile information, and the like are recorded.

画像入力部(カメラ)は、例えばユーザ1の顔画像や目の画像を撮影する。撮影画像は例えばユーザ1の視線方向解析に利用され、ユーザ発話がユーザ発話相手装置10に向けて行われた発話であるか否かの判定処理等に利用される。 The image input unit (camera) captures, for example, a face image or an eye image of the user 1. The captured image is used, for example, for the line-of-sight direction analysis of the user 1, and is used for determination processing of whether or not the user utterance is an utterance made toward the user utterance partner device 10.

次に、ユーザ代行発話装置20のデータ処理部22や記憶部24の詳細構成について、図11を参照して説明する。 Next, the detailed configuration of the data processing unit 22 and the storage unit 24 of the user proxy utterance device 20 will be described with reference to FIG.

図11は、ユーザ代行発話装置20のデータ処理部22や記憶部24の詳細構成を示す図である。
図11に示すように、ユーザ代行発話装置20のデータ処理部22は、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105を有する。
また、ユーザ代行発話装置20の記憶部24には、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123が格納されている。
FIG. 11 is a diagram showing a detailed configuration of the data processing unit 22 and the storage unit 24 of the user proxy utterance device 20.
As shown in FIG. 11, the data processing unit 22 of the user substitute utterance device 20 includes an utterance detection unit 101, a voice recognition unit 102, a response necessity determination unit 103, a response generation unit 104, and a voice synthesis unit 105.
Further, the storage unit 24 of the user substitute utterance device 20 stores the input utterance correspondence response database 121, the user action history information 122, and the user profile information 123.

また、通信部25は、ユーザ発話相手装置10や、外部サーバ150との通信を実行する。
外部サーバ150は、例えばユーザ代行発話装置20が入力発話を理解するために利用可能な情報、ユーザ代行発話装置20が発話を行うために必要となる情報などを格納したサーバである。例えば、一般常識等を格納した知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等、様々なデータベースによって構成される。
Further, the communication unit 25 executes communication with the user utterance partner device 10 and the external server 150.
The external server 150 is, for example, a server that stores information that can be used by the user substitute utterance device 20 to understand the input utterance, information necessary for the user substitute utterance device 20 to make a utterance, and the like. For example, it is composed of various databases such as a knowledge database that stores general knowledge and the like, a scenario database that stores dialogue sequence information, and an SNS (Social Networking Service) server.

また、ユーザ発話相手装置10が例えばカーナビ装置の場合、カーナビ装置の記憶部にはカーナビ装置を搭載した車両の走行履歴情報が記録されている場合がある。
データ処理部22は、通信部25を介して走行履歴情報を取得し、ユーザ行動を解析して発話生成時の参考情報として利用することができる。
Further, when the user utterance partner device 10 is, for example, a car navigation device, the travel history information of the vehicle equipped with the car navigation device may be recorded in the storage unit of the car navigation device.
The data processing unit 22 can acquire the travel history information via the communication unit 25, analyze the user behavior, and use it as reference information at the time of utterance generation.

次に、データ処理部22の構成要素、すなわち、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105、これらの各構成要素の実行する処理について説明する。 Next, the components of the data processing unit 22, that is, the utterance detection unit 101, the voice recognition unit 102, the response necessity determination unit 103, the response generation unit 104, the voice synthesis unit 105, and the processing executed by each of these components. explain.

発話検出部101は、音声入力部(マイク)21を介して、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力する。
発話検出部101は、音声入力部(マイク)21から音声データが入力されたことを検出した場合、入力した音声データを音声認識部102に出力する。
The utterance detection unit 101 inputs the user utterance voice 51 emitted from the user 1 and the user utterance partner device output voice 52 output from the user utterance partner device 10 such as a car navigation device via the voice input unit (microphone) 21. do.
When the utterance detection unit 101 detects that the voice data has been input from the voice input unit (mic) 21, the spoke detection unit 101 outputs the input voice data to the voice recognition unit 102.

音声認識部102は、発話検出部101から入力した音声データに基づくテキスト(発話テキスト)の生成処理を実行する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキスト(発話テキスト)データに変換する。
音声認識部102の生成した発話テキストは、応答要否判定部103に出力される。
The voice recognition unit 102 executes a text (utterance text) generation process based on the voice data input from the speech detection unit 101.
The voice recognition unit 102 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text (utterance text) data composed of a plurality of words.
The utterance text generated by the voice recognition unit 102 is output to the response necessity determination unit 103.

なお、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別し、その判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けた属性情報として、発話テキストともに応答要否判定部103に出力する。
なお、音声認識部102と別の構成として発話主体を識別する発話主体識別部を設け、発話主体識別部において生成した発話主体識別子(発話主体識別タグ)を発話テキストともに応答要否判定部103に出力する構成としてもよい。
In the voice recognition unit 102, the voice data input from the utterance detection unit 101 is
(A) Is it the user-spoken voice 51 emitted from the user 1?
(B) Whether the user utterance partner device output voice 52 is output from the user utterance partner device 10 such as a car navigation device.
It is determined which of these voices (a) and (b) is, and the utterance subject identifier (speaking subject identification tag) indicating the discrimination information is used as the attribute information associated with the utterance text, and it is necessary to respond to both the utterance texts. Output to the determination unit 103.
In addition, a utterance subject identification unit for identifying the utterance subject is provided as a configuration different from the voice recognition unit 102, and the utterance subject identifier (utterance subject identification tag) generated in the utterance subject identification unit is used in the response necessity determination unit 103 together with the utterance text. It may be configured to output.

なお、発話検出部101から入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかの判別処理は、音声データに含まれる音声周波数の解析により行う。カーナビ装置のようなユーザ発話相手装置出力音声52はスピーカーからの出力音声であるため、スピーカーの特性に応じた所定範囲の周波数データのみによって構成され、人の発話に含まれる周波数とは異なる。 The process of determining whether the voice data input from the utterance detection unit 101 is the user utterance voice 51 or the user utterance partner device output voice 52 is performed by analyzing the voice frequency included in the voice data. Since the output voice 52 of the user utterance partner device such as a car navigation device is the output voice from the speaker, it is composed of only the frequency data in a predetermined range according to the characteristics of the speaker, and is different from the frequency included in the human utterance.

音声認識部102は、発話検出部101から入力した音声データの周波数特性を解析して、入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかを判別し、判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けて応答要否判定部103に出力する。 The voice recognition unit 102 analyzes the frequency characteristics of the voice data input from the utterance detection unit 101, and determines whether the input voice data is the user utterance voice 51 or the user utterance partner device output voice 52. , The utterance subject identifier (speech subject identification tag) indicating the discrimination information is associated with the utterance text and output to the response necessity determination unit 103.

応答要否判定部103は、音声認識部102から、発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力し、入力した発話テキストが、ユーザ発話相手装置出力音声52に基づいて生成された発話テキストである場合、この発話テキスト、すなわち、ユーザ発話相手装置出力音声52の出力発話に基づくテキストに対して、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。 The response necessity determination unit 103 inputs the utterance text in which the utterance subject identifier (utterance subject identification tag) is set from the voice recognition unit 102, and the input utterance text is generated based on the user utterance partner device output voice 52. In the case of the utterance text, it is determined whether or not the user substitute utterance device 20 needs to make a response utterance to the utterance text, that is, the text based on the output utterance of the user utterance partner device output voice 52. ..

応答要否判定部103は、応答発話を行う必要があるか否かを判定する処理として例えば以下の処理を行なう。
ユーザ発話相手装置10の発話完了タイミングから予め規定したしきい値時間(例えば2秒)内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
The response necessity determination unit 103 performs, for example, the following processing as a process of determining whether or not it is necessary to perform a response utterance.
If the utterance of the user 1 is not input within the predetermined threshold time (for example, 2 seconds) from the utterance completion timing of the user utterance partner device 10, it is determined that the user substitute utterance device 20 should respond instead of the user 1. ..

すなわち、ユーザ発話相手装置10の発話完了タイミングからの経過時間を計測して、予め規定したしきい値時間(例えば2秒)内のユーザ1からの発話がない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。 That is, when the elapsed time from the utterance completion timing of the user utterance partner device 10 is measured and there is no utterance from the user 1 within the predetermined threshold time (for example, 2 seconds), the user acts on behalf of the user 1. It is determined that the uttering device 20 should respond.

応答要否判定部103が、ユーザ代行発話装置20が応答すべきと判定した場合、応答要否判定部103は、次の応答生成部104に応答生成を要求する。 When the response necessity determination unit 103 determines that the user proxy utterance device 20 should respond, the response necessity determination unit 103 requests the next response generation unit 104 to generate a response.

応答生成部104は、応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
この発話テキストの生成に際しては、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123の利用が可能である。また、通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報の利用も可能である。
これらの処理の具体例については後段で説明する。
When the response generation request is input from the response necessity determination unit 103, the response generation unit 104 generates an utterance text corresponding to the utterance to be output from the user proxy utterance device 20.
When generating this utterance text, various information stored in the storage unit 24, that is, the input utterance correspondence response database 121, the user action history information 122, and the user profile information 123 can be used. Further, it is also possible to use the information that can be acquired via the communication unit 25, that is, the information acquired from the external server 150 or the user utterance partner device 10.
Specific examples of these processes will be described later.

応答生成部104の生成した発話テキストは、音声合成部105に入力される。
音声合成部105は、応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、生成した合成音声を、音声出力部(スピーカー)23を介して図に示すユーザ発話代行装置出力音声53として出力する。
The utterance text generated by the response generation unit 104 is input to the speech synthesis unit 105.
The voice synthesis unit 105 generates a synthetic voice based on the utterance text generated by the response generation unit 104. That is, the voice synthesis process (TTS: Text To Speech) is executed, and the generated synthetic voice is output as the user speech agent output voice 53 shown in the figure via the voice output unit (speaker) 23.

なお、本実施例ではユーザ発話相手装置10とユーザ代行発話装置20を別々の装置として構成しているが、両者を一つの装置として構成することも可能である。例えば、カーナビ装置内にユーザの代行発話を行うユーザ代行発話実行部を設けた構成としてもよい。 In this embodiment, the user utterance partner device 10 and the user substitute utterance device 20 are configured as separate devices, but it is also possible to configure both as one device. For example, a user proxy utterance execution unit that performs a user's proxy utterance may be provided in the car navigation device.

[4.ユーザ代行発話装置の各構成部が実行する処理の詳細について]
次に、ユーザ代行発話装置20のデータ処理部22の構成要素、すなわち、発話検出部101、音声認識部102、応答要否判定部103、応答生成部104、音声合成部105、これらの各構成要素の具体的な処理の詳細について、順次、説明する。
[4. Details of the processing executed by each component of the user proxy utterance device]
Next, the components of the data processing unit 22 of the user substitute utterance device 20, that is, the utterance detection unit 101, the voice recognition unit 102, the response necessity determination unit 103, the response generation unit 104, the voice synthesis unit 105, and each of these configurations. The details of the specific processing of the elements will be described in order.

(4−(1).発話検出部101が実行する処理の詳細について)
発話検出部101は、前述したように音声入力部(マイク)21を介して、ユーザ1から発せられるユーザ発話音声51や、カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52を入力し、入力した音声データを音声認識部102に出力する。
(4- (1). Details of the process executed by the utterance detection unit 101)
As described above, the utterance detection unit 101 outputs the user utterance voice 51 emitted from the user 1 and the user utterance partner device 10 output from the user utterance partner device 10 such as a car navigation device via the voice input unit (mic) 21. The voice 52 is input, and the input voice data is output to the voice recognition unit 102.

発話検出部101の入力、出力、および実行処理は以下の通りである。
(a)入力
音声データ
入力には、ユーザ発話相手装置10、ユーザ1の発話音声の他、様々なノイズ音も含まれる。
(b)出力
発話音声(ユーザ発話相手装置10の発話音声、または、ユーザ1の発話音声)
出力は、様々なノイズ音を排除した発話音声データである。
The input, output, and execution processes of the utterance detection unit 101 are as follows.
(A) Input The voice data input includes various noise sounds in addition to the utterance voice of the user utterance partner device 10 and the user 1.
(B) Output utterance voice (speech voice of user utterance partner device 10 or utterance voice of user 1)
The output is spoken voice data excluding various noise sounds.

(c)処理
様々なノイズ音が含まれる音声データから、ユーザ発話相手装置10、またはユーザ1の発話音声の音声発話区間を抽出して出力データとしての発話音声データを生成する。
なお、音声区間検出処理には、既存の音声区間検出プログラムが利用可能である。例えば自由な利用や改変が認められている既存のオープンソースソフトウェアを利用してもよい。
(C) Processing The utterance voice data of the utterance voice of the user utterance partner device 10 or the user 1 is extracted from the voice data including various noise sounds to generate the utterance voice data as output data.
An existing voice section detection program can be used for the voice section detection process. For example, existing open source software that is allowed to be freely used or modified may be used.

(4−(2).音声認識部102が実行する処理の詳細について)
音声認識部102は、前述したように発話検出部101から入力した音声データに基づくテキスト(発話テキスト)の生成処理を実行する。
音声認識部102は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを1つまたは複数の単語から構成されるテキスト(発話テキスト)データに変換する。
(4- (2). Details of the process executed by the voice recognition unit 102)
The voice recognition unit 102 executes a text (utterance text) generation process based on the voice data input from the speech detection unit 101 as described above.
The voice recognition unit 102 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text (utterance text) data composed of one or a plurality of words.

さらに、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別し、その判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキスト対応の属性情報として、発話テキストともに応答要否判定部103に出力する。
Further, the voice recognition unit 102 receives the voice data input from the utterance detection unit 101.
(A) Is it the user-spoken voice 51 emitted from the user 1?
(B) Whether the user utterance partner device output voice 52 is output from the user utterance partner device 10 such as a car navigation device.
It is determined which of these voices (a) and (b) is, and the utterance subject identifier (speaking subject identification tag) indicating the discrimination information is used as the attribute information corresponding to the utterance text, and the response necessity determination unit is used for both the utterance texts. Output to 103.

音声認識部102の入力、出力、および実行処理は以下の通りである。
(a)入力
発話音声(ユーザ発話相手装置10の発話音声、または、ユーザ1の発話音声)
(b)出力
発話主体識別子(発話主体識別タグ)を付加した発話テキスト(ユーザ発話相手装置10の発話テキスト、または、ユーザ本人の発話テキスト)
The input, output, and execution processes of the voice recognition unit 102 are as follows.
(A) Input utterance voice (speech voice of user utterance partner device 10 or utterance voice of user 1)
(B) Output utterance text to which the utterance subject identifier (speaking subject identification tag) is added (the utterance text of the user utterance partner device 10 or the utterance text of the user himself / herself)

(c)処理
発話音声をテキストに自動変換する。この処理(音声認識)には、例えば上述したASR(Automatic Speech Recognition)機能を実行するプログラムを利用する。オープンソースソフトウェアを利用してもよい。
(C) Processing Automatically convert spoken voice to text. For this process (speech recognition), for example, a program that executes the above-mentioned ASR (Automatic Speech Recognition) function is used. Open source software may be used.

さらに、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
これら(a),(b)のいずれの音声であるかを判別する。
Further, the voice data input from the utterance detection unit 101 is
(A) Is it the user-spoken voice 51 emitted from the user 1?
(B) Whether the user utterance partner device output voice 52 is output from the user utterance partner device 10 such as a car navigation device.
It is determined which of these voices (a) and (b) is.

前述したように、カーナビ装置のようなユーザ発話相手装置出力音声52はスピーカーからの出力音声であるため、スピーカーの特性に応じた所定範囲の周波数データのみによって構成され、人の発話に含まれる周波数とは異なる。
音声認識部102は、発話検出部101から入力した音声データの周波数特性を解析して、入力した音声データが、ユーザ発話音声51であるか、ユーザ発話相手装置出力音声52であるかを判別し、判別情報を示す発話主体識別子(発話主体識別タグ)を発話テキストに対応付けて応答要否判定部103に出力する。
As described above, since the output voice 52 of the user utterance partner device such as the car navigation device is the output voice from the speaker, it is composed only of the frequency data in a predetermined range according to the characteristics of the speaker, and the frequency included in the human utterance. Is different.
The voice recognition unit 102 analyzes the frequency characteristics of the voice data input from the utterance detection unit 101, and determines whether the input voice data is the user utterance voice 51 or the user utterance partner device output voice 52. , The utterance subject identifier (speech subject identification tag) indicating the discrimination information is associated with the utterance text and output to the response necessity determination unit 103.

(4−(3).応答要否判定部103が実行する処理の詳細について)
応答要否判定部103は、前述したように音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力し、入力した発話テキストに設定されたタグがユーザ発話相手装置出力音声52の出力発話に基づく発話テキストである場合、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。
(4- (3). Details of the process executed by the response necessity determination unit 103)
The response necessity determination unit 103 inputs the utterance text in which the utterance subject identifier (utterance subject identification tag) generated by the voice recognition unit 102 is set as described above, and the tag set in the input utterance text is the user's utterance. In the case of the utterance text based on the output utterance of the remote device output voice 52, it is determined whether or not the user substitute utterance device 20 needs to make a response utterance.

具体的には、例えば、ユーザ発話相手装置10の発話完了タイミングから予め規定したしきい値時間(例えば2秒)内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
応答要否判定部103が、ユーザ代行発話装置20が応答すべきと判定した場合、応答要否判定部103は、次の応答生成部104に応答生成を要求する。
Specifically, for example, when the utterance of the user 1 is not input within the predetermined threshold time (for example, 2 seconds) from the utterance completion timing of the user utterance partner device 10, the user substitute utterance device 20 is used instead of the user 1. Determines that should respond.
When the response necessity determination unit 103 determines that the user proxy utterance device 20 should respond, the response necessity determination unit 103 requests the next response generation unit 104 to generate a response.

応答要否判定部103の入力、出力、および実行処理は以下の通りである。
(a)入力
発話主体識別子(発話主体識別タグ)が設定された発話テキスト
(b)出力
ユーザ代行発話装置20による応答要否を示す応答要否識別値(例えば必要=1,不要=0)
The input, output, and execution processing of the response necessity determination unit 103 are as follows.
(A) Speaking text in which the input utterance subject identifier (speaking subject identification tag) is set (b) Output utterance necessity identification value indicating the necessity of response by the user substitute utterance device 20 (for example, necessary = 1, unnecessary = 0)

出力である応答要否識別値(例えば必要=1,不要=0)は、応答生成部104に出力される。
なお、ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)を応答生成部104に出力する場合は、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストも併せて応答生成部104に出力する。
The response necessity identification value (for example, necessary = 1, unnecessary = 0), which is an output, is output to the response generation unit 104.
When the response necessity identification value (necessity = 1) indicating the response required by the user substitute utterance device 20 is output to the response generation unit 104, the utterance subject identifier (utterance subject identification tag) generated by the voice recognition unit 102 is used. The set utterance text is also output to the response generation unit 104.

(c)処理
音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストが、ユーザ発話相手装置出力音声52の出力発話に基づく発話テキストである場合、ユーザ代行発話装置20が応答発話を行う必要があるか否かを判定する。
(C) Processing When the utterance text in which the utterance subject identifier (speaker subject identification tag) generated by the voice recognition unit 102 is set is the utterance text based on the output utterance of the user utterance partner device output voice 52, the user substitute utterance device. 20 determines whether or not it is necessary to make a response utterance.

応答要否判定部103は、例えば以下の処理を行なう。
ユーザ発話相手装置10の発話の完了タイミングから予め規定したしきい値時間(N秒(例えばN=2))内にユーザ1の発話が入力されない場合、ユーザ1の代わりにユーザ代行発話装置20が応答すべきと判定する。
The response necessity determination unit 103 performs the following processing, for example.
When the utterance of the user 1 is not input within the predetermined threshold time (N seconds (for example, N = 2)) from the completion timing of the utterance of the user utterance partner device 10, the user substitute utterance device 20 is used instead of the user 1. Determine to respond.

この判定処理において必要となる、ユーザ発話相手装置10の発話完了タイミングや、ユーザ発話検出タイミングは、音声認識部102から応答要否判定部103へ発話主体識別子(発話主体識別タグ)の設定された発話テキストが入力された時間に基づいて判定する。あるいは、発話検出部101において発話が検出された発話検出時間を用いてもよい。 The utterance completion timing of the user utterance partner device 10 and the user utterance detection timing, which are required in this determination process, are set from the voice recognition unit 102 to the response necessity determination unit 103 as the utterance subject identifier (utterance subject identification tag). Judgment is based on the time the utterance text is entered. Alternatively, the utterance detection time in which the utterance is detected by the utterance detection unit 101 may be used.

なお、ユーザ1の代わりにユーザ代行発話装置20が応答すべきか否かを判定する応答要否判定処理の処理態様としては、以下のような複数の異なる処理態様があり、これらのいずれか、あるいは複数の処理例を組み合わせて実行することが可能である。 In addition, there are a plurality of different processing modes as follows as the processing mode of the response necessity determination processing for determining whether or not the user substitute utterance device 20 should respond instead of the user 1, and any one of them or It is possible to execute a combination of a plurality of processing examples.

(処理例1) ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。 (Processing Example 1) At each completion timing of each utterance of the user utterance partner device 10, it is measured whether or not the elapsed time without utterance of the user 1 exceeds the threshold time (N seconds (for example, N = 2)). Then, a process of determining whether or not a response is required of the user proxy utterance device 20 is performed.

(処理例2) 上記(処理例1)の判定処理、すなわち、ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。この処理に併せて、さらに、しきい値時間内に検出されたユーザ発話がユーザ発話相手装置10に対してなされた発話であるか否かを判定してユーザ代行発話装置20の応答要否を判定する処理を行なう。
例えば、しきい値時間内にユーザ1の発話が検出されても、ユーザ発話相手装置10に対してなされたものでない場合には、ユーザ代行発話装置20の応答は必要と判定するといった処理を行う。
(Processing Example 2) The determination process of the above (Processing Example 1), that is, for each utterance completion timing of the user utterance partner device 10, the elapsed time without utterance of the user 1 is the threshold time (N seconds (for example, N). = 2)) The process of determining whether or not the response is required by the user proxy utterance device 20 is performed by measuring whether or not the above is achieved. In addition to this processing, it is further determined whether or not the user utterance detected within the threshold time is an utterance made to the user utterance partner device 10, and whether or not the user proxy utterance device 20 needs to respond is determined. Performs the judgment process.
For example, even if the utterance of the user 1 is detected within the threshold time, if the utterance is not made to the user utterance partner device 10, the response of the user substitute utterance device 20 is determined to be necessary. ..

(処理例3) ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、ユーザ発話相手装置10の発話完了タイミングからユーザ発話検出までの経過時間計測を行わず、すべてユーザ代行発話装置20の応答が必要と判定する。 (Processing Example 3) If the user substitute utterance device 20 has not made the first utterance after the start of the dialogue sequence between the user 1 and the user utterance partner device 10, the threshold value is set from the utterance completion timing of the user utterance partner device 10. If there is no user utterance of user 1 within the time (N seconds (for example, N = 2)), it is determined that the response of the user substitute utterance device 20 is necessary. However, after the start of the dialogue sequence between the user 1 and the user utterance partner device 10 and the user substitute utterance device 20 making the first utterance, the elapsed time from the utterance completion timing of the user utterance partner device 10 to the user utterance detection is measured. Is not performed, and it is determined that the response of the user substitute utterance device 20 is necessary.

(処理例4) ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、しきい値時間を初回のNより短いN秒(例えばN=1)に設定して、ユーザ代行発話装置20の応答要否を判定する。 (Processing Example 4) If the user substitute utterance device 20 has not made the first utterance after the start of the dialogue sequence between the user 1 and the user utterance partner device 10, the threshold value is set from the utterance completion timing of the user utterance partner device 10. If there is no user utterance of user 1 within the time (N seconds (for example, N = 2)), it is determined that the response of the user substitute utterance device 20 is necessary. However, after the dialogue sequence between the user 1 and the user utterance partner device 10 is started and the user substitute utterance device 20 makes the first utterance, the threshold time is N seconds shorter than the first N (for example, N = 1). Is set to, and it is determined whether or not the user proxy utterance device 20 needs to respond.

(処理例5) ユーザ発話相手装置10の発話完了タイミングからの経過時間(N秒)だけでなく、その他の情報を基にしてユーザ1本人が発話するのを待つかどうか、すなわち、ユーザ代行発話装置20の応答要否を判定する。 (Processing Example 5) Whether or not to wait for one user to speak based on not only the elapsed time (N seconds) from the utterance completion timing of the user utterance partner device 10 but also other information, that is, the user's utterance on behalf of the user. It is determined whether or not the response of the device 20 is necessary.

例えば、ユーザ代行発話装置20に備えられた画像入力部(カメラ)26を用いてユーザ1の顔画像を撮影し、撮影した顔画像からユーザ1の視線情報を解析する。
この視線解析結果として、ユーザ1が、発話相手装置10の方を見ていると判定された場合は自ら話す意思があると判断して、ユーザ本人の発話が入力されるのを待つ。
For example, the face image of the user 1 is photographed by using the image input unit (camera) 26 provided in the user proxy utterance device 20, and the line-of-sight information of the user 1 is analyzed from the photographed face image.
As a result of this line-of-sight analysis, when it is determined that the user 1 is looking toward the utterance partner device 10, it is determined that the user 1 is willing to speak, and the user waits for the utterance of the user himself / herself to be input.

あるいは、ユーザ1の画像を撮影し、撮影した画像からユーザ1のジェスチャー(合図)を解析し、「ユーザ本人が発話したいことを示すジェスチャー」や、「ユーザ本人が発話したくないことを示すジェスチャー」を解析して、このジェスチャー解析結果に基づいて、ユーザ代行発話装置20の応答要否を判定してもよい。 Alternatively, an image of the user 1 is taken, the gesture (signal) of the user 1 is analyzed from the taken image, and a "gesture indicating that the user himself / herself wants to speak" or a "gesture indicating that the user himself / herself does not want to speak" or "a gesture indicating that the user himself / herself does not want to speak". , And based on the gesture analysis result, it may be determined whether or not the response of the user proxy utterance device 20 is necessary.

ユーザ代行発話装置20の応答要否判定部103の実行する複数の応答要否判定処理シーケンスについて、図12〜図15に示すフローチャートを参照して説明する。 A plurality of response necessity determination processing sequences executed by the response necessity determination unit 103 of the user proxy utterance device 20 will be described with reference to the flowcharts shown in FIGS. 12 to 15.

まず、図12に示すフローチャートを参照して、上述した(処理例1)、すなわち、
(処理例1)ユーザ発話相手装置10の各発話の完了タイミングごとに、ユーザ1の発話の無い経過時間がしきい値時間(N秒(例えばN=2))以上となるか否かを計測して、ユーザ代行発話装置20の応答要否を判定する処理を行なう。
この(処理例1)の処理シーケンスについて説明する。
First, with reference to the flowchart shown in FIG. 12, the above-mentioned (processing example 1), that is,
(Processing Example 1) At each completion timing of each utterance of the user utterance partner device 10, it is measured whether or not the elapsed time without utterance of the user 1 exceeds the threshold time (N seconds (for example, N = 2)). Then, a process of determining whether or not a response is required of the user proxy utterance device 20 is performed.
The processing sequence of this (processing example 1) will be described.

(ステップS101)
まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS101において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
(Step S101)
First, in step S101, the response necessity determination unit 103 of the user substitute utterance device 20 inputs the utterance text of the user utterance partner device 10 from the voice recognition unit 102.

なお、前述したように、音声認識部102は、発話検出部101から入力した音声データが、
(a)ユーザ1から発せられるユーザ発話音声51であるか、
(b)カーナビ装置等のユーザ発話相手装置10から出力されるユーザ発話相手装置出力音声52であるか、
As described above, the voice recognition unit 102 receives the voice data input from the utterance detection unit 101.
(A) Is it the user-spoken voice 51 emitted from the user 1?
(B) Whether the user utterance partner device output voice 52 is output from the user utterance partner device 10 such as a car navigation device.

これら(a),(b)のいずれの音声であるかの識別情報、すなわち、発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを応答要否判定部103に入力する。 The identification information of which of the voices (a) and (b) is used, that is, the utterance text in which the utterance subject identifier (speaking subject identification tag) is set as additional information is input to the response necessity determination unit 103.

応答要否判定部103は、この発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS102以下の処理を実行する。 When the response necessity determination unit 103 refers to the utterance subject identifier (utterance subject identification tag) and confirms that the input text from the voice recognition unit 102 is the utterance text of the user utterance partner device 10, the step The processing of S102 and the like is executed.

(ステップS102)
次に、応答要否判定部103は、ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。
(Step S102)
Next, in step S102, the response necessity determination unit 103 determines whether or not the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10.

なお、この判定処理において必要となる、ユーザ発話相手装置10の発話完了タイミングや、ユーザ発話検出タイミングは、音声認識部102から応答要否判定部103へ発話主体識別子(発話主体識別タグ)の設定された発話テキストが入力された時間に基づいて判定する。あるいは、発話検出部101における発話検出時間を用いてもよい。 The utterance completion timing of the user utterance partner device 10 and the user utterance detection timing, which are required in this determination process, are set from the voice recognition unit 102 to the response necessity determination unit 103 to set the utterance subject identifier (utterance subject identification tag). Judgment is made based on the time when the spoken text is input. Alternatively, the utterance detection time in the utterance detection unit 101 may be used.

ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS102の判定はYesとなり、ステップS103に進む。 If the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S102 is Yes, and the process proceeds to step S103.

すなわち、例えば音声認識部102から応答要否判定部103に対するユーザ発話相手装置10の発話テキスト入力タイミングから規定しきい値時間(N秒)内に、音声認識部102からユーザ1の発話したユーザ発話テキストが入力された場合には、ステップS102の判定はYesとなり、ステップS103に進む。 That is, for example, the user utterance spoken by the user 1 from the voice recognition unit 102 within a specified threshold time (N seconds) from the utterance text input timing of the user utterance partner device 10 to the response necessity determination unit 103 from the voice recognition unit 102. When the text is input, the determination in step S102 is Yes, and the process proceeds to step S103.

一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合には、ステップS102の判定はYesとなり、ステップS103に進む。 On the other hand, if the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S102 is Yes, and the process proceeds to step S103.

すなわち、例えば音声認識部102から応答要否判定部103に対するユーザ発話相手装置10の発話テキスト入力タイミングから規定しきい値時間(N秒)内に、音声認識部102からユーザ1の発話したユーザ発話テキストが入力されなかった場合には、ステップS102の判定はNoとなり、ステップS104に進む。 That is, for example, the user utterance spoken by the user 1 from the voice recognition unit 102 within a specified threshold time (N seconds) from the utterance text input timing of the user utterance partner device 10 to the response necessity determination unit 103 from the voice recognition unit 102. If no text is input, the determination in step S102 is No, and the process proceeds to step S104.

(ステップS103)
ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS103の処理を実行する。
(Step S103)
In step S102, when the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the process of step S103 is executed.

この場合、応答要否判定部103は、ステップS103において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。 In this case, in step S103, the response necessity determination unit 103 is "unnecessary" for the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10. The response necessity identification value (0) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理が実行されない。 In this case, the response generation unit 104 does not execute the response utterance generation process for outputting from the user proxy utterance device 20.

(ステップS104)
一方、ステップS102において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合には、ステップS104の処理を実行する。
(Step S104)
On the other hand, in step S102, if the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the process of step S104 is executed.

この場合、応答要否判定部103は、ステップS104において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。 In this case, in step S104, the response necessity determination unit 103 "needs" the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 to the output utterance from the user utterance partner device 10. The response necessity identification value (1) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。 In this case, the response generation unit 104 executes a response utterance generation process for outputting from the user proxy utterance device 20.

次に、図13に示すフローを参照して、上記(処理例2)、すなわち、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合において、そのユーザ発話が、カーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定して、判定結果に応じて処理を変更する例について説明する。 Next, referring to the flow shown in FIG. 13, when the user utterance is detected within the specified threshold time (N seconds) from the above (processing example 2), that is, the utterance completion timing of the user utterance partner device 10. In the present invention, an example will be described in which it is determined whether or not the user utterance is made to the user utterance partner device 10 such as a car navigation device, and the process is changed according to the determination result.

具体的には、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであると判定した場合は、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。 Specifically, it is said that the user utterance detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10 is made to the user utterance partner device 10 such as a car navigation device. When the determination is made, a response necessity identification value (0) indicating that the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10 is "unnecessary" is generated, and the response generation unit 104 generates a response necessity identification value (0). Output.

一方、ユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものでないと判定した場合は、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。 On the other hand, when it is determined that the user utterance is not made to the user utterance partner device 10 such as a car navigation device, the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10 is "necessary". A response necessity identification value (1) indicating that there is is generated and output to the response generation unit 104.

なお、ユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かの判定は、例えばユーザ発話の意味解析結果に基づいて実行することができる。ユーザ発話の意味解析により、そのユーザ発話が直前のユーザ発話相手装置10の発話に対する応答としてなされているか否かを判定することができる。
例えば、ユーザ発話のテキストを解析し、カーナビ装置への操作命令(ユーザ発話相手装置10の発話に対する応答)であるか否かを判定することができる。
It should be noted that the determination as to whether or not the user utterance is made to the user utterance partner device 10 such as the car navigation device can be executed based on, for example, the semantic analysis result of the user utterance. By the semantic analysis of the user utterance, it can be determined whether or not the user utterance is made as a response to the utterance of the immediately preceding user utterance partner device 10.
For example, it is possible to analyze the text of the user's utterance and determine whether or not it is an operation command to the car navigation device (a response to the utterance of the user's utterance partner device 10).

あるいは、ユーザ代行発話装置20に装着された画像入力部(カメラ)26によって撮影されたユーザ1の顔画像から、ユーザ1の視線方向を解析して、ユーザ1の視線がユーザ発話相手装置10に向けられている場合には、ユーザ発話がユーザ発話相手装置10に対してなされた発話であると判定し、ユーザ1の視線がユーザ発話相手装置10に向けられていない場合には、ユーザ発話がユーザ発話相手装置10に対してなされた発話でないと判定してもよい。 Alternatively, the line-of-sight direction of the user 1 is analyzed from the face image of the user 1 taken by the image input unit (camera) 26 mounted on the user substitute utterance device 20, and the line-of-sight of the user 1 is transferred to the user utterance partner device 10. If it is directed, it is determined that the user utterance is an utterance made to the user utterance partner device 10, and if the line of sight of the user 1 is not directed to the user utterance partner device 10, the user utterance is It may be determined that the utterance is not made to the user utterance partner device 10.

図13に示すフローの各ステップの処理について説明する。
(ステップS121〜S122)
ステップS121〜S122の処理は、図12を参照して説明したフローのステップS101〜S102の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 13 will be described.
(Steps S121-S122)
The processes of steps S121 to S122 are the same as the processes of steps S101 to S102 of the flow described with reference to FIG.

すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS121において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
That is, first, the response necessity determination unit 103 of the user substitute utterance device 20 inputs the utterance text of the user utterance partner device 10 from the voice recognition unit 102 in step S121.
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the user 1 or the utterance text of the output utterance of the user utterance partner device 10 is set as additional information. ..

応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS122以下の処理を実行する。 When the response necessity determination unit 103 refers to the utterance subject identifier (utterance subject identification tag) and confirms that the input text from the voice recognition unit 102 is the utterance text of the user utterance partner device 10, step S122. Execute the following processing.

応答要否判定部103は、ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。 In step S122, the response necessity determination unit 103 determines whether or not the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10.

ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS122の判定はYesとなり、ステップS123に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS122の判定はNoとなり、ステップS125に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S122 is Yes, and the process proceeds to step S123.
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S122 becomes No, and the process proceeds to step S125.

(ステップS123)
ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出された場合には、ステップS123の処理を実行する。
(Step S123)
In step S122, when the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the process of step S123 is executed.

この場合、応答要否判定部103は、ステップS123において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定する。
例えばユーザ発話の意味解析結果や、ユーザの顔画像からの視線情報の解析結果を利用して判定する。
In this case, in step S123, the response necessity determination unit 103 detects the user utterance within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10 to the user utterance partner device such as a car navigation device. It is determined whether or not it was made for 10.
For example, the determination is made using the semantic analysis result of the user's utterance and the analysis result of the line-of-sight information from the user's face image.

検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS124に進む。
一方、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS125に進む。
If it is determined that the detected user utterance is made to the user utterance partner device 10, the process proceeds to step S124.
On the other hand, if it is determined that the detected user utterance is not made to the user utterance partner device 10, the process proceeds to step S125.

(ステップS124)
ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS123において、そのユーザ発話が、ユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS124に進む。
(Step S124)
In step S122, it is determined that the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, and further, in step S123, the user utterance is the user utterance partner device 10. If it is determined that the item has been made for, the process proceeds to step S124.

この場合、応答要否判定部103は、ステップS124において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。 In this case, in step S124, the response necessity determination unit 103 is "unnecessary" for the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10. The response necessity identification value (0) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。 In this case, the response generation unit 104 does not execute the response utterance generation process for outputting from the user proxy utterance device 20.

(ステップS125)
一方、ステップS122において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかった場合、または、ステップS123において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話が、ユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS125に進む。
(Step S125)
On the other hand, in step S122, when the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, or in step S123, the utterance of the user utterance partner device 10 is completed. If it is determined that the user utterance detected within the specified threshold time (N seconds) from the timing is not made to the user utterance partner device 10, the process proceeds to step S125.

この場合、応答要否判定部103は、ステップS125において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。 In this case, in step S125, the response necessity determination unit 103 "needs" the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 with respect to the output utterance from the user utterance partner device 10. The response necessity identification value (1) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。 In this case, the response generation unit 104 executes a response utterance generation process for outputting from the user proxy utterance device 20.

次に、図14に示すフローを参照して、上記(処理例3)に従った処理シーケンスについて説明する。 Next, a processing sequence according to the above (processing example 3) will be described with reference to the flow shown in FIG.

(処理例3)は、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行っていない場合は、ユーザ発話相手装置10の発話完了タイミングから、しきい値時間(N秒(例えばN=2))以内にユーザ1のユーザ発話が無い場合、ユーザ代行発話装置20の応答が必要と判定する。ただし、ユーザ1とユーザ発話相手装置10との対話シーケンス開始後、ユーザ代行発話装置20が初回の発話を行った後は、ユーザ発話相手装置10の発話完了タイミングからユーザ発話検出までの経過時間計測を行わず、すべてユーザ代行発話装置20の応答が必要と判定する処理例である。
図14を参照して、この処理例に従った処理シーケンスについて説明する。
(Processing example 3) starts from the utterance completion timing of the user utterance partner device 10 when the user substitute utterance device 20 does not make the first utterance after the start of the dialogue sequence between the user 1 and the user utterance partner device 10. If there is no user utterance of user 1 within the threshold time (N seconds (for example, N = 2)), it is determined that the response of the user substitute utterance device 20 is necessary. However, after the start of the dialogue sequence between the user 1 and the user utterance partner device 10 and the user substitute utterance device 20 making the first utterance, the elapsed time from the utterance completion timing of the user utterance partner device 10 to the user utterance detection is measured. This is a processing example in which it is determined that the response of the user substitute utterance device 20 is necessary.
A processing sequence according to this processing example will be described with reference to FIG.

図14に示すフローの各ステップの処理について説明する。
(ステップS141)
ステップS141の処理は、図12を参照して説明したフローのステップS101の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 14 will be described.
(Step S141)
The process of step S141 is the same process as the process of step S101 of the flow described with reference to FIG.

すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS141において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS142以下の処理を実行する。
That is, first, the response necessity determination unit 103 of the user substitute utterance device 20 inputs the utterance text of the user utterance partner device 10 from the voice recognition unit 102 in step S141.
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the user 1 or the utterance text of the output utterance of the user utterance partner device 10 is set as additional information. ..
When the response necessity determination unit 103 confirms that the input text from the voice recognition unit 102 is the utterance text of the user utterance partner device 10 by referring to the utterance subject identifier (utterance subject identification tag), step S142 Execute the following processing.

(ステップS142)
次に、応答要否判定部103は、ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われているか否かを判定する。
(Step S142)
Next, in step S142, the response necessity determination unit 103 determines whether or not the user substitute utterance device 20 is speaking as the utterance immediately before the input utterance text of the user utterance partner device 10.

行われている場合はステップS142の判定がYesとなり、ステップS144に進む。
行われていない場合はステップS142の判定がNoとなり、ステップS143に進む。
なお、行われていない場合のケースとしては、入力したユーザ発話相手装置10の発話テキストの直前の発話が存在しない場合と、入力したユーザ発話相手装置10の発話テキストの直前の発話がユーザ1のユーザ発話である場合の2通りの場合が含まれる。
If this is done, the determination in step S142 is Yes, and the process proceeds to step S144.
If it has not been performed, the determination in step S142 becomes No, and the process proceeds to step S143.
In the case where the utterance is not performed, the utterance immediately before the input utterance text of the user utterance partner device 10 does not exist, and the utterance immediately before the utterance text of the input user utterance partner device 10 is the user 1. Two cases are included in the case of user utterance.

(ステップS143)
ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定した場合、ステップS143に進む。
(Step S143)
If it is determined in step S142 that the utterance of the user substitute utterance device 20 has not been performed as the utterance immediately before the utterance text of the input user utterance partner device 10, the process proceeds to step S143.

この場合、応答要否判定部103は、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。 In this case, the response necessity determination unit 103 determines in step S143 whether or not the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10.

ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS143の判定はYesとなり、ステップS145に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS143の判定はNoとなり、ステップS144に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S143 is Yes, and the process proceeds to step S145.
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S143 becomes No, and the process proceeds to step S144.

(ステップS144)
ステップS144の処理は、以下のいずれかの場合に実行する処理である。
(a)ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていると判定した場合、
(b)ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかったと判定した場合、
(Step S144)
The process of step S144 is a process to be executed in any of the following cases.
(A) In step S142, when it is determined that the utterance of the user substitute utterance device 20 is being performed as the utterance immediately before the utterance text of the input user utterance partner device 10.
(B) In step S142, it is determined that the user substitute utterance device 20 has not spoken as the utterance immediately before the utterance text of the user utterance partner device 10 that has been input, and further, in step S143, the user utterance partner device 10 When it is determined that the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of

上記(a),(b)のいずれかの場合、応答要否判定部103は、ステップS144において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。 In the case of any of the above (a) and (b), in step S144, the response necessity determination unit 103 responds to the user proxy utterance device 20, that is, the user proxy utterance device for the output utterance from the user utterance partner device 10. A response necessity identification value (1) indicating that the utterance from 20 is "necessary" is generated and output to the response generation unit 104.

この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。 In this case, the response generation unit 104 executes a response utterance generation process for outputting from the user proxy utterance device 20.

(ステップS145)
一方、ステップS142において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS143において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定した場合、応答要否判定部103は、ステップS145の処理を実行する。
(Step S145)
On the other hand, in step S142, it is determined that the user substitute utterance device 20 has not spoken as the utterance immediately before the utterance text of the user utterance partner device 10 that has been input, and further, in step S143, the user utterance partner device 10 When it is determined that the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing, the response necessity determination unit 103 executes the process of step S145.

この場合、応答要否判定部103は、ステップS145において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。 In this case, in step S145, the response necessity determination unit 103 is "unnecessary" for the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10. The response necessity identification value (0) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。 In this case, the response generation unit 104 does not execute the response utterance generation process for outputting from the user proxy utterance device 20.

次に、図15を参照して、図13を参照して説明した(処理例2)と図14を参照して説明した(処理例3)を併せて実行する処理例(処理例2+3)について説明する。 Next, with respect to a processing example (processing example 2 + 3) in which (processing example 2) described with reference to FIG. 13 and (processing example 3) described with reference to FIG. 14 are executed together with reference to FIG. explain.

図15に示すフローの各ステップの処理について説明する。
(ステップS151)
ステップS151の処理は、図12を参照して説明したフローのステップS101の処理と同様の処理である。
The processing of each step of the flow shown in FIG. 15 will be described.
(Step S151)
The process of step S151 is the same process as the process of step S101 of the flow described with reference to FIG.

すなわち、まず、ユーザ代行発話装置20の応答要否判定部103は、ステップS151において、音声認識部102から、ユーザ発話相手装置10の発話テキストを入力する。
発話テキストがユーザ1のユーザ発話のテキストであるか、ユーザ発話相手装置10の出力発話の発話テキストであるかを示す発話主体識別子(発話主体識別タグ)を付加情報として設定した発話テキストを入力する。
応答要否判定部103は、発話主体識別子(発話主体識別タグ)を参照して、音声認識部102からの入力テキストが、ユーザ発話相手装置10の発話テキストであることを確認した場合、ステップS152以下の処理を実行する。
That is, first, the response necessity determination unit 103 of the user substitute utterance device 20 inputs the utterance text of the user utterance partner device 10 from the voice recognition unit 102 in step S151.
Enter the utterance text in which the utterance subject identifier (speaking subject identification tag) indicating whether the utterance text is the user utterance text of the user 1 or the utterance text of the output utterance of the user utterance partner device 10 is set as additional information. ..
When the response necessity determination unit 103 refers to the utterance subject identifier (utterance subject identification tag) and confirms that the input text from the voice recognition unit 102 is the utterance text of the user utterance partner device 10, step S152. Execute the following processing.

(ステップS152)
次に、応答要否判定部103は、ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われているか否かを判定する。
(Step S152)
Next, in step S152, the response necessity determination unit 103 determines whether or not the user substitute utterance device 20 is speaking as the utterance immediately before the input utterance text of the user utterance partner device 10.

行われている場合はステップS152の判定がYesとなり、ステップS155に進む。
行われていない場合はステップS152の判定がNoとなり、ステップS153に進む。
なお、行われていない場合のケースとしては、入力したユーザ発話相手装置10の発話テキストの直前の発話が存在しない場合と、入力したユーザ発話相手装置10の発話テキストの直前の発話がユーザ1のユーザ発話である場合の2通りの場合が含まれる。
If this is done, the determination in step S152 is Yes, and the process proceeds to step S155.
If it has not been performed, the determination in step S152 becomes No, and the process proceeds to step S153.
In the case where the utterance is not performed, the utterance immediately before the input utterance text of the user utterance partner device 10 does not exist, and the utterance immediately before the utterance text of the input user utterance partner device 10 is the user 1. Two cases are included in the case of user utterance.

(ステップS153)
ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定した場合、ステップS153に進む。
(Step S153)
If it is determined in step S152 that the utterance of the user substitute utterance device 20 has not been performed as the utterance immediately before the utterance text of the input user utterance partner device 10, the process proceeds to step S153.

この場合、応答要否判定部103は、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたか否かを判定する。 In this case, the response necessity determination unit 103 determines in step S153 whether or not the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10.

ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされた場合には、ステップS153の判定はYesとなり、ステップS154に進む。
一方、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話テキストの入力がなされなかった場合には、ステップS153の判定はNoとなり、ステップS155に進む。
If the user utterance text is input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S153 is Yes, and the process proceeds to step S154.
On the other hand, if the user utterance text is not input within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10, the determination in step S153 becomes No, and the process proceeds to step S155.

(ステップS154)
ステップS154の処理は、以下の場合に実行する処理である。
ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定した場合。
(Step S154)
The process of step S154 is a process to be executed in the following cases.
In step S152, it is determined that the utterance of the user substitute utterance device 20 has not been performed as the utterance immediately before the utterance text of the user utterance partner device 10 input, and further, in step S153, the utterance of the user utterance partner device 10 is completed. When it is determined that the user utterance is detected within the specified threshold time (N seconds) from the timing.

この場合、応答要否判定部103は、ステップS154において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内に検出されたユーザ発話がカーナビ装置等のユーザ発話相手装置10に対してなされたものであるか否かを判定する。
例えばユーザ発話の意味解析結果や、ユーザの顔画像からの視線情報の解析結果を利用して判定する。
In this case, in step S154, the response necessity determination unit 103 detects the user utterance within the specified threshold time (N seconds) from the utterance completion timing of the user utterance partner device 10 to the user utterance partner device such as a car navigation device. It is determined whether or not it was made for 10.
For example, the determination is made using the semantic analysis result of the user's utterance and the analysis result of the line-of-sight information from the user's face image.

検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合は、ステップS156に進む。
一方、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合は、ステップS155に進む。
If it is determined that the detected user utterance is made to the user utterance partner device 10, the process proceeds to step S156.
On the other hand, if it is determined that the detected user utterance is not made to the user utterance partner device 10, the process proceeds to step S155.

(ステップS155)
ステップS155の処理は、以下のいずれかの場合に実行する処理である。
(a)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていると判定した場合、
(b)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されなかったと判定した場合、
(c)ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS154において、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものでないと判定した場合。
(Step S155)
The process of step S155 is a process to be executed in any of the following cases.
(A) In step S152, when it is determined that the utterance of the user substitute utterance device 20 is being performed as the utterance immediately before the utterance text of the input user utterance partner device 10.
(B) In step S152, it is determined that the user substitute utterance device 20 has not spoken as the utterance immediately before the utterance text of the user utterance partner device 10 that has been input, and further, in step S153, the user utterance partner device 10 When it is determined that the user utterance is not detected within the specified threshold time (N seconds) from the utterance completion timing of
(C) In step S152, it is determined that the user substitute utterance device 20 has not spoken as the utterance immediately before the utterance text of the user utterance partner device 10 that has been input, and further, in step S153, the user utterance partner device 10 It is determined that the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing of the above, and further, in step S154, the detected user utterance must be made to the user utterance partner device 10. When judged.

上記(a),(b),(c)いずれかの場合、応答要否判定部103は、ステップS155において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「必要」であることを示す応答要否識別値(1)を生成して、応答生成部104に出力する。 In any of the above cases (a), (b), and (c), in step S155, the response necessity determination unit 103 responds to the response of the user substitute utterance device 20, that is, the user to the output utterance from the user utterance partner device 10. A response necessity identification value (1) indicating that the utterance from the substitute utterance device 20 is “necessary” is generated and output to the response generation unit 104.

この場合、応答生成部104は、ユーザ代行発話装置20から出力するための応答発話の生成処理を実行する。 In this case, the response generation unit 104 executes a response utterance generation process for outputting from the user proxy utterance device 20.

(ステップS156)
一方、ステップS152において、入力したユーザ発話相手装置10の発話テキストの直前の発話として、ユーザ代行発話装置20の発話が行われていないと判定し、さらに、ステップS153において、ユーザ発話相手装置10の発話完了タイミングから規定しきい値時間(N秒)内にユーザ発話が検出されたと判定し、さらに、ステップS154において、検出されたユーザ発話がユーザ発話相手装置10に対してなされたものであると判定した場合、応答要否判定部103は、ステップS156の処理を実行する。
(Step S156)
On the other hand, in step S152, it is determined that the user substitute utterance device 20 has not spoken as the utterance immediately before the utterance text of the user utterance partner device 10 that has been input, and further, in step S153, the user utterance partner device 10 It is determined that the user utterance is detected within the specified threshold time (N seconds) from the utterance completion timing, and further, in step S154, it is determined that the detected user utterance is made to the user utterance partner device 10. When the determination is made, the response necessity determination unit 103 executes the process of step S156.

この場合、応答要否判定部103は、ステップS156において、ユーザ代行発話装置20の応答、すなわち、ユーザ発話相手装置10からの出力発話に対するユーザ代行発話装置20からの発話が「不要」であることを示す応答要否識別値(0)を生成して、応答生成部104に出力する。 In this case, in step S156, the response necessity determination unit 103 is "unnecessary" for the response of the user substitute utterance device 20, that is, the utterance from the user substitute utterance device 20 for the output utterance from the user utterance partner device 10. The response necessity identification value (0) indicating the above is generated and output to the response generation unit 104.

この場合、応答生成部104では、ユーザ代行発話装置20から出力するための応答発話の生成処理は実行されない。 In this case, the response generation unit 104 does not execute the response utterance generation process for outputting from the user proxy utterance device 20.

以上、応答要否判定部103の実行する処理例について、複数の処理例を説明した。
応答要否判定部103は、さらに、例えば、応答が「必要」(=1)と判定した場合、ユーザ代行発話装置20が発話(応答)しようとしていることをユーザ1に伝えるためのシグナルを出力する構成としてもよい。
具体的には、シグナルとして、例えばLEDランプの点滅、効果音の出力、あるいは「私がお答えします」といった発話を出力するといった構成である。
As described above, a plurality of processing examples have been described with respect to the processing examples executed by the response necessity determination unit 103.
Further, for example, when the response necessity determination unit 103 determines that the response is "necessary" (= 1), the response necessity determination unit 103 outputs a signal for notifying the user 1 that the user substitute utterance device 20 is about to speak (response). It may be configured to be used.
Specifically, as a signal, for example, a blinking LED lamp, an output of a sound effect, or an utterance such as "I will answer" is output.

(4−(4).応答生成部104が実行する処理の詳細について)
次に、応答生成部104が実行する処理の詳細について説明する。
(4- (4). Details of the process executed by the response generator 104)
Next, the details of the process executed by the response generation unit 104 will be described.

応答生成部104は、前述したように応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
この発話テキストの生成に際しては、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123の利用が可能である。また、通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報の利用も可能である。
When the response generation request is input from the response necessity determination unit 103 as described above, the response generation unit 104 generates an utterance text corresponding to the utterance to be output from the user proxy utterance device 20.
When generating this utterance text, various information stored in the storage unit 24, that is, the input utterance correspondence response database 121, the user action history information 122, and the user profile information 123 can be used. Further, it is also possible to use the information that can be acquired via the communication unit 25, that is, the information acquired from the external server 150 or the user utterance partner device 10.

応答生成部104の入力、出力、および実行処理は以下の通りである。
(a)入力
ユーザ代行発話装置20による応答要否を示す応答要否識別値(例えば必要=1,不要=0)
ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)が入力される場合は、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストも併せて入力される。
The input, output, and execution processing of the response generation unit 104 are as follows.
(A) Response necessity identification value indicating whether or not the response is required by the input user proxy utterance device 20 (for example, required = 1, unnecessary = 0)
When the response necessity identification value (necessary = 1) indicating the response requirement by the user substitute utterance device 20 is input, the utterance text in which the utterance subject identifier (utterance subject identification tag) generated by the voice recognition unit 102 is also set. It is also entered.

(b)出力
ユーザ代行発話装置20の出力する発話内容を示す発話テキスト
(B) Output A utterance text indicating the utterance content output by the user proxy utterance device 20.

(c)処理
応答要否判定部103から応答生成要求を入力した場合、ユーザ代行発話装置20から出力するための発話に対応する発話テキストを生成する。
(C) Processing When a response generation request is input from the response necessity determination unit 103, the utterance text corresponding to the utterance to be output from the user proxy utterance device 20 is generated.

応答生成部104は、ユーザ代行発話装置20から出力する発話の発話テキストを生成する際、記憶部24に格納された様々な情報、すなわち、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123や、外部サーバ150やユーザ発話相手装置10からの取得情報を利用する。 When the response generation unit 104 generates the utterance text of the utterance output from the user substitute utterance device 20, various information stored in the storage unit 24, that is, the input utterance correspondence response database 121, the user action history information 122, and the user The profile information 123 and the information acquired from the external server 150 and the user utterance partner device 10 are used.

入力発話対応応答データベース121の具体例を図16に示す。
図16に示すように、入力発話対応応答データベース121は、
(A)サンプル入力発話
(B)応答発話
これら(A),(B)の対応データを多数格納したデータベースである。
A specific example of the input utterance correspondence response database 121 is shown in FIG.
As shown in FIG. 16, the input utterance correspondence response database 121 is
(A) Sample input utterance (B) Response utterance This is a database that stores a large number of corresponding data of (A) and (B).

(A)サンプル入力発話は、ユーザ発話相手装置10の発話を想定した発話テキストのサンプルデータである。
(B)応答発話は、ユーザ発話相手装置10の発話を想定した発話テキストのサンプルデータ各々に対して、ユーザ代行発話装置20から出力する発話の発話テキストデータである。
(A) The sample input utterance is sample data of the utterance text assuming the utterance of the user utterance partner device 10.
(B) The response utterance is the utterance text data of the utterance output from the user substitute utterance device 20 for each sample data of the utterance text assuming the utterance of the user utterance partner device 10.

ユーザ代行発話装置20の応答生成部104は、例えば、まず、応答要否判定部103から応答要否識別値(必要=1)に併せて発話テキストを入力する。すなわち、ユーザ発話相手装置10の発話テキストを入力する。
次に、入力した発話テキストと類似度が最も高い「(A)サンプル入力発話」を、入力発話対応応答データベース121から選択する。
さらに、選択した「(A)サンプル入力発話」に対応付けた登録された「(B)応答発話」を選択し、選択した「(B)応答発話」の発話テキストを出力発話とする処理を行なう。
For example, the response generation unit 104 of the user substitute utterance device 20 first inputs the utterance text from the response necessity determination unit 103 together with the response necessity identification value (necessity = 1). That is, the utterance text of the user utterance partner device 10 is input.
Next, "(A) sample input utterance" having the highest degree of similarity to the input utterance text is selected from the input utterance correspondence response database 121.
Further, the registered "(B) response utterance" associated with the selected "(A) sample input utterance" is selected, and the utterance text of the selected "(B) response utterance" is used as the output utterance. ..

ただし、入力発話対応応答データベース121の登録データの参照のみでは、1つのユーザ代行発話装置20から出力する発話テキストを決定できない場合がある。
このような場合には、ユーザ行動履歴情報122、ユーザプロファイル情報123や、外部サーバ150やユーザ発話相手装置10からの取得情報の利用が行われる。
However, it may not be possible to determine the utterance text to be output from one user proxy utterance device 20 only by referring to the registered data of the input utterance correspondence response database 121.
In such a case, the user action history information 122, the user profile information 123, and the information acquired from the external server 150 and the user utterance partner device 10 are used.

ユーザ行動履歴情報122の具体例を図17に示す。
図17に示すように、ユーザ行動履歴情報122には、ユーザ1の過去の行動履歴情報として、
(a)日時
(b)行動
これら(a),(b)の対応データが多数格納されている。
A specific example of the user action history information 122 is shown in FIG.
As shown in FIG. 17, the user action history information 122 contains the past action history information of the user 1.
(A) Date and time (b) Behavior A large number of corresponding data of these (a) and (b) are stored.

ユーザ代行発話装置20の応答生成部104は、入力発話対応応答データベース121の登録データの参照のみでは、1つのユーザ代行発話装置20から出力する発話テキストを決定できない場合、ユーザ行動履歴情報122の登録データや、その他の情報を参照して、ユーザ1の意向を推定して、ユーザ1に代わる代行発話を決定する。 When the response generation unit 104 of the user substitute utterance device 20 cannot determine the utterance text to be output from one user substitute utterance device 20 only by referring to the registration data of the input utterance correspondence response database 121, the response generation unit 104 registers the user action history information 122. By referring to the data and other information, the intention of the user 1 is estimated, and the proxy utterance on behalf of the user 1 is determined.

ユーザ行動履歴情報122以外のその他の情報とは、例えば、ユーザプロファイル情報123、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々な外部サーバからの取得情報や、ユーザ発話相手装置10の蓄積データ等である。
応答生成部104は、これらの情報を取得、参照して、ユーザ1の意向を推定して、ユーザ1に代わる代行発話を決定する。
Other information other than the user action history information 122 includes, for example, information acquired from various external servers such as a user profile information 123, a knowledge database, a scenario database storing dialogue sequence information, and an SNS (Social Networking Service) server. Or, the accumulated data of the user talking partner device 10.
The response generation unit 104 acquires and refers to this information, estimates the intention of the user 1, and determines a substitute utterance on behalf of the user 1.

なお、ユーザプロファイル情報123には、ユーザ1の性別、年齢、趣味、家族構成等が記録されている。
また、外部サーバ150には、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々なサーバが含まれる。
例えばSNSサーバには、ユーザ1がSNSを利用して行った発話や画像等が登録されている。ユーザ代行発話装置20の応答生成部104は、例えばSNSサーバに登録されたユーザ1の発話や投稿画像を解析することでユーザの意向を推定する処理を行なう。
The user profile information 123 records the gender, age, hobbies, family structure, etc. of the user 1.
Further, the external server 150 includes various servers such as a knowledge database, a scenario database storing dialogue sequence information, and an SNS (Social Networking Service) server.
For example, in the SNS server, utterances, images, and the like made by the user 1 using the SNS are registered. The response generation unit 104 of the user substitute utterance device 20 performs a process of estimating the user's intention by analyzing the utterance or posted image of the user 1 registered in the SNS server, for example.

以下、応答生成部104の実行する処理の具体例について説明する。
応答要否判定部103からの入力として、
ユーザ代行発話装置20による応答要を示す応答要否識別値(必要=1)が入力され、音声認識部102の生成した発話主体識別子(発話主体識別タグ)が設定された発話テキストを入力した場合の処理について説明する。
Hereinafter, a specific example of the processing executed by the response generation unit 104 will be described.
As an input from the response necessity determination unit 103,
When a response necessity identification value (necessary = 1) indicating the response required by the user substitute utterance device 20 is input, and an utterance text in which the utterance subject identifier (speaking subject identification tag) generated by the voice recognition unit 102 is input is input. The processing of is described.

入力発話テキスト、すなわち、ユーザ発話相手装置10の発話テキストが以下の発話テキストであったとする。
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
It is assumed that the input utterance text, that is, the utterance text of the user utterance partner device 10 is the following utterance text.
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "

このような発話テキストが入力された場合、応答生成部104は、例えば、以下のようなユーザ代行発話装置20の発話テキストを生成する。
代行装置発話テキスト=『お台場海浜公園駅にしてください』
When such an utterance text is input, the response generation unit 104 generates, for example, the following utterance text of the user substitute utterance device 20.
Proxy device utterance text = "Please make it Odaiba Kaihin Koen Station"

応答生成部104は、上記のような、ユーザ発話相手装置10の発話への応答としてふさわしい発話を生成するため、入力発話対応応答データベース121、ユーザ行動履歴情報122、ユーザプロファイル情報123を利用し、また、必要に応じて通信部25を介して取得可能な情報、すなわち外部サーバ150やユーザ発話相手装置10からの取得情報を利用する。 The response generation unit 104 uses the input utterance correspondence response database 121, the user action history information 122, and the user profile information 123 in order to generate an utterance suitable as a response to the utterance of the user utterance partner device 10 as described above. Further, if necessary, information that can be acquired via the communication unit 25, that is, information acquired from the external server 150 or the user utterance partner device 10 is used.

応答生成部104が実行する具体的な応答発話の生成処理シーケンスについて説明する。 A specific response utterance generation processing sequence executed by the response generation unit 104 will be described.

まず、応答生成部104は、応答要否判定部103から応答要否識別値(必要=1)に併せて入力した発話テキスト、すなわち、ユーザ発話相手装置10の発話テキストと類似度が最も高い「(A)サンプル入力発話」を、入力発話対応応答データベース121から選択する。 First, the response generation unit 104 has the highest degree of similarity to the utterance text input from the response necessity determination unit 103 together with the response necessity identification value (necessity = 1), that is, the utterance text of the user speech partner device 10. (A) Sample input utterance ”is selected from the input utterance correspondence response database 121.

例えば、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」が、
『かしこまりました。行き先は台場駅でよろしいですか』
上記のサンプル入力発話であるとする。
For example, "(A) sample input utterance" of the input utterance correspondence response database 121 having the highest degree of similarity to the utterance text of the user utterance partner device 10 is
"Understood. Are you sure you want to go to Odaiba Station? "
It is assumed that the above sample input utterance is used.

なお、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」を選択する際の判定指標値とする「類似度」は、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定することができる。 The "similarity" used as the determination index value when selecting "(A) sample input utterance" in the input utterance correspondence response database 121 having the highest degree of similarity to the utterance text of the user utterance partner device 10 is, for example, You can use the degree of duplication of words and phrases contained in the utterance. For example, morphological analysis can be performed to determine the degree of similarity based on the number of common morphemes.

具体例として、
ユーザ発話相手装置10の発話、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
この発話と、入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データである、図16に示すエントリ122とエントリ201の2つの「(A)サンプル入力発話」との類似度を比較する。
エントリ121のサンプル入力発話=『かしこまりました。目的地を決定してもよいですか』
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらの2つの「(A)サンプル入力発話」との類似度を比較する。
As a specific example
User utterance The utterance of the other party device 10
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "
The degree of similarity between this utterance and the two "(A) sample input utterances" of entry 122 and entry 201 shown in FIG. 16, which are the registration data of "(A) sample input utterance" in the input utterance correspondence response database 121. compare.
Sample input utterance of entry 121 = "I'm clever. May I decide on a destination? ”
Sample input utterance of entry 201 = "I'm clever. Are you sure you want to go to Odaiba Station? "
The degree of similarity with these two "(A) sample input utterances" is compared.

相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』
まず、この相手装置発話テキストを形態素単位の単語に分割する。
『かしこまり/まし/た/。/目的/地/は/台場/駅/で/よろしい/です/か』
(形態素(単語)13語)
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? "
First, the utterance text of the other device is divided into words in morpheme units.
"Understood/. / Purpose / Location / Ha / Odaiba / Station / De / OK / Is / Ka ”
(13 morphemes (words))

一方、エントリ122のサンプル入力発話=『かしこまりました。目的地を決定してもよいですか』
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらの2つの「(A)サンプル入力発話」についても、形態素単位の単語に分割する。
On the other hand, the sample input utterance of entry 122 = "I'm clever. May I decide on a destination? ”
Sample input utterance of entry 201 = "I'm clever. Are you sure you want to go to Odaiba Station? "
These two "(A) sample input utterances" are also divided into words in morpheme units.

エントリ122=『かしこまり/まし/た/。/目的/地/を/決定/し/て/も/よい/です/か』(形態素(単語)13語)
エントリ201=『かしこまり/まし/た/。/行き先/は/台場/駅/で/よろしい/です/か』(形態素(単語)12語)
Entry 122 = "Skillful / better / ta /. / Purpose / Ground / Determine / Decide / te / mo / good / is / ka ”(morpheme (word) 13 words)
Entry 201 = "Skillful / better / ta /. / Destination / Ha / Odaiba / Station / De / OK / Is / ka ”(Morpheme (word) 12 words)

相手装置発話テキストとエントリ122との共通する形態素の数は8(かしこまり/まし/た/。/目的/地/です/か)となる。
相手装置発話テキストとエントリ201との共通する形態素の数は11(かしこまり/まし/た/。/は/台場/駅/で/よろしい/です/か)であり、
The number of common morphemes between the utterance text of the other device and the entry 122 is 8 (smart / better / ta /. / purpose / ground / is / ka).
The number of morphemes common to the other device's utterance text and entry 201 is 11 (Kashikomari / Mashi / Ta /.

この結果、応答生成部104は、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』と最も類似度の高い入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データを、
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
上記エントリであると判断する。
As a result, the response generation unit 104
The other party's utterance text = "I'm clever. "Are you sure you want to go to Odaiba Station?"
Sample input utterance of entry 201 = "I'm clever. Are you sure you want to go to Odaiba Station? "
Judge that it is the above entry.

なお、応答生成部104は、類似度判定処理に際して、上記の共通形態素や、単語や、フレーズ等の数の比較のみならず、例えば「目的地」と「行き先」のように、表記は違っても意味的に近い単語やフレーズがあることを考慮したより柔軟な類似度算出を行ってもよい。この場合の具体的処理としては、例えば形態素(単語)や、フレーズの分散表現を用いて類似度解析を行う処理がある。 In the similarity determination process, the response generation unit 104 not only compares the numbers of the above common morphemes, words, phrases, etc., but also has different notations such as "destination" and "destination". You may also perform more flexible similarity calculation considering that there are words and phrases that are semantically close to each other. As a specific process in this case, for example, there is a process of performing similarity analysis using a morpheme (word) or a distributed expression of a phrase.

なお、図16に示す入力発話対応応答データベース121の「(A)サンプル入力発話」の登録データである、図16に示す、
エントリ201のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
エントリ202のサンプル入力発話=『かしこまりました。行先は台場駅でよろしいですか』
これらは全く同じサンプル入力発話である。
It should be noted that the registered data of "(A) sample input utterance" of the input utterance correspondence response database 121 shown in FIG. 16 is shown in FIG.
Sample input utterance of entry 201 = "I'm clever. Are you sure you want to go to Odaiba Station? "
Sample input utterance of entry 202 = "I'm clever. Are you sure you want to go to Odaiba Station? "
These are exactly the same sample input utterances.

すなわち、入力発話対応応答データベース121に登録されたこれら2つのエントリ201,202が、
相手装置発話テキスト=『かしこまりました。目的地は台場駅でよろしいですか』と最も類似度の高いエントリとして選択されることになる。
That is, these two entries 201 and 202 registered in the input utterance correspondence response database 121 are
The other party's utterance text = "I'm clever. Are you sure you want to go to Odaiba Station? ”Will be selected as the entry with the highest degree of similarity.

このように、入力発話対応応答データベース121の「(A)サンプル入力発話」のエントリとして、相手装置発話テキストに対する類似度が最も高い同一のサンプル入力発話が登録された複数のエントリが検出された場合、応答生成部104は、以下のいずれかの処理を実行する。
(a)ランダムにどちらか一方を選択する。
(b)その他の情報、すなわち、ユーザ行動履歴情報122、ユーザプロファイル情報123、外部サーバ150やユーザ発話相手装置10からの取得情報を利用して選択する。
In this way, when a plurality of entries in which the same sample input utterance having the highest similarity to the utterance text of the other device is registered are detected as the entries of "(A) sample input utterance" in the input utterance correspondence response database 121. , The response generation unit 104 executes any of the following processes.
(A) Randomly select one or the other.
(B) Other information, that is, the user action history information 122, the user profile information 123, the external server 150, and the information acquired from the user utterance partner device 10 are used for selection.

例えば、ユーザ行動履歴情報122を利用して選択する処理を行なう場合、ユーザ行動履歴情報122に、ユーザ1の行動履歴として、「お台場海浜公園駅」を頻繁に訪れていることが確認された場合、エントリ201の応答発話、すなわち、
応答発話=『お台場海浜公園駅にしてください』
この応答発話を選択するといった処理を行なうことができる。
For example, when performing a selection process using the user behavior history information 122, it was confirmed that the user behavior history information 122 frequently visits "Odaiba Kaihin Koen Station" as the behavior history of the user 1. If the response utterance of entry 201, ie
Response utterance = "Please make it Odaiba Kaihin Koen Station"
Processing such as selecting this response utterance can be performed.

この他、ユーザプロファイル(氏名、年齢、性別)、SNSでの発言(どのような話題に関心を持ち、情報発信をしているか)などの情報を参照して決定する処理を尾込なってもよい。 In addition to this, even if the process of deciding by referring to information such as user profile (name, age, gender), remarks on SNS (what kind of topic you are interested in and disseminating information) is included. good.

なお、ユーザ行動履歴情報122や、その他の情報を用いても候補を一つに絞ることができなかった場合は、残った候補の中からランダムに選択した候補を出力してもよいし、ユーザ1本人に対して、応答を依頼する発話を行うようにしてもよい。 If the candidate cannot be narrowed down to one even by using the user action history information 122 or other information, a candidate randomly selected from the remaining candidates may be output, or the user may output the candidate. You may make an utterance requesting a response to one person.

また、応答生成部104の付加的な機能として、生成する発話テキストを、ユーザ本人に適した言葉遣いに変換する処理を行なう構成としてもよい。例えば、ユーザ1に合わせて、人称代名詞(例えば、私、俺、ぼく)や文末表現(例えば、かしら、かな、だよ)等、ユーザ1のよく利用する表現を適用する構成としてもよい。このユーザの固有表現については、例えばユーザプロファイル情報123や、外部サーバ150を構成するSNSサーバ等の登録データを参照して取得する。 Further, as an additional function of the response generation unit 104, the utterance text to be generated may be converted into a wording suitable for the user himself / herself. For example, a personal pronoun (for example, me, me, me), a sentence ending expression (for example, kashira, kana, dayo), or other expressions frequently used by the user 1 may be applied according to the user 1. The unique representation of this user is acquired by referring to, for example, the user profile information 123 and the registration data of the SNS server and the like constituting the external server 150.

図18は、応答生成部104の詳細構成例を示す図である。
図18に示すように応答生成部104は、代行発話選択部151と、代行発話表現変換部152を有する。
FIG. 18 is a diagram showing a detailed configuration example of the response generation unit 104.
As shown in FIG. 18, the response generation unit 104 includes a substitute utterance selection unit 151 and a substitute utterance expression conversion unit 152.

代行発話選択部151は、応答要否判定部103から応答生成要求とともに、図18に示す「ユーザ発話相手装置10の発話テキスト」201を入力する。
代行発話選択部151は、この入力テキストに対して、ユーザ代行発話装置20から出力するための発話に対応する発話テキストの選択処理を行なう。
The substitute utterance selection unit 151 inputs the “utterance text of the user utterance partner device 10” 201 shown in FIG. 18 together with the response generation request from the response necessity determination unit 103.
The substitute utterance selection unit 151 performs a selection process of the utterance text corresponding to the utterance to be output from the user substitute utterance device 20 with respect to the input text.

発話テキスト選択処理は、記憶部24内の入力発話対応応答データベース121から選択する。
すなわち、先に図16を参照して説明した、
(A)サンプル入力発話
(B)応答発話
これらの対応データを登録した入力発話対応応答データベース121から選択する。
The utterance text selection process is selected from the input utterance correspondence response database 121 in the storage unit 24.
That is, it has been described above with reference to FIG.
(A) Sample input utterance (B) Response utterance Select from the input utterance correspondence response database 121 in which these correspondence data are registered.

代行発話選択部151は、ユーザ発話相手装置10の発話テキストとの類似度が最も高い入力発話対応応答データベース121の「(A)サンプル入力発話」を選択する。
前述したように、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定する。
The substitute utterance selection unit 151 selects "(A) sample input utterance" of the input utterance correspondence response database 121 having the highest degree of similarity to the utterance text of the user utterance partner device 10.
As mentioned above, for example, the multiplicity of words and phrases contained in an utterance can be used. For example, morphological analysis is performed to determine the degree of similarity based on the number of common morphemes.

なお、入力発話対応応答データベース121の「(A)サンプル入力発話」のエントリとして、相手装置発話テキストに対する類似度が最も高い同一のサンプル入力発話が登録された複数のエントリが検出された場合、代行発話選択部151は、以下のいずれかの処理を実行する。
(a)ランダムにどちらか一方を選択する。
(b)その他の情報、すなわち、ユーザ行動履歴情報122、ユーザプロファイル情報123、外部サーバ150やユーザ発話相手装置10からの取得情報を利用して選択する。
If, as entries for "(A) sample input utterance" in the input utterance correspondence response database 121, a plurality of entries in which the same sample input utterance having the highest similarity to the other device's utterance text is registered are detected on behalf of the other device. The utterance selection unit 151 executes any of the following processes.
(A) Randomly select one or the other.
(B) Other information, that is, the user action history information 122, the user profile information 123, the external server 150, and the information acquired from the user utterance partner device 10 are used for selection.

代行発話選択部151が選択した発話は、代行発話表現変換部152に入力される。
代行発話表現変換部152は、代行発話選択部151が選択した発話に対して、ユーザ本人の言葉遣いに変換する処理を行なう。例えば、前述したように、ユーザ1に合わせて、人称代名詞(例えば、私、俺、ぼく)や文末表現(例えば、かしら、かな、だよ)等、ユーザ1のよく利用する表現を適用して発話表現を変更する。ユーザの固有表現については、例えばユーザプロファイル情報123や、外部サーバ150を構成するSNSサーバ等の登録データを参照して取得する。
The utterance selected by the substitute utterance selection unit 151 is input to the substitute utterance expression conversion unit 152.
The substitute utterance expression conversion unit 152 performs a process of converting the utterance selected by the substitute utterance selection unit 151 into the wording of the user himself / herself. For example, as described above, user 1's frequently used expressions such as personal pronouns (for example, me, me, me) and sentence ending expressions (for example, kashira, kana, dayo) are applied according to user 1. Change the utterance expression. The user's unique representation is acquired by referring to, for example, the user profile information 123 and the registration data of the SNS server and the like constituting the external server 150.

代行発話表現変換部152の生成した発話テキスト、すなわち、図18に示す「ユーザ代行発話装置の発話テキスト」202は音声合成部105に入力される。 The utterance text generated by the substitute utterance expression conversion unit 152, that is, the “speech text of the user substitute utterance device” 202 shown in FIG. 18 is input to the voice synthesis unit 105.

次に、図19に示すフローチャートを参照して、応答生成部104が実行する処理のシーケンスについて説明する。
図19に示すフローの各ステップの処理について、順次、説明する。
Next, a sequence of processes executed by the response generation unit 104 will be described with reference to the flowchart shown in FIG.
The processing of each step of the flow shown in FIG. 19 will be sequentially described.

(ステップS201)
まず、応答生成部104は、ステップS201において、応答要否判定部103から応答生成要求とともに、「ユーザ発話相手装置10の発話テキスト」を入力する。
(Step S201)
First, in step S201, the response generation unit 104 inputs the “utterance text of the user utterance partner device 10” together with the response generation request from the response necessity determination unit 103.

(ステップS202)
次に、応答生成部104は、ステップS202において、入力発話対応応答データベース121をアクセスし、ユーザ発話相手装置10の出力発話の発話テキストに基づく検索処理を実行して、データベースに登録されたサンプル入力発話から、類似度が最も高いサンプル入力発話が登録されたエントリを選択する。
(Step S202)
Next, in step S202, the response generation unit 104 accesses the input utterance correspondence response database 121, executes a search process based on the utterance text of the output utterance of the user utterance partner device 10, and inputs a sample registered in the database. From the utterances, select the entry in which the sample input utterance with the highest similarity is registered.

前述したように、例えば、発話に含まれる単語やフレーズの重複度合いを使うことができる。例えば形態素解析を行い共通する形態素の数に基づいて類似度を判定する。 As mentioned above, for example, the multiplicity of words and phrases contained in an utterance can be used. For example, morphological analysis is performed to determine the degree of similarity based on the number of common morphemes.

(ステップS203)
次に、応答生成部104は、ステップS203において、ステップS202におけるエントリ選択処理において類似度の高いエントリが選択されたか否かを判定する。
(Step S203)
Next, in step S203, the response generation unit 104 determines whether or not an entry having a high degree of similarity is selected in the entry selection process in step S202.

類似度の高いエントリの選択に失敗した場合は、ステップS203の判定はNoとなり、処理を終了する。この場合、ユーザ代行発話装置20からの発話は行われない。
一方、類似度の高いエントリの選択に成功した場合は、ステップS203の判定はYesとなり、ステップS204に進む。
If the selection of entries having a high degree of similarity fails, the determination in step S203 becomes No, and the process ends. In this case, no utterance is made from the user substitute utterance device 20.
On the other hand, if the selection of entries having a high degree of similarity is successful, the determination in step S203 is Yes, and the process proceeds to step S204.

(ステップS204)
ステップムS202において、入力発話対応応答データベース121から類似度の高いエントリの選択に成功した場合、ステップS204の処理を実行する。
(Step S204)
If the entry with high similarity is successfully selected from the input utterance correspondence response database 121 in step S202, the process of step S204 is executed.

応答生成部104は、ステップS204において、ユーザ行動履歴情報122に登録されたユーザ行動履歴や、その他の情報に基づいて、最適と判断可能な応答が登録されたエントリを、1つ選択可能か否かを判定し、選択可能であれば選択する。 In step S204, the response generation unit 104 can select one entry in which a response that can be determined to be optimal is registered based on the user behavior history registered in the user behavior history information 122 and other information. If it is possible to select it, select it.

なお、その他の情報とは、ユーザプロファイル情報123、知識データベースや、対話シーケンス情報を格納したシナリオデータベース、SNS(Social Networking Service)サーバ等の様々な外部サーバからの取得情報や、ユーザ発話相手装置10の蓄積データ等である。 The other information includes user profile information 123, a knowledge database, a scenario database storing dialogue sequence information, information acquired from various external servers such as an SNS (Social Networking Service) server, and a user speaking partner device 10. Accumulated data, etc.

(ステップS205)
次に、応答生成部104は、ステップS205において、ユーザ代行発話装置が出力する代行発話の1つのエントリの選択に成功したか否かを判定する。
(Step S205)
Next, in step S205, the response generation unit 104 determines whether or not one entry of the substitute utterance output by the user substitute utterance device has been successfully selected.

入力発話対応応答データベース121に登録された1つのエントリ選択に成功した場合、ステップS207に進む。
入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、ステップS206に進む。
If one entry registered in the input utterance correspondence response database 121 is successfully selected, the process proceeds to step S207.
If the narrowing down of the entries registered in the input utterance correspondence response database 121 fails and a plurality of entries are selected, the process proceeds to step S206.

(ステップS206)
ステップS205において、入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、応答生成部104は、ステップS206において、選択された複数のエントリから1つをランダムに選択する。
(Step S206)
If the narrowing down of the entries registered in the input utterance correspondence response database 121 fails in step S205 and a plurality of entries are selected, the response generation unit 104 selects one from the plurality of selected entries in step S206. Select randomly.

(ステップS207)
最後に、応答生成部104は、ステップS207において、1つの選択エントリに登録された応答発話を選択して音声合成部105に出力する。
(Step S207)
Finally, in step S207, the response generation unit 104 selects the response utterance registered in one selection entry and outputs it to the speech synthesis unit 105.

なお、ステップS205において、入力発話対応応答データベース121に登録された1つのエントリ選択に成功した場合には、その1つのエントリに登録された応答発話を選択して音声合成部105に出力する。 If one entry registered in the input utterance correspondence response database 121 is successfully selected in step S205, the response utterance registered in the one entry is selected and output to the speech synthesis unit 105.

一方、ステップS205において、入力発話対応応答データベース121に登録された1つのエントリ選択に失敗した場合には、ステップS206でランダムに選択したエントリに登録された応答発話を選択して音声合成部105に出力する。 On the other hand, if the selection of one entry registered in the input utterance correspondence response database 121 fails in step S205, the response utterance registered in the entry randomly selected in step S206 is selected and the voice synthesis unit 105 selects the response utterance. Output.

なお、図19に示すフローでは、応答生成部104は、ステップS205で入力発話対応応答データベース121に登録された1つのエントリ選択に失敗した場合には、ステップS206において、選択された複数エントリから、1つのエントリをランダムに選択する処理を行なう構成としているが、例えば、このような場合、代行発話を停止し、ユーザ発話を待つという処理を行ってもよい。 In the flow shown in FIG. 19, when the response generation unit 104 fails to select one entry registered in the input utterance correspondence response database 121 in step S205, the response generation unit 104 starts from the plurality of entries selected in step S206. The configuration is such that one entry is randomly selected. For example, in such a case, the proxy utterance may be stopped and the user utterance may be waited for.

あるいは、ユーザに対して発話をお願いするための発話を出力する構成としてもよい。
ユーザに対して発話をお願いするための発話を出力する処理を実行する場合の処理シーケンスを図20に示す。
Alternatively, the configuration may be such that an utterance for requesting the user to speak is output.
FIG. 20 shows a processing sequence when executing a process of outputting an utterance for requesting an utterance to a user.

図20に示すフローは、ステップS201〜S205の処理と、ステップS207の処理は、図19を参照して説明したフローの各ステップの処理と同じ処理である。 The flow shown in FIG. 20 is the processing of steps S201 to S205, and the processing of step S207 is the same processing as the processing of each step of the flow described with reference to FIG.

図20に示すフローでは、図19に示すフローのステップS206の処理をステップS221の処理に置き換えている。ステップS221の処理について説明する。 In the flow shown in FIG. 20, the process of step S206 of the flow shown in FIG. 19 is replaced with the process of step S221. The process of step S221 will be described.

(ステップS221)
ステップS205において、入力発話対応応答データベース121に登録されたエントリの絞り込みに失敗し、複数のエントリが選択された場合、応答生成部104は、ステップS221において、ユーザに対してユーザ発話を依頼するための発話を生成して出力する。
このような処理を行ってもよい。
(Step S221)
In step S205, when the narrowing down of the entries registered in the input utterance correspondence response database 121 fails and a plurality of entries are selected, the response generation unit 104 requests the user to speak in step S221. Generates and outputs the utterance of.
Such processing may be performed.

(4−(5).音声合成部105が実行する処理の詳細について)
次に、音声合成部105が実行する処理の詳細について説明する。
音声合成部105は、前述したように、応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、生成した合成音声を、音声出力部(スピーカー)23を介して図に示すユーザ発話代行装置出力音声53として出力する。
(4- (5). Details of the process executed by the speech synthesizer 105)
Next, the details of the processing executed by the voice synthesis unit 105 will be described.
As described above, the voice synthesis unit 105 generates a synthetic voice based on the utterance text generated by the response generation unit 104. That is, the voice synthesis process (TTS: Text To Speech) is executed, and the generated synthetic voice is output as the user speech agent output voice 53 shown in the figure via the voice output unit (speaker) 23.

音声合成部105の入力、出力、および実行処理は以下の通りである。
(a)入力
応答生成部104が生成したユーザ代行発話装置20の出力する発話内容を示す発話テキスト
(b)出力
応答生成部104の生成した発話テキストに基づいて生成した合成音声
The input, output, and execution processes of the voice synthesis unit 105 are as follows.
(A) Spoken text indicating the utterance content output by the user substitute utterance device 20 generated by the input response generation unit 104 (b) Synthetic voice generated based on the utterance text generated by the output response generation unit 104.

(c)処理
応答生成部104の生成した発話テキストに基づいて合成音声を生成する。すなわち、音声合成処理(TTS:Text To Speech)を実行し、合成音声を生成する。
生成した合成音声は、音声出力部(スピーカー)23を介して出力される。
(C) Processing A synthetic voice is generated based on the utterance text generated by the response generation unit 104. That is, voice synthesis processing (TTS: Text To Speech) is executed to generate synthetic voice.
The generated synthetic voice is output via the voice output unit (speaker) 23.

例えば、応答生成部104が生成したユーザ代行発話装置20の出力する発話内容を示す発話テキストが以下のテキストであるとする。
『お台場海浜公園駅にしてください』
音声合成部105は、この発話テキストを音声に変換する。この処理(音声合成)には、音声合成処理(TTS:Text To Speech)実行プログラムを利用可能である。また、オープンソースソフトウェアを利用して実行としてもよい。
For example, it is assumed that the utterance text indicating the utterance content output by the user substitute utterance device 20 generated by the response generation unit 104 is the following text.
"Please make it Odaiba Kaihin Koen Station"
The voice synthesis unit 105 converts this utterance text into voice. For this process (speech synthesis), a speech synthesis process (TTS: Text To Speech) execution program can be used. It may also be executed using open source software.

なお、音声合成部105は、合成音声生成処理に際して、ユーザ1本人の発話と同様の音声が出力されるように、ユーザ1に合わせて音声合成のモデルを変更してもよい。例えば、ユーザ1の属性(年齢、性別など)に応じたモデルを選択する方法を採ってもよいし、数ある音声合成モデルの中からユーザ本人の声質に似たモデルを選択する処理を行う構成としてもよい。 The voice synthesis unit 105 may change the voice synthesis model according to the user 1 so that the voice similar to the utterance of the user himself / herself is output during the synthetic voice generation process. For example, a method of selecting a model according to the attributes (age, gender, etc.) of the user 1 may be adopted, or a process of selecting a model similar to the voice quality of the user himself / herself from among a number of speech synthesis models may be adopted. May be.

さらに、音声出力中にユーザ1からの発話音声が入力された場合は、ユーザ1がユーザ代行発話装置20の発話に介入し、発話を中止させようとしていると判断し、音声の出力を中止するようにしてもよい。 Further, when the utterance voice from the user 1 is input during the voice output, it is determined that the user 1 intervenes in the utterance of the user substitute utterance device 20 and intends to stop the utterance, and the voice output is stopped. You may do so.

なお、音声出力中にユーザ1からの発話音声が入力された場合、そのユーザ発話が、ユーザ代行発話装置20に向けられたものであるかどうかを判断し、ユーザ代行発話装置20に向けられたユーザ発話であると判定した場合に限り、ユーザ代行発話装置20の発話を中止するようにしてもよい。 When the utterance voice from the user 1 is input during the voice output, it is determined whether or not the user utterance is directed to the user substitute utterance device 20, and the utterance is directed to the user substitute utterance device 20. The utterance of the user proxy utterance device 20 may be stopped only when it is determined that the utterance is a user.

[5.情報処理装置のハードウェア構成例について]
次に、図21を参照して、情報処理装置のハードウェア構成例について説明する。
図21を参照して説明するハードウェアは、ユーザ代行発話装置20を構成する情報処理装置のハードウェア構成の一例である。
[5. Information processing device hardware configuration example]
Next, a hardware configuration example of the information processing device will be described with reference to FIG.
The hardware described with reference to FIG. 21 is an example of the hardware configuration of the information processing device constituting the user proxy utterance device 20.

CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。 The CPU (Central Processing Unit) 301 functions as a control unit or a data processing unit that executes various processes according to a program stored in the ROM (Read Only Memory) 302 or the storage unit 308. For example, the process according to the sequence described in the above-described embodiment is executed. The RAM (Random Access Memory) 303 stores programs and data executed by the CPU 301. These CPU 301, ROM 302, and RAM 303 are connected to each other by a bus 304.

CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホン、センサーなどよりなる入力部306、ディスプレイ、スピーカーなどよりなる出力部307が接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部307に出力する。 The CPU 301 is connected to the input / output interface 305 via the bus 304, and the input / output interface 305 is connected to an input unit 306 consisting of various switches, a keyboard, a mouse, a microphone, a sensor, etc., and an output unit 307 consisting of a display, a speaker, and the like. Has been done. The CPU 301 executes various processes in response to a command input from the input unit 306, and outputs the process results to, for example, the output unit 307.

入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、Wi−Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。 The storage unit 308 connected to the input / output interface 305 is composed of, for example, a hard disk or the like, and stores a program executed by the CPU 301 and various data. The communication unit 309 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.

入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。 The drive 310 connected to the input / output interface 305 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card, and records or reads data.

[6.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
[6. Summary of the structure of this disclosure]
As described above, the examples of the present disclosure have been described in detail with reference to the specific examples. However, it is self-evident that one of ordinary skill in the art can modify or substitute the examples without departing from the gist of the present disclosure. That is, the present invention has been disclosed in the form of an example, and should not be construed in a limited manner. In order to judge the gist of this disclosure, the column of claims should be taken into consideration.

なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置。
The technology disclosed in the present specification can have the following configuration.
(1) Input the device utterance output from the user utterance partner device, which is the user's utterance partner, and input the device utterance.
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
An information processing device having a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.

(2) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する(1)に記載の情報処理装置。
(2) The response necessity determination unit is
The information processing device according to (1), wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.

(3) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合に、ユーザ代行発話が不要であると判定する(1)または(2)に記載の情報処理装置。
(3) The response necessity determination unit is
The information processing device according to (1) or (2), wherein it is determined that the user proxy utterance is unnecessary when the user utterance is performed within a predetermined threshold time from the utterance completion timing of the device utterance.

(4) 前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるかを判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話でないと判定した場合は、ユーザ代行発話が必要であると判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であると判定した場合は、ユーザ代行発話が不要であると判定する(1)〜(3)いずれかに記載の情報処理装置。
(4) The response necessity determination unit is
When the user utterance is performed within the predetermined threshold time from the utterance completion timing of the device utterance.
It is determined whether the user utterance is an utterance made to the user utterance partner device, and the user utterance is determined.
If it is determined that the user utterance is not the utterance made to the user utterance partner device, it is determined that the user proxy utterance is necessary.
The information processing device according to any one of (1) to (3), wherein when it is determined that the user utterance is an utterance made to the user utterance partner device, it is determined that the user proxy utterance is unnecessary.

(5) 前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザ発話の意味解析結果を利用して判定する(4)に記載の情報処理装置。
(5) The response necessity determination unit is
The information processing device according to (4), wherein the determination process of whether or not the user utterance is an utterance made to the user utterance partner device is determined by using the semantic analysis result of the user utterance.

(6) 前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザの視線方向解析結果を利用して判定する(4)に記載の情報処理装置。
(6) The response necessity determination unit is
The information processing device according to (4), wherein the determination process of whether or not the user's utterance is an utterance made to the user's utterance partner device is determined by using the user's line-of-sight direction analysis result.

(7) 前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度も実行していない場合において、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する(1)〜(6)いずれかに記載の情報処理装置。
(7) The response necessity determination unit is
In the case where the substitute utterance has never been executed after the start of the dialogue sequence with the user utterance partner device.
The information according to any one of (1) to (6), in which it is determined that the user substitute utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance. Processing equipment.

(8) 前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度以上、実行している場合、
その後の装置発話に対しては、全てユーザ代行発話が必要であると判定する(7)に記載の情報処理装置。
(8) The response necessity determination unit is
When the proxy utterance is executed more than once after the start of the dialogue sequence with the user utterance partner device
The information processing device according to (7), wherein it is determined that all subsequent device utterances require user proxy utterances.

(9) 前記情報処理装置は、
前記情報処理装置に対する入力発話が前記ユーザの発したユーザ発話であるか、前記ユーザ発話相手装置の出力した装置発話であるかを識別し、識別結果である発話主体識別子を生成する音声認識部を有し、
前記応答要否判定部は、
前記音声認識部から入力する発話主体識別子に基づいて、前記情報処理装置に対する入力発話が前記ユーザ発話相手装置の出力した装置発話であると確認された場合に、
前記ユーザ代行発話の要否を判定する(1)〜(8)いずれかに記載の情報処理装置。
(9) The information processing device is
A voice recognition unit that identifies whether the input utterance to the information processing device is the user utterance uttered by the user or the device utterance output by the user utterance partner device, and generates the utterance subject identifier that is the identification result. Have and
The response necessity determination unit
When it is confirmed that the input utterance to the information processing device is the device utterance output by the user utterance partner device based on the utterance subject identifier input from the voice recognition unit.
The information processing device according to any one of (1) to (8), which determines the necessity of the user proxy utterance.

(10) 前記応答生成部は、
サンプル入力発話と応答発話を対応付けた多数のエントリを格納した入力発話対応データベースから、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択し、
選択したエントリの応答発話を、ユーザ代行発話として設定する(1)〜(9)いずれかに記載の情報処理装置。
(10) The response generation unit
From the input utterance support database that stores a large number of entries that associate sample input utterances with response utterances
Select the entry for the sample input utterance that has the highest similarity to the device utterance.
The information processing device according to any one of (1) to (9), wherein the response utterance of the selected entry is set as the user substitute utterance.

(11) 前記応答生成部は、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択する際、
前記装置発話と、サンプル入力発話各々の形態素、または単語、またはフレーズを比較して類似度を判定する(10)に記載の情報処理装置。
(11) The response generation unit
When selecting the entry for the sample input utterance that has the highest similarity to the device utterance
The information processing apparatus according to (10), wherein the device utterance is compared with each morpheme, word, or phrase of each sample input utterance to determine the degree of similarity.

(12) 前記応答生成部は、
ユーザ行動履歴情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する(1)〜(11)いずれかに記載の情報処理装置。
(12) The response generation unit
The information processing device according to any one of (1) to (11), which estimates the user's intention by referring to the user behavior history information and generates a user proxy utterance that reflects the user's intention.

(13) 前記応答生成部は、
ユーザプロファイル情報、または外部サーバの登録情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する(1)〜(12)いずれかに記載の情報処理装置。
(13) The response generation unit
The information processing apparatus according to any one of (1) to (12), wherein the user's intention is estimated by referring to the user profile information or the registration information of the external server, and the user's proxy utterance reflecting the user's intention is generated.

(14) 前記応答生成部は、
前記ユーザがよく利用する表現を適用したユーザ代行発話を生成する(1)〜(13)いずれかに記載の情報処理装置。
(14) The response generation unit
The information processing device according to any one of (1) to (13), which generates a user proxy utterance to which an expression often used by the user is applied.

(15) 情報処理装置において情報処理を実行する情報処理方法であり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法。
(15) An information processing method for executing information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
An information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.

(16) 情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラム。
(16) A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
A program that executes a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.

また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。 In addition, the series of processes described in the specification can be executed by hardware, software, or a composite configuration of both. When executing processing by software, install the program that records the processing sequence in the memory in the computer built in the dedicated hardware and execute it, or execute the program on a general-purpose computer that can execute various processing. It can be installed and run. For example, the program can be pre-recorded on a recording medium. In addition to installing on a computer from a recording medium, the program can be received via a network such as LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.

なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。 The various processes described in the specification are not only executed in chronological order according to the description, but may also be executed in parallel or individually as required by the processing capacity of the device that executes the processes. Further, in the present specification, the system is a logical set configuration of a plurality of devices, and the devices having each configuration are not limited to those in the same housing.

以上、説明したように、本開示の一実施例の構成によれば、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
具体的には、例えば、ユーザの発話相手となるユーザ発話相手装置からの装置発話を入力し、ユーザの代わりにユーザ代行発話を生成して出力する。ユーザ代行発話の要否を判定する応答要否判定部と、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する。応答生成部は、例えばユーザ行動履歴情報を参照してユーザの意向を反映した代行発話を生成して出力する。応答要否判定部は、装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する。
本構成により、対話型装置の出力する装置発話に対して、ユーザの代わりに応答発話を生成して出力する装置、方法が実現される。
As described above, according to the configuration of one embodiment of the present disclosure, a device and a method for generating and outputting a response utterance on behalf of the user with respect to the device utterance output by the interactive device are realized. ..
Specifically, for example, the device utterance from the user utterance partner device, which is the user's utterance partner, is input, and the user substitute utterance is generated and output on behalf of the user. It has a response necessity determination unit that determines the necessity of a user proxy utterance, and a response generation unit that generates a user proxy utterance when it is determined that a user proxy utterance is necessary. The response generation unit generates and outputs a proxy utterance that reflects the user's intention by referring to, for example, the user action history information. The response necessity determination unit determines that the user proxy utterance is necessary when the user utterance is not performed within the predetermined threshold time from the utterance completion timing of the device utterance.
With this configuration, a device and a method for generating and outputting a response utterance on behalf of the user for the device utterance output by the interactive device are realized.

10 ユーザ発話相手装置
20 ユーザ代行発話装置
21 音声入力部(マイク)
22 データ処理部
23 音声出力部(スピーカー)
24 通信部
25 記憶部
26 画像入力部(カメラ)
101 発話検出部
102 音声認識部
103 応答要否判定部
104 応答生成部
105 音声合成部
121 入力発話対応応答データベース
122 ユーザ行動履歴情報
123 ユーザプロファイル情報
150 外部サーバ
151 代行発話選択部
152 代行発話表現変換部
301 CPU
302 ROM
303 RAM
304 バス
305 入出力インタフェース
306 入力部
307 出力部
308 記憶部
309 通信部
310 ドライブ
311 リムーバブルメディア
10 User utterance partner device 20 User utterance device 21 Voice input unit (microphone)
22 Data processing unit 23 Audio output unit (speaker)
24 Communication unit 25 Storage unit 26 Image input unit (camera)
101 Utterance detection unit 102 Voice recognition unit 103 Response necessity determination unit 104 Response generation unit 105 Voice synthesis unit 121 Input utterance correspondence response database 122 User action history information 123 User profile information 150 External server 151 Proxy utterance selection section 152 Proxy utterance expression conversion Part 301 CPU
302 ROM
303 RAM
304 Bus 305 Input / output interface 306 Input unit 307 Output unit 308 Storage unit 309 Communication unit 310 Drive 311 Removable media

Claims (16)

ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部は、
前記ユーザ代行発話の要否を判定する応答要否判定部と、
前記応答要否判定部が、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成部を有する情報処理装置。
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
A response necessity determination unit that determines the necessity of the user proxy utterance, and a response necessity determination unit.
An information processing device having a response generation unit that generates a user proxy utterance when the response necessity determination unit determines that a user proxy utterance is necessary.
前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する請求項1に記載の情報処理装置。
The response necessity determination unit
The information processing device according to claim 1, wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合に、ユーザ代行発話が不要であると判定する請求項1に記載の情報処理装置。
The response necessity determination unit
The information processing device according to claim 1, wherein it is determined that the user proxy utterance is unnecessary when the user utterance is performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記応答要否判定部は、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われた場合、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるかを判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話でないと判定した場合は、ユーザ代行発話が必要であると判定し、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であると判定した場合は、ユーザ代行発話が不要であると判定する請求項1に記載の情報処理装置。
The response necessity determination unit
When the user utterance is performed within the predetermined threshold time from the utterance completion timing of the device utterance.
It is determined whether the user utterance is an utterance made to the user utterance partner device, and the user utterance is determined.
If it is determined that the user utterance is not the utterance made to the user utterance partner device, it is determined that the user proxy utterance is necessary.
The information processing device according to claim 1, wherein when it is determined that the user utterance is an utterance made to the user utterance partner device, it is determined that the user proxy utterance is unnecessary.
前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザ発話の意味解析結果を利用して判定する請求項4に記載の情報処理装置。
The response necessity determination unit
The information processing device according to claim 4, wherein a determination process of whether or not the user utterance is an utterance made to the user utterance partner device is determined by using the semantic analysis result of the user utterance.
前記応答要否判定部は、
ユーザ発話が前記ユーザ発話相手装置に対してなされた発話であるか否かの判定処理を、ユーザの視線方向解析結果を利用して判定する請求項4に記載の情報処理装置。
The response necessity determination unit
The information processing device according to claim 4, wherein a determination process of whether or not the user's utterance is an utterance made to the user's utterance partner device is determined by using the user's line-of-sight direction analysis result.
前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度も実行していない場合において、
前記装置発話の発話完了タイミングから予め規定したしきい値時間内にユーザ発話が行われなかった場合に、ユーザ代行発話が必要であると判定する請求項1に記載の情報処理装置。
The response necessity determination unit
In the case where the substitute utterance has never been executed after the start of the dialogue sequence with the user utterance partner device.
The information processing device according to claim 1, wherein it is determined that a user proxy utterance is necessary when the user utterance is not performed within a predetermined threshold time from the utterance completion timing of the device utterance.
前記応答要否判定部は、
前記ユーザ発話相手装置との対話シーケンス開始後、代行発話を一度以上、実行している場合、
その後の装置発話に対しては、全てユーザ代行発話が必要であると判定する請求項7に記載の情報処理装置。
The response necessity determination unit
When the proxy utterance is executed more than once after the start of the dialogue sequence with the user utterance partner device
The information processing device according to claim 7, wherein it is determined that all subsequent device utterances require user proxy utterances.
前記情報処理装置は、
前記情報処理装置に対する入力発話が前記ユーザの発したユーザ発話であるか、前記ユーザ発話相手装置の出力した装置発話であるかを識別し、識別結果である発話主体識別子を生成する音声認識部を有し、
前記応答要否判定部は、
前記音声認識部から入力する発話主体識別子に基づいて、前記情報処理装置に対する入力発話が前記ユーザ発話相手装置の出力した装置発話であると確認された場合に、
前記ユーザ代行発話の要否を判定する請求項1に記載の情報処理装置。
The information processing device
A voice recognition unit that identifies whether the input utterance to the information processing device is the user utterance uttered by the user or the device utterance output by the user utterance partner device, and generates the utterance subject identifier that is the identification result. Have and
The response necessity determination unit
When it is confirmed that the input utterance to the information processing device is the device utterance output by the user utterance partner device based on the utterance subject identifier input from the voice recognition unit.
The information processing device according to claim 1, wherein the necessity of the user proxy utterance is determined.
前記応答生成部は、
サンプル入力発話と応答発話を対応付けた多数のエントリを格納した入力発話対応データベースから、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択し、
選択したエントリの応答発話を、ユーザ代行発話として設定する請求項1に記載の情報処理装置。
The response generator
From the input utterance support database that stores a large number of entries that associate sample input utterances with response utterances
Select the entry for the sample input utterance that has the highest similarity to the device utterance.
The information processing device according to claim 1, wherein the response utterance of the selected entry is set as the user proxy utterance.
前記応答生成部は、
前記装置発話に類似度の最も高いサンプル入力発話のエントリを選択する際、
前記装置発話と、サンプル入力発話各々の形態素、または単語、またはフレーズを比較して類似度を判定する請求項10に記載の情報処理装置。
The response generator
When selecting the entry for the sample input utterance that has the highest similarity to the device utterance
The information processing device according to claim 10, wherein the device utterance is compared with each morpheme, word, or phrase of the sample input utterance to determine the similarity.
前記応答生成部は、
ユーザ行動履歴情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する請求項1に記載の情報処理装置。
The response generator
The information processing device according to claim 1, wherein the user's intention is estimated by referring to the user behavior history information, and the user's proxy utterance reflecting the user's intention is generated.
前記応答生成部は、
ユーザプロファイル情報、または外部サーバの登録情報を参照して、ユーザの意向を推定して、ユーザ意向を反映したユーザ代行発話を生成する請求項1に記載の情報処理装置。
The response generator
The information processing device according to claim 1, wherein the user's intention is estimated by referring to the user profile information or the registration information of the external server, and the user's proxy utterance reflecting the user's intention is generated.
前記応答生成部は、
前記ユーザがよく利用する表現を適用したユーザ代行発話を生成する請求項1に記載の情報処理装置。
The response generator
The information processing device according to claim 1, wherein a user proxy utterance to which an expression often used by the user is applied is generated.
情報処理装置において情報処理を実行する情報処理方法であり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記データ処理部が、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行する情報処理方法。
It is an information processing method that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The data processing unit
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
An information processing method for executing a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
情報処理装置において情報処理を実行させるプログラムであり、
前記情報処理装置は、
ユーザの発話相手であるユーザ発話相手装置から出力される装置発話を入力し、
前記装置発話に対して、前記ユーザの代わりのユーザ代行発話を生成して出力するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
前記ユーザ代行発話の要否を判定する応答要否判定処理と、
前記応答要否判定処理において、ユーザ代行発話が必要であると判定した場合に、ユーザ代行発話を生成する応答生成処理を実行させるプログラム。
A program that executes information processing in an information processing device.
The information processing device
Input the device utterance output from the user utterance partner device, which is the user's utterance partner,
It has a data processing unit that generates and outputs a user substitute utterance in place of the user in response to the device utterance.
The program is installed in the data processing unit.
The response necessity determination process for determining the necessity of the user proxy utterance and the response necessity determination process
A program that executes a response generation process for generating a user proxy utterance when it is determined in the response necessity determination process that a user proxy utterance is necessary.
JP2020026870A 2020-02-20 2020-02-20 Information processor, information processing method and program Pending JP2021131472A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020026870A JP2021131472A (en) 2020-02-20 2020-02-20 Information processor, information processing method and program
PCT/JP2021/001072 WO2021166504A1 (en) 2020-02-20 2021-01-14 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020026870A JP2021131472A (en) 2020-02-20 2020-02-20 Information processor, information processing method and program

Publications (1)

Publication Number Publication Date
JP2021131472A true JP2021131472A (en) 2021-09-09

Family

ID=77392121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020026870A Pending JP2021131472A (en) 2020-02-20 2020-02-20 Information processor, information processing method and program

Country Status (2)

Country Link
JP (1) JP2021131472A (en)
WO (1) WO2021166504A1 (en)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438028B2 (en) * 1998-07-27 2010-03-24 キヤノン株式会社 Information processing apparatus and method, and storage medium storing the program
JP3178426B2 (en) * 1998-07-29 2001-06-18 日本電気株式会社 Natural language dialogue system and natural language dialogue program recording medium
JP4292846B2 (en) * 2003-03-31 2009-07-08 三菱電機株式会社 Spoken dialogue device, spoken dialogue substitution device, and program thereof
DE112014006409T5 (en) * 2014-02-26 2016-12-08 Mitsubishi Electric Corporation Vehicle control device and vehicle control method
CN106796786B (en) * 2014-09-30 2021-03-02 三菱电机株式会社 voice recognition system
JP6842095B2 (en) * 2017-03-10 2021-03-17 日本電信電話株式会社 Dialogue methods, dialogue systems, dialogue devices, and programs

Also Published As

Publication number Publication date
WO2021166504A1 (en) 2021-08-26

Similar Documents

Publication Publication Date Title
US12249321B2 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US20230206940A1 (en) Method of and system for real time feedback in an incremental speech input interface
US11237793B1 (en) Latency reduction for content playback
US20230367546A1 (en) Audio output control
CN110998717B (en) Automatically determine the language for speech recognition of spoken utterances received through an automated assistant interface
US20220246140A1 (en) Dynamic and/or context-specific hot words to invoke automated assistant
US11756544B2 (en) Selectively providing enhanced clarification prompts in automated assistant interactions
US11024303B1 (en) Communicating announcements
US11574637B1 (en) Spoken language understanding models
US11687526B1 (en) Identifying user content
US10706845B1 (en) Communicating announcements
JP2016122183A (en) Disambiguating heteronyms in speech synthesis
US10672379B1 (en) Systems and methods for selecting a recipient device for communications
US10699706B1 (en) Systems and methods for device communications
US20200219487A1 (en) Information processing apparatus and information processing method
JPWO2019155717A1 (en) Information processing equipment, information processing systems, information processing methods, and programs
WO2021166504A1 (en) Information processing device, information processing method, and program
CN118235197A (en) Selectively generate and/or selectively render continuation content for spoken utterance completion
US12081628B1 (en) Account association for voice-enabled devices
JP2020012860A (en) Voice recognition device and voice recognition method
HK1222942B (en) Incremental speech input interface with real time feedback