JP7225642B2 - Communication robot, control method and control program - Google Patents
Communication robot, control method and control program Download PDFInfo
- Publication number
- JP7225642B2 JP7225642B2 JP2018182049A JP2018182049A JP7225642B2 JP 7225642 B2 JP7225642 B2 JP 7225642B2 JP 2018182049 A JP2018182049 A JP 2018182049A JP 2018182049 A JP2018182049 A JP 2018182049A JP 7225642 B2 JP7225642 B2 JP 7225642B2
- Authority
- JP
- Japan
- Prior art keywords
- communication robot
- motion
- delay time
- response delay
- filler
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Toys (AREA)
- Manipulator (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、コミュニケーションロボット、制御方法及び制御プログラムに関する。 The present invention relates to a communication robot, control method and control program.
プレゼンテーションや展示、フロント業務等の様々な現場で対人のコミュニケーションを実現するコミュニケーションロボットの普及が進んでいる。例えば、コミュニケーションロボットには、音声認識や機械翻訳、音声感情分析などの音声処理の他、顔認識や表情認識などの画像処理に関するAI(Artificial Intelligence)技術を活用したプラットフォームが導入される。 Communication robots that realize interpersonal communication in various fields such as presentations, exhibitions, and front desk operations are becoming widespread. For example, communication robots will be equipped with a platform that utilizes AI (Artificial Intelligence) technology related to image processing such as face recognition and facial expression recognition, as well as voice processing such as voice recognition, machine translation, and voice emotion analysis.
このようにコミュニケーションロボットが音声処理や画像処理などの情報処理を実行する場合、コミュニケーションロボットに情報が入力されてからコミュニケーションロボットが処理結果を応答するまでに時間差が応答遅延時間として発生する。さらに、コミュニケーションロボットに接続された外部のコンピュータにより情報処理が実行される場合、ネットワークの伝送遅延が加わる分、コミュニケーションロボットの内部で情報処理が実行される場合よりも応答遅延時間が拡大する。 When the communication robot executes information processing such as voice processing and image processing in this way, a time difference occurs as a response delay time from when information is input to the communication robot until the communication robot responds with the processing result. Furthermore, when information processing is performed by an external computer connected to the communication robot, the response delay time is longer than when information processing is performed inside the communication robot due to network transmission delay.
ところで、音声認識機能を備えた車載ナビゲーション装置等の車載システムへの適用を想定した技術として、応答遅延時間に応じた時間長のフィラー、例えば「ええと」や「あの」などのつなぎ言葉を発話する音声認識端末装置が提案されている。 By the way, as a technology that is assumed to be applied to in-vehicle systems such as in-vehicle navigation devices equipped with a voice recognition function, it is possible to utter a filler with a length of time corresponding to the response delay time, such as connecting words such as "um" and "that". A voice recognition terminal device has been proposed.
しかしながら、上記の音声認識端末装置は、あくまで音声UI(User Interface)の機能を提供するものに過ぎず、対人のコミュニケーションを実現するコミュニケーションロボットへの適用はそもそも想定されていない。 However, the speech recognition terminal device described above merely provides a voice UI (User Interface) function, and is not originally intended to be applied to a communication robot that realizes interpersonal communication.
1つの側面では、本発明は、コミュニケーションロボットに処理の待ち時間中にフィラー動作を行わせつつ、処理結果を出力する際には、とるべき姿勢で処理結果を出力できるようにするコミュニケーションロボット、制御方法及び制御プログラムを提供することを目的とする。 In one aspect, the present invention provides a communication robot and control system that allows the communication robot to perform a filler action while waiting for processing, and to output the processing result in the posture that should be taken when outputting the processing result. An object is to provide a method and a control program.
一態様では、コミュニケーションロボットは、コミュニケーションロボットに対して入力された情報に基づいて、前記情報が入力されたタイミングから前記コミュニケーションロボットにより応答を出力するまでの応答遅延時間長を予測する予測部と、予測された応答遅延時間長に対応する前記コミュニケーションロボットの動作を決定する決定部と、決定した前記動作を前記コミュニケーションロボットに実行させる動作制御部と、を有する。 In one aspect, the communication robot includes a prediction unit that predicts, based on information input to the communication robot, a response delay time length from a timing at which the information is input until the communication robot outputs a response; A determination unit that determines an operation of the communication robot corresponding to the predicted response delay time length, and an operation control unit that causes the communication robot to execute the determined operation.
一実施形態によれば、ロボットの応答遅延中の動作に発生する不自然さを抑制できる。 According to one embodiment, it is possible to suppress the unnaturalness that occurs in the motion of the robot during the response delay.
以下に添付図面を参照して本願に係るコミュニケーションロボット、制御方法及び制御プログラムについて説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。 A communication robot, a control method, and a control program according to the present application will be described below with reference to the accompanying drawings. Note that this embodiment does not limit the disclosed technology. Further, each embodiment can be appropriately combined within a range that does not contradict the processing contents.
[ユースケースの一例]
図1は、実施例1に係るコミュニケーションロボットのユースケースの一例を示す図である。図1には、ユースケースのあくまで一例として、多言語のコミュニケーションを実現する側面から、音声認識や機械翻訳を併用することにより、対象者U1の発話を母国語から外国語へ翻訳して読み上げる音声UIの機能を提供するコミュニケーションロボット1を示す。
[Example of use case]
FIG. 1 is a diagram illustrating an example of a use case of a communication robot according to the first embodiment; As a mere example of a use case, FIG. 1 shows, from the aspect of realizing multilingual communication, by using both speech recognition and machine translation, the utterance of the target person U1 is translated from the native language to the foreign language and read out. A
[応答遅延時間]
ここで、コミュニケーションロボット1に対する発話が対象者U1により行われてからその発話が目的とする外国語でコミュニケーションロボット1により読み上げられるまでの間には、応答遅延時間が発生する。このような応答遅延時間が発生する一因として、音声認識や機械翻訳等の音声処理が実行されることが挙げられる。
[Response delay time]
Here, a response delay time occurs from when the target person U1 makes an utterance to the
図2は、応答遅延時間の一例を示す図である。図2には、コミュニケーションロボット1で発生するイベントが時系列に示されている。図2に示すように、コミュニケーションロボット1は、対象者U1の発話を待機し(ステップS1)、発話の開始を検出してから当該発話の終了を検出する(ステップS2及びステップS3)。続いて、コミュニケーションロボット1は、ステップS2及びステップS3で検出された発話区間の音声データの翻訳を開始する(ステップS4)。そして、コミュニケーションロボット1は、発話区間の音声データの翻訳が終了すると(ステップS5)、対象者U1の発話が目的とする外国語に翻訳された合成音声の再生を開始し(ステップS6)、その後、再生が終了する(ステップS7)。
FIG. 2 is a diagram showing an example of response delay time. FIG. 2 shows events occurring in the
これら一連のイベントにおいて、ステップS3で発話の終了が検出された時点からステップS6で翻訳後の合成音声の再生が開始される時点までの応答遅延時間Tは、対象者U1にとっては空白の期間、いわゆる待ち時間となる。なお、ここでは、コミュニケーションロボット1の内部で音声処理が実行される場合を例示したが、次のような場合、さらに応答遅延時間が拡大する。例えば、コミュニケーションロボット1に接続された外部のコンピュータにより音声処理がクラウドサービス等として実行される場合、ネットワークの伝送遅延が加わる分、さらに応答遅延時間が拡大する。
In these series of events, the response delay time T from the time when the end of the utterance is detected in step S3 to the time when the synthesized speech after translation starts playing in step S6 is a blank period for the subject U1. This is the so-called waiting time. Although the case where voice processing is executed inside the
[課題の一側面]
このような応答遅延時間Tに直面して、コミュニケーションロボット1が停止していたのでは、対象者U1およびコミュニケーションロボット1の間のインタラクションの親和性が損なわれる。
[One aspect of the challenge]
If the
そうであるからと言って、背景技術の欄で挙げた音声認識端末装置のように、コミュニケーションロボット1につなぎ言葉を発話させたとしても、依然として、動作に不自然さが残る。あくまで一例として、コミュニケーションロボット1に情報が入力されたタイミングからコミュニケーションロボット1が応答を出力するまでの間につなぎ言葉の発話が終了することによりつなぎ言葉が途切れることがある。この場合、つなぎ言葉が途切れたタイミングからコミュニケーションロボット1が応答を出力するまでに生じる時間差が継ぎ目となって不自然に感じられる場合がある。
Even so, even if the
また、背景技術の欄で挙げた音声認識端末装置以外の文献に記載の技術を用いて、応答遅延時のインタラクションに発生する違和感を抑制することも困難である。このような文献の一例として、相手の状態に応じて適切な模倣動作や同調動作のような協力的動作をコミュニケーションロボットに実行させる動作生成システムがある。 Moreover, it is also difficult to suppress discomfort that occurs in interactions during response delays using techniques described in documents other than the speech recognition terminal device listed in the background art column. As an example of such literature, there is a motion generation system that causes a communication robot to perform a cooperative motion such as an appropriate imitation motion or a synchronized motion according to the state of the other party.
上記の動作生成システムでは、次のような課題が設定されている。すなわち、「人間14が何かを行うときに、ロボット12がこの種の模倣動作や同調動作(たとえば、人間14が指差しをするときに、ロボット12の頭がすぐに同じ方向を向く)を即座に実行するならば、明らかに不自然である。」という課題が設定されている。このような課題設定の下、上記の動作精製システムでは、所定の反応の遅延時間経過後に協力的動作をコミュニケーションロボットに行わせる。このように、上記の文献では、「反応の遅延時間」という用語が含まれているが、その意味合いが上記の「応答遅延時間」との間で根本的に異なる。 The above motion generation system has the following problems. That is, "when the human 14 does something, the robot 12 performs this kind of imitation or synchronizing action (for example, when the human 14 points, the head of the robot 12 immediately turns in the same direction). If it is executed immediately, it is obviously unnatural.” Under such a task setting, the motion refining system causes the communication robot to perform a cooperative motion after a predetermined reaction delay time has elapsed. As described above, the above document includes the term "reaction delay time", but its meaning is fundamentally different from the above-mentioned "response delay time".
すなわち、上記の動作生成システムが「反応の遅延時間」は、コミュニケーションロボットが即座に動作を行うことができる状態であるにもかかわらず、人の反応に合わせてあえて待機することを目的とするものである。このため、上記の「反応の遅延時間」には、コミュニケーションロボット1が音声処理等の情報処理を完了して応答できる状態になるまでインタラクションに違和感がない雰囲気をつなぐというが動機付けが入りこむ余地がない。
In other words, the purpose of the motion generation system is to intentionally wait according to the human reaction even though the communication robot is in a state where the communication robot can immediately perform a motion. is. For this reason, the above-mentioned "reaction delay time" has room for motivation to create an atmosphere that does not make the interaction feel uncomfortable until the
このような動機付けがない「反応の遅延時間」は、上記の「応答遅延時間T」に対応し得ない。それ故、人が不自然に感じない反応時間よりも応答遅延時間が長くなる状況が一例として発生しうる。このよう状況下で上記の「反応の遅延時間」がコミュニケーションロボットの動作の制御に用いられたとしても、音声処理等が完了する前に動作が途切れるので、ロボットの応答遅延時のインタラクションに違和感が発生する。 Such a "reaction delay time" without motivation cannot correspond to the above "response delay time T". Therefore, as an example, a situation may occur in which the response delay time is longer than the reaction time that people do not feel unnatural. Under such circumstances, even if the above-mentioned "response delay time" is used to control the movement of the communication robot, the movement will be interrupted before voice processing, etc., is completed. Occur.
[課題解決のアプローチの一側面]
そこで、本実施例に係るコミュニケーションロボット1は、コミュニケーションロボット1に対する情報入力完了から応答の再生開始までの応答遅延時間を予測し、予測された応答遅延時間に対応する動作の実行を決定する。これによって、コミュニケーションロボット1が音声処理等の情報処理を完了して応答できる状態になるまでインタラクションに違和感がない雰囲気をつなげることができる。この際、予測された応答遅延時間に対応する動作がコミュニケーションロボット1により行われるので、コミュニケーションロボット1の動作が終了するタイミングと、コミュニケーションロボット1が応答を出力するタイミングとの時間差を抑えることができる。このため、コミュニケーションロボット1の動作と、コミュニケーションロボット1の応答出力とをシームレスに近付けることができる結果、タイミングの時間差から生じる不自然さを抑制できる。したがって、本実施例に係るコミュニケーションロボット1によれば、ロボットの応答遅延時間中のインタラクション(挙動)に発生する違和感を抑制することが可能になる。
[One aspect of problem-solving approach]
Therefore, the
[コミュニケーションロボット1の構成]
図3は、実施例1に係るコミュニケーションロボット1の機能的構成の一例を示すブロック図である。図3に示すコミュニケーションロボット1は、所定のネットワークを介して、音声認識や機械翻訳、音声感情分析などの音声処理の他、顔認識や表情認識などの画像処理などをバックエンドで実行するサーバ装置50と接続される。このようにフロントエンドとして機能するコミュニケーションロボット1がサーバ装置50と接続されることにより、一例として、各種の音声処理や各種の画像処理がクラウドサービス等を通じて提供される。
[Configuration of Communication Robot 1]
FIG. 3 is a block diagram showing an example of the functional configuration of the
図3に示すように、コミュニケーションロボット1は、頭部3、胴部5、右腕部7R、左腕部7L、音声入力部9A、音声出力部9Bと、通信部9Cと、モータ9Mと、制御部10とを有する。なお、図3に示す機能部は、あくまで例示であり、コミュニケーションロボット1の機能的構成が図3に示す例以外の機能的構成を有することを妨げない。
As shown in FIG. 3, the
図3に示すコミュニケーションロボット1では、制御部10が出力する制御信号に従ってモータ9Mが動力を発生させることにより、頭部3、胴部5、右腕部7Rおよび左腕部7Lを駆動させることができる。
In the
頭部3は、モータ9Mの動力によって頭部3を駆動させるアクチュエータ31と、光を点灯または点滅する発光部32とを有する。このうち、発光部32は、コミュニケーションロボット1の感情表現に用いることができる。例えば、発光部32は、喜怒哀楽の感情ごとに当該感情に対応する色で点灯または点滅することにより、コミュニケーションロボット1の喜怒哀楽を表現することができる。
The
図4は、頭部3の駆動例を示す図である。例えば、図4の上段に示すように、X軸回りのトルクを発生させる制御信号をモータ9Mに出力して頭部3のアクチュエータ31を駆動することにより、頭部3をチルト方向に回転させることができる。このように左右のX軸を回転軸として頭部3を下方向および上方向に回転駆動させることにより、頷き動作等を行うことができる。また、図4の中段に示すように、Y軸回りのトルクを発生させる制御信号をモータ9Mに出力して頭部3のアクチュエータ31を駆動させることにより、頭部3をパン方向に回転させることができる。このように上下のY軸を回転軸として頭部3を左方向および右方向に回転駆動させることにより、首振り動作等を行うことができる。さらに、また、図4の下段に示すように、Z軸回りのトルクを発生させる制御信号をモータ9Mに出力して頭部3のアクチュエータ31を駆動させることにより、頭部3をロール方向に回転させることができる。このように頭部3を前後のZ軸回りに回転駆動させることにより、首傾げ動作等を行うことができる。
FIG. 4 is a diagram showing an example of how the
胴部5は、モータ9Mの動力によって胴部5を駆動させるアクチュエータ51を有する。図5は、胴部5の駆動例を示す図である。例えば、図5の上段に示すように、X軸回りのトルクを発生させる制御信号をモータ9Mに出力して胴部5のアクチュエータ51を駆動することにより、胴部5をチルト方向に回転させることができる。このように左右のX軸を回転軸として胴部5を前方向および後方向に回転駆動させることにより、お辞儀動作や仰け反り動作などを行うことができる。また、図5の下段に示すように、Y軸回りのトルクを発生させる制御信号をモータ9Mに出力して胴部5のアクチュエータ51を駆動することにより、胴部5をパン方向に回転させることができる。このように上下のY軸を回転軸として胴部5を左方向および右方向に回転駆動させることにより、胴ひねり動作等を行うことができる。さらに、また、図5の下段に示すように、Z軸回りのトルクを発生させる制御信号をモータ9Mに出力して胴部5のアクチュエータ51を駆動させることにより、胴部5をロール方向に回転させることができる。このように胴部5を前後のZ軸回りに回転駆動させることにより、胴部5を左方に倒れる動作等を行うことができる。
The
右腕部7Rおよび左腕部7Lは、モータ9Mの動力によって右腕部7Rまたは左腕部7Lを駆動させるアクチュエータ71R及びアクチュエータ71Lと、光を点灯または点滅する発光部72Rおよび発光部72Lとを有する。このうち、発光部72Rおよび発光部72Lは、右腕部7Rおよび左腕部7Lの先端部に設けることにより、方向指示器として機能させることができる。例えば、発光部72Rを点灯することにより、右腕部7Rが指す方向に視線を誘導することができる。また、発光部72Lを点灯することにより、左腕部7Lが指す方向に視線を誘導することができる。
The
図6は、腕部7の駆動例を示す図である。例えば、図6に示すように、X軸回りのトルクを発生させる制御信号をモータ9Mに出力して右腕部7Rのアクチュエータ71Rを駆動することにより、右腕部7Rを上下方向に回転させることができる。このように左右のX軸を回転軸として右腕部7Rを下方向および上方向に回転駆動させることにより、右腕の振り上げ動作や振り下げ動作などを行うことができる。ここで、図6には、右腕部7Rの駆動例を抜粋して示したが、左腕部7Lについてもアクチュエータ71Lを駆動することにより、左腕部7Lを上下方向に回転させることができ、左腕の振り上げ動作や振り下げ動作などを行うことができる。これら右腕および左腕を連動させることにより、例えば、気を付けの姿勢や前にならえの姿勢をとらせることもできる。
FIG. 6 is a diagram showing an example of how the arm portion 7 is driven. For example, as shown in FIG. 6, the
音声入力部9Aは、音信号を入力する機能部である。
The
一実施形態として、音声入力部9Aは、音を電気信号に変換する1または複数のマイクロフォン等により実装することができる。例えば、音声入力部9Aは、マイクロフォンを介して音を採取することにより得られたアナログ信号をデジタル信号へ変換した上で音声データとして音声処理部11へ入力する。
As one embodiment, the
音声出力部9Bは、各種の音声を出力する機能部である。
The
一実施形態として、音声出力部9Bは、1つまたは複数のスピーカを含むスピーカユニットとして実装することができる。例えば、音声出力部9Bは、制御部10からの指示にしたがって、プレゼンテーションやナビゲーションに関するメッセージを読み上げる合成音声等を出力することができる。
As one embodiment, the
制御部10は、コミュニケーションロボット1の全体制御を行う処理部である。
The control unit 10 is a processing unit that performs overall control of the
一実施形態として、制御部10は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などのハードウェアプロセッサにより実装することができる。ここでは、プロセッサの一例として、CPUやMPUを例示したが、汎用型および特化型を問わず、任意のプロセッサ、例えばDSP(Digital Signal Processor)やGPU(Graphics Processing Unit)などにより実装することができる。この他、制御部10は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによって実現されることとしてもかまわない。 As one embodiment, the control unit 10 can be implemented by a hardware processor such as a CPU (Central Processing Unit) or an MPU (Micro Processing Unit). Here, as an example of a processor, a CPU and an MPU are exemplified, but regardless of whether it is a general-purpose type or a specialized type, it can be implemented by an arbitrary processor such as a DSP (Digital Signal Processor) or a GPU (Graphics Processing Unit). can. Alternatively, the control unit 10 may be realized by hardwired logic such as ASIC (Application Specific Integrated Circuit) or FPGA (Field Programmable Gate Array).
制御部10は、図示しない主記憶装置として実装されるDRAM(Dynamic Random Access Memory)などのRAMのワークエリア上に、コミュニケーションロボット1を制御する制御プログラムを展開することにより、下記の処理部を仮想的に実現する。
The control unit 10 virtualizes the following processing units by developing a control program for controlling the
制御部10は、図3に示すように、音声処理部11と、伝送処理部12と、予測部13と、決定部14と、動作制御部15とを有する。 The control unit 10 includes an audio processing unit 11, a transmission processing unit 12, a prediction unit 13, a determination unit 14, and an operation control unit 15, as shown in FIG.
音声処理部11は、音声データを取得する処理部である。 The audio processing unit 11 is a processing unit that acquires audio data.
一実施形態として、音声処理部11は、音声入力部9Aから音声データを取得する。ここで音声入力部9Aから取得される音声データは、ストリーム形式で入力されることとしてもよいし、ファイル形式で入力されることとしてもかまわない。このように取得される音声データには、各種の音声処理を実行することができる。
As one embodiment, the audio processing unit 11 acquires audio data from the
このような音声処理の一例として、音声処理部11は、音声データから発話区間を検出することができる。例えば、音声処理部11は、音声データの波形の振幅および零交差に基づいて発話開始および発話終了を検出することとしてもよいし、音声データのフレームごとにGMM(Gaussian mixture model)にしたがって音声の尤度および非音声の尤度を算出してこれらの尤度の比から発話開始および発話終了を検出することもできる。 As an example of such audio processing, the audio processing unit 11 can detect an utterance period from audio data. For example, the speech processing unit 11 may detect the start of speech and the end of speech based on the amplitude and zero crossing of the waveform of the speech data. It is also possible to calculate the likelihood and the non-speech likelihood and detect the speech start and speech end from the ratio of these likelihoods.
この他、音声処理部11は、音声データから検出された発話区間にワードスポッティングを始めとする音声認識を実行することもできる。例えば、音声処理部11は、発話区間の音声データを所定の言語モデルや所定の音素モデルと照合することにより、当該音声データをテキストへ変換する。 In addition, the speech processing unit 11 can also perform speech recognition, such as word spotting, in speech segments detected from speech data. For example, the speech processing unit 11 converts the speech data into text by collating the speech data of the utterance period with a predetermined language model or a predetermined phoneme model.
なお、ここでは、コミュニケーションロボット1が発話区間の検出や発話区間の音声認識を実行する例を挙げたが、必ずしもコミュニケーションロボット1が発話区間の検出や発話区間の音声認識を実行せずともかまわない。例えば、コミュニケーションロボット1に接続されたサーバ装置50が発話区間の検出や発話区間の音声認識を実行することとしてもかまわない。
Although an example in which the
伝送処理部12は、外部装置にデータを伝送する処理部である。 The transmission processing unit 12 is a processing unit that transmits data to an external device.
1つの側面として、伝送処理部12は、音声処理部11により発話区間に対する音声認識が実行された場合、音声認識結果として得られたテキストの翻訳依頼をサーバ装置50に伝送する。この翻訳依頼が伝送されたサーバ装置50では、コミュニケーションロボット1から伝送されたテキストに機械翻訳を実行することにより、対象者U1の発話に対応するテキストを母国語から外国語へ翻訳する。このように母国語から外国語へ翻訳されたテキストがサーバ装置50からコミュニケーションロボット1へ応答される。
As one aspect, the transmission processing unit 12 transmits a translation request for the text obtained as a result of the speech recognition to the server device 50 when the speech processing unit 11 performs speech recognition for the speech period. The server device 50 to which this translation request has been transmitted performs machine translation on the text transmitted from the
なお、ここでは、あくまで一例として、テキストの翻訳がサーバ装置50により実行される例を挙げたが、テキストの翻訳もコミュニケーションロボット1により実行されることとしてもかまわない。
Here, as an example, the text translation is performed by the server device 50 , but the text translation may also be performed by the
予測部13は、コミュニケーションロボット1に入力される情報量に基づいて応答遅延時間を予測する処理部である。
The prediction unit 13 is a processing unit that predicts response delay time based on the amount of information input to the
一実施形態として、予測部13は、音声処理部11により検出された発話区間の時間長から応答遅延時間を予測する。以下、発話区間の時間長のことを「発話時間」と記載する場合がある。例えば、予測部13は、発話時間と応答遅延時間Tの対応関係が定義されたルックアップテーブル13Aを参照して、音声処理部11により検出された発話時間に対応する値を応答遅延時間Tとして予測することができる。図7は、ルックアップテーブル13Aの一例を示す図である。図7に示すルックアップテーブル13Aによれば、発話時間が0秒以上0.5秒未満の範囲である場合、応答遅延時間が0.6秒と予測される。また、発話時間が0.5秒以上1.0秒未満の範囲である場合、応答遅延時間が1.0秒と予測される。また、発話時間が1.0秒以上1.5秒未満の範囲である場合、応答遅延時間が1.6秒と予測される。また、発話時間が1.5秒以上2.0秒未満の範囲である場合、応答遅延時間が2.5秒と予測される。 As one embodiment, the prediction unit 13 predicts the response delay time from the time length of the speech period detected by the speech processing unit 11 . Hereinafter, the time length of the speech section may be referred to as "speech duration". For example, the prediction unit 13 refers to the lookup table 13A that defines the correspondence between the utterance time and the response delay time T, and sets the value corresponding to the utterance time detected by the speech processing unit 11 as the response delay time T. can be predicted. FIG. 7 is a diagram showing an example of the lookup table 13A. According to the lookup table 13A shown in FIG. 7, the response delay time is predicted to be 0.6 seconds when the speech time is in the range of 0 seconds to less than 0.5 seconds. Also, when the speech time is in the range of 0.5 seconds to less than 1.0 seconds, the response delay time is predicted to be 1.0 seconds. Also, when the speech time is in the range of 1.0 seconds or more and less than 1.5 seconds, the response delay time is predicted to be 1.6 seconds. Also, when the speech time is in the range of 1.5 seconds or more and less than 2.0 seconds, the response delay time is predicted to be 2.5 seconds.
このように、ルックアップテーブル13Aには、発話時間が短くなるにしたがって短い応答遅延時間Tが予測される一方で、発話時間が長くなるにしたがって長い応答遅延時間Tが予測される。このような応答遅延時間Tを定義するのは、発話時間が長くなるにつれて翻訳処理、例えば形態素解析や機械翻訳などの所要時間が長くなることが一因にある。さらに、発話時間が長くなるにつれてテキストのサイズが大きくなることから、ネットワークの伝送遅延も大きくなることも一因にある。 In this way, the lookup table 13A predicts a shorter response delay time T as the speech time becomes shorter, while predicting a longer response delay time T as the speech time becomes longer. One of the reasons for defining such a response delay time T is that the longer the speech time is, the longer the time required for translation processing, such as morphological analysis and machine translation. In addition, as the speech duration increases, the size of the text increases, which also increases network transmission delay.
なお、ここでは、あくまで一例としてルックアップテーブル13Aを用いる場合を例示したが、発話時間が長くなるにしたがって長い応答遅延時間Tを導出する関数を用いて、発話時間に対応する応答遅延時間Tを算出することとしてもかまわない。例えば、応答遅延時間Tを導出する関数の一例として、発話時間を「x」としたとき、T=1.3*xを採用することができる。また、発話時間および応答遅延時間Tの両者の関係は、必ずしも線形でなくともよく、非線形であってかまわない。例えば、応答遅延時間Tを導出する非線形の関数の一例として、発話時間を「x」としたとき、シグモイド関数σ(x)を採用することができる。この場合、シグモイド関数のゲインには、一例として、人が一呼吸で発話する発話時間の推定上限値などを設定することができる。 Although the case where the lookup table 13A is used is exemplified here, the response delay time T corresponding to the utterance time is calculated using a function for deriving a longer response delay time T as the utterance time becomes longer. It does not matter if it is calculated. For example, as an example of a function for deriving the response delay time T, T=1.3*x, where x is the speech time, can be adopted. Also, the relationship between the speech time and the response delay time T does not necessarily have to be linear, and may be non-linear. For example, as an example of a nonlinear function for deriving the response delay time T, a sigmoid function σ(x) can be adopted, where x is the speech time. In this case, the gain of the sigmoid function can be set, for example, to an estimated upper limit of the speech time during which a person speaks in one breath.
決定部14は、応答遅延時間に応じてコミュニケーションロボット1のフィラー動作を決定する処理部である。以下、コミュニケーションロボット1に実行させる動作の中でも、コミュニケーションロボット1に対する情報入力から応答出力までの応答遅延時間をつなぐ動作のことを「フィラー動作」と記載する場合がある。
The determination unit 14 is a processing unit that determines the filler motion of the
一実施形態として、決定部14は、予測部13により予測された応答遅延時間からコミュニケーションロボット1のフィラー動作を決定する。ここで言う「フィラー動作」には、コミュニケーションロボット1の身体の駆動のみならず、その他の表現、例えばメッセージ等の音声出力やLED点滅等の表示などもその範疇に含まれる。例えば、決定部14は、応答遅延時間と動作の対応関係が定義されたルックアップテーブル14Aを参照して、予測部13により予測された応答遅延時間Tに対応する動作をコミュニケーションロボット1のフィラー動作として決定することができる。
As one embodiment, the determination unit 14 determines the filler motion of the
図8は、ルックアップテーブル14Aの一例を示す図である。図8に示すルックアップテーブル14Aによれば、応答遅延時間Tが0秒以上1秒未満の範囲である場合、LED点滅で表現を行う動作が定義されている。この動作は、一例として、頭部3に発光部32として組み込まれたリング状のLEDを点滅させることにより実現できる。また、応答遅延時間Tが1秒以上2秒未満の範囲である場合、コミュニケーションロボット1に目線を上に向ける動作を実行させることが定義されている。この動作は、一例として、コミュニケーションロボット1の頭部3の中で顔の正面に対応する部分を水平方向よりも上側に向く姿勢へ駆動させることにより実現できる。また、応答遅延時間Tが2秒以上5秒未満の範囲である場合、コミュニケーションロボット1に首をかしげる動作を実行させることが定義されている。この動作は、一例として、コミュニケーションロボット1の頭部3をロール方向へ回転して駆動させることにより実現できる。また、応答遅延時間Tが5秒以上の範囲である場合、コミュニケーションロボット1に両手を上げる動作を実行すると共に、メッセージ「少々お待ち下さい」の音声出力で表現を行うことが定義されている。この動作は、一例として、コミュニケーションロボット1の右腕部7Rおよび左腕部7Lを上方向に回転して駆動させることにより実現できる。
FIG. 8 is a diagram showing an example of the lookup table 14A. According to the lookup table 14A shown in FIG. 8, when the response delay time T is in the range of 0 seconds or more and less than 1 second, the operation of expressing by LED blinking is defined. This operation can be realized, for example, by blinking a ring-shaped LED incorporated as the
このように、ルックアップテーブル14Aには、応答遅延時間Tが短いほどコミュニケーションロボット1の外形形状、いわゆるシルエットの変化が小さい動作がフィラー動作として定義されている。これは、フィラー動作が実行されることで変化した姿勢のままで情報入力、例えば対象者U1の発話等に対する応答を出力する事態を避け、フィラー動作前の姿勢に速やかに戻して応答を出力するためである。一方で、ルックアップテーブル14Aには、応答遅延時間Tが長いほどコミュニケーションロボット1のシルエットの変化が大きい動作がフィラー動作として定義されている。これは、コミュニケーションロボット1のフィラー動作が小さい場合、次のような不安を対象者U1に与えやすい側面があるからである。例えば、応答遅延時間が長引くにつれて情報入力がコミュニケーションロボット1により受け付けられていない、あるいは情報入力に対応する情報処理が実行されていない等の不安を対象者U1に与えやすい側面があるからである。
Thus, in the lookup table 14A, a filler motion is defined as a motion in which the shorter the response delay time T, the smaller the change in the outer shape of the
なお、ここでは、あくまで一例としてルックアップテーブル14Aを用いる場合を例示したが、応答遅延時間Tが長くなるにしたがってシルエットの変化が大きい動作を導出する関数を用いて、応答遅延時間Tに対応する動作を出力することとしてもかまわない。例えば、右腕部7R及び左腕部7Lの少なくとも1つの振り上げ動作や振り下げ動作の回転角度の大きさを「θ」としたとき、θ=(π*T)/4を採用することができる。また、応答遅延時間Tの長さおよび動作のシルエットの変化の大きさの両者の関係は、必ずしも線形でなくともよく、非線形であってかまわない。例えば、右腕部7R及び左腕部7Lの少なくとも1つの振り上げ動作や振り下げ動作の回転角度の大きさを「θ」としたとき、シグモイド関数σ(θ)を採用することができる。この場合、シグモイド関数のゲインには、一例として、腕部7が上限まで振り上げられた方位と腕部7が下限まで振り下げられた方位との差、すなわち腕部7の可動域などを設定することができる。
Here, the case of using the lookup table 14A is exemplified only as an example. It does not matter if the action is output. For example, θ=(π*T)/4 can be employed, where θ is the rotation angle of at least one swing-up motion or swing-down motion of the
動作制御部15は、コミュニケーションロボット1の動作を制御する処理部である。
The motion control section 15 is a processing section that controls the motion of the
一実施形態として、動作制御部15は、フィラー動作が実行される前の元の姿勢がフィラー動作によって変化し、フィラー動作の完了後に元の姿勢に復帰するまでの時間と、応答遅延時間Tとを一致させることとする。この場合、動作制御部15は、応答遅延時間Tが経過した時点で各部位の姿勢が元の姿勢に復帰できるように、コミュニケーションロボット1の各部位の駆動量および駆動速度などの駆動パラメータを決定し、駆動パラメータにしたがってフィラー動作および元の姿勢への復帰動作を実行する。
As one embodiment, the motion control unit 15 sets the time required for the original posture before the filler motion to change due to the filler motion to return to the original posture after the filler motion is completed, and the response delay time T. shall be matched. In this case, the motion control unit 15 determines drive parameters such as the drive amount and drive speed of each part of the
例えば、フィラー動作が「LED点滅」である場合、動作制御部15は、コミュニケーションロボット1の頭部3に発光部32として組み込まれたリング状のLEDを点滅させる。また、フィラー動作が「目線を上に向ける」である場合、動作制御部15は、コミュニケーションロボット1の左右方向のX軸回りに頭部3を上方向へ回転駆動させる。また、フィラー動作が「首をかしげる」である場合、動作制御部15は、コミュニケーションロボット1の前後方向のZ軸回りに頭部3をロール方向、左方向または右方向へ回転駆動させる。また、フィラー動作が「両手を上げる+音声メッセージ」である場合、コミュニケーションロボット1の左右方向のX軸回りに右腕部7Rおよび左腕部7Lを上方向へ回転駆動させると共に、音声出力部9Bからメッセージ「少々お待ち下さい」を音声出力させる。このようなフィラー動作の実行後、動作制御部15は、駆動系のフィラー動作が行われていた場合、フィラー動作の実行前の元の姿勢に復帰する復帰動作を実行する。
For example, when the filler action is "LED flashing", the action control unit 15 causes the ring-shaped LED incorporated as the
[処理の流れ]
図9は、実施例1に係るフィラー動作の制御処理の手順を示すフローチャートである。この処理は、一例として、コミュニケーションロボット1に対する情報入力を受け付けた場合、例えば音声処理部11により発話区間が検出された場合に起動する。
[Process flow]
FIG. 9 is a flowchart illustrating the procedure of a filler operation control process according to the first embodiment. For example, this process is started when information input to the
図9に示すように、音声入力部9Aから取得された音声データから発話区間が検出されると(ステップS101Yes)、音声処理部11は、当該発話区間にワードスポッティングを始めとする音声認識を実行する(ステップS102)。続いて、伝送処理部12は、ステップS102の音声認識結果として得られたテキストの翻訳依頼をサーバ装置50に伝送する(ステップS103)。
As shown in FIG. 9, when an utterance segment is detected from the voice data acquired from the
このようにテキストの翻訳依頼が伝送されたサーバ装置50では、コミュニケーションロボット1から伝送されたテキストに機械翻訳が実行される。そして、対象者U1の発話に対応するテキストが母国語から外国語へ翻訳された段階でテキストの翻訳結果がコミュニケーションロボット1へ返信される。
In the server device 50 to which the text translation request has thus been transmitted, the text transmitted from the
これらステップS102又はステップS103と並行するか、あるいはステップS102及びステップS103と前後して、予測部13は、ステップS101で検出された発話区間の時間長から応答遅延時間を予測する(ステップS104)。そして、決定部14は、ステップS104で予測された応答遅延時間からコミュニケーションロボット1のフィラー動作を決定する(ステップS105)。
In parallel with step S102 or step S103, or before or after step S102 and step S103, the prediction unit 13 predicts the response delay time from the time length of the speech period detected in step S101 (step S104). Then, the determination unit 14 determines the filler motion of the
なお、ステップS104で予測される応答遅延時間は、ステップS105におけるフィラー動作の決定に用いられる。このため、ステップS104の処理は、ステップS105の処理が実行されるまでの任意のタイミングで実行することができる。例えば、ステップS104の処理がステップS103の処理の後に実行されたとしても、ステップS102又はステップS103と並行して実行されたとしても、ステップS105以降の処理内容に変更はない。 Note that the response delay time predicted in step S104 is used for determining the filler operation in step S105. Therefore, the process of step S104 can be executed at any timing until the process of step S105 is executed. For example, even if the process of step S104 is performed after the process of step S103, even if it is performed in parallel with step S102 or step S103, there is no change in the process contents after step S105.
その上で、動作制御部15は、ステップS104で予測された応答遅延時間Tの間、ステップS105で決定されたフィラー動作および元の姿勢への復帰動作を実行する(ステップS106)。 Then, the motion control unit 15 executes the filler motion determined in step S105 and the return motion to the original posture during the response delay time T predicted in step S104 (step S106).
そして、元の姿勢へ復帰した段階でテキストの翻訳結果がサーバ装置50から受信されない場合(ステップS107No)、動作制御部15は、追加のフィラー動作、例えばシルエットの変化が小さいフィラー動作を優先して実行し(ステップS108)、ステップS107へ移行する。 Then, when the translation result of the text is not received from the server device 50 at the stage of returning to the original posture (step S107 No), the motion control unit 15 gives priority to additional filler motions, for example, filler motions with small silhouette changes. Execute (step S108) and proceed to step S107.
一方、元の姿勢へ復帰した段階でテキストの翻訳結果がサーバ装置50から受信された場合(ステップS107Yes)、動作制御部15は、サーバ装置50によるテキストの翻訳結果を合成音声等で音声出力し(ステップS109)、処理を終了する。 On the other hand, when the translation result of the text is received from the server device 50 at the stage of returning to the original posture (step S107 Yes), the operation control unit 15 outputs the text translation result by the server device 50 as synthesized voice or the like. (Step S109), the process ends.
なお、図9に示すフローチャートでは、発話区間が検出された後にフィラー動作を実行する場合を例示したが、発話終了が検出される前にフィラー動作を開始することもできる。例えば、発話開始が検出されてから所定の閾値以上、例えば3秒以上経過しても発話終了が検出されない場合、シルエットの変化が大きいフィラー動作を優先して発話終了が検出される前に先行してフィラー動作を開始することもできる。 Although the flowchart shown in FIG. 9 illustrates the case where the filler motion is executed after the speech period is detected, the filler motion can be started before the end of the speech is detected. For example, when the end of speech is not detected even after a predetermined threshold value or more, for example, 3 seconds or more have elapsed since the start of speech was detected, the filler motion with a large change in silhouette is prioritized before the end of speech is detected. can also initiate a filler operation.
この他、図9に示すフローチャートでは、元の姿勢へ復帰されてからサーバ装置50によるテキストの翻訳結果を音声出力する場合を例示したが、これに限定されない。例えば、元の姿勢への復帰前にサーバ装置50からテキストの翻訳結果が受信された場合、復帰動作を実行しながらサーバ装置50によるテキストの翻訳結果を音声出力することとしてもかまわない。 In addition, in the flowchart shown in FIG. 9, the case where the translation result of the text by the server device 50 is output by voice after returning to the original posture is exemplified, but the present invention is not limited to this. For example, when the text translation result is received from the server device 50 before returning to the original posture, the text translation result by the server device 50 may be output by voice while executing the returning motion.
[効果の一側面]
上述してきたように、本実施例に係るコミュニケーションロボット1は、コミュニケーションロボット1に対する情報入力から応答出力までの応答遅延時間を予測し、予測された応答遅延時間に対応する動作の実行を決定する。これによって、コミュニケーションロボット1が音声処理等の情報処理を完了して応答できる状態になるまでインタラクションに違和感がない雰囲気をつなげることができる。したがって、本実施例に係るコミュニケーションロボット1によれば、ロボットの応答遅延時のインタラクションに発生する違和感を抑制することが可能である。
[One aspect of the effect]
As described above, the
さて、上記の実施例1では、応答遅延時間Tの間に1つのフィラー動作をコミュニケーションロボット1に実行させる場合を例示したが、応答遅延時間の間に実行できるフィラー動作が必ずしも1つに限定される訳ではない。そこで、本実施例では、2つ以上のフィラー動作を組み合わせて実行する例について説明する。
In the first embodiment, the
図10は、実施例2に係るコミュニケーションロボット2の機能的構成の一例を示すブロック図である。図10に示すように、コミュニケーションロボット2は、図3に示すコミュニケーションロボット1に比べて、制御部20の機能の一部が異なる。すなわち、コミュニケーションロボット2は、設定部21をさらに有すると共に、図3に示す決定部14の機能と一部の機能が異なる決定部22を有する。なお、図3に示すコミュニケーションロボット1と同様の機能を発揮する機能部には同一の符号を付与し、その説明を省略する。
FIG. 10 is a block diagram showing an example of the functional configuration of the
設定部21は、応答遅延時間に基づいて複数の動作区間を設定する処理部である。ここでは、あくまで一例として、2つの動作区間で2種類のフィラー動作が実行される例を挙げて説明することとする。以下、2つの動作区間のうち先行する動作区間のことを「第1の動作区間」と記載すると共に、第1の動作区間に後続する動作区間のことを「第2の動作区間」と記載する場合がある。
The setting
このように第1の動作区間および第2の動作区間を設定するのは、応答遅延時間の近傍でフィラー動作から応答出力の動作へつなげる際の違和感を低減する側面がある。すなわち、予測部13により予測される応答遅延時間の予測値が応答遅延時間の実測値と必ずしも一致するとは限らないが、そうであるからと言って、応答遅延時間の予測値が的外れであるケースは稀であり、応答遅延時間の実測値は予測値の近傍に収束しやすい。 Setting the first motion interval and the second motion interval in this way has the aspect of reducing discomfort when connecting the filler motion to the response output motion in the vicinity of the response delay time. That is, the predicted value of the response delay time predicted by the prediction unit 13 does not necessarily match the measured value of the response delay time, but even so, the predicted value of the response delay time is off target. is rare, and measured values of response delay tend to converge close to predicted values.
この知見を利用して、設定部21は、応答遅延時間の予測値に基づいて第1の動作区間および第2の動作区間を設定する。図11は、動作区間の設定方法の一例を示す図である。図11に示すように、設定部21は、応答遅延時間の予測値T予測の経過時点の所定時間前、例えば1秒前までの区間を第1の動作区間に設定する。さらに、設定部21は、第1の動作区間の終了から応答遅延時間の予測値T実測の経過時点を超えて所定時間後、例えば1秒後までを第2の動作区間に設定する。ここで、応答遅延時間の予測値T予測が応答遅延時間の実測値T実測との間でずれが生じたとしても、第2の動作区間の範囲内で応答遅延時間の予測値T予測および応答遅延時間の実測値T実測のずれが収束するように、上記の所定時間が設定される。例えば、応答遅延時間の予測値T予測および応答遅延時間の実測値T実測のずれの実績のうち所定の割合、例えば8割以上が含まれる区間長を第2の動作区間として設定することができる。この他、応答遅延時間の予測値T予測および応答遅延時間の実測値T実測のずれの統計値、例えば中央値や最頻値、平均値などに安全マージンが加算された区間長を第2の動作区間として設定することができる。なお、図11には、応答遅延時間の予測値T予測の経過時点の前および後で同一の区間長を持つ第2の動作区間を設定する例を説明したが、上記の実績や上記の統計値に基づいて異なる区間長を設定することもできる。
Using this knowledge, the setting
これによって、応答遅延時間の予測値の経過時点を含む前後の所定時間が第2の動作区間に設定されることになる。このような第2の動作区間において、情報入力に対する応答を出力する動作、例えばテキストの翻訳結果に対応する発話の音声出力を割り込ませて実行する場合、動作が中断、あるいは継続されても違和感が少ないフィラー動作を実行させる。これによって、フィラー動作から応答出力の動作へつなげる際の違和感の軽減を図る。 As a result, a predetermined time before and after the time point at which the predicted value of the response delay time has elapsed is set as the second operation interval. In such a second operation section, when an operation for outputting a response to information input, for example, when an utterance corresponding to the translation result of the text is interrupted and executed, there is a sense of discomfort even if the operation is interrupted or continued. Have fewer filler operations performed. This reduces the sense of incongruity when connecting the filler motion to the response output motion.
決定部22は、図3に示す決定部14と同様、コミュニケーションロボット2に実行させるフィラー動作を決定する処理部である。
The determination unit 22 is a processing unit that determines the filler motion to be executed by the
1つの側面として、決定部22は、図3に示す決定部14に比較して、設定部21により設定された複数の動作区間ごとに当該動作区間で実行させるフィラー動作を決定する点が異なる。例えば、上述の通り、設定部21により第1の動作区間および第2の動作区間が設定される場合、決定部22は、第1の動作区間および第2の動作区間ごとにフィラー動作を決定する。
As one aspect, the determination unit 22 is different from the determination unit 14 shown in FIG. 3 in that, for each of a plurality of motion intervals set by the setting
ここで、情報入力に対する応答を出力する動作をフィラー動作に割り込ませる状況を想定する場合、応答出力の動作の割込み時に動作が中断、あるいは継続されても違和感が少ないフィラー動作とそうでないフィラー動作がある。 Here, when assuming a situation in which the action of outputting a response to information input is interrupted by the filler action, there are two filler actions, one that does not cause discomfort even if the action is interrupted or continued when the response output action is interrupted, and the other that does not. be.
図12は、動作と違和感の有無の対応関係の一例を示す図である。図12に示す例では、コミュニケーションロボット2のフィラー動作が駆動系の動作とその他の表現系の動作、すなわち表示および音声による動作とに分類して示されている。さらに、図12に示す例では、駆動系の動作が対象者U1に目線を合わせた状態で実行される動作と目線を外す動作とにさらに分類されている。このような分類ごとに、各々の動作が中断された場合と継続された場合とに分けてコミュニケーションロボット2がテキストの翻訳結果に対応する発話を音声出力する応答出力の動作を割り込ませる際の違和感の有無が示されている。
FIG. 12 is a diagram illustrating an example of a correspondence relationship between actions and the presence or absence of discomfort. In the example shown in FIG. 12, the filler motions of the
図12に示す通り、対象者U1に目線を合わせた状態では、駆動系の動作が中断された場合も、あるいは駆動系の動作が継続された場合のいずれの場合においても、上記の音声出力の割込みに対象者U1が持つ違和感は少ないことがわかる。例えば、図8に例示する駆動系の動作の中でも、両手を上げる動作は、対象者U1に目線を合わせた状態で行われる。このように両者の目線が合った状態であれば、コミュニケーションロボット2がテキストの翻訳結果に対応する発話を音声出力しても、当該発話が対象者U1に向けられたものであることが明らかである。したがって、コミュニケーションロボット2の腕部7を上げる動作、あるいは上げた腕部7を戻す動作が継続されようが途中で中断されようが、さほどの違和感はない。
As shown in FIG. 12, in a state in which the eyes are aligned with the target person U1, the above-described voice output is possible even when the operation of the driving system is interrupted or when the operation of the driving system is continued. It can be seen that the object person U1 feels less uncomfortable with the interruption. For example, among the actions of the drive system illustrated in FIG. 8, the action of raising both hands is performed with the eyes aligned with the subject U1. In this way, when the eyes of both parties are aligned, even if the
一方、対象者U1から目線が外された状態では、駆動系の動作が中断される場合も、あるいは駆動系の動作が継続される場合のいずれの場合においても、上記の音声出力の割込みに対象者U1が違和感を持つことがわかる。例えば、図8に例示する駆動系の動作の中でも、目線を上げる動作は、対象者U1から目線が外される。これを対象者U1の視点から見れば、目線を外しながらの状態、あるいは目線が外された状態でコミュニケーションロボット2がテキストの翻訳結果に対応する発話を音声出力することになる。この場合、当該発話が対象者U1に向けられたものかどうかに疑問が生じるので、対象者U1に違和感が生じる。
On the other hand, when the target person U1 is out of line of sight, the above-mentioned audio output interruption is applicable in either case of interruption of the operation of the driving system or continuation of the operation of the driving system. It can be seen that the person U1 feels uncomfortable. For example, among the actions of the driving system illustrated in FIG. 8, the action of raising the line of sight removes the line of sight from the subject U1. From the viewpoint of the target person U1, the
また、表現系の動作のうち表示が中断される場合、応答遅延時間が経過して対象者U1にとっての待ち時間が終了したことをLED点滅の終了によって表現できる。このため、コミュニケーションロボット2がテキストの翻訳結果に対応する発話を音声出力しても対象者U1が持つ違和感は少ないことがわかる。その一方で、表示が継続される場合、LED点滅の表現が継続することによって待ち時間が終了していないとの錯誤を対象者U1に与える可能性があるので、対象者U1に違和感が生じる。
Further, when the display is interrupted among the actions of the expression system, the fact that the response delay time has passed and the waiting time for the subject U1 has ended can be expressed by the end of blinking of the LED. Therefore, even if the
さらに、表示系の動作のうち音声の表現が中断される場合も、あるいは音声の表現が継続される場合のいずれの場合においても、コミュニケーションロボット2がテキストの翻訳結果に対応する発話を音声出力すると、対象者U1が違和感を持つことがわかる。例えば、図8に例示する表現系の動作の中でも、メッセージ「少々お待ち下さい」の音声出力が中断されてテキストの翻訳結果に対応する発話が即座に音声出力されれば、デジタルに音声出力が切り替わる様子が人間の振る舞いから逸脱するので、対象者U1に違和感が生じる。また、メッセージ「少々お待ち下さい」の音声出力を継続すれば、テキストの翻訳結果に対応する発話を音声出力できる状態であるにもかかわらず、無意味なフィラー動作を行うことになるので、本末転倒である。
Furthermore, in either case where speech expression is interrupted or continued in the operation of the display system, if the
これらのことから、決定部22は、第1の動作区間で実行される第1のフィラー動作を決定する場合、上記の実施例1と同様、ルックアップテーブル14Aを参照して、第1の動作区間の区間長に対応する動作を第1のフィラー動作として決定する。その一方で、決定部22は、第2の動作区間で実行される第2のフィラー動作を決定する場合、コミュニケーションロボット2が実行可能な動作のうち、応答出力の動作の割込み時に動作が中断、あるいは継続されても違和感が少ない動作を第2のフィラー動作として決定する。
For these reasons, when determining the first filler motion to be executed in the first motion section, the determining unit 22 refers to the lookup table 14A to determine the first motion, as in the first embodiment. A motion corresponding to the segment length of the segment is determined as the first filler motion. On the other hand, when determining the second filler motion to be executed in the second motion section, the determination unit 22 suspends the motion when the response output motion is interrupted among the motions that the
図13は、各動作区間で実行が許可される動作の一例を示す図である。図13に示すように、第1の動作区間には、第1の動作区間の区間長に対応する動作であれば、駆動系の動作のいずれであっても、あるいは表現系の動作のいずれであっても、第1のフィラー動作として決定することが許可されるので、制限は課されない。その一方で、第2の動作区間には、駆動系の動作の中でも、対象者U1から目線が外される動作を第2のフィラー動作として決定することは許可されない。すなわち、第2の動作区間には、対象者U1に目線を合わせた状態で実行される動作に絞って第2のフィラー動作として決定することが許可されるといった制限が課される。さらに、第2の動作区間には、表現系の動作の中でも、応答出力の動作の割込み時に動作が中断されても違和感が少ない表示による動作に絞って第2のフィラー動作として決定することが許可されるといった制限が課される。 FIG. 13 is a diagram showing an example of actions permitted to be executed in each action section. As shown in FIG. 13, in the first motion section, any motion of the driving system or the motion of the expression system may be included as long as it corresponds to the length of the first motion section. Even if there is, it is allowed to be determined as the first filler operation, so no restriction is imposed. On the other hand, in the second motion section, it is not permitted to determine, among the motions of the driving system, the motion in which the subject U1 looks away as the second filler motion. That is, in the second motion section, a restriction is imposed such that it is permitted to narrow down to the motions performed while looking at the target person U1 and to determine them as the second filler motions. Furthermore, in the second action section, it is permitted to select as the second filler action narrowing down to a display action that causes little discomfort even if the action is interrupted at the time of the interruption of the response output action, among the actions of the expressive system. restrictions are imposed.
このように、情報入力に対する応答を出力する動作、例えばテキストの翻訳結果に対応する発話の音声出力を第2のフィラー動作に割り込ませて実行する場合、動作が中断、あるいは継続されても違和感が少ない動作を第2のフィラー動作として決定する。これによって、第2のフィラー動作から応答出力の動作へつなげる際の違和感の軽減を図る。すなわち、コミュニケーションロボット2の動作が終了するまでの段階で当該動作が中断されて応答が出力される場合、当該動作の中断によって動作が途切れる継ぎ目が違和感となって現れることがある。この違和感の現れ方は、図12に示す通り、駆動系および表現系の動作の種類が変わることによって程度に差が生じる。このことから、中断によって途切れる継ぎ目が違和感となって現れにくい駆動系および表現系の動作を第2のフィラー動作として実行することで、第2のフィラー動作から応答出力の動作へつなげる際の違和感を軽減することができる。
In this way, when an operation for outputting a response to information input, for example, voice output of an utterance corresponding to the result of text translation, is executed by interrupting the second filler operation, even if the operation is interrupted or continued, a sense of incongruity is felt. The lesser motion is determined as the second filler motion. This reduces the sense of incongruity when connecting the second filler motion to the response output motion. That is, if the action is interrupted and a response is output before the action of the
[処理の流れ]
図14は、実施例2に係るフィラー動作の制御処理の手順を示すフローチャートである。この処理も、一例として、コミュニケーションロボット2に対する情報入力を受け付けた場合、例えば音声処理部11により発話区間が検出された場合に起動する。
[Process flow]
FIG. 14 is a flowchart illustrating the procedure of a filler operation control process according to the second embodiment. This process is also started, for example, when information input to the
図14に示すように、音声入力部9Aから取得された音声データから発話区間が検出されると(ステップS201Yes)、音声処理部11は、当該発話区間にワードスポッティングを始めとする音声認識を実行する(ステップS202)。続いて、伝送処理部12は、ステップS202の音声認識結果として得られたテキストの翻訳依頼をサーバ装置50に伝送する(ステップS203)。
As shown in FIG. 14, when an utterance segment is detected from the voice data acquired from the
このようにテキストの翻訳依頼が伝送されたサーバ装置50では、コミュニケーションロボット1から伝送されたテキストに機械翻訳が実行される。そして、対象者U1の発話に対応するテキストが母国語から外国語へ翻訳される段階でテキストの翻訳結果がコミュニケーションロボット2へ返信される。
In the server device 50 to which the text translation request has thus been transmitted, the text transmitted from the
これらステップS202又はステップS203と並行するか、あるいはステップS202及びステップS203と前後して、予測部13は、ステップS201で検出された発話区間の時間長から応答遅延時間を予測する(ステップS204)。続いて、設定部21は、ステップS204で予測された応答遅延時間の予測値に基づいて第1の動作区間および第2の動作区間を設定する(ステップS205)。
In parallel with step S202 or step S203, or before or after step S202 and step S203, the prediction unit 13 predicts the response delay time from the time length of the speech period detected in step S201 (step S204). Subsequently, the setting
なお、ステップS204で予測される応答遅延時間は、ステップS205における第1の動作区間および第2の動作区間の設定に用いられる。このため、ステップS204の処理は、ステップS205の処理が実行されるまでの任意のタイミングで実行することができる。例えば、ステップS204の処理がステップS203の処理の後に実行されたとしても、ステップS202又はステップS203と並行して実行されたとしても、ステップS205以降の処理内容に変更はない。 Note that the response delay time predicted in step S204 is used for setting the first operation interval and the second operation interval in step S205. Therefore, the process of step S204 can be executed at any timing until the process of step S205 is executed. For example, even if the process of step S204 is performed after the process of step S203, even if it is performed in parallel with step S202 or step S203, there is no change in the process contents after step S205.
さらに、決定部22は、ルックアップテーブル14Aを参照して、第1の動作区間の区間長に対応する動作を第1のフィラー動作として決定する。さらに、決定部22は、応答出力の動作の割込み時に動作が中断、あるいは継続されても違和感が少ない動作を第2のフィラー動作として決定する(ステップS206)。 Further, the determining unit 22 refers to the lookup table 14A and determines the motion corresponding to the segment length of the first motion segment as the first filler motion. Further, the determination unit 22 determines a motion that causes little discomfort even if the motion is interrupted or continued at the time of interruption of the response output motion as the second filler motion (step S206).
そして、動作制御部15は、ステップS205で設定された第1の動作区間の間、ステップS206で決定された第1のフィラー動作および元の姿勢への復帰動作を実行する(ステップS207)。 Then, the motion control unit 15 executes the first filler motion determined in step S206 and the return motion to the original posture during the first motion section set in step S205 (step S207).
その後、動作制御部15は、ステップS206で決定された第2のフィラー動作および元の姿勢への復帰動作を開始する(ステップS208)。そして、サーバ装置50からテキストの翻訳結果が受信される前に第2のフィラー動作が完了した場合(ステップS209NoかつステップS210Yes)、動作制御部15は、追加のフィラー動作、例えばシルエットの変化が小さいフィラー動作を開始し(ステップS211)、ステップS209へ移行する。 Thereafter, the motion control unit 15 starts the second filler motion determined in step S206 and the return motion to the original posture (step S208). Then, if the second filler motion is completed before the translation result of the text is received from the server device 50 (No in step S209 and Yes in step S210), the motion control unit 15 performs the additional filler motion, for example, the change in the silhouette is small. A filler operation is started (step S211), and the process proceeds to step S209.
また、テキストの翻訳結果がサーバ装置50から受信された場合(ステップS209Yes)、動作制御部15は、実行中の第2のフィラー動作または追加のフィラー動作を中断するか、あるいは継続し(ステップS212)、サーバ装置50によるテキストの翻訳結果を合成音声等で音声出力し(ステップS213)、処理を終了する。 Further, when the translation result of the text is received from the server device 50 (step S209 Yes), the motion control unit 15 interrupts or continues the second filler motion or the additional filler motion being executed (step S212 ), the result of the translation of the text by the server device 50 is output as synthesized speech or the like (step S213), and the process is terminated.
なお、図14に示すフローチャートでは、無条件に第1の動作区間および第2の動作区間が設定される例を示したが、応答遅延時間が短いほど複数の動作を行うことは困難となるので、一定の条件を課すこともできる。例えば、ステップS204で予測された応答遅延時間が所定の閾値、例えば5秒以上であるか否かを判定する。このとき、応答遅延時間が閾値以上である場合に絞ってステップS205以降の処理を実行する一方で、応答遅延時間が閾値未満である場合、上記の実施例1で図9を用いて説明したステップS105以降の処理を実行することもできる。 Although the flowchart shown in FIG. 14 shows an example in which the first operation interval and the second operation interval are set unconditionally, the shorter the response delay time, the more difficult it becomes to perform multiple operations. , can also impose certain conditions. For example, it is determined whether or not the response delay time predicted in step S204 is equal to or greater than a predetermined threshold value, for example, 5 seconds. At this time, when the response delay time is equal to or greater than the threshold value, the processing from step S205 onwards is executed. The processing after S105 can also be executed.
[効果の一側面]
上述してきたように、本実施例に係るコミュニケーションロボット2によれば、上記の実施例1に係るコミュニケーションロボット1と同様、ロボットの応答遅延時のインタラクションに発生する違和感を抑制することが可能である。
[One aspect of the effect]
As described above, according to the
さらに、本実施例に係るコミュニケーションロボット2では、応答遅延時間に基づいて第1の動作区間および第2の動作区間を設定する。その上で、本実施例に係るコミュニケーションロボット2では、第1の動作区間の区間長に対応する動作を第1のフィラー動作として決定する。さらに、本実施例に係るコミュニケーションロボット2では、応答出力の動作の割込み時に動作が中断、あるいは継続されても違和感が少ない動作を第2のフィラー動作として決定する。それ故、応答遅延時間の予測値および応答遅延時間の実績値にずれが発生する場合でも、フィラー動作から応答出力の動作へつなげる際の違和感を軽減することが可能である。
Furthermore, in the
さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。 Although embodiments of the disclosed apparatus have been described so far, the present invention may be embodied in various forms other than the embodiments described above. Therefore, other embodiments included in the present invention will be described below.
[応答遅延時間1]
上記の実施例1および上記の実施例2では、応答遅延時間の予測に発話時間を用いる例を説明したが、発話時間に限定されず、他の情報を用いることができる。例えば、コミュニケーションロボット1及び2は、発話区間から音声認識により得られたテキストにおけるモーラや音素の数の他、テキストにおける表音文字の数、テキストに対する自然言語処理、例えば形態素解析で得られた単語の数などを応答遅延時間の予測に用いることができる。これらモーラ数、音素数、表音文字数、単語数のいずれの数値を用いる場合においても、数値が大きいほど翻訳処理の所要時間も長くなる。このため、図7に示すルックアップテーブル13Aに準拠して、数値が小さいほど短い応答遅延時間を予測し、数値が大きいほど長い応答遅延時間を予測するルックアップテーブルや関数などを用いて、応答遅延時間を予測することができる。
[Response delay time 1]
In the first embodiment and the second embodiment described above, an example in which the speech time is used to predict the response delay time has been described, but the information is not limited to the speech time, and other information can be used. For example, the
[応答遅延時間2]
例えば、コミュニケーションロボット1及び2は、応答遅延時間の実測値に基づいて応答遅延時間の予測値を更新することもできる。すなわち、コミュニケーションロボット1及び2は、図9や図14に示す処理が実行されるバックグラウンドにおいて、情報入力から応答出力までの応答遅延時間を実測値として計測する。このような応答遅延時間の一例として、上記の実施例1及び上記の実施例2の例で従えば、発話区間が検出されてからテキストの翻訳結果が出力されるまでの期間が挙げられる。その上で、コミュニケーションロボット1及び2は、当該実績値と当該実測値が計測された時の発話時間が対応付けられたログを蓄積する。このログを参照して、コミュニケーションロボット1及び2は、ルックアップテーブル13Aに含まれるレコードごとに、次のような処理を実行する。すなわち、コミュニケーションロボット1及び2は、上記のログに含まれる応答遅延時間の実測値のうち当該レコードの発話時間に対応する応答遅延時間の実測値と、レコード内の応答遅延時間の予測値との間でずれを算出する。このように算出されたずれの統計値、例えば最頻値や中央値、平均値を求め、コミュニケーションロボット1及び2は、ずれの統計値に基づいて当該レコードの応答遅延時間の予測値を更新する。例えば、予測値から実測値を減算することによりずれが算出される場合、ずれの統計値の符号が正であるならば、予測値からずれの統計値を減算する更新を実行する一方で、ずれの統計値の符号が負であるならば、予測値にずれの統計値を加算する更新を実行する。
[Response delay time 2]
For example, the
[応答遅延時間3]
上記の実施例1および上記の実施例2では、情報処理の一例として実行される翻訳処理による応答遅延時間を発話時間から動的に予測し、これ以外の応答遅延の要因、例えばネットワークや駆動については一定値を静的に含めて加味する例を説明した。しかしながら、上記の実施例1および上記の実施例2で示された例に限定されず、応答遅延の要因ごとに応答遅延時間を動的に予測することもできる。例えば、コミュニケーションロボット1又は2は、PING等のコマンドを用いてサーバ装置50の応答時間を測定してその応答時間からネットワークに関する応答遅延時間を個別に予測することができる。また、コミュニケーションロボット1又は2は、各部位のアクチュエータへ送信する制御信号の伝送時間から駆動に関する応答遅延時間を予測することができる。
[Response delay time 3]
In the above-described first embodiment and the above-described second embodiment, as an example of information processing, the response delay time due to translation processing executed as an example of information processing is dynamically predicted from the utterance time. described an example of adding a constant value statically. However, the present invention is not limited to the examples shown in the above first and second embodiments, and it is also possible to dynamically predict the response delay time for each factor of response delay. For example, the
[スタンドアローン]
上記の実施例1および上記の実施例2では、コミュニケーションロボット1及び2がサーバ装置50により提供されるプラットフォームを利用する例を説明したが、コミュニケーションロボット1又は2は、スタンドアローンで情報処理を実行することとしてもかまわない。図15は、実施例3に係るコミュニケーションロボット4の機能的構成の一例を示すブロック図である。図15に示すように、コミュニケーションロボット4は、図3に示すコミュニケーションロボット1および図10に示すコミュニケーションロボット2に比べて、通信部9Cが不要であると共に、制御部40の機能の一部が異なる。すなわち、コミュニケーションロボット4は、音声処理部11や伝送処理部12の代わりに、音声区間検出部41、音声認識部42および翻訳部43を有する点が異なる。このように発話区間の検出、音声認識、自然言語処理および機械翻訳の全てがコミュニケーションロボット4により実行される場合、ネットワークの伝送遅延が発生する代わりに、音声処理の所要時間が変わる。例えば、音声区間検出部41、音声認識部42および翻訳部43による音声処理がコミュニケーションロボット1又は2の側で実行される分、音声処理の所要時間が増加する。このように音声処理の所要時間が増加する程度は、コミュニケーションロボット4のプロセッサ及びメモリ等のマシンパワーによって変化する。このため、コミュニケーションロボット4の予測部13が用いるルックアップテーブル13Aにおける応答遅延時間の予測値には、音声区間検出部41、音声認識部42および翻訳部43による翻訳処理の所要時間に基づく値が設定される。この際、コミュニケーションロボット4のプロセッサ及びメモリ等の性能の高低に応じて応答遅延時間の予測値を変化させることができる。
[Standalone]
In the first embodiment and the second embodiment, the
[コミュニケーションロボットの情報処理]
上記の実施例1および上記の実施例2では、発話区間の検出、音声認識、自然言語処理および機械翻訳等の音声処理が情報処理として実行される例を挙げたが、コミュニケーションロボット1又は2が実行する情報処理は音声処理に限定されない。例えば、コミュニケーションロボット1、2又は4は、画像を入力とし、他の情報処理、例えば画像処理、例えば顔認識や表情認識などを実行することとしてもかまわない。この場合、画像処理の所要時間から応答遅延時間を予測することとすればよい。
[Information processing of communication robot]
In the above-described first embodiment and the above-described second embodiment, examples were given in which voice processing such as detection of utterance intervals, voice recognition, natural language processing, and machine translation were executed as information processing. The information processing to be executed is not limited to voice processing. For example, the
[分散および統合]
また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されておらずともよい。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、音声処理部11、伝送処理部12、予測部13、決定部14または動作制御部15をコミュニケーションロボット1の外部装置としてネットワーク経由で接続するようにしてもよい。また、音声処理部11、伝送処理部12、予測部13、設定部21、決定部22または動作制御部15をコミュニケーションロボット2の外部装置としてネットワーク経由で接続するようにしてもよい。また、音声区間検出部41、音声認識部42、翻訳部43、予測部13、設定部21、決定部22または動作制御部15をコミュニケーションロボット4の外部装置としてネットワーク経由で接続するようにしてもよい。また、音声処理部11、伝送処理部12、予測部13、決定部14または動作制御部15を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のコミュニケーションロボット1の機能を実現するようにしてもよい。また、音声処理部11、伝送処理部12、予測部13、設定部21、決定部22または動作制御部15を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のコミュニケーションロボット2の機能を実現するようにしてもよい。また、音声区間検出部41、音声認識部42、翻訳部43、予測部13、設定部21、決定部22または動作制御部15を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記のコミュニケーションロボット4の機能を実現するようにしてもよい。
Distributed and integrated
Also, each component of each illustrated device may not necessarily be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured. For example, the voice processing unit 11, the transmission processing unit 12, the prediction unit 13, the determination unit 14, or the motion control unit 15 may be connected as external devices of the
[制御プログラム]
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図16を用いて、上記の実施例と同様の機能を有する制御プログラムを実行するコンピュータの一例について説明する。
[Control program]
Moreover, various processes described in the above embodiments can be realized by executing a prepared program on a computer such as a personal computer or a work station. Therefore, an example of a computer that executes a control program having functions similar to those of the above embodiment will be described below with reference to FIG.
図16は、実施例1~実施例3に係る制御プログラムを実行するコンピュータのハードウェア構成例を示す図である。図16に示すように、コンピュータ100は、操作部110aと、スピーカ110bと、カメラ110cと、ディスプレイ120と、通信部130とを有する。さらに、このコンピュータ100は、CPU150と、ROM160と、HDD170と、RAM180とを有する。これら110~180の各部はバス140を介して接続される。
FIG. 16 is a diagram illustrating a hardware configuration example of a computer that executes control programs according to the first to third embodiments. As shown in FIG. 16, the
HDD170には、図16に示すように、上記の実施例1で示した音声処理部11、伝送処理部12、予測部13、決定部14及び動作制御部15と同様の機能を発揮する制御プログラム170aが記憶される。また、HDD170には、上記の実施例2で示した音声処理部11、伝送処理部12、予測部13、設定部21、決定部22及び動作制御部15と同様の機能を発揮する制御プログラム170aが記憶されることとしてもよい。また、HDD170には、本実施例で示した音声区間検出部41、音声認識部42、翻訳部43、予測部13、設定部21、決定部22及び動作制御部15と同様の機能を発揮する制御プログラム170aが記憶されることとしてもよい。このような制御プログラム170aは、図3に示した制御部10、図10に示した制御部20または図15に示した制御部40の各構成要素と同様、統合又は分離してもかまわない。すなわち、HDD170には、必ずしも上記の実施例1で示した全てのデータが格納されずともよく、処理に用いるデータがHDD170に格納されればよい。
As shown in FIG. 16, the HDD 170 stores a control program that exhibits the same functions as the audio processing unit 11, the transmission processing unit 12, the prediction unit 13, the determination unit 14, and the operation control unit 15 shown in the first embodiment. 170a is stored. The HDD 170 also contains a
このような環境の下、CPU150は、HDD170から制御プログラム170aを読み出した上でRAM180へ展開する。この結果、制御プログラム170aは、図16に示すように、制御プロセス180aとして機能する。この制御プロセス180aは、RAM180が有する記憶領域のうち制御プロセス180aに割り当てられた領域にHDD170から読み出した各種データを展開し、この展開した各種データを用いて各種の処理を実行する。例えば、制御プロセス180aが実行する処理の一例として、図9や図14に示す処理などが含まれる。なお、CPU150では、必ずしも上記の実施例1で示した全ての処理部が動作せずともよく、実行対象とする処理に対応する処理部が仮想的に実現されればよい。
Under such an environment, the CPU 150 reads out the
なお、上記の制御プログラム170aは、必ずしも最初からHDD170やROM160に記憶されておらずともかまわない。例えば、コンピュータ100に挿入されるフレキシブルディスク、いわゆるFD、CD-ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に制御プログラム170aを記憶させる。そして、コンピュータ100がこれらの可搬用の物理媒体から制御プログラム170aを取得して実行するようにしてもよい。また、公衆回線、インターネット、LAN、WANなどを介してコンピュータ100に接続される他のコンピュータまたはサーバ装置などに制御プログラム170aを記憶させておき、コンピュータ100がこれらから制御プログラム170aを取得して実行するようにしてもよい。
Note that the
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。 The following notes are further disclosed with respect to the embodiments including the above examples.
(付記1)コミュニケーションロボットに対して入力された情報に基づいて、前記情報が入力されたタイミングから前記コミュニケーションロボットにより応答を出力するまでの応答遅延時間長を予測する予測部と、
予測された応答遅延時間長に対応する前記コミュニケーションロボットの動作を決定する決定部と、
決定した前記動作を前記コミュニケーションロボットに実行させる動作制御部と、
を有することを特徴とするコミュニケーションロボット。
(Appendix 1) a prediction unit that predicts, based on information input to a communication robot, a response delay time length from the timing at which the information is input until the communication robot outputs a response;
a determination unit that determines an operation of the communication robot corresponding to the predicted response delay time length;
a motion control unit that causes the communication robot to execute the determined motion;
A communication robot characterized by having
(付記2)前記決定部は、前記応答遅延時間長の予測値が長いほど前記コミュニケーションロボットのシルエットの変化が大きい動作を実行対象として決定することを特徴とする付記1に記載のコミュニケーションロボット。
(Supplementary note 2) The communication robot according to
(付記3)前記決定部は、前記予測された応答遅延時間長の経過後に、前記コミュニケーションロボットにより応答が出力できない場合、決定された動作よりも短時間の動作を更に実行対象として決定することを特徴とする付記1に記載のコミュニケーションロボット。
(Appendix 3) When the communication robot is unable to output a response after the predicted response delay time length has elapsed, the determination unit further determines a motion that is shorter than the determined motion to be executed. A communication robot according to
(付記4)前記予測部は、前記情報の量に基づいて前記応答遅延時間長を予測することを特徴とする付記1に記載のコミュニケーションロボット。
(Appendix 4) The communication robot according to
(付記5)前記予測部は、前記情報の量および応答遅延時間長の予測値の対応関係が定義された対応関係データを参照して、前記コミュニケーションロボットに入力される情報の量に対応する前記応答遅延時間長の予測値を予測に用いることを特徴とする付記4に記載のコミュニケーションロボット。
(Supplementary Note 5) The prediction unit refers to correspondence relationship data that defines a correspondence relationship between the amount of information and the predicted value of the response delay time length, and determines the amount of information input to the communication robot. 5. The communication robot according to
(付記6)前記対応関係データに含まれる前記応答遅延時間長の予測値を前記応答遅延時間長の実測値に基づいて更新する更新部をさらに有することを特徴とする付記5に記載のコミュニケーションロボット。
(Appendix 6) The communication robot according to
(付記7)前記予測部により予測された応答遅延時間長に基づいて第1の動作区間および第2の動作区間を設定する設定部をさらに有し、
前記決定部は、前記第1の動作区間の区間長に対応する動作を前記第1の動作区間で実行することを決定すると共に、前記コミュニケーションロボットと前記情報の入力を行う対象者との目線が合った状態で行われる動作を前記第2の動作区間で実行することを決定することを特徴とする付記1に記載のコミュニケーションロボット。
(Appendix 7) further comprising a setting unit that sets a first operation interval and a second operation interval based on the response delay time length predicted by the prediction unit;
The decision unit decides to execute an action corresponding to the section length of the first action section in the first action section, and the line of sight between the communication robot and the target person who inputs the information is determined. 1. The communication robot according to
(付記8)前記第2の動作区間は、前記応答遅延時間長の予測値の経過時点を含むことを特徴とする付記7に記載のコミュニケーションロボット。 (Supplementary note 8) The communication robot according to Supplementary note 7, wherein the second operation section includes a point in time when the predicted value of the response delay time length has passed.
(付記9)コミュニケーションロボットに対して入力された情報に基づいて、前記情報が入力されたタイミングから前記コミュニケーションロボットにより応答を出力するまでの応答遅延時間長を予測し、
予測された応答遅延時間長に対応する前記コミュニケーションロボットの動作を決定し、
決定した前記動作を前記コミュニケーションロボットに実行させる、
処理をコンピュータが実行することを特徴とする制御方法。
(Appendix 9) predicting a response delay time length from the timing when the information is input until the communication robot outputs a response based on the information input to the communication robot;
determining the operation of the communication robot corresponding to the predicted response delay time length;
causing the communication robot to execute the determined action;
A control method characterized in that the processing is executed by a computer.
(付記10)前記決定する処理は、前記応答遅延時間長の予測値が長いほど前記コミュニケーションロボットのシルエットの変化が大きい動作を実行対象として決定することを特徴とする付記9に記載の制御方法。 (Supplementary note 10) The control method according to Supplementary note 9, wherein the determining process determines an action to be executed that causes a greater change in the silhouette of the communication robot as the predicted value of the response delay time length increases.
(付記11)前記決定する処理は、前記予測された応答遅延時間長の経過後に、前記コミュニケーションロボットにより応答が出力できない場合、決定された動作よりも短時間の動作を更に実行対象として決定することを特徴とする付記9に記載の制御方法。 (Appendix 11) In the determining process, when the communication robot cannot output a response after the predicted response delay time length has elapsed, a motion shorter than the determined motion is further determined as an execution target. The control method according to appendix 9, characterized by:
(付記12)前記予測する処理は、前記情報の量に基づいて前記応答遅延時間長を予測することを特徴とする付記9に記載の制御方法。 (Appendix 12) The control method according to appendix 9, wherein the predicting process predicts the response delay time length based on the amount of information.
(付記13)前記予測する処理は、前記情報の量および応答遅延時間長の予測値の対応関係が定義された対応関係データを参照して、前記コミュニケーションロボットに入力される情報の量に対応する前記応答遅延時間長の予測値を予測に用いることを特徴とする付記12に記載の制御方法。 (Appendix 13) The process of predicting corresponds to the amount of information input to the communication robot by referring to correspondence data that defines the correspondence between the amount of information and the predicted value of the response delay time length. 13. The control method according to appendix 12, wherein the predicted value of the response delay time length is used for the prediction.
(付記14)前記対応関係データに含まれる前記応答遅延時間長の予測値を前記応答遅延時間長の実測値に基づいて更新する処理を前記コンピュータがさらに実行することを特徴とする付記13に記載の制御方法。 (Supplementary note 14) The computer according to Supplementary note 13, wherein the computer further executes a process of updating the predicted value of the response delay time length included in the correspondence data based on the measured value of the response delay time length. control method.
(付記15)前記予測された応答遅延時間長に基づいて第1の動作区間および第2の動作区間を設定する処理を前記コンピュータがさらに実行し、
前記決定する処理は、前記第1の動作区間の区間長に対応する動作を前記第1の動作区間で実行することを決定すると共に、前記コミュニケーションロボットと前記情報の入力を行う対象者との目線が合った状態で行われる動作を前記第2の動作区間で実行することを決定することを特徴とする付記9に記載の制御方法。
(Appendix 15) The computer further executes a process of setting a first operation interval and a second operation interval based on the predicted response delay time length,
The determining process determines that an action corresponding to the section length of the first action section is to be executed in the first action section, and the line of sight between the communication robot and the target person who inputs the information. 10. The control method according to claim 9, wherein it is determined to perform an action performed in a state where the two are matched in the second action section.
(付記16)前記第2の動作区間は、前記応答遅延時間長の予測値の経過時点を含むことを特徴とする付記15に記載の制御方法。 (Supplementary note 16) The control method according to Supplementary note 15, wherein the second operation interval includes a point in time at which the predicted value of the response delay time length has elapsed.
(付記17)コミュニケーションロボットに対して入力された情報に基づいて、前記情報が入力されたタイミングから前記コミュニケーションロボットにより応答を出力するまでの応答遅延時間長を予測し、
予測された応答遅延時間長に対応する動作を決定し、
決定した前記動作を前記コミュニケーションロボットに実行させる、
処理をコンピュータに実行させることを特徴とする制御プログラム。
(Appendix 17) Predicting a response delay time length from the timing when the information is input until the communication robot outputs a response based on the information input to the communication robot,
determine the action corresponding to the predicted response delay time length,
causing the communication robot to execute the determined action;
A control program that causes a computer to execute processing.
(付記18)前記決定する処理は、前記応答遅延時間長の予測値が長いほど前記コミュニケーションロボットのシルエットの変化が大きい動作を実行対象として決定することを特徴とする付記17に記載の制御プログラム。 (Supplementary note 18) The control program according to Supplementary note 17, wherein the determining process determines an action to be executed in which the silhouette of the communication robot changes more as the predicted value of the response delay time length increases.
(付記19)前記決定する処理は、前記予測された応答遅延時間長の経過後に、前記コミュニケーションロボットにより応答が出力できない場合、決定された動作よりも短時間の動作を更に実行対象として決定することを特徴とする付記17に記載の制御プログラム。 (Appendix 19) In the determining process, when the communication robot cannot output a response after the predicted response delay time length has elapsed, a motion shorter than the determined motion is further determined as an execution target. The control program according to appendix 17, characterized by:
(付記20)前記予測する処理は、前記情報の量に基づいて前記応答遅延時間長を予測することを特徴とする付記17に記載の制御プログラム。 (Appendix 20) The control program according to appendix 17, wherein the predicting process predicts the response delay time length based on the amount of information.
1 コミュニケーションロボット
3 頭部
5 胴部
7R 右腕部
7L 左腕部
9A 音入力部
9B 音出力部
9C 通信部
9M モータ
10 制御部
11 音声処理部
12 伝送処理部
13 予測部
14 決定部
15 動作制御部
50 サーバ装置
1
Claims (7)
予測された応答遅延時間長に対応する、前記コミュニケーションロボットの身体の駆動であるフィラー動作を決定する決定部と、
決定したフィラー動作が実行される前の元の姿勢が前記フィラー動作によって変化し、前記フィラー動作の完了後に前記元の姿勢に復帰するまでの時間と、前記応答遅延時間とを一致させるように、前記フィラー動作を前記コミュニケーションロボットに実行させる動作制御部と、
を有することを特徴とするコミュニケーションロボット。 a prediction unit that predicts, based on information input to a communication robot, a response delay time length from the timing at which the information is input until the communication robot outputs a response;
a determination unit that determines a filler motion, which is a body drive of the communication robot , corresponding to the predicted response delay time length;
The original posture before the determined filler motion is performed is changed by the filler motion, and the response delay time is matched with the time until the original posture is restored after the filler motion is completed, a motion control unit that causes the communication robot to perform the filler motion;
A communication robot characterized by having
予測された応答遅延時間長に対応する、前記コミュニケーションロボットの身体の駆動であるフィラー動作を決定し、
決定したフィラー動作が実行される前の元の姿勢が前記フィラー動作によって変化し、前記フィラー動作の完了後に前記元の姿勢に復帰するまでの時間と、前記応答遅延時間とを一致させるように、前記フィラー動作を前記コミュニケーションロボットに実行させる、
処理をコンピュータが実行することを特徴とする制御方法。 Predicting a response delay time length from the timing when the information is input until the communication robot outputs a response based on the information input to the communication robot;
Determining a filler motion, which is a body drive of the communication robot , corresponding to the predicted response delay time length,
The original posture before the determined filler motion is performed is changed by the filler motion, and the response delay time is matched with the time until the original posture is restored after the filler motion is completed, causing the communication robot to perform the filler operation;
A control method characterized in that the processing is executed by a computer.
予測された応答遅延時間長に対応する、前記コミュニケーションロボットの身体の駆動であるフィラー動作を決定し、
決定したフィラー動作が実行される前の元の姿勢が前記フィラー動作によって変化し、前記フィラー動作の完了後に前記元の姿勢に復帰するまでの時間と、前記応答遅延時間とを一致させるように、前記フィラー動作を前記コミュニケーションロボットに実行させる、
処理をコンピュータに実行させることを特徴とする制御プログラム。 Predicting a response delay time length from the timing when the information is input until the communication robot outputs a response based on the information input to the communication robot;
Determining a filler motion, which is a body drive of the communication robot , corresponding to the predicted response delay time length,
The original posture before the determined filler motion is performed is changed by the filler motion, and the response delay time is matched with the time until the original posture is restored after the filler motion is completed, causing the communication robot to perform the filler operation;
A control program that causes a computer to execute processing.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018182049A JP7225642B2 (en) | 2018-09-27 | 2018-09-27 | Communication robot, control method and control program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018182049A JP7225642B2 (en) | 2018-09-27 | 2018-09-27 | Communication robot, control method and control program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020049596A JP2020049596A (en) | 2020-04-02 |
| JP7225642B2 true JP7225642B2 (en) | 2023-02-21 |
Family
ID=69995107
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018182049A Active JP7225642B2 (en) | 2018-09-27 | 2018-09-27 | Communication robot, control method and control program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7225642B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2021210098A1 (en) * | 2020-04-15 | 2021-10-21 | 日本電信電話株式会社 | Conversion method, conversion device, and program |
| KR102408998B1 (en) * | 2020-10-21 | 2022-06-16 | 한국과학기술연구원 | Robot behavior control system for managing response delay |
| CN114711817A (en) * | 2022-04-07 | 2022-07-08 | 武汉库柏特科技有限公司 | Ultrasonic scanning robot collision time testing device, using method and equipment |
Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20100153317A1 (en) | 2008-12-11 | 2010-06-17 | Samsung Electronics Co., Ltd | Intelligent robot and control method thereof |
| JP2011000681A (en) | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | Communication robot |
| JP2013132748A (en) | 2011-12-23 | 2013-07-08 | Samsung Electronics Co Ltd | Moving device and method for recognizing position of the same |
| WO2016072116A1 (en) | 2014-11-07 | 2016-05-12 | ソニー株式会社 | Control system, control method, and storage medium |
| JP2016126293A (en) | 2015-01-08 | 2016-07-11 | シャープ株式会社 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
| JP2017204231A (en) | 2016-05-13 | 2017-11-16 | 富士通株式会社 | Information processing apparatus, information processing method, and information processing program |
| WO2018163648A1 (en) | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | Dialogue system, dialogue method, dialogue device, and program |
-
2018
- 2018-09-27 JP JP2018182049A patent/JP7225642B2/en active Active
Patent Citations (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20100153317A1 (en) | 2008-12-11 | 2010-06-17 | Samsung Electronics Co., Ltd | Intelligent robot and control method thereof |
| JP2011000681A (en) | 2009-06-19 | 2011-01-06 | Advanced Telecommunication Research Institute International | Communication robot |
| JP2013132748A (en) | 2011-12-23 | 2013-07-08 | Samsung Electronics Co Ltd | Moving device and method for recognizing position of the same |
| WO2016072116A1 (en) | 2014-11-07 | 2016-05-12 | ソニー株式会社 | Control system, control method, and storage medium |
| JP2016126293A (en) | 2015-01-08 | 2016-07-11 | シャープ株式会社 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
| JP2017204231A (en) | 2016-05-13 | 2017-11-16 | 富士通株式会社 | Information processing apparatus, information processing method, and information processing program |
| WO2018163648A1 (en) | 2017-03-10 | 2018-09-13 | 日本電信電話株式会社 | Dialogue system, dialogue method, dialogue device, and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020049596A (en) | 2020-04-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6818280B2 (en) | Dialogue system, dialogue method, dialogue device, and program | |
| WO2022048403A1 (en) | Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal | |
| US20200279553A1 (en) | Linguistic style matching agent | |
| JP6719739B2 (en) | Dialogue method, dialogue system, dialogue device, and program | |
| EP4435710A1 (en) | Method and device for providing interactive avatar service | |
| JP7225642B2 (en) | Communication robot, control method and control program | |
| US20240078731A1 (en) | Avatar representation and audio generation | |
| KR20190091300A (en) | Animated Character Head Systems and Methods | |
| KR102116315B1 (en) | System for synchronizing voice and motion of character | |
| JP6583765B2 (en) | Agent dialogue system and program | |
| US20240078732A1 (en) | Avatar facial expressions based on semantical context | |
| KR20230111480A (en) | Method and apparatus for providing interactive avatar services | |
| US20240221260A1 (en) | End-to-end virtual human speech and movement synthesization | |
| Liu et al. | Generation of nodding, head tilting and gazing for human–robot speech interaction | |
| KR20240038941A (en) | Method and system for generating avatar based on text | |
| WO2011083978A2 (en) | System and method for providing utterances and emotional expressions of a character | |
| JP2008125815A (en) | Conversation robot system | |
| JP7286303B2 (en) | Conference support system and conference robot | |
| JPH09269889A (en) | Dialogue device | |
| US12002487B2 (en) | Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy | |
| JP2008107673A (en) | Conversation robot | |
| JP2024148555A (en) | Information presentation system, program and robot | |
| JP2020006482A (en) | Android gesture generation device and computer program | |
| JP7714731B1 (en) | Data processing device, data processing method, and data processing program | |
| AlTarawneh | A cloud-based extensible avatar for human robot interaction |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210610 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220330 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220516 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230110 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230123 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7225642 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |