WO2019235135A1

WO2019235135A1 - タスク対応情報の表示位置を変更する情報処理装置

Info

Publication number: WO2019235135A1
Application number: PCT/JP2019/018770
Authority: WO
Inventors: 悟士尾崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-06-07
Filing date: 2019-05-10
Publication date: 2019-12-12
Anticipated expiration: 2020-12-07
Also published as: US20210217412A1

Abstract

ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法を実現する。撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。

Description

[規則37.2に基づきISAが決定した発明の名称]　タスク対応情報の表示位置を変更する情報処理装置

　本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。

　昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
　この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
　例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
　システム発話＝「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
　このようなシステム発話を出力する。

　このような音声認識を行う機器として、スマートフォン等のモバイル機器、スマートスピーカー、エージェント機器、サイネージ機器等がある。
　スマートスピーカー、エージェント機器、サイネージ機器等を利用した構成では、これらの機器の周囲に多くの人がいる場合が多い。
　音声認識機器は、機器に対する発話者（発話ユーザ）を特定し、その発話者の求めるサービスを提供すること、具体的には例えば発話者の求める表示情報を表示する等の処理が必要となる。

　発話者の求める表示情報の表示処理を開示した従来技術として、例えば特許文献１（特開２０００－１８７５５３号公報）がある。この文献は、カメラ等によって撮影された画像から発話者の注視位置を検出して、検出結果に基づいて表示情報を制御する構成を開示している。

　しかし、例えば、エージェント機器の前に複数のユーザがおり、これらのユーザがそれぞれ異なる情報提示を機器に求めているような状況では、各ユーザの興味がどの情報に向けられているのかを判別して提供情報の制御を行う必要がある。上記の従来技術を適用してもこのような制御は困難である。

特開２０００－１８７５５３号公報

　本開示は、例えば、上記問題点に鑑みてなされたものであり、ユーザの注目情報を解析して、解析結果に基づく表示情報の制御を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　さらに、本開示の一実施例においては、複数のユーザがいる場合においても、各ユーザの注目情報を解析して、解析結果に基づく表示情報の制御を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。

　本開示の第１の側面は、
　音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
　撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
　前記タスク制御・実行部は、
　ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置にある。

　さらに、本開示の第２の側面は、
　情報処理端末とサーバを有する情報処理システムであり、
　前記情報処理端末は、
　音声入力部と、撮像部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末のタスク制御・実行部は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システムにある。

　さらに、本開示の第３の側面は、
　情報処理装置において実行する情報処理方法であり、
　音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
　画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
　タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法にある。

　さらに、本開示の第４の側面は、
　情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記情報処理端末は、
　音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法にある。

　さらに、本開示の第５の側面は、
　情報処理装置において情報処理を実行させるプログラムであり、
　音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
　画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
　タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラムにある。

　なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。

　本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　本開示の一実施例の構成によれば、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
　具体的には、例えば、撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。
　本構成により、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
　なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。

ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。情報処理装置の構成例と利用例について説明する図である。本開示の情報処理装置の構成例について説明する図である。本開示の情報処理装置の構成例について説明する図である。ユーザ情報データベース（ＤＢ）の格納データの一例について説明する図である。本開示の情報処理装置の構成例について説明する図である。タスク情報データベース（ＤＢ）の格納データの一例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。本開示の情報処理装置の実行する処理の具体例について説明する図である。情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。情報処理システムの構成例について説明する図である。情報処理装置のハードウェア構成例について説明する図である。

　以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
　１．情報処理装置の実行する処理の概要について
　２．情報処理装置の構成例について
　３．情報処理装置の実行する具体的な処理例について
　４．ユーザの注目タスクを判定してタスク制御を行う構成について
　５．タスク制御・実行部による実行タスクの情報更新処理例
　６．情報処理装置の実行する処理のシーケンスについて
　７．情報処理装置、および情報処理システムの構成例について
　８．情報処理装置のハードウェア構成例について
　９．本開示の構成のまとめ

　　［１．情報処理装置の実行する処理の概要について］
　まず、図１以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。

　図１は、発話者１の発するユーザ発話を認識して応答を行う情報処理装置１０の一処理例を示す図である。
　情報処理装置１０は、発話者１のユーザ発話、例えば、
　ユーザ発話＝「大阪の明日、午後の天気を教えて」
　このユーザ発話の音声認識処理を実行する。

　さらに、情報処理装置１０は、ユーザ発話の音声認識結果に基づく処理を実行する。
　図１に示す例では、ユーザ発話＝「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答を、スピーカー１４を介して出力する。
　図１に示す例では、情報処理装置１０は、天気情報を示す画像表示を行うとともに、以下のシステム応答を行っている。
　システム応答＝「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
　情報処理装置１０は、音声合成処理（ＴＴＳ：Ｔｅｘｔ　Ｔｏ　Ｓｐｅｅｃｈ）を実行して上記のシステム応答を生成して出力する。

　情報処理装置１０は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
　図１に示す情報処理装置１０は、撮像部１１、マイク１２、表示部１３、スピーカー１４を有しており、音声入出力と画像入出力が可能な構成を有する。

　撮像部１１は、例えば、ほぼ周囲３６０°の画像を撮影可能な全方位カメラである。また、マイク１２は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
　表示部１３は、図に示す例ではプロジェクタ型の表示部を用いた例を示している。ただし、表示部１３は、ディスプレイ型の表示部としてもよいし、あるいは情報処理装置１０に接続されたＴＶ、ＰＣ等の表示部に表示情報を出力する構成としてもよい、

　図１に示す情報処理装置１０は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
　本開示の情報処理装置１０は、図２に示すように、エージェント機器１０ａに限らず、スマホ１０ｂやＰＣ１０ｃ等、あるいは公共の場所に設置されたサイネージ機器のような様々な装置形態とすることが可能である。

　情報処理装置１０は、発話者１の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図２に示すテレビ、エアコン等の外部機器３０の制御も実行する。
　例えばユーザ発話が「テレビのチャンネルを１に変えて」、あるいは「エアコンの設定温度を２０度にして」といった要求である場合、情報処理装置１０は、このユーザ発話の音声認識結果に基づいて、外部機器３０に対して制御信号（Ｗｉ－Ｆｉ、赤外光など）を出力して、ユーザ発話に従った制御を実行する。

　なお、情報処理装置１０は、ネットワークを介してサーバ２０と接続され、サーバ２０から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。

　　［２．情報処理装置の構成例について］
　次に、図３を参照して、情報処理装置の具体的な構成例について説明する。
　図３には、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置１００の外観構成と、内部構成を示すブロック図を示している。
図３に示す情報処理装置１００は図１に示す情報処理装置１０に相当する。

　図３に示すように、情報処理装置１００は、音声入力部１０１、撮像部１０２、音声認識部１１０、画像解析部１２０、ユーザ情報ＤＢ１３１、タスク制御・実行部１４０、タスク情報ＤＢ１５１、出力制御部１６１、音声出力部１６２、表示部１６３、通信部１７１を有する。通信部１７１は、ネットワーク１８０を介して外部装置、例えば様々な情報や、アプリケーションを提供するサーバ等との通信を行う。

　図３に示す情報処理装置１００の構成要素について説明する。
　音声入力部（マイク）１０１は、図１に示す情報処理装置１００のマイク１２に対応する。音声入力部（マイク）１０１は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
　撮像部１０２は、図１に示す情報処理装置１０の撮像部１１に対応する。例えば、ほぼ周囲３６０°の画像を撮影可能な全方位カメラである。

　音声出力部（スピーカー）１６２は、図１に示す情報処理装置１０のスピーカー１４に対応する。
　表示部１６３は、図１に示す情報処理装置１０の表示部１３に対応する。例えば、プロジェクタ等によって構成可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。図３左の外観構成図に示すように、表示部１６３は回転可能な構成を有し、プロジェクタによる表示位置を様々な方向に設定することができる。

　ユーザの発話音声はマイクなどの音声入力部１０１に入力される。
　音声入力部（マイク）１０１は、入力したユーザ発話音声を音声認識部１１０に入力する。
　撮像部１０２は、発話ユーザおよびその周囲の画像を撮影して、画像解析部１２０に入力する。
　画像解析部１２０は、発話ユーザやその他のユーザの顔を検出し、各ユーザの位置や視線方向、ユーザ識別等を実行する。
　音声認識部１１０と、画像解析部１２０の構成と処理については、図４を参照して詳細に説明する。

　図４に音声認識部１１０と、画像解析部１２０の詳細構成を示すブロック図を示す。
　図４に示すように、音声認識部１１０は、音声検出部１１１、音声方向推定部１１２、発話内容認認識部１１３を有する。
　画像解析部１２０は、顔検出部１２１、ユーザ位置推定部１２２、顔・視線方向推定部１２３、顔識別部１２４、属性判別処理部１２５を有する。

　まず、音声認識部１１０について説明する。音声検出部１１１は、音声入力部１０１から入力する様々な音から、人の発話であると推定される音声を検出して抽出する。
　音声方向推定部１１２は、発話を行ったユーザの方向、すなわち音声方向を推定する。前述したように、音声入力部（マイク）１０１は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。

　マイクロフォン・アレイの取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音源方向推定部１１２は、この複数マイクの取得音に基づいて音源方向を推定する。マイクロフォン・アレイを構成する各マイクは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなる。音声方向推定部１１２は、各マイクの取得した音声信号の位相差を解析することで、音源方向を求める。

　発話内容認認識部１１３は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。
　発話内容認認識部１１３は、例えば、ＮＬＵ（Ｎａｔｕｒａｌ　Ｌａｎｇｕａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ）等の自然言語理解機能を有し、テキストデータからユーザ発話の意図（インテント：Ｉｎｔｅｎｔ）や、発話に含まれる意味のある要素（有意要素）である実体情報（エンティティ：Ｅｎｔｉｔｙ）を推定する。

　具体例について説明する。例えば以下のユーザ発話が入力されたとする。
　ユーザ発話＝明日の大阪の午後の天気を教えて
　このユーザ発話の、
　意図（インテント）は、天気を知りたいであり、
　実体情報（エンティティ）は、大阪、明日、午後、これらのワードである。

　ユーザ発話から、意図（インテント）と、実体情報（エンティティ）を正確に推定、取得することができれば、ユーザ発話に対する正確な処理を行うことができる。
　例えば、上記の例では、明日の大阪の午後の天気を取得して、応答として出力することができる。

　音声方向推定部１１２において推定されたユーザ発話の音声方向情報と、発話内容認認識部１１３において解析されたユーザ発話の内容は、ユーザ情報ＤＢ１３１に格納される。
　ユーザ情報ＤＢ１３１の格納データの具体例については、後段で図５を参照して説明する。

　次に、画像解析部１２０の構成と処理について説明する。図４に示すように、画像解析部１２０は、顔検出部１２１、ユーザ位置推定部１２２、顔・視線方向推定部１２３、顔識別部１２４、属性判別処理部１２５を有する。

　顔検出部１２１は、撮像部１０２の撮影画像から人の顔領域を検出する。この処理は、例えば予め記憶部に登録された顔の特徴情報（パターン情報）との照合処理等の既存の手法を適用して行われる。ユーザ位置推定部１２２は、顔検出部１２１の検出した顔のある位置を推定する。画像中の顔の位置や大きさ等から情報処理装置からの距離と方向を算出してユーザの顔の位置を判定する。位置情報は例えば情報処理装置に対する相対位置情報である。なお、距離センサーや位置センサー等のセンサー情報を利用する構成としてもよい。

　顔・視線方向推定部１２３は、顔検出部１２１の検出した顔の向きや視線方向を推定する。顔の目の位置、目の瞳位置等を検出して、顔方向、視線方向を検出する。
　顔識別部１２４は、顔検出部１２１の検出した顔の各々に識別子（ＩＤ）を設定する。画像内に複数の顔が検出されている場合、それぞれを区別可能な固有識別子を設定する。なお、ユーザ情報ＤＢ１３１には、予め登録済みの顔情報が格納されており、この登録顔情報との比較照合処理によって一致する顔が識別された場合は、そのユーザ名（登録名）も識別する。

　属性属性判別処理部１２５は、顔識別部１２４において識別されたユーザ単位の属性情報、例えば年齢、性別等のユーザ属性情報を取得する。この属性取得処理は、撮影画像に基づいて、その属性、例えば大人か子供か、男性か女性か等の属性を推定することで実行可能である。また、顔識別部１２４において識別された顔がユーザ情報ＤＢ１３１に登録済みであり、そのユーザの属性情報がＤＢに記録済みの場合は、このＤＢ登録データを取得してもよい。

　画像解析部１２０の顔検出部１２１、ユーザ位置推定部１２２、顔・視線方向推定部１２３、顔識別部１２４、属性判別処理部１２５、これらの各構成部の取得自用法は、ユーザ情報ＤＢ１３１に登録される。

　ユーザ情報ＤＢ１３１の格納情報（ユーザ情報テーブル）の例を図５に示す。
　図５に示すように、ユーザ情報ＤＢ１３１には、ユーザＩＤ、ユーザ名、ユーザ位置、ユーザの顔（視線）方向、ユーザの年齢、ユーザの性別、ユーザの発話内容、ユーザが操作中のタスクのタスクＩＤが登録される。

　ユーザＩＤ、ユーザ名、ユーザ位置、ユーザの顔（視線）方向、ユーザの年齢、ユーザの性別、これらの情報は画像解析部１２０において取得される情報である。
　ユーザの発話内容は、音声認識部１１０が取得する情報である。ユーザが操作中のタスクのタスクＩＤは、タスク・制御・実行部１４０が登録する情報である。

　ユーザ位置（Ｘ，Ｙ，Ｚ）は、例えば情報処理装置１００内のある点を原点として情報処理装置１００の正面方向をＺ軸、左右方向をＸ軸、上下方向をＹ軸等と定義して算出したユーザの３次元座標位置である。
　ユーザの顔（視線）方向の登録データとして示す（θ，φ）は、例えば上記のＸＺ平面上において、撮像部１０２のカメラ方向と顔（視線）方向のなす角をθ、ＹＺ平面上において撮像部１０２のカメラ方向と顔（視線）方向のなす角をφとした角度データである。

　年齢や性別は顔画像から推定される情報でもよいし、ユーザ自身が別途入力した情報を利用出来るのであればそれらを使用してもよい。またユーザ情報ＤＢ１３１に登録済みのデータがあれば、そのデータを利用してもよい。
　発話内容は音声認識部１１０の音声認識結果が、ほぼリアルタイムで登録される。登録データは、ユーザの発話の進行に従って、順次更新される。例えば、ユーザ発話が、以下の発話である場合、
　ユーザ発話＝そっちの３番見せて
　このようなユーザ発話が入力される場合、ユーザ情報ＤＢ１３１の記録データは、以下のように時間経過に伴って更新される。
　「そっちの」→「そっちの３番」→「そっちの３番見せて」

　図３に戻り、情報処理装置１００の構成についての説明を続ける。
　ユーザ情報ＤＢ１３１には、図５を参照して説明した情報の他、予め登録されたユーザ情報、例えば顔画像、名前、その他の属性（年齢、性別等）がユーザＩＤに対応付けて格納されている。
　撮像部１０２の撮影画像から検出された顔が、登録済みの顔画像に一致する場合、この登録情報からユーザ属性を取得することが可能となる。

　タスク制御・実行部１４０は、情報処理装置１００において実行するタスクの制御を行う。
　タスクとは、情報処理装置１００において実行するタスクであり、例えば、以下のような様々なタスクがある。
　観光地検索タスク、
　レストラン検索タスク、
　天気情報提供タスク、
　交通情報提供タスク、
　音楽情報提供タスク、

　これらのタスクは、情報処理装置１００のタスク情報ＤＢ１５１に格納された情報やアプリケーションを利用して実行することも可能であるが、例えば外部の情報提供サーバ、アプリケーション実行サーバ等のサーバと通信部１７１、ネットワーク１８０を介した通信を行って、外部の情報（データやアプリケーション）を利用して行うことも可能である。
　なお、具体的なタスクの実行例については、後段で詳細に説明する。

　図６を参照して、タスク制御・実行部１４０の詳細構成例について説明する。図６に示すように、タスク制御・実行部１４０は、発話ユーザ特定部１４１、視認タスク特定部１４２、対象タスク実行部１４３、関連タスク更新部１４４、表示位置・形状決定部１４５を有する。

　発話ユーザ特定部１４１は、撮像部１０２の撮影画像に含まれる顔から、発話を行っているユーザの顔を特定する処理を行う。この処理は、ユーザ情報ＤＢ１３１に格納された発話内容に対応付けられたユーザ位置情報を利用して行われる。発話方向の推定情報を用いてその方向にある顔のユーザを特定する処理として実行してもよい。

　視認タスク特定部１４２は、撮像部１０２の撮影画像に含まれるユーザが見ている表示タスクを特定する処理を行う。この処理は、ユーザ情報ＤＢ１３１に格納されたユーザ位置情報と、顔（視線）方向情報を用いて実行される。表示部１６３には、例えば、
　観光地検索タスク、
　レストラン検索タスク、
　これらに２つのタスクが並んで表示されている場合がある。視認タスク特定部１４２は、撮像部１０２の撮影画像に含まれるユーザが見ているタスクが、これらどのタスクであるかを識別する。なお、具体例については後段で詳細に説明する。

　対象タスク実行部１４３は、例えば、ユーザの見ているタスク、あるいはユーザ発話に基づいて表示変更を行うタスクを特定して、そのタスクに関する処理を実行する。関連タスク更新部１４４は、例えば、実行中のタスクに関連するタスクの更新処理等を実行する。表示位置・形状決定部１４５は、表示部１６３に表示中のタスクの表示位置や形状を決定して、決定した位置、形状に表示情報を更新する。
　なお、これらの処理部の実行する処理の具体例については後段で詳細に説明する。

　タスク情報ＤＢ１５１は、情報処理装置１００において実行するタスクに関するデータ、例えば表示部１６３に表示するための情報やタスク実行のためのアプリケーション等が格納されている。
　さらに、現在実行中のタスクに関する情報（タスク情報テーブル）も格納される。

　タスク情報ＤＢ１５１に格納される現在実行中のタスクに関する情報（タスク情報テーブル）の一例を図７に示す。
　図７に示すように、現在実行中のタスクに関する情報（タスク情報テーブル）として、タスクＩＤ、タスク名、タスクデータ表示領域、タスクアイコン表示領域、関連タスクＩＤ、操作ユーザＩＤ、最終視認時刻、タスク固有情報、これらのデータが対応付けて記録される。
　図７の下部には、表示部１６３に表示された表示情報２００の一例としてのタスクデータ（観光地検索タスク）２０１、タスクアイコン２０２の表示例を示している。

　タスクＩＤ、タスク名は、表示部１６３に表示中のタスクのＩＤとタスク名である。タスクデータ表示領域、タスクアイコン表示領域は、表示部１６３に表示中のタスクのタスクデータの表示領域とタスクアイコンの表示領域を示すデータである。ｘ，ｙ，ｗ，ｈは例えば表示画面上のピクセル値であり、ピクセル（ｘ，ｙ）の位置から（ｗ，ｈ）ピクセルの幅、高さを持った領域を表す。

　関連タスクは、実行中のタスク、具体的には例えば表示部１６３に表示中のタスクに関連するタスクの情報である。例えば表示部１６３に並んで表示されているタスクのＩＤ等が記録される。操作ユーザＩＤには、表示部１６３に表示中のタスクに対する操作要求を実行しているユーザのユーザＩＤが記録される。最終視認時刻には、ユーザが表示部１６３に表示中のタスクを視認した最終時刻情報が記録される。タスク固有情報には、表示部１６３に表示中のタスクに関する固有情報が記録される。

　図３に戻り、情報処理装置１００のその他の構成について説明する。出力制御部１６１は、音声出力部１６２や表示部１６３を介して出力する音声、表示情報の制御を行う。音声出力部１６２を介して出力するシステム発話や、表示部１６３に出力するタスクデータ、タスクアイコンの表示制御等を実行する。

　音声出力部１６２はスピーカーであり、システム発話の音声を出力する。
　表示部１６３は、例えばプロジェクタ等を利用した表示部であり、様々なタスクデータ、タスクアイコン等を表示する。

　　［３．情報処理装置の実行する具体的な処理例について］
　次に、図８以下を参照して本開示の情報処理装置１００の実行する具体的な処理例について説明する。

　図８には、情報処理装置１００の前に２人のユーザＡ，３０１とユーザＢ，３０２がおり、ユーザＡ，３０１が、以下のユーザ発話を行った場合の処理例を示している。
　ユーザ発話＝江の島のおすすめ観光スポットは

　情報処理装置１００の音声認識部１１０は、このユーザ発話の音声認識処理を実行し、音声認識結果をユーザ情報ＤＢ１３１に格納する。
　タスク制御・実行部１４０は、ユーザ情報ＤＢ１３１に格納されたユーザ発話に基づいて、ユーザが江の島のおすすめ観光スポットに関する情報提示を要求していると判断し、観光地検索タスクを実行する。

　具体的には、例えばタスク情報ＤＢ１５１、あるいは外部の観光地情報提供サーバから取得した観光地情報検索アプリケーションを実行して取得した観光地情報に基づく表示情報２００を生成して表示部１６３に出力する。

　表示情報２００は、観光地検索タスクの実行結果データである観光地情報２１０と、表示情報が観光地検索タスクの実行結果であることを示す観光地検索タスクアイコン２１１によって構成される。また、観光地情報２１０には、表示データとして観光地地図情報２１２と、おすすめスポット情報（写真、説明等）２１３が含まれる。

　なお、ユーザ発話の発生に伴い、音声認識部１１０はユーザ発話の発話方向（情報処理装置１００からの方向）を解析する。さらに、画像解析部１２０は、上記のユーザ発話を行ったユーザＡ，３０１の位置、顔（視線）方向を解析する。
　これらの解析結果は、ユーザ情報ＤＢ１３１に格納される。

　この時点で、表示部の表示情報２００は、江の島近辺の地図情報２１２と、おすすめスポット情報２１３から構成される観光地情報２１０が画面全体に表示された状態となる。

　次に、図９に示すように、ユーザＢ，３０２が、以下のユーザ発話を行ったものとする。
　ユーザ発話＝その辺でおいしい魚が食べられるお店教えて

　情報処理装置１００の音声認識部１１０は、このユーザ発話の音声認識処理を実行し、音声認識結果をユーザ情報ＤＢ１３１に格納する。
　なお、ユーザＢ，３０２は、「江の島」という地名を用いず「その辺」というワードを使用しているが、音声認識部１１０は、ユーザＢ，３０２の発話の直前のユーザＡ，３０１の発話に「江の島」が含まれていることから、ユーザＢ，３０２の意図が「江の島近辺のおいしい魚が食べられるお店を教えて」であると判定し、この意図情報を含む発話内容がユーザ情報ＤＢ１３１に登録する。

　タスク制御・実行部１４０は、ユーザ情報ＤＢ１３１に格納されたユーザ発話に基づいて、ユーザが江の島の近辺のおいしい魚が食べられるお店に関する情報提示を要求していると判断し、レストラン検索タスクを実行する。

　具体的には、例えばタスク情報ＤＢ１５１、あるいは外部のレストラン情報提供サーバから取得したレストラン情報検索アプリケーションを実行して取得したレストラン情報に基づくレストラン情報２２０を生成して表示部１６３の一部に出力する。

　なお、タスク制御・実行部１４０は、表示部１６３の表示領域全体に既に表示されている観光地情報２１０を左半分の表示領域に縮小し、右半分の領域にレストラン情報２２０を表示する。タスク制御・実行部１４０は、各情報の表示領域の位置を、それぞれの情報の提供を要求したユーザの位置に近い領域とする表示制御処理を実行する。これらの処理を実行するのは、タスク制御・実行部１４０の表示位置・形状決定部１４５である。

　すなわち、観光地情報２１０を観光地情報の提示を要求したユーザＡ，３０１に近い表示領域に表示し、レストラン情報２２０をレストラン情報の提示を要求したユーザＢ，３０２に近い表示領域に表示する。
　なお、各ユーザのユーザ位置情報は、ユーザ情報ＤＢ１３１の登録情報から取得する。

　なお、ユーザＢ，３０２からのユーザ発話に応じて、音声認識部１１０はユーザ発話の発話方向（情報処理装置１００からの方向）を解析する。さらに、画像解析部１２０は、上記のユーザ発話を行ったユーザＢ，３０２の位置、顔（視線）方向を解析する。
　これらの解析結果は、ユーザ情報ＤＢ１３１に格納される。

　この時点で、表示部の表示情報２００は、ユーザＡ側の左半分の領域に江の島近辺の観光地情報２１０が表示され、ユーザＢ側の右半分の領域に江の島近辺のレストラン情報２２０が表示された状態となる。

　なお、タスク制御・実行部１４０は、現在実行中の２つのタスク、すなわち、観光地検索タスクと、レストラン検索タスクをの関連タスクとして、双方のタスク情報登録情報中に記録する。すなわち、図７に示すような関連タスクＩＤを記録した登録情報をタスク情報ＤＢ１５１に登録する。

　なお、タスク制御・実行部１４０は、並列に実行されているタスクを関連タスクと判定するのみならず、例えば２つのタスクを実行させるきっかけとなった２つの発話に共通の地域、時間等の要素が含まれている場合も２つのタスクを関連タスクと判定して、関連タスクＩＤをタスク情報ＤＢ１５１に登録する。発話内容についてはユーザ情報ＤＢ１３１の登録情報を参照して取得する。例えば、ユーザＡの発話が「江の島」に関する発話であり、ユーザＢの発話も「江の島」に関する発話である場合も、２つの発話に基づいて実行される２つのタスクが関連タスクであると判定される。
　なお、これらの関連タスクに関する処理は、タスク制御・実行部１４０の関連タスク更新部１４４が実行する。

　次に、図１０に示すように、ユーザＡ，３０１とユーザＢ，３０２が移動して、２つのユーザ位置が入れ替わったものとする。
　図１０に示すように、ユーザＡ，３０１が左側から右側に移動し、ユーザＢ，３０２が右側から左側に移動したものとする。

　このユーザの移動は、撮像部１０２の撮影画像を解析する画像解析部１２０によって解析され、新たなユーザ位置情報がユーザ情報ＤＢ１３１に登録される。
　タスク制御・実行部１４０は、ユーザ情報ＤＢ１３１に登録されたユーザ位置情報が更新されたことに基づいて、表示部１６３の表示情報の表示位置を変更する表示情報更新処理を実行する。この処理を実行するのは、タスク制御・実行部１４０の表示位置・形状決定部１４５である。

　すなわち、観光地情報２１０を観光地情報の提示を要求したユーザＡ，３０１に近い右側の表示領域に表示し、レストラン情報２２０をレストラン情報の提示を要求したユーザＢ，３０２に近い左側の表示領域に表示する表示位置変更処理を実行する。

　なお、このようなユーザ位置に応じた表示位置の変更処理は、ユーザ位置を常時、トラッキングし、トラッキング情報に基づいて表示位置を逐次、変更する設定が可能である。ただし、頻繁に表示位置を変更すると表示情報が見にくくなるので、ある程度ヒステリシスを持たせて、表示位置の変更が頻繁に発生しない制御を行ってもよい。

　図１１を参照して、ヒステリシスを持たせて表示位置変更を行う処理例について説明する。
　図１１（処理例１）には、ユーザＢがユーザＡの右側から左側に移動する場合の例を示している。
　ユーザＢがユーザＡの右側にいる時点で、表示部には左側にユーザＡの要求したタスクａの実行結果としてのデータａが表示され、右側にユーザＢの要求したタスクｂの実行結果としてのデータｂが表示されている。

　ヒステリシスを持たせた表示位置変更を行う場合、ユーザＢがユーザＡの右側から左側に移動してユーザＢがユーザＡの左側になった時点では、データａ，ｂの表示位置を変更しない。図に示すように、ＡＢ間の距離Ｌ１が、規定しきい値Ｌｔｈ以上の距離となったことが確認された場合にデータａ，ｂの表示位置を変更する。

　（処理例２）は、ユーザＢがユーザＡの左側から右側に移動する場合の例を示している。この場合も、ユーザＢがユーザＡの左側から右側に移動してユーザＢがユーザＡの右側になった時点では、データａ，ｂの表示位置を変更しない。図に示すように、ＡＢ間の距離Ｌ２が、規定しきい値Ｌｔｈ以上の距離となったことが確認された場合にデータａ，ｂの表示位置を変更する。
　このような処理を行うことで、表示部の表示データの表示位置変更が頻繁に発生せず、表示データが見にくくなることを防止できる。

　タスク制御・実行部１４０の実行する表示データのもう一つの制御例について図１２を参照して説明する。
　図１２に示す例は、ユーザＡが表示部１６３の表示画像の正面からかなり左側に位置する場合の表示画像の一例を示している。
　このように、ユーザＡが表示部１６３の表示画像の正面から離れた左側、あるいは右側にいるような場合、タスク制御・実行部１４０は、表示画像を変形させて表示する。すなわち、例えばユーザＡの位置と投影面の角度が浅く視認が難しいと判断される場合、ユーザＡから最適に見える様にタスクの実行結果である表示データの表示態様を変更する。

　変形対象データは、ユーザＡの要求によって実行されているタスクであり、本例の場合、表示情報２００の左半分領域に出力されている観光地情報２１０である
　タスク制御・実行部１４０１６１は、この観光地情報２１０の表示データをユーザＡから最適に見える様に変形して表示する。

　なお、この変形表示処理は、ユーザＡのみが観光地情報２１０を見ている場合に限り行うようにしてもよい。図１２に示す表示画像の右側にいるユーザＢも観光地情報２１０を見ている場合には、表示画像の変形処理は行わない。

　タスク制御・実行部１４０は、ユーザ情報ＤＢ１３１に記録された各ユーザの位置情報と顔（視線）方向データを取得して、ユーザの注目しているデータを判定してこれらの制御を実行する。

　表示画像の変形態様は、図１２に示す設定に限らず、例えば、図１３に示すように、様々な設定がある。
　図１２（ａ）は、ユーザが表示画像を下から見上げて見ている場合の表示データ例である。
　図１２（ｂ）は、ユーザが表示画像を横になって見ている場合の表示データ例である。
　図１２（ｃ）は、ユーザが表示画像を逆立ちして見ている場合の表示データ例である。
　いずれの場合も、ユーザの視点から最適に見える様に変形して表示する。

　さらに、図１４を参照して、タスク制御・実行部１４０の制御による表示情報の制御例について説明する。図１４に示す例は、ユーザＡの要求タスクの実行結果である観光地情報２１０と、ユーザＢの要求タスクの実行結果であるレストラン情報２２０が並んで表示された状態を示している。観光地情報２１０とレストラン情報２２０とも同一地域に関する情報である。このような場合、２つの情報に共通して利用可能な地図情報を２つの情報表示領域にまたがる形で大きく表示する。すなわち、図に示すように大きな共通地図情報２３１を表示する。
　このような表示処理を行うことで、ユーザＡ，Ｂとも大きな地図を観察することが可能となる。

　　［４．ユーザの注目タスクを判定してタスク制御を行う構成について］
　次に、ユーザの注目タスクを判定してタスク制御を行う構成について説明する。
　上述した処理例では、ユーザＡ，３０１の要求によって観光地検索タスクが実行されて観光地情報を表示し、ユーザＢ，３０２の要求によってレストラン検索タスクが実行されてレストラン情報を表示する例について説明した。
　図１５に示すように、表示情報２００の左側に観光地情報２１０が表示され、右側にレストラン情報２２０が表示される。

　ここで、図１５に示すように、ユーザＢ，３０２が、以下のユーザ発話を行ったとする。
　ユーザ発話＝３番見せて
　情報処理装置１００の音声認識部１１０は、ユーザＢ，３０２の意図が３番を見せてほしいという意図であると解析して、このユーザ発話内容をユーザ情報ＤＢ１３１に記録する。

　タスク制御・実行部１４０は、このユーザＢ，３０２の「３番を見せてほしい」という意図に従った処理を実行することになるが、図に示すように、観光地情報２１０にもレストラン情報２２０にも同じ１番～３番の選択項目がある。

　このような場合、タスク制御・実行部１４０は、ユーザＢ，３０２の発話タイミングにおいて、ユーザＢが観光地情報２１０と、レストラン情報２２０のどちらに注目しているかを判定する。すなわち、ユーザＢ，３０２の発話タイミングにおいて、ユーザＢ，３０２の視線が観光地情報２１０と、レストラン情報２２０のどちら側に向けられているかを判定し、この判定結果に応じてタスク制御を行う。

　ユーザＢ，３０２の発話タイミングにおいて、ユーザＢの視線が観光地情報２１０に向けられていると判定した場合、観光地情報２１０側の３番のデータに対する処理を行う。一方、ユーザＢ，３０２の発話タイミングにおいて、ユーザＢの視線がレストラン情報２２０に向けられていると判定した場合、レストラン情報２２０側の３番のデータに対する処理を行う。

　タスク制御・実行部１４０は、この視線判定処理に際して、例えば、図１５に示すように表示画面上に設定した視線判定領域２５１，２５２のどちらにユーザＢ，３０２の顔（視線）方向があるかを判定する処理を行う。

　タスク制御・実行部１４０は、ユーザＢ，３０２の顔（視線）方向が、観光地情報２１０側の視線判定領域２５１内である場合、ユーザＢ，３０２は、観光地情報２１０側のタスク実行を要求していると判定する。一方、ユーザＢ，３０２の顔（視線）方向が、レストラン情報２２０側の視線判定領域２５２内である場合、ユーザＢ，３０２は、レストラン情報２２０側のタスク実行を要求していると判定する。

　この処理においては、ユーザの視線方向のベクトルと、表示情報との交点を検出することが必要となる。この交点検出処理の具体例について図１６を参照して説明する。

　表示情報２００表示面の左右方向中心位置Ｏから情報処理装置１００の中心を通る線をｚ軸とし、表示情報２００表示面に平行で情報処理装置１００の中心を通る線をｘ軸とする。
　このとき、ユーザ３００の視線ベクトルと、表示情報２００表示面の交点位置ＰのＯからの距離、すなわちＯＰ間の距離Ｃｘ［ｍｍ］は以下の（式１）に従って算出することができる。

　ただし、
　Ｆθ［ｒａｄ］：ｘ軸とユーザ顔中心のなす角
　Ｆｘ［ｍｍ］：情報処理装置中心からユーザ顔中心までのｘ軸上の距離
　Ｆｚ［ｍｍ］：情報処理装置中心からユーザ顔中心までのｚ軸上の距離
　Ｖθ［ｒａｄ］：ユーザ顔（視線）方向の角度（装置方向を０度）
　Ｓｚ［ｍｍ］：情報処理装置と表示情報（投影面）との距離
　である。

　これらのパラメータ中、Ｆθ、Ｆｘ，Ｆｚ、Ｖθの各値は、ユーザ情報ＤＢ１３１に記録された顔位置情報、顔（視線）方向情報から取得可能な値である。
　Ｓｚについては、表示部１６３のプロジェクタ制御パラメータから取得可能な値である。なお、これらのパラメータの一部については、情報処理装置１００の有する距離センサーを用いて計測する構成としてもよい。

　上記（式１）は、表示情報２００表示面の交点位置ＰのＯからの水平方向（ｘ方向）の距離を算出する式であるが、表示情報２００表示面の交点位置ＰのＯからの垂直方向（ｙ方向）の距離、すなわちＣｙ［ｍｍ］についても、既知のパラメータを利用して算出することが可能となる。
　結果として、ユーザの視線方向のベクトルと、表示情報との交点の座標、具体的には、表示情報の中心位置を原点Ｏとした場合の座標（ｘ，ｙ）を算出することが可能となる。

　タスク制御・実行部１４０は、上記の算出処理に従って算出される座標（ｘ，ｙ）が、観光地情報２１０側の視線判定領域２５１内である場合、ユーザＢ，３０２は、観光地情報２１０側のタスク実行を要求していると判定し、観光地情報２１０側のタスクに関する処理を実行する。
　一方、座標（ｘ，ｙ）が、レストラン情報２２０側の視線判定領域２５２内である場合、ユーザＢ，３０２は、レストラン情報２２０側のタスク実行を要求していると判定し、レストラン情報２２０側のタスクに関する処理を実行する。

　なお、このようにユーザの視線方向ベクトルと表示面との交点検出によってユーザの処理要求タスクを決定する構成では、視線判定領域の設定によっては、判定が困難となる場合がある。
　具体例について図１７を参照して説明する。

　図１７に示す例は、各タスクのアイコンを中心とした矩形領域を視線判定領域として設定した例である。
　図１７（１）に示すように、２つのタスク各々の２つのアイコンを中心とした矩形領域が重複した領域を持たない場合は、ユーザの視線ベクトルがいずれか一方の視線判定領域に入ることになり問題なく要求タスクを判定することが可能となる。

　しかし、例えば、図１７（２）に示すように、２つのタスク各々の２つのアイコンを中心とした矩形領域が重複した領域を持つような場合は、ユーザの視線ベクトルが２つの視線判定領域に入る場合があり、要求タスクの判定が困難となる。タスク制御・実行部１４０は、このような場合、２つのアイコンの中心線を判定区分線として用いて要求タスクの判定処理を実行する。図に示す例では、ユーザの視線ベクトルと表示面との交点が中心線より左にあれば観光地検索タスクに対する処理を実行し、右側にあればレストラン検索タスクの処理を実行する。

　このユーザ視線ベクトルと、表示情報の表示面との交点検出によるタスク実行制御の具体例について図１８を参照して説明する。
　図１８に示す例は、ユーザＢ，３０２が視線方向を随時変更しながら以下の発話を行った場合の処理例である。
　ユーザ発話＝（方向１（観光地情報）を見ながら）そっちの３番の近くに、（方向２（レストラン情報）を見ながら）何かおすすめある。

　このようなユーザ発話があった場合、タスク制御・実行部１４０は、まず、「３番」の発話タイミングのユーザ視線方向を判定する。この場合、「３番」の発話タイミングのユーザ視線方向は、方向１（観光地情報）である。従って、ユーザ発話に含まれる「３番」は、観光地情報側の３番であると判定する。
　次に、「何かおすすめある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめある」の発話タイミングのユーザ視線方向は、方向２（レストラン情報）である。従って、ユーザ発話に含まれる「何かおすすめある」は、レストラン情報に対する要求であると判定する。
　このように、タスク制御・実行部１４０は、ユーザ発話に含まれるワード単位でユーザ視線方向を検出してユーザの注目タスク（視認タスク）を判定する。

　図１８にはもう一つのユーザＢ，３０２の発話例も示している。以下の
発話である。
　ユーザ発話＝（方向１（観光地情報）を見ながら）そっちの３番の近くに、何かおすすめのレストランある。

　この場合、タスク制御・実行部１４０は、まず、「３番」の発話タイミングのユーザ視線方向を判定する。この場合、「３番」の発話タイミングのユーザ視線方向は、方向１（観光地情報）である。従って、ユーザ発話に含まれる「３番」は、観光地情報側の３番であると判定する。
　次に、「何かおすすめのレストランある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめのレストランある」の発話タイミングのユーザ視線方向も、方向１（観光情報）であるが、ユーザ発話に含まれる「何かおすすめのレストランある」の意図から、レストラン情報に対する要求であると判定する。
　このように、タスク制御・実行部１４０は、視線方向のみならず、ユーザ発話の意図も考慮してユーザの要求に基づくタスク制御を実行する。

　図１９は、タスク制御・実行部１４０によるタスク制御のもう一つの処理例を示す図である。
　図１９に示す例も、ユーザＢ，３０２が視線方向を随時変更しながら以下の発話を行った場合の処理例である。
　ユーザ発話＝（方向１（観光地情報）を見ながら）その辺に、（方向２（レストラン情報）を見ながら）何かおすすめある。
　さらに、続けて、
　ユーザ発話＝（方向１（観光地情報）を見ながら）その後に行けるおすすめのレストランある。

　このようなユーザ発話があった場合、タスク制御・実行部１４０は、まず、「その辺」の発話タイミングのユーザ視線方向を判定する。この場合、「その辺」の発話タイミングのユーザ視線方向は、方向１（観光地情報）である。従って、ユーザ発話に含まれる「その辺」は、観光地情報側で提示している地域であると判定する。
　次に、「何かおすすめある」の発話タイミングのユーザ視線方向を判定する。この場合、「何かおすすめある」の発話タイミングのユーザ視線方向は、方向２（レストラン情報）である。従って、ユーザ発話に含まれる「何かおすすめある」は、レストラン情報に対する要求であると判定する。

　なお、各タスクの実行結果として表示されている情報には、表示情報以外の様々な情報が紐づけられている。例えば場所の住所情報、交通機関を利用した場合の到着時間情報、おすすめ音楽情報等、様々な情報である。
　タスク制御・実行部１４０は、これらの紐づけられた情報を用いて、ユーザ発話に対する応答を行うことができる。

　例えば、
　ユーザ発話＝（方向１（観光地情報）を見ながら）その後に行けるおすすめのレストランある。
　このユーザ発話に応じて、タスク制御・実行部１４０は、表示中の観光地情報に紐づけられた情報を利用してレストラン検索タスクを実行して、ユーザの到着時刻に合せた最適なレストランを検索して検索結果を提示する処理を行うことができる。

　　［５．タスク制御・実行部による実行タスクの情報更新処理例］
　次に、タスク制御・実行部１４０による実行タスクの情報更新処理例について説明する。

　図２０は、タスク制御・実行部１４０による実行タスクの情報更新処理の一例を説明する図である。
　表示情報２００として、左側に観光地検索タスクの実行結果としての観光地情報２１０、右側にレストラン検索タスクの実行結果としてのレストラン情報２２０が表示された状態である。

　タスク制御・実行部１４０は、これらの表示情報を表示するのみならず、ユーザに対する様々な情報提供処理行う。
　具体的には表示内容の更新処理や音声出力による情報提供処理等を行う。図２０に示す例では、観光地検索タスクによるシステム発話として以下のシステム発話を示している。
　システム発話＝表示している観光地候補までの車での移動時間はそれぞれ、ＸＸＸが約１０分、ＹＹＹが約１５分、ＺＺＺが約２０分です。
　さらに、レストラン検索タスクによるシステム発話として以下のシステム発話を示している。
　システム発話＝ＰＰＰは、ＰＰＰは、海鮮丼が有名なお店で、席から眺める海の景色も評判が良いみたいです

　さらに各タスクは、例えば表示された地図上にシステム発話に含まれる観光地やレストランの場所を示すマーカー２６１の表示等の処理も実行する。
　また、レストランや観光地との移動時間等の追加情報についても画像や音声で通知してもよい。また、音声出力に含まれるワードに関連する表示情報をハイライト表示、点滅表示等の強調表示を行う構成としてもよい。
　これらの処理は、すべてタスク制御・実行部１４０の対象タスク実行部１４３の実行する処理である。

　図２１は、タスク制御・実行部１４０の対象タスク実行部１４３が行うタスク終了処理の一例について説明する図である。
　タスク制御・実行部１４０の対象タスク実行部１４３は、例えば、実行中のタスクが誰にも見られておらず、かつ音声入力による処理もなされていない状態が一定時間継続したことが検出された場合、実行中のタスクに関する表示を消して残ったタスクで最適な表示を行う。

　図２１の左側には、時間ｔ１における表示情報を示している。表示情報２００として、左側に観光地検索タスクの実行結果としての観光地情報２１０、右側にレストラン検索タスクの実行結果としてのレストラン情報２２０が表示された状態である。
　ユーザＡ，３０１、ユーザＢ，３０２は、いずれも観光地情報２１０の方を見ている。

　タスク制御・実行部１４０の対象タスク実行部１４３は、レストラン情報２２０が誰にも見られておらず、かつ音声入力による処理もなされていない状態が一定時間継続したことを検出した場合、レストラン情報２２０に関する表示を消して残った観光地情報２１０を表示領域全体に拡大する表示を行う。すなわち、図２１の右側に示す（ｔ２）表示状態＠ｔ２の表示態様に変更する。

　なお、タスク表示の消去時には、一旦、消去対象の表示データをバックグラウンドに退避して一定時間内に音声入力による呼び出しがあれば迅速に復帰させる設定としてもよい。一定時間経過後はタスク自体を停止する。

　　［６．情報処理装置の実行する処理のシーケンスについて］
　次に、図２２に示すフローチャートを参照して情報処理装置１００の実行する処理のシーケンスについて説明する。
　なお、図２２のフローに示す処理は、情報処理装置１００の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するＣＰＵ等のプロセッサによるプログラム実行処理として行うことができる。
　以下、図２２に示すフローの各ステップの処理について説明する。

　　（ステップＳ１０１）
　まず、ステップＳ１０１において、画像解析処理を実行する。この処理は、撮像部１０２の撮影画像を入力した画像解析部１２０が実行する処理である。
　このステップＳ１０１の画像解析処理の詳細シーケンスが、図２２の右にあるステップＳ２０１～Ｓ２０７の処理である。
　このステップＳ２０１～Ｓ２０７の各ステップの処理について説明するる

　　（ステップＳ２０１）
　まず、画像解析部１２０は、撮像部１０２の撮影画像から顔領域を検出する。この処理は、先に図４を参照して説明した画像解析部１２０の顔検出部１２１が実行する。例えば予め記憶部に登録された顔の特徴情報（パターン情報）との照合処理等の既存の手法を適用して行われる
　以下のステップＳ２０２～Ｓ２０７の処理は、検出した顔単位で繰り返し実行するループ処理である。

　　（ステップＳ２０２～Ｓ２０７）
　ステップＳ２０２～Ｓ２０７において、撮像部１０２の撮影画像から検出した顔単位で、ユーザ位置推定処理、顔（視線）方向推定処理、ユーザ識別処理、ユーザ属性（性別、年齢等）判別処理を実行する。

　これらの処理は、先に図４を参照して説明した画像解析部１２０のユーザ位置推定部１２２、顔・視線方向推定部１２３、顔識別部１２４、属性判別処理部１２５において実行する処理である。ユーザ位置推定部１２２は、顔検出部１２１の検出した顔のある位置を推定する。画像中の顔の位置や大きさ等から情報処理装置からの距離と方向を算出してユーザの顔の位置を判定する。位置情報は例えば情報処理装置に対する相対位置情報である。なお、距離センサーや位置センサー等のセンサー情報を利用する構成としてもよい。

　ステップＳ１０１では、撮像部１０２の撮影画像から検出した顔単位で上記の処理を実行し、顔単位の情報をユーザ情報ＤＢ１３１に登録する。

　　（ステップＳ１０２～Ｓ１０３）
　次にステップＳ１０２において音声検出が実行される。この処理は、音声入力部１０１を介した音声信号を入力する音声認識部１１０が実行する処理である。図４に示す音声認識部１１０の音声検出部１１１が実行する。
　ステップＳ１０３で、音声が検出されたと判定した場合は、ステップＳ１０４に進む。音声が検出されなかったと判定した場合はステップＳ１１０に進む。

　　（ステップＳ１０４）
　次に、ステップＳ１０４において、検出した音声の音声認識処理と、音声方向（発話方向）推定処理を実行する。
　この処理は、図４に示す音声認識部１１０の音声方向推定部１１２と発話内容認識部１１３が実行する。

　音声方向推定部１１２は、発話を行ったユーザの方向、すなわち音声方向を推定する。前述したように、音声入力部（マイク）１０１は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されており、各マイクの取得音の位相差に基づいて音声方向を推定する。
　発話内容認識部１１３は、例えばＡＳＲ（Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ）機能を利用して音声データを複数の単語から構成されるテキストデータに変換する。さらに、テキストデータに対する発話意味解析処理を実行する。

　　（ステップＳ１０５）
　次に、ステップＳ１０５において、発話ユーザを特定する。この処理は、タスク・制御実行部１４０の実行する処理である。図６に示すタスク・制御実行部１４０の発話ユーザ特定部１４１が実行する。この処理は、ユーザ情報ＤＢ１３１に格納された発話内容に対応付けられたユーザ位置情報を利用して行われる。発話方向の推定情報を用いてその方向にある顔のユーザを特定する処理として実行してもよい。

　　（ステップＳ１０６）
　次に、ステップＳ１０６において、各ユーザの視認アイコンを特定する。この処理は、図６に示すタスク・制御実行部１４０の視認タスク特定部１４２が実行する。視認タスク特定部１４２は、撮像部１０２の撮影画像に含まれるユーザが見ている表示タスクを特定する処理を行う。この処理は、ユーザ情報ＤＢ１３１に格納されたユーザ位置情報と、顔（視線）方向情報を用いて実行される。

　　（ステップＳ１０７）
　次に、ステップＳ１０７において、ステップＳ１０６で特定された視認タスクと、ステップＳ１０４において取得された音声認識結果に基づいて、処理タスクを決定してタスクによる処理を実行する。この処理は、図６に示すタスク・制御実行部１４０の対象タスク実行部１４３が実行する。対象タスク実行部１４３は、例えば、ユーザの見ているタスク、あるいはユーザ発話に基づいて表示変更を行うタスクを特定して、そのタスクに関する処理を実行する。

　　（ステップＳ１０８～Ｓ１０９）
　次に、ステップＳ１０８～Ｓ１０９において、現在処理を実行中のタスクに関連する関連タスクがあるか否かを判定し、ある場合は、関連タスクに関する出力内容の変更処理や追加処理を行う。この処理は、図６に示すタスク・制御実行部１４０の関連タスク更新部１４４が実行する。

　　（ステップＳ１１０）
　次に、ステップＳ１１０において、現在実行中のタスクによる表示情報等の出力情報を、最新のユーザの位置、視線方向等に応じて変更する等の処理を行う。この処理は、図６に示すタスク・制御実行部１４０の表示位置・形状決定部１４５が実行する。
　表示位置・形状決定部１４５は、表示部１６３に表示中のタスクの表示位置や形状を決定して、決定した位置、形状に表示情報を更新する。

　なお、ステップＳ１０５～Ｓ１１０の処理は、タスク・制御実行部１４０の実行する処理であり、具体的には、先に図８～図２１を参照して説明した様々な処理が行われることになる。

　　（ステップＳ１１１）
　最後に、ステップＳ１１１において、画像。音声の出力処理が実行される。この画像、音声の出力内容は、タスク・制御実行部１４０において実行されているタスクによって決定される。このタスクの決定した表示情報や音声情報が、出力制御部１６１の制御の下、音声出力部１６２、画像出力部１６３を介して出力される。

　　［７．情報処理装置、および情報処理システムの構成例について］
　図３に示す情報処理装置１００の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやＰＣ等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。

　図２３に、本開示の処理を実行するためのシステム構成の例を示す。
　図２３（１）情報処理システム構成例１は、図３に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやＰＣ、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置４１０内に構成した例である。
　ユーザ端末に相当する情報処理装置４１０は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ４２０と通信を実行する。

　アプリ実行サーバ４２０は、例えば天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する応答を生成するための情報を提供可能なサーバ群によって構成される。

　一方、図２３（２）情報処理システム構成例２は、図３に示す情報処理装置の機能の一部をユーザの所有するスマホやＰＣ、エージェント機器等の情報処理端末である情報処理装置４１０内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ４６０において実行する構成としたシステム例である。

　例えば、図３に示す装置中の音声認識部１１０や画像解析部１２０において実行する処理をサーバ側で実行する構成等が可能である。情報処理端末側の情報処理装置４１０側の音声入力部１０１と撮像部１０２の取得データをサーバに送信してサーバ側で解析データを生成する。情報処理端末は、サーバ解析データを用いてタスクの制御、実行を行うといった構成である。

　情報処理端末側のタスク制御・実行部は、サーバの生成した解析データに含まれるユーザ位置に応じてタスク対応情報の表示位置や形状を変更する処理を行うことになる。なお、ユーザ端末等の情報処理端末側の機能と、サーバ側の機能の機能分轄態様は、様々な異なる設定が可能であり、また、１つの機能を双方で実行する構成も可能である。

　　［８．情報処理装置のハードウェア構成例について］
　次に、図２４を参照して、情報処理装置のハードウェア構成例について説明する。
　図２４を参照して説明するハードウェアは、先に図３を参照して説明した情報処理装置のハードウェア構成例であり、また、図２３を参照して説明したデータ処理サーバ４６０を構成する情報処理装置のハードウェア構成の一例である。

　ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）５０１は、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）５０２、または記憶部５０８に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）５０３には、ＣＰＵ５０１が実行するプログラムやデータなどが記憶される。これらのＣＰＵ５０１、ＲＯＭ５０２、およびＲＡＭ５０３は、バス５０４により相互に接続されている。

　ＣＰＵ５０１はバス５０４を介して入出力インタフェース５０５に接続され、入出力インタフェース５０５には、各種スイッチ、キーボード、マウス、マイクロフォン、センサーなどよりなる入力部５０６、ディスプレイ、スピーカーなどよりなる出力部５０７が接続されている。ＣＰＵ５０１は、入力部５０６から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部５０７に出力する。

　入出力インタフェース５０５に接続されている記憶部５０８は、例えばハードディスク等からなり、ＣＰＵ５０１が実行するプログラムや各種のデータを記憶する。通信部５０９は、Ｗｉ－Ｆｉ通信、ブルートゥース（登録商標）（ＢＴ）通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。

　入出力インタフェース５０５に接続されているドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア５１１を駆動し、データの記録あるいは読み取りを実行する。

　　［９．本開示の構成のまとめ］
　以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。

　なお、本明細書において開示した技術は、以下のような構成をとることができる。
　（１）　音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
　撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
　前記タスク制御・実行部は、
　ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置。

　（２）　前記タスク制御・実行部は、
　前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザ位置に応じて変更する制御を実行する（１）に記載の情報処理装置。

　（３）　前記タスク制御・実行部は、
　前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザの顔または視線方向に応じて変更する制御を実行する（１）または（２）に記載の情報処理装置。

　（４）　前記タスク制御・実行部は、
　前記表示部に複数のタスク対応情報を表示する場合、
　各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示位置制御を実行する（１）～（３）いずれかに記載の情報処理装置。

　（５）　前記画像解析部は、ユーザ位置を解析し、
　前記タスク制御・実行部は、
　前記画像解析部の解析したユーザ位置情報に基づいて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する（１）～（４）いずれかに記載の情報処理装置。

　（６）　前記画像解析部は、
　前記撮影画像の解析処理によって取得されるユーザ位置情報を含むユーザ情報をユーザ情報データベースに格納する（１）～（５）いずれかに記載の情報処理装置。

　（７）　前記タスク制御・実行部は、
　前記ユーザ情報データベースの格納情報を用いて、タスク対応情報の表示位置、または表示形状の少なくともいずれかの変更態様を決定する（６）に記載の情報処理装置。

　（８）　前記タスク制御・実行部は、
　ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定し、
　ユーザ発話に対して、前記視認タスクの処理を実行する（１）～（７）いずれかに記載の情報処理装置。

　（９）　前記タスク制御・実行部は、
　ユーザ発話に含まれるワード単位で、ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定する処理を実行する（１）～（８）いずれかに記載の情報処理装置。

　（１０）　前記タスク制御・実行部は、
　タスク対応情報の表示領域情報を含むタスク情報をタスク情報データベースに格納する（１）～（９）いずれかに記載の情報処理装置。

　（１１）　前記タスク制御・実行部は、
　実行中のタスクに関連する関連タスクの識別子を前記タスク情報データベースに格納する（１０）に記載の情報処理装置。

　（１２）　前記音声認識部は、
　ユーザ発話の発話方向推定処理を実行し、
　前記タスク制御・実行部は、
　前記音声認識部の推定した発話方向に応じて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する（１）～（１１）いずれかに記載の情報処理装置。

　（１３）　情報処理端末とサーバを有する情報処理システムであり、
　前記情報処理端末は、
　音声入力部と、撮像部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末のタスク制御・実行部は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システム。

　（１４）　前記情報処理端末のタスク制御・実行部は、
　前記サーバの生成したユーザ位置に応じて前記タスク対応情報の表示位置を変更する（１３）に記載の情報処理システム。

　（１５）　情報処理装置において実行する情報処理方法であり、
　音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
　画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
　タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法。

　（１６）　情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記情報処理端末は、
　音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法。

　（１７）　情報処理装置において情報処理を実行させるプログラムであり、
　音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
　画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
　タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラム。

　また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。

　なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。

　以上、説明したように、本開示の一実施例の構成によれば、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。
　具体的には、例えば、撮影画像の解析処理を実行する画像解析部と、ユーザ発話に応じた処理を実行するタスク制御・実行部と、タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有する。タスク制御・実行部は、ユーザ位置や、ユーザの顔または視線方向に応じてタスク対応情報の表示位置や表示形状を変更する制御を実行する。表示部に複数のタスク対応情報を表示する場合、各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示制御を実行する。
　本構成により、ユーザの注目タスクを識別してタスク対応情報の表示制御を行う装置、方法が実現される。

　　１０　情報処理装置
　　１１　撮像部
　　１２　マイク
　　１３　表示部
　　１４　スピーカー
　　２０　サーバ
　　３０　外部機器
　１０１　音声入力部
　１０２　撮像部
　１１０　音声認識部
　１１１　音声検出部
　１１２　音声方向推定部
　１１３　発話内容認認識部
　１２０　画像解析部
　１２１　顔検出部
　１２２　ユーザ位置推定部
　１２３　顔・視線方向推定部
　１２４　顔識別部
　１２５　属性判別処理部
　１３１　ユーザ情報ＤＢ
　１４０　タスク制御・実行部
　１４１　発話ユーザ特定部
　１４２　視認タスク特定部
　１４３　対象タスク実行部
　１４４　関連タスク更新部
　１４５　表示位置・形状決定部
　１５１　タスク情報ＤＢ
　１６１　出力制御部
　１６２　音声出力部
　１６３　表示部
　１７１　通信部
　４１０　情報処理装置
　４２０　アプリ実行サーサーバ
　４６０　データ処理サーバ
　５０１　ＣＰＵ
　５０２　ＲＯＭ
　５０３　ＲＡＭ
　５０４　バス
　５０５　入出力インタフェース
　５０６　入力部
　５０７　出力部
　５０８　記憶部
　５０９　通信部
　５１０　ドライブ
　５１１　リムーバブルメディア

Claims

　音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
　撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記タスク制御・実行部におけるタスクの実行に基づく表示情報であるタスク対応情報を出力する表示部を有し、
　前記タスク制御・実行部は、
　ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理装置。
　前記タスク制御・実行部は、
　前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザ位置に応じて変更する制御を実行する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　前記タスク対応情報の表示位置、または表示形状の少なくともいずれかを、ユーザの顔または視線方向に応じて変更する制御を実行する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　前記表示部に複数のタスク対応情報を表示する場合、
　各タスク対応情報の表示位置を、各タスクの実行を要求したユーザ位置に近い位置とするタスク単位の表示位置制御を実行する請求項１に記載の情報処理装置。
　前記画像解析部は、ユーザ位置を解析し、
　前記タスク制御・実行部は、
　前記画像解析部の解析したユーザ位置情報に基づいて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する請求項１に記載の情報処理装置。
　前記画像解析部は、
　前記撮影画像の解析処理によって取得されるユーザ位置情報を含むユーザ情報をユーザ情報データベースに格納する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　前記ユーザ情報データベースの格納情報を用いて、タスク対応情報の表示位置、または表示形状の少なくともいずれかの変更態様を決定する請求項６に記載の情報処理装置。
　前記タスク制御・実行部は、
　ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定し、
　ユーザ発話に対して、前記視認タスクの処理を実行する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　ユーザ発話に含まれるワード単位で、ユーザの視線ベクトルと前記表示情報との交点を算出し、算出した交点位置に表示されたタスク対応情報をユーザ視認タスクとして特定する処理を実行する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　タスク対応情報の表示領域情報を含むタスク情報をタスク情報データベースに格納する請求項１に記載の情報処理装置。
　前記タスク制御・実行部は、
　実行中のタスクに関連する関連タスクの識別子を前記タスク情報データベースに格納する請求項１０に記載の情報処理装置。
　前記音声認識部は、
　ユーザ発話の発話方向推定処理を実行し、
　前記タスク制御・実行部は、
　前記音声認識部の推定した発話方向に応じて、前記表示部におけるタスク対応情報の表示位置、または表示形状の少なくともいずれかを変更する請求項１に記載の情報処理装置。
　情報処理端末とサーバを有する情報処理システムであり、
　前記情報処理端末は、
　音声入力部と、撮像部と、
　ユーザ発話に応じた処理を実行するタスク制御・実行部と、
　前記音声入力部を介して取得した音声と、前記撮像部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末のタスク制御・実行部は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行う情報処理システム。
　前記情報処理端末のタスク制御・実行部は、
　前記サーバの生成したユーザ位置に応じて前記タスク対応情報の表示位置を変更する請求項１３に記載の情報処理システム。
　情報処理装置において実行する情報処理方法であり、
　音声認識部が、音声入力部を介して入力する音声の解析処理を実行し、
　画像解析部が、撮像部を介して入力する撮影画像の解析処理を実行し、
　タスク制御・実行部が、ユーザ発話に応じた処理を実行するタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力するとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更する情報処理方法。
　情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
　前記情報処理端末は、
　音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
　前記サーバは、
　前記情報処理端末からの受信データに基づいて、前記発話者の発話内容と、発話方向と、前記カメラ撮影画像に含まれるユーザの位置を示すユーザ位置を解析情報として生成し、
　前記情報処理端末は、
　前記サーバの生成した解析情報を利用して、タスクの実行および制御を行うとともに、前記サーバの生成したユーザ位置に応じてタスク対応情報の表示位置を変更する情報処理方法。
　情報処理装置において情報処理を実行させるプログラムであり、
　音声認識部に、音声入力部を介して入力する音声の解析処理を実行させ、
　画像解析部に、撮像部を介して入力する撮影画像の解析処理を実行させ、
　タスク制御・実行部に、ユーザ発話に応じたタスクの実行に基づく表示情報であるタスク対応情報を表示部に出力させるとともに、ユーザ位置に応じて前記タスク対応情報の表示位置を変更させるプログラム。