WO2022113834A1

WO2022113834A1 - システム、撮像装置、情報処理装置、情報処理方法および情報処理プログラム

Info

Publication number: WO2022113834A1
Application number: PCT/JP2021/042137
Authority: WO
Inventors: 直之宮田; 英樹柳澤; 麻美子石田
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2020-11-25
Filing date: 2021-11-16
Publication date: 2022-06-02
Anticipated expiration: 2023-05-25
Also published as: US20230353860A1; EP4252871A1; JP2022083680A; JP7394046B2; US12401883B2; EP4252871A4

Abstract

所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置と、第１画像信号に基づいてユーザーを認識し、ユーザーに関する座標情報を算出し、座標情報に基づいて第１撮像モードおよび第２撮像モードのいずれによる撮像が行われているかを判定し、第１撮像モードと判定された場合には、第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う情報処理装置と、を備えるシステムが提供される。

Description

システム、撮像装置、情報処理装置、情報処理方法および情報処理プログラム

　本発明は、システム、撮像装置、情報処理装置、情報処理方法および情報処理プログラムに関する。

　従来、コンピュータやゲーム装置等の情報処理装置に接続され、当該情報処理装置に操作信号を送信する操作装置が知られている（例えば、特許文献１参照）。
　特許文献１に記載のコントローラ（操作装置）は、ユーザーの左右の手で把持される左側把持部及び右側把持部と、当該コントローラの正面に配設された方向ボタン及び操作ボタンとを有する。

米国特許出願公開第２００９／０１３１１７１号明細書

　ところで、上記特許文献１に記載されたコントローラ等は、ユーザーの左右の手で把持されるものであるため、ユーザーの動きの自由度が低下するという問題がある。そこで、ユーザーの身体の動きであるジェスチャーおよび音声認識を行う操作装置を用いる技術も考えられているが、ポインティングデバイス方式の操作装置ではカーソル位置を維持するためにユーザーの肉体疲労を引き起こす場合がある。また、姿勢検出方式の操作装置では認識対象となるマーカーやアタッチメントをユーザーに装着させる必要があり、いずれの場合もユーザーの利便性には問題がある。

　そこで、本発明は、ユーザーにとって利便性が高く、正確に撮像モードに応じた処理を行うことができるシステム、撮像装置、情報処理装置、情報処理方法および情報処理プログラムを提供することを目的とする。

　本発明のある観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置と、第１画像信号に基づいてユーザーを認識し、第１画像信号に基づいて、ユーザーに関する座標情報を算出する第１の演算処理装置と、座標情報に基づいて、第１撮像モード、および、第２撮像モードのいずれによる撮像が行われているかを判定する第２の演算処理装置と、第１撮像モードと判定された場合には、第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う第３の演算処理装置と、を備えるシステムが提供される。

　本発明の別の観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像部と、第１画像信号に基づいてユーザーを認識し、第１画像信号に基づいて、ユーザーに関する座標情報を算出する演算処理部と、座標情報を出力する情報出力部と、を備える撮像装置が提供される。

　本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行い、第１画像信号に基づいてユーザーを認識し、第１画像信号に基づいてユーザーに関する座標情報を算出し、座標情報を出力する撮像装置から、座標情報を取得する取得部と、座標情報に基づいて、第１撮像モード、および、第２撮像モードのいずれによる撮像が行われているかを判定する第１の演算処理部と、第１撮像モードと判定された場合には、第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う第２の演算処理部と、を備える情報処理装置が提供される。

　本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置から、第１画像信号を取得する取得ステップと、第１画像信号に基づいてユーザーを認識し、第１画像信号に基づいて、ユーザーに関する座標情報を算出する算出ステップと、座標情報に基づいて、第１撮像モード、および、第２撮像モードのいずれによる撮像が行われているかを判定する判定ステップと、第１撮像モードと判定された場合には、第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う処理ステップとを含む情報処理方法が提供される。

　本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置から、第１画像信号を取得する機能と、第１画像信号に基づいてユーザーを認識し、第１画像信号に基づいて、ユーザーに関する座標情報を算出する機能と、座標情報に基づいて、第１撮像モード、および、第２撮像モードのいずれによる撮像が行われているかを判定する機能と、第１撮像モードと判定された場合には、第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う機能とをコンピュータに実現させる情報処理プログラムが提供される。
　上記の構成によれば、画像信号に基づいてユーザーに関する座標情報を算出し、算出した座標情報に基づいて撮像モードの判定を行うことにより、ユーザーにとって利便性が高く、正確に撮像モードに応じた処理を行うことができる。

本発明の第１実施形態に係るシステムの全体を示す模式図である。本発明の第１実施形態に係るシステムの全体を示す別の模式図である。本発明の第１実施形態に係るシステムの概略的な構成を示すブロック図である。本発明の第１実施形態に係るシステムにおけるＨＭＤユニットの概略的な構成を示すブロック図である。本発明の第１実施形態における撮像モードについて説明する図である。本発明の第１実施形態における撮像モードについて説明する別の図である。本発明の第１実施形態に係る処理方法の例を示すフローチャートである。本発明の第１実施形態に係る処理方法の例を示す別のフローチャートである。本発明の第１実施形態に係る処理方法の例を示す別のフローチャートである。本発明の第２実施形態に係るシステムの全体を示す模式図である。本発明の第２実施形態に係るシステムの概略的な構成を示すブロック図である。本発明の第２実施形態に係るシステムにおけるカメラユニットの概略的な構成を示すブロック図である。本発明の第２実施形態における撮像モードについて説明する図である。本発明の第２実施形態における撮像モードについて説明する別の図である。本発明の第２実施形態に係る処理方法の例を示すフローチャートである。本発明の第３実施形態に係るシステムにおけるＨＭＤユニットの概略的な構成を示すブロック図である。本発明の第３実施形態に係る処理方法の例を示すフローチャートである。本発明の第４実施形態に係るシステムの概略的な構成を示すブロック図である。

　以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜第１実施形態＞
　図１Ａおよび図１Ｂは、本発明の第１実施形態に係るシステム１の全体を示す模式図であり、図２は、システム１の概略的な構成を示すブロック図である。
　図１Ａに示すように、本実施形態に係るシステム１は、第１センサ装置であるＨＭＤユニット２０と、情報処理装置３０と、コントローラ４０と、表示装置５０とを含むゲームシステムである。
　情報処理装置３０は、図２に示すように、ＨＭＤユニット２０、コントローラ４０、および表示装置５０のぞれぞれと有線または無線のネットワークにより接続される。
　システム１では、ＨＭＤユニット２０、およびコントローラ４０から送信される情報に応じて情報処理装置３０がゲームを進行し、ＨＭＤユニット２０および表示装置５０が、情報処理装置３０の実行時画面、例えばゲーム画面を表示する。

　本実施形態において、ＨＭＤユニット２０は、ゲームのプレイヤーであるユーザーに関する座標情報を算出して、情報処理装置３０に送信する。ここで、ユーザーに関する座標情報とは、ユーザーの姿勢に関する特徴点の座標情報、ユーザーの腕の形状に関する特徴点の座標情報、またはユーザーの手指の形状に関する特徴点の座標情報の少なくとも１つを含む。
　ＨＭＤユニット２０は、ユーザーに関する座標情報を算出して出力することにより、コントローラ４０と同様にユーザー操作を受け付けるための操作装置としても機能する。

　本実施形態において、ＨＭＤユニット２０は、図１Ａに示すように、ユーザーの頭部に装着して使用可能であるとともに、図１Ｂに示すように、テーブル等に載置して使用することも可能である。
　図１Ａに示すようにユーザーの頭部に装着して使用する場合、ＨＭＤユニット２０は、表示装置の機能と、ユーザーの一人称視点で撮像する第１撮像モードによる撮像を行う撮像装置の機能とを有し、ユーザーの頭部に着脱可能に構成される。図１Ａの例に示すように、ＨＭＤユニット２０は、ＨＭＤユニット２０をユーザーの体に装着可能な装着部２０Ａによりユーザーの頭部に装着可能に構成される。なお、ＨＭＤユニット２０および装着部２０Ａは、図１Ａの例のようにバンド型であってもよいし、ヘルメット型やメガネ型などどのような構成であってもよい。また、ＨＭＤユニット２０の装着に際しては、例えば、情報処理装置３０によってＨＭＤユニット２０にチュートリアルなどを表示することにより、ユーザーが装着部２０ＡによりＨＭＤユニット２０を適切に装着するよう案内するとよい。

　一方、図１Ｂに示すようにテーブル等に載置して使用する場合、ＨＭＤユニット２０は、ユーザーの三人称視点からユーザーを撮像する第２撮像モードによる撮像を行う撮像装置の機能を有する。そして、ＨＭＤユニット２０は、ユーザーの三人称視点からユーザーを撮像するために、被写界にユーザーが収まる位置、例えばユーザーから１メートル程度の距離に配置される。図１Ｂの例では、ＨＭＤユニット２０は、表示装置５０の近傍に配置される。ＨＭＤユニット２０の最適な配置位置は、目的に応じて異なる。例えば、プレイ対象のゲームの内容に応じて、ユーザーの体全体、上半身、手元等、把握する対象が被写界に収まる位置にＨＭＤユニット２０を配置することが望まれる。なお、ＨＭＤユニット２０の配置に際しては、例えば、情報処理装置３０によって表示装置５０にチュートリアルなどを表示することにより、ユーザーがＨＭＤユニット２０を適切な位置に配置するよう案内するとよい。
　ＨＭＤユニット２０を頭部に装着して第１撮像モードによる撮像を行うか、または、ＨＭＤユニット２０をテーブル等に載置して第２撮像モードによる撮像を行うかは、プレイ対象のゲームの内容等の目的に応じて異なる。

　以下、システム１の各構成について説明する。
　図３は、本発明の一実施形態に係るシステム１におけるＨＭＤユニット２０の概略的な構成を示すブロック図である。
　ＨＭＤユニット２０は、第１撮像装置であるＲＧＢカメラ２１と、ＩＭＵ（Inertial Measurement Unit）２３と、第１の演算処理装置として機能する算出部２４と、情報出力部２５と、受信部２６と、表示部２７とを含む。
　ＲＧＢカメラ２１は、第１画像センサであるイメージセンサ２１１と、イメージセンサ２１１に接続される処理回路２１２とを含む。イメージセンサ２１１は、例えば所定の周期で、またはユーザー操作に応じた所定のタイミングで全ピクセル（全画素）を同期的にスキャンすることによって第１画像信号であるＲＧＢ画像信号２１３を生成する。処理回路２１２は、例えばＲＧＢ画像信号２１３を保存および伝送に適した形式に変換する。また、処理回路２１２は、ＲＧＢ画像信号２１３にタイムスタンプを与える。
　なお、本明細書では、当該信号に基づいて画像を構築可能な信号を画像信号という。したがって、ＲＧＢ画像信号２１３は、画像信号の一例を示す。

　ＩＭＵ２３は、ＨＭＤユニット２０自体、より具体的には、イメージセンサ２１１の姿勢を検出する慣性センサである。ＩＭＵ２３は、所定の周期で、または、所定のタイミングでイメージセンサ２１１の三次元の姿勢情報を取得し、姿勢情報を情報出力部２５に出力する。

　算出部２４は、座標算出部２４１、および学習済みモデル２４２を含み、ＲＧＢカメラ２１において生成されたＲＧＢ画像信号２１３に基づいて、ユーザーに関する座標情報を算出する。
　算出部２４の座標算出部２４１は、例えば、ＲＧＢ画像信号２１３に基づいて被写体認識を行うことによりユーザーを認識する。ＨＭＤユニット２０の被写界に複数のユーザーが含まれる場合、座標算出部２４１は、それぞれのユーザーを識別する。
　そして、座標算出部２４１は、認識したユーザーごとに、学習済みモデル２４２に基づいて、ＲＧＢ画像信号２１３からユーザーが有する複数の関節の位置を示す座標情報を算出する。ユーザーが有する複数の関節の位置は、ユーザーの姿勢に関する特徴点、ユーザーの腕の形状に関する特徴点、またはユーザーの手指の形状に関する特徴点に相当する。
　学習済みモデル２４２は、例えば、複数の関節を有する人物の画像を入力データとし、人物の複数の関節の位置を示す座標情報を正解データとした教師あり学習を実行することによって予め構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、算出部２４に関係性学習部を備え、ＲＧＢ画像信号２１３が入力される度に、入力されたＲＧＢ画像信号２１３に基づく画像と関節の位置を示す座標情報との関係性を学習して学習済みモデル２４２を更新する構成としてもよい。
　情報出力部２５は、算出部２４により算出したユーザーに関する座標情報と、ＩＭＵ２３により取得した姿勢情報とを情報処理装置３０に出力する。

　受信部２６は、情報処理装置３０が生成した表示画像を示す情報を、情報処理装置３０から受信する。
　表示部２７は、例えばＬＣＤ（Liquid Crystal Display）や有機ＥＬなどの表示素子と、レンズなどの光学装置とを備え、受信部２６により受信した情報に基づき、表示画像を表示することにより、ユーザーに提示することが可能である。なお、表示部２７の表示素子は、透過型の表示素子であってもよいし、非透過型の表示素子であってもよい。
　また、ＨＭＤユニット２０の筐体に着脱可能なスマートフォンなどの端末装置を表示装置として使用してもよい。さらに、ＡＲ（Augmented Reality）グラス、ＭＲ（Mixed Reality）グラスなどの装着型デバイスをＨＭＤユニット２０として使用してもよい。

　ここまで説明したように、ＨＭＤユニット２０は、ＲＧＢ画像信号２１３の生成からユーザーに関する座標情報の算出までを単体で完結し、情報処理装置３０に対してＲＧＢ画像信号２１３は出力せずに、算出した座標情報および姿勢情報を出力することができる。なお、ＨＭＤユニット２０は、独立した電源を有することが好ましい。

　図４Ａおよび図４Ｂは、本実施形態における撮像モードについて説明する図である。ＨＭＤユニット２０は、上述したように、ユーザーの一人称視点で撮像する第１撮像モードと、ユーザーの三人称視点からユーザーを撮像する第２撮像モードとを有する。
　第１撮像モードでは、図４Ａに示すように、主にユーザーの手元が被写界に収まり、ユーザーから見て、手元の背後（後方）において、表示装置５０が被写界に収まる場合もある。また、第１撮像モードでは、ユーザーの頭部は被写界に収まらず、例えばユーザーが両腕を上げたり、肩の近傍で手指によりポーズをとったりしている場合には、それらの部分は被写界に収まらない。
　一方、第２撮像モードでは、図４Ｂに示すように、主にユーザーの上半身および手元が被写界に収まり、ユーザーが腕や手指によりポーズをとっている場合に、その略すべてが被写界に収まる。また、第２撮像モードでは、表示装置５０は被写界に収まらない。
　したがって、本実施形態の第１撮像モードおよび第２撮像モードでは、生成される画像信号に基づく画像データに含まれる被写体が異なる。

　再び図２を参照して、情報処理装置３０は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、第２の演算処理装置および第３の演算処理装置として機能する通信部３１および制御部３２を含む。制御部３２は、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される判定部３２１、制御値算出部３２２、および画像生成部３２３の各機能を含む。以下、各部の機能についてさらに説明する。

　通信部３１は、ＨＭＤユニット２０の情報出力部２５から出力されたユーザーに関する座標情報と、姿勢情報とを受信するとともに、ＨＭＤユニット２０の表示部２７に表示させる表示画像を出力する。また、通信部３１は、コントローラ４０と相互に通信可能であるとともに、表示装置５０に表示させる表示画像を出力する。

　制御部３２の判定部３２１は、座標情報に基づいて、第１撮像モードおよび第２撮像モードのいずれによる撮像が行われているかを判定する。
　判定部３２１は、例えば、ＨＭＤユニット２０から出力された座標情報のうち、ユーザーの姿勢に関する特徴点の座標情報に基づく認識を行い、座標情報にユーザーの顔または頭部が含まれる場合には、ＨＭＤユニット２０により第２撮像モードで撮像が行われていると判定することができる。同様に、判定部３２１は、例えば、座標情報のうち、ユーザーの腕の形状に関する特徴点の座標情報に基づく認識を行い、座標情報において、ユーザーの手や拳がユーザーの腕よりも手前に存在する場合には、ＨＭＤユニット２０により第２撮像モードで撮像が行われていると判定することができる。
　反対に、ＨＭＤユニット２０から出力された座標情報にユーザーの顔または頭部が含まれない場合、および座標情報において、ユーザーの手や拳がユーザーの腕よりも後方に存在する場合には、判定部３２１はＨＭＤユニット２０により第１撮像モードで撮像が行われていると判定することができる。

　なお、判定部３２１は、上述した腕、手、および拳の相対位置に限らず、他の部位の相対位置に基づいて撮像モードの判定を行ってもよい。例えば、判定部３２１は、ユーザーの体の末端部分、より具体的には足および脚部の相対位置等に基づいて撮像モードの判定を行ってもよい。
　また、上述した判定方法については、予め定められてもよいし、ユーザーにより設定可能としてもよい。さらに、その他の情報を組み合わせて判定を行ってもよい。例えば、ＨＭＤユニット２０のＩＭＵ２３により取得される姿勢情報を利用してもよい。例えば、ＩＭＵ２３による姿勢情報に基づいて、ユーザーとＨＭＤユニット２０との相対的な位置関係を検出し、検出した位置関係を撮像モードの判定に用いてもよい。また、ＨＭＤユニット２０のＩＭＵ２３により取得される姿勢情報のみに基づいて撮像モードの判定を行ってもよい。

　また、ＨＭＤユニット２０により生成されるＲＧＢ画像信号２１３に対する被写体解析を行い、ユーザーの背後（後方）に矩形部分の被写体が含まれる場合には、表示装置５０が被写界に収められていると推定し、ＨＭＤユニット２０により第１撮像モードで撮像が行われていると判定してもよい。
　さらに、装着部２０ＡによるＨＭＤユニット２０の装着状態を検出する装着センサをＨＭＤユニット２０に備え、装着センサにより検出した装着状態に応じて判定を行ってもよい。例えば、装着状態が「ＨＭＤユニット２０がユーザーに装着されている」ことを示す場合には第１撮像モードで撮像が行われていると判定し、装着状態が「ＨＭＤユニット２０がユーザーに装着されていない」ことを示す場合には第２撮像モードで撮像が行われていると判定してもよい。装着センサは、装着部２０Ａの構成に応じて、例えば、接触センサ、着脱センサ、スイッチなどにより構成することができる。また、装着センサに代えて、または加えて、ＨＭＤユニット２０がテーブルなどに載置されているか否かを検出する接触センサおよび姿勢センサなどを備えてもよい。

　ここまで説明した各判定方法では撮像モードを判定できない場合、ユーザーに特定のポーズをとることを促して判定を行ってもよい。例えば、制御部３２は、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に「両手の手のひらを見せてください」等のメッセージを表示する。
　ＨＭＤユニット２０により第１撮像モードで撮像が行われている場合、図４Ａに示すように、ユーザーは手のひらを頭部に装着したＨＭＤユニット２０の方に向ける。そのため、ＨＭＤユニット２０から出力された座標情報においては、ユーザーの両手の親指が外側に向くことになる。
　一方、ＨＭＤユニット２０により第２撮像モードで撮像が行われている場合、図４Ｂに示すように、ユーザーは手のひらをテーブル等に載置したＨＭＤユニット２０の方に向ける。そのため、ＨＭＤユニット２０から出力された座標情報においては、ユーザーの両手の親指が内側に向くことになる。
　いずれの場合も、手が上向きであるか下向きであるか、および腕が交差しているか否か等を組み合わせて判定を行うことにより、より正確な判定を行うことができる。

　以上説明したように、ユーザーに特定のポーズをとることを促し、座標情報においてそのポーズの特徴を確認することにより、撮像モードの判定を確実に行うことができる。なお、第１撮像モードおよび第２撮像モードによる座標情報において差異が発生し、識別可能なポーズであれば、上記以外のポーズを採用してもよい。

　制御値算出部３２２は、判定部３２１により判定した撮像モードに応じて、ＨＭＤユニット２０、コントローラ４０、および表示装置５０を含む外部装置へのフィードバック制御の制御値を算出する。上述したように、ＨＭＤユニット２０およびコントローラ４０は、ユーザー操作を受け付けるための操作装置として機能する。そこで、制御値算出部３２２は、ＨＭＤユニット２０およびコントローラ４０のいずれかを介して行われたユーザー操作に応じて、ＨＭＤユニット２０、コントローラ４０、および表示装置５０を含む外部装置へのフィードバック制御の制御値を算出する。算出された制御値は、通信部３１を介してコントローラ４０に出力される。

　画像生成部３２３は、判定部３２１により判定した撮像モードに応じて、ユーザーの状態を示す表示画像を生成する。より具体的には、画像生成部３２３は、制御値算出部３２２により算出した制御値に応じて、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に表示する表示画像を生成する。生成された表示画像は、通信部３１を介してＨＭＤユニット２０および表示装置５０に出力される。なお、表示画像には、ユーザーの視点を再現したいわゆるFirst Person View画像、ユーザーを外部からみたいわゆるThird Person View画像などが含まれる。どのような表示画像を用いるかは、プレイ対象のゲームの内容や、シーン等目的に応じて定められる。
　また、制御値の算出、および表示画像の生成の詳細については、後述するコントローラ４０および表示装置５０の構成の説明と関連して説明を行う。

　コントローラ４０は、図２に示すように、通信部４１、操作部４２、力覚提示部４３、振動部４４、および音声出力部４５を含む。ユーザーはコントローラ４０を操作することによりゲームに関する各種操作を行うことができる。
　通信部４１は、情報処理装置３０の通信部３１から出力された制御値を受信して、力覚提示部４３、振動部４４、および音声出力部４５の各部に出力する。また、通信部４１は、操作部４２により受け付けたユーザー操作に関する情報を、情報処理装置３０に出力する。
　操作部４２は、ボタンおよびパッドなどの複数の操作子を備え、操作子に対するユーザーの操作入力を受け付ける。
　力覚提示部４３は、操作部４２の少なくとも一部の操作子に設けられ、情報処理装置３０から供給される制御値にしたがい、ユーザー操作に抗する、あるいは連動する力をユーザーに提示する。具体的に、力覚提示部４３は、回転するロータを含むモータやアクチュエータ等で構成できる。力覚提示部４３を構成する力覚提示装置については広く知られたものを採用できるので、ここでの詳しい説明を省略する。

　振動部４４は、情報処理装置３０から供給される制御値にしたがい、振動を発生するものであり、例えばモータにより構成できる。振動部４４は、ユーザー操作が行われた場合に振動を発生することにより、ユーザー操作が正しく行われ、情報処理装置３０に認識されたことをユーザーに通知することが可能である。
　音声出力部４５は、情報処理装置３０から供給される制御値にしたがい、音声を出力するものであり、例えばスピーカにより構成できる。音声出力部４５は、ユーザー操作が行われた場合に音声を出力することにより、ユーザー操作が正しく行われ、情報処理装置３０に認識されたことをユーザーに通知することが可能である。
　なお、上述した力覚提示部４３による力覚の提示と連動して、振動部４４による振動と、音声出力部４５による音声出力との少なくとも一方が行われることにより、ユーザーへのフィードバック制御の多様性を高めることが可能である。

　情報処理装置３０の制御値算出部３２２は、上述したように、コントローラ４０へのフィードバック制御の制御値を算出するが、より具体的には、判定部３２１により判定された撮像モードに応じて、コントローラ４０の力覚提示部４３、振動部４４、および音声出力部４５へのフィードバック制御の制御値を算出する。
　判定部３２１により第１撮像モードと判定された場合、制御値算出部３２２は、ＨＭＤユニット２０による第１撮像モードでの撮像に基づく座標情報に基づいて、コントローラ４０へのフィードバック制御の制御値を算出する。したがって、ＨＭＤユニット２０による第１撮像モードの撮像に基づく第１の処理を行うことができる。
　一方、判定部３２１により第２撮像モードと判定された場合、制御値算出部３２２は、ＨＭＤユニット２０による第２撮像モードでの撮像に基づく座標情報に基づいて、コントローラ４０へのフィードバック制御の制御値を算出する。したがって、ＨＭＤユニット２０による第２撮像モードの撮像に基づく第２の処理を行うことができる。

　力覚提示部４３に関して、制御値算出部３２２は、ユーザー操作に応じたフィードバック制御としてどのような力覚を提示させるかを示す制御値を算出する。振動部４４に関して、制御値算出部３２２は、ユーザー操作に応じたフィードバック制御としてどのような振動を発生させるかを提示するかを示す制御値を算出する。音声出力部４５に関して、制御値算出部３２２は、ユーザー操作に応じたフィードバック制御としてどのような音声を出力させるかを示す制御値を算出する。制御値算出部３２２による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。

　なお、ここまで説明したコントローラ４０には公知の様々な構成を適用することが可能である。例えば、両手のそれぞれに把持可能な一対のコントローラにより構成されてもよいし、キーボートのような文字入力が可能なコントローラにより構成されてもよいし、スマートフォンなどのアプリケーションにより構成されてもよい。
　また、コントローラ４０に、音声入力部を備え、音声認識技術を適用してもよい。例えば、コントローラ４０にマイクなどの音声入力部と音声認識部とを備え、ユーザーが発声するコマンドや、ユーザーの呼びかけなどを示す情報を、通信部４１を介して情報処理装置３０に供給してもよい。

　表示装置５０は、図２に示すように、受信部５１、および表示部５２を含む。
　受信部５１は、情報処理装置３０の画像生成部３２３が生成した表示画像を示す情報を、通信部３１を介して受信する。
　表示部５２は、例えばＬＣＤや有機ＥＬなどのモニタを備え、受信部５１により受信した情報に基づき、表示画像を表示することにより、ユーザーに提示することが可能である。

　なお、システム１は、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２の２つの表示部を備える。表示画像は、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２の両方に表示されてもよいし、いずれか一方の表示部のみに表示されてもよい。例えば、第１撮像モードにおいては、ユーザーがＨＭＤユニット２０を装着していると考え、ＨＭＤユニット２０の表示部２７のみに表示画像を表示してもよい。また、例えば、第２撮像モードにおいては、ユーザーがＨＭＤユニット２０を装着していないと考え、表示装置５０の表示部５２のみに表示画像を表示してもよい。

　また、上述した表示装置５０には公知の様々な構成を適用することが可能である。例えば、図１Ａおよび図１Ｂに示した専用の表示装置により構成されてもよいし、コンピュータの表示装置により構成されてもよいし、スマートフォンなどの端末装置の表示装置により構成されてもよい。また、表示部５２の表面に接触を検知するタッチパネルを備えてもよい。

　情報処理装置３０の制御値算出部３２２は、上述したように、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に表示する表示画像へのフィードバック制御の制御値を算出する。より具体的には、制御値算出部３２２は、判定部３２１により判定された撮像モードに応じて、表示画像へのフィードバック制御の制御値を算出する。
　判定部３２１により第１撮像モードと判定された場合、制御値算出部３２２は、ＨＭＤユニット２０による第１撮像モードでの撮像に基づく座標情報に基づいて、表示画像へのフィードバック制御の制御値を算出する。したがって、ＨＭＤユニット２０による第１撮像モードの撮像に基づく第１の処理を行うことができる。
　一方、判定部３２１により第２撮像モードと判定された場合、制御値算出部３２２は、ＨＭＤユニット２０による第２撮像モードでの撮像に基づく座標情報に基づいて、表示画像へのフィードバック制御の制御値を算出する。したがって、ＨＭＤユニット２０による第２撮像モードの撮像に基づく第２の処理を行うことができる。
　制御値算出部３２２は、ユーザー操作に応じたフィードバック制御として表示画像をどのように変化させるかを示す制御値を算出する。制御値算出部３２２による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。

　情報処理装置３０の画像生成部３２３は、上述したように、制御値算出部３２２により算出した制御値に応じて、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に表示する表示画像を生成する。より具体的には、画像生成部３２３は、表示画像を変化させるための制御値にしたがって、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に表示する表示画像を新たに生成する。

　図５は、第１実施形態に係るＨＭＤユニット２０の処理の例を示すフローチャートである。図示された例では、ＲＧＢカメラ２１のイメージセンサ２１１がＲＧＢ画像信号２１３を生成する（ステップＳ１０１）。
　そして、算出部２４がユーザーに関する座標情報を算出し（ステップＳ１０２）、情報出力部２５が座標情報、および姿勢情報を出力する（ステップＳ１０３）。
　ＨＭＤユニット２０はステップＳ１０１からステップＳ１０３の処理を繰り返すことにより、ユーザーの状態を示す各種情報を情報処理装置３０に継続的に供給することが可能である。

　図６および図７は、第１実施形態に係る情報処理装置３０の処理の例を示すフローチャートである。図６に図示された例では、通信部３１がＨＭＤユニット２０から供給された各種情報を取得する（ステップＳ２０１）。
　そして、判定部３２１が、ＨＭＤユニット２０から出力された座標情報にユーザーの顔または頭が含まれるか否かを判定し（ステップＳ２０２）、座標情報にユーザーの顔または頭が含まれないと判定した場合（ステップＳ２０２ＮＯ）には後述するステップＳ２０４に進み、座標情報にユーザーの顔または頭が含まれると判定した場合（ステップＳ２０２ＹＥＳ）には、判定部３２１が第２撮像モードであると判定する（ステップＳ２０３）。

　座標情報にユーザーの顔または頭が含まれないと判定した場合（ステップＳ２０２ＮＯ）、判定部３２１が、ＨＭＤユニット２０から出力された座標情報においてユーザーの手が腕より手前にあるか否かを判定し（ステップＳ２０４）、座標情報においてユーザーの手が腕より手前にないと判定した場合（ステップＳ２０４ＮＯ）には後述するステップＳ２０５に進み、座標情報においてユーザーの手が腕よりも手前にあると判定した場合（ステップＳ２０４ＹＥＳ）には、ステップＳ２０３に戻る。
　座標情報においてユーザーの手が腕より手前にないと判定した場合（ステップＳ２０４ＮＯ）には、判定部３２１が第１撮像モードであると判定する（ステップＳ２０５）。

　なお、ステップＳ２０３またはステップＳ２０５において撮像モードを判定した後、制御部３２は、再びステップＳ２０１に戻り、処理を繰り返すことにより、継続的に撮像モードの判定を行う。また、所定の時間を経過しても撮像モードの判定が行われない場合には、制御部３２は、下記の処理を行ってもよい。
　図７に図示された例では、制御部３２は、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２にユーザーに特定のポーズをとることを促すメッセージを表示する（ステップＳ３０１）。ここでは例えば「両手の手のひらを見せてください」とのメッセージを表示する。
　次に、通信部３１がＨＭＤユニット２０から供給された各種情報を再び取得する（ステップＳ３０２）。そして、判定部３２１が、ＨＭＤユニット２０から出力された座標情報においてユーザーの親指が外側を向いているか否かを判定し（ステップＳ３０３）、座標情報においてユーザーの親指が外側を向いていると判定した場合（ステップＳ３０３ＹＥＳ）には、判定部３２１が第１撮像モードであると判定し（ステップＳ３０４）、座標情報においてユーザーの親指が外側を向いていないと判定した場合（ステップＳ３０３ＮＯ）には、判定部３２１が第２撮像モードであると判定する（ステップＳ３０５）。

　図７に示したように、ユーザーに特定のポーズをとることを促して判定を行う代わりに、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２にエラーメッセージを表示するなどしてユーザーに報知する構成としてもよい。また、図７に示したように、ユーザーに特定のポーズをとることを促して判定を行っても撮像モードの判定が行われない場合に、上述したようにユーザーに報知する構成としてもよい。

　プレイ対象のゲームの内容等に応じて、ユーザーが撮像モードを変更した際には、ＲＧＢカメラ２１が撮像する対象である被写体（被写界）が変化し、結果としてＲＧＢ画像信号２１３の内容が変化する。そして、ＲＧＢ画像信号２１３の内容が変化すると、ＲＧＢ画像信号２１３に基づいて算出される座標情報にその変化が反映される。上述したように、制御部３２は、撮像モードを一旦判定した後、処理を繰り返す。したがって、システム１では、撮像モードの変更に追従して、座標情報に基づく撮像モードの判定を行うことができる。

　以上で説明したような本発明の第１実施形態によれば、ＨＭＤユニット２０は、第１画像センサであるイメージセンサ２１１を含み、ユーザーの一人称視点で撮像する第１撮像モード、および、ユーザーの三人称視点からユーザーを撮像する第２撮像モードのいずれかにより撮像を行う。そして、算出部２４は、ＲＧＢ画像信号２１３に基づいてユーザーを認識し、ユーザーに関する座標情報を算出する。そして、情報処理装置３０の判定部３２１は、座標情報に基づいて、第１撮像モード、および、第２撮像モードのいずれによる撮像が行われているかを判定し、第１撮像モードと判定された場合には、制御部３２は第１撮像モードにおいて算出された座標情報に基づいて第１の処理を行い、第２撮像モードと判定された場合には、制御部３２は第２撮像モードにおいて算出された座標情報に基づいて第２の処理を行う。そのため、ユーザーが第１撮像モードおよび第２撮像モードに関して特別な設定等をすることなく適切な処理が可能であり、ユーザーにとって利便性が高く、正確に撮像モードに応じた処理を行うことができる。
　また、第１実施形態のＨＭＤユニット２０は、ユーザーに関する座標情報を算出することによりユーザー操作を受け付けることができるため、従来のポインティングデバイス方式の操作装置のようにカーソル位置を維持するためにユーザーの肉体疲労を引き起こすこともない。また、ＨＭＤユニット２０は、従来の姿勢検出方式の操作装置のように認識対象となるマーカーやアタッチメントをユーザーに装着させる必要もない。

　また、第１実施形態では、座標情報は、ユーザーの姿勢に関する特徴点、ユーザーの腕の形状に関する特徴点、またはユーザーの手指の形状に関する特徴点の少なくともいずれかの座標情報を含む。したがって、特徴的なユーザーの状態を把握して座標情報を算出することができる。

　また、第１実施形態では、ＨＭＤユニット２０の算出部２４は、複数の関節を有する人物の画像と、複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデル２４２に基づいて、ＲＧＢ画像信号２１３に基づく画像に含まれる人物の少なくとも１つの関節の座標情報を算出する。したがって、ユーザーに関する座標情報を的確かつ高速に算出することができる。

　また、第１実施形態では、ＨＭＤユニット２０をユーザーの体に装着可能な装着部２０Ａを備える。したがって、装着部２０ＡによってＨＭＤユニット２０をユーザーの頭部に装着した場合には第１撮像モードによる撮像を行い、装着部２０ＡによってＨＭＤユニット２０をユーザーの頭部に装着せずにテーブル等に載置した場合には第２撮像モードによる撮像を行うことが可能である。

＜第２実施形態＞
　以下、図面を参照して本発明の第２実施形態について説明する。第２実施形態では、第１実施形態と異なる部分についてのみ説明し、第１実施形態と同様の部分については説明を省略する。また、第２実施形態においては、第１実施形態と実質的に同一の機能構成を有する構成要素については、同一の符号を付す。
　図８は、本発明の第２実施形態に係るシステム２の全体を示す模式図であり、図９は、システム２の概略的な構成を示すブロック図である。
　第２実施形態に係るシステム２は、図８に示すように、第１実施形態のシステム１に加えて、第２センサ装置であるカメラユニット６０を含むゲームシステムである。また、システム２は、第１実施形態のシステム１の情報処理装置３０に代えて、情報処理装置７０を含む。

　第２実施形態のシステム２において、カメラユニット６０は、ＨＭＤユニット２０と同様に、ゲームのプレイヤーであるユーザーに関する座標情報を算出して、情報処理装置７０に送信する。つまり、カメラユニット６０は、ユーザーに関する座標情報を算出して出力することにより、ＨＭＤユニット２０およびコントローラ４０と同様に、ユーザー操作を受け付けるための操作装置として機能する。
　カメラユニット６０は、第１実施形態で説明した第２撮像モードによる撮像を行うための撮像装置である。カメラユニット６０の最適な配置に関しては、第１実施形態のＨＭＤユニット２０が第２撮像モードで撮像を行う場合と同様である。

　図１０は、カメラユニット６０の概略的な構成を示すブロック図である。
　カメラユニット６０は、ＲＧＢカメラ６１と、ＩＭＵ６３と、第１の演算処理装置として機能する算出部６４と、情報出力部６５とを含む。ＲＧＢカメラ６１、ＩＭＵ６３、算出部６４、情報出力部６５の各部は、それぞれ第１実施形態のＨＭＤユニット２０のＲＧＢカメラ２１、ＩＭＵ２３、算出部２４、情報出力部２５の各部と同様の構成を有する。
　そして、ＲＧＢカメラ６１は、第１実施形態のＲＧＢカメラ２１のイメージセンサ２１１および処理回路２１２と同様の構成を有するイメージセンサ６１１および処理回路６１２によって、ＲＧＢ画像信号６１３を生成する。
　算出部６４は、第１実施形態の算出部２４の座標算出部２４１および学習済みモデル２４２と同様の構成を有する座標算出部６４１および学習済みモデル６４２により、ＲＧＢカメラ６１において生成されたＲＧＢ画像信号６１３に基づいて、ユーザーに関する座標情報を算出する。
　情報出力部６５は、算出部６４により算出したユーザーに関する座標情報と、ＩＭＵ６３により取得した姿勢情報とを情報処理装置７０に出力する。

　ここまで説明したように、カメラユニット６０は、第１実施形態のＨＭＤユニット２０と同様に、ＲＧＢ画像信号６１３の生成からユーザーに関する座標情報の算出までを単体で完結し、情報処理装置７０に対してＲＧＢ画像信号６１３は出力せずに、算出した座標情報および姿勢情報を出力することができる。なお、カメラユニット６０は、独立した電源を有することが好ましい。

　カメラユニット６０およびＨＭＤユニット２０のいずれを利用するかは、プレイ対象のゲームの内容等の目的に応じて異なる。
　図１１Ａおよび図１１Ｂは、第２実施形態における撮像モードについて説明する図である。第２実施形態のシステム２は、ＨＭＤユニット２０により第１撮像モードの撮像を行い、カメラユニット６０により第２撮像モードの撮像を行う。

　第１撮像モードでは、図１１Ａに示すように、ユーザーの頭部に装着されたＨＭＤユニット２０により撮像を行う。一方、第２撮像モードでは、図１１Ｂに示すように、テーブル等に載置されたカメラユニット６０により撮像を行う。
　したがって、第１実施形態と同様に、第２実施形態の第１撮像モードおよび第２撮像モードでは、生成される画像信号に基づく画像データに含まれる被写体が異なる。

　再び図９を参照して、情報処理装置７０は、第１実施形態の情報処理装置３０の通信部３１に代えて通信部７１を含み、制御部３２に代えて制御部７２を含む。
　通信部７１は、ＨＭＤユニット２０の情報出力部２５から出力されたユーザーに関する座標情報とおよび姿勢情報に加えて、カメラユニット６０の情報出力部６５から出力されたユーザーに関する座標情報と、姿勢情報とを受信し、ＨＭＤユニット２０の表示部２７に表示させる表示画像を出力する。なお、以降では区別のために、ＨＭＤユニット２０の情報出力部２５から出力されたユーザーに関する座標情報を座標情報Ｃ_２０と称し、カメラユニット６０の情報出力部６５から出力されたユーザーに関する座標情報を座標情報Ｃ_６０と称する。

　制御部７２は、第１実施形態の情報処理装置３０の制御部３２の判定部３２１に代えて判定部７２１の機能を含み、制御値算出部３２２に代えて制御値算出部７２２の機能を含み、画像生成部３２３に代えて画像生成部７２３の機能を含む。
　判定部７２１は、ＨＭＤユニット２０から出力された座標情報Ｃ_２０またはカメラユニット６０から出力された座標情報Ｃ_６０に基づいて、第１撮像モードおよび第２撮像モードのいずれによる撮像が行われているかを判定する。判定は第１実施形態の情報処理装置３０と同様に行われる。

　制御値算出部７２２は、判定部７２１により判定した撮像モードに応じて、ＨＭＤユニット２０、コントローラ４０、および表示装置５０を含む外部装置へのフィードバック制御の制御値を算出する。上述したように、ＨＭＤユニット２０、コントローラ４０、およびカメラユニット６０は、ユーザー操作を受け付けるための操作装置として機能する。そこで、制御値算出部７２２は、ＨＭＤユニット２０、コントローラ４０、およびカメラユニット６０のいずれかを介して行われたユーザー操作に応じて、ＨＭＤユニット２０、コントローラ４０、および表示装置５０を含む外部装置へのフィードバック制御の制御値を算出する。制御値の算出は第１実施形態の情報処理装置３０と同様に行われる。そして、算出された制御値は、通信部７１を介してコントローラ４０に出力される。

　画像生成部７２３は、判定部７２１により判定した撮像モードに応じて、ユーザーの状態を示す表示画像を生成する。表示画像の生成は第１実施形態の情報処理装置３０と同様に行われる。

　コントローラ４０は、第１実施形態と同様の構成および機能を有する。
　情報処理装置７０の制御値算出部７２２は、上述したように、コントローラ４０へのフィードバック制御の制御値を算出するが、判定部７２１により第１撮像モードと判定された場合、制御値算出部７２２は、ＨＭＤユニット２０から出力された座標情報Ｃ_２０に基づいて、コントローラ４０へのフィードバック制御の制御値を算出する。ＨＭＤユニット２０から出力された座標情報Ｃ_２０を用いて制御値を算出することにより、ＨＭＤユニット２０を操作装置とした第１撮像モードに基づく第１の処理を行うことができる。
　一方、判定部７２１により第２撮像モードと判定された場合、制御値算出部７２２は、カメラユニット６０から出力された座標情報Ｃ_６０に基づいて、コントローラ４０へのフィードバック制御の制御値を算出する。カメラユニット６０から出力された座標情報Ｃ_６０を用いて制御値を算出することにより、カメラユニット６０を操作装置とした第２撮像モードに基づく第２の処理を行うことができる。

　表示装置５０は、第１実施形態と同様の構成および機能を有する。
　情報処理装置７０の制御値算出部７２２は、上述したように、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２に表示する表示画像へのフィードバック制御の制御値を算出するが、判定部７２１により第１撮像モードと判定された場合、制御値算出部７２２は、ＨＭＤユニット２０から出力された座標情報Ｃ_２０に基づいて、表示画像へのフィードバック制御の制御値を算出する。ＨＭＤユニット２０から出力された座標情報Ｃ_２０を用いて制御値を算出することにより、ＨＭＤユニット２０を操作装置とした第１撮像モードに基づく処理を行うことができる。
　一方、判定部７２１により第２撮像モードと判定された場合、制御値算出部７２２は、カメラユニット６０から出力された座標情報Ｃ_６０に基づいて、表示画像へのフィードバック制御の制御値を算出する。カメラユニット６０から出力された座標情報Ｃ_６０を用いて制御値を算出することにより、カメラユニット６０を操作装置とした第２撮像モードに基づく処理を行うことができる。

　図１２は、第２実施形態に係る情報処理装置７０の処理の例を示すフローチャートである。図示された例では、通信部７１がＨＭＤユニット２０およびカメラユニット６０のそれぞれから供給された各種情報を取得する（ステップＳ４０１）。
　判定部７２１が、カメラユニット６０から出力された座標情報Ｃ_６０にユーザーの顔または頭が含まれるか否かを判定し（ステップＳ４０２）、座標情報Ｃ_６０にユーザーの顔または頭が含まれないと判定した場合（ステップＳ４０２ＮＯ）には後述するステップＳ４０５に進み、座標情報Ｃ_６０にユーザーの顔または頭が含まれると判定した場合（ステップＳ４０２ＹＥＳ）には、カメラユニット６０から出力された座標情報Ｃ_６０が使用可能か否かを判定する（ステップＳ４０３）。座標情報Ｃ_６０が使用可能か否かは、例えば座標情報Ｃ_６０に基づく制御値の算出が可能か否かに基づいて判定することができる。座標情報Ｃ_６０が使用可能と判定した場合（ステップＳ４０３ＹＥＳ）は、判定部７２１が第２撮像モードであると判定する（ステップＳ４０４）。一方、座標情報Ｃ_６０が使用可能でないと判定した場合（ステップＳ４０３ＮＯ）は、判定部７２１が撮像モードの判定を行うことができないため、ステップＳ４０１に戻る。

　座標情報Ｃ_６０にユーザーの顔または頭が含まれないと判定した場合（ステップＳ４０２ＮＯ）、判定部７２１が、カメラユニット６０から出力された座標情報Ｃ_６０においてユーザーの手が腕より手前にあるか否かを判定し（ステップＳ４０５）、座標情報Ｃ_６０においてユーザーの手が腕より手前にないと判定した場合（ステップＳ４０５ＮＯ）には後述するステップＳ４０６に進み、座標情報Ｃ_６０においてユーザーの手が腕よりも手前にあると判定した場合（ステップＳ４０５ＹＥＳ）には、ステップＳ４０３に戻る。
　判定部７２１が、座標情報Ｃ_６０においてユーザーの手が腕より手前にないと判定した場合（ステップＳ４０５ＮＯ）、ＨＭＤユニット２０から出力された座標情報Ｃ_２０が使用可能か否かを判定する（ステップＳ４０６）。座標情報Ｃ_２０が使用可能か否かは、座標情報Ｃ_２０に基づく制御値の算出が可能か否かに基づいて判定することができる。座標情報Ｃ_２０が使用可能と判定した場合（ステップＳ４０６ＹＥＳ）は、判定部７２１が第１撮像モードであると判定する（ステップＳ４０７）。一方、座標情報Ｃ_２０が使用可能でないと判定した場合（ステップＳ４０６ＮＯ）は、判定部７２１が撮像モードの判定を行うことができないため、ステップＳ４０１に戻る。

　なお、ステップＳ４０４またはステップＳ４０７において撮像モードを判定した後、制御部７２は、再びステップＳ４０１に戻り、処理を繰り返すことにより、継続的に撮像モードの判定を行う。また、所定の時間を経過しても撮像モードの判定が行われない場合には、第１実施形態の制御部３２と同様に、ユーザーに特定のポーズをとることを促して判定を行う構成としてもよいし、ＨＭＤユニット２０の表示部２７、および表示装置５０の表示部５２にエラーメッセージを表示するなどしてユーザーに報知する構成としてもよい。また、ユーザーに特定のポーズをとることを促して判定を行っても撮像モードの判定が行われない場合に、上述したようにユーザーに報知する構成としてもよい。
　例えば、ユーザーに「両手の手のひらを見せるポーズ」を促す場合、判定部７２１は、ＨＭＤユニット２０から出力された座標情報Ｃ_２０においてユーザーの親指が外側を向いているか否かと、カメラユニット６０から出力された座標情報Ｃ_６０においてユーザーの親指が内側を向いているか否かとの少なくとも一方を判定することにより撮像モードの判定を行うことができる。

　以上で説明したような本発明の第２実施形態によれば、システム２が第１撮像モードで撮像を行う第１撮像装置であるＨＭＤユニット２０と、第２撮像モードで撮像を行う第２撮像装置であるカメラユニット６０とを含み、判定部７２１がＨＭＤユニット２０およびカメラユニット６０の何れにより撮像が行われているかを判定する。そして、ＨＭＤユニット２０により撮像が行われていると判定された場合には、制御部７２はＨＭＤユニット２０から出力された座標情報Ｃ_２０に基づいて第１の処理を行い、カメラユニット６０により撮像が行われていると判定された場合には、制御部７２はカメラユニット６０から出力された座標情報Ｃ_６０に基づいて第２の処理を行う。そのため、ＨＭＤユニット２０およびカメラユニット６０を併用する際にも、第１実施形態と同様の効果を得ることができる。

　また、第２実施形態のカメラユニット６０は、ＲＧＢ画像信号６１３の生成からユーザーに関する座標情報の算出までをカメラユニット６０で行い、ＲＧＢ画像信号６１３は出力せずに、座標情報と、イメージセンサ６１１の姿勢情報とを出力することにより、通信負荷や通信遅延の問題を低減することができる。さらに、ＲＧＢ画像信号６１３を出力する必要がないため、プライバシー保護の点でも有用である。

＜第３実施形態＞
　以下、図面を参照して本発明の第３実施形態について説明する。第３実施形態では、第１実施形態と異なる部分についてのみ説明し、第１実施形態と同様の部分については説明を省略する。また、第３実施形態においては、第１実施形態と実質的に同一の機能構成を有する構成要素については、同一の符号を付す。
　第３実施形態に係るシステム３は、図示を省略するが、第１実施形態のシステム１と同様の情報処理装置３０と、コントローラ４０と、表示装置５０とを含むとともに、システム１のＨＭＤユニット２０に代えて、ＨＭＤユニット８０を含むゲームシステムである。

　図１３は、システム３におけるＨＭＤユニット８０の概略的な構成を示すブロック図である。
　ＨＭＤユニット８０は、第１実施形態のシステム１のＨＭＤユニット２０と同様に、ＲＧＢカメラ８１と、ＩＭＵ８３と、第１の演算処理装置として機能する算出部８４と、情報出力部８５と、受信部８６と、表示部８７とを含むとともに、第２撮像装置であるＥＤＳ（Event Driven Sensor）８２を含む。ＲＧＢカメラ８１、ＩＭＵ８３、算出部８４、
情報出力部８５、受信部８６、表示部８７の各部は、それぞれ第１実施形態のＨＭＤユニット２０のＲＧＢカメラ２１、ＩＭＵ２３、算出部２４、情報出力部２５、受信部２６、表示部２７の各部と同様の構成を有する。
　ＲＧＢカメラ８１は、第１実施形態のＲＧＢカメラ２１のイメージセンサ２１１および処理回路２１２と同様の構成を有するイメージセンサ８１１および処理回路８１２によって、ＲＧＢ画像信号８１３を生成する。

　ＥＤＳ８２は、センサアレイを構成する第２画像センサであるセンサ８２１と、センサ８２１に接続される処理回路８２２とを含む。センサ８２１は、受光素子を含み、画素ごとに入射する光の強度変化、より具体的には予め定めた所定の値を超える輝度変化を検出したときに第２画像信号であるイベント信号８２３を生成するイベント駆動型のビジョンセンサである。処理回路８２２を経て出力されるイベント信号８２３は、センサ８２１の識別情報（例えばピクセルの位置）と、輝度変化の極性（上昇または低下）と、タイムスタンプとを含む。また、輝度変化を検出した際に、ＥＤＳ８２は、ＲＧＢ画像信号８１３の生成頻度（ＲＧＢカメラ８１のフレームレート）より大幅に高い頻度でイベント信号８２３を生成することができる。
　なお、本明細書では、上述したように、当該信号に基づいて画像を構築可能な信号を画像信号という。したがって、ＲＧＢ画像信号８１３およびイベント信号８２３は、画像信号の一例を示す。

　第３実施形態において、ＲＧＢ画像信号８１３およびイベント信号８２３に与えられるタイムスタンプは同期している。具体的には、例えば、ＥＤＳ８２でタイムスタンプを生成するために用いられる時刻情報をＲＧＢカメラ８１に提供することによって、ＲＧＢ画像信号８１３およびイベント信号８２３に与えられるタイムスタンプを同期させることができる。あるいは、タイムスタンプを生成するための時刻情報がＲＧＢカメラ８１とＥＤＳ８２とでそれぞれ独立している場合、特定のイベント（例えば、画像全体にわたる被写体の変化）が発生した時刻を基準にしてタイムスタンプのオフセット量を算出することによって、事後的にＲＧＢ画像信号８１３およびイベント信号８２３に与えられるタイムスタンプを同期させることができる。

　また、第３実施形態では、事前に実行されるＲＧＢカメラ８１とＥＤＳ８２とのキャリブレーション手順によって、ＥＤＳ８２のセンサ８２１がＲＧＢ画像信号８１３の１または複数のピクセルに対応付けられ、イベント信号８２３はＲＧＢ画像信号８１３の１または複数のピクセルにおける光の強度変化に応じて生成される。より具体的には、例えば、ＲＧＢカメラ８１とＥＤＳ８２とで共通の校正パターンを撮像し、ＲＧＢカメラ８１およびＥＤＳ８２のぞれぞれの内部パラメータおよび外部パラメータからカメラとセンサとの間の対応パラメータを算出することによって、ＲＧＢ画像信号８１３の１または複数のピクセルにセンサ８２１を対応付けることができる。

　ＩＭＵ８３は、イメージセンサ８１１およびセンサ８２１の姿勢を検出する慣性センサであり、所定の周期で、または、所定のタイミングでイメージセンサ８１１およびセンサ８２１の三次元の姿勢情報を取得し、姿勢情報を情報出力部８５に出力する。

　算出部８４は、座標算出部８４１、および学習済みモデル８４２を含み、ＥＤＳ８２において生成されたイベント信号８２３と、ＲＧＢカメラ８１において生成されたＲＧＢ画像信号８１３とに基づいて、ユーザーに関する座標情報を算出する。
　算出部８４の座標算出部８４１は、例えば、イベント信号８２３において同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、ＲＧＢ画像信号８１３の対応する部分に基づいて被写体認識を行うことによりユーザーを認識する。カメラユニット６０の被写界に複数のユーザーが含まれる場合、座標算出部８４１は、それぞれのユーザーを識別する。
　そして、座標算出部８４１は、認識したユーザーごとに、学習済みモデル８４２に基づいて、ＲＧＢ画像信号８１３からユーザーが有する複数の関節の位置を示す座標情報を算出する。ユーザーが有する複数の関節の位置は、ユーザーの姿勢に関する特徴点、ユーザーの腕の形状に関する特徴点、またはユーザーの手指の形状に関する特徴点に相当する。
　学習済みモデル８４２については、第１実施形態と同様であるため説明を省略する。

　情報出力部８５は、算出部８４により算出したユーザーに関する座標情報、およびＩＭＵ８３により取得した姿勢情報を情報処理装置３０に出力する。
　受信部８６および表示部８７は、第１実施形態のＨＭＤユニット２０の受信部２６および表示部２７と同様の構成を有する。

　ここまで説明したように、ＨＭＤユニット８０は、第１実施形態のＨＭＤユニット２０と同様に、ＲＧＢ画像信号８１３およびイベント信号８２３の生成からユーザーに関する座標情報の算出までを単体で完結し、情報処理装置３０に対してＲＧＢ画像信号８１３およびイベント信号８２３は出力せずに、算出した座標情報および姿勢情報を出力することができる。なお、ＨＭＤユニット８０は、第１実施形態のＨＭＤユニット２０と同様に、独立した電源を有することが好ましい。

　情報処理装置３０、コントローラ４０、表示装置５０の各部は、第１実施形態と同様の構成および機能を有する。

　図１４は、第３実施形態に係るＨＭＤユニット８０の処理の例を示すフローチャートである。図示された例では、ＲＧＢカメラ８１のイメージセンサ８１１がＲＧＢ画像信号８１３を生成する（ステップＳ５０１）とともに、ＥＤＳ８２のセンサ８２１がイベント信号８２３を生成する（ステップＳ５０２）。
　そして、算出部８４がユーザーに関する座標情報を算出し（ステップＳ５０３）、情報出力部８５が座標情報および姿勢情報を出力する（ステップＳ５０４）。
　ＨＭＤユニット８０はステップＳ５０１からステップＳ５０４の処理を繰り返すことにより、ユーザーの状態を示す各種情報を情報処理装置３０に継続的に供給することが可能である。

　情報処理装置３０における処理は、第１実施形態と同様であるため、フローチャートの図示および説明を省略する。

　以上で説明したような本発明の第３実施形態では、ＨＭＤユニット８０は、イメージセンサ８１１およびセンサ８２１によりそれぞれ生成したＲＧＢ画像信号８１３およびイベント信号８２３に基づいて、ユーザーに関する座標情報を算出して情報処理装置３０に出力する。したがって、第１実施形態と同様に、ユーザーが第１撮像モードおよび第２撮像モードに関して特別な設定等をすることなく適切な処理が可能であり、ユーザーにとって利便性が高く、正確に撮像モードに応じた処理を行うことができる。さらに、イベント信号８２３を生成するセンサ８２１を利用することにより、レイテンシを抑えつつ、正確に撮像モードに応じた処理を行うことができる。

　なお、第３実施形態では、第１実施形態のシステム１におけるＨＭＤユニット２０に代えて、ＲＧＢカメラ８１に加えてＥＤＳ８２を有するＨＭＤユニット８０を含むシステム３を例に挙げて説明した。しかし、第２実施形態のシステム２のＨＭＤユニット２０に代えて、ＲＧＢカメラに加えてＥＤＳを有するＨＭＤユニットを含む構成としてもよい。さらに、第２実施形態のシステム２のカメラユニット６０に代えて、ＲＧＢカメラに加えてＥＤＳを有するカメラユニットを含む構成としてもよい。いずれの場合も、イベント信号を生成するセンサを利用することにより、レイテンシを抑えつつ、正確に撮像モードに応じた処理を行うことができる。

＜第４実施形態＞
　以下、図面を参照して本発明の第４実施形態について説明する。第４実施形態では、第１実施形態と異なる部分についてのみ説明し、第１実施形態と同様の部分については説明を省略する。また、第４実施形態においては、第１実施形態と実質的に同一の機能構成を有する構成要素については、同一の符号を付す。
　図１５は、第４実施形態に係るシステム４の概略的な構成を示すブロック図である。
　第４実施形態に係るシステム４は、図１５に示すように、第１実施形態のシステム１の情報処理装置３０に代えて、サーバ９０および端末装置１００を含むゲームシステムである。

　サーバ９０は、ＨＭＤユニット２０および端末装置１００とインターネット通信網や、無線によって通信可能に接続されたサーバ（例えば、クラウドサーバ）である。サーバ９０は、第１実施形態の情報処理装置３０と同様の構成を有し、ＨＭＤユニット２０により出力された情報に基づく各種処理を行う。また、端末装置１００は、通信部１０１を備え、通信部１０１は、サーバ９０から出力された情報を受信する。また、通信部１０１は、第１実施形態の情報処理装置３０の通信部３１と同様に、コントローラ４０と相互に通信可能であるとともに、ＨＭＤユニット２０および表示装置５０に表示させる画像を出力する。
　このような構成により、ＲＧＢ画像信号２１３の生成から座標情報の算出までをＨＭＤユニット２０で行い、サーバ９０には座標情報のみを出力することにより、クラウドサーバなどのサーバを用いたゲームシステムにおいても同様の効果を得ることができる。
　さらに、第２実施形態で説明したシステム２および第３実施形態で説明したシステム３についても、同様にサーバを適用することにより、同様の効果を得ることができる。

　なお、上記の各実施形態において情報処理装置で行った処理の一部をＨＭＤユニットおよびカメラユニットで行う構成としてもよい。例えば、第１実施形態の情報処理装置３０における判定部３２１の機能をＨＭＤユニット２０内に備えてもよい。また、例えば、第２実施形態の情報処理装置７０における判定部７２１の機能をＨＭＤユニット２０およびカメラユニット６０内に備えてもよい。いずれの場合も、ＨＭＤユニット２０およびカメラユニット６０は、判定した撮像モードに応じて、座標情報の算出方法、より具体的には、学習済みモデルを変更してもよい。

　また、上記の各実施形態において、ＨＭＤユニットのＲＧＢカメラおよびＥＤＳの数は同数であってもよいし、異なる数であってもよい。また、ＲＧＢカメラおよびＥＤＳの数は、それぞれ１つであってもよいし、複数であってもよい。例えば、複数のＲＧＢカメラを備える場合には、ＲＧＢ画像信号を生成する被写界のレンジを拡大したり、複数のＲＧＢ画像信号から人物の状態を三次元で推定したりすることができる。また、例えば、複数のＥＤＳ１２を備える場合には、イベント信号を生成する被写界のレンジを拡大したり、複数のイベント信号に基づいて、人物の三次元の移動量を算出したりすることができる。カメラユニットのＲＧＢカメラおよびＥＤＳについても同様である。

　また、上記の各実施形態で説明されたＨＭＤユニットおよびカメラユニットは、単一の装置内で実装されてもよいし、複数の装置に分散して実装されてもよい。例えば、各センサの少なくとも一部を独立に備え、その他の構成をＨＭＤユニットおよびカメラユニット本体として実装してもよい。

　以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。

　１・２・３・４…システム、２０・８０…ＨＭＤユニット、２１・６１・８１…ＲＧＢカメラ、２３・６３・８３…ＩＭＵ、２４・６４・８４…算出部、２５・６５・８５…情報出力部、２６・５１・８６…受信部、２７・５２・８７…表示部、３０・７０…情報処理装置、３１・４１・７１・１０１…通信部、３２・７２…制御部、４０…コントローラ、４２…操作部、４３…力覚提示部、４４…振動部、４５…音声出力部、５０…表示装置、６０…カメラユニット、８２…ＥＤＳ、９０…サーバ、１００…端末装置、２１１・６１１・８１１…イメージセンサ、２１２・６１２・８１２・８２２…処理回路、２１３・６１３・８１３…ＲＧＢ画像信号、２４１・６４１・８４１…座標算出部、２４２・６４２・８４２…学習済みモデル、３２１・７２１…判定部、３２２・７２２…制御値算出部、３２３・７２３…画像生成部、８２１…センサ、８２３…イベント信号。

Claims

　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、前記ユーザーの三人称視点から前記ユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置と、
　前記第１画像信号に基づいて前記ユーザーを認識し、前記第１画像信号に基づいて、前記ユーザーに関する座標情報を算出する第１の演算処理装置と、
　前記座標情報に基づいて、前記第１撮像モード、および、前記第２撮像モードのいずれによる撮像が行われているかを判定する第２の演算処理装置と、
　前記第１撮像モードと判定された場合には、前記第１撮像モードにおいて算出された前記座標情報に基づいて第１の処理を行い、前記第２撮像モードと判定された場合には、前記第２撮像モードにおいて算出された前記座標情報に基づいて第２の処理を行う第３の演算処理装置と、を備えるシステム。
　前記座標情報は、前記ユーザーの姿勢に関する特徴点、前記ユーザーの腕の形状に関する特徴点、または前記ユーザーの手指の形状に関する特徴点の少なくともいずれかの座標情報を含む、請求項１に記載のシステム。
　前記第１の演算処理装置は、複数の関節を有する人物の画像と、前記複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、前記ユーザーの少なくとも１つの関節を前記特徴点とした前記座標情報を算出する、請求項２に記載のシステム。
　少なくとも前記撮像装置を前記ユーザーの体に装着可能な装着部を備える、請求項１から請求項３のいずれか１項に記載のシステム。
　前記装着部は、前記撮像装置を前記ユーザーの頭部に装着可能である、請求項４に記載のシステム。
　前記撮像装置と、前記第１の演算処理装置と含むセンサ装置と、
　前記第２の演算処理装置および前記第３の演算処理装置を含む情報処理装置と、を含むシステムであって、
　前記センサ装置は、前記座標情報を前記情報処理装置に出力する、請求項４または請求項５に記載のシステム。
　前記撮像装置は、前記第１撮像モードで撮像を行う第１撮像装置と、前記第２撮像モードで撮像を行う第２撮像装置とを含み、
　前記第２の演算処理装置は、前記第１撮像装置および前記第２撮像装置のいずれにより撮像が行われているかを判定し、
　前記第３の演算処理装置は、前記第１撮像装置と判定された場合には、前記第１撮像装置により生成された前記第１画像信号に基づいて算出された前記座標情報に基づいて前記第１の処理を行い、前記第２撮像装置と判定された場合には、前記第２撮像装置により生成された前記第１画像信号に基づいて算出された前記座標情報に基づいて前記第２の処理を行う、請求項１から請求項３のいずれか１項に記載のシステム。
　少なくとも前記第１撮像装置を前記ユーザーの体に装着可能な装着部を備える、請求項７に記載のシステム。
　前記装着部は、前記第１撮像装置を前記ユーザーの頭部に装着可能である、請求項８に記載のシステム。
　前記第１撮像装置と、前記第１の演算処理装置と含む第１センサ装置と、
　前記第２撮像装置と、前記第１の演算処理装置と含む第２センサ装置と、
　前記第２の演算処理装置および前記第３の演算処理装置を含む情報処理装置と、を含むシステムであって、
　前記第１センサ装置および前記第２センサ装置は、前記座標情報を前記情報処理装置に出力する、請求項７から請求項９のいずれか１項に記載のシステム。
　前記撮像装置は、前記第１画像センサに加えて、画素ごとに入射する光の強度変化を検出したときに非同期的に第２画像信号を生成するイベント駆動型のビジョンセンサを含む第２画像センサを含み、
　前記第１の演算処理装置は、前記第１画像信号および前記第２画像信号に基づいて、前記ユーザーの認識と、前記座標情報の算出との少なくとも一方を行う、請求項１から請求項１０のいずれか１項に記載のシステム。
　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、前記ユーザーの三人称視点から前記ユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像部と、
　前記第１画像信号に基づいて前記ユーザーを認識し、前記第１画像信号に基づいて、前記ユーザーに関する座標情報を算出する演算処理部と、
　前記座標情報を出力する情報出力部と、を備える撮像装置。
　前記座標情報は、前記ユーザーの姿勢に関する特徴点、前記ユーザーの腕の形状に関する特徴点、または前記ユーザーの手指の形状に関する特徴点の少なくともいずれかの座標情報を含む、請求項１２に記載の撮像装置。
　前記演算処理部は、複数の関節を有する人物の画像と、前記複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、前記ユーザーの少なくとも１つの関節を前記特徴点とした前記座標情報を算出する、請求項１３に記載の撮像装置。
　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、前記ユーザーの三人称視点から前記ユーザーを撮像する第２撮像モードのいずれかにより撮像を行い、前記第１画像信号に基づいて前記ユーザーを認識し、前記第１画像信号に基づいて前記ユーザーに関する座標情報を算出し、前記座標情報を出力する撮像装置から、前記座標情報を取得する取得部と、
　前記座標情報に基づいて、前記第１撮像モード、および、前記第２撮像モードのいずれによる撮像が行われているかを判定する第１の演算処理部と、
　前記第１撮像モードと判定された場合には、前記第１撮像モードにおいて算出された前記座標情報に基づいて第１の処理を行い、前記第２撮像モードと判定された場合には、前記第２撮像モードにおいて算出された前記座標情報に基づいて第２の処理を行う第２の演算処理部と、を備える情報処理装置。
　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、前記ユーザーの三人称視点から前記ユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置から、前記第１画像信号を取得する取得ステップと、
　前記第１画像信号に基づいて前記ユーザーを認識し、前記第１画像信号に基づいて、前記ユーザーに関する座標情報を算出する算出ステップと、
　前記座標情報に基づいて、前記第１撮像モード、および、前記第２撮像モードのいずれによる撮像が行われているかを判定する判定ステップと、
　前記第１撮像モードと判定された場合には、前記第１撮像モードにおいて算出された前記座標情報に基づいて第１の処理を行い、前記第２撮像モードと判定された場合には、前記第２撮像モードにおいて算出された前記座標情報に基づいて第２の処理を行う処理ステップと
　を含む情報処理方法。
　所定のタイミングで全画素を同期的にスキャンすることによって第１画像信号を生成する第１画像センサを含み、ユーザーの一人称視点で撮像する第１撮像モード、および、前記ユーザーの三人称視点から前記ユーザーを撮像する第２撮像モードのいずれかにより撮像を行う撮像装置から、前記第１画像信号を取得する機能と、
　前記第１画像信号に基づいて前記ユーザーを認識し、前記第１画像信号に基づいて、前記ユーザーに関する座標情報を算出する機能と、
　前記座標情報に基づいて、前記第１撮像モード、および、前記第２撮像モードのいずれによる撮像が行われているかを判定する機能と、
　前記第１撮像モードと判定された場合には、前記第１撮像モードにおいて算出された前記座標情報に基づいて第１の処理を行い、前記第２撮像モードと判定された場合には、前記第２撮像モードにおいて算出された前記座標情報に基づいて第２の処理を行う機能と
　をコンピュータに実現させる情報処理プログラム。