JP2021111375A

JP2021111375A - 現実のシーンのビデオフラックスの拡張

Info

Publication number: JP2021111375A
Application number: JP2020211233A
Authority: JP
Inventors: メアエロワ; Mehr Eloi; ギッテニービンセント; Guitteny Vincent
Original assignee: Dassault Systemes SE
Current assignee: Dassault Systemes SE
Priority date: 2019-12-31
Filing date: 2020-12-21
Publication date: 2021-08-02
Anticipated expiration: 2040-12-21
Also published as: JP7644595B2; US20210201587A1; CN113068017B; CN113068017A; EP3846136A1; US11631221B2

Abstract

【課題】実オブジェクトを含む現実のシーンのビデオフラックスを拡張するための拡張現実を改善する方法、システム及びコンピュータプログラムを提供する。【解決手段】方法は、ビデオカメラでビデオフラックスを撮影し、ビデオフラックスから、それぞれが実オブジェクトを表す１つ又は複数の２Ｄ画像を抽出し、実オブジェクトを表す３Ｄモデルを提供することと、候補ポーズの中で、ビデオフラックスに対する３Ｄモデルのポーズを決定することと、を含む。この決定は、仮想２Ｄレンダリングと少なくとも１つの２Ｄ画像との間の相互依存性を表す、少なくとも１つの２Ｄ画像及び各所与の候補ポーズについての相互情報に報酬を与える。この方法はまた、ポーズに基づいてビデオフラックスを拡張することを含む。【選択図】図１

Description

本発明はコンピュータプログラム及びシステムの分野に関し、より具体的には、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するための方法、システム、及びプログラムに関する。

オブジェクトの設計、エンジニアリング及び製造のために、多数のシステム及びプログラムが市場に提供されている。ＣＡＤはコンピュータ支援設計の頭字語であり、例えば、オブジェクトを設計するためのソフトウェアソリューションに関する。ＣＡＥはコンピュータ支援エンジニアリングの頭字語であり、例えば、将来の製品の物理的挙動をシミュレートするためのソフトウェアソリューションに関連する。ＣＡＭはコンピュータ支援製造の頭字語であり、例えば、製造処理及び動作を定義するためのソフトウェアソリューションに関する。そのようなコンピュータ支援設計システムでは、グラフィカルユーザーインタフェースが技法の効率に関して重要な役割を果たす。これらの技術は、製品ライフサイクル管理（ＰＬＭ）システム内に組み込まれてもよい。ＰＬＭとは、企業が製品データを共有し、共通の処理を適用し、企業知識を活用して、長期的な企業のコンセプトを越えて、コンセプトから生涯にわたる製品の開発に役立てることを支援するビジネス戦略のことをいう。（ＣＡＴＩＡ、ＥＮＯＶＩＡ及びＤＥＬＭＩＡの商標で）ダッソーシステムズによって提供されるＰＬＭソリューションは、製品工学知識を編成するエンジニアリングハブと、製造工学知識を管理する製造ハブと、企業統合、並びにエンジニアリングハブ及び製造ハブの両方への接続を可能にする企業ハブとを提供する。全体として、システムは最適化された製品定義、製造準備、生産、及びサービスを駆動する動的な知識ベースの製品作成及び意思決定サポートを可能にするために、製品、プロセス、リソースをリンクするオープンオブジェクトモデルを提供する。

この文脈及び他の文脈において、拡張現実は、広く重要性を増している。拡張現実は、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するためのソリューションを包含する。これらの解決策は例えば、ビデオフラックスによって実オブジェクトの表示に情報を追加することを可能にする。これらの解決策はビデオフラックスの異なる２Ｄフレームに対する実オブジェクトの３Ｄモデルのポーズを知ることを必要とし、その結果、３Ｄモデルに関連付けられた情報をビデオフラックスに追加して、それを拡張させることができる。実際、仮想モデルをオブジェクト上に重ね合わせるために、拡張現実システムの参照フレーム内のオブジェクトがどこに位置するかをできるだけ正確に知る必要がある。

３Ｄモデル（例えば、仮想３Ｄメッシュ）が、ビデオフラックスの画像フレーム内の実オブジェクトと同じテクスチャを有する場合、１つの既存の解決策はオブジェクトの仮想ビューを合成し、仮想画像と実画像との間のキーポイント（ＦＥＲＮ又はＳＩＦＴ記述子など）を一致させることである。仮想画像上のキー点は既知の３Ｄ点に対応するので、いくつかの既存の解決策はＥＰｎＰアルゴリズムを使用してポーズを計算することを含む。これは、特に、VLepetit, FMoreno-Noguer, and PFua, EPnP: An Accurate O(n)Solution to PnP Problem, International Journal of Computer Vision(IJCV),2008による論文において提案されているものである。しかしながら、３Ｄモデルがテクスチャ（又は画像上に表示された実オブジェクトとは異なるテクスチャ）を有していないことは非常に一般的であり、これは、正確なポーズをもたらすのに十分にロバストなキーポイントの計算を妨げる。さらに、実オブジェクトは、画像内でセグメント化することが困難であり得、これはまた、オブジェクトの輪郭にわたる任意の信頼できる記述子を妨げる。そのような場合、既存の学習ベースのアプローチは、権利を予測するためにニューラルネットワークを訓練することによって解決策を提供することができる。しかしながら、このような方法は、訓練中に見えなかった実オブジェクトに対してはうまく機能しない。

したがって、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するための拡張現実の改善された解決策が必要とされている。

したがって、本発明は、拡張現実のコンピュータ実施方法を提供する。この方法は、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するためのものである。この方法はビデオカメラでビデオフラックスを撮影することを含む。この方法はまた、ビデオフラックスから、それぞれが実オブジェクトを表す１つ又は複数の２Ｄ画像を抽出することを含む。本方法はまた、実オブジェクトを表す３Ｄモデルを提供することを含む。この方法はまた、候補ポーズの中で、ビデオフラックスに対する３Ｄモデルのポーズを決定することを含む。この決定は、少なくとも１つの２Ｄ画像及び各所与の候補ポーズに対して相互情報に報酬を与える。相互情報は、仮想２Ｄレンダリングと少なくとも１つの２Ｄ画像との間の相互依存性を表す。仮想２Ｄレンダリングは、少なくとも１つの２Ｄ画像に対する所与の候補ポーズの値を有する３Ｄモデルの仮想２Ｄレンダリングである。この方法はまた、ポーズに基づいてビデオフラックスを拡張することを含む。

この方法は、以下のうちの１つ又は複数を含むことができる：
前記１つ以上の２Ｄ画像は前記ビデオフラックスのそれぞれのフレームにそれぞれ対応するいくつかの２Ｄ画像を含み、前記決定するステップは、前記いくつかの２Ｄ画像のそれぞれの２Ｄ画像に対する相互情報に報酬を与える。
前記決定するステップは項を含む目的関数を最適化するステップを含み、各項は、いくつかの２Ｄ画像のそれぞれの２Ｄ画像について相互情報に報酬を与える。
前記目的関数は、前記項の和である。
各項が対応する２Ｄ画像についての相互情報に等しい。
最適化はＮ個（Ｎ＞１）の開始ポーズを提供することと、それぞれの開始ポーズから開始し、それぞれの結果のポーズを出力するたびに、目的関数上でＮ時点、非微分反復最適化アルゴリズムを実行することとを含み、決定することは、Ｎ個の結果のポーズのうちの１つに基づいてポーズを計算することを含む；
前記最適化が、Ｎ＞１であるＮ個の開始ポーズを提供するステップと、目的関数上でＮ回の非微分可能反復最適化アルゴリズムを実行し、各回ではそれぞれの開始ポーズから開始し、それぞれの結果として生じるポーズを出力し、前記結果におけるＮ個のポーズのいずれかに基づいて前記ポーズを計算する。
前記決定するステップは、前記３Ｄモデルの１つ又は複数の点の前記複数の２Ｄ画像上の投影間の写真整合性にさらに報酬を与える。
前記決定するステップが、計算において、写真整合性の前記報酬を実行し、Ｎ個の結果ポーズのうちの１つを出力する刈り取りステップと、最適化後に、写真整合性に前記報酬を与える精緻化を行う。
前記決定するステップは前記３Ｄモデルの３Ｄエッジの投影と、少なくとも１つの２Ｄ画像における２Ｄエッジとの間のマッチにさらに報酬を与え、前記精緻化は前記マッチの前記報酬を任意選択で実行する。
前記少なくとも１つの画像のそれぞれの画像について、前記３Ｄエッジは、前記それぞれの画像における前記３Ｄモデルのシルエットを形成する。
前記相互情報は、前記仮想２Ｄレンダリングから抽出された第１の変数、及び前記少なくとも１つの２Ｄ画像から抽出される第２の変数の間の相互情報である。

前記画素値領域上の前記分布は、所定のサブレンジのうちの１つに属する値を有する画素のカウントである。

本方法を実行するための命令を含むコンピュータプログラムがさらに提供される。

さらに、コンピュータプログラムが記録されたコンピュータ可読記憶媒体が提供される。

さらに、メモリに結合されたプロセッサ及びを含むシステムが提供され、メモリは、その上に記録されたコンピュータプログラムを有する。

方法の一例のフローチャートを示す。システムの一例を示す図である。この方法を示す。この方法を示す。この方法で得られた結果を示す。この方法で得られた結果を示す。

拡張現実のコンピュータ実施方法を提案する。この方法は、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するためのものである。この方法はビデオカメラでビデオフラックスを撮影することを含む。この方法はまた、ビデオフラックスから、それぞれが実オブジェクトを表す１つ又は複数の２Ｄ画像を抽出することを含む。本方法はまた、実オブジェクトを表す３Ｄモデルを提供することを含む。この方法はまた、候補ポーズの中で、ビデオフラックスに対する３Ｄモデルのポーズを決定することを含む。（ポーズの）決定は、少なくとも１つの２Ｄ画像及び各所与の候補ポーズについて相互情報に報酬を与える。相互情報は、仮想２Ｄレンダリングと少なくとも１つの２Ｄ画像との間の相互依存性を表す。仮想２Ｄレンダリングは、少なくとも１つの２Ｄ画像に対する所与の候補ポーズの値を有する３Ｄモデルの仮想２Ｄレンダリングである。この方法はまた、（決定された）ポーズに基づいてビデオフラックスを拡張することを含む。

このような方法は、実オブジェクトを含む現実のシーンのビデオフラックスを拡張するための拡張現実の改善された解決策を形成する。

本方法は前記実オブジェクトを含む実シーンのビデオフラックスに対する実オブジェクトを表す３Ｄモデルのポーズを決定し、ビデオフラックスはビデオカメラで撮影される。したがって、本方法は例えば、任意の既知の方法に従って、決定されたポーズに基づいてビデオフラックスを拡張させることを可能にする。したがって、この方法は、ビデオフラックス撮影の特定の状況において、拡張現実ソリューションの能力を提供する。

次に、この方法は、特定の方法でビデオフラックスに対する３Ｄモデルのポーズを決定する。具体的には、本方法によるポーズの決定がビデオフラックスから抽出された少なくとも１つの２Ｄ画像に対する３Ｄモデルの仮想２Ｄレンダリングと、少なくとも１つの２Ｄ画像自体との間の相互依存性を表す相互情報に報酬を与える。このような報酬のおかげで、本方法は、ビデオフラックスと比較的一致するポーズを決定する。言い換えれば、この方法はカメラの真のポーズパラメータに比較的正確に対応するポーズ、又は拡張現実に関して、許容可能な方法でこれらの真のポーズパラメータをエミュレートするポーズパラメータを決定する。実際、相互情報は、ポーズに基づいて、１つ又は複数の抽出された画像と、その（それらの）対応するレンダリングとの間の相互依存性を捕獲する。このような相互情報に報酬を与えることによって、この方法はこのような依存性をある程度検証しなければならないと仮定し、これは、この方法によって得られた結果の正確さを評価するときに真であることを明らかにする。したがって、拡張は、決定されたポーズに依存するので、比較的正確でもある。

さらに、この方法は、３Ｄモデルのテクスチャと２Ｄ画像のセグメント化との間のいかなる決定論的相関にも依存する必要はない。実際、この方法は、類似性の統計的尺度、すなわち相互情報を使用する。これは、３Ｄモデルの２Ｄレンダリングを考慮して、２Ｄ画像に匹敵するフォーマットを得ることによって可能になる。このような統計的分析を用いて、本方法は、一方では候補ポーズに沿ってレンダリングされた３Ｄモデルを、他方では抽出された２Ｄ画像と相関させることができる十分な情報を有する。したがって、３Ｄモデルはテクスチャ化されていないか、又は代替的にテクスチャ化されているが、２Ｄ画像のセグメント化に相関しないテクスチャを有することができ、及び／又は２Ｄ画像はセグメント化不能（すなわち、セグメント化することが困難又は不可能）であることができる。また、相互情報（確率論的な理論的定義を有する）はテスト中に、例えば仮想２Ｄレンダリングとその（それらの）対応する抽出された２Ｄ画像との間のＬ２ノルムなどの非確率論的な理論的定義を有する基準のみに依存するソリューションよりも正確な結果を提供することを明らかにした。さらに、この方法は、機械学習データセットの事前提供に依存する必要はない。実際、本方法のポーズ決定は完全に決定論的であり得る（すなわち、決定論的アルゴリズムを実行する、すなわち、学習されず、したがって、訓練されたニューラルネットワークではない）。

１つ又は複数の（抽出された）２Ｄ画像はそれぞれがビデオフラックスのそれぞれのフレームに対応するいくつかの２Ｄ画像（すなわち、複数の２Ｄ画像）を含むことができる。そのような場合、決定はそのような各２Ｄ画像について（すなわち、いくつかの２Ｄ画像の各画像について／間で）相互情報に報酬を与えることができる。すなわち、抽出された複数のビデオフラックスのうち、実オブジェクトを表すフレーム毎に報酬が付与される。これは、（例えば、単一の抽出された画像フレームに依存する場合と比較して）ビデオフラックスによって提供される情報の豊富さを比較的完全に活用することを可能にする。これにより、この方法の精度とロバスト性が改善される。

特に、いくつかの２Ｄ画像は、異なる視点からの実オブジェクトの２Ｄ画像を含むことができる。異なる視点は例えば、実オブジェクトの異なる視角を含むことができる。そのために、撮影することは、異なる視点（例えば、異なる角度を含む）から実オブジェクトのビデオフレームを撮影するように、（例えば、実オブジェクトの周りを含む）シーン内でカメラを移動させること（例えば、回転させることを含む）を含むことができる。このような場合、この方法は、ビデオフラックス撮影によって許容される実オブジェクトの全空間カバレッジを利用する。これは、さらに、方法の正確さ及びロバスト性を改善する。抽出された２Ｄ画像は例えば、２０又は１０及未満び／又は２又は３より高い、及び／又は１又は５秒より長い、及び／又は１分又は３０秒未満の期間に分配された複数の画像を含むことができる。

実オブジェクトは、現実世界の製造された製品及び／又は固定／不動であってもよい。実オブジェクトは、航空宇宙、建築、建設、消費財、ハイテク機器、産業機器、輸送、海洋、及び／又は海洋石油／ガス生産又は輸送を含む、種々無制限の産業分野の製品であってもよい。したがって、実オブジェクトは陸上車両の一部（例えば、自動車及び軽トラック機器、レーシングカー、オートバイ、トラック及びモーター機器、トラック及びバス、列車を含む）、航空車両の一部（例えば、機体機器、航空宇宙機器、推進機器、防衛機器、制御装置機器、宇宙機器を含む）、海上車両の一部（例えば、海上機器、商用船、オフショア機器、ヨット及び作業船を含む）、一般機械部品（例えば、工業製造機械、重移動機械又は機器、設置機器、産業機器、加工金属製品、タイヤ製造製品を含む）、電気機械又は電子部品（例えば、家庭用電化製品、セキュリティ及び／又は制御及び／又は計装製品、コンピュータ及び通信機器、半導体、医療デバイス及び機器を含む）、家庭用品（例えば、家具を含む）、などの任意の機械部品であってもよい工業製品であってもよい。家庭用品、庭用品、レジャー用品、ファッション用品、ハード用品小売業者の製品、ソフト用品小売業者の製品、包装（例えば、食品及び飲料及びタバコ、美容及びパーソナルケア、家庭用品包装を含む）であってもよい。実シーンは、実オブジェクトの物理的インスタンスが位置する任意の実世界環境であってもよい。

この方法は、コンピュータで実施される。これは、この方法のステップ（又は実質的に全てのステップ）が少なくとも１つのコンピュータ又は任意のシステムによって実行されることを意味する。したがって、本方法のステップはコンピュータによって、場合によっては完全に自動的に、又は半自動的に実行される。例では、方法のステップのうちの少なくともいくつかのトリガがユーザ／コンピュータ対話を介して実行され得る。必要とされるユーザ／コンピュータ対話のレベルは予測される自動化のレベルに依存し、ユーザの希望を実施する必要性とバランスをとることができる。例では、このレベルがユーザ定義及び／又は事前定義され得る。

方法のコンピュータ実装の典型的な例は、この目的のために適合されたシステムを用いて方法を実行することである。このシステムはメモリに結合されたプロセッサを含み、このメモリは、この方法を実行するための命令を含むコンピュータプログラムに記録されたものであってもよい。メモリはまた、データベースを記憶してもよい。メモリはそのような記憶装置に適合された任意のハードウェアであり、場合によっては、いくつかの物理的に別個の部分（例えば、プログラムのための部分、及び場合によってはデータベースのための部分）を備える。

コンピュータプログラムはコンピュータによって実行可能な命令を含むことができ、命令は、上記装置に該方法を実行させるための手段を含む。プログラムは、システムのメモリを含む任意のデータ記憶媒体に記録可能であってもよい。プログラムは例えば、デジタル電子回路において、又はコンピュータハードウェア、ファームウェア、ソフトウェアにおいて、又はそれらの組み合わせにおいて実装されてもよい。プログラムは装置、例えば、プログラマブルプロセッサによる実行のための機械可読記憶デバイスに有形に具現化された製品として実装されてもよい。方法のステップは入力データに対して動作し、出力を生成することによって、方法の機能を実行するための命令のプログラムを実行するプログラマブルプロセッサによって実行されてもよい。したがって、プロセッサはプログラム可能であり、データ記憶システム、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスからデータ及び命令を受信し、それらにデータ及び命令を送信するように結合され得る。アプリケーションプログラムは、高レベルの手続き型又はオブジェクト指向プログラミング言語で、あるいは必要に応じてアセンブリ言語又は機械語で実装することができる。いずれの場合も、言語は、コンパイルされた言語又は解釈された言語であってもよい。プログラムはフルインストールプログラムであってもよいし、更新プログラムであってもよい。システム上にプログラムを適用すると、いずれにしても、この方法を実行するための命令が得られる。

このシステムは、ディスプレイスクリーンを含むことができる。プロセッサはディスプレイスクリーンに結合され、ディスプレイスクリーン上に（例えば、拡張された）ビデオフラックスを表示するように構成されてもよい。本方法は例えば、（実質的に）ビデオフラックスの撮影中にリアルタイムで、拡張されたビデオフラックス（すなわち、本方法によって実行される拡張ステップから生じる拡張されたビデオフラックス）を表示スクリーン上に表示することを更に含むことができる。あるいは、表示が方法の後に別個に実行されてもよい。

このシステムは、ビデオカメラを備えることができる。カメラは、プロセッサに結合され、ビデオフラックスを撮影するように構成され得る。撮影は例えば、ユーザ対話を介して実行されてもよい。ユーザはカメラを持ち運び、実オブジェクトのビデオを撮影するためにシーン内でカメラを（例えば、周囲で）動かすことができる。ユーザは例えば、カメラを手に持ってもよく、あるいは、カメラが取り付けられるアクセサリ（例えば、眼鏡）を着用してもよい。本方法の他のステップは例えば、ビデオフラックスが撮影されている間にリアルタイムで完全に自動的に（実質的に）実行されてもよい。

システムは例えば、カメラに搭載されたセンサーを備えることによって、又はカメラに対して固定されたセンサーを備えることによって、その移動中にカメラの相対的な位置を決定するように構成されてもよい。センサーは、プロセッサに結合され、カメラの移動中に相対位置を決定するように構成されて、カメラの位置を追跡することができる。センサーは、運動センサー及び／又は慣性センサーを含むことができる。

システムは例えば、ＡＲ（Augmented Reality）及び／又はＡＲ眼鏡用にプログラムされた携帯電話又はタブレットを含むことができる。このようなシステムはそれ自体が拡張現実の分野から知られているように、ＡＲ用に構成することができる。本方法は拡張現実の分野からそれ自体知られているように、システムのビデオカメラでビデオの撮影を実行するために、ユーザによって、シーン内でそのようなシステムを持ち運ぶことを含むことができる。

この方法は、ビデオフラックスを拡張させることによって、拡張された現実を提供する。「ビデオフラックスを拡張させる」とは、ビデオフラックス上に重ね合わされる（すなわちビデオフラックス上に置く）グラフィスムのフラックスを計算することを含むあらゆる動作を意味する。拡張ビデオフラックスはビデオフラックス自体を完全に含んでいてもよく、それには計算されたグラフィスムのフラックスが加算される（重ね合わされる）。これは、例えば、システムが携帯電話又はタブレットであり、ビデオフラックスを撮影するためにユーザによって運ばれている間に、携帯電話又はタブレットの画面上で表示が実行される場合である。あるいは、拡張されたビデオフラックスは、ビデオフラックスから切り離され、それによってグラフィズムの単なる計算されたフラックスで構成されることがある。これは例えば、システムが透明なＡＲメガネを含む場合であり、ユーザはその透明性のおかげでＡＲメガネを通して現実を既に見ているので、最初に撮影されたビデオフラックス自体を見る必要がなく、その結果、計算されたグラフィスムのフラックスのみが、見られている現実の上に重ね合わされてメガネ上に表示される必要がある。これは、すべて、拡張現実の分野からそれ自体知られており、本開示ではさらに詳述しない。

「フラックス」とは、画像の連続（すなわち、時系列）を意味する。したがって、ビデオフラックスは実シーンの一部を表す連続する２Ｄ画像のセットであり、各２Ｄ画像はビデオフラックスのそれぞれのフレームに対応する（すなわち、それぞれのフレームである）。撮影はビデオフラックスの２つの連続するフレームが互いに近接し得る（例えば、１秒又は０．１秒未満だけ分離される）ように、連続的に実行され得る。

「抽出する」とは、ここでは単に、本方法が実オブジェクトの（完全な又は部分的である）ビューを各々が含む１つ以上の撮影されたビデオフレームを選択し、ポーズ決定ステップに、そのフレームに対応する２Ｄ画像を提供することを意味する。各抽出された２Ｄ画像は、実オブジェクトのビューを含む選択されたフレーム又はそのサブパーツであってもよい。本方法は、任意の方法でそのような各サブパーツを識別することを含むことができる。例えば、識別することは、例えば、ユーザによって描かれた、実オブジェクトのビューの周りの（例えば、矩形の）境界ボックスを定義することを含むことができる。

３Ｄモデルは、３Ｄモデル化オブジェクトである。モデル化オブジェクトは、例えばデータベースに格納されたデータによって定義される任意のオブジェクトである。拡張により、「モデル化オブジェクト」という表現はデータ自体を指定し、「３Ｄモデル化オブジェクト」とは、その３Ｄ表現を可能にするデータによってモデル化される任意のオブジェクトを意味する。３Ｄ表現は、全ての角度から部品を見ることを可能にする。例えば、３Ｄモデル化オブジェクトは３Ｄ表現される場合、その軸のいずれかの周り、又は表現が表示される画面内のいずれかの軸の周りで取り扱われ、回転され得る。これは特に、３Ｄモデル化されていない２Ｄアイコンを除外する。３Ｄ表現の表示は設計を容易にする（すなわち、設計者が彼らのタスクを達成する速度を統計的に増加させる）。これは、製品の設計が製造工程の一部であるため、産業界における製造工程を高速化する。

したがって、３Ｄモデルは、実オブジェクトの３Ｄ形状の指定を含む。３Ｄ形状は、３Ｄ参照フレームにおいて定義又は定義可能であってもよい。仕様は、ポーズ決定の仮想２Ｄレンダリング（複数可）を可能にする任意のフォーマットの下にあってもよい。３Ｄモデルは例えば、３Ｄメッシュ又は３Ｄメッシュの計算を可能にする任意の他の３Ｄモデル化オブジェクト、例えば、境界表現又はＢ−Ｒｅｐ（ここで、Ｂ−ＲｅｐはＣＡＤの分野からそれ自体知られているように、テッセレーションによって３Ｄメッシュに変換され得る）であり得る。

３ＤモデルはＣＡＤシステムで設計されている場合もあれば、ＣＡＤシステムで作成された設計の結果として生じる場合もある。ＣＡＤシステムとは、ＣＡＴＩＡなどの、モデル化オブジェクトのグラフィック表現に基づいてモデル化オブジェクトを少なくとも設計するように適合された任意のシステムを意味する。この場合、モデル化オブジェクトを定義するデータは、モデル化オブジェクトの表現を可能にするデータを含む。ＣＡＤシステムは例えば、ある場合には、面又は表面を有するエッジ又は線を使用してＣＡＤモデル化オブジェクトの表現を提供することができる。線、エッジ、又は表面は様々な方法、例えば、不均一有理Ｂスプライン（ＮＵＲＢＳ）で表すことができる。具体的には、ＣＡＤファイルは仕様を含み、そこから幾何学的形状を生成することができ、これにより表現を生成することができる。モデル化オブジェクトの仕様は、単一のＣＡＤファイル又は複数のＣＡＤファイルに格納することができる。ＣＡＤシステム内のモデル化オブジェクトを表すファイルの典型的なサイズは、部品当たり１メガバイトの範囲内である。そして、モデル化オブジェクトは、典型的には何千もの部品のアセンブリであり得る。

３Ｄモデルの提供は、任意の方法で実行することができる。３Ｄモデルは例えば、ユーザによって検索されてもよく、又は例えば、３Ｄモデルのライブラリにおいて、システムによって自動的に認識されてもよい。

「ビデオフラックスに対する３Ｄモデルのポーズ」とは例えば３Ｄモデルの参照フレーム内で定義される、３Ｄモデルに対するビデオカメラのフレーム毎のポーズパラメータをいう。ポーズパラメータは「外因性パラメータ」としても知られており、したがって、抽出された２Ｄ画像に対する（すなわち、それに対する）ポーズの「値」は抽出された２Ｄ画像に対応するビデオフラックスのフレームに対するポーズパラメータの値である。

コンピュータビジョンの分野からそれ自体公知であるように、ビデオカメラの（フレーム毎の）固有パラメータと共に、ポーズパラメータはビデオフラックスの各フレームに３Ｄモデルを投影することを可能にし、方法は、そのような投影を含み得る。そのおかげで、このような投影の結果に基づいてビデオフラックスを拡張することができる。

３Ｄモデルは特に、実オブジェクトの３Ｄ形状の数学的表現を提供し、それによって、そのような数学的表現に基づいて実行される計算に由来する（テキスト、数字、及び／又はテクスチャなどの）ビデオフラックスグラフィックに追加することを可能にする。代替的に又は追加的に、３Ｄモデルは例えば、ビデオフラックスに追加されるべきグラフィスムを生成するために、拡張のために使用され得る任意のタイプのデータに関連付けられてもよい。関連データは例えば、３Ｄモデルにリンクされた、又は３Ｄモデルの異なる部分にリンクされた（例えば、データベース内の）メタデータを含むことができる。メタデータは例えば、３Ｄモデルが異なる部分を含む場合には、３Ｄモデルの各部分にリンクされたテキスト記述又はテキスト仕様を含むことができる。ポーズはビデオフラックスの正しい位置に、実オブジェクトの中のビューに対して、前記グラフィスムを位置決めすることを可能にする。これは、すべて、拡張現実の分野からそれ自体知られており、本開示ではさらに詳述しない。

この方法は、候補ポーズの中からこのようなポーズを正確に決定する。この手段はポーズが本方法の未知の変数であり、決定ステップは、そのための計算値を出力する。ここで、候補ポーズは単に、決定ステップに提供される探索可能なドメインを指す。方法によって決定されたポーズは正確であるため、投影された３Ｄモデルがフレーム内の実オブジェクトの２Ｄビューによく一致するという意味で、各フレーム内の３Ｄモデルの投影も比較的正確である。言い換えれば、ポーズは３Ｄモデルに対するビデオカメラの仮想位置を定義し、本方法により、仮想位置は、実オブジェクトに対するビデオカメラの実際の位置に正確に対応する。

固有パラメータは（少なくとも部分的に）同様に未知の変数とみなされ、例えばポーズ決定ステップ（そのような場合に、各所与の候補ポーズだけでなく、固有パラメータの各所与の候補フレームごとの値に対しても報酬を実行することを決定すること）内で、方法によって決定されてもよい。代替的に、固有パラメータは（少なくとも部分的に）予め決定され、従って、例えば、カメラ自体によって出力される（現代のカメラは、通常、それらの使用された固有パラメータを提供する）方法に提供されてもよい。さらに代替的に、本方法は、固有パラメータに対して定数及び任意の値を設定することができる。これはわずかに正確でないポーズにつながり得るが、これは依然として、比較的正確な投影結果を提供し、したがって、現実を拡張させる。

これらのすべての場合において、本方法はカメラパラメータの候補フラックスの中のビデオフラックスに関するカメラパラメータのフラックスを出力し、カメラパラメータの各セットは、ビデオフラックスのそれぞれのフレームに対応する（フラックスが一連のカメラパラメータセットからなる）。また、本方法は少なくとも１つの２Ｄ画像について、及びカメラパラメータの各所与の候補フラックスについて、少なくとも１つの２Ｄ画像（すなわち、画像に対応するフラックス内のカメラパラメータのセット）についての所与のカメラパラメータの候補フラックスの値を有する３Ｄモデルの仮想２Ｄレンダリングと、少なくとも１つの２Ｄ画像との間の相互依存性を表す相互情報を報酬付けすることによって、カメラパラメータの出力フラックスを決定することができる。

決定は、相互情報の低い値又はスコアにペナルティを課すことを可能にする任意の方法で、相互情報の報酬を実行することができる。言い換えれば、決定は所与の抽出された２Ｄ画像について、他のものが等しい（又はセテリスパリバス（ceteris paribus））、すべての候補ポーズの中で相互情報の最高値につながるポーズを出力するように構成される。この方法は抽出された各２Ｄ画像に対してこのような報酬を実行し、この方法は他のタイプ又は報酬を実行することができ、その結果、決定されたポーズは一般に、すべての２Ｄ画像に対して相互情報を最大化するものではなく、グローバルに良好なスコアを提供し、それによって、拡張の比較的高い精度を達成するものである。

そのような報酬を実施する特定のやり方はこの方法の後に続く可能性があるが、最適化プログラムを実行すること、すなわち、決定することが目的関数を最適化することを含むようにすることである。目的関数は、異なる尺度に報酬を与える項を含む。実際にはそのような最適化プログラムがコスト（又はペナルティ）項を含む最小化プログラムとして実行することができ、各項は報酬に対する尺度の逆数にペナルティを課す。

本方法は例えば、反復最適化アルゴリズムを少なくとも１回実行することによって、任意のタイプの最適化アルゴリズムを用いてプログラムを最適化することができる。反復最適化アルゴリズムは開始点（すなわち、開始ポーズ）から開始し、次いで最適化されてもよい。各反復は（開始ポーズで初期化された）現在の所与の候補ポーズを提供することと、（例えば、最小化プログラムの場合、それを低減する）目的関数の値を改善する（次の反復のための）新しい候補ポーズを出力することとを含むことができる。新しい候補ポーズの出力は、現在の候補ポーズ及び／又は別の候補ポーズについての相互情報を計算することと、現在の候補ポーズ及び別の候補ポーズについての計算された相互情報値を比較することとを含むことができる。相互情報の計算は、３Ｄモデルの仮想２Ｄレンダリングを計算することを含むことができる。

本方法がいくつかの画像を抽出する場合、本方法のポーズ決定は、項を含む目的関数を最適化することを含むことができる。次いで、各項は、いくつかの２Ｄ画像のそれぞれの２Ｄ画像について相互情報に報酬を与えることができる。換言すれば、各抽出された２Ｄ画像はそれ自体の報酬項（例えば、コスト項）を有する可能性がある。これは、報酬を実施するための効率的な方法を提供する。

具体的には、目的関数が項の合計であってもよい。代替的に又は追加的に、各項（抽出された２Ｄ画像のそれぞれ）は、対応する２Ｄ画像の相互情報に等しくてもよい。これにより、最適化のロバストで効率的な収束が可能になる。これは、抽出された２Ｄ画像の一部が品質不良である場合でも、正確な結果を提供することを顕著に証明した。

本方法は例えば、前述のセンサー（現代のＡＲシステムは、通常、そのようなセンサーに基づいてそのような機能性を提供する）に基づいて、あらゆる公知の方法でビデオカメラの相対ポーズを追跡することを含み得る。このような場合、異なるフレーム間の３Ｄモデルの相対ポーズは既知である。したがって、ポーズ決定は抽出された１つ又は複数の２Ｄ画像に基づいて、ビデオフラックスに対する３Ｄモデルのポーズの値を初期化することに本質があり得、ポーズの残りの値は初期化された値及び相対ポーズ追跡に基づいて決定される。その結果、３Ｄモデルのフルポーズを知るために、方法を初期ポーズを決定するように制限することができ、従って、ビデオフラックス撮影全体を通して拡張を実行することができる。代替的に又は追加的に、本方法がいくつかの画像を抽出し、決定がそのような画像ごとに相互情報に報酬を与える場合、ポーズ決定は未知の変数として、１つの２Ｄ画像（例えば、時系列的に言えば、第１の画像）だけに対する各所与の候補ポーズの値を考慮することができ、他の画像のポーズの値は、未知の変数及び相対ポーズ追跡の関数として変数によって定義される。

ビデオカメラは、ＲＧＢビデオフラックス、あるいはグレースケールビデオフラックスを撮影することができる。最初に撮影されたビデオフラックスがＲＧＢビデオフラックスである場合、本方法は任意に、抽出された２Ｄ画像がグレースケール画像であるように、ビデオフラックスをグレースケールビデオフラックスに変換することを含み得る。あるいは、この方法が選択されたビデオフレームのみ、又はそのサブパーツのみをグレースケール画像に変換することを含むことができ、その結果、ここでも、抽出された２Ｄ画像はグレースケール画像である。これは色情報が無視されるので、方法の効率を改善する（このような無視は３Ｄモデルが正しい色情報を伝えない場合、又は例えば、テクスチャがない場合、及び／又はシェーディングに基づく２Ｄレンダリングの場合であって、テクスチャがあってもテクスチャを考慮しない場合に特に関連する）。

ここで、この方法は、ポーズ値を有する３Ｄモデルの仮想２Ｄレンダリングと、対応する２Ｄ画像との間の相互依存性を表す相互情報を考慮する。「仮想」という用語は単に、２Ｄレンダリングが本方法によって出力される必要がないという事実を指す。３Ｄモデルの仮想２Ｄレンダリングは、ポーズ値によって定義される視点からの３Ｄモデルのフォトリアリスティックな２Ｄ画像の任意の生成からなることができる。仮想２Ｄレンダリングはカメラ固有パラメータ（上述のように、方法に予め定められるか、又は方法によって決定される）にさらに基づいてもよい。仮想２Ｄレンダリングの生成には、フォンシェーダや法線マップシェーダの適用など、任意のラスタライズやシェーディングを含めることができる。

確率理論及び情報理論の分野からそれ自体知られているように、２つの変数の相互情報は、２つの変数間の相互依存性の尺度である。このコンセプトは、T.M.; Thomas, J.A(1991), Elements of Information Theory(Wiley ed.), chapter 2、及び以下のURL: https://en.wikipedia.org/wiki/Mutual_Informationでアクセス可能なウェブサイトに詳述されている。この教科書の内容及びこのウェブサイトの内容（特許出願の優先日の時点で）は、参照により本願明細書に組み込まれ、方法のポーズ決定によって報酬を与えられる相互情報はその中で定義された通りであってもよく、すなわち、カルバック・ライブラー分岐に含まれてもよい。

特に、相互情報は仮想２Ｄレンダリングから抽出された第１の変数と、少なくとも１つの２Ｄ画像から抽出された第２の変数との間の相互情報であってもよく、第１の変数及び第２の変数は画素値範囲上の分布を表してもよい。相互情報は特に、このような画素値範囲における共同分布の相互情報（カルバック・ライブラー発散）であってもよい。具体例において、画素値ドメイン上の分布は、所定のサブ範囲の１つに属する値を有する画素のカウントであってもよい。サブ範囲（又は「ビン」）は、各画素がとる値の範囲の細分割を形成することができる。細分化は、規則的であってもよい。実際には、細分割が５又は１０よりも多く、及び／又は１００又は５０よりも少なく、例えば２０のオーダーのビンの数を含むことができる。

次に、この方法の任意選択の特徴を、図１に示す例を参照して説明する。

本例の方法は、ビデオカメラでビデオフラックスを撮影するステップＳ１０を含む。この例の方法はビデオフラックスから、それぞれが実オブジェクトを表すいくつかの２Ｄ画像を抽出するステップＳ２０を含む。並行して、本例の方法は、実オブジェクトを表す３Ｄモデルを提供するステップＳ３０を含む。次いで、本例の方法は、ビデオフラックスに対して３Ｄモデルのポーズを決定するステップＳ４０−Ｓ８０を含む。決定するステップＳ４０−Ｓ８０は対応する２Ｄ画像（例えば、先に述べた和）に対して相互情報を報奨する項を各々含むＳ５０における目的関数のおかげで、いくつかの２Ｄ画像の各２Ｄ画像に対して相互情報を報奨する。例の方法は最終的に、ポーズに基づいてビデオフラックスを拡張するステップＳ９０を含む。

相互情報に加えて、ポーズ決定はさらに、３Ｄモデルの１つ又は複数の点のいくつかの２Ｄ画像上の投影間の写真整合性に報酬を与えることができる。さらに、相互情報に加えて、ポーズ決定は、３Ｄモデルの３Ｄエッジの投影と少なくとも１つの２Ｄ画像内の２Ｄエッジとの間の一致をさらに報奨することができる。これらのさらなる基準に報酬を与えることは、決定されたポーズの正確さを改善する。このような基準（写真整合性及びエッジマッチング）は、ポーズを決定するための唯一の主要な基準として、従来技術において使用されている。その代わりに、主要な統計的基準として相互情報を使用することによって、本方法のポーズ決定は、比較的正確な結果に向かってはるかに速く収束する。しかし、この例の方法は効率を改善するために、依然として他の基準を二次基準として使用するが、第２段階（相互情報に基づく最適化が実行された後）で使用する。これにより、精度、ロバスト性、高速性を全体的に実現している。

写真整合性基準は最終ポーズがいくつかの２Ｄ画像上の３Ｄモデルの特定の３Ｄ点の投影（最終ポーズによる）からポーズ２Ｄ点（すなわち、対応する３Ｄ点の画像毎の可視性に応じて、すべてのそのような既存の２Ｄ点）がグラフィカルに一貫していなければならず、これはそれらが、同じ局所グラフィック特徴を提示する２Ｄ画像の位置に対応しなければならないことを意味すると仮定することになる。グラフィカル一貫性は異なる画像のそのような２Ｄ点に、回転不変であり得る少なくとも１つのグラフィカル記述子を適用し、２Ｄ画像にわたってグラフィカル記述子の値を比較することによって測定され得る。グラフィカル記述子は、任意選択で、光度変化に対して不変であってもよく、及び／又は微分可能であってもよい。グラフィカル記述子は例えば、ＳＩＦＴ記述子、ＦＥＲＮ記述子、及び／又は（単に）画素カラーを含む、１つ以上のグラフィカル記述子の所定のセットの中から選択されてもよい。３Ｄ点は、任意の方法、例えばランダムに実行される３Ｄモデルのサンプリングに由来してもよい。本方法は異なる段階で写真整合性に報酬を与えることができ、少なくともグラフィカル記述子は、そのような各段階で異なることができる。

エッジマッチング基準は、最終ポーズが３Ｄモデルの特定の３Ｄエッジが抽出された２Ｄ画像のうちの少なくとも１つ、例えば、各抽出された２Ｄ画像の特定の２Ｄエッジ上に（最終ポーズに従って）投影するようなものでなければならないと仮定することになる。３Ｄエッジは例えば、各画像における３Ｄモデルのシルエットを形成するものであってもよい（画像に対する最終ポーズの値に従って）。３Ｄモデルのシルエットは、ポーズによる３Ｄモデルの輪郭である。画像の２Ｄエッジは、「輪郭」とも呼ばれ、本方法は任意の既知の方法で、例えば、訓練されたニューラルネットワークを用いて、又はキャニーエッジ検出の結果の面取りマップの計算によって、輪郭マップを決定することができる。輪郭マップは輪郭確率マップであってもよい（すなわち、各画素には、輪郭である確率が割り当てられる）。

最適化は、（所定の）数Ｎの開始ポーズを提供するステップＳ４０を含むことができ、ここで、Ｎ＞１（換言すれば、後にＳ５０で実行される最適化のための複数の開始点）である。提供するステップＳ４０は任意の方法で実行することができ、特定の実装は後述する。次に、最適化は開始ポーズのそれぞれ１つから始まるたびに、目的関数（すなわち、目的関数を最適化するアルゴリズム）上でステップＳ５０の処理をＮ回（例えば、同じものを）反復する最適化アルゴリズムを実行するステップと、それぞれの結果ポーズを出力するたびに、実行するステップとを含むことができる。実際には、Ｎは１０又は２０より高く、及び／又は１００又は５０より低くてもよい。

次に、本方法は、図示の例のＳ６０〜Ｓ８０を介して、Ｎ個の結果ポーズのうちの１つに基づいて（最終的である）ポーズを計算することができる。これは、局所極値におけるアルゴリズムの潜在的な低下によって提供される偶発的に不正確な結果に関連するリスクを低減することを可能にする。特に、手近な問題のために、最適化アルゴリズムは微分不可能であり得る（この方法が例えば、ネルダー・ミードアルゴリズムを実行し得る）。このような非差別化可能性は、上記の危険因子を生み出す。

計算するステップＳ６０〜Ｓ８０はＮ回の実行の中で最適化されたポーズの（所定の）数ｋを保持するステップＳ６０を含むことができ、ここで、ｋ＜Ｎである。言い換えれば、本方法はＳ５０によって出力されたＮ個の結果ポーズ（例えば、目的関数を最小化するｋ個のポーズ）の中からｋ個の最良の結果を識別することができる。実際にはｋは２又は３より高くてもよく、及び／又は２０又は１０より低くてもよい。他の結果のポーズは、この段階で廃棄されてもよく、選択されたｋ個の結果のみが刈り取りステップＳ７０に入力される。代替として、本方法はＳ６０をスキップし、それによって、Ｎ個の結果のポーズのすべてを刈り取りステップＳ７０に入力することができる。

Ｓ５０によって出力された最良の結果ポーズだけ以上のものを入力することは、偶発的に不正確な結果に関連するリスクを低減することを可能にする。そのような不正確な結果は相互情報が統計的測定であり、それによって曖昧さ（例えば、対称性の場合）を伴うために、相互情報のみに依存する場合に生じる可能性がある。ステップＳ６０は同様に、今回は、相互情報に関して十分に満足しないポーズの偶発的な選択に潜在的につながる刈り取りステップＳ７０の写真整合性基準に起因して、偶発的に不正確な結果に関連するリスクを低減する（刈り取りステップＳ７０にＮ個の結果ポーズ全てを入力することと比較して）。

計算するステップＳ６０〜Ｓ８０は単一のポーズを出力するために、Ｎ個の結果ポーズの刈り取りステップＳ７０を備えることができる（次いで、ステップＳ７０に入力される）。刈り取りステップＳ７０はＳ６０とは別個に示されているが、Ｓ６０は枝刈りの一部と同等に考えることができる。図示の例では、刈り取りステップＳ７０が前述の写真整合性に報酬を与えることによって、Ｓ６０によって出力されたｋ個の最適化されたポーズの中から最良のポーズを選択することに帰着する。例えば、刈り取りステップＳ７０はｋ個の最適化されたポーズの中から、写真整合性基準に対して最良に機能する１つのポーズを選択することができる。これは、３Ｄモデルをサンプリングし、次いで、ｋ個のポーズの各々について写真整合性基準を評価することを含むことができる（例えば、ＳＩＦＴ記述子などのサンプリングされた３Ｄ点の投影から生じる各２Ｄ点についての任意の前述の記述子を計算することを含む）。

次に、計算ステップＳ６０〜Ｓ８０はＳ７０によって出力されたポーズの精緻化ステップＳ８０を実行することを含むことができ、精緻化されたポーズは、最終的に決定されたポーズと見なされ、ビデオフラックスを拡張させるためにＳ９０に入力されることができる。

精緻化ステップＳ８０は、先に説明した写真整合性（ここで再び使用される）及び／又は２Ｄエッジ３Ｄエッジマッチング、例えばこれらの基準の両方に報酬を与えることができる。精緻化ステップＳ８０は例えば、グローバル誤差を最小化することができる。グローバル誤差は３Ｄモデルの投影された輪郭（例えば、２Ｄ画像の各々の仮想メッシュ（すなわち、２Ｄビュー））と、前記２Ｄ画像内の実オブジェクトの検出されたエッジとの間の誤差にペナルティを課す第１の項、及び／又は、例えば、サンプリングされた３Ｄ点に対応する２Ｄ点における異なる２Ｄ画像にわたる記述子（複数可）の値の間の誤差にペナルティを課す第２の項を含むことができる。上述のような輪郭確率マップに基づくエッジマッチング報酬の場合、第１の項は３Ｄエッジ（例えば、シルエットに対応する）が投影する２Ｄ画素の輪郭確率の低さにペナルティを課すことができる。上述のようなグラフィカル記述子に基づく写真整合性報酬の場合、第２の項は２Ｄ画像にわたる（例えば、サンプリングされた）３Ｄ点の投影上のグラフィカル記述子の値の間の差異にペナルティを課すことができる。最小化は、勾配ベースであってもよい。これにより、効率が向上する。そのような場合、グラフィカル記述子は画素色などのように、区別可能であってもよい。

図２は、システムの一例を示す。

この例のクライアントコンピュータは、内部通信バス１０００に接続された中央処理装置（ＣＰＵ）１０１０と、やはりバスに接続されたランダムアクセスメモリ（ＲＡＭ）１０７０とを備える。クライアントコンピュータには、さらに、バスに接続されたビデオランダムアクセスメモリ１１００に関連するグラフィカルプロセッシングユニット（ＧＰＵ）１１１０が設けられている。ビデオＲＡＭ１１００は、当技術分野ではフレームバッファとしても知られている。大容量記憶装置コントローラ１０２０は、ハードドライブ１０３０などの大容量記憶装置へのアクセスを管理する。コンピュータプログラム命令及びデータを有形に具現化するのに適した大容量メモリデバイスは、例として、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内部ハードディスク及びリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤ−ＲＯＭディスク１０４０を含む、すべての形態の不揮発性メモリを含む。前述のいずれも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）によって補足されるか、又はその中に組み込まれてもよい。ネットワークアダプタ１０５０は、ネットワーク１０６０へのアクセスを管理する。クライアントコンピュータは、ディスプレイスクリーン１０８０及びカメラ１０９０も含むことができる。

次に、図１の例に従った方法の実施について説明する。

本方法のこれらの実施は既知の３Ｄオブジェクトの異なるビューを撮影するカメラのポーズ（及び、場合によっては固有パラメータ）を計算することを目的とする。「既知」とは、システムがオブジェクトを表す（例えば、テクスチャなしの）３Ｄモデル（例えば、３Ｄメッシュ）を所有することを意味する。さらに、ここで、本方法の実施は拡張現実システムのコンテキストにあり、システムは、カメラによって撮られた異なるビュー間の相対的なポーズを知っていると仮定する。

本方法の実施は、実画像の仮想レンダリング間の相互情報に基づくポーズ依存エネルギーの定義に依存する。このエネルギーはいくつかのポーズの間で離散化される（例えば、トムソン球上で取得される）。本方法の実施は、このエネルギーを最適化して、最良の可能なポーズを見つける。次に、この方法の実装は写真整合性基準を利用することにより、誤ったポーズを整理する。最後に、本方法の実施は、画像のエッジにフィッティングすることによってポーズを微調整する。

この方法の実装は、セグメント化が不可能又は不正確な場合、及びオブジェクトのテクスチャが不明な場合であっても、ポーズを計算することができる。さらに、本方法の実施形態はマルチビューフレームワークにおいて、相互情報方法、写真整合性基準、及びシルエット／輪郭マッチングの両方を組み合わせるので、曖昧さを除去し、より正確なポーズを得ることができる。本方法の実施は相互情報最適化において、すべてのビューを一度に活用し、いかなるビューにも偏らない。さらに、本方法の実施は画像内の最も近い輪郭上への３Ｄモデルの投影シルエットのマッチングと同様に、写真整合性基準を用いてポーズを局所的に精緻化する。最後に、本方法の実施は、いかなるデータセット／機械学習アルゴリズムにも依存しない。

Ｉ_１,…,Ｉ_ｎをｎ個の実際の画像とし、Ｒ_ｉをＩ_１と

との間の既知の相対的な剛体変換（すなわち、フレームＩ_１からフレームＩ_ｉへの変換）とする。
Ｍを、すべてのビューＩ_１，…，Ｉ_ｎに現れるオブジェクトのメッシュとする。目標はビューＩ_１内のメッシュＭのポーズ

を計算することであってもよく、ポーズは剛体変換（回転及び並進）を伴う投影の合成として定義される。

Ｔ_ｉ（Ｐ）をフレームＩ_１のポーズＰによって与えられるビューＩ_ｉのポーズ行列とする。すなわち、もしＰ＝ＫＲ（ここでＫは投影行列であり、ＲはメッシュフレームからＩ_１フレームへの剛体変換である）である場合、

である。

本方法の実施は、オブジェクトが位置する画像Ｉ_１の部分を提供することを含むことができる。例えば、ユーザは、それを囲む境界ボックスを描くことができる。

＜マルチビュー最適化＞
前処理
まず第１に、本方法の実施は、画像Ｉ_１，…，Ｉ_ｎをグレースケール輝度空間に変換するために前処理することができる。次いで、本方法の実施は、各画像のヒストグラムを等化することができる。各画素色は、［０，２５５］に属する１次元整数である。

すべての画像が変換されると、本方法の実施は、任意の方法でポーズＰ_１，…，Ｐ_ｎをサンプリングすることができる。

例えば、探索されたポーズ

の近似

が知られている場合、これはユーザがＭに関して近似的に知られている位置で写真Ｉ_１を撮ることができる拡張現実の場合にしばしば当てはまるので、本方法の実施は

の回りでＰ_１，…，Ｐ_ｎをサンプリングすることができる。

例えば、そのような近似が知られていない場合、本方法の実装はメッシュの周りのトムソン球上の点をサンプリングし、Ｐ_１，…，Ｐ_ｎに対して剛体変換を行ってもよい（カメラは球上の１つのサンプリングされた点に位置し、中心を見ている）。カメラの光学平面における平行移動と同様に、トムソン球の半径は、投影バウンディングボックスＭが画像Ｉ_１内のオブジェクトの期待される位置と等しくなるように設定されてもよい。

実際のカメラの固有パラメータ（焦点及び主点）が既知である場合、本方法の実施は、これらを固有行列に使用することができる。それらが未知である場合、本方法の実施は画像の中心にあるように主点を初期化し、さらに焦点を（幅＋高さ）／２に初期化する（ここで、「幅」及び「高さ」は画像Ｉ_１の幅及び高さである）。これらの固有パラメータは、ポーズと共に最適化されてもよく、あるいは固定されてもよい。

相互情報の定義
ｆを、ポーズＰで取られたメッシュＭの仮想レンダリング（色又はグレースケール）にポーズＰをマッピングする関数とする。例えば、本方法の実装はメッシュＭをレンダリングするためにｆにおいてフォンシェーダを使用してもよく、あるいは法線マップシェーダを使用してもよい。この場合、各画素の色は、［０，２５５］^３に属する。この方法の実装は、実画像の解像度と同じ解像度のビューを生成するため、ｆを適用してもよい。

一対の画像（Ｊ_１，Ｊ_２）が与えられ、ｃ_１及びｃ_２をＪ_１及びＪ_２のチャネルの数とすると、

は、入力画像（Ｊ_１，Ｊ_２）のマルチチャネル色分布の結合ヒストグラムを表す。すなわち、本方法の実装は第２の画像を追加のチャネルとして第１の画像に連結し、ペアを第１及び第２の入力画像の両方のチャネルを有する新しい画像として見ることができる。ヒストグラムの各チャネルにおけるビンの数は、２と可能な色の数との間の任意のものであってもよい。実際には、本方法の実施がビンを使用して、正確なままである意味のあるヒストグラムを得ることができる。ここでは、本方法の実施態様が区間

を

個のサブ区間に一様に分割することができ、それぞれのサブ区間について、本方法の実装は、画素の数（例えば、画素の総数によって正規化された画素の数）をカウントしてもよい。これらの画素のマルチチャネル色は、このサブ区間に属する（結合画像（Ｊ_１，Ｊ_２）内の画素の色は、

に属する）。

この方法の実装は、画像Ｊ_１内の色の分布

のみを得るために、第２の画像上の分布Ｈを重要視しなくてもよい。同様に、この方法の実装は、画像Ｊ_２内の色の分布Ｈのみを考慮することができる。もしＸが結合分布

に追従するランダムな変数であった場合、

は

の分布であり、

は

の分布である。

最後に、Ｄを結合分布

の相互情報とすると、

である。

このような相互情報は、Ｊ_１及びＪ_２における色の結合分布と限界分布との間のカルバック・ライブラー発散である。Ｊ_１及びＪ_２における色分布が独立している場合、

であり、Ｊ_１及びＪ_２において色が多くリンクされているほど、相互情報は高くなる。それは常に非負で対称的である。Ｊ_２における色がＪ_１における色の関数である場合、相互情報は最も高くなり、Ｊ_１におけるエントロピーに等しい。

相互情報は、（相関とは異なり）Ｊ_１及びＪ_２の色と色との間の線形関係を特徴付けないことに留意されたい。それは、Ｊ_１の色を知りながらどの程度良好にＪ_２の色を推論することができるか、すなわち、Ｊ_１及びＪ_２において確率的にどの程度色に依存するかを記述する値である。

相互情報の最適化
最良のポーズ

を計算するために、本方法の実装は、仮想レンダリングと実画像との間の相互情報を最大化することができる。実際、メッシュが良好に位置合わせされている場合、仮想レンダリングの色は、仮想画像及び実画像の色空間に一致する単純なアフィン変換が存在しない場合であっても、本方法の実装がメッシュの実テクスチャを知らない可能性があるので、実画像の色に強く依存するはずである。

このため、本方法の実施は、以下のエネルギーを最小限に抑えることができる。

Ｅ１（Ｐ）を最小にし、貧弱な局所的最小値を回避するために、本方法の実施は、Ｐ_１，…，Ｐ_Ｎから始めてＮ回の最適化を実行することができる。最適化は、任意のアルゴリズムで行うことができる。本方法の実装は、効率的な例では（後述するテストされた実装のように）ネルダー・ミードを使用することができる。

本方法の実施態様は、Ｎ回の実行の中で最適化されたｋ個のポーズ（試験された実施態様においてｋ＝５である）を維持してもよい。これは

と表される。

これを図３に示す。

ポーズ刈り取り
今後、この方法の実装は前処理なしに、オリジナルの画像Ｉ_１,…,Ｉ_Ｎで動作する可能性がある。

この方法の実装は、

の中から最良のポーズを選択し、曖昧さを避けるために、写真整合性基準を使用してもよい。

ｘ_１,…,ｘ_ｍがメッシュＭ上のｍ個の点のサンプリングであり、ｎ_１,…,ｎ_ｍがそれらに対応する法線であると仮定する。ｓ（ｘ,Ｉ）を、画像Ｉ上の２Ｄ座標ｘを、例えば、（理想的には）照明及び向きの変化に対して不変であるローカル記述子上にマッピングする関数とする。ｓ（ｘ,Ｉ）は、色Ｉ（ｘ）自体と同じくらい単純であってもよいし、ＳＩＦＴ記述子を用いて行われるように局所的な近傍を考慮してもよいし、予め訓練されたニューラルネットワークを用いて抽出されてもよい。

最後に、

とする。

は各ポーズＴ_ｊ（Ｐ）におけるＭのＺバッファを介して簡単に計算されることができる。ここで、

とする。

この方法の実装は、次式

を最小化するものとして、

の中から最良のポーズを選択することができる。

ここで、σはＬ２ノルムのようなペナルティ関数であり、ρは点の法線ｎ_ｉがカメラのアイベクトルに直交している場合に（ポーズＰＲ_ｊによって与えられるように）、より多くのエネルギーを過小重みづけする重みづけ関数であり、

はｘ_ｉが見えるすべての画像の記述子の平均値である。

の中で最も一貫性のあるポーズを意味し、この基準で見つけられる。

これを図４に示す。

ポーズの精緻化
最後に、本方法の実施は、写真整合性を増加させ、投影されたメッシュの輪郭と画像内のエッジとの間のエッジを一致させるために、局所的な色ベース及びエッジベースのエネルギーを最小化することによって

を精緻化することができる。

第１に、本方法の実施は各画像Ｉ_ｊを正規化して、例えば、投影されたメッシュ

の領域においてゼロ平均及び分散１を有するようにして、画素の色に対する照明に不変性をもたらすことができる。他の正規化も考えられる。

σを、例えば、Ｌ２ノルム又は

のような、

である２つの色の間の差を不利にする損失とする。ここで、Ｊ_１を、（例えば、ニューラルネットワークの予測、又はカニーエッジ検出の面取りマップ、又は二乗距離を有する面取りマップの）平滑化されたエッジの画像Ｉ１であるとする。Ｓ_ｊ（Ｐ）を、視点Ｔ_ｊ（Ｐ）におけるＭの視点のシルエット上に投影されるＭの３Ｄポイントであるとする。

本方法の実施は、

のエネルギーから開始して、以下のエネルギー

を最小化することによってポーズ

を改善することができる。

この最小化は、画像内のそれらの位置に関する画素の色のヤコビアンがソーベルフィルタによって与えられる、あらゆる微分可能な最適化によって扱われ得る。

図５〜図６は、図１に沿った方法の試験された実施態様と、この方法の検討された実施態様に提供された式とで得られた結果を示す。

図５は、テーブル及び椅子を含むシーンのビデオフラックスの２Ｄフレームがその３Ｄモデルの投影により、本方法により正確に拡張され得る方法を示している。図から分かるように、２Ｄフレーム上のテーブルのグラフィック表現６４とテーブルの３Ｄモデル６２との間の誤差は比較的小さい。

図６はデータベース内のコーヒーメーカーの３Ｄモデルに関連付けられたコーヒーメーカーの異なる部分のテキスト記述６４を有するコーヒーメーカー６２を含むシーンのビデオフラックスを正確に拡張するために、この方法をどのように使用することができるかを示す。図６上では、コーヒーメーカーの３Ｄモデルの突起６６も、イメージ内のコーヒーメーカーの２Ｄビューに重ね合わせて半透明で表示される。

Claims

実オブジェクトを含む現実のシーンのビデオフラックスを拡張するための拡張現実のコンピュータ実施方法であって、
ビデオカメラによりビデオフラックスを撮影するステップと、
前記ビデオフラックスから、それぞれが実オブジェクトを表す１つ又は複数の２Ｄ画像を抽出するステップと、
前記実オブジェクトを表す３Ｄモデルを提供するステップと、
前記ビデオフラックスに対し候補ポーズから３Ｄモデルのポーズを決定するステップと
を有し、
前記決定するステップにおいて、少なくとも１つの２Ｄ画像に対して、及びそれぞれの所与の候補ポーズに対して、
・前記少なくとも１つの２Ｄ画像に対する所与の候補ポーズの値を有する３Ｄモデルの仮想２Ｄレンダリング、及び
・前記少なくとも１つの２Ｄ画像
の２つの依存性を表す相互情報に報酬が与えられる
方法。
前記１つ以上の２Ｄ画像は前記ビデオフラックスのそれぞれのフレームにそれぞれ対応するいくつかの２Ｄ画像を含み、
前記決定するステップは、前記いくつかの２Ｄ画像のそれぞれの２Ｄ画像に対する相互情報に報酬を与える
請求項１に記載の方法。
前記決定するステップは項を含む目的関数を最適化するステップを含み、
各項は、いくつかの２Ｄ画像のそれぞれの２Ｄ画像について相互情報に報酬を与える
請求項２に記載の方法。
前記目的関数は、前記項の和である
請求項３に記載の方法。
各項が対応する２Ｄ画像についての相互情報に等しい
請求項４に記載の方法。
前記最適化が、
Ｎ＞１であるＮ個の開始ポーズを提供するステップと、
目的関数上でＮ回の非微分可能反復最適化アルゴリズムを実行し、各回ではそれぞれの開始ポーズから開始し、それぞれの結果として生じるポーズを出力し、
前記結果におけるＮ個のポーズのいずれかに基づいて前記ポーズを計算する
請求項３、４、又は５に記載の方法。
前記決定するステップは、前記３Ｄモデルの１つ又は複数の点の前記複数の２Ｄ画像上の投影間の写真整合性にさらに報酬を与える
請求項２から６のいずれか１項に記載の方法。
前記決定するステップが、
計算において、写真整合性の前記報酬を実行し、Ｎ個の結果ポーズのうちの１つを出力する刈り取りステップと、
最適化後に、写真整合性に前記報酬を与える精緻化を行う
請求項７に記載の方法
前記決定するステップは前記３Ｄモデルの３Ｄエッジの投影と、少なくとも１つの２Ｄ画像における２Ｄエッジとの間のマッチにさらに報酬を与え、前記精緻化は前記マッチの前記報酬を任意選択で実行する
請求項１乃至８のいずれか１項に記載の方法。
前記少なくとも１つの画像のそれぞれの画像について、前記３Ｄエッジは、前記それぞれの画像における前記３Ｄモデルのシルエットを形成する
請求項９に記載の方法。
前記相互情報は、
前記仮想２Ｄレンダリングから抽出された第１の変数、及び
前記少なくとも１つの２Ｄ画像から抽出される第２の変数
の間の相互情報である
請求項１乃至１０のいずれか一項に記載の方法。
前記画素値領域上の前記分布は、所定のサブレンジのうちの１つに属する値を有する画素のカウントである
請求項１１に記載の方法。
請求項１乃至１２のいずれか一項に記載の方法を実行するための命令を含むコンピュータプログラム。
請求項１３に記載のコンピュータプログラムを記録したコンピュータ可読記憶媒体。
請求項１３に記載のコンピュータプログラムが記録されたメモリに結合されたプロセッサを含むシステム。