[go: up one dir, main page]

JP4898800B2 - イメージセグメンテーション - Google Patents

イメージセグメンテーション Download PDF

Info

Publication number
JP4898800B2
JP4898800B2 JP2008517220A JP2008517220A JP4898800B2 JP 4898800 B2 JP4898800 B2 JP 4898800B2 JP 2008517220 A JP2008517220 A JP 2008517220A JP 2008517220 A JP2008517220 A JP 2008517220A JP 4898800 B2 JP4898800 B2 JP 4898800B2
Authority
JP
Japan
Prior art keywords
pixels
pixel
motion
foreground
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008517220A
Other languages
English (en)
Other versions
JP2008547097A (ja
Inventor
クリミニシ アントニオ
ブレイク アンドリュー
クロス ジェフリー
コルモゴロフ ウラジミール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2008547097A publication Critical patent/JP2008547097A/ja
Application granted granted Critical
Publication of JP4898800B2 publication Critical patent/JP4898800B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/45Picture in picture, e.g. displaying simultaneously another television channel in a region of the screen
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20112Image segmentation details
    • G06T2207/20121Active appearance model [AAM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Description

リアルタイムでビデオから前景レイヤを分離することは、テレビ遠隔会議、実況の会議、またはその他のビデオ表示アプリケーションでのライブの背景置換、パン/チルト/ズーム、オブジェクト挿入など、多くのアプリケーションにおいて有用となりうる。リアルタイムで前景レイヤを分離することには、ビデオマッティングにおけるような透明度決定を含むコンピュータグラフィックス品質に迫りつつも、ライブストリーミング速度を達成するのに十分な計算効率をもつレイヤ分離が求められる。
以下の説明は、読者に基本的な理解をもたらすために、本開示の要約を簡易化して示すものである。この要約は、本開示の広範にわたる概要ではなく、本発明の主要/重要要素を識別するものでもなく、また本発明の範囲を規定するものではない。この要約の唯一の目的は、本明細書に開示される一部の概念を、これ以降に提示される、より詳細な説明への導入として、簡略化した形式で提示することである。
標準的な単眼ビデオシーケンスにおける背景レイヤからの前景のリアルタイムなセグメンテーションは、モーション、カラー、コントラストなどを含む1つまたは複数の要因に基づくことのあるセグメンテーションプロセスによって提供されうる。カラー/コントラストから、またはモーションのみからレイヤを自動分離することは、エラーを含む可能性がある。セグメンテーションエラーを軽減するため、前景および/または背景レイヤを正確かつ効率的に推論するように、カラー、モーションの情報と、また任意でコントラストの情報とが確率的に結合されうる。このように、ピクセル速度は必要とされない。したがって、オプティカルフロー推定に関連する多くの問題は、解消される。その代わり、非モーションに対するモーションの尤度は、トレーニングデータから自動的に学習されて、コントラストに敏感なカラーモデルと融合されうる。次いで、セグメンテーションは、グラフカットなどの最適化アルゴリズムによって効率的に解決されうる。本明細書において使用されるように、最適化は、1つまたは複数の任意の結果を採点すること、およびあるしきい値を超えるスコアまたは複数のスコアのうち最も高いスコアをもつ任意の結果を選択することを含みうる。たとえば、最適化は、最高スコアをもつ任意の結果を選択することを含みうる。場合によっては、任意の結果の採点は、最小エネルギーをもつ任意の結果を検討することを含みうる。
前景/背景の分離の正確性は、ライブ背景置換の適用において以下で説明されように実証され、納得のゆく品質の合成ビデオ出力をもたらすものであると示される。しかし、イメージの前景および背景のセグメンテーションには、さまざまな応用および用途がありうることを理解されたい。
付随する特徴の多くは、付属の図面と共に以下の詳細な説明を参照することにより理解も深まるので、さらに容易に理解されよう。
本発明の説明は、付属の図面を踏まえて以下の詳細な説明を読めば、さらに深く理解されよう。
付属の図面と共に以下に示される詳細な説明は、本発明の実施例を説明することを意図したものであり、本発明の実施例が構成されるかまたは使用されうる唯一の形態を表すことを意図したものではない。説明は、実施例の機能、および実施例を構成して操作するためのステップの順序を示す。しかし、同一または同等の機能および順序は、さまざまな例によって達成されうる。
本発明の実施例は、本発明においてセグメンテーションシステムで実施されるように説明され表されているが、説明されるシステムは、限定的ではなく例示的なものとして提供されている。本発明の実施例が多種多様なイメージ処理システムでの適用に適していることは、当業者であれば理解されよう。
図1および以下の説明は、背景領域からイメージの前景領域をセグメント化するためにイメージ処理システムが実施されうる適切なコンピュータ環境について簡単な一般的説明を提供することを目的としている。図1の動作環境は、適切な動作環境の一例に過ぎず、動作環境の使用または機能の範囲に関していかなる限定を示唆することも目的としていない。本明細書に説明される単眼(monocular)ベースのイメージ処理システムと共に使用するために最適と考えられるその他のよく知られているコンピュータシステム、環境、および/または構成には、パーソナルコンピュータ、サーバーコンピュータ、ハンドヘルドまたはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラマブル家庭用電化製品、ネットワークパーソナルコンピュータ、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたは装置のいずれかを含む分散コンピューティング環境などがあげられるが、これらに限定されることはない。
要求されてはいないが、イメージ処理システムは、1つまたは複数のコンピュータまたは他の装置によって実行されるプログラムモジュールなど、コンピュータ実行可能命令の一般的なコンテキストに即して説明される。一般に、プログラムモジュールには、特定のタスクを実行するかまたは特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。通常、プログラムモジュールの機能は、さまざまな環境において望ましいように組み合わされまたは分散されうる。
図1を参照すると、イメージ処理システムを実装するための1つの模範的なシステムは、コンピュータ装置100のようなコンピュータ装置を含む。極めて基本的な構成において、コンピュータ装置100は通常、少なくとも1つの処理装置102およびメモリ104を含む。コンピュータ装置の正確な構成および種類に応じて、メモリ104は揮発性(RAMなど)、不揮発性(ROM、フラッシュメモリなど)、またはこの2つの組み合わせであってもよい。その最も基本的な構成は、図1において破線106によって表されている。加えて、装置100は、追加の特徴および/または機能を備えることもできる。たとえば、装置100は、磁気または光ディスクまたはテープを含む追加のストレージ(取り外し可能および/または固定式)を含むこともできるが、これらに限定されることはない。そのような追加のストレージは、取り外し可能ストレージ108および固定式ストレージ110によって図1に示される。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよびその他のデータなどの情報のストレージのための任意の方法または技術において実施された揮発性および不揮発性の、取り外し可能および固定式の媒体を含む。メモリ104、取り外し可能ストレージ108および固定式ストレージ110はすべて、コンピュータ記憶媒体の例である。コンピュータ記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気ストレージ装置、あるいは望ましい情報を格納するために使用され、装置100によってアクセスされうる他の媒体を含むが、これらに限定されることはない。そのようなコンピュータ記憶媒体は、装置100の一部にすることができる。
装置100はまた、装置100が、ネットワーク120経由で他のコンピュータ装置のような他の装置と通信できるようにする通信接続112も含むことができる。通信接続112は、通信媒体の一例である。通信媒体は典型的には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、変調された、搬送波またはその他の搬送メカニズムなどのデータ信号に具現化するものであり、任意の情報伝達媒体を含むものである。「変調されたデータ信号」という用語は、1つまたは複数の特性のセットを備える信号、または信号中に情報をコード化するような方法で変更された信号を意味する。たとえば、通信媒体は、有線ネットワークまたは直接配線接続のような有線媒体、および音響、無線周波数、赤外線などの無線媒体を含むが、これらに限定されることはない。本明細書で使用されているコンピュータ可読媒体という用語は、記憶媒体および通信媒体を共に含む。
プログラム命令を格納するために使用される記憶装置はネットワーク全体にわたり分散されうることを、当業者であれば理解するであろう。たとえば、リモートコンピュータは、ソフトウェアとして説明されるプロセスの例を格納することができる。ローカルまたは端末のコンピュータは、リモートコンピュータにアクセスし、ソフトウェアの一部または全部をダウンロードしてプログラムを実行することができる。あるいは、ローカルコンピュータは、必要に応じてソフトウェアの一部分をダウンロードするか、またはローカル端末において一部のソフトウェア命令を実行し、リモートコンピュータ(またはコンピュータネットワーク)において一部のソフトウェア命令を実行することにより分散的に処理を行うことができる。既知の従来の技法を使用することにより、ソフトウェア命令の全部または一部がDSP、プログラマブル論理アレイなどの専用回路によって実行されうることもまた、当業者であれば理解するであろう。
装置100はさらに、キーボード、マウス、ペン、音声入力装置、タッチ入力装置、レーザー距離計、赤外線カメラ、ビデオ入力装置、および/または他の入力装置などの入力装置114を備えることもできる。1つまたは複数のディスプレイ、スピーカ、プリンタ、および/または任意の他の出力装置などの出力装置116も含められうる。
デジタルビデオカメラは、消費者および専門家のいずれの状況においても有用である。一般に、デジタルビデオカメラは、デジタルイメージのシーケンスを取り込むが、イメージはその後表示または処理のためにコンピュータ装置に転送されうるか、または格納のために記憶装置に転送されうる。1つの例では、テレビ会議アプリケーションにデジタルビデオカメラを採用する。標準的なテレビ会議において、ある会議参加者を表すイメージシーケンスは、1人または複数の他の参加者に伝送される。同時に、その他の参加者を表すイメージシーケンスは、第1の参加者の表示装置に伝送される。このようにして、各参加者は、会議中に他の参加者のビデオを見ることができる。
図2は、自分の表示装置206のビデオ表示フレームで他の参加者を見る会議参加者204に焦点を合わせた単一のビデオカメラ202を備える標準的なテレビ遠隔会議環境200を示す。ビデオカメラ202は一般に、ビデオカメラの視界内に参加者を収めるために広角視野を備えて、コンピュータ装置のディスプレイ206の上またはその付近に取り付けられる。しかし、広角視野はまた、シーンの背景208も取り込む。代替の位置、方向、カメラ数、参加者の数など、代替のカメラおよびディスプレイのセットアップが適宜使用されうることを理解されたい。
対話方式のカラー/コントラストベースのセグメンテーション技法は、単一の静的イメージの前景および背景をセグメント化する際に効果的であることが実証されている。カラー/コントラストのみに基づくセグメンテーションでは、前景および背景の領域を定義する際に手動操作が必要となるので、カラー/コントラストセグメンテーションは、完全自動の方法の機能を超えるものである。
リアルタイムでビデオイメージに適用されうるように、前景レイヤを正確および/または効率的に(たとえば、自動的に)セグメント化するため、さまざまなキューの融合を活用する堅固な手法が使用されうる。たとえば、モーションのカラーおよびコントラストとの融合、およびレイヤ内空間コヒーレンスの事前分布(prior)は、イメージのビデオストリームの前景情報をセグメント化するために実施されてもよい。ステレオ、カラー、およびコントラストを融合することにより、前景/背景の分離は、ステレオイメージング技法により約10fpsで達成されうる。同様のセグメンテーションの正確性は、標準的な単眼式カメラによって達成されうるが、これはさらに高速におけるものとなりうる。
代替の実施例において、ステレオ尤度は、カラーおよび/またはコントラストと融合されるかどうかにかかわらず、モーション尤度で増加されうる。ステレオ尤度は、参照により本明細書に組み込まれる、V. Kolmogorov, et al., "Bi-layer segmentation of binocular stereo video," In Proc. Conf. Comp. Vision Pattern Rec., San Diego, CA, June 2005、および2005年8月2日に出願された「STEREO−BASED SEGMENTATION」と題する米国特許出願第11/195027号明細書に説明されている。具体的には、モーションは、ステレオイメージ処理システムにおいて、ステレオ尤度と、また任意でカラーおよび/またはコントラスト尤度と、同様に融合されうる。
従来技術において、たとえばモーションなどの、ピクセル速度は通常、オプティカルフローアルゴリズムを適用することによって推定される。セグメンテーションのために、オプティカルフローは次いで、事前定義されたモーションモデルに従って領域に分割されうる。しかし、オプティカルフローを解決することは通常、制約付きの問題であり、したがって、解決法を正則化するために多くの「平滑性」の制約が追加されることもある。残念なことに、正則化手法は、オブジェクト境界に沿って不正確さを生じる場合がある。セグメンテーションの場合、境界の不正確さのような残存効果(residual effects)は、不正確な前景/背景の遷移を生じることがあるので望ましくない場合もある。正則化手法の残存効果を軽減するため、全速度(full velocities)を計算するのではなく、尤度比検定を通じてモーションが非モーションイベントと区別されうる。トレーニング例から学習されるモーション尤度関数は、次に、色/コントラスト尤度および空間事前分布と確率的に融合されて、さらに正確なセグメンテーションを達成しうる。さらに、全速度を計算する必要を軽減することは、アルゴリズムの効率の点から見ても都合のよいものとなりうる。
図2は、イメージシーケンスの前景および背景を自動的に分離するイメージ処理システムの例を示す。イメージ処理システム例は、イメージセグメンテーションの基盤として使用されうる確率的モデルおよびエネルギー最小化法を使用する。正確に抽出された前景は、実質的にエイリアシングを生じることなく、さまざまな静止または動いている背景と合成されうるが、これはテレビ会議アプリケーションにおいて有用となりうる。
図2の例において、入力イメージ210は単眼である、つまり、単一の単眼ビデオ入力装置202からイメージを受け入れる。しかし、入力イメージがステレオであってもよく、以下の式(1)のエネルギー関数でステレオ尤度と融合されうることを理解されたい。
ビデオ入力装置202からの入力イメージは、それぞれの強度に従ってイメージから複数のピクセルを索引付けすることができる強度インデクサ212に入力されうる。入力イメージから適正量のピクセルが索引付けされうる。たとえば、イメージ全体が索引付けられてもよく、1つまたは複数の走査線、ステレオシステムのエピポーラ線のような入力イメージの部分が索引付けされてもよい。図2に示されるように、強度インデクサ212は、入力イメージのピクセルの強度値214を出力することができる。強度値は、データストアにおけるデータアレイのような、任意の適切な方法および任意の適切なフォーマットで格納されうる。
データストアは、リレーショナルデータベース、オブジェクト指向データベース、非構造化データベース、メモリ内データベース、シーケンシャルメモリ、または他のデータストアのうちの1つまたは複数を含むことができる。ストレージアレイは、データストアの形式であり、ASCIIテキストなどのフラットファイルシステム、バイナリファイル、通信ネットワーク経由で伝送されるデータ、または任意の他のファイルシステムを使用して構築されうる。前述のデータストアまたは任意の他のデータストアのこれらの可能な実施態様にもかかわらず、本明細書において使用されるデータストアおよびストレージアレイという用語は、コンピュータ装置によってアクセス可能な任意の方法で収集され格納される任意のデータを示す。
図2を参照すると、イメージの入力シーケンスを所与として、時間tにおける入力イメージフレーム210は、RGBカラースペースでNピクセルのアレイzとして表されうる。アレイつまり複数の索引付けされたNピクセルは、単一の索引nによって索引付けされた、z=(z、z、...z、...、z)と示されうる。索引付けされたピクセルzは、前景を背景からセグメント化するために、セグメンテーションモジュール216に入力されうる。入力イメージのピクセルをセグメント化するため、各ピクセルは、モーションモデル230、カラーモデル232、および任意のコントラストモデル234からの入力に基づいて前景または背景として定義されうる。たとえば、入力イメージの複数のピクセルは、1つまたは複数のセグメンテーションインジケータ218によって前景または背景としてセグメンテーションモジュール216によりラベル付けされうるものであり、ここで各セグメンテーションインジケータは入力イメージの1つまたは複数のピクセルに関連付けられている。
イメージフレーム210のセグメンテーションは、対応するアレイつまり複数の不透明度またはセグメンテーション状態値α=(α、α、...α、...、α)(図2においてセグメンテーションインジケータ218として示される)と表されうる。ここで、αの値は、セグメンテーションインジケータに関連付けられているピクセルのセグメンテーションレイヤを示すことができる。セグメンテーションインジケータは、データストアなどに、任意の適切なフォーマットおよび方法で格納されうる。
セグメンテーションは、ハードセグメンテーション(つまり、ピクセルは前景または背景のいずれかに分類される)であってもよい。前景および背景のセグメントインジケータまたはラベルは、バイナリ値、テキストラベル、整数値、実数値などの、任意の適切な値を有することができる。1つの例において、ピクセルnのセグメントインジケータαは、0または1の集合となりうる。1つの例において、0の値は背景を示すことができ、1の値は前景を示すことができる。場合によっては、ヌルおよび/または負の値は、レイヤの特定のセグメンテーション状態を示すために使用されうる。もう1つの例において、前景セグメンテーションインジケータは、「F」のストリングであってもよく、背景セグメンテーションインジケータは「B」のストリングであってもよい。他のラベル、値、ラベルの数などが使用されうることを理解されたい。分数の不透明度またはセグメンテーションインジケータ値は可能であり、関連付けられているピクセルの不明状態または起こりうる状態を示すことができる。分数の不透明度(つまりα’)は、以下でさらに説明されるSPSを使用するαマッティング技法、参照により本明細書に組み込まれるRother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314でさらに説明される境界マッティングなど、任意の適切な技法を使用して計算されうる。
前景または背景としての入力イメージのピクセルの識別は、任意の適切な方法で図2のセグメンテーションモジュール216によって行われうる。たとえば、モーションに基づくセグメンテーションは、カラーセグメンテーションと、また任意でコントラストセグメンテーションと融合されうる。モーションセグメンテーションのみから得られるイメージは、カラーおよび/またはコントラストセグメンテーションから得られるイメージと単に融合されるだけではなく、セグメンテーションモジュールが、モーションモデル230、カラーモデル232、および、任意でコントラストモデル234を使用して、モーションと、カラーおよび任意でコントラストを明らかにする。
入力イメージ210のセグメンテーションインジケータ218を決定するために、セグメンテーションモジュール216は、少なくとも1つの入力イメージ210が前景セグメントおよび背景セグメントに分割されるように受け取ることができる。イメージ210は、ピクセル値214のアレイとして表されうるが、これはイメージインデクサ212によって決定されるようにRGBカラースペース内にあってもよい。セグメンテーションモジュール216は、エネルギー関数を最小化する入力イメージ210内の複数のピクセルごとにセグメンテーションインジケータを決定することができる。エネルギー関数は、モーションモデル230、カラーモデル232と、また任意でコントラストモデル234とを含むことができる。エネルギー関数の最小化は、参照により本明細書に組み込まれるBoykov et al., "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc. Int'l Conf. on Computer Vision, 2001によって説明されているバイナリラベルのグラフカットを通じてなど、任意の適切な方法で行われうる。エネルギー関数は、モーション尤度、カラー尤度と、また任意でコントラスト尤度とを含む1つまたは複数の要素を含むことができる。モーション尤度は、モーション初期化モジュールから生成されたモーションパラメータ、入力イメージのピクセル値、入力イメージ内の複数のピクセルの各ピクセルの時間微分、および入力イメージの複数のピクセルの各ピクセルの空間勾配を使用することができる。コントラスト尤度は、入力イメージのピクセル値を使用することができる。カラー尤度の項は、カラー初期化モジュールから生成されたカラーパラメータ、前のイメージのピクセル値、およびモーション尤度と、また任意でコントラスト尤度とによって最初に決定された前のイメージ内のピクセルに関連付けられている推定セグメントインジケータを使用することができる。
モーションモデル230のモーションパラメータを決定するために、1つまたは複数のトレーニングイメージ250のセットが手動イメージ処理モジュール252に入力されうるが、ここでユーザはトレーニングイメージの前景および背景セグメントを手動でまたは対話形式で定義することができる。手動イメージ処理モジュールは、前述のBoykovら、および、同じく参照により本明細書に組み込まれるRother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314の技法など、トレーニングイメージのピクセルの前景ラベルおよび背景ラベルを定義するために適切な技法を使用することができる。手動イメージ処理モジュールは、各セグメントインジケータがトレーニングイメージのピクセルと関連付けられた状態で、複数のトレーニングセグメントインジケータ254を出力することができる。セグメントインジケータは、トレーニングイメージ内の関連付けられているピクセルが前景または背景のいずれであるかを示す。トレーニングイメージのピクセルのセグメントインジケータは、データストアに格納されうるデータアレイなどに、任意の適切な方法および任意の適切なフォーマットで格納されうる。
モーション初期化モジュール256は、トレーニングイメージピクセルのセグメントインジケータ254を受け取り、モーションイベント対非モーションイベントの尤度比のモーションパラメータ値を決定することができる。以下でさらに説明されるモーションパラメータ値は、トレーニングデータのラベルの分類エラーを最小化することができる。たとえば、期待値最大化は、ガウス混合モデルを、ラベル付けされたトレーニングイメージのピクセルの時間勾配および空間勾配の前景分布に適合させるために使用されうる。もう1つのガウス混合モデルは、ラベル付けされたトレーニングイメージのピクセルの時間勾配および空間勾配の背景分布に適合されうる。より具体的には、時間および空間の勾配は、トレーニングイメージの複数のピクセルに対して決定されて関連付けられ、ガウス分布はトレーニングイメージの複数のピクセルの時間勾配および空間勾配の各ペアに適合されうるが、これは手動でセグメント化されたトレーニングイメージからまとめてプールされうる。このようにして、モーション初期化モジュール256は、モーションパラメータ258を出力することができるが、これはデータストアなどに、任意の適切な方法およびフォーマットで格納されうる。モーションパラメータ258は、モーション尤度を決定するためにセグメンテーションモジュール216によってモーションモデル230で使用されうる。
カラー尤度初期化モジュール260は、任意の適切な方法でカラーモデル232におけるカラー尤度アルゴリズムのパラメータを決定することができる。たとえば、カラー尤度初期化モジュールは、前述のRotherらによって説明され、以下でさらに説明される技法を使用することができる。より具体的には、ガウス混合モデルは、入力イメージ210がセグメント化される前に1つまたは複数の以前にセグメント化されたイメージフレームに適合されうる。ガウス混合モデルは、期待値最大化を使用して1つまたは複数の以前のイメージの前景ピクセルおよび関連付けられているセグメンテーションインジケータに適合され、ガウス混合モデルは、期待値最大化を使用して1つまたは複数の以前のイメージの背景ピクセルおよび関連付けられているセグメンテーションインジケータに適合されうる。このようにして、カラー初期化モジュール260はカラーパラメータ262を出力することができるが、これはデータストアのような任意の適切な方法および任意の適切なフォーマットで格納され、カラー尤度を決定するためにセグメンテーションモジュール216によってカラーモデル232で使用されうる。
任意のコントラストモデル234は、空間事前分布に影響しうるものであり、カラーコントラスト値によって定義された自然オブジェクトの輪郭に従うかまたは考慮するよう、得られるセグメンテーション値を強制することができる。空間平滑性の項は、任意の適切な方法で決定されうる。具体的には、コントラストモデルは、入力イメージのピクセル値を受け取ることができ、以下でさらに説明されるようにコントラストの項を供給する。
セグメンテーションモジュール216からのセグメンテーションインジケータ218(たとえば、前景、背景のラベル)および入力イメージ210のその関連付けられているピクセルは、セグメンテーションインジケータ218に基づいて入力イメージ210を変更および/または処理して出力イメージ222を生成するためにイメージプロセッサ220によって使用されうる。たとえば、イメージプロセッサは、前景ピクセルの少なくとも一部を抽出して、それらを代替シーン、単一のカラー、スプレッドシートまたはプレゼンテーションアプリケーションなど別のアプリケーションからの表示オブジェクトであってもよい代替背景イメージと合成することができる。もう1つの例において、背景ピクセルの少なくとも一部は、代替の背景イメージで置き換えられうる。背景イメージは、代替の場所のシーン(たとえば海岸)、プレゼンテーションスライドのような別のアプリケーションからの入力など、任意の適切なイメージであってもよい。もう1つの例において、背景セグメントを示すセグメンテーション状態値に関連付けられているピクセルの少なくとも一部は、前景ピクセルとは異なる忠実度で圧縮されてもよい。このようにして、イメージ圧縮は、前景ピクセルに対して高い忠実度を、一部の背景ピクセルに対して低い忠実度を保持するものとすることができる。さらにもう1つの例において、背景ピクセルは前景ピクセルから分離され、テレビ会議アプリケーションにおけるように、受信者に別個に通信されうる。テレビ電話会議ビデオストリームの後続のフレームは、受信者のみに前景ピクセルを送信することができるが、これは代替背景イメージまたは以前の伝送から格納された背景ピクセルと合成されうる。もう1つの例において、動的エモティコンは、イメージの前景オブジェクトと対話することができる。たとえば、動的エモティコンは、参照により本明細書に組み込まれる2005年2月25日に出願された米国特許出願第11/066946号明細書においてさらに説明されるように、前景オブジェクトの周囲を回ることができる。もう1つの例において、イメージ内の識別された前景ピクセルは、プロセスイメージの前景ピクセル周囲のフレームをサイズ変更および/または配置する(たとえば、スマートフレーミング)ために使用され、背景ピクセルの表示を制限することができる。もう1つの例において、入力イメージ内の識別された前景ピクセルは、入力イメージの前景ピクセル周囲のフレームをサイズ変更および/または配置する(たとえば、スマートフレーミング)ために使用され、背景ピクセルの表示を制限することができる。イメージプロセッサは、任意の適切な方法でセグメント化されたピクセルを使用して表示または格納されたイメージを処理または変更することができ、前述のイメージ処理の説明は、限定的ではなく例示的に提供されることを理解されたい。
エネルギー最小化によるセグメンテーション
Boykov et al., "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc. Int'l Conf. on Computer Vision, 2001およびRother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314と同様に、1つまたは複数の入力イメージのセグメンテーションの問題は、エネルギー最小化の課題として位置付けられうる。図2のセグメンテーションモジュール216によって最小化されるべきエネルギー関数Eは、データおよび平滑性の項の合計によって与えられうる。たとえば、エネルギー関数Eは、モーション尤度とカラー尤度、および場合によっては空間コヒーレンス(またはコントラスト平滑性)尤度の合計によって与えられ、以下のように表されうる。
Figure 0004898800
ここでV()は、コントラストに基づく空間平滑性の項、Uはカラー尤度、Uはモーション尤度であり、これらはすべて以下でさらに説明される。
式(1)によりエネルギーが定義されると、入力イメージピクセルの最適または十分に最適なセグメンテーションインジケータαは、以下の式の使用によってなど、エネルギー方程式の大域的最小値を推定することによって決定されうる。
Figure 0004898800
エネルギーの最小化は、前述のBoykovらによってさらに説明されるバイナリラベルのグラフカットなど、任意の適切な最適化方法を通じて効率的に行われうる。以下でさらに説明されるように、カラーパラメータkおよびΘの最適値は、入力イメージの前のビデオシリーズのセグメント化されたイメージから期待値最大化などを通じて学習されうる。モーションパラメータkおよびθは、任意の適切な区分化されたトレーニングイメージから期待値最大化などを通じて学習されうる。
ギブスのエネルギーは、図2のセグメンテーションモジュール216において使用される因数の確率的モデルとして定義されうる。たとえば、セグメンテーションモジュールは、モーション尤度モデル230、およびカラー尤度モデル232を考慮することができる。モーション尤度モデル230は、モーションパラメータに基づいてモーション尤度関数のモデルを提供することができ、カラー尤度モデル232は、カラーパラメータに基づいてカラー尤度関数のモデルを提供することができる。前述のように、セグメンテーションモジュールはまた、コントラスト尤度モデル234を含むこともできる。次の節では、モデル230、232、234によって図2のセグメンテーションモジュール216に提供されうる式(1)の各項を定義する。
カラーの尤度(U
図2のカラー尤度モデル232は、任意の適切なカラー尤度モデルに基づくことができる。たとえば、2層のセグメンテーションは、ガウス混合モデルを使用して前景および背景のカラーの尤度をモデル化することができる。カラーの適切なガウス混合モデルの例は、明確を期すために本明細書に概要が示され、参照により本明細書に組み込まれる2004年6月3日に出願された「FOREGROUND EXTRACTION USING ITERATED GRAPH CUTS」と題する米国特許出願第10/861,771号明細書および2005年8月2日に出願された「STEREO−BASED IMAGE SEGMENTATION」と題する米国特許出願第11/195027号明細書でさらに説明されている。もう1つの適切なカラーモデルは、前述のRotherらによる文献でさらに説明されており、明確を期すために本明細書に概要が示されている。
前景および背景のカラーは、1つは背景用、1つは前景用の、2つのガウス混合モデル(GMM)によってモデル化されうる。各GMMは、全共分散によるK個の成分(通常はK=20)を有する。対応するGMM成分へのピクセルの割り当ては、kを1からKの整数の範囲の集合の要素とするベクトルk=(k、k、...、k、...、k)としてデータストアに格納するなど、任意の適切な方法で格納されうる。各GMM成分は、前景または背景のGMMのいずれかに属する。
カラー尤度は、以下のように記述されうる。
(α、k、θ、z)=ΣD(α、k、θ、z) (3)
ここで、θは以下に定義されるGMMモデルのパラメータを含み、またp()をガウス確率分布としπ()は混合加重係数を含むものとしてD(α、k、θ、z)=−log p(z|α、k;θ)−logπ(π;k)である。したがって、関数Dは以下のように書き換えられうる。
Figure 0004898800
μおよびΣをそれぞれ、前景および背景分布の2K個のガウス成分の平均および共分散とする。したがって、カラーモデルのパラメータは、θ={π(α、k)、μ(α、k)、Σ(α、k)、α={0、1}、k=(1、...、K}}である。
カラー尤度の前述の式(3)は、大域的カラーモデルのみを含み、ピクセル単位のモデルは含まない。しかし、ピクセル単位のモデルは、大域的カラーモデルに加えて、またはその代替として実施されうることを理解されたい。2005年8月2日に出願された「STEREO−BASED SEGMENTATION」と題する米国特許出願第11/195027号明細書でさらに説明されているカラー尤度は、適したものとなりうるので、明確を期すために本明細書において簡単に説明する。たとえば、ガウス混合モデルを使用すると、前景カラーモデルp(z|x+F)は、初期化されるかまたは前景ピクセルから学習された空間的な大域ガウス混合である。背景において、同様に初期化または学習されたガウス混合p(z|x+B)がある。背景モデルはまた、十分な数の以前のフレームにわたり静止があったことを安定度フラグが示す場合に使用可能なピクセル単位の単一ガウス密度p(z)を含むこともできる。安定度フラグは、バイナリ値、テキスト値、多重インジケータなどによるような、任意の特定の方法で安定度または不安定度を示すことができる。このようにして、複合カラーモデルは、以下のように表されうるカラーエネルギーU によって与えられうる。
Figure 0004898800
ここでsは、0または1の値を有する安定度フラグインジケータである。背景カラーモデルは、大域的背景モデルとピクセル単位の背景モデルとの間の混合を表すが、任意の適切な背景および/または前景モデルが使用されうることを理解されたい。背景モデルにおけるピクセル単位の手法を使用することで、場合によっては、有益な情報が抽出されるようにすることができる。しかし、ピクセル単位の手法は背景の動きに敏感であり、その影響は大域的背景分布p(z|x+B)を前記混合の混成成分として加えることによって減らすことができる。前景の被写体は、ほとんどの場合移動しており、カメラは定置であるので、背景の大部分は時間の経過と共に変化することはない。しかし、式(5)の背景部分のピクセル単位および/または大域部分が、簡単にするため、またはその他の適切な理由により削除されうることを理解されたい。
ガウス混合モデルは、カラースペース、三原色赤緑青(RGB)カラースペース内でモデル化され、任意の適切な方法で初期化されうる。カラースペースは、三原色赤緑青(RGB)、YUV、HSB、CIE Lab、CIE Luvなどを含む任意の適切なカラースペースであってもよい。ガウス混合モデルは、入力イメージがセグメント化される前にビデオシーケンスの1つまたは複数のセグメント化されたイメージフレームから学習されうる。単一イメージセグメンテーションとは異なり、単眼前景背景セグメンテーションにおいて、フレームtに対するカラーパラメータθおよびkは、フレームt−1におけるセグメンテーションから期待値最大化を通じて推定されうることに留意されたい。さらに、各フレームtごとに1回の反復が使用されうるが、複数の反復が使用されうることを理解されたい。
もう1つの例において、ガウス分布のパラメータは、すべてのピクセルが背景に初期化されるなど、デフォルトの値に初期化されうる。いずれの場合にも、パラメータ推定の向上に応じて、イメージセグメンテーションにおけるカラー尤度の効果または影響は増大されうる。たとえば、カラー尤度は、パラメータ値が初期化されると、かなり唐突にオンに切り替えられる可能性がある。代替として、カラーの項は、加重項の使用などによって、徐々にその影響を増大するようにダイヤルイン(dial in)されうる。ダイヤルイン期間は、任意の適切な期間であってもよく、約数秒であってもよく、あるいはもう1つの例ではほぼ100フレームであってもよい。
背景モデルは、各ピクセルに対して、ピクセル単位の背景保守により、学習された確率密度で混合することにより増強されうる。ピクセル単位の背景保守は、参照により共に本明細書に組み込まれる、Rowe et al., "Statistical mosaics for tracking," J. Image and Vision Computing, Vol. 14, 1996, pp. 549-564およびStauffer et al., "Adaptive background mixture models for real-time tracking," Proc. CVPR, 1999, pp. 246-252においてさらに説明される。ガウス分布パラメータの場合と同様に、確率密度は、以前ラベル付けされたイメージから学習する、ピクセルラベルをデフォルト値に設定して初期化をブートストラップするなど、任意の適切な方法で初期化されうる。
ガウス混合モデルを使用して、前景カラーモデルp(z|α=1)は、初期化されるかまたは前景ピクセルから学習された空間的な大域ガウス混合である。背景において、同様に初期化または学習されたガウス混合p(z|α=0)がある。背景モデルはまた、十分な数の以前のフレームにわたり静止があったことを安定度フラグが示す場合に使用可能なピクセル単位の単一ガウス密度p(z)を含むこともできる。安定度フラグは、バイナリ値、テキスト値、多重インジケータなどによるような、任意の特定の方法で安定度または不安定度を示すことができる。
コントラストモデル
図2のコントラスト尤度モデル234のような、コントラスト尤度モデルは、高イメージコントラストの輪郭と一致するようにセグメンテーション境界を改善することができる。参照により本明細書に組み込まれ、明確を期すために本明細書に概要が示されるBoykov et al., "Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images," Proc. Int'l Conf. on Computer Vision, 2001でさらに説明されているコントラスト尤度モデルのような、任意の適切なカラーコントラストモデルが使用されうる。
グラフカットによる対話形式の前景抽出の場合と同様に、コントラストモデルは、ペアワイズエネルギー(pairwise energies)Vに影響を及ぼし、カラーコントラストに基づくコントラストエネルギーVは、以下のように表されうる。
Figure 0004898800
索引mおよびnは、入力イメージの水平、対角、および垂直クリークのペアワイズピクセル索引である。パラメータβは、以下のように計算されうるコントラスト変調定数である。
β=(2<Z−Z>)−1 (7)
ここで、<>はイメージサンプルにわたる期待値を示す。関数1[α≠α]は、前景状態から、または前景状態への遷移にわたりアクティブであるバイナリスイッチとして機能する恒等関数である。
任意の強度パラメータγは、コントラストモデルの項を乗じられうる。強度パラメータは、事前コヒーレンスおよびコントラスト尤度を示すことができ、実験的に調整されうる。場合によっては、強度パラメータγは、ほぼ10に等しく設定されうる。
任意の希釈定数パラメータεは、コントラストに対して含まれうる。場合によっては、希釈定数εは、純色およびコントラストセグメンテーションのためにゼロに設定されうる。しかし、セグメンテーションがカラーコントラストとそれ以外のものに基づくような多くの場合、希釈定数は、1など任意の適切な値に設定されうる。このようにして、コントラストの影響は、たとえばモーションおよび/またはカラーから、セグメントキューの多様性の増大を認めて希釈されうる。
モーションの尤度
図2のモーションモデル230のようなモーションモデルは、イメージ内の移動するオブジェクトが前景である可能性が高く、イメージ内の静止オブジェクトが背景である可能性が高いという仮定の下に、セグメンテーション境界を改善することができる。信頼性の高いモーション尤度の自動推定は、任意の適切な方法で決定されうる。たとえば、非モーションイベントに対するモーションの尤度比U()は、トレーニングシーケンスの手動でセグメント化されたフレームから自動的に学習されて、前景/背景の分離を支援するために以前見られなかったテストフレームに適用されうる。図3は、モーション尤度をトレーニングするために使用されるトレーニングデータシーケンスの2つのフレーム例302、304と、それぞれ対応する対話形式で取得されたセグメンテーションマスク320、340を示す図である。図3のセグメンテーションマスクにおいて、白い部分322、342は前景を示し、黒い部分324、344は背景を示す。場合によっては、グレー領域(分数またはその他の適切なセグメンテーションインジケータを示す)が、不明確な割り当てまたはセグメンテーションを示すこともある(ピクセルが混合した複雑な領域で発生する場合がある)。
モーション関数Uの尤度は、ガウス混合モデルを、ラベル付けされたトレーニングイメージのピクセルの時間勾配および空間勾配の前景および背景分布に適合させることによって推定されうる。具体的には、各イメージフレームI内のピクセルは、以下のように示されうる関連する時間微分を有する。
Figure 0004898800
空間勾配の大きさgは、以下のように示されうる。
g=(g、g、...、g、...、g) (9)
時間tにおける各時間微分要素
Figure 0004898800
は、以下のように計算されうる。
Figure 0004898800
ここで、G()は、σピクセルのスケールにおけるガウスのカーネルである。さらに、空間勾配の大きさgは、以下のように決定されうる。
=|▽Z| (11)
ここで、▽は空間勾配演算子を示す。空間微分は、標準偏差σについてガウシアンカーネルの一次導関数を使ってイメージを回転させることにより計算されうる。標準期待値最大化アルゴリズムは、トレーニングシーケンスのセグメント化されたすべてのフレームからプールされたすべての
Figure 0004898800
ペアにGMMを適合させるために使用されうる。
図4は、図3のトレーニングイメージ302、304およびシーケンス内の他の同様のトレーニングイメージに基づいてグラフでトレーニング前景2D微分点およびトレーニング背景微分点の例を示す。図4のグラフ400は、空間勾配を示すx軸402および時間微分を示すy軸404を有する。最適に分離する曲線(U=0)は、黒線406としてプロットされる。グラフ400の領域410のような領域は背景微分点を示し、領域412のような領域は前景微分点を示す。
およびK は、それぞれ前景および背景のGMMのガウス成分の数を示す。したがって、モーション尤度は、以下のように記述されうる。
Figure 0004898800
ここで
Figure 0004898800
Figure 0004898800
によって定義される2ベクトルであり、ここでkはモーションGMMの各ガウス成分へのピクセル割り当てを示し、μおよびΣはGMMモーションモデルのK +K 成分の平均および共分散である。最後に、モーションパラメータθは、モーションGMMの混合加重、平均、および共分散パラメータを収集し、以下のように決定されうる。
Figure 0004898800
ラベルをトレーニングする1つの例において、トレーニングイメージは、一連のイメージシーケンスを含むことができる。たとえば、図3に示されるように、シーケンスイメージの例302、304は、概ね静止している(騒々しいが)背景の前で話しながら動き回る前景の人物を表す。図5は、図3のトレーニングイメージ302、304の自動的に学習された対数尤度比面の3次元プロット500を示す。図5のプロット500は、時間微分を示す軸502、空間勾配を示す軸504、および学習されたモーションベースの対数尤度比を示す軸506を有する。プロット500において、負の値は背景に対応し、正の値は前景に対応し、U=0である軌跡は曲線508として示される。図5に示されるように、大きい時間微分は、前景に属するそのピクセルの大きい尤度に関連する。しかし、図5の例はまた、学習された分離曲線が、多くの場合使用される固定時間微分しきい値とは全く異なることも示している。最適パラメータは、トレーニングデータの分類エラーを最小化することにより自動的に見い出されうる。たとえば、図3のトレーニングイメージの例の場合、この手順は以下の値をもたらす。
=1 (15)
=3 (16)
σ=1.2pix (17)
σ=1.2pix (18)
学習されたモーション尤度は、テストされうる。図6は、テストシーケンス例の3つのフレーム602、604、606に尤度比検定法を適用した結果例、およびそれぞれモーションフレーム620、640、660に示された各ピクセルの対応するモーション尤度を示す。モーションのあった入力イメージの領域は、トレーニングされたモーションモデルによって検出され、領域622、623、642、644、662、664のようにライトグレー領域として表示される。モーション領域は、トレーニングされたモーションモデルによって検出された静止領域から識別され、領域626、646、666のようなグレー領域に表示される。さらに、学習された尤度の性質により、領域628、648、668のようなテクスチャのない領域(たとえば、本来不明瞭な領域)は、中間グレーカラーを正しく割り当てられる傾向が高い(U≒0)。図6のモーションベースのセグメンテーションの例において、モーションモデルは図3のトレーニングイメージ302、304などでトレーニングされ、図6の入力イメージ602、604、606とは異なるものでトレーニングされたことを理解されたい。
図6はまた、正確なセグメンテーションのためには、モーション単独では十分ではないことも示している。マルコフランダムフィールド空間事前分布(Markov Random Fields spatial priors)によるモーションとカラー尤度の融合は、たとえばテクスチャのない領域など、残された「欠点」を解消し、正確なセグメンテーションマスクを生成することができる。たとえば、グラフカットアルゴリズムは、マルコフランダムフィールドを解決して正確なセグメンテーションマスクを生成するために使用されうる。
モーション尤度を決定した後、カラー尤度および任意でコントラスト尤度、エネルギー(前述の式(1)で与えられる)は、任意の適切な方法で最適化されうる。合計エネルギーは、図2のセグメンテーションモジュール216によって最適化されうる。セグメンテーションモジュールは、適宜、任意の適切な最適化方式を使用することができる。たとえば、合計エネルギーの式(1)の前述の例において、合計エネルギーを最適化する式は、階層化グラフカットを使用することができる。階層化グラフカットは、エネルギー関数Eの最小値としてセグメンテーション状態変数値αを決定する。
任意の適切なグラフカットアルゴリズムは、状態が前景および背景に制限される(つまりハードセグメンテーション)場合、セグメンテーション状態変数αについて解決するために使用されうる。たとえば、ハードセグメンテーションのグラフカットアルゴリズムは、エネルギー最小化を介してセグメンテーションを決定するために使用されうる。しかし、セグメンテーション状態の多価が許容される場合(たとえば、0、1、2、3、...)、α拡張グラフカットは最適セグメンテーションラベルを計算するために使用されうる。グラフカットのα拡張フォームは、参照により本明細書に組み込まれているKolmogorov et al., "Multi-camera scene reconstruction via graph cuts," Proc. ECCV, Copenhagen, Denmark, May 2002でさらに説明される。前述の2つの例はセグメンテーション変数の離散的なラベルを扱うが、セグメンテーション値が実数の透明度値(たとえば、分数値)を反映することを許容される場合、境界マッティングなどのアルファマッティング技法またはSPSアルゴリズムが使用されうる。前述のように、境界マットは、Rother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314でさらに説明される。
人間の眼は、明滅するアーチファクトに敏感であるため、最適化セグメンテーション状態変数値は、場合によっては、前景/背景セグメンテーション最適化に続いて、セグメンテーションモジュール216におけるように平滑化されてもよい。たとえば、セグメンテーション状態変数値は、SPSを事後処理として使用するαマット、Rother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314でさらに説明されている境界マットなど、任意の適切な方法で平滑化されうる。エイリアシングを低減することで、背景置換の適用の場合のように、視覚的なリアリズムのレベルを高めることができる。参照により本明細書に組み込まれているRother et al., "GrabCut: Interactive foreground extraction using iterated graph cuts," ACM Trans. Graph., vol. 23, No. 3, 2004, pp. 309-314でさらに説明される境界マットなどのように、任意の適切なアンチエイリアシング技法が使用されうる。
最適化および任意の平滑化の後、決定された各セグメンテーション状態変数値は、任意の適切な方法で入力イメージ内のその関連するピクセルに関連付けられうる。たとえば、セグメンテーション状態変数値218は、アレイ内の値の位置が関連する入力イメージ内の関連するピクセルを示す場合、アレイに格納されうる。もう1つの例において、イメージ内の複数のピクセル位置は、単一ラベルによる連続ピクセルのグループ化などのように、セグメンテーション状態変数値に関連付けられうる。
イメージ内のラベル付けされたピクセルは、図2のイメージプロセッサ220によってなど、イメージ処理中にイメージの背景からイメージの前景が分離されるようにすることができる。たとえば、図7〜図9は、背景置換を表しているビデオストリームからのイメージのシーケンスを示す。図7は、オフィス環境の女性を表す一連の入力イメージの例702、704、706、708、710を示す。図8は、前景フレーム802、804、806、808、810に、図7の入力イメージの前景セグメント化ピクセルを示す。図9は、図7の入力イメージの背景ピクセルとして識別されたピクセルの背景置換の例、または図8のイメージの抽出された前景ピクセルの別の背景イメージへの配置を示す。より具体的には、図9において、図8の抽出されたイメージの前景はそれぞれ、新しい背景が戸外のシーンであるようなイメージフレーム902、904、906、908、910で別の背景と合成されている。抽出された前景は、実質的にエイリアスがないので、結果として得られる置換背景との合成は、高い視覚的リアリズムを備える。
図10は、背景の置換のもう1つの例を示す。この例において、前述のセグメンテーションプロセスは、図10の表示フレーム1000を有するデスクトップベースのビデオチャットアプリケーション内で統合されている。元のオフィスの背景を戸外の背景(つまり、イメージ1002の海岸およびイメージ1004の港)と置換すると、2人の人物はどこか別の場所にいるように見える。この場合も同様に、前景/背景のセグメンテーションに残存効果がないことで、背景置換による概ね説得力のある結果のイメージが得られる。
前景/背景分離および背景置換は、前述のエネルギー最小化プロセスを適用することにより得られる。図11は、イメージをセグメント化する方法の例1100を示す。1つまたは複数のトレーニングイメージのセットが受け取られうる1102。トレーニングイメージは、セグメンテーションアプリケーションで予測されたイメージ(たとえば、テレビ会議アプリケーションの人物の頭部と肩)と類似したイメージ、セグメンテーションアプリケーションのビデオの最初の数秒間など、任意の適切なトレーニングイメージであってもよい。1つまたは複数のトレーニングイメージからの複数のピクセルは、トレーニングイメージの1つまたは複数のピクセルを前景または背景としてラベル付けすることなどによって、手動でセグメント化されうる1104。トレーニングイメージのピクセルに関連付けられているセグメンテーションインジケータは、手動によるピクセルのラベル付けによって、または前述のBoykovやRotherらによって論じられているような半自動プロセスなど、任意の適切な方法で決定されうる。トレーニングイメージのピクセルのセグメントインジケータは、データストアに格納されうるデータアレイなどに、任意の適切な方法および任意の適切なフォーマットで格納されうる1106。
モーションパラメータ値は、ピクセルモーションを決定するためのトレーニングイメージと連続するトレーニングイメージとの比較に基づいて、またピクセルの決定されたセグメンテーションインジケータに基づいて決定されうる1108。モーションパラメータは、ガウス混合モデルをラベル付けされたトレーニングイメージのピクセルの時間勾配および空間勾配の前景分布に適合させること、およびもう1つのガウス混合モデルをラベル付けされたトレーニングイメージのピクセルの時間勾配および空間勾配の背景分布に適合させることによってなど、任意の適切な方法で決定されうる。モーションモデルパラメータは、データストアなどに、任意の適切な方法で格納されうる1110。
一連の入力イメージの第1のイメージが受け取られうる1112。一連のイメージは、ビデオカメラ入力装置からなど、任意の適切な方法で受け取られうる。しかし、任意の数のカメラが使用されうることを理解されたい。イメージは、格納されているイメージをデータストアから取り出すことにより受け取られても、通信接続から受け取られても、入力装置などから受け取られてもよい。イメージは、さまざまなフォームで、さまざまな時間に、および/またはさまざまな通信のモードを介して受け取られうることを理解されたい。第1の入力イメージの複数のピクセルは、図2の強度インデクサ212などによって、索引付けされうる1114。一連の入力イメージの第2のイメージが受け取られうる1116。第2の入力イメージの複数のピクセルは、図2の強度インデクサ212などによって、索引付けされうる1118。
コントラスト尤度は、図2のコントラストモデル234に基づいてセグメンテーションモジュール216などによって決定されうる1120。第2のイメージのモーション領域が決定されうる1122。たとえば、第2のイメージの索引付けされたピクセルが、第1のイメージの索引付けされたピクセルと比較されてもよい。時間履歴に基づくモーション尤度は、図2のモーションモデル230に基づいてセグメンテーションモジュール216などによって決定されうる1124。モーション尤度、および任意でコントラスト尤度を使用して、第2の入力イメージの1つまたは複数のピクセルに関連付けられているセグメンテーションインジケータが近似的に決定されうる1126。具体的には、モーション尤度、また任意でコントラスト尤度は、第2の入力イメージの1つまたは複数のピクセルのセグメンテーションインジケータの近似のセットを決定するように最適化されうる近似エネルギー方程式を形成するために、セグメンテーションモジュールによって使用されうる。近似セグメンテーションインジケータは格納され1128、第2のイメージの近似ピクセルに関連付けられうる。
第2の入力イメージの索引付けされたピクセルおよびその関連付けられたセグメンテーションインジケータは、カラーパラメータを決定するようにカラーモデルをトレーニングするために使用されうる。たとえば、カラー初期化モジュールは、期待値最大化を使用してガウス混合モデルを近似的に識別された前景ピクセルに適合させるため、および/または期待値最大化を使用してもう1つのガウス混合モデルを近似的に識別された背景ピクセルに適合させるために、第2のイメージのセグメンテーションインジケータおよびピクセル値を使用することができる。カラー尤度は、初期化カラーパラメータに基づいて決定されうる1130。
次の(現在の)入力イメージは、任意の適切な方法で受け取られ1132、索引付けされうる1134。コントラスト尤度は、次の(現在の)入力イメージに対して決定されうる1136。次の(現在の)イメージのモーション領域が決定されうる1138。たとえば、次の(現在の)イメージの索引付けされたピクセルは、直前のイメージの索引付けされたピクセルと比較されてもよい。時間履歴に基づく次の(現在の)イメージのモーション尤度は、前のフレームのセグメンテーションに基づいて決定されうる1140。たとえば5秒間、一連のイメージに動きが全くまたはほとんどないような場合、モーション尤度値は信頼性を失うことになる。したがって、場合によっては、モーション尤度の加重は、あらかじめ定められた期間にわたり全く動きが検出されなかったときに調整されうる。次の(現在の)イメージのモーション尤度、前のイメージのカラー尤度と、また任意で次の(現在の)イメージのコントラスト尤度とを使用するために、次の(現在の)入力イメージの1つまたは複数のピクセルに関連付けられているセグメンテーションインジケータが決定されうる1142。具体的には、モーション尤度、カラー尤度、また任意でコントラスト尤度は、次の(現在の)入力イメージの1つまたは複数のピクセルのセグメンテーションインジケータのセットを決定するように最適化されうるエネルギー方程式を形成するために、セグメンテーションモジュールによって使用されうる。セグメンテーションインジケータは格納され1144、次の(現在の)イメージの適切なピクセルに関連付けられうる。
次の(現在の)入力イメージの索引付けされたピクセルおよびその関連付けられたセグメンテーションインジケータは、次の(現在の)イメージのカラー尤度を決定するようにカラーモデルをトレーニングするために使用されうる1146。プロセスは、後続の各入力イメージがセグメント化されるように次の入力イメージを受け取るステップ1132に戻ることができる。後続の各入力イメージは、現在の入力イメージのモーション尤度、前の入力イメージのカラー尤度と、また任意で現在の入力イメージのコントラスト尤度とを使用してセグメント化されうる。前述のように、カラー尤度は、時間の経過に伴って値を変更する加重項を使用することにより、または初期化されたカラー尤度の信頼度の変化に応じて、ダイヤルインされうる。
入力イメージおよびその関連付けられているセグメンテーションインジケータは、図2のイメージプロセッサ220などによって、何らかの方法で入力イメージを変更するように処理されうる1148。たとえば、入力イメージから前景オブジェクトを抽出し、他のピクセルよりも高い忠実度で関連付けられた前景ピクセルを格納または圧縮し、動的エモティコンが背景オブジェクトの前面にとどまりながら識別された前景オブジェクトの前または後ろを移動できるようにして、識別された前景オブジェクトの周囲にスマートフレームを配置または位置付けられるようにするなどのために、前景ピクセルを示すセグメンテーションインジケータが使用されうる。
本発明の好ましい実施形態を示し、説明してきたが、本発明の精神および範囲を逸脱することなくさまざまな変更を加えることができることが明らかとなろう。たとえば、前述の実施例は単眼イメージデータのセグメント化を説明しているが、ステレオイメージデータが同様の方法でセグメント化されうることを理解されたい。さらに、ステレオ情報の一部の場合においては、モーション、カラーの尤度と、また任意でコントラストの尤度が、ステレオ情報から決定される不一致尤度および一致尤度と融合されうる。モーションおよびカラー尤度、また任意でコントラスト尤度との前述の融合は、リアルタイムアプリケーションおよびビデオストリームに実質的にエイリアスを生じることなくセグメンテーションが行われるようにするのに十分である。イメージデータの前景領域および背景領域をセグメント化するために、ビデオストリームの二層セグメンテーションのマルコフランダムフィールドエネルギー最小化フレームワーク内のモーションおよびカラー/コントラストキューが融合されうる。加えて、イメージシーケンス内のモーションイベントは、明示的な速度計算を行うことなく検出されうる。モーションとカラーと、任意でコントラストとを組み合わせることで、リアルタイムパフォーマンスを備える正確な前景/背景の分離をもたらす。
単眼ベースのイメージ処理システムを実施するためのシステム実施例を示す図である。 イメージ処理システムを示す実施例概念図である。 モーション尤度をトレーニングするために使用されるトレーニングデータシーケンスの2つのフレーム例と、対応する手動により取得されたセグメンテーションマスクを示す図である。 トレーニング前景2D微分点およびトレーニング背景微分点のグラフ例を示す図である。 トレーニング前景および背景の微分点のプロット例を示す図である。 テストシーケンスの例、および各ピクセルの対応するモーション尤度を示す図である。 入力イメージシーケンス例を示す図である。 図7のイメージシーケンスの前景セグメンテーションを示す図である。 図8のイメージシーケンスの前景セグメンテーションによる背景置換を示す図である。 オンラインチャットアプリケーションにおける背景の置換のフレーム表示例を示す図である。 実施例のイメージ処理方法を示す図である。

Claims (6)

  1. a)トレーニングイメージのセットを受け取るステップと
    b)トレーニングイメージの前記セットの各イメージの複数のピクセルのそれぞれに関連付けられたトレーニングセグメントインジケータを受け取るステップであって、各トレーニングセグメントインジケータは前景トレーニング・ピクセルまたは背景トレーニング・ピクセルを示すものであるステップと、
    c)前景トレーニング・ピクセルを示す前記トレーニングセグメントインジケータと関連付けられた複数のピクセルのピクセル値の時間微分及び空間勾配の分布ガウス混合モデルを適合させて第1のガウス混合モデルを取得し、背景トレーニング・ピクセルを示す前記トレーニングセグメントインジケータと関連付けられた複数のピクセルのピクセル値の時間微分及び空間勾配の分布ガウス混合モデルを適合させて第2のガウス混合モデルを取得し、ガウス混合モデルのパラメータとして1つまたは複数のモーションパラメータを決定するステップと、
    d)前記トレーニングイメージのセットとは異なる第1の入力イメージを受け取るステップであって、前記第1の入力イメージは第1の複数のピクセルを含むステップと、
    e)前記第1の複数のピクセルの各々について、前記モーションパラメータと、各ピクセルのピクセル値の時間微分及び空間勾配とに基づいてモーションの第1の尤度比を決定するステップと、
    f)前記モーションの第1の尤度比を項として含む第1のエネルギー関数の最小値を推定することにより、前記第1の複数のピクセルの各々について最適なセグメントインジケータとして、第1のセグメントインジケータを決定するステップであって、各第1のセグメントインジケータは前景ピクセルまたは背景ピクセルを示すものであるステップと、
    g)前景ピクセルを示す前記第1のセグメントインジケータと関連付けられたピクセルのピクセル値の分布にガウス混合モデルを適合させて第3のガウス混合モデルを取得し、背景ピクセルを示す前記第1のセグメントインジケータと関連付けられたピクセルのピクセル値の分布にガウス混合モデルを適合させて第4のガウス混合モデルを取得しガウス混合モデルのパラメータとして決定されるカラーパラメータに基づいて前記第1の複数のピクセルの各々についてカラーの第1の尤度比を決定するステップと、
    h)前記トレーニングイメージのセットとは異なる第2の入力イメージを、前記第1の入力イメージの受け取りに引き続き受け取るステップであって、前記第2の入力イメージは第2の複数のピクセルを含むステップと、
    i)前記第2の複数のピクセルの各々について、前記モーションパラメータと、各ピクセルのピクセル値の時間微分及び空間勾配とに基づいてモーションの第2の尤度比を決定するステップと、
    j)前記モーションの第2の尤度比および前記カラーの第1の尤度比を項として含む第2のエネルギー関数の最小値を推定することにより、前記第2の複数のピクセルの各々について最適なセグメントインジケータとして、第2のセグメントインジケータを決定するステップであって、各第2のセグメントインジケータは前景ピクセルまたは背景ピクセルを示すものであるステップと、
    k)第2のセグメントインジケータをデータストアに格納するステップと、
    を備える、コンピュータにより実施される方法。
  2. 前記第2のエネルギー関数は、各ピクセルのピクセル値とセグメントインジケータとにより決定されるコントラストエネルギーを表わす空間平滑性の項を含むことを特徴とする請求項に記載の方法。
  3. 前記第1及び第2のエネルギー関数の最小値を推定するために、グラフカットを使用することを特徴とする請求項1又は2に記載の方法。
  4. 前記第2の入力イメージにおいて、前記第2のセグメントインジケータに基づいて背景ピクセルとして識別されたピクセルの背景置換を行うステップをさらに備えることを特徴とする請求項1〜3のいずれか1項に記載の方法。
  5. コンピュータに、請求項1〜4のいずれか1項に記載のステップを実行させるためのプログラム
  6. コンピュータに、請求項1〜4のいずれか1項に記載のステップを実行させるためのプログラムを格納したコンピュータ読み取り可能な記録媒体
JP2008517220A 2005-06-17 2006-06-19 イメージセグメンテーション Expired - Fee Related JP4898800B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US69186505P 2005-06-17 2005-06-17
US60/691,865 2005-06-17
US11/252,017 US7676081B2 (en) 2005-06-17 2005-10-17 Image segmentation of foreground from background layers
US11/252,017 2005-10-17
PCT/US2006/023858 WO2006138730A2 (en) 2005-06-17 2006-06-19 Image segmentation

Publications (2)

Publication Number Publication Date
JP2008547097A JP2008547097A (ja) 2008-12-25
JP4898800B2 true JP4898800B2 (ja) 2012-03-21

Family

ID=37571298

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008517220A Expired - Fee Related JP4898800B2 (ja) 2005-06-17 2006-06-19 イメージセグメンテーション

Country Status (6)

Country Link
US (2) US7676081B2 (ja)
EP (1) EP1891579B1 (ja)
JP (1) JP4898800B2 (ja)
KR (1) KR101242259B1 (ja)
CN (1) CN101558404B (ja)
WO (1) WO2006138730A2 (ja)

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657060B2 (en) * 2004-03-31 2010-02-02 Microsoft Corporation Stylization of video
US7676081B2 (en) * 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7697752B2 (en) * 2005-12-20 2010-04-13 General Instrument Corporation Method and apparatus for performing object detection
US7885463B2 (en) * 2006-03-30 2011-02-08 Microsoft Corp. Image segmentation using spatial-color Gaussian mixture models
US7940971B2 (en) * 2006-07-24 2011-05-10 Siemens Medical Solutions Usa, Inc. System and method for coronary digital subtraction angiography
US8103068B2 (en) * 2006-09-29 2012-01-24 Cornell Research Foundation, Inc. Methods and systems for reconstruction of objects
US7751626B2 (en) * 2006-12-05 2010-07-06 Fujifilm Corporation Method and apparatus for detection using gradient-weighted and/or distance-weighted graph cuts
US8300890B1 (en) * 2007-01-29 2012-10-30 Intellivision Technologies Corporation Person/object image and screening
US8363267B2 (en) * 2007-06-01 2013-01-29 Samsung Electronics Co., Ltd. Image forming apparatus and color converting method thereof
US8041114B2 (en) * 2007-06-15 2011-10-18 Microsoft Corporation Optimizing pixel labels for computer vision applications
US8200015B2 (en) * 2007-06-22 2012-06-12 Siemens Aktiengesellschaft Method for interactively segmenting structures in image data records and image processing unit for carrying out the method
DE102007028895B4 (de) * 2007-06-22 2010-07-15 Siemens Ag Verfahren zur Segmentierung von Strukturen in 3D-Bilddatensätzen
US8094903B2 (en) * 2007-06-28 2012-01-10 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
US8401229B2 (en) 2007-09-04 2013-03-19 Objectvideo, Inc. Stationary target detection by exploiting changes in background model
KR101023207B1 (ko) * 2007-09-05 2011-03-18 한국전자통신연구원 영상 객체 추출 장치 및 그 방법
US7925089B2 (en) * 2007-09-18 2011-04-12 Microsoft Corporation Optimization of multi-label problems in computer vision
US8086006B2 (en) * 2007-09-21 2011-12-27 Siemens Aktiengesellschaft Method and system for evaluating image segmentation based on visibility
US8121367B2 (en) * 2007-09-21 2012-02-21 Siemens Aktiengesellschaft Method and system for vessel segmentation in fluoroscopic images
WO2009078957A1 (en) 2007-12-14 2009-06-25 Flashfoto, Inc. Systems and methods for rule-based segmentation for objects with full or partial frontal view in color images
KR101401184B1 (ko) * 2008-02-01 2014-05-30 고려대학교 산학협력단 동영상의 객체 경계 추정 방법
US20090252429A1 (en) * 2008-04-03 2009-10-08 Dan Prochazka System and method for displaying results of an image processing system that has multiple results to allow selection for subsequent image processing
US8073243B2 (en) * 2008-05-30 2011-12-06 General Instrument Corporation Replacing image information in a captured image
JP5157721B2 (ja) * 2008-07-29 2013-03-06 ソニー株式会社 画像データの分布モデル更新装置、画像処理装置、画像データの分布モデル更新方法およびプログラム
US8345944B2 (en) * 2008-08-06 2013-01-01 Siemens Aktiengesellschaft System and method for coronary digital subtraction angiography
US8254678B2 (en) 2008-08-27 2012-08-28 Hankuk University Of Foreign Studies Research And Industry-University Cooperation Foundation Image segmentation
JP5045619B2 (ja) * 2008-09-08 2012-10-10 ソニー株式会社 画像処理装置および方法、並びにプログラム
JP5157768B2 (ja) * 2008-09-08 2013-03-06 ソニー株式会社 画像処理装置および方法、並びにプログラム
US8249349B2 (en) * 2008-11-25 2012-08-21 Microsoft Corporation Labeling image elements
TWI391876B (zh) * 2009-02-16 2013-04-01 Inst Information Industry 利用多重模組混合圖形切割之前景偵測方法、系統以及電腦程式產品
JP2010205067A (ja) * 2009-03-04 2010-09-16 Fujifilm Corp 領域抽出装置、領域抽出方法及び領域抽出プログラム
US8280164B2 (en) * 2009-03-04 2012-10-02 Eastman Kodak Company Producing object cutouts in topically related images
JP2010212947A (ja) * 2009-03-10 2010-09-24 Sony Corp 情報処理装置および方法、情報処理システム、並びにプログラム
US8164617B2 (en) * 2009-03-25 2012-04-24 Cisco Technology, Inc. Combining views of a plurality of cameras for a video conferencing endpoint with a display wall
US8885926B2 (en) * 2009-04-15 2014-11-11 Massachusetts Institute Of Technology Image and data segmentation
US9524550B2 (en) 2009-05-05 2016-12-20 Siemens Healthcare Gmbh System and method for coronary digital subtraction angiography
JP5299173B2 (ja) * 2009-08-26 2013-09-25 ソニー株式会社 画像処理装置および画像処理方法、並びにプログラム
US8670615B2 (en) * 2009-09-30 2014-03-11 Flashfoto, Inc. Refinement of segmentation markup
US8452087B2 (en) 2009-09-30 2013-05-28 Microsoft Corporation Image selection techniques
US8537200B2 (en) * 2009-10-23 2013-09-17 Qualcomm Incorporated Depth map generation techniques for conversion of 2D video data to 3D video data
US8520975B2 (en) * 2009-10-30 2013-08-27 Adobe Systems Incorporated Methods and apparatus for chatter reduction in video object segmentation using optical flow assisted gaussholding
TW201121335A (en) * 2009-12-02 2011-06-16 Sunplus Core Technology Co Ltd Method and apparatus for adaptively determining compression modes to compress frames
US8306333B2 (en) * 2009-12-17 2012-11-06 National Tsing Hua University Method and system for automatic figure segmentation
AU2009251086B2 (en) * 2009-12-22 2013-12-05 Canon Kabushiki Kaisha Method of foreground/background separation
JP5445127B2 (ja) * 2009-12-28 2014-03-19 カシオ計算機株式会社 画像処理装置及び方法、並びにプログラム
JP5278307B2 (ja) * 2009-12-28 2013-09-04 カシオ計算機株式会社 画像処理装置及び方法、並びにプログラム
US8655069B2 (en) * 2010-03-05 2014-02-18 Microsoft Corporation Updating image segmentation following user input
US9628722B2 (en) 2010-03-30 2017-04-18 Personify, Inc. Systems and methods for embedding a foreground video into a background feed based on a control input
US9311567B2 (en) 2010-05-10 2016-04-12 Kuang-chih Lee Manifold learning and matting
US8625897B2 (en) 2010-05-28 2014-01-07 Microsoft Corporation Foreground and background image segmentation
KR101324792B1 (ko) * 2010-05-31 2013-10-31 태성전장주식회사 지능형 운송 시스템을 위한 칼라 영역의 분할 시스템
US8630455B2 (en) * 2010-07-20 2014-01-14 SET Corporation Method and system for audience digital monitoring
JP5716170B2 (ja) * 2010-07-26 2015-05-13 石川 博 情報処理方法および情報処理装置
US8649592B2 (en) 2010-08-30 2014-02-11 University Of Illinois At Urbana-Champaign System for background subtraction with 3D camera
US9294717B2 (en) * 2010-10-13 2016-03-22 At&T Intellectual Property I, L.P. System and method to enable layered video messaging
US8666191B2 (en) * 2011-03-02 2014-03-04 Canon Kabushiki Kaisha Systems and methods for image capturing
AU2012225193B2 (en) * 2011-03-04 2015-06-18 Lbt Innovations Limited Method for improving classification results of a classifier
US8705860B2 (en) 2011-03-14 2014-04-22 Microsoft Corporation Grouping variables for fast image labeling
US9501837B2 (en) * 2014-10-01 2016-11-22 Lyrical Labs Video Compression Technology, LLC Method and system for unsupervised image segmentation using a trained quality metric
US9087395B1 (en) * 2011-04-28 2015-07-21 A9.Com, Inc. Techniques for providing content animation
GB2490872B (en) * 2011-05-09 2015-07-29 Toshiba Res Europ Ltd Methods and systems for capturing 3d surface geometry
US8977629B2 (en) 2011-05-24 2015-03-10 Ebay Inc. Image-based popularity prediction
US8811726B2 (en) * 2011-06-02 2014-08-19 Kriegman-Belhumeur Vision Technologies, Llc Method and system for localizing parts of an object in an image for computer vision applications
US8565520B2 (en) 2011-06-10 2013-10-22 Microsoft Corporation Determining foreground regions and background regions in an image
US9153031B2 (en) * 2011-06-22 2015-10-06 Microsoft Technology Licensing, Llc Modifying video regions using mobile device input
EP2754131B1 (en) 2011-09-08 2022-10-26 Nautilus, Inc. System and method for visualizing synthetic objects withinreal-world video clip
US8731315B2 (en) 2011-09-12 2014-05-20 Canon Kabushiki Kaisha Image compression and decompression for image matting
US8706473B2 (en) * 2011-09-13 2014-04-22 Cisco Technology, Inc. System and method for insertion and removal of video objects
US8995755B2 (en) 2011-09-30 2015-03-31 Cyberlink Corp. Two-dimensional to stereoscopic conversion systems and methods
CN102572205B (zh) * 2011-12-27 2014-04-30 方正国际软件有限公司 一种图像处理方法、装置及系统
JP5865078B2 (ja) 2011-12-28 2016-02-17 キヤノン株式会社 画像処理装置および画像処理方法
US20130308856A1 (en) * 2012-01-12 2013-11-21 Google Inc. Background Detection As An Optimization For Gesture Recognition
US9042648B2 (en) 2012-02-23 2015-05-26 Microsoft Technology Licensing, Llc Salient object segmentation
US8705870B2 (en) 2012-03-02 2014-04-22 Microsoft Corporation Image searching by approximate κ-NN graph
US9025876B2 (en) 2012-03-05 2015-05-05 Thomson Licensing Method and apparatus for multi-label segmentation
US20130301918A1 (en) * 2012-05-08 2013-11-14 Videostir Ltd. System, platform, application and method for automated video foreground and/or background replacement
EP2669865A1 (en) * 2012-05-31 2013-12-04 Thomson Licensing Segmentation of a foreground object in a 3D scene
TWI478078B (zh) * 2012-05-31 2015-03-21 Senao Networks Inc A motion detection device and a motion detection method
KR101978176B1 (ko) * 2012-07-12 2019-08-29 삼성전자주식회사 영상 처리 장치 및 방법
CN102982544B (zh) * 2012-11-21 2015-09-30 清华大学 多前景目标图像交互式分割方法
CN103092616A (zh) * 2013-01-14 2013-05-08 深圳市金立通信设备有限公司 一种应用程序背景的显示方法及移动终端
CN103116754B (zh) * 2013-01-24 2016-05-18 浙江大学 基于识别模型的批量图像分割方法及系统
US9710493B2 (en) 2013-03-08 2017-07-18 Microsoft Technology Licensing, Llc Approximate K-means via cluster closures
WO2014159726A1 (en) * 2013-03-13 2014-10-02 Mecommerce, Inc. Determining dimension of target object in an image using reference object
US9191643B2 (en) * 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
US9336460B2 (en) * 2013-05-31 2016-05-10 Intel Corporation Adaptive motion instability detection in video
US9247129B1 (en) * 2013-08-30 2016-01-26 A9.Com, Inc. Self-portrait enhancement techniques
US20150089446A1 (en) * 2013-09-24 2015-03-26 Google Inc. Providing control points in images
US9245205B1 (en) * 2013-10-16 2016-01-26 Xerox Corporation Supervised mid-level features for word image representation
CN103530882B (zh) * 2013-10-17 2017-02-08 南京大学 一种改进的基于图和色彩纹理特征的图像分割方法
US9485433B2 (en) 2013-12-31 2016-11-01 Personify, Inc. Systems and methods for iterative adjustment of video-capture settings based on identified persona
US9414016B2 (en) 2013-12-31 2016-08-09 Personify, Inc. System and methods for persona identification using combined probability maps
US9158985B2 (en) * 2014-03-03 2015-10-13 Xerox Corporation Method and apparatus for processing image of scene of interest
JP5946153B2 (ja) * 2014-03-12 2016-07-05 富士フイルム株式会社 画像処理装置、その作動方法およびプログラム
US9311716B2 (en) 2014-05-14 2016-04-12 International Business Machines Corporation Static image segmentation
WO2015186341A1 (ja) * 2014-06-03 2015-12-10 日本電気株式会社 画像処理システム、画像処理方法及びプログラム記憶媒体
JP6482934B2 (ja) * 2014-06-03 2019-03-13 キヤノンメディカルシステムズ株式会社 画像処理装置、放射線検出装置および画像処理方法
CN104091344B (zh) * 2014-07-22 2017-04-19 中国科学院自动化研究所 一种道路分割方法
CN105608459B (zh) 2014-10-29 2018-09-14 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
CN104616011B (zh) * 2015-02-13 2017-02-22 中国人民解放军国防科学技术大学 基于梯度信息和块状区域组合先验的mrf车牌去噪算法
US9916668B2 (en) 2015-05-19 2018-03-13 Personify, Inc. Methods and systems for identifying background in video data using geometric primitives
US9563962B2 (en) * 2015-05-19 2017-02-07 Personify, Inc. Methods and systems for assigning pixels distance-cost values using a flood fill technique
US9704298B2 (en) * 2015-06-23 2017-07-11 Paofit Holdings Pte Ltd. Systems and methods for generating 360 degree mixed reality environments
EP3341919A4 (en) * 2015-09-07 2019-04-03 Sony Interactive Entertainment America LLC PICTURE REGULATORY AND RETARGETING SYSTEM
CN105184820B (zh) * 2015-09-15 2018-03-13 杭州中威电子股份有限公司 一种融合图形梯度和灰度的背景建模和运动目标检测方法及装置
US10270965B2 (en) * 2015-12-04 2019-04-23 Ebay Inc. Automatic guided capturing and presentation of images
US10175867B2 (en) * 2016-02-03 2019-01-08 Adobe Inc. User input-based object selection using multiple visual cues
DE112017001311T5 (de) 2016-03-17 2018-11-29 Avigilon Corporation System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
US9760978B1 (en) * 2016-05-09 2017-09-12 Adobe Systems Incorporated Missing region prediction
JP6632474B2 (ja) * 2016-06-06 2020-01-22 三菱電機株式会社 監視装置、監視方法及び空港監視システム
US9883155B2 (en) 2016-06-14 2018-01-30 Personify, Inc. Methods and systems for combining foreground video and background video using chromatic matching
US9911201B2 (en) 2016-06-23 2018-03-06 Adobe Systems Incorporated Imaging process initialization techniques
US10475186B2 (en) * 2016-06-23 2019-11-12 Intel Corportation Segmentation of objects in videos using color and depth information
CN106125683A (zh) * 2016-07-21 2016-11-16 广西柏豪家具有限公司 具有远程控制的家居智能控制系统
CN106094761A (zh) * 2016-07-21 2016-11-09 广西柏豪家具有限公司 家居智能控制系统
US10015504B2 (en) * 2016-07-27 2018-07-03 Qualcomm Incorporated Compressing image segmentation data using video coding
DE102016119639A1 (de) * 2016-10-14 2018-04-19 Uniqfeed Ag System zur dynamischen Kontrastmaximierung zwischen Vordergrund und Hintergrund in Bildern oder/und Bildsequenzen
KR102579994B1 (ko) * 2016-10-24 2023-09-18 삼성에스디에스 주식회사 다중 배경 모델을 이용한 전경 생성 방법 및 그 장치
US9881207B1 (en) 2016-10-25 2018-01-30 Personify, Inc. Methods and systems for real-time user extraction using deep learning networks
US10395138B2 (en) 2016-11-11 2019-08-27 Microsoft Technology Licensing, Llc Image segmentation using user input speed
EP4030767B1 (en) 2016-11-30 2025-09-10 Panasonic Intellectual Property Corporation of America Three-dimensional model distribution method and three-dimensional model distribution device
US10325372B2 (en) * 2016-12-20 2019-06-18 Amazon Technologies, Inc. Intelligent auto-cropping of images
US10755419B2 (en) * 2017-01-30 2020-08-25 Nec Corporation Moving object detection apparatus, moving object detection method and program
WO2018169571A1 (en) * 2017-03-15 2018-09-20 Google Llc Segmentation-based parameterized motion models
CN107240073B (zh) * 2017-05-12 2020-04-24 杭州电子科技大学 一种基于梯度融合与聚类的三维视频图像修复方法
CN108846875A (zh) * 2018-04-26 2018-11-20 广州视源电子科技股份有限公司 形状数据处理方法和装置
US11467646B2 (en) * 2019-03-28 2022-10-11 Lenovo (Singapore) Pte. Ltd. Context data sharing
CN110675420B (zh) * 2019-08-22 2023-03-24 华为技术有限公司 一种图像处理方法和电子设备
CN110992384B (zh) * 2019-11-15 2023-04-11 五邑大学 半自动化图像数据标注方法、电子装置及存储介质
CN111260679B (zh) * 2020-01-07 2022-02-01 广州虎牙科技有限公司 图像处理方法、图像分割模型训练方法及相关装置
US11593947B2 (en) * 2020-03-10 2023-02-28 Cisco Technology, Inc. Automatic adjusting background
US11218669B1 (en) * 2020-06-12 2022-01-04 William J. Benman System and method for extracting and transplanting live video avatar images
CN112200889B (zh) * 2020-10-30 2024-10-29 上海商汤智能科技有限公司 样本图像生成、图像处理、智能行驶控制方法及装置
US11394549B1 (en) 2021-01-25 2022-07-19 8 Bit Development Inc. System and method for generating a pepper's ghost artifice in a virtual three-dimensional environment
US11800056B2 (en) 2021-02-11 2023-10-24 Logitech Europe S.A. Smart webcam system
US11800048B2 (en) 2021-02-24 2023-10-24 Logitech Europe S.A. Image generating system with background replacement or modification capabilities
US20230126024A1 (en) * 2021-10-26 2023-04-27 Dell Products L.P. Information handling system camera with direct access settings and automated presentation positioning
CN114037633B (zh) * 2021-11-18 2022-07-15 南京智谱科技有限公司 一种红外图像处理的方法及装置
CN113822879B (zh) * 2021-11-18 2022-06-21 南京智谱科技有限公司 一种图像分割的方法及装置
CN114241047B (zh) * 2021-12-02 2023-04-07 广西大学 一种用于园林绿篱修剪的双目视觉识别和定位方法
US12483701B2 (en) * 2021-12-17 2025-11-25 Intel Corporation Methods and apparatus to process video frame pixel data using artificial intelligence video frame segmentation
US20240054608A1 (en) * 2022-08-12 2024-02-15 Hewlett-Packard Development Company, L.P. Fused images backgrounds

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790692A (en) * 1994-09-07 1998-08-04 Jeffrey H. Price Method and means of least squares designed filters for image segmentation in scanning cytometry
JP3042610B2 (ja) * 1996-08-23 2000-05-15 日本電気株式会社 画像分割方法
JP2001036801A (ja) * 1999-07-23 2001-02-09 Sharp Corp 撮像装置
US20030058237A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Multi-layered background models for improved background-foreground segmentation
US20030198382A1 (en) * 2002-04-23 2003-10-23 Jiann-Jone Chen Apparatus and method for removing background on visual
WO2004003847A2 (en) * 2002-06-28 2004-01-08 Koninklijke Philips Electronics N.V. Background-foreground segmentation based on object classification
JP3552456B2 (ja) * 1997-05-01 2004-08-11 セイコーエプソン株式会社 動物体追跡方法
US20040239762A1 (en) * 2003-05-21 2004-12-02 Porikli Fatih M. Adaptive background image updating

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0342610A (ja) * 1989-07-10 1991-02-22 Olympus Optical Co Ltd カメラのパターン認識装置
US5436672A (en) * 1994-05-27 1995-07-25 Symah Vision Video processing system for modifying a zone in successive images
EP0728394B1 (en) * 1994-09-12 2000-03-15 Koninklijke Philips Electronics N.V. System and method for enhancing the sharpness of a colour image
US6011595A (en) * 1997-09-19 2000-01-04 Eastman Kodak Company Method for segmenting a digital image into a foreground region and a key color region
CA2343751A1 (en) * 1998-07-27 2000-02-10 Webtv Networks, Inc. Remote computer access
US6670963B2 (en) * 2001-01-17 2003-12-30 Tektronix, Inc. Visual attention model
US7085401B2 (en) * 2001-10-31 2006-08-01 Infowrap Systems Ltd. Automatic object extraction
CN1201223C (zh) * 2002-05-13 2005-05-11 义隆电子股份有限公司 一种用于光学指向装置决定移动距离及移动方向的方法
US8599266B2 (en) * 2002-07-01 2013-12-03 The Regents Of The University Of California Digital processing of video images
US7408986B2 (en) * 2003-06-13 2008-08-05 Microsoft Corporation Increasing motion smoothness using frame interpolation with motion analysis
US7660463B2 (en) 2004-06-03 2010-02-09 Microsoft Corporation Foreground extraction using iterated graph cuts
US7512262B2 (en) 2005-02-25 2009-03-31 Microsoft Corporation Stereo-based image processing
US7676081B2 (en) 2005-06-17 2010-03-09 Microsoft Corporation Image segmentation of foreground from background layers
US7720282B2 (en) 2005-08-02 2010-05-18 Microsoft Corporation Stereo image segmentation

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5790692A (en) * 1994-09-07 1998-08-04 Jeffrey H. Price Method and means of least squares designed filters for image segmentation in scanning cytometry
JP3042610B2 (ja) * 1996-08-23 2000-05-15 日本電気株式会社 画像分割方法
JP3552456B2 (ja) * 1997-05-01 2004-08-11 セイコーエプソン株式会社 動物体追跡方法
JP2001036801A (ja) * 1999-07-23 2001-02-09 Sharp Corp 撮像装置
US20030058237A1 (en) * 2001-09-27 2003-03-27 Koninklijke Philips Electronics N.V. Multi-layered background models for improved background-foreground segmentation
US20030198382A1 (en) * 2002-04-23 2003-10-23 Jiann-Jone Chen Apparatus and method for removing background on visual
WO2004003847A2 (en) * 2002-06-28 2004-01-08 Koninklijke Philips Electronics N.V. Background-foreground segmentation based on object classification
JP2005531844A (ja) * 2002-06-28 2005-10-20 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改良された背景・前景分割のためのオブジェクト分類を採用する拡張背景モデル
US20040239762A1 (en) * 2003-05-21 2004-12-02 Porikli Fatih M. Adaptive background image updating

Also Published As

Publication number Publication date
WO2006138730A3 (en) 2009-05-07
JP2008547097A (ja) 2008-12-25
CN101558404B (zh) 2013-01-23
EP1891579A2 (en) 2008-02-27
KR101242259B1 (ko) 2013-03-12
EP1891579B1 (en) 2013-05-08
EP1891579A4 (en) 2011-01-05
US8103093B2 (en) 2012-01-24
US20060285747A1 (en) 2006-12-21
CN101558404A (zh) 2009-10-14
WO2006138730A2 (en) 2006-12-28
US7676081B2 (en) 2010-03-09
KR20080015078A (ko) 2008-02-18
US20100119147A1 (en) 2010-05-13

Similar Documents

Publication Publication Date Title
JP4898800B2 (ja) イメージセグメンテーション
US11727577B2 (en) Video background subtraction using depth
Matern et al. Exploiting visual artifacts to expose deepfakes and face manipulations
US7991228B2 (en) Stereo image segmentation
US10885372B2 (en) Image recognition apparatus, learning apparatus, image recognition method, learning method, and storage medium
US9153031B2 (en) Modifying video regions using mobile device input
Friedland et al. SIOX: Simple interactive object extraction in still images
Bai et al. Dynamic color flow: A motion-adaptive color model for object segmentation in video
Wang et al. Simultaneous matting and compositing
USRE49044E1 (en) Automatic avatar creation
Zhong et al. Transductive segmentation of live video with non-stationary background
US12169908B2 (en) Two-dimensional (2D) feature database generation
Parolin et al. Bilayer video segmentation for videoconferencing applications
Finger et al. Video Matting from Depth Maps
CN111144363B (zh) 一种基于场景和物体信息的第一视角下的行为识别方法
Hillman et al. Semi-automatic foreground/background segmentation of motion picture images and image sequences
Sarim et al. Non-Parametric patch based video matting
CN120692430A (zh) 一种用于拼接窗口的视频画面展示比例调整的方法及系统
CN118015227A (zh) 多视频地理增强现实可视化方法、装置、设备及存储介质
Sarim et al. Natural image matting for multiple wide-baseline views
Kim et al. Automatic Object Segmentation and Background Composition for Interactive Video Communications over Mobile Phones
Hao Improved sampling-based alpha matting in images and video
SARDA et al. Occlusion Handling in Augmented Reality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090515

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090812

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090824

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110323

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111226

R150 Certificate of patent or registration of utility model

Ref document number: 4898800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees