JP7566471B2

JP7566471B2 - 画像処理装置、撮像装置、画像処理方法およびプログラム

Info

Publication number: JP7566471B2
Application number: JP2020019964A
Authority: JP
Inventors: 慶祐緑川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2024-10-15
Anticipated expiration: 2040-02-07
Also published as: JP2021125847A

Description

本発明は、画像処理装置、撮像装置、画像処理方法およびプログラムに関する。

デジタルカメラ等の撮像装置は、動画像を構成する各フレームから被写体を検出し、検出した被写体を追尾して、オートフォーカス（以下、ＡＦ）等の撮影制御を行う。この撮影制御により、ユーザによる撮影をサポートすることができる。関連する技術として、特許文献１に、追跡対象の運動特性や撮影環境の変化の影響を受けにくい視覚追跡技術が提案されている。特許文献１の技術では、パーティクルフィルタを用いた視覚追跡において、尤度を観測する際に用いるエッジ画像の生成に、撮像装置からの距離を画像平面に表した奥行き画像の情報が利用される。また、ニューラルネットワークに関する技術が非特許文献１に開示されている。

特開２０１６－８１２５１号公報

Ｓ．Ｈａｙｋｉｎ，"ＮｅｕｒａｌＮｅｔｗｏｒｋｓＡＣｏｍｐｒｅｈｅｎｓｉｖｅＦｏｕｎｄａｔｉｏｎ２ｎｄＥｄｉｔｉｏｎ"，ＰｒｅｎｔｉｃｅＨａｌｌ，ｐｐ．１５６－２５５，Ｊｕｌｙ１９９８

例えば、動画像を撮影している際に、追尾中の被写体と他の被写体とが交差することがある。この場合、もともと追尾していた被写体から、誤って他の被写体を追尾する事態が生じることがある。特許文献１の技術では、奥行き画像の情報を利用して、追尾対象の被写体を特定しているが、光学条件や２つの被写体の距離関係によっては、追尾対象の被写体を特定することが難しい場合がある。この場合、上記のように、もともと追尾していた被写体から、誤って他の被写体を追尾する事態が生じる可能性がある。

本発明は、追尾対象ではない他の被写体を誤って追尾することを抑制することを目的とする。

上記目的を達成するために、本発明の画像処理装置は、第１の画像から第１の被写体の複数の部位と、第２の画像から第２の被写体の複数の部位とを検出する検出手段と、前記検出手段により検出された前記第１の被写体の複数の部位に基づく姿勢と前記第２の被写体の複数の部位に基づく姿勢との間の姿勢情報としてのベクトルの差分に基づいて、前記第１の被写体と前記第２の被写体とのマッチングを行うマッチング手段と、を備えることを特徴とする。

本発明によれば、追尾対象ではない他の被写体を誤って追尾することを抑制することができる。

撮像装置の構成を示すブロック図である。動画像のフレームおよび処理を示す図である。人物の姿勢のモデル化を説明する図である。本実施形態の処理の流れを示すフローチャートである。

以下、本発明の各実施の形態について図面を参照しながら詳細に説明する。しかしながら、以下の各実施の形態に記載されている構成はあくまで例示に過ぎず、本発明の範囲は各実施の形態に記載されている構成によって限定されることはない。

以下、図面を参照して、本実施形態について説明する。図１は、撮像装置１００の構成を示すブロック図である。撮像装置１００は、被写体を撮影して、動画像や静止画を生成し、生成したデータを、テープや固体メモリ、光ディスク、磁気ディスク、半導体メモリ等の各種メディアに記録可能である。撮像装置１００は、例えば、デジタルスチルカメラやデジタルビデオカメラ等である。撮像装置１００内の各ユニットは、バス１６０を介して接続されている。また各ユニットは、ＣＰＵ１５１により制御される。

レンズユニット１０１は、固定１群レンズ１０２、ズームレンズ１１１、絞り１０３、固定３群レンズ１２１およびフォーカスレンズ１３１を有する。レンズユニット１０１は、他のレンズを有していてもよい。絞り制御部１０５は、ＣＰＵ１５１からの指令に従い、絞りモータ１０４（ＡＭ）を介して絞り１０３を駆動することにより、絞り１０３の開口径を調整して撮影時の光量調節を行う。ズーム制御部１１３は、ズームモータ１１２（ＺＭ）を介してズームレンズ１１１を駆動することにより、焦点距離を変更する。

フォーカス制御部１３３は、レンズユニット１０１のピント方向のずれ量（デフォーカス量）に基づいてフォーカスモータ１３２（ＦＭ）を駆動する駆動量を決定する。また、フォーカス制御部１３３は、フォーカスモータ１３２（ＦＭ）を介してフォーカスレンズ１３１を駆動することにより、焦点調節状態を制御する。フォーカス制御部１３３およびフォーカスモータ１３２によるフォーカスレンズ１３１の移動制御により、ＡＦ制御が実現される。フォーカスレンズ１３１は、焦点調節用レンズであり、図１には単レンズで簡略的に示されているが、通常は複数のレンズで構成される。

レンズユニット１０１を介して撮像素子１４１上に結像する被写体像は、撮像素子１４１により電気信号に変換される。撮像素子１４１は、被写体像（光学像）を電気信号に光電変換を行う光電変換素子である。撮像素子１４１は、横方向および縦方向にそれぞれ複数の受光素子（画素）が配置されている。撮像信号処理部１４２は、撮像素子１４１上に結像されて光電変換された画像を信号処理して画像信号（画像データ）を生成する。これにより、撮像面の画像を取得することができる。

撮像信号処理部１４２が出力する画像データは、撮像制御部１４３に送られ、一時的にＲＡＭ１５４に記憶される。画像圧縮解凍部１５３は、ＲＡＭ１５４に記憶された画像データを圧縮する。なお、画像圧縮解凍部１５３は、圧縮された画像データの解凍を行うこともできる。圧縮された画像データは、画像記録媒体１５７に記録される。これと並行して、ＲＡＭ１５４に蓄積された画像データは、画像処理部１５２に送られる。画像処理部１５２は、画像データに対して最適なサイズへの縮小処理または拡大処理等の画像処理を行う。また、画像処理部１５２は、画像データ同士の類似度算出等を行う。

画像処理部１５２により最適なサイズに処理された画像データは、適宜、モニタディスプレイ１５０に出力される。これにより、モニタディスプレイ１５０は、プレビュー画像表示やスルー画像表示を行うことができる。また、画像処理部１５２は、後述する物体検出部１６２の物体検出結果を画像データに重畳することで、モニタディスプレイ１５０は、物体検出結果が重畳された画像データを表示できる。

ＲＡＭ１５４は、リングバッファとして用いることもできる。この場合、所定期間内に撮像された複数の画像データや、画像データごとに対応した物体検出部１６２の検出結果、後述する位置姿勢変化取得部１６１が取得した撮像装置の位置姿勢変化等を、ＲＡＭ１５４にバッファリングできる。操作スイッチ１５６は、タッチパネルやボタン等を含む入力インターフェイスであり、モニタディスプレイ１５０に表示される種々の機能アイコンを選択操作すること等により、様々な操作を行うことができる。

ＣＰＵ１５１は、操作スイッチ１５６に入力された操作者からの指示、或いは一時的にＲＡＭ１５４に蓄積された画像データの画素信号の大きさに基づき、撮像素子１４１の蓄積時間やゲインの設定値を決定する。撮像制御部１４３は、ＣＰＵ１５１から蓄積時間やゲインの設定値の指示を受け取り、撮像素子１４１を制御する。ＣＰＵ１５１は、本実施形態の各処理を主体的に実行する。ＣＰＵ１５１は、生成手段およびマッチング手段に対応する。

物体検出部１６２は、画像データから物体が存在する領域を検出する。物体検出部１６２は、検出手段に対応する。本実施形態では、物体検出部１６２が行う物体検出処理は、ＣＮＮ（畳み込みニューラルネットワーク）による特徴抽出処理により実現されるものとする。ＣＮＮは、機械学習により学習されたＣＮＮであり、学習済みモデルに対応する。物体検出部１６２は、ＣＮＮ以外の機械学習アルゴリズム（決定木やサポートベクターマシン等）により機械学習された学習済みモデルを用いて物体検出処理を行ってもよい。また、物体検出部１６２は、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣＮＮｆｅａｔｕｒｅｓ）等により機械学習された学習済みモデルを用いて物体検出処理を行ってもよい。

物体検出部１６２は、画像から、被写体としての人物についての人体における複数の部位を検出する。部位は、局所領域とも称されることがあり、例えば、生体的な部位（頭部や肩等）には限定されず、人物の特徴的な領域であってもよい。

物体検出部１６２は、動物や車等を被写体として、複数の部位を検出してもよい。例えば、物体検出部１６２は、人物について顔を含む頭部や両肩、胴体、両膝等の代表点を推定することにより検出し、検出結果を出力する。物体検出部１６２は、上記の各部位以外の部位を検出してもよい。物体検出部１６２は、人物の人体の部位を矩形領域や点で検出してもよいし、関節同士を結ぶ線分等の情報で検出してもよい。また、物体検出部１６２は、画像の所定領域（興味領域）から各部位を検出してもよい。なお、物体検出部１６２は、機械学習された学習済みモデルではなく、被写体から部位を検出する所定の検出手法により、部位の検出を行ってもよい。

フォーカス制御部１３３は、特定の被写体領域に対するＡＦ制御を行う。絞り制御部１０５は、特定の被写体領域の輝度値を用いた露出制御を行う。画像処理部１５２は、被写体領域に基づいたガンマ補正やホワイトバランス処理等を行う。上述したように、モニタディスプレイ１５０は、画像データを表示する。また、物体検出部１６２は、被写体として人物を検出することができる。画像処理部１５２は、検出された人物を囲む枠（例えば、矩形の枠）を画像データに重畳してもよい。これにより、モニタディスプレイ１５０には、画像データとともに、画像データ中に被写体としての人物を囲む矩形の枠が表示される。

バッテリ１５９は、電源管理部１５８により適切に管理され、撮像装置１００の全体に安定した電源供給を行う。フラッシュメモリ１５５は、撮像装置１００の動作に必要な制御プログラムや、各部の動作に用いるパラメータ等が記録されている。ユーザの操作により撮像装置１００が起動すると（電源ＯＦＦ状態から電源ＯＮ状態へ移行すると）、フラッシュメモリ１５５に格納された制御プログラム及びパラメータがＲＡＭ１５４の一部に読み込まれる。ＣＰＵ１５１は、ＲＡＭ１５４にロードされた制御プログラムを実行することで、本実施形態の処理を実現することができる。

位置姿勢変化取得部１６１は、例えばジャイロや加速度センサ、電子コンパス等の位置姿勢センサにより構成される。位置姿勢変化取得部１６１は、撮像装置の撮影シーンに対する位置姿勢変化を計測する。位置姿勢変化取得部１６１が取得した位置姿勢変化は、ＲＡＭ１５４に記憶される。距離算出部１６３は、画像データ中の任意の被写体に対して撮像装置１００からの距離（深度）を算出する。算出された距離情報はＲＡＭ１５４に記憶される。画像処理部１５２は、ＲＡＭ１５４に記憶された距離情報を参照して、各種の処理を行う。撮像装置１００の構成は、図１の例には限定されない。

図１の撮像装置１００のうち、ＣＰＵ１５１、画像処理部１５２および物体検出部１６２により画像処理装置が構成されてもよい。この画像処理装置は、単体の装置により実現されてもよいし、撮像装置１００に内蔵されてもよいし、スマートフォンやタブレット端末等に内蔵されてもよい。また、上記の画像処理装置は、ＣＰＵ１５１、画像処理部１５２および物体検出部１６２以外の構成（例えば、モニタディスプレイ１５０や画像圧縮解凍部１５３等）を有していてもよい。

次に、本実施形態の処理について説明する。本実施形態の撮像装置１００は、動画像を撮影するものとして説明する。ただし、撮像装置１００は、静止画の撮影を行うこともできる。図２は、動画像のフレームおよび処理を示す図である。図２の例では、連続した３つのフレーム（画像）が示されるが、フレーム数は４枚以上であってもよい。図２の例では、ｎ―１番目のフレームｎ－１、ｎ番目のフレームｎおよびｎ＋１番目のフレームｎ＋１が示されている。各フレームは、連続したフレーム（画像）である。

図２の例では、追尾対象の被写体は人物Ａであるとする。フレームｎ－１およびフレームｎ＋１において、追尾対象の被写体の周囲は、追尾対象の被写体を特定するための領域（追尾対象領域Ｔ）で囲われている。図２の例では、追尾対象領域Ｔは、破線で示される矩形の枠としてフレームに重畳されているが、追尾対象領域Ｔの形状や表示態様等は、図２の例には限定されない。フレームｎ－１では、追尾対象は人物Ａであるものとする。ＣＰＵ１５１は、追尾対象の人物Ａについての姿勢情報を、例えば、テンプレートとして登録する。姿勢情報は、人物Ａの複数の部位の間の位置関係により人物を表す情報である。登録された姿勢情報は、例えば、ＲＡＭ１５４に記憶される。上記の場合、フレームｎ－１は第１の画像に対応し、人物Ａは第１の被写体に対応する。

図２の例において、人物Ａは走行しており、フレームｎ－１の次のフレームｎでは、人物Ａと人物Ｂとが交差する。また、人物Ｂの向きは、フレームｎ－１とフレームｎとで異なる。ここでは、人物Ｂは、人物Ａより手前に位置している。つまり、人物Ｂは、人物Ａより撮像装置１００に近くに位置している。このため、フレームｎにおいて人物Ａは人物Ｂに隠れた状態となる。この場合、被写体は人物Ｂになる。人物Ｂの姿勢と登録された人物Ａの姿勢とは類似していない。ＣＰＵ１５１は、フレームｎの人物Ｂの姿勢情報と登録された人物Ａの姿勢情報とを比較して、マッチングを行う。フレームｎの人物Ｂの姿勢と、登録された人物Ａの姿勢とは類似していない。このため、ＣＰＵ１５１は、マッチングの結果として、フレームｎの被写体（人物Ｂ）は、人物Ａと別人であると判定する。従って、フレームｎでは、追尾対象である人物Ａが検出されなくなる。

図２の例では、フレームｎの次のフレームｎ＋１で、追尾対象である人物Ａは、人物Ｂから離れている。ＣＰＵ１５１は、フレームｎ＋１に含まれる人物Ａと人物Ｂとのそれぞれについての姿勢情報と登録された人物Ａの姿勢情報とのマッチングを行う。フレームｎ＋１における人物Ａについての姿勢は、登録された人物Ａの姿勢と類似している。このため、ＣＰＵ１５１は、マッチングの結果、フレームｎ＋１の中の人物Ａが登録された人物Ａと同一人物であると判定する。そして、ＣＰＵ１５１は、人物Ａの追尾を再開する制御を行う。

次に、人物の姿勢のモデル化について説明する。図３（ａ）は、図２のフレームｎ－１およびフレームｎを表す図である。図３（ｂ）は、テンプレートとして登録される人物Ａの姿勢情報のモデル（テンプレート姿勢）を示す。テンプレートとして登録される被写体は、人物Ｂであってもよい。ＣＰＵ１５１は、撮像制御部１４３から入力されるフレームを、順次、物体検出部１６２に入力する。物体検出部１６２は、フレーム（画像）をＣＮＮに入力して、フレームの中の人物の複数の部位を推定により検出して、検出された人物および複数の部位の座標を出力する。本実施形態では、物体検出部１６２は、ＣＮＮに画像を入力して、人物の首、頭部、左右肩、左右肘、左右手首、左右膝および左右足首の各部位を検出する。物体検出部１６２は、人物の下半身の複数の部位を検出してもよい。物体検出部１６２は、検出した各部位の座標（関節座標）を物体検出結果として、ＣＰＵ１５１に出力する。各部位の座標は、円の中の１点（例えば、円の中心）であってもよいし、円の中の偏在した点であってもよい。

ＣＰＵ１５１は、関節の構造において隣接する部位間の座標同士を連結したベクトルを用いて、姿勢情報を生成する。ベクトルが用いられることで、姿勢情報は、人物の向きも考慮した情報となる。図３（ｂ）において、フレームｎ－１における追尾対象の人物Ａに関して、ＣＰＵ１５１は、首から頭部へのベクトルをｖ_０、左肩から左肘へのベクトルをｖ_１等のように、以下の式を定義する。

図３（ｃ）は、フレームｎにおけるマッチング候補である人物Ｂの姿勢情報のモデルである。この場合、フレームｎは第２の画像に対応し、マッチング候補である人物Ｂは第２の被写体に対応する。ＣＰＵ１５１は、登録される人物Ａの姿勢情報のモデルに対応して、フレームｎにおける人物Ｂの対応するベクトルを、以下の式で定義する。

ここで、フレームに含まれる人物の姿勢や障害物の有無によっては検出されない部位が存在することがある。この場合、ＣＰＵ１５１は、検出されない部位の座標を必要とするベクトルは定義しないものとする。例えば、図３（ｂ）の例では、人物Ａの右側部分についての部位は検出されないため、フレームｎの人物Ａの首から右肩へのベクトルは定義されない。一方、図３（ｃ）の例では、人物Ｂの姿勢情報として、首と右肩が検出されているため、首から右肩へのベクトルｖ’_４は定義される。

ＣＰＵ１５１は、ベクトルｖ_ｉとベクトルｖ’_ｉとの距離（差分）を、ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）としたとき、人物間の姿勢の距離を、ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）の重み付け和として算出する。上述したように、フレームに含まれる人物のベクトルｖ_ｉ、ｖ’_ｉは定義されないことがある。ＣＰＵ１５１は、ベクトルｖ_ｉ、ｖ’_ｉが定義されているかに応じて、上記のｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）を、以下の式により算出する。なお、以下の式において、Ｃ_０、Ｃ_１は、既知の定数とする。

ＣＰＵ１５１は、各ベクトルに対して、重み付けを行う。各ベクトルに対する重みは、以下の式で表されるものとする。

ＣＰＵ１５１は、人物間の姿勢の距離を、以下の式を用いて算出する。

ベクトルｖ_ｉ、ｖ’_ｉの両者が定義されている場合、ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）は、対応するベクトル（連結している部位間の座標同士を結んだベクトル）の差分を表す。例えば、首から左肩までについてのｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）は、２人の人物についての首から左肩を結ぶベクトルの差分を示す。そして、ＣＰＵ１５１は、各ベクトルの差分に対して、それぞれ異なる重みＷ_ｉを重み付けする。なお、重みＷ_ｉは、全て異なっている必要はなく、一部が同一であってもよい。

Ｄｉｓｔは、ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）の重み付け和であり、２人の人物間の姿勢の距離を示す値である。つまり、姿勢の距離であるＤｉｓｔは、マッチングを行う２人の人物についての姿勢の差分を示す。姿勢の差分が小さければ、２人の人物の姿勢は類似していることになる。例えば、登録された人物とマッチング候補の人物との姿勢の距離Ｄｉｓｔ（姿勢の差分）が小さくなるに応じて、両者は同一人物である可能性が高くなる。一方、Ｄｉｓｔの値が大きくなると、両者は同一人物である可能性が低くなる。そこで、ＣＰＵ１５１は、登録された人物とマッチング候補の人物とのマッチングを、Ｄｉｓｔの値に基づいて行う。

ここで、上述した数３の式のように、Ｃ_０、Ｃ_１が定義される。Ｃ_０は第１の定数に対応し、Ｃ_１は第２の定数に対応する。ＣＰＵ１５１は、Ｃ_１の値がＣ_０の値よりも小さくように設定する。これは、２人の人物が同一の人物である場合、関節の部位（関節部位）が隠れている状態が維持されている可能性が高く、その部位が、Ｄｉｓｔに与える影響を小さくするためである。以下、「Ｃ_０＝０．８」、「Ｃ_１＝０．２」として設定されるものとして説明する。ただし、「Ｃ_１＜Ｃ_０」であれば、Ｃ_０、Ｃ_１は任意の値に設定されてよい。

また、ｖ_ｉ、ｖ’_ｉがともに定義されており、且つ「ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）＝０」となることがある。この場合において、「Ｃ_１＝０」に設定されると、ｖ_ｉ、ｖ’_ｉがともに定義されていない場合の定数Ｃ_１と、ｖ_ｉ、ｖ’_ｉがともに定義されていない場合のベクトルの距離ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）とが同じ値になる。ｖ_ｉ、ｖ’_ｉがともに定義されている場合のベクトルの差分は、実際の対象となる部位間のベクトルが分かっているときの値であり、その信頼性は高い。一方、ｖ_ｉ、ｖ’_ｉがともに定義されていない場合の定数Ｃ_１は、実際の対象となる部位間のベクトルが分かっていないため、その信頼性は低い。この場合、追尾対象を誤る可能性がある。そこで、誤追尾を抑制するため、ＣＰＵ１５１は、ｖ_ｉ、ｖ’_ｉがともに定義されていない場合の定数Ｃ_１を「０」より大きい値に設定する。

また、上記の観点から、ｖ_ｉ、ｖ’_ｉの何れか一方が定義されている場合の定数Ｃ₀は、ｖ_ｉ、ｖ’_ｉがともに定義されていない場合のＣ_１より、信頼性が高い。このため、ＣＰＵ１５１は、定数Ｃ_０を定数Ｃ_１より大きい値に設定する。なお、ある程度の誤追尾が許容され、ｖ_ｉ、ｖ’_ｉがともに定義されている部位間のベクトルのみに基づいて、ｄｉｓｔ（ｖ_ｉ、ｖ’_ｉ）を算出する場合には、「Ｃ_０＝Ｃ_１＝０」に設定されてもよい。

ＣＰＵ１５１は、重みＷ_ｉを、対応する部位の変動のしやすさに応じて事前に設定してもよい。例えば、図３において、首から頭部へのベクトルｖ_０は、左肘から左手首へのベクトルｖ_３よりも、変動しやすい。つまり、図３の例におけるベクトルの変動のしやすさは、「ｖ_０＜ｖ_１＜ｖ_２＜ｖ_３」となる。そこで、ＣＰＵ１５１は、各ベクトルに対応する重みを、「Ｗ_０＞Ｗ_１＞Ｗ_２＞Ｗ_３」に設定する。ＣＰＵ１５１は、他のベクトルに関しても、同様の重み付けを行う。つまり、ＣＰＵ１５１は、部位間のベクトルが変動しやすさに応じて、対応するベクトルの重みを決定する。具体的には、ＣＰＵ１５１は、部位間のベクトルが変動しやすくなるに応じて、対応するベクトルの重みを小さくする。換言すれば、ＣＰＵ１５１は、部位間のベクトルが変動しにくくなるに応じて、対応するベクトルの重みを大きくする。

ＣＰＵ１５１は、マッチングを行う対象の２枚の画像の取得間隔ΔＴを加味して、重みＷ_ｉを決定してもよい。同じ被写体間であっても、時間が経過するに応じて、変動しやすい部位がある。そこで、ＣＰＵ１５１は、画像の取得間隔ΔＴが長くなるに応じて、変動しやすい部位のベクトルに対する重みＷ_ｉを小さく設定してもよい。本実施形態では、各ベクトルのそれぞれについて、変動のしやすさを示す値ｍ_ｉを以下のように設定する。ただし、以下の数６において、「０≦ｍ_ｉ≦１」である。

このとき、ＣＰＵ１５１は、重みＷ_ｉを以下の式により決定する。

これにより、取得間隔ΔＴが短くなるに応じて、全ての部位のベクトルの重みＷ_ｉを近づけることができる。一方、取得間隔ΔＴが長くなる時には、変動しやすい部位の影響を小さくすることができる。

図４は、本実施形態の処理の流れを示すフローチャートである。Ｓ２００で、ＣＰＵ１５１は、撮像制御部１４３から供給される画像を取得する。撮像制御部１４３から供給される画像は、ＣＰＵ１５１以外にも供給され得る。取得される画像は、フレームｎであるとする。Ｓ２０１において、ＣＰＵ１５１は、人物追尾中であるかを判定する。例えば、撮像装置１００に自動追尾機能が設定可能な場合、自動追尾機能の設定が有効になっているか、無効になっているかに基づいて、ＣＰＵ１５１はＳ２０１の判定を行うことができる。なお、フレームｎ－１で、追尾中の人物は人物Ａであるとして、人物Ａの姿勢情報がテンプレートとして登録されているものとする。

ＣＰＵ１５１は、Ｓ２０１でＮｏと判定した場合、被写体としての人物の追尾は行われないため、処理対象外として処理を終了させる。ＣＰＵ１５１は、Ｓ２０１でＹｅｓと判定した場合、処理をＳ２０２に進める。Ｓ２０２で、ＣＰＵ１５１は、物体検出部１６２に、人物の部位を検出させる。物体検出部１６２は、フレーム（画像）をＣＮＮに入力して、フレームの中の１以上の人物の部位の座標を出力する。物体検出部１６２は、ＣＮＮを用いて、部位の座標を人物ごとにクラスタリングされた状態で出力してもよい。この場合、ＣＮＮから出力されたクラスタの数は、フレーム内に存在する人物の数とみなすことができる。物体検出部１６２は、被写体としての人物および人物の複数の部位を推定して、推定結果を出力してもよい。

Ｓ２０３で、ＣＰＵ１５１は、追尾中の人物Ａとマッチング候補の人物Ｂとの姿勢の距離Ｄｉｓｔを算出する。上述したように、Ｄｉｓｔは、２人の人物の間の姿勢の差分を表す。従って、Ｄｉｓｔが小さいほど、フレームｎ－１で登録された人物の姿勢と、フレームｎで検出された人物との姿勢とが類似することになる。この場合、登録された人物とフレームｎで検出された人物とが同一人物である尤度が高い。

ここで、フレームｎで検出される人物が複数である場合がある。検出された複数の人物は、マッチング候補の人物である。この場合、ＣＰＵ１５１は、登録された人物と検出された複数の人物とのそれぞれについてＤｉｓｔを算出する。そして、ＣＰＵ１５１は、算出された複数のＤｉｓｔのうち、最も値が小さいＤｉｓｔを選択する。Ｓ２０４で、ＣＰＵ１５１は、選択されたＤｉｓｔが所定の閾値未満である人物が、フレームｎの中に存在するかを判定する。Ｄｉｓｔは、姿勢の差分を表すため、２人の人物について算出されたＤｉｓｔが小さいほど、２人の人物が同一人物である可能性が高い。

ＣＰＵ１５１は、Ｓ２０４でＹＥＳと判定した場合、処理をＳ２０５に進める。この場合、テンプレートとして登録された人物と同一人物であると判定される人物がフレームｎに存在する。Ｓ２０５で、ＣＰＵ１５１は、選択されたＤｉｓｔに対応する人物を追尾する。一方、ＣＰＵ１５１は、Ｓ２０４でＮＯと判定した場合、処理をＳ２０６に進める。この場合、ＣＰＵ１５１は、追尾中の人物が見失われた状態（ロスト状態）であると判定する。このとき、ＣＰＵ１５１は、追尾対象領域Ｔが表示されないように制御してもよい。例えば、図２のように、フレームｎ－１で表示されていた追尾対象領域Ｔは、フレームｎでは表示されなくなる。これにより、操作者に対して、追尾対象が見失われたことを提示することができる。

図４に示されるように、Ｓ２０７で、ＣＰＵ１５１は、図４の各処理を終了するかを判定する。例えば、ＣＰＵ１５１は、Ｓ２００で取得された画像が、動画像を構成する複数の画像のうち最後の画像であるか否かに基づいて、Ｓ２０７の判定を行ってもよい。ＣＰＵ１５１は、Ｓ２０７でＹＥＳと判定した場合、処理を終了させる。一方、ＣＰＵ１５１は、Ｓ２０７でＮＯと判定した場合、処理をＳ２００に戻す。そして、次の画像として、フレームｎ＋１が取得される。フレームｎ＋１が取得されると、図３の各処理が行われる。図２の例の場合、フレームｎ＋１が第２の画像に対応し、人物Ａ、人物Ｂが第２の被写体に対応する。例えば、ＣＰＵ１５１が、フレームｎではＳ２０４でＮＯと判定し、フレームｎ＋１ではＳ２０４でＹＥＳと判定することがある。例えば、図２の例の場合、フレームｎ＋１で人物Ａが検出される。この場合、追尾対象であった人物Ａの追尾が再開される。

ここで、物体検出部１６２は、フレームｎ－１で１人の人物のみを検出し、フレームｎでも１人の人物のみを検出することがある。このような場合、ＣＰＵ１５１は、姿勢の距離（姿勢の差分）を生成することなく、検出された１人の人物のみをマッチングして、処理を終了させてもよい。この場合、追尾対象の人物を誤ることはない。また、フレームｎ－１で検出された人物Ｂの座標とフレームｎで検出された人物Ｂの座標との距離が所定距離未満であり、フレームｎ－１で検出された人物Ａの座標とフレームｎで検出された人物Ｂの座標との距離が所定距離以上である場合がある。このような場合、位置関係から人物Ｂ同士を正しくマッチングすることができるため、ＣＰＵ１５１は、Ｓ２０３の処理を行うことなく、人物Ｂをマッチングして、処理を終了させてもよい。つまり、処理対象のフレーム（例えば、フレームｎ）において、人物Ａと人物Ｂとの距離が所定距離以上である場合、人物Ａと人物Ｂとはマッチング可能な程度に離れている。このような場合、人物Ａと人物Ｂとは交差することはない。従って、ＣＰＵ１５１は、人物Ａと人物Ｂとが所定距離未満である場合にのみ、姿勢の距離（姿勢の差分）に応じたマッチングを行うようにしてもよい。

上述したように、物体検出部１６２は、ＣＮＮを用いて、被写体および複数の部位を検出する。ＣＮＮは、例えば、畳み込み層とプーリング層とが交互に積層された層構造に、全結合層および出力層が結合されたネットワークであってもよい。この場合、ＣＮＮの学習としては、例えば、誤差逆伝搬法等が適用され得る。また、ＣＮＮは、特徴検出層（Ｓ層）と特徴統合層（Ｃ層）とをセットとした、ネオコグニトロンのＣＮＮであってもよい。この場合、ＣＮＮの学習としては、「Ａｄｄ－ｉｆＳｉｌｅｎｔ」と称される学習手法が適用され得る。

ＣＮＮの機械学習は、サーバ等の所定のコンピュータが行ってもよい。画像処理装置または撮像装置１００は、学習されたＣＮＮを、所定のコンピュータから取得してもよい。この場合、画像処理装置または撮像装置１００は、外部装置と通信を行う通信手段（例えば、通信インタフェース）を有する。例えば、所定のコンピュータが、学習用の画像データを入力とし、学習用の画像データに対応する被写体および被写体の複数の部位を教師データとした教師あり学習を行うことで、ＣＮＮの学習が行われてもよい。以上により、学習済みのＣＮＮが生成される。画像処理装置または撮像装置１００は、所定のコンピュータから通信手段を介して、学習済みのＣＮＮを取得してもよい。ＣＮＮの学習は、撮像装置１００で行われてもよい。ＣＮＮ以外の他の機械学習アルゴリズムにより生成される学習済みを用いる場合も同様である。

また、上述した画像処理装置または撮像装置１００は、推定手段としての物体検出部１６２を有していなくてもよい。画像処理装置または撮像装置１００は、通信手段を介して、物体検出部１６２の機能を有する推定装置（例えば、エッジコンピュータ）に画像を送信する。推定装置は、上述した物体検出部１６２と同様の処理を行い、推定結果を画像処理装置または撮像装置１００に送信する。これにより、ＣＰＵ１５１は、本実施形態の処理を行うことができる。

以上、説明したように、本実施形態では、動画像を構成する複数の画像に含まれる被写体の複数の部位が検出され、複数の部位のそれぞれに応じた重み付けがされる。そして、重み付けがされた複数の部位に基づいて、２つの被写体の間の姿勢の距離（差分）が取得され、２つの被写体が同一人物であるかを推定できる。これにより、動画像を撮影している際に、追尾対象の人物の近くに異なる人物がいて、人物同士が交差したとしても、追尾対象の人物が誤ることを防止することができる。なお、上述した実施形態では、動画像の例について説明したが、本実施形態は、連続して取得される複数の画像（例えば、スルー画像等）にも適用することができる。

以上、本発明の好ましい実施の形態について説明したが、本発明は上述した各実施の形態に限定されず、その要旨の範囲内で種々の変形及び変更が可能である。本発明は、上述の各実施の形態の１以上の機能を実現するプログラムを、ネットワークや記憶媒体を介してシステムや装置に供給し、そのシステム又は装置のコンピュータの１つ以上のプロセッサーがプログラムを読み出して実行する処理でも実現可能である。また、本発明は、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００撮像装置
１５０モニタディスプレイ
１５１ＣＰＵ
１５２画像処理部
１６２物体検出部

Claims

第１の画像から第１の被写体の複数の部位と、第２の画像から第２の被写体の複数の部位とを検出する検出手段と、
前記検出手段により検出された前記第１の被写体の複数の部位に基づく姿勢と前記第２の被写体の複数の部位に基づく姿勢との間の姿勢情報としてのベクトルの差分に基づいて、前記第１の被写体と前記第２の被写体とのマッチングを行うマッチング手段と、
を備えることを特徴とする画像処理装置。
前記マッチング手段は、前記複数の部位のうち２つの部位を連結して定義される複数のベクトルに対して、対応する重みで重み付けを行うことを特徴とする請求項１に記載の画像処理装置。
前記マッチング手段は、検出されなかった部位については、ベクトルを定義せず、所定の定数を設定することを特徴とする請求項２に記載の画像処理装置。
前記マッチング手段は、前記第１の被写体と前記第２の被写体とについて、対応する２つの部位のうち何れか一方が検出されなかった場合に第１の定数を設定し、前記２つの部位がともに検出されなかった場合に第２の定数を設定し、
前記第２の定数の値は、前記第２の定数の値より小さいことを特徴とする請求項３に記載の画像処理装置。
前記マッチング手段は、前記第１の画像と前記第２の画像との取得間隔に応じて、前記複数の部位のそれぞれの重みを変化させることを特徴とする請求項２乃至４のうち何れか１項に記載の画像処理装置。
前記マッチング手段は、前記複数の部位のそれぞれについて、変動のしやすさに応じて、前記重みを変化させることを特徴とする請求項５に記載の画像処理装置。
前記マッチング手段は、前記第１の被写体と前記第２の被写体との距離が所定距離未満である場合にのみ、前記姿勢の差分に応じた前記マッチングを行うことを特徴とする請求項２乃至６のうち何れか１項に記載の画像処理装置。
動画像における、前記第１の被写体は追尾対象の被写体であり、前記第２の被写体は前記追尾対象ではない被写体であることを特徴とする請求項１乃至７のうち何れか１項に記載の画像処理装置。
前記マッチングの結果に応じて、前記追尾対象である前記第１の被写体を特定する表示するか否かの制御がされることを特徴とする請求項８に記載の画像処理装置。
前記部位は、人体の関節の部位であることを特徴とする請求項１乃至９のうち何れか１項に記載の画像処理装置。
前記検出手段は、機械学習により学習された学習済みモデルを用いて、前記第１の被写体の複数の部位および前記第２の被写体の複数の部位を推定して、検出を行うことを特徴とする請求項１乃至１０のうち何れか１項に記載の画像処理装置。
撮像素子と、
請求項１乃至１１のうち何れか１項に記載の画像処理装置と、
を備えることを特徴とする撮像装置。
第１の画像から第１の被写体の複数の部位と、第２の画像から第２の被写体の複数の部位とを検出する工程と、
前記検出する工程により検出された前記第１の被写体の複数の部位に基づく姿勢と前記第２の被写体の複数の部位に基づく姿勢との間の姿勢情報としてのベクトルの差分に基づいて、前記第１の被写体と前記第２の被写体とのマッチングを行う工程と、
を備えることを特徴とする画像処理方法。
請求項１乃至１１のうち何れか１項に記載の画像処理装置の各手段をコンピュータに実行させるためのプログラム。