WO2011092865A1

WO2011092865A1 - 物体検出装置及び物体検出方法

Info

Publication number: WO2011092865A1
Application number: PCT/JP2010/051355
Authority: WO
Inventors: 省吾澤井
Original assignee: 株式会社モルフォ
Priority date: 2010-02-01
Filing date: 2010-02-01
Publication date: 2011-08-04
Also published as: US8693791B2; US20140161364A1; CN102216958A; JPWO2011092865A1; JP4806101B2; US20120020514A1; EP2397989A1

Abstract

学習画像を用いて予め学習された対象物体の特徴量に基づいて、判定画像に描写された対象物体を検出する物体検出装置であって、判別精度が低い順に強判別器２１ｍを実行させ、強判別器２１ｍが判定画像に対象物体が描写されていると判別した場合には処理を継続し、強判別器２１ｍが判定画像に対象物体が描写されていないと判別した場合には当該強判別器２１ｍよりも判別精度が高い強判別器２１ｍの実行を行うことなく対象物体を未検出とする検出器２を備え、強判別器２１ｍは、当該強判別器２１ｍよりも判別精度の低い強判別器２１ｍの判別結果を入力し、複数の推定値及び入力された判別結果に基づいて判定画像に対象物体が描写されているか否かを判別することを特徴とする。

Description

物体検出装置及び物体検出方法

　本発明は、物体検出装置及び物体検出方法に関するものである。

　従来、物体を検出する装置及び方法として、画像情報に基づいて物体を検出する装置及び方法が知られている（例えば、特許文献１参照）。特許文献１記載の検出装置は、画像情報に含まれる検出対象物体（例えば、顔）に関する情報（例えば特徴量）を学習し、学習結果に基づいて複数の同次判別器（homogeneous classifier）を構成する。複数の同次判別器は、例えば特徴量の数を変更することにより検出対象物体の検出精度が異なるように構成される。特許文献１記載の装置は、それぞれの同次判別器の検出精度が処理の終了に向かうに連れて段々と正確になるように、複数の同次判別器を直列結合（cascade）して１つの検出器を構成する。特許文献１記載の装置は、判定画像の画像情報を検出器に入力させて、検出器を構成する同次判別器を直列順に実行させ、全ての同次判別器が検出対象物体を検出した場合のみ、判定画像情報から検出対象物体を検出したと判定する。ここで、特許文献１記載の装置は、検出器を構成する複数の同次判別器のうちの一つが判定画像情報に検出対象物体の特徴量が含まれていないと判定した場合には、当該同次判別器より後に行う処理を実行することなく、判定画像情報から検出対象物体を検出しないと判定する。

米国特許第７０９９５１０号公報

　しかしながら、特許文献１記載の装置にあっては、検出器を構成する同次判別器の検出精度が直列結合の終了に向かうに連れて段々と正確になるように構成しているため、検出処理の終了になるに従って同次判別器が判別する特徴量が増加する傾向にある。すなわち直列結合の後段になるほど個々の同次判別器の処理速度が低下するおそれがある。このため、特許文献１記載の装置にあっては、物体検出処理の速度が低下する場合がある。

　そこで、本発明はこのような技術課題を解決するためになされたものであって、物体検出処理の高速化を図ることができる物体検出装置及び物体検出方法を提供することを目的とする。

　すなわち、本発明の一態様である物体検出装置は、学習画像を用いて予め学習された対象物体の特徴量に基づいて、判定画像に描写された前記対象物体を検出する物体検出装置であって、前記対象物体の前記特徴量に基づいて、前記判定画像に前記対象物体が描写されている可能性を示す推定値をそれぞれ算出する複数の弱判別器と、複数の前記推定値に基づいて、前記判定画像に前記対象物体が描写されているか否かをそれぞれ異なる判別精度で判別する複数の強判別器と、判別精度が低い順に前記強判別器を実行させ、前記強判別器が前記判定画像に前記対象物体が描写されていると判別した場合には処理を継続し、前記強判別器が前記判定画像に前記対象物体が描写されていないと判別した場合には当該強判別器よりも判別精度が高い前記強判別器の実行を行うことなく前記対象物体を未検出とする検出器と、を備え、前記強判別器は、当該強判別器よりも判別精度の低い前記強判別器の判別結果を入力し、複数の前記推定値及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別することを特徴として構成される。

　本発明の一態様である物体検出装置によれば、検出器を構成する強判別器が、当該強判別器よりも判別精度の低い強判別器の判別結果を入力し、入力された判別結果を用いて判定画像に対象物体が描写されているか否かを判別する。すなわち、この物体検出装置では、強判別器それぞれが独立して対象物体を判別するのではなく、強判別器それぞれが他の強判別器の判別結果を利用して対象物体を判別する。このように、強判別器が他の強判別器の判別結果を利用することで、強判別器それぞれが独立して対象物体を判別する場合に比べて、各強判別器が演算に用いる弱判別器の推定値の数を少なくすることができる。このため、検出器を構成する強判別器の検出精度が直列結合の終了に向かうに連れて段々と正確になるように構成した場合であっても、強判別器それぞれの処理速度を速めることが可能となる。よって、結果として判定画像に対象物体が描写されているか否かの判定を高速化することができる。

　ここで、前記強判別器は、複数の前記強判別器のうち当該強判別器よりも次に判別精度の低い前記強判別器の判別結果を入力してもよい。

　また、前記強判別器は、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果、及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別してもよい。

　また、前記強判別器は、当該強判別器よりも判別精度の低い前記強判別器の判別結果として、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果を入力してもよい。

　さらに、複数の前記強判別器には、判別精度に応じた重みがそれぞれ付与されており、前記強判別器は、入力された重み付け投票の結果に入力元の前記強判別器の重みを積算し、積算された値を用いて前記判定画像に前記対象物体が描写されているか否かを判別してもよい。このように構成した場合には、他の強判別器の判別結果を反映する度合いが入力元の強判別器の重みに応じて変更される。このため、他の強判別器の判別結果を自己の判別に適切に反映することができるので、個々の強判別器の判別の精度を高めることが可能となる。

　また、本発明の一態様である物体検出方法は、対象物体の特徴量に基づいて判定画像に対象物体が描写されている可能性を示す推定値をそれぞれ算出する複数の弱判別器と、複数の前記推定値に基づいて前記判定画像に前記対象物体が描写されているか否かをそれぞれ異なる判別精度で判別する複数の強判別器とを備える物体検出装置の物体検出方法であって、複数の前記強判別器が判別精度の低い順に直列結合されて、判別精度の低い順に前記強判別器が判別を実行する実行ステップと、前記強判別器が、当該強判別器よりも判別精度の低い前記強判別器の判別結果を入力し、複数の前記推定値及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別する判別ステップと、を含み、前記判別ステップにおいて、前記強判別器が前記判定画像に前記対象物体が描写されていると判別した場合には前記実行ステップを継続し、前記強判別器が前記判定画像に前記対象物体が描写されていないと判別した場合には前記実行ステップを中断することを特徴とする。

　また、前記判別ステップでは、前記強判別器が、複数の前記強判別器のうち当該強判別器よりも次に判別精度の低い前記強判別器の判別結果を入力してもよい。

　また、前記判別ステップでは、前記強判別器が、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果、及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別してもよい。

　また、前記判別ステップでは、前記強判別器が、当該強判別器よりも判別精度の低い前記強判別器の判別結果として、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果を入力してもよい。

　さらに、複数の前記強判別器には、判別精度に応じた重みが付与されており、前記判別ステップでは、前記強判別器は、入力された重み付け投票の結果に入力元の前記強判別器の重みを積算し、積算された値を用いて前記判定画像に前記対象物体が描写されているか否かを判別してもよい。

　本発明の一態様である物体検出方法によれば、上述した本発明の一態様である物体検出装置と同様の効果を奏する。

　本発明の一態様である物体検出装置及び物体検出方法によれば、物体検出処理の高速化を図ることができる。

本発明の一態様である物体検出装置を搭載した携帯端末の機能ブロック図である。本発明の一態様である物体検出装置が搭載される携帯端末のハードウェア構成図である。本発明の一態様である物体検出装置が用いる特徴量の一例である。図３に示す特徴量の一つを画像に当てはめた一例である。本発明の一態様である物体検出装置の動作を説明するフローチャートである。識別対象画像の分割を説明する概要図である。本発明の一態様である物体検出装置の検出動作を説明する概要図である。従来の物体検出装置の検出動作を説明する概要図である。

　以下、添付図面を参照して本発明の実施形態について説明する。なお、各図において同一又は相当部分には同一の符号を付し、重複する説明を省略する。

　本実施形態に係る物体検出装置は、画像情報に基づいて画像に描写された物体を検出（判別、識別）する装置であって、例えば、パーソナルコンピュータ、デジタルカメラ、携帯電話、ＰＤＡ（Personal Digital Assistant）等に好適に採用されるものである。本実施形態に係る物体検出装置は、検出処理の前に検出対象物体の特徴を学習しておき、学習した特徴に基づいて検出処理を行うものである。検出する対象物体としては、特に限定はないが、例えば人の顔等が用いられる。なお、以下では、説明理解の容易性を考慮し、本発明に係る物体検出装置の一例として、カメラ機能を備えた携帯端末に搭載される顔検出装置を説明する。

　図１は、本実施形態に係る顔検出装置１を備える携帯端末３の機能ブロック図である。図１に示す携帯端末３は、例えばユーザにより携帯される移動端末である。最初に、携帯端末３のハードウェア構成について説明する。図２は、携帯端末３のハードウェア構成図である。図２に示すように、携帯端末３は、物理的には、ＣＰＵ（Central Processing Unit）１００、ＲＯＭ（Read Only Memory）１０１及びＲＡＭ（Random Access Memory）１０２等の主記憶装置、カメラ又はキーボード等の入力デバイス１０３、ディスプレイ等の出力デバイス１０４、ハードディスク等の補助記憶装置１０５などを含む通常のコンピュータシステムとして構成される。後述する携帯端末３及び顔検出装置１の各機能は、ＣＰＵ１００、ＲＯＭ１０１、ＲＡＭ１０２等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１００の制御の元で入力デバイス１０３及び出力デバイス１０４を動作させるとともに、主記憶装置や補助記憶装置１０５におけるデータの読み出し及び書き込みを行うことで実現される。なお、上記の説明は携帯端末３のハードウェア構成として説明したが、顔検出装置１がＣＰＵ１００、ＲＯＭ１０１及びＲＡＭ１０２等の主記憶装置、入力デバイス１０３、出力デバイス１０４、補助記憶装置１０５などを含む通常のコンピュータシステムとして構成されてもよい。また、携帯端末３は、通信モジュール等を備えてもよい。

　図１に示すように、携帯端末３は、カメラ３０、顔検出装置１、画像合成部３１及び表示部３２を備えている。カメラ３０は、画像を撮像する機能を有している。カメラ３０として、例えば撮像素子等が用いられる。カメラ３０は、撮像した画像を判定画像として顔検出装置１へ出力する機能を有している。画像合成部３１は、顔検出装置１の検出結果に基づいて、判定画像の顔部分を強調する記号又は囲いを判定画像に重ねた合成画像を生成する機能を有している。表示部３２は、画像合成部３１が生成した合成画像を表示する機能を有している。

　顔検出装置１は、判定画像入力部１０、画像領域分割部１１及び検出器２を備えている。判定画像入力部１０は、カメラ３０により撮像された画像を判定画像として入力する機能を有している。

　画像領域分割部１１は、判定画像入力部１０が入力した判定画像を所定の領域に分割する機能を有している。画像領域分割部１１は、判定画像の画像領域を所定の大きさの複数の小領域（いわゆるサブウィンドウ）に分割する機能を有している。このサブウィンドウの形状は、矩形であってもよいし他の形状であってもよい。サブウィンドウの位置は、重複するようにすることもできるし、重複しないようにすることも可能である。また、画像領域分割部１１は、このサブウィンドウを様々なサイズに倍率変更する。これにより、対象画像において処理対象となる範囲を変更することができる。倍率変更の方法は、従来の方法を採用することができる。

　検出器２は、画像領域分割部１１が分割したサブウィンドウを入力し、サブウィンドウに検出対象物体である顔が描写されているか否かを判定する機能を有している。すなわち、検出器２は、入力したサブウィンドウ内に表示される顔を検出する機能を有している。検出器２は、サブウィンドウの画像情報（輝度値等）及び矩形特徴（Rectangle features）に基づいて、顔が描写されているか否かを判定する。矩形特徴は、局所特徴の一種であり、例えばハールライク（Haar-like）特徴が用いられる。図３に矩形特徴の一例を示す。図３の（ａ）～（ｄ）では４種類の矩形特徴２０ａ～２０ｄを示している。図３の（ａ），（ｂ）に示す矩形特徴２０ａ，２０ｂは、顔のエッジ部に現れる特徴を抽出するものであり、図３の（ｃ），（ｄ）に示す矩形特徴２０ｃ，２０ｄは、顔の線部に現れる特徴を抽出するものである。各矩形特徴２０ａ～２０ｄは、白領域内の画素値（輝度値）の総和（又は平均輝度値）と、黒領域内の画素値の総和（又は平均輝度値）との差分で評価される。例えば、矩形特徴２０ａであれば、白領域２０ａ_Ｂ内の輝度値の総和と、黒領域２０ａ_Ａ内の輝度値の総和との差分で評価される。各矩形特徴２０ａ～２０ｄは、サブウィンドウ内の任意の位置に適用可能である。図４は、矩形特徴２０ｂをサブウィンドウＧｎに適用した例である。図４に示すように、サブウィンドウＧｎが検出器２に与えられると、検出器２は、矩形特徴２０ｂの白領域２０ｂ_Ｂ内の輝度値の総和と、黒領域２０ｂ_Ａ内の輝度値の総和との差分を算出する。人の顔４０は、アイラインを囲う黒領域２０ｂ_Ａがその下の頬、鼻、頬を囲う白領域２０ｂ_Ｂよりも暗いことが多い。検出器２は、予めこのような人の顔の特徴を学習しておき、算出した差分が予め学習された閾値よりも大きいか否かによって判別結果を決定する。

　検出器２は、このような処理を効率的に行うために、複数の弱判別器２０ｎ（ｎ：整数）を備えている。弱判別器２０ｎは、比較的判別能力の低い判別器であって、予め学習した顔の特徴がサブウィンドウ内に表示されている可能性を示す推定値を算出する機能を有している。弱判別器２０ｎは、上述した矩形特徴に対応して複数個用意され、対応する矩形特徴に関して白領域の輝度値の総和と黒領域の輝度値の総和との差分を算出し、差分と閾値との大小関係に基づいて、推定値である１又は０を出力する閾値関数である。例えば、弱判別器２０ｎは、以下の式１で表すことができる。

ここで、ｘは特徴量、ｆ_ｊ（ｘ）は弱判別器２０ｎの関数である。すなわち、ｆ（ｘ）は、特徴量ｘに対応する矩形特徴を用いて白領域の輝度値の総和と黒領域の輝度値の総和との差分を算出する関数である。ｐ_ｊ∈｛－１，１｝及び閾値Ｔ_ｊは機械学習によって弱判別器２０ｎそれぞれに予め定められる定数である。差分ｆ（ｘ）が閾値Ｔ_ｊより大きいとき（すなわちｐ＝１のとき）、あるいは、差分ｆ（ｘ）が閾値Ｔ_ｊより小さいとき（すなわちｐ＝－１のとき）であれば、サブウィンドウに顔が表示されていると判定する。

　検出器２は、上記の弱判別器２０ｎを組み合わせて、判別精度が比較的高い強判別器２１ｍ（ｍ：整数）を構築する。強判別器２１ｍは、複数の弱判別器２０ｎにより算出された複数の推定値、及び弱判別器２０ｎのそれぞれに付与された重みに基づいて重み付け投票を行い、その結果を用いてサブウィンドウ内に顔が表示されているか否かを判定する機能を有している。重み付け投票に用いる弱判別器２０ｎの組合せ及び数は、強判別器２１ｍそれぞれによって異なる。このため、強判別器２１ｍそれぞれは、その判別精度がそれぞれ異なる。検出器２は、１つのサブウィンドウを複数の強判別器２１ｍで判別し、複数の強判別器２１ｍの判別結果に基づいて、最終的にサブウィンドウ内に顔が存在するか否かを判別する。

　弱判別器２０ｎのｐ_ｊ∈｛－１，１｝及び閾値Ｔ_ｊ、弱判別器２０ｎの重み、及び強判別器２１ｍが用いる弱判別器２０ｎの組合せは、例えばアダブーストアルゴリズム（AdaBoost Algorithm）により事前に学習される。アダブーストアルゴリズムは、機械学習法の一つであって、単純な識別方法では識別が困難な画像情報を、複数の単純な判別器の組合せにより識別できるように学習するアルゴリズムである。ベースとなる単純な判別器は、弱判別器２０ｎに対応する。また、アダブーストアルゴリズムにおける最終的な判別器は、強判別器２１ｍである。

　アダブーストアルゴリズムにおける学習方法の概要を説明する。まず、検出対象物体である顔が描写された顔画像の集合、検出対象物体である顔が描写されていない非顔画像の集合、及び弱判別器２０ｎの集合を用意する。そして、全ての弱判別器２０ｎのｐ_ｊ，Ｔ_ｊを顔画像の集合及び非顔画像の集合を用いて仮決定する。顔画像及び非顔画像それぞれに重みｋ_ｊを用意して初期化する。この重みｋ_ｊは判別における重要度を示すものであり、この重みｋ_ｊが大きい画像ほど誤識別してはいけない重要な画像となる。その後、弱判別器２０ｎのｐ_ｊ，Ｔ_ｊを最適化して重み付き誤差を最小とし、弱判別器２０ｎの集合の中から重み付き誤差が最小のものを強判別器２１ｍで用いる弱判別器２０ｎとして採用する。その後、顔画像及び非顔画像の重みｋ_ｊを更新する。このように重みｋ_ｊは、弱判別器２０ｎが一つ選択される度に更新される。例えば、選択された弱判別器２０ｎがうまく識別できない学習画像の重みｋ_ｊを大きくするように更新する。このため、上記処理の反復により、今まで識別が困難であった画像をさらに上手く識別することができる弱判別器２０ｎが選ばれやすくなる。そして、最終的には全ての学習画像を正しく識別できる弱判別器２０ｎの組合せが決定する。そして、弱判別器２０ｎごとに割り当てられた重みと、弱判別器２０ｎの関数ｈ_ｊとを用いて重み付け投票を行う強判別器２１ｍが構成される。例えば、以下の式２で表す強判別器２１ｍがアダブースト学習により構築される。

式２において、弱判別器２０ｎがｈ_ｊ（ｘ），強判別器２１ｍがＳ_０に相当する。弱判別器２０ｎの重みｗ_ｊは、投票力を意味し、弱判別器２０ｎの識別容易性の度合い（すなわち信頼度）を示すものである。この重みｗ_ｊは、学習時の重み付き誤差に基づく誤り率を用いて算出される。例えば、正しい顔画像をほとんど顔と判定する弱判別器２０ｎの重みｗ_ｊは大きく設定される。また、正しい顔画像をほとんど顔と判断しないような弱判別器２０ｎも、その判断を逆にすればよいだけであるので、重みｗ_ｊは大きく設定される。また、θ_０は例えば重みｗ_ｊに基づいて学習時に算出される値であり、Ｓ_０がθ_０よりも大きい場合には、顔と判定される。ここで、Ｓ_０が学習用の顔画像のＡ％以上を通過させ、かつ、学習用の非顔画像のＢ％未満を通過させるようになるまで、弱判別器２０ｎの選択・追加を行う。Ａ，Ｂは任意に設定可能である。このＡ，Ｂを変更することで、判別精度の異なる強判別器２１ｍを構築することができる。

　Ｓ_０を作成した後に、次に判別精度の良い強判別器２１ｍであるＳ_１を学習生成する。Ｓ_１の学習では、Ｓ_１がＳ_０よりも判別精度が良くなるように、Ｓ_０の学習時に比べてＡ，Ｂが厳しく設定される。また、Ｓ_１の学習では、Ｓ_０の判別結果を入力した状態で、弱判別器２０ｎの選択・追加を行う。この学習を繰り返すことで、以下の式３に示す強判別器Ｓ_ｉ（ｉ：自然数）が生成される。

このように、強判別器２１ｍは、当該強判別器２１ｍよりも次に判別精度の低い強判別器２１ｍの判別結果を入力する形となる。ここで、Ｗ_ｉは強判別器２１ｍのＳ_ｉごとに設定された重みである。例えば、強判別器２１ｍの判別精度ごとに設定される。また、学習時において、判別精度の低い強判別器２１ｍの判別結果を入力した状態で弱判別器２０ｎの選択・追加を行うことにより、一から弱判別器２０ｎを選択して判別精度のより高い強判別器２１ｍを構築する場合に比べて、選択・追加する弱判別器２０ｎの数を抑えることができる。

　検出器２は、生成した強判別器２１ｍであるＳ_０及びＳ_ｉを直列的に実行するために、線形結合する。線形結合した個々の強判別器２１ｍは、ステージとも呼ぶ。このとき、各強判別器２１ｍは、線形結合の最後になるほど判別精度が高くなるように並べて結合される。検出器２は、サブウィンドウを入力すると、線形結合した強判別器２１ｍを順次実行させる。検出器２は、強判別器２１ｍが顔を検出した場合には、次に判別精度の高い強判別器２１ｍに検出処理を実行させ、強判別器２１ｍが顔を検出しない場合には、当該強判別器２１ｍよりも判別精度の高い強判別器２１ｍが登場する以降の処理は行わない。また、最初のステージを除いて、強判別器２１ｍそれぞれは、当該強判別器２１ｍの次に判別精度の低い強判別器２１ｍの判別結果を入力して、自己の検出処理を行う。

　次に、顔検出装置１の動作を説明する。図５は、顔検出装置１の動作を示すフローチャートである。図５に示す処理は、例えば携帯端末３のカメラ機能をＯＮしたタイミングで実行され、所定の周期で繰り返し実行される。なお、図５に示すＳ１０～Ｓ１６の処理は、顔検出装置１が実行し、Ｓ１８～Ｓ２２の処理は携帯端末３が実行する。

　図５に示すように、最初に判定画像入力部１０が判定画像を入力する（Ｓ１０）。図６は、判定画像Ｆの一例を示すものである。次に、画像領域分割部１１が、Ｓ１０の処理で入力された判定画像の積分画像（integral image）を生成する（Ｓ１２）。そして、図６に示すように、画像領域分割部１１が、判定画像Ｆを走査して複数のサブウィンドウＧｎを生成する（Ｓ１４）。次に、検出器２が、生成したサブウィンドウＧｎの一つを選択して、顔検出処理を行う（Ｓ１６）。Ｓ１６の処理の概要を図７に示す。図７に示すように、検出器２は、強判別器２１ｍであるＳ_１～Ｓ_ｎを判別精度の低い順に直列的に実行させる。Ｓ_１～Ｓ_ｎは、同一のサブウィンドウＧｎに対して処理を行う。検出器２は、各ステージにおいて、顔でないと判別した場合には、その時点で処理を終了し、顔であると判別した場合には、処理を継続する。図中矢印で示すように、Ｓ_２～Ｓ_ｎは、前段のステージの結果を入力して顔であるか否かを判別する。そして、検出器２は、全てのステージを通過したサブウィンドウＧｎには顔が描写されていると判別する。検出器２は、上記処理を全てのサブウィンドウＧｎに対して実行する。Ｓ１６の処理が終了すると、判定処理へ移行する（Ｓ１８）。

　Ｓ１８の処理では、画像合成部３１が、Ｓ１６の処理で顔を検出したか否かを判定する処理である。画像合成部３１が、Ｓ１６の処理で顔を検出したと判定した場合には、サブウィンドウＧｎの位置を強調した合成画像を生成する（Ｓ２０）。そして、表示部３２が合成画像を表示する（Ｓ２２）。一方、Ｓ１８の処理において、画像合成部３１が、Ｓ１６の処理で顔を検出していないと判定した場合には、判定画像をそのまま表示する（Ｓ２２）。Ｓ２２の処理が終了すると、図５に示す制御処理を終了する。

　図５に示す制御処理を実行することで、判定画像Ｆが入力・分割されてサブウィンドウＧｎが生成され、サブウィンドウＧｎが各ステージにおいて顔を表示しているか否かを、前段のステージの結果を踏まえて判断される。このように、前段のステージの判別結果が後段のステージに受け継がれるので、後段のステージでは一からサブウィンドウＧｎを評価する必要がなくなる。また、後段のステージになるほど検出精度を向上させる必要があるが、前段のステージの判別結果を入力するので、少ない矩形特徴の追加で検出精度を向上させることができる。このため、後段のステージに発生する処理時間の増大を抑制することができる。

　ここで、本実施形態に係る顔検出装置１の作用効果を説明するために、図８を用いて従来技術を説明する。図８に示すように、従来の顔検出装置では、サブウィンドウＧｎを判別する検出器が、強判別器であるＳ_１～Ｓ_ｎを判別精度の低い順に直列的に実行させる。この従来の顔検出装置においては、Ｓ_１～Ｓ_ｎは全て独立に機能するため、各ステージで用いる矩形特徴が後段になるに従って複雑化し、結果として、各ステージにおける演算処理量も後段になるに従って増加する。さらに、あるステージまでの強判別器で十分な結果が出ていても、その後のステージ１つの結果によって拒絶されるため、検出精度が低下する可能性がある。

　これに対して、実施形態に係る顔検出装置１によれば、検出器２を構成する強判別器２１ｍが、当該強判別器２１ｍよりも判別精度の低い強判別器２１ｍの判別結果を入力し、入力された判別結果を用いて判定画像に顔４０が描写されているか否かを判別する。すなわち、この顔検出装置１では、強判別器２１ｍそれぞれが独立して顔４０を判別するのではなく、強判別器２１ｍそれぞれが他の強判別器２１ｍの判別結果を利用して顔４０を判別する。このように、強判別器２１ｍが他の強判別器２１ｍの判別結果を利用することができるので、強判別器２１ｍそれぞれが独立して顔４０を判別する場合に比べて、当該強判別器２１ｍが用いる弱判別器２０ｎの推定値の数を減らすことができる。このため、検出器２を構成する強判別器２１ｍの検出精度が直列結合の終了に向かうに連れて段々と正確になるように構成した場合であっても、強判別器２１ｍそれぞれの処理速度を速めることが可能となる。よって、結果として判定画像に顔４０が描写されているか否かの判定を高速化することができる。さらに、各強識別器は、前段までのステージの結果を反映させて判別するので、積み重ねた情報で判別することができる。このため、結果として検出精度を向上させることができる。

　また、実施形態に係る顔検出装置１によれば、検出器２は、入力された重み付け投票の結果Ｓ_ｉ－１に入力元の強判別器２１ｍの重みＷ_ｉ－１を積算し、積算された値を用いて判定画像に顔４０が描写されているか否かを判別することができる。このため、他の強判別器２１ｍの判別結果を自己の判別に適切に反映することができるので、個々の強判別器２１ｍの判別の精度を高めることが可能となる。

　なお、上述した実施形態は本発明に係る物体検出装置の一例を示すものである。本発明に係る物体検出装置は、実施形態に係る物体検出装置に限られるものではなく、各請求項に記載した要旨を変更しない範囲で、各実施形態に係る物体検出装置を変形し、又は他のものに適用したものであってもよい。

　例えば、上述した実施形態では、アダブーストアルゴリズムを用いて学習する例を説明したが、これに限られるものではない。また、上述した実施形態では、携帯端末３に顔検出装置１を適用する例を説明したが、これに限られるものではない。さらに、上述した実施形態では、物体検出装置が、カメラ３０からの画像を入力して検出処理を行う例を説明したが、物体検出装置の入力画像はこれに限られるものではない。例えば、通信を介して取得した画像であってもよいし、記憶媒体に格納された画像であってもよい。

　１…物体検出装置、２…検出器、２０ｎ…弱判別器、２１ｍ…強判別器。

Claims

　学習画像を用いて予め学習された対象物体の特徴量に基づいて、判定画像に描写された前記対象物体を検出する物体検出装置であって、
　前記対象物体の前記特徴量に基づいて、前記判定画像に前記対象物体が描写されている可能性を示す推定値をそれぞれ算出する複数の弱判別器と、
　複数の前記推定値に基づいて、前記判定画像に前記対象物体が描写されているか否かをそれぞれ異なる判別精度で判別する複数の強判別器と、
　判別精度が低い順に前記強判別器を実行させ、前記強判別器が前記判定画像に前記対象物体が描写されていると判別した場合には処理を継続し、前記強判別器が前記判定画像に前記対象物体が描写されていないと判別した場合には当該強判別器よりも判別精度が高い前記強判別器の実行を行うことなく前記対象物体を未検出とする検出器と、
を備え、
　前記強判別器は、当該強判別器よりも判別精度の低い前記強判別器の判別結果を入力し、複数の前記推定値及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別すること、
を特徴とする物体検出装置。
　前記強判別器は、複数の前記強判別器のうち当該強判別器よりも次に判別精度の低い前記強判別器の判別結果を入力する請求項１に記載の物体検出装置。
　前記強判別器は、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果、及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別する請求項１又は２に記載の物体検出装置。
　前記強判別器は、当該強判別器よりも判別精度の低い前記強判別器の判別結果として、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果を入力する請求項１～３の何れか一項に記載の物体検出装置。
　複数の前記強判別器には、判別精度に応じた重みがそれぞれ付与されており、
　前記強判別器は、入力された重み付け投票の結果に入力元の前記強判別器の重みを積算し、積算された値を用いて前記判定画像に前記対象物体が描写されているか否かを判別する請求項４に記載の物体検出装置。
　対象物体の特徴量に基づいて判定画像に対象物体が描写されている可能性を示す推定値をそれぞれ算出する複数の弱判別器と、複数の前記推定値に基づいて前記判定画像に前記対象物体が描写されているか否かをそれぞれ異なる判別精度で判別する複数の強判別器とを備える物体検出装置の物体検出方法であって、
　複数の前記強判別器が判別精度の低い順に直列結合されて、判別精度の低い順に前記強判別器が判別を実行する実行ステップと、
　前記強判別器が、当該強判別器よりも判別精度の低い前記強判別器の判別結果を入力し、複数の前記推定値及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別する判別ステップと、
を含み、
　前記判別ステップにおいて、前記強判別器が前記判定画像に前記対象物体が描写されていると判別した場合には前記実行ステップを継続し、前記強判別器が前記判定画像に前記対象物体が描写されていないと判別した場合には前記実行ステップを中断すること、
を特徴とする物体検出方法。
　前記判別ステップでは、前記強判別器が、複数の前記強判別器のうち当該強判別器よりも次に判別精度の低い前記強判別器の判別結果を入力する請求項6に記載の物体検出方法。
　前記判別ステップでは、前記強判別器が、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果、及び入力された判別結果に基づいて前記判定画像に前記対象物体が描写されているか否かを判別する請求項６又は７に記載の物体検出方法。
　前記判別ステップでは、前記強判別器が、当該強判別器よりも判別精度の低い前記強判別器の判別結果として、前記弱判別器の識別容易性の度合いを示す重みと当該弱判別器の推定値とを用いた重み付け投票の結果を入力する請求項６～８の何れか一項に記載の物体検出方法。
　複数の前記強判別器には、判別精度に応じた重みが付与されており、
　前記判別ステップでは、前記強判別器は、入力された重み付け投票の結果に入力元の前記強判別器の重みを積算し、積算された値を用いて前記判定画像に前記対象物体が描写されているか否かを判別する請求項9に記載の物体検出方法。