JP6606849B2 - Discriminator generation device, discriminator generation method, estimation device, estimation method, and program - Google Patents
Discriminator generation device, discriminator generation method, estimation device, estimation method, and program Download PDFInfo
- Publication number
- JP6606849B2 JP6606849B2 JP2015077799A JP2015077799A JP6606849B2 JP 6606849 B2 JP6606849 B2 JP 6606849B2 JP 2015077799 A JP2015077799 A JP 2015077799A JP 2015077799 A JP2015077799 A JP 2015077799A JP 6606849 B2 JP6606849 B2 JP 6606849B2
- Authority
- JP
- Japan
- Prior art keywords
- classifier
- learning
- feature
- image
- weak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、複数の画像から識別器を構築し、画像中の特定部位(位置)を推定する技術に関する。 The present invention relates to a technique for constructing a discriminator from a plurality of images and estimating a specific part (position) in the image.
従来、顔器官検出技術は、顔のモデルを定義し、入力画像をモデルに当てはめて最適化することによって、モデルに予め定義されている顔器官位置に基づいて入力画像の顔器官位置を求める手法(モデルベース手法)が主流であった(例えば、非特許文献1、2、3等)。特許文献1では、入力画像を3次元モデルに対し当てはめることで高精度な顔器官検出を実現している。
Conventionally, the facial organ detection technique defines a facial model and optimizes the input image by applying it to the model, thereby obtaining the facial organ position of the input image based on the facial organ position predefined in the model. (Model-based method) was the mainstream (for example,
しかしながら、モデルベース手法では、次のような問題がある。第1に、最適化問題として位置合わせエラーではなく、モデルへの当てはまりエラーを解くため、エラーを最小化したとしても、必ずしも位置合わせの結果が良くなるとは限らない。第2に、全ての顔に統一のモデル(低次元)を持つことが前提であるため、年代、性別、人種等のバリエーションに対応できない。 However, the model-based method has the following problems. First, the optimization problem is not an alignment error, but an error that is applied to the model is solved. Therefore, even if the error is minimized, the alignment result does not always improve. Second, since it is premised on having a unified model (low dimension) on all faces, it cannot cope with variations such as age, gender, and race.
一方、近年、適当な初期位置から正しい顔器官位置を回帰問題として解く方法(リグレッションベース手法)がとられている(例えば、非特許文献4、5、6等)。これらの手法では、位置合わせエラーを高次元空間で回帰問題として解くため、モデルベース手法の問題を克服し、精度の高い位置合わせが実現できる。
On the other hand, in recent years, a method (regression-based method) for solving a correct facial organ position from a suitable initial position as a regression problem has been taken (for example, Non-Patent
しかしながら、リグレッションベース手法では、位置合わせエラーを高次元空間で回帰問題として解くため、回帰関数を求めるための特徴の組み合わせの数が膨大となり、現実時間では解くことができない問題点があった。 However, in the regression-based method, since the alignment error is solved as a regression problem in a high-dimensional space, the number of feature combinations for obtaining a regression function becomes enormous, and there is a problem that cannot be solved in real time.
この点、既存の手法(特許文献2、非特許文献4、5、6)では、ランダムに選択した特徴から候補となる識別器を複数作成し、それらの作成した識別器同士を相対的に比較して、最も良い識別器を決定することで上記問題を回避している。しかしながら、本手法においてはランダムに特徴の選択、識別器の作成を行っているため、選択する特徴の数と、作成する識別器の数に精度が依存してしまうなど、効率性の観点からも最適な識別器を得ることは困難である。
In this regard, in the existing methods (
本発明は、前述した問題点に鑑みてなされたものであり、その目的とすることは、オブジェクト検出における効率的に良好なロバスト性を有する識別器を生成可能な識別器生成装置等を提供することである。 The present invention has been made in view of the above-described problems, and an object of the present invention is to provide a discriminator generating apparatus and the like that can generate a discriminator having efficient and robust robustness in object detection. That is.
前述した目的を達成するための本発明における識別器生成装置は、複数の弱識別器からなる強識別器を複数用いて構成される識別器を生成する識別器生成装置であって、検出対象となるオブジェクトを含む複数の学習画像と、前記学習画像のオブジェクトの位置である正解値と、を受け付けて、前記学習画像から複数の特徴を抽出し、前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、前記差分特徴の特徴量と前記閾値とを用いて木構造からなる前記弱識別器を生成し、前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出することを特徴とする。 In order to achieve the above-described object, a discriminator generating device in the present invention is a discriminator generating device that generates a discriminator configured by using a plurality of strong discriminators including a plurality of weak discriminators. Receiving a plurality of learning images including the object and a correct value that is the position of the object of the learning image, extracting a plurality of features from the learning image, and selecting two from the plurality of features, A difference feature is determined from the difference, a histogram is generated from the feature amount of the difference feature using the plurality of learning images, a threshold value for equalizing the areas of the histogram is determined, and the feature amount of the difference feature Generating the weak classifier having a tree structure using the threshold value, and correcting the estimated position of the detection target of the image identified by the weak classifier using the learning image and the correct answer value; And calculates the amount of movement.
前記識別器は、前記複数の学習画像を顔の向き毎に分類して各向き毎の識別器を生成されることを特徴とする。 The classifier generates the classifier for each direction by classifying the plurality of learning images for each direction of the face.
前記弱識別器及び前記強識別器は、予め設定された目標値に基づいて生成されることを特徴とする。 The weak classifier and the strong classifier are generated based on a preset target value.
動的計画法を用いて前記木構造の深さに対応して用いられる前記特徴量を決定し前記弱識別器を生成することを特徴とする。 The weak discriminator is generated by determining the feature quantity used corresponding to the depth of the tree structure using dynamic programming.
前記特徴は、Shape−Indexであることを特徴とする。 The feature is a shape-index.
また、本発明における推定装置は、前記識別器生成装置の識別器を用いて、画像中の検出対象オブジェクトの推定位置を移動させながら前記検出対象オブジェクトを推定することを特徴とする。 The estimation apparatus according to the present invention is characterized in that the detection target object is estimated while moving the estimated position of the detection target object in the image using the classifier of the classifier generation apparatus.
また、本発明における識別器生成方法は、検出対象となるオブジェクトを含む複数の学習画像と、前記学習画像のオブジェクトの位置である正解値と、を受け付けて、前記学習画像から複数の特徴を抽出し、前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、前記差分特徴の特徴量と前記閾値とを用いて木構造からなる弱識別器を生成し、前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出することを特徴とする。 In addition, the classifier generation method according to the present invention receives a plurality of learning images including an object to be detected and a correct value that is the position of the object of the learning image, and extracts a plurality of features from the learning image. And selecting two of the plurality of features, determining a difference feature from the difference between them, generating a histogram from the feature amount of the difference feature using the plurality of learning images, and determining the area of the histogram determining the equal threshold, using said feature quantity and the threshold value of the difference feature generates a weak discriminator that Do from the tree structure, using the correct value and the learning image, are identified by the weak classifier A moving amount for correcting the estimated position of the detection target of the detected image is calculated.
また、本発明における推定方法は、検出対象となるオブジェクトを含む複数の学習画像と、前記学習画像のオブジェクトの位置である正解値と、を受け付けて、前記学習画像から複数の特徴を抽出し、前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、前記差分特徴の特徴量と前記閾値とを用いて木構造からなる弱識別器を生成し、前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出し、前記弱識別器を用いて、画像中の検出対象オブジェクトの推定位置を移動させながら前記検出対象オブジェクトを推定することを特徴とする。 The estimation method according to the present invention receives a plurality of learning images including an object to be detected and a correct value that is the position of the object of the learning image, and extracts a plurality of features from the learning image, Two of the plurality of features are selected, a difference feature is determined from the difference between them, a histogram is generated from the feature amount of the difference feature using the plurality of learning images, and the areas of the histogram are equalized determining the threshold value, the using the feature amount of the difference characteristic between the said threshold value to generate a weak discriminator that Do from the tree structure, using the correct value and the learning image, identified by the weak classifier image calculating a movement amount for correcting the estimated position of the detection object by using the weak classifier, estimate the detection target object while moving the estimated position of the detection target object in an image And wherein the Rukoto.
また、本発明におけるプログラムは、前記識別器生成方法をコンピュータに実行させることを特徴とする。 A program according to the present invention causes a computer to execute the classifier generation method.
前記推定方法をコンピュータに実行させることを特徴とする。 The estimation method is executed by a computer.
本発明により、オブジェクト検出における効率的に良好なロバスト性を有する識別器を生成する識別器生成装置等を提供することができる。 According to the present invention, it is possible to provide a discriminator generating apparatus and the like that generate a discriminator having efficient and robust robustness in object detection.
以下図面に基づいて、本発明の実施形態を詳細に説明する。本実施形態では、オブジェクトとして顔器官を例にあげ、顔器官の位置を推定する識別器を学習し、学習した識別器を用いて顔器官の位置の推定を行う場合について説明を行うが、本発明は顔器官以外のオブジェクトに対しても適用できる。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the present embodiment, a facial organ is taken as an example as an object, a classifier for estimating the position of the facial organ is learned, and the case of estimating the position of the facial organ using the learned classifier will be described. The invention can also be applied to objects other than facial organs.
図1は、本実施形態に係る識別器生成装置1、推定装置2のハードウェア構成の例を示す図である。図1に示すように、識別器生成装置1は、制御部11、記憶部12、メディア入出力部13、通信制御部14、入力部15、表示部16、周辺機器I/F部27等が、バス18を介して接続される。
FIG. 1 is a diagram illustrating an example of a hardware configuration of the
制御部11は、CPU、ROM、RAM等によって構成される。CPUは、記憶部12、ROM、記録媒体等に格納されるプログラムをRAM上のワークメモリ領域に呼び出して実行し、バス18を介して接続された各装置を駆動制御し、集約装置2が行う後述する処理を実現する。ROMは、不揮発性メモリであり、コンピュータのブートプログラムやBIOS等のプログラム、データ等を恒久的に保持している。RAMは、揮発性メモリであり、記憶部12、ROM、記録媒体等からロードしたプログラム、データ等を一時的に保持するとともに、制御部11が各種処理を行う為に使用するワークエリアを備える。
The
記憶部12は、HDD等であり、制御部11が実行するプログラム、プログラム実行に必要なデータ、OS等が格納される。プログラムに関しては、OSに相当する制御プログラムや、後述する処理をコンピュータに実行させるためのアプリケーションプログラムが格納されている。これらの各プログラムコードは、制御部11により必要に応じて読み出されてRAMに移され、CPUに読み出されて各種の手段として実行される。
The
メディア入出力部13(ドライブ装置)は、データの入出力を行い、例えば、CDドライブ(−ROM、−R、−RW等)、DVDドライブ(−ROM、−R、−RW等)等のメディア入出力装置を有する。通信制御部14は、通信制御装置、通信ポート等を有し、コンピュータとネットワーク間の通信を媒介する通信インタフェースであり、ネットワークを介して、他のコンピュータ間との通信制御を行う。ネットワークは、有線、無線を問わない。
The media input / output unit 13 (drive device) inputs / outputs data, for example, media such as a CD drive (-ROM, -R, -RW, etc.), DVD drive (-ROM, -R, -RW, etc.) Has input / output devices. The
入力部15は、データの入力を行い、例えば、キーボード、マウス等のポインティングデバイス、テンキー等の入力装置を有する。入力部15を介して、コンピュータに対して、操作指示、動作指示、データ入力等を行うことができる。表示部16は、液晶パネル等のディスプレイ装置、ディスプレイ装置と連携してコンピュータのビデオ機能を実現するための論理回路等(ビデオアダプタ等)を有する。尚、入力部15及び表示部16は、タッチパネルディスプレイのように、一体となっていても良い。
The
周辺機器I/F部17は、コンピュータと周辺機器とのデータ送受信を行うためのポートやアンテナ等であり、コンピュータは周辺機器I/F部17を介して周辺機器とのデータの送受信を行う。周辺機器との接続形態は、有線(例えば、USB等)、無線(例えば、Bluetooth(登録商標)等)を問わない。バス18は、各装置間の制御信号、データ信号等の授受を媒介する経路である。
The peripheral device I /
(リグレッションベース手法に基づく顔器官推定)
図2は、リグレッションベース手法に基づく顔器官推定を表す概念図である。リグレッションベース手法では、顔器官の位置推定問題を、変位量関数(回帰関数)を用いた回帰問題として考える。
(Face organ estimation based on regression-based method)
FIG. 2 is a conceptual diagram showing facial organ estimation based on the regression-based method. In the regression-based method, the facial organ position estimation problem is considered as a regression problem using a displacement amount function (regression function).
図2(a)のように顔を含む入力画像Iと顔器官の適当な初期位置S0が与えられたとする。リグレッションベース手法では、変位量関数(回帰関数)Rを用いて初期位置S0を顔器官の正解位置に向かって変位させ(図2(b))、正解位置STを推定し、推定結果(回帰結果)を表示した出力画像Eを得る(図2(c))。変位量関数(回帰関数)Rは、通常、機械学習によって学習生成される。本実施形態における識別器生成装置及び推定装置は、変位量関数(回帰関数)Rからなる識別器を複数生成し、識別器を生成、ならびに入力画像のオブジェクトの位置推定を行う。 2 the input image I and the face appropriate initial position S 0 of the organs including the face, as in (a) it is a given. In the regression-based method, the initial position S 0 is displaced toward the correct position of the facial organ using the displacement amount function (regression function) R (FIG. 2B), the correct position ST is estimated, and the estimation result ( An output image E displaying the regression result is obtained (FIG. 2C). The displacement amount function (regression function) R is usually learned and generated by machine learning. The discriminator generation device and the estimation device in this embodiment generate a plurality of discriminators each including a displacement amount function (regression function) R, generate a discriminator, and estimate the position of an object in an input image.
なお、学習、推定対象とするオブジェクトは、本実施形態に限ることなく、任意のオブジェクトを用いることができる。また、その数も任意に定めることができ、対象とする各画像において適切な数(1〜200点程度)を設定することが可能である。 The object to be learned and estimated is not limited to this embodiment, and any object can be used. Also, the number can be arbitrarily determined, and an appropriate number (about 1 to 200 points) can be set for each target image.
(本実施形態に係る識別器3の構造)
図3は、本実施形態で学習生成する識別器3のデータ構造を表す概念図である。識別器3は、図3に示すように、変位量関数(回帰関数)R1,…,Rt,…,RTとして機能する複数の強識別器4−1,…,4−t,…4−Tを接続した構造となっている。なお、簡単のため本文では強識別器を“R”と表す場合がある。
(Structure of the discriminator 3 according to the present embodiment)
FIG. 3 is a conceptual diagram showing the data structure of the discriminator 3 that is learned and generated in the present embodiment. Discriminator 3, as shown in FIG. 3, the displacement amount function (regression function) R 1, ..., R t , ..., a plurality of strong classifiers 4-1 functioning as R T, ..., 4-t , ... 4-T is connected. For simplicity, the strong discriminator may be represented as “R” in the text.
また、各強識別器は、同様に変位量関数(回帰関数)として機能する複数の弱識別器を接続して構成される。例えば、図3の強識別器4−tは、変位量関数(回帰関数)r1,…,rk,…,rKからなる複数の弱識別器5−1,…,5−k,…5−Kから構成される。なお、簡単のため本文では弱識別器を“r”と表す場合がある。 Each strong classifier is configured by connecting a plurality of weak classifiers that similarly function as a displacement amount function (regression function). For example, strong classifier 4-t in FIG. 3, the displacement amount function (regression function) r 1, ..., r k , ..., a plurality of weak classifiers 5-1 consisting r K, ..., 5-k , ... 5-K. For simplicity, the weak discriminator may be represented as “r” in the text.
以上のように、本実施形態の識別器3は、強識別器4と弱識別器5の2階層構造からなり、識別器3に、顔画像と顔器官の初期位置S0が入力されると、変位量関数(回帰関数)からなる各強識別器4(に含まれる複数の弱識別器5)によって変位を繰り返しながら、最終的に顔器官位置STを推定するように動作する。
As described above, the identifier 3 of the present embodiment, a two layered structure of the
また、本実施形態に係る識別器3は、顔の向き毎に学習生成される。
図4は、顔の向き毎に学習生成された識別器3を示す図である。図に示すように、「正面方向」の顔向きに対応した識別器3−1、「斜め左方向」の顔向きに対応した識別器3−2、「左方向」の顔向きに対応した識別器3−3、・・・、といったように、様々な顔向きに対応した識別器を学習する。これにより、あらゆる顔方向の画像に対して顔器官位置を効率よく推定することが可能となる。
Further, the classifier 3 according to the present embodiment is generated by learning for each face direction.
FIG. 4 is a diagram illustrating the discriminator 3 generated by learning for each face direction. As shown in the figure, the discriminator 3-1 corresponding to the face direction of “front direction”, the discriminator 3-2 corresponding to the face direction of “diagonal left direction”, and the discrimination corresponding to the face direction of “left direction” Learning classifiers corresponding to various face orientations, such as devices 3-3,. This makes it possible to efficiently estimate the face organ position for images in any face direction.
なお、必ずしも向き毎に識別器を分けて学習する必要はなく、また、本実施形態の3パターンに限ることなく、様々な顔の向きにて識別器を構築することが可能である。ここで、それぞれの顔の向きとは一意の角度ではなく、ある程度の範囲を一纏まりとして学習することができる。その際、学習するオブジェクトが画像内に全て含まれる角度であれば、例えば右斜め30°と正面と左斜め30°の向きの顔画像は、全て正面の顔の向きとして学習可能である。 Note that it is not always necessary to separately learn the classifier for each orientation, and the classifier can be constructed with various face orientations without being limited to the three patterns of the present embodiment. Here, the orientation of each face is not a unique angle, but a certain range can be learned as a group. At that time, if the object to be learned is an angle included in the entire image, for example, all face images in the direction of 30 ° to the right, 30 ° to the front, and 30 ° to the left can be learned as the direction of the front face.
(弱識別器5)
図5(a)は、本実施形態の弱識別器5であるFern木の木構造を示す図である。Fern木の各ノードは入力された画像の入力値に応じて分岐先の2つのノードのいずれかへ分岐させる「分岐関数」から構成される。図中の“f”は分岐関数を表している。Fern木は、決定木の一種であるが、図に示すように同一深度(同層)のノードで同一の分岐関数fを共有できる点に特徴がある。
(Weak classifier 5)
FIG. 5A is a diagram illustrating a tree structure of a Fern tree that is the
図5(b)は、Fern木の木構造の別の表現態様である。Fern木は、上記したように同一深度(同層)で同一の分岐関数を用いることから、その木構造は図5(b)に示すように分岐関数の一次元系列{f0、f1、f2、・・・、fS}で表現することもできる。 FIG. 5B is another representation mode of the Fern tree tree structure. Since the Fern tree uses the same branch function at the same depth (same layer) as described above, the tree structure is a one-dimensional series of branch functions {f 0 , f 1 , It can also be expressed by f 2 ,..., f S }.
本実施形態は、上記した分岐関数の各ノードを動的計画法により決定する。なお、本実施形態においては、弱識別器を構成する木構造についてFern木を例として説明するが、これに限定することなく、本発明の開示の範囲内において生成可能な種々の木構造にて弱識別器を構築することが可能である。 In the present embodiment, each node of the above branch function is determined by dynamic programming. In the present embodiment, the Fern tree will be described as an example of the tree structure constituting the weak classifier. However, the present invention is not limited to this, and various tree structures that can be generated within the scope of the disclosure of the present invention are used. It is possible to construct a weak classifier.
(学習目標値に応じた学習)
また、本実施形態では、強識別器毎に学習目標値(正解位置までの到達目標)を設定し、この学習目標値に応じて、弱識別器の接続数を動的に決定する。学習目標値とは、強識別器を構築する際に達成すべき最終的な正解位置の推定精度に対する目標値である。
(Learning according to the learning target value)
In the present embodiment, a learning target value (target to reach the correct position) is set for each strong classifier, and the number of connections of weak classifiers is dynamically determined according to the learning target value. The learning target value is a target value for the estimation accuracy of the final correct position to be achieved when constructing the strong classifier.
このように、強識別器毎に、学習目標値(正解位置までの到達目標)を定めることで、各強識別器内において必要の分だけの目標値に応じた最適な数の弱識別器が学習生成される。 In this way, by determining the learning target value (target to reach the correct answer position) for each strong classifier, the optimum number of weak classifiers corresponding to the target values as much as necessary in each strong classifier can be obtained. Learning generated.
図6は、ある強識別器4−tの学習を行う様子を示す図である。強識別器4−tの学習時に学習目標値が設定される。そして、学習目標を達成したか否かを評価しながら、強識別器4−t内の弱識別器5−1、5−2、…を生成しながら接続していく。学習目標を達成した場合、弱識別器の生成を終了し次の強識別器の学習へ移行する。このように、設定された学習目標値に応じて、自動的に弱識別器の接続数が決定される。 FIG. 6 is a diagram showing how learning is performed by a certain strong classifier 4-t. A learning target value is set during learning of the strong classifier 4-t. .. Are connected while generating the weak classifiers 5-1, 5-2,... In the strong classifier 4-t while evaluating whether or not the learning target has been achieved. When the learning goal is achieved, the generation of the weak classifier is terminated and the process proceeds to learning of the next strong classifier. In this way, the number of weak classifier connections is automatically determined according to the set learning target value.
なお、本実施形態では強識別器4−1,…,4−t,…4−Tの各学習段階を「ステージ」と呼び、強識別器内の弱識別器5−1,…,5−k,…5−Kの各学習段階を「ラウンド」と呼ぶ。 In this embodiment, the learning stages of the strong classifiers 4-1, ..., 4-t, ... 4-T are called "stages", and the weak classifiers 5-1, ..., 5- in the strong classifiers. Each learning stage of k,..., 5-K is called “round”.
(特徴量)
また、本実施形態において識別器の構築のために用いられる特徴は、非特許文献5に記載のShape−Index特徴を用いて算出される。Shape−Indexは、任意の複数の点のうちの2点を用いて算出される画素位置の特徴を表す。Shape−Indexを用いることにより、顔形状の変化が大きい場合でも不変性の高い特徴を得られるメリットがある。Shape−Indexの詳細は非特許文献5を参照されたい。本実施形態では、弱識別器のノードを構成する特徴量として、算出したShape−Indexの2点間の輝度差(Pixel−Difference)を差分特徴量として用いることにする。
(Feature value)
In addition, the feature used for constructing the discriminator in the present embodiment is calculated using the Shape-Index feature described in
図7はShape−Indexを表す図である。図7の6A、6BはShape−Indexの画素位置であり、それぞれの画素値(輝度値)がIA、IBであることを示している。本実施形態では図に示すように2つのShape−Index間の輝度差(=IA−IB)を特徴量として用いる。
FIG. 7 is a diagram showing Shape-Index.
<学習動作>
次に、図8のフローチャートを参照しながら、本実施形態に係る識別器生成装置1が識別器3を生成・学習する処理(学習処理)を説明する。
<Learning action>
Next, a process (learning process) in which the
まず、識別器生成装置1の制御部11は、学習データとして、顔を含むN個の学習画像Ii(i=1〜N)と、各学習画像中の顔器官の正解位置(目標位置)S※ i(i=1〜N)の入力を受け付け(ステップS1)、学習に用いるための任意の顔器官の初期位置S0(学習の初期値)を設定する(ステップS2)。
First, the
初期位置S0の設定の方法は任意であるが、本実施形態では、前記した顔器官の正解位置(目標位置)の平均値( (S※ 1+…+S※ N)/N )を初期位置S0として設定する。 While setting method of the initial position S 0 is arbitrary, in the present embodiment, the initial position of the correct position of the face organ average of (target position) ((S ※ 1 + ... + S ※ N) / N) It is set as S 0.
以降、識別器3の学習を行っていく。まず、制御部11は、識別器3の現在の学習ステージ(学習する強識別器)のインデクスtを初期化する(t=1、ステップS3)。
Thereafter, learning of the discriminator 3 is performed. First, the
そして、制御部11は、学習ステージt(学習する強識別器4−t(Rt))における弱識別器を生成するための特徴と閾値からなる分岐関数の候補を生成する。具体的には、制御部11は、まずShape−Indexを算出するための画素位置をランダムにP個(本実施形態では4万個程度)選択し、選択したP個の画素位置から数式1に示すShape−Indexに基づくM個の特徴を、全学習画像について算出する(ステップS4)。
And the
なお、Mは、Shape−Indexの全ての組み合わせについて輝度差を算出した場合、M=P(P−1)となる。 M is M = P (P−1) when the luminance difference is calculated for all the combinations of Shape-Index.
次に、制御部11は、M個の特徴毎に適切な閾値δを設定する(ステップS5)。具体的には、制御部11は、M個の特徴毎に全学習画像から算出した特徴の特徴量に対する学習画像数の分布(ヒストグラム)を作成し、分布面積を2分する中央値となる閾値δを設定する。閾値δは種々の指標に基づいて設定可能であるが、本実施形態では、特徴の分布を2分したヒストグラム面積が等しくなる特徴量の値を特定し、閾値δを設定する。
Next, the
図9は、ステップS5の処理を概念的に表した図である。図9(a)に示すように、制御部11は、2点のShape−Indexにおける相対位置となる画素の差分特徴(featuer1、featuer2・・・、featuerM)毎に、全学習画像につき特徴量を算出し、各差分特徴毎にヒストグラムH1、H2・・・、HMを作成する。そして、制御部11は、図9(b)に示すように、各ヒストグラムを均等に2分する閾値δ1、δ2、・・・、δMを設定する。
FIG. 9 is a diagram conceptually showing the process of step S5. As shown in FIG. 9 (a), the
以上のように、ステップS4においてランダムに選択した特徴(featuer1、featuer2、・・・、featuerM)とステップS5において設定した閾値(δ1、δ2、・・・、δM)によって、弱識別器の各ノードを構成するM個の分岐関数の候補(F1、F2、・・・、FM)が生成される(数式2)。 As described above, according to the features (feature 1 , feature 2 ,..., Feature M ) randomly selected in step S4 and the threshold values (δ 1 , δ 2 ,..., Δ M ) set in step S5, M branch function candidates (F 1 , F 2 ,..., F M ) constituting each node of the weak classifier are generated (Formula 2).
制御部11は、以降の処理で、上式の分岐関数の候補(F1、F2、・・・、FM)の中から、弱識別器の各ノードに割り当てる分岐関数を決定する。これにより最適な弱識別器を構築する。
まず、制御部11は、現在の学習ラウンド(学習する弱識別器)のインデクスkを初期化する(k=1、ステップS6)。
In the subsequent processing, the
First, the
続いて、制御部11は、分岐関数の候補(F1、F2、・・・、FM)から、分岐関数の全系列の組み合わせをグラフにした「Fern候補グラフGr」を作成する(ステップS7)。
図10は、Fern候補グラフ7Grを表す概念図である。Fern候補グラフ7Grのノード7nは分岐関数の候補(F1、F2、・・・、FM)を表し、エッジ7eは分岐関数の候補同士を繋ぐ全ての組み合わせを表している。
Subsequently, the
FIG. 10 is a conceptual diagram showing the Fern candidate graph 7Gr. The
そして、制御部11は、ノード7nとエッジ7eから構成されるFern候補グラフ7Grから適切なパス、すなわち、分岐関数の組み合わせを選定する(ステップS8)。具体的には、制御部11は、各深度におけるコスト関数を累積した累積コスト関数を最小とする(コスト関数の正負は逆転させてもよく、この場合は累積コスト関数を最大とする)分岐関数の組み合わせを、動的計画法を用いて選定する。ここで、累積コスト関数について説明をしておく。累積コスト関数は次のように定義される。
Then, the
上式において、SはFern木の葉ノードの深度(Fern木の高さ)であり、すなわち、Fern木を構成する分岐関数の個数である。深度Sはユーザが任意に設定可能なパラメータである。また、s(=0〜S)はFern木の各ノードの深度を示すインデクスである。 In the above equation, S is the depth of the leaf node of the Fern tree (the height of the Fern tree), that is, the number of branch functions constituting the Fern tree. The depth S is a parameter that can be arbitrarily set by the user. Further, s (= 0 to S) is an index indicating the depth of each node of the Fern tree.
また、上式において右辺の第1項のU(fs)は、Fern木の各深度sにおいて分岐関数がfsであるとした場合の局所コストである(以降、U(fs)を「データ項」とも呼ぶ)。第2項のP(fs,fs−1)は、分岐関数の状態遷移コストであり、定数λはその重みである(以降、P(fs,fs−1)を「平滑化項」とも呼ぶ)。以下、データ項U(fs)および平滑化項P(fs,fs−1)について具体的に説明する。 In the above equation, U (f s ) in the first term on the right side is a local cost when the branch function is f s at each depth s of the Fern tree (hereinafter, U (f s ) is expressed as “ Also called "data term"). The second term P (f s , f s−1 ) is the state transition cost of the branch function, and the constant λ is its weight (hereinafter, P (f s , f s−1 ) is expressed as “smoothing term. "). Hereinafter, the data term U (f s) and smoothing term P (f s, f s- 1) will be described in detail.
1.データ項U(fs)
データ項U(fs)は、分岐関数の主に識別能力を表す指標であり、具体的には数式4に示す計算式によって算出される。
1. Data term U (f s)
Data term U (f s) is an index represents mainly the ability to distinguish the branch function is specifically calculated by the formula shown in
σw1、σw2;分割後の各クラスのクラス内分散
σb;分割後のクラス間分散
数式中のΔS1は、分岐関数によって2分した一方の分類に属する各学習画像Ii(i∈Ω1)の現在位置Si(i∈Ω1)と正解位置S※ i(i∈Ω1)の距離平均であり、ΔS2は、分岐関数によって2分した他方の分類に属する各学習画像Ii(i∈Ω2)の現在位置Si(i∈Ω2)と正解位置S※ i(i∈Ω2)の距離平均であり、次のように計算される。 ΔS 1 in the equation is the current position S i (i∈Ω 1 ) and correct position S * i (i∈Ω) of each learning image I i (i∈Ω 1 ) belonging to one classification divided by a bifurcation function. 1 ) is a distance average, and ΔS 2 is a current position S i (i∈Ω 2 ) and a correct position S * of each learning image I i (i∈Ω 2 ) belonging to the other classification divided by the bifurcation function. It is a distance average of i (i∈Ω 2 ) and is calculated as follows.
Ωb;このbinに含まれる学習画像の集合
Ω b ; set of learning images included in this bin
データ項U(fs)の値が小さくなる分岐関数ほど識別能力が高いことを示す。データ項U(fs)の値を小さくする分岐関数(識別性能の高い分岐関数)とは、第1には、数式4のΔS1、ΔS2の値(つまり数式5の値)を大きくする分岐関数である。すなわち、分割した各学習画像の現在位置と正解位置との距離平均が大きくなる分岐関数である。これにより、学習画像の現在位置をより正解位置へ近づけようとする分岐関数ほど、最適な分岐関数として選定されやすくなる。
More branching function the value of the data section U (f s) is reduced indicates a higher discriminating ability. A branch function to reduce the value of the data section U (f s) (high branching function of identification performance) is in the first 1, [Delta]
また、データ項U(fs)の値を小さくする分岐関数(識別性能の高い分岐関数)とは、第2には、数式4のα(σω1+σω2)/σbを小さくする分岐関数である。すなわち、分割後の2つの分布のクラス内分散を小さくし、且つ、クラス間分散を大きくする分岐関数ほど(2つの分布の分離度を大きくする分岐関数ほど)、最適な分岐関数として選定されやすくなる。 The data section U and the branch function values to reduce the (f s) (high branching function of identification performance) is in the second, branch functions to reduce the formula 4 α (σ ω1 + σ ω2 ) / σ b It is. In other words, the branch function that reduces the intra-class variance of the two distributions after division and increases the inter-class variance (the branch function that increases the separation of the two distributions) is easier to select as the optimal branch function. Become.
2.平滑化項P(fs,fs−1)
一方、平滑化P(fs,fs−1)は、分岐関数の状態遷移コストであり、Fern木の1つ前の深度(s−1)の分岐関数(fs−1)と現在の深度(s)の分岐関数(fs)との関連度を評価する。平滑化P(fs,fs−1)は数式6ように算出される。
2. Smoothing term P (f s, f s- 1)
On the other hand, the smoothing P (f s , f s-1 ) is the state transition cost of the branch function, and the branch function (f s-1 ) at the depth (s-1) immediately before the Fern tree and the current The degree of association between the depth (s) and the bifurcation function (f s ) is evaluated. Smoothing P (f s, f s- 1) is calculated as Equation 6.
ここで、m1は、1つ前の深度(s−1)の分岐関数(fs−1)で片方のbin(例えばΩ1)に分類された学習画像のうち、現在の深度(s)の分岐関数(fs)で同じくΩ1に分類された学習画像の個数を表す。一方、m2は、1つ前の深度(s−1)の分岐関数(fs−1)によりΩ1に分類された学習画像のうち、現在の深度(s)の分岐関数(fs)でΩ2に分類された学習画像の個数を表す。 Here, m 1 is the current depth (s) among the learning images classified into one bin (for example, Ω 1 ) by the branch function (f s-1 ) of the previous depth (s-1). It represents the number of branching function (f s) at similarly classified training image to Omega 1. On the other hand, m 2, of the previous depth (s-1) branch function (f s-1) by the classification learning image to Omega 1, branch function of the current depth (s) (f s) in represents the number of classification learning image to Omega 2.
上式において、m1=m2の場合、平滑化項P(fs,fs−1)の値が最も小さくなる。すなわち、1つ前の深度(s−1)の分岐関数(fs−1)によって各binに分類された学習画像を、現在の深度(s)において偏りなく均等に各binに分類する分岐関数fsほど、最適な分岐関数として選定されやすくなる。平滑化項の趣旨は、1つ前の深度(s−1)のノードに割り当てた分岐関数(特徴)となるべく関連度の低い分岐関数(特徴)を現在の深度(s)のノードにおいて選定させることで、Fern木(弱識別器)の各ノード(各分岐関数)における識別ターゲットに偏りをなくし、結果的に、各binに分類される学習画像の個数の偏りを小さくし、過学習やノイズ発生を防ぐことにある。
In the above equation, if the
以上、累積コスト関数を構成するデータ項U(fs)と平滑化項P(fs,fs−1)について具体的に説明した。
制御部11は、この累積コスト関数を最小化する分岐関数の組み合わせ
Above, the data term U (f s) and the smoothing term P (f s, f s- 1) constituting the cumulative cost function was specifically described.
The
を、動的計画法を用いて選定(決定)する。動的計画法では、各深度s(=0〜S)においてコスト関数の累計値を計算していく。この際、深度sの各ノード(各分岐関数の候補)では、1つ前の深度(s−1)の各ノード(各分岐関数の候補)における、コスト関数U(fs)+P(fs,fs−1)を最小とするパス(部分最適パス)をバックポインタとして各々保持しておく。そして、最下層の深度Sまでコスト関数の累計値を計算したら、最下層の深度Sでコスト関数の累計値が最小となるノード(分岐関数)からバックポインタを辿って行く(トレースバック)ことで、分岐関数の組み合わせを選定(決定)する。ここで選定した分岐関数を構成する差分特徴及びその差分特徴に関連する閾値は、弱識別器の深さ毎の構成要素として保存される。 Are selected (determined) using dynamic programming. In the dynamic programming, the cumulative value of the cost function is calculated at each depth s (= 0 to S). At this time, the nodes of the depth s (candidates of each branch functions), at each node of the previous depth (s-1) (candidate of each branch function), the cost function U (f s) + P ( f s , F s−1 ), each path (partial optimal path) is held as a back pointer. Then, after calculating the accumulated value of the cost function up to the depth S of the lowest layer, the back pointer is traced (trace back) from the node (branch function) where the accumulated value of the cost function becomes the minimum at the depth S of the lowest layer. Select (determine) a combination of branch functions. The difference feature constituting the branch function selected here and the threshold value related to the difference feature are stored as components for each weak classifier depth.
図11は、動的計画法によって分岐関数の組み合わせを選定した様子を表す概念図である。図11の数値は、各深度(s=0〜S)におけるコスト関数の累計値を表す。図11の場合、(F1003,F3843,F834,・・・,F7498,F5111)が分岐関数の組み合わせとして選定されたことを示す。 FIG. 11 is a conceptual diagram showing a state in which a combination of branch functions is selected by dynamic programming. The numerical value of FIG. 11 represents the cumulative value of the cost function at each depth (s = 0 to S). In the case of FIG. 11, (F 1003 , F 3843 , F 834 ,..., F 7498 , F 5111 ) are selected as a combination of branch functions.
制御部11は、動的計画法で得られた分岐関数の組み合わせから、弱識別器rkを構築する(ステップS9)。
図12は、数式7に示す分岐関数の組み合わせから弱識別器rkを構築する様子を示す図である。
Figure 12 is a diagram showing how to construct a weak classifier r k from the combination of branching function shown in
制御部11は、構築した弱識別器rkにより識別された検出対象となる画像内のオブジェクトの入力値の位置(現在の推定位置)を補正するための移動量を決定する(ステップS10)。
移動量の決定方法としては、検出対象オブジェクトの位置(正解値)が既知の学習画像に対して、検出対象オブジェクトに対する任意の値(学習値)を入力する。次に、当該学習画像の学習値を構築された弱識別器rkを用いて識別を行い、その識別結果としてどの葉ノードに識別されるかを判定する。続いて、識別された学習画像の学習値と正解値との距離を算出する。このような識別処理を異なる複数の学習画像及び/又は学習値にて繰り返し行う。そして同じ葉ノードに識別された全学習データから算出された学習値と正解値との距離の平均値を求める。ここで求められた平均値が、当該葉ノードに識別された画像のオブジェクトの推定位置の移動量として用いられる。
つまり、移動量ΔSは、Fern木(弱識別器)rkの各葉ノードで分類されたbin中の学習画像の集合をそれぞれΩbとし、各学習画像Ii(i∈Ωb)の正解位置をS※ i(i∈Ωb)と現在位置をSk−1 i(i∈Ωb)とすると、数式8のように定式化できる。
As a method of determining the movement amount, an arbitrary value (learning value) for the detection target object is input to a learning image whose position (correct value) of the detection target object is known. Next, it is determined whether or not subjected to identification using the weak classifiers r k that are built on the learned value of the learning image, are identified in which the leaf node as the identification result. Subsequently, the distance between the learning value and the correct value of the identified learning image is calculated. Such identification processing is repeated with a plurality of different learning images and / or learning values. Then, the average value of the distance between the learning value calculated from all the learning data identified by the same leaf node and the correct value is obtained. The average value obtained here is used as the movement amount of the estimated position of the object of the image identified by the leaf node.
That is, the movement amount ΔS is the Omega b Fern tree (weak classifiers) r k of the set of training images in bin classified in each leaf node, respectively, the correct answer of each learning image I i (i∈Ω b) If the position is S * i (i∈Ω b ) and the current position is S k−1 i (i∈Ω b ), it can be formulated as Equation 8.
b=1〜2S
図13は、構築した弱識別器rkのある葉ノード51において移動量を求める様子を示す図である。図に示すように葉ノード51において各bin(Ω1、Ω2)に分類された学習画像I1、学習画像I2に基づいて移動量ΔSk 1、ΔSk 2を算出する。 FIG. 13 is a diagram showing how the movement amount is obtained in the leaf node 51 with the constructed weak classifier rk. As shown in the figure, the movement amounts ΔS k 1 and ΔS k 2 are calculated based on the learning image I 1 and the learning image I 2 classified into each bin (Ω 1 , Ω 2 ) in the leaf node 51.
制御部11は、弱識別器rkの全ての葉ノード51において、移動量ΔSk 1、ΔSk 2を算出し、算出した移動量を、弱識別器rkの出力値(回帰結果)として保存しておく。後述する推定処理では、ここで保存したFern木(弱識別器)rkの出力値を取得して顔器官位置の推定を行う。
オブジェクト位置の検出時には、制御部11は、算出した移動量に基づいて、各学習画像Ii(i=1〜N)の顔器官の現在推定されている位置Si k−1を数式9のように更新する。各学習画像の移動量は、前述したように各学習画像が葉ノードにおいて最終分類されたbin毎に算出された移動量である。
At the time of detecting the object position, the
また、制御部11は、構築した識別器を用いて学習画像における学習値の更新を行うことでラウンドエラーeroundを下記の数式で評価し(ステップS11)、ラウンド学習(弱識別器の学習)の終了判定を行う。
Further, the
ラウンドエラーeroundは、現在のステージt内(強識別器4−t(Rt内))で、入力された各学習画像Iiの現在位置Si t−1が正解位置S※ iまでどのくらい近づいたかを、学習画像Iiの初期位置S0 iと正解位置S※ iとの距離を基準とした割合で表したものである。制御部11は、各ステージで、予め設定した学習目標値(現在位置を正解位置にどのくらい近づけるかの割合)と比較し、学習を続行するか、或いは学習を終了するかを判断する。
The round error e round is within the current stage t (strong discriminator 4-t (within Rt )) and how long the current position S i t-1 of each input learning image I i is up to the correct position S * i. The approach is represented by a ratio based on the distance between the initial position S 0 i and the correct position S * i of the learning image I i . At each stage, the
eround<学習目標値の場合(ステップS12;No)、次の学習ラウンドへ移行し(k←k+1、ステップS27)、Fern木(弱識別器)の学習を続行する。一方、eround≧学習目標値の場合(ステップS12;Yes)、そのステージのFern木(弱識別器)の学習を終了し、学習したFern木(弱識別器)r1,…,rkに基づいて強識別器Rtを構築する(ステップS14)。
このように、ステージ毎に設定した学習目標値に応じて、Fern木(弱識別器)の最適な接続数(学習ラウンド数)が動的に決定される。
If e round <learning target value (step S12; No), the process proceeds to the next learning round (k ← k + 1, step S27), and the learning of the Fern tree (weak classifier) is continued. On the other hand, in the case of e round english (us) ≧ objective value (step S12; Yes), terminates the learning Fern tree of the stage (weak classifier), I learned Fern tree (weak classifiers) r 1, ..., a r k Based on this, a strong classifier Rt is constructed (step S14).
Thus, the optimum number of connections (number of learning rounds) of the Fern tree (weak classifier) is dynamically determined according to the learning target value set for each stage.
現在のステージtの学習が終了した場合(ステップS12;Yes)、制御部11は、更に、学習の収束状態を表す指標であるステージエラーestageを数式11で評価し(ステップS15)、ステージ学習(強識別器の学習)の終了判定を行う(なお、下記式は、現在のステージtがt>=3の場合に有効である)。
When the learning of the current stage t is completed (step S12; Yes), the
ここで、estage<1の場合(ステップS16;No)、制御部11は、学習が未収束と判断し学習ステージtをインクリメントし(t←t+1、ステップS17)、次の強識別器の学習ステージへ移行する(ステップS4に戻る)。一方、estage≧1の場合(ステップS16;Yes)、制御部11は、学習が収束済みと判断し強識別器の学習を終了する。
Here, if e stage <1 (step S16; No), the
強識別器の学習が終了すると、制御部11は、学習した強識別器(R1,…,Rt)から識別器3を構築し、記憶部12に格納する(ステップS18)。
When the learning of the strong classifier is completed, the
以上、本実施形態に係る識別器生成装置1の学習処理について詳細に説明した。
Heretofore, the learning process of the
<推定動作>
次に、図14のフローチャートを参照しながら、本実施形態に係る推定装置2が、顔画像から顔器官位置を推定する顔器官推定処理について説明する。推定装置2の記憶部12には、識別器生成装置2が生成した識別器3が格納されているものとする。
<Estimated operation>
Next, a facial organ estimation process in which the
推定装置2の制御部11は、推定対象である入力画像I、顔器官の初期位置S0、顔方向情報Dを含む入力データを受付ける(ステップS31)。また、制御部11は、入力された顔方向情報Dに対応する識別器3を選択し読込む(ステップS32)。
The
図15(a)は入力データを表し、図15(b)は選択された識別器3を表す。図15(a)に示すように、入力データとして入力画像I、顔器官の初期位置S0、また、顔方向情報D(“正面”)が与えられている。この場合、図15(b)に示すように、制御部11は、顔方向情報D(“正面”)に対応する識別器3−1を選択する。なお、初期位置S0とは、入力画像Iにおいて推定対象となるオブジェクトの任意の予測位置である。
FIG. 15A shows the input data, and FIG. 15B shows the selected discriminator 3. As shown in FIG. 15A, an input image I, an initial position S 0 of a facial organ, and face direction information D (“front”) are given as input data. In this case, as illustrated in FIG. 15B, the
制御部11は、識別器3の強識別器Rtによる推定ステージtのインデクスを初期化し(t=1、ステップS33)、また、推定ステージ内のFern木(弱識別器)rkによる推定ラウンドkを初期化する(k=1、ステップS34)。
制御部11は、入力画像Iと前回の位置Sk−1(最初は初期位置S0)を弱識別器rkへ入力し、弱識別器の学習済パラメータ(特徴と閾値)を参照して入力画像Iを分類し、その出力値として移動量ΔSk(=rk(I,Sk−1))を取得する(ステップS35)。
そして、制御部11は、取得した移動量ΔSkと前回の位置Sk−1から、現在位置を次のように移動させる(ステップS36)。
Then, the
弱識別器rkが、強識別器Rt内の最後の弱識別器でない場合(ステップS37;No)、制御部11は、推定ラウンドkをインクリメントし(k←k+1、ステップS38)、次の弱識別器による推定処理を続行する。
一方、弱識別器rkが、強識別器Rt内の最後の弱識別器の場合(ステップS37;Yes)、更に、強識別器Rtが識別器3の最後の強識別器か否かを判断する(ステップS39)。
Weak classifier r k is, if not the last weak classifier in the strong classifier R t (step S37; No), the
On the other hand, the weak discriminator r k is the case of the last weak discriminator in the strong classifier R t (step S37; Yes), further, strong classifier R t is whether the last strong classifier discriminator 3 Is determined (step S39).
強識別器Rtが識別器3の最後の強識別器でない場合(ステップS39;No)、制御部11は、推定ステージtをインクリメントし(t←t+1、ステップS40)、ステップS4に戻り、次の強識別器による推定処理に移行する。
When the strong discriminator R t is not the last strong discriminator of the discriminator 3 (step S39; No), the
一方、強識別器Rtが識別器3の最後の強識別器の場合(ステップS39;Yes)、制御部11は、推定処理を終了し、推定結果を出力する(ステップS41)。
On the other hand, when the strong classifier Rt is the last strong classifier of the classifier 3 (step S39; Yes), the
図16は、顔器官の推定結果を示す図である。図に示すように、出力画像E上に顔器官の最終的な推定位置STが算出されてプロット表示される。 FIG. 16 is a diagram illustrating the estimation result of the facial organs. As shown, the final estimated position S T of the face organ is being calculated plotted displayed on the output image E.
以上、添付図面を参照しながら、本発明に係る識別器生成装置1、推定装置2等の好適な実施形態について説明したが、本発明はかかる例に限定されない。例えば、本発明は以下の変形例等を含む。
The preferred embodiments of the
例えば、木の深さを動的に決めることも可能である。例えば、あらかじめ目標値を与えその目標値を満たすまで木の深さを増していき、最適な深さを動的に決定することも可能である。 For example, the depth of the tree can be determined dynamically. For example, it is possible to determine the optimum depth dynamically by giving a target value in advance and increasing the depth of the tree until the target value is satisfied.
また、本発明の弱識別器はFern木である必要は必ずしもない。例えば、特徴の候補に、NULL候補(特徴を選択しない場合)を加えると、動的計画法でFern木でない木構造の弱識別器を構築することが可能である。その他、手動で、不要な枝を剪定することで、Fern木ではない木構造を構築できる。 Further, the weak classifier of the present invention is not necessarily a Fern tree. For example, if a NULL candidate (when no feature is selected) is added to a feature candidate, it is possible to construct a weak classifier having a tree structure that is not a Fern tree by dynamic programming. In addition, a tree structure that is not a Fern tree can be constructed by manually pruning unnecessary branches.
また、識別器生成装置1の制御部11は、ステップS2において複数の異なる初期位置を学習画像に対して設定することで、識別器3を学習するための学習データ数を擬似的に増加させるようにしてもよい。例えば、N個の学習画像に対して3パターンの異なる初期位置を設定することで、学習データ数を3倍に増加させることができる。
Further, the
また、一般的にリグレッションベース手法では、初期位置の与え方によって推定結果の良し悪しが変動する傾向がある。そこで、推定装置2の制御部11は、推定ラウンドが所定ラウンド進んだ時点(概ね全推定ラウンドの1割程度進んだ時点)で、初期位置の妥当性を判断し、妥当でないと判断した場合には別の初期位置で推定処理をやり直すようにしてもよい。具体的には、初期位置の妥当性判断を行う推定ステージのインデクスがtの場合、強識別器4−t(Rt)に入力される入力位置St−1と出力される出力位置Stの変位量の分散を算出し、変位量の分散が所定の閾値より小さければ、与えた初期位置は妥当(良い推定解へ収束する可能性が高い)と判断する。一方、閾値より大きければ、与えた初期位置は妥当でない(良い推定解へ収束する可能性が低い)と判断する。なお、上記の変位量とは、具体的には、ステップS35において推定される当該強識別器4−t(Rt)内の各弱識別器5の変位量の和に相当する。
In general, in the regression-based method, the quality of the estimation result tends to vary depending on how the initial position is given. Therefore, the
また、本実施形態では、Shape−Indexに基づく特徴を用いたが、これに限らず、Haar−Like、SIFT、SURF等の他の特徴(特徴量)を用いてもよい。 In the present embodiment, the feature based on Shape-Index is used. However, the present invention is not limited to this, and other features (features) such as Haar-Like, SIFT, and SURF may be used.
その他、当業者であれば、本願で開示した技術的思想の範疇内において、各種の変更例又は修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。 In addition, it is obvious that those skilled in the art can arrive at various changes or modifications within the scope of the technical idea disclosed in the present application, and these naturally belong to the technical scope of the present invention. It is understood.
1;識別器生成装置
2;推定装置
3;識別器、回帰関数
4、R;強識別器、回帰関数
5、r;Fern木(弱識別器)、回帰関数
51;葉ノード
6A、6B;Shape−Index
H;ヒストグラム
δ;閾値
7Gr;Fern候補グラフ
7n;Fern候補グラフ7Grのノード
7e;Fern候補グラフ7Grのエッジ
Ii;学習画像
I;入力画像
E;出力画像
D;顔方向情報
S;位置
11;制御部
12;記憶部
13;メディア入出力部
14;通信制御部
15;入力部
16;表示部
17;周辺機器I/F部
18;バス
DESCRIPTION OF
H; histogram δ; threshold 7Gr;
Claims (10)
検出対象となるオブジェクトを含む複数の学習画像と、前記学習画像のオブジェクトの位置である正解値と、を受け付けて、
前記学習画像から複数の特徴を抽出し、
前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、
前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、
前記差分特徴の特徴量と前記閾値とを用いて木構造からなる前記弱識別器を生成し、
前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出する
ことを特徴とする識別器生成装置。 A classifier generating device that generates a classifier configured by using a plurality of strong classifiers composed of a plurality of weak classifiers,
Receiving a plurality of learning images including an object to be detected, and a correct value that is the position of the object of the learning image;
Extracting a plurality of features from the learning image;
Selecting two of the plurality of features and determining a difference feature from the difference between them;
Generating a histogram from the feature quantity of the difference feature using the plurality of learning images, determining a threshold value at which the areas of the histogram are equal;
Using the feature amount of the difference feature and the threshold value, generate the weak classifier having a tree structure,
A discriminator generation device, wherein a movement amount for correcting an estimated position of a detection target of an image identified by the weak discriminator is calculated using the learning image and the correct answer value.
ことを特徴とする請求項1に記載の識別器生成装置。 The classifier generating apparatus according to claim 1, wherein the classifier classifies the plurality of learning images for each face direction to generate a classifier for each direction.
ことを特徴とする請求項1または請求項2に記載の識別器生成装置。 The classifier generation device according to claim 1 or 2, wherein the weak classifier and the strong classifier are generated based on a preset target value.
ことを特徴とする請求項1から請求項3のいずれかに記載の識別器生成装置。 4. The weak classifier is generated by determining the feature amount to be used corresponding to the depth of the tree structure using dynamic programming. 5. Classifier generator.
ことを特徴とする請求項1から請求項4のいずれかに記載の識別器生成装置。 The discriminator generation device according to any one of claims 1 to 4, wherein the feature is Shape-Index.
ことを特徴とする推定装置。 An estimation apparatus, wherein the detection target object is estimated while moving the estimated position of the detection target object in an image using the classifier of the classifier generation device according to any one of claims 1 to 5.
前記学習画像から複数の特徴を抽出し、
前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、
前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、
前記差分特徴の特徴量と前記閾値とを用いて木構造からなる弱識別器を生成し、
前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出する
ことを特徴とする識別器生成方法。 Receiving a plurality of learning images including an object to be detected, and a correct value that is the position of the object of the learning image;
Extracting a plurality of features from the learning image;
Selecting two of the plurality of features and determining a difference feature from the difference between them;
Generating a histogram from the feature quantity of the difference feature using the plurality of learning images, determining a threshold value at which the areas of the histogram are equal;
Using said feature quantity of the difference feature threshold generates a weak discriminator that Do from the tree structure,
A classifier generation method characterized by calculating a movement amount for correcting an estimated position of a detection target of an image identified by the weak classifier using the learning image and the correct answer value.
前記学習画像から複数の特徴を抽出し、
前記複数の特徴から2つを選択して、それらの差分から差分特徴を決定し、
前記複数の学習画像を用いて前記差分特徴の特徴量からヒストグラムを生成して、前記ヒストグラムの面積が等しくなる閾値を決定し、
前記差分特徴の特徴量と前記閾値とを用いて木構造からなる弱識別器を生成し、
前記学習画像と前記正解値を用いて、前記弱識別器により識別された画像の検出対象の推定位置を補正するための移動量を算出し、
前記弱識別器を用いて、画像中の検出対象オブジェクトの推定位置を移動させながら前記検出対象オブジェクトを推定する
ことを特徴とする推定方法。 Receiving a plurality of learning images including an object to be detected, and a correct value that is the position of the object of the learning image;
Extracting a plurality of features from the learning image;
Selecting two of the plurality of features and determining a difference feature from the difference between them;
Generating a histogram from the feature quantity of the difference feature using the plurality of learning images, determining a threshold value at which the areas of the histogram are equal;
Using said feature quantity of the difference feature threshold generates a weak discriminator that Do from the tree structure,
Using the learning image and the correct answer value, calculate a movement amount for correcting the estimated position of the detection target of the image identified by the weak classifier,
An estimation method, wherein the detection target object is estimated while moving the estimated position of the detection target object in the image using the weak classifier.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015077799A JP6606849B2 (en) | 2015-04-06 | 2015-04-06 | Discriminator generation device, discriminator generation method, estimation device, estimation method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015077799A JP6606849B2 (en) | 2015-04-06 | 2015-04-06 | Discriminator generation device, discriminator generation method, estimation device, estimation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016197371A JP2016197371A (en) | 2016-11-24 |
| JP6606849B2 true JP6606849B2 (en) | 2019-11-20 |
Family
ID=57358473
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015077799A Expired - Fee Related JP6606849B2 (en) | 2015-04-06 | 2015-04-06 | Discriminator generation device, discriminator generation method, estimation device, estimation method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6606849B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6558388B2 (en) * | 2017-03-14 | 2019-08-14 | オムロン株式会社 | Image processing device |
| JP6844564B2 (en) * | 2018-03-14 | 2021-03-17 | オムロン株式会社 | Inspection system, identification system, and learning data generator |
| AU2019433083B2 (en) * | 2019-03-01 | 2023-05-18 | Nec Corporation | Control method, learning device, discrimination device, and program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4556891B2 (en) * | 2006-03-17 | 2010-10-06 | ソニー株式会社 | Information processing apparatus and method, recording medium, and program |
| JP4697106B2 (en) * | 2006-09-25 | 2011-06-08 | ソニー株式会社 | Image processing apparatus and method, and program |
| JP4710979B2 (en) * | 2009-01-09 | 2011-06-29 | ソニー株式会社 | Object detection device, learning device, object detection method and program |
-
2015
- 2015-04-06 JP JP2015077799A patent/JP6606849B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016197371A (en) | 2016-11-24 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN108470354B (en) | Video target tracking method and device and implementation device | |
| US11055571B2 (en) | Information processing device, recording medium recording information processing program, and information processing method | |
| Wang et al. | Online discriminative object tracking with local sparse representation | |
| US10783402B2 (en) | Information processing apparatus, information processing method, and storage medium for generating teacher information | |
| WO2023082882A1 (en) | Pose estimation-based pedestrian fall action recognition method and device | |
| Panagiotakis et al. | Interactive image segmentation based on synthetic graph coordinates | |
| CN105869178B (en) | A kind of complex target dynamic scene non-formaldehyde finishing method based on the convex optimization of Multiscale combination feature | |
| JP6448325B2 (en) | Image processing apparatus, image processing method, and program | |
| JP5394959B2 (en) | Discriminator generating apparatus and method, and program | |
| KR20160096460A (en) | Recognition system based on deep learning including a plurality of classfier and control method thereof | |
| JP6897749B2 (en) | Learning methods, learning systems, and learning programs | |
| CN106157330B (en) | Visual tracking method based on target joint appearance model | |
| Hua et al. | Depth estimation with convolutional conditional random field network | |
| Zhang et al. | Adaptive NormalHedge for robust visual tracking | |
| CN116266387A (en) | YOLOV4 image recognition algorithm and system based on reparameterized residual structure and coordinate attention mechanism | |
| CN112131944B (en) | Video behavior recognition method and system | |
| CN110689044A (en) | Target detection method and system combining relationship between targets | |
| CN107423771B (en) | A two-phase remote sensing image change detection method | |
| JP6606849B2 (en) | Discriminator generation device, discriminator generation method, estimation device, estimation method, and program | |
| US20110243426A1 (en) | Method, apparatus, and program for generating classifiers | |
| US20230143070A1 (en) | Learning device, learning method, and computer-readable medium | |
| JP2016071872A (en) | Method and device for tracking object and tracking feature selection method | |
| Sun et al. | Visual tracking via joint discriminative appearance learning | |
| CN107480627A (en) | Activity recognition method, apparatus, storage medium and processor | |
| Pan et al. | A deep learning based fast image saliency detection algorithm |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180226 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190319 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190423 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190924 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191007 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6606849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |