JP2005050284A - 動き認識装置および動き認識方法 - Google Patents
動き認識装置および動き認識方法 Download PDFInfo
- Publication number
- JP2005050284A JP2005050284A JP2003284299A JP2003284299A JP2005050284A JP 2005050284 A JP2005050284 A JP 2005050284A JP 2003284299 A JP2003284299 A JP 2003284299A JP 2003284299 A JP2003284299 A JP 2003284299A JP 2005050284 A JP2005050284 A JP 2005050284A
- Authority
- JP
- Japan
- Prior art keywords
- feature quantity
- motion
- unit
- movement
- motion recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】ノイズや動きのぶれの影響が小さく、しかも物体の動きを高い精度で検出することができる動き認識装置を提供する。
【解決手段】 動き認識装置U1は、演算装置1および撮像装置2を備える。演算装置1は、画像抽出部11で撮像装置2によって撮像された画像から、対象物タクトの画像と、関連変位物体であるマーカー、手袋、袖の画像を抽出する。画像中で抽出された対象物および関連変位物体の部分から、対象物および関連変位物体の部分の重心値を重心算出部12でそれぞれ算出する。動き検出部13では、対象物および関連変位物体の部分の重心値から、対象物であるタクトTの動きを検出する。
【選択図】 図1
【解決手段】 動き認識装置U1は、演算装置1および撮像装置2を備える。演算装置1は、画像抽出部11で撮像装置2によって撮像された画像から、対象物タクトの画像と、関連変位物体であるマーカー、手袋、袖の画像を抽出する。画像中で抽出された対象物および関連変位物体の部分から、対象物および関連変位物体の部分の重心値を重心算出部12でそれぞれ算出する。動き検出部13では、対象物および関連変位物体の部分の重心値から、対象物であるタクトTの動きを検出する。
【選択図】 図1
Description
本発明は、検出対象物の動きを認識する動き認識装置および動き認識方法に関する。
カメラなどの撮像装置で撮像された物体の動作を検出する手段として、特開平10−255058号公報に開示された動作検出装置および動作検出方法がある。この動作検出装置は、時系列に撮像された複数の画像から被写体の特定の動作を検出するものであり、複数の画像を時系列に蓄積し、蓄積された連続する画像間での予め定められた領域内の動きベクトルを算出し、特定の動作に関する動きベクトルの確率分布を記憶し、これらの動きベクトルおよび確率分布から得られる評価値によって、特定の動作を検出するというものである。
また、物体の時系列の動き情報にある時間関数をあてはめ、その時間関数に基づいて、動きを認識する方法もある。
特開平10−255058号公報
しかし、上記特許文献1に開示された動作検出方法では、動きベクトルは、時系列の動き情報から得られた数値により決定されるので、ノイズや動きのぶれ(個人差、環境)により数値が変動する。そのため、動きベクトルによる動作認識では、ノイズや動きのぶれを考慮した認識ロジックを要するという問題があった。
また、物体の時系列の動き情報に時間関数をあてはめる方法では、物体の動きと時間関数の関係がわからないと、間違った関数をあてはめてしまうことになり、特に、複雑な動きに時間関数をあてはめようとした場合に、そのあてはめが困難となる。したがって、物体の動きの認識精度を高いものとすることができないという問題もあった。
そこで、本発明の課題は、ノイズや動きのぶれの影響が小さく、しかも物体の動きを高い精度で検出することができる動き認識装置および動き認識方法を提供することにある。
上記課題を解決した本発明の係る動き認識装置は、対象物および対象物の動きに関連するとともに対象物の変位と異なる変位が生じる関連変位物体を撮像する撮像手段と、撮像手段で撮像された対象物および関連変位物体の部分を抽出する物体部分抽出手段と、対象物および関連変位物体の部分の変化に基づいて、対象物の動きを検出する動き検出手段と、を備えるものである。
本発明に係る動き認識装置では、対象物の動きを検出するにあたり、対象物の動きに関連するとともに対象物の変位と異なる変位が生じる関連変位物体の動きも検出している。このため、関連変位物体の動きとの相対的な関係で対象物の動きを検出することができるので、対象物の動きを高い精度で検出することができる。また、関連変位物体との関係を考慮することにより、ノイズの動きやぶれといった要素による変動を小さくすることができる。
ここで、物体部分抽出手段で抽出された対象物および関連変位物体の重心を求める重心算出手段を備え、対象物および関連変位物体の変化が、重心算出手段で求められた対象物および関連変位物体の重心の変化である態様とすることができる。
対象物および関連変位物体の重心の変化によって対象物の動きを求めることにより、対象物の動きを検出する際の演算量を少なくすることができる。
また、上記課題を解決した本発明に係る動き認識装置は、対象物を撮像する撮像手段と、撮像手段で撮像された対象物の部分を抽出する物体部分抽出手段と、物体部分抽出手段で検出された対象物の重心を求める重心算出手段と、物体部分抽出手段で抽出された対象物のエッジを検出するエッジ検出手段と、重心算出手段で求められた対象物の重心およびエッジ検出手段で求められた対象物のエッジに基づいて、対象物の形状を検出する対象物形状算出手段と、対象物形状検出手段で検出された対象物の形状に基づいて、対象物の動きを検出する動き検出手段と、を備えるものである。
本発明に係る動き認識装置では、対象物の形状を求め、対象物の形状に基づいて対象物の動きを検出している。このため、対象物の動きを高い精度で検出することができる。また、関連変位物体との関係を考慮することにより、ノイズの動きやぶれといった要素による変動を小さくすることができる。
また、上記課題を解決した本発明に係る動き認識装置は、対象物を撮像する撮像手段と、対象物の動きに基づく特徴量を検出する特徴量検出手段と、対象物の特徴量に関連付けられ、かつ対象物の特徴量とは異なる特徴量関連情報を検出する関連情報検出手段と、特徴量と特徴量関連情報との関連を学習する特徴量関連情報学習手段と、特徴量関連情報を記憶する特徴量関連情報記憶手段と、対象物の動きに基づく特徴量と特徴量関連情報との比較に基づいて、対象物の動きを検出する動き検出手段と、を備えるものである。
本発明に係る動き認識装置では、対象物の動きに基づく特徴量を検出するとともに、対象物の特徴量に関連付けられ、対象物の特徴量とは異なる特徴量関連情報を利用している。これらの特徴量と特徴量関連情報とを学習し、比較することによって対象物の動きを検出するようにしている。このため、対象物の動きを高い精度で検出することができる。また、関連変位物体との関係を考慮することにより、ノイズの動きやぶれといった要素による変動を小さくすることができる。
ここで、特徴量関連情報学習手段が、新しい特徴量関連情報を学習したときに、既に学習した特徴量関連情報を破棄する特徴量関連情報破棄手段を備える態様とするのが好適である。
このような特徴量関連情報破棄手段を備えることにより、学習した特徴量関連情報を新しいものに更新することができる。したがって、特徴量関連情報記憶手段の負荷を軽減することができるとともに、迅速な処理を可能なものとする。
このとき、特徴量関連情報を古い順に破棄する態様とするのが好適である。古い情報から破棄することにより、常に新しい情報に基づいて動き検出を行うことができる。
さらに、特徴量と、特徴量関連情報との関係のタイミングを調整する時間調整手段を備えるのが好適である。
このような時間調整手段が設けられていることにより、特徴量と特徴量関連情報との間に時間的なずれが生じている場合でも、タイミング調整をすることにより、確実に両者の関係を検出することができる。
また、上記課題を解決した本発明に係る動き認識方法は、対象物および対象物の動きに関連するとともに対象物の変位と異なる変位が生じる関連変位物体を撮像し、撮像された対象物および関連変位物体の部分を抽出し、対象物および関連変位物体の部分の変化に基づいて、対象物の動きを検出して、対象物の動きを認識することを特徴とする。
ここで、抽出された対象物および関連変位物体の重心を求め、対象物および関連変位物体の重心の変化に基づいて、対象物の動きを検出して、対象物の動きを認識する態様とするのが好適である。
また、上記課題を解決した本発明に係る動き認識方法は、対象物を撮像し、撮像された対象物の部分を抽出し、抽出された対象物の重心を求め、対象物のエッジを検出し、対象物の重心およびエッジに基づいて、対象物の形状を検出し、対象物の形状に基づいて、対象物の動きを検出して、対象物の動きを認識することを特徴とする。
さらに、上記課題を解決した本発明に係る動き認識方法は、対象物を撮像し、対象物の動きに基づく特徴量を検出し、対象物の特徴量に関連付けられ、かつ対象物の特徴量とは異なる特徴量関連情報を検出し、特徴量と特徴量関連情報との関連を学習し、特徴量関連情報を記憶し、対象物の動きに基づく特徴量と特徴量関連情報との比較に基づいて、対象物の動きを検出して、対象物の動きを認識することを特徴とする。
ここで、特徴量関連情報学習手段が、新しい特徴量関連情報を学習したときに、既に学習した特徴量関連情報を破棄する態様とするのが好適である。
さらに、特徴量関連情報を古い順に破棄する態様とするのが好適である。
そして、特徴量と、特徴量関連情報との関係のタイミングを調整する態様とするのがさらに好適である。
以上のとおり、本発明によれば、ノイズや動きのぶれの影響が小さく、しかも物体の動きを高い精度で検出することができる動き認識装置および動き認識方法を提供することができる。
以下、図面を参照して、本発明の好適な実施形態について詳細に説明する。なお、各実施形態において、同一の機能を有する部分については同一の符号を付し、重複する説明は省略することがある。
図1は、本発明の第1の実施形態に係る動き認識装置のブロック構成図である。本実施形態から第5の実施形態については、楽団の演奏指揮をする指揮者が操作するタクトの動きを例にとって説明する。
図1に示すように、本実施形態に係る動き認識装置U1は、演算装置1を有しており、演算装置1は、画像抽出部11、重心算出部12、および動き検出部13を備えている。また、演算装置1には、撮像装置2および表示装置3が接続されている。撮像装置2は、本実施形態における動き認識の対象物となるタクトおよびタクトの動きに関連するとともに変位と異なる変位が生じる関連変位物体であるタクト先端のマーカー、指揮者の手、洋服の袖などを同時に撮像し、演算装置1に出力している。また、表示装置3は、演算装置1で認識されたタクトの動きを表示している。
演算装置1における画像抽出部11では、撮像装置2から出力された画像のうち、対象物となるタクトの部分の色や輝度などの画像上の特徴量を参照して、タクトの部分を他の部分から分離して抽出する。それとともに、タクトの変位と異なる変位が生じる他の物体であるタクトの先端に設けられたマーカー、指揮者の手、洋服の袖など、タクトの動きと関連して動く物体の部分も、それらの色や輝度などの特徴量を参照して他の部分から抽出する。重心算出部12は、画像抽出部11で抽出されたタクト、およびマーカー、指揮者の手、袖の各部分から、それらの重心をそれぞれ算出する。さらに、動き検出部13は、重心算出部12で算出されたタクト、マーカー、指揮者の手、および袖のそれぞれの重心移動量を算出し、それらの時系列変化に基づいて、タクトの動きを検出する。検出したタクトの動きは、表示装置3に出力されて表示される。
次に、本実施形態に係る動き認識装置を用いた動き認識方法について図1および図2を参照して説明する。図2は、本発明の第1の実施形態に係る動き認識方法の手順を示すフローチャートである。図2に示すように、まず、撮像装置2で撮像した画像の1つのフレームを演算装置1の画像抽出部11に出力する(S1)。画像抽出部11では、出力された画像を色空間に変換する(S2)。続いて、画像を変換して得られた色空間から、色領域を形成する部分のそれぞれについて、C色領域を抽出する(S3)。この実施形態では、C=0〜nの色領域が抽出されたとする。
色領域を抽出したら、C=0のC色領域について、抽出されたC色領域を統合処理する(S4)。統合処理されたC色領域は、重心算出部12に出力される。重心算出部12では、C色領域が占める領域から、C色領域の重心値を算出する(S5)。C=0についてのC色領域の重心を算出したら、Cのカウントをアップし(S6)、C=nとなったか否かを判断する(S7)。C=nに到達していない場合には、ステップS3に戻り、C=m+1(C=1)の領域について、同様の処理を行う。
そうして、1つのフレームにおいて、C=0〜nについて、重心値の計算が済んだら、複数のフレームがあるか否かを判断する(S8)。その結果、複数のフレームがない場合には、ステップS1に戻り、次のフレームの画像について、同様の処理を繰り返す。一方、複数のフレームが揃っている場合には、重心算出部12から、各フレームにおけるn個の色領域の重心値を動き検出部13に出力する(S9)。動き検出部13では、複数のフレームに対する色領域の重心値により、対象物であるタクトの動きを検出する(S10)。動き検出部13における動き検出は、次のようにして行われる。
撮像装置2で撮像された画像の例を図3に示す。図3(a)は、第一フレームにおけるタクトを撮像した画像、(b)は、第一フレームを撮像してから一定時間経過した後におけるタクトを撮像した画像の概略図である。図3(a)に示すように、第一フレームF1には、タクトT、タクトTの先端に取り付けられたマーカーM、タクトTを持つ指揮者の手袋G、指揮者が着る服の袖Sが撮像されている。これが、一定時間経過した後に撮像された第二フレームF2では、手袋Gが下方に振り下ろされ、手袋GとともにタクトT、マーカーM、および袖Sも下方に下がっている。これらの各フレームに対応する色空間変換した画像の模式図を図4に示す。図4(a)には、図3に示す第一フレームF1の色空間変換画像である第一色空間変換画像FC1が示され、図4(b)には、第二フレームF2の色空間変換画像である第二色空間変換画像FC2が示されている。撮像装置2で撮像されたマーカーMが赤色、タクトTが黄色、手袋Gが肌色、袖Sが黒色をしているとすると、色空間変換処理により、図4(a),(b)に示すマーカーM、タクトT、手袋G、および袖Sがそれぞれ別の物体として認識される。これらの物体ごとに、それぞれ重心P1〜P4を両色空間変換画像ごとに求める。動き検出部13では、第一色空間変換画像FC1における重心P1〜P4の位置と、第二色空間変換画像FC2における移動後の重心P1′〜P4′の位置とを比較し、この比較結果により、タクトTの動きを検出する。
ここで、本実施形態に係る動き認識装置U1では、タクトTの重心P2,P2′を第一色空間変換画像FC1と第二色空間変換画像FC2との間で比較することにより、タクトの動きを検出している。このため、ノイズの動きやぶれといった要素による変動を小さくすることができ、精度の高い検出を行うことができる。また、タクトTの動きに関連するとともにタクトTの変位と異なる変位が生じる異変位として、マーカーM、手袋G、および袖Sの動きをも比較している。このため、対象物のみの比較と比べて、ノイズやぶれによる画像上の特徴量の変動を補償することができる。したがって、対象物であるタクトTの移動をさらに高い精度で検出することができる。
こうして、検出されて認識されたタクトTの動きは、動き検出部13から表示装置3に出力され、表示装置3に表示される。
このように、本実施形態に係る動き認識装置では、ノイズやぶれによる画像における画像上の特徴量の変動を補償することができるので、高い精度で対象物であるタクトTの動きを検出することができる。また、時系列の動き情報に時間関数をあてはめるなどの処理を必要としないので、高い精度でタクトTの動きを認識することができる。
次に、本発明の第2の実施形態について説明する。図5は、本発明の第2の実施形態に係る動き認識装置のブロック構成図である。図5に示すように、本実施形態に係る動き認識装置U2は、演算装置20を有しており、演算装置20は、画像抽出部21、重心算出部22、エッジ検出部23、形状算出部24、および動き検出部25を備えている。また、演算装置20には、撮像装置2および表示装置3が接続されている。撮像装置2は、本実施形態における動き認識の対象物となるタクトのほか、タクト先端のマーカー、指揮者の手、洋服の袖などを同時に撮像し演算装置20に出力している。また、表示装置3は、動き認識装置U1で認識されたタクトの動きを表示している。
演算装置20における画像抽出部21では、対象物となるタクトの色や輝度などの特徴量を参照して、撮像装置2から出力された画像のうち、タクトの部分を他の部分から分離して抽出する。重心算出部22は、画像抽出部11で抽出されたタクトの部分の重心を算出する。エッジ検出部23は、画像抽出部21で抽出されたタクトの部分を含む画像にエッジ処理を施し、タクトの部分のエッジ部を検出する。形状算出部24は、重心算出部22算出された画像中におけるタクト部分の重心およびエッジ検出部23で検出されたタクト部分のエッジに基づいて、タクトの形状を算出する。動き検出部25では、形状算出部24で算出されたタクトの部分における形状の時系列変化に基づいて、タクトの動きを検出する。
次に、本実施形態に係る動き認識装置による動き認識方法について図5および図6を参照して説明する。図6は、本発明の第2の実施形態に係る動き認識方法の手順を示すフローチャートである。図6に示すように、本実施形態に係る動き認識方法では、撮像装置2で撮像した画像の1つのフレームを演算装置20における画像抽出部21に出力する(S11)。画像抽出部21では、出力された画像を色空間に変換する(S12)。続いて、画像を変換して得られた色空間から、タクトの色を表すタクト色領域を形成する部分を抽出する(S13)。画像抽出部21は、抽出したタクト色領域を重心算出部22およびエッジ検出部23に出力する。重心算出部22では、出力されたタクト色領域から、タクト色領域の重心値を算出し(S14)、形状算出部24に出力する。その一方、エッジ検出部23では、出力されたタクト色領域から、画像中におけるタクトの輪郭エッジを検出し(S15)、形状算出部24に出力する。
形状算出部24では、出力されたタクト色領域の重心値およびタクトの輪郭エッジから、タクトの部分の形状を算出する(S16)。タクト部分の形状の算出は図7に示すフローチャートに沿って行われる。このタクト部分の形状の算出を、図8をも参照して説明する。図8に示すように、フレームF中におけるタクトTの重心Cから放射状に線L1,L2…(以下、「放射線」という)を引く(S21)。次に、これらの放射線とタクトTの輪郭エッジとの交点C1,C2…を求め、タクトTの重心Cから各交点C1,C2…までの距離をそれぞれ求める(S22)。こうして求めた重心Cと複数の交点C1,C2との距離を、図9に示すように、横軸に放射線の角度、縦軸に重心Cと交点C1,C2…との距離を取ったグラフに表す(S23)。このグラフがタクトTの形状を示すグラフとなる。
図6に戻り、こうして、1つのフレームでタクトTの形状を求めたら、複数のフレームがあるか否かを判断する(S17)。その結果、複数のフレームがない場合には、ステップS11に戻って次のフレームの画像について、同様の処理を繰り返す。一方、複数のフレームが揃っている場合には、各フレームにおけるタクトTの形状を比較して、タクトTの動きを検出する(S18)。たとえば、図3に示す画像を撮像装置2が撮像した場合におけるタクトの形状を抽出した第一フレームの画像を図10(a)に示し、第二フレームの画像を図10(b)に示す。図10(a)に示す第一フレームF1の画像では、タクトTは、画面上方に位置しており、図10(b)に示す第二フレームF2の画像では、タクトTは画面下方に移動しており、タクトTの形状の変化をも検出することができる。さらに、たとえばタクトを4拍子で動かした場合の変化を図11に示す。図11(a)は第一フレームF1に表示された1拍子目、(b)は第二フレームF2に表示された2拍子目、(c)は第三フレームF3に表示された3拍子目、(d)は第四フレームF4に表示された4拍子目のタクトTの画像を示している。これらの
場合の横軸に放射線の角度、縦軸に重心と交点…との距離を取ったグラフは、それぞれ図12(a)〜(d)に示すようになる。
場合の横軸に放射線の角度、縦軸に重心と交点…との距離を取ったグラフは、それぞれ図12(a)〜(d)に示すようになる。
こうして検出されて認識されたタクトの動きは、動き検出部25から表示装置3に出力され、表示装置3に表示される。
このように、本実施形態に係る動き認識装置U2では、特徴量として、色のみならず対象物の形状をも利用して動き検出を行っている。このため、高い精度で対象物であるタクトTの動きを検出することができる。また、時系列の動き情報に時間関数をあてはめるなどの処理を必要としないので、高い精度でタクトTの動きを認識することができる。また、手袋やマーカーなど、他の物体の有無によらず、高い精度でタクトの動きを認識することができる。
次に、本発明の第3の実施形態について説明する。図13は、本発明の第3の実施形態に係る動き認識装置のブロック構成図である。図13に示すように、本実施形態に係る動き認識装置U3は、演算装置30を有しており、演算装置30は、画像抽出部31、重心算出部32、本発明の特徴量検出手段である特徴量検出部33、本発明の特徴量関連情報学習手段であるトリガー情報学習部34、動き検出部35、および学習モデル記憶部36を備えている。また、演算装置30には、撮像装置2、表示装置3のほか、本発明の関連情報検出手段であるトリガー入力装置4が接続されている。撮像装置2は、タクト、タクト先端のマーカー、指揮者の手、洋服の袖などを同時に撮像し、演算装置30に出力している。また、表示装置3は、動き認識装置U3で認識されたタクトの動きを表示している。さらに、トリガー入力装置4は、対象物の特徴量に関連付けられ、かつ対象物の特徴量とは異なる特徴量関連情報である音声を集音している。楽団は、指揮者のタクトの動きによって演奏態様が決定されているので、楽団の発する音声は、タクトの動きと関連付けされている。トリガー入力装置4は、所定の音声を入力した際には、音声入力信号を演算装置30に出力する。
演算装置30における画像抽出部31では、タクトの先端に設けられた対象物となるマーカーの色などの画像中における特徴量により、撮像装置2から出力された画像のうち、マーカーの部分を他の部分から分離して抽出する。重心算出部32は、画像抽出部31で抽出されたマーカーの部分の重心値を算出し、特徴量検出部33に出力する。特徴量検出部33は、重心算出部32で算出された重心値の時系列的な変化に基づいて、本発明の特徴量となる対象物の重心の変化を検出する。トリガー情報学習部34は、トリガー入力装置4から出力したトリガーとなる音声および特徴量検出部33で検出された特徴量に基づいて、トリガー情報を学習し、学習モデル記憶部36に出力する。動き検出部35は、特徴量検出部33で検出された特徴量および学習モデル記憶部36に記憶された学習モデルに基づいて、対象物の動きを検出する。学習モデル記憶部36は、トリガー情報学習部34で学習したトリガー情報を学習モデルとして記憶しており、トリガー情報を動き検出部35に出力する。
次に、本実施形態に係る動き認識装置による動き認識方法について説明する。本実施形態に係る動き認識装置U3では、トリガー情報を学習して記憶する工程と、学習して記憶したトリガー情報に基づいて、動き認識を行う工程とにそれぞれ特徴がある。まず、そのうちのトリガー情報を記憶する工程について図13〜図16を参照して説明する。図14は、本発明の第3の実施形態に係る動き認識方法におけるトリガー情報学習記憶工程を示すフローチャートである。
トリガー情報を学習し記憶する際には、図14に示すように、まず、撮像装置2で撮像した画像を演算装置30の画像抽出部31に出力する(S31)。画像抽出部31では、出力された画像を色空間に変換する(S32)。続いて、画像を変換して得られた色空間から、タクトの先端に設けられた対象物となるマーカーの色領域を抽出する(S33)。この抽出された色領域は、画像抽出部31から重心算出部32に出力される。重心算出部32では、出力された色領域に基づいて、マーカーの色領域の重心値を算出する(S34)。重心算出部32は、算出した重心値を特徴量検出部33に出力する。特徴量検出部33では、出力された重心値に基づいて、マーカーの特徴量の変化となる重心値の移動量の時系列的な変化を検出し、トリガー情報学習部34および動き検出部35に出力する。
その一方、トリガー入力装置4では、トリガーとなる音声が入力されたときには、音声入力信号を演算装置30におけるトリガー情報学習部34に出力する。トリガー情報学習部34には、特徴量検出部33からマーカーの特徴量が出力されるとともに、トリガー入力装置4が所定の音声を入力した際に音声入力信号がトリガーとしてトリガー入力装置4から出力される。トリガー情報学習部34では、トリガー入力装置4からのトリガーの出力があったか否かを判断する(S35)。その結果、トリガーが出力されなかった場合には、ステップS31に戻り、同様の手順を繰り返す。一方、トリガーが出力された場合には、トリガー情報を学習する(S36)。
ここでいうトリガー情報について、図15、図16を参照して説明する。図15(a)は、4拍子でタクトを振る状態を撮像した画像を示した図、(b)は、(a)に示す画像を色空間変換し、マーカーの部分の動きを示した画像を示す図、図16は、重心値の経時変化を示すグラフである。図15(a)に示すように、第一フレームF1に表示される手袋Gによって動かされるタクトTの先端に設けられたマーカーMが軌跡Kを描いたとする。この画像を、(b)に示すように色空間に変換した第一色空間変換画像FC1上における軌跡K上をマーカーが移動する際に、所定の音声の入力があったときの位置を軌跡Kの点T1〜T5にそれぞれ示す。そして、このような軌跡K上をマーカーMが通過した際のマーカーMにおける特徴量としての重心座標値の時系列的な波形の変化を図16に示す。縦軸にとる重心値の座標は、たとえば画像上のXY座標のいずれでも良いし、それらを加減した座標でもよい。マーカーMの重心値が図16に示す波形Wのように経時変化するとともに、点T1〜T5のそれぞれにトリガーの入力があったとする。この場合に、トリガーの入力があった際の直前における一定時間の波形をトリガー情報(正解情報)の学習モデル(特徴量関連情報)として学習する。具体的に、最初にトリガー入力があった点T1の直前一定時間の実線で示す波形W(+1)を正解情報(+1)の学習モデルとする。また、波形W1のさらに直前における破線で示す波形W(−1)を正解情報(−1)の学習モデルとする。同様に、次のトリガー入力があった点T2の直前一定時間の実線で示す波形W(+2)を正解情報(+2)の学習モデルとし、その直前の破線で示す波形W(−2)を正解情報(−2)の学習モデルとしてそれぞれ学習する。同様にして波形W(+3)、W(+5)を、それぞれ正解情報(+3)、(+5)の学習モデルとし、波形W(−3)、W(−5)を、それぞれ正解情報(−3)、(−5)とする。ただし、点T4のように、トリガー入力があった後、所定時間が経過する前に再びトリガー入力があった場合には、安定したデータが得られない可能性がある。したがって、この場合の波形W4は、学習モデルとして学習することなく破棄する。このようにしてトリガー情報を学習する。
こうして、トリガー情報を学習したら、トリガー情報学習部34は、学習したトリガー情報を学習モデル記憶部36に出力する。学習モデル記憶部36では、出力されたトリガー情報を学習モデルとして追加して記憶する(S37)。こうして、トリガー情報を学習して記憶する工程が終了する。
次に、学習して記憶したトリガー情報に基づいて、動き認識を行う工程について図13および図17を参照して説明する。図17は、本実施形態に係る動き認識方法における動き認識を行う工程を示すフローチャートである。図17に示すように、動き認識を行う際には、まず、学習モデル記憶部36から動き検出部35に対して学習モデルを出力する(S41)。このとき、動き検出部35には、複数の学習モデルが出力される。次に、撮像装置2で撮像した画像を画像抽出部31に出力する(S42)。続いて、画像抽出部31では、出力された画像を色空間に変換する(S43)。さらに、画像を変換して得られた色空間から、タクトの先端に設けられた対象物となるマーカーの色領域を抽出する(S44)。抽出された色領域は、画像抽出部31から重心算出部32に出力される。重心算出部32では、出力された色領域から、マーカーの色領域の重心値を算出する(S45)。重心算出部32は、算出した重心値を特徴量検出部33に出力する。
特徴量検出部33では、では、複数のフレームの重心値があるか否かを判断する(S46)。その結果、複数のフレームがない場合には、ステップS42に戻って同様の処理を繰り返す。一方、複数のフレームがある場合には、複数のフレームにおけるマーカーの重心値から、マーカーの特徴量となる重心値の変化を求め、動き検出部35に出力する。動き検出部35では、特徴量検出部33から検出された特徴量および学習モデル記憶部36から出力された学習モデルを比較する(S47)。この学習モデルとの比較を行うことにより、ノイズやぶれによる特徴量の変動を補償しながらマーカーの動きを検出することができる。
このようにして、あらかじめ求めた学習モデルと比較しながらマーカーの動きを検出しているので、高い精度で対象物であるマーカーの動きを検出することができる。また、時系列の動き情報に時間関数をあてはめるなどの処理を必要としないので、高い精度でマーカーの動きを認識することができる。
次に、本発明の第4の実施形態について説明する。図18は、本発明の第4の実施形態に係る動き認識装置のブロック構成図である。図18に示すように、本実施形態に係る動き認識装置U4は、演算装置40を有しており、演算装置40は、画像抽出部41、重心算出部42、本実施形態におけるであるトリガー情報学習部44、動き検出部45、学習モデル記憶部46、および本実施形態における特徴量関連情報破棄手段であるトリガー情報廃棄部47を備えている。
また、演算装置40には、撮像装置2、表示装置3、およびトリガー入力装置4が接続されている。撮像装置2は、タクト、タクト先端のマーカー、指揮者の手、洋服の袖などを同時に撮像し、演算装置40に出力している。また、表示装置3は、動き認識装置U4で認識されたタクトの動きを表示している。さらに、トリガー入力装置4は、音声を集音しており、所定の音声を入力した際には、音声入力信号を演算装置40に出力する。
演算装置40における画像抽出部41では、タクトの先端に設けられた対象物となるマーカーの色などの画像中における特徴量により、撮像装置2から出力された画像のうち、マーカーの部分を他の部分から分離して抽出する。重心算出部42は、画像抽出部41で抽出されたマーカーの部分の重心値を算出する。特徴量検出部43は、重心算出部32で算出された重心値の時系列的な変化に基づいて、対象物の重心の変化を検出する。トリガー情報学習部44は、トリガー入力装置4から出力したトリガーおよび特徴量検出部43から出力されたマーカーの特徴量に基づいて、トリガー情報を学習し、学習モデル記憶部46に出力する。動き検出部45は、特徴量検出部43から出力された特徴量および学習モデル記憶部46から出力された学習モデルに基づいて、対象物の動きを検出する。学習モデル記憶部46は、トリガー情報学習部44で学習したトリガー情報を学習モデルとして記憶しており、この学習モデルを動き検出部45に適宜出力する。トリガー情報廃棄部47には、トリガー情報学習部44から新たなトリガー情報が学習モデル記憶部46に出力された際に、最も古い学習モデルを学習モデル記憶部46から廃棄信号がトリガー情報学習部44から出力される。トリガー情報廃棄部47は、出力された信号に基づいて、学習モデル記憶部46に記憶された学習モデルのうち、もっとも古い学習モデルを廃棄する。
本実施形態に係る動き認識装置U4では、上記第3の実施形態と同様、トリガー情報を学習して記憶する工程と、学習して記憶したトリガー情報に基づいて、動き認識を行う工程とがある。このうち、上記第3の実施形態と比較して、トリガー情報を学習して記憶する工程が若干異なり、動き認識を行う工程はほとんど同じである。そこで、以下にトリガー情報を学習して記憶する工程について説明する。
図19は、第4の実施形態に係る動き認識方法におけるトリガー情報学習記憶工程を示すフローチャートである。トリガー情報を学習し記憶する際には、図19に示すように、まず、撮像装置2で撮像した画像を演算装置40の画像抽出部41に出力する(S51)。画像抽出部41では、出力された画像を色空間に変換する(S52)。続いて、画像を変換して得られた色空間から、タクトの先端に設けられた対象物となるマーカーの色領域を抽出する(S53)。この抽出された色領域は、画像抽出部41から重心算出部42に出力される。重心算出部42では、出力された色領域に基づいて、マーカーの色領域の重心値を算出する(S54)。重心算出部42は、算出した重心値を特徴量検出部43およびトリガー情報学習部44に出力する。特徴量検出部43では、出力された重心値に基づいて、マーカーの特徴量の変化となる重心値の移動量の時系列的な変化を検出し、トリガー情報学習部44および動き検出部45に出力する。
その一方、トリガー入力装置4では、トリガーとなる音声が入力されたときには、音声入力信号を演算装置40におけるトリガー情報学習部44に出力する。トリガー情報学習部44には、特徴量検出部43からマーカーの特徴量が出力されるとともに、トリガー入力装置4が所定の音声を入力した際に音声入力信号がトリガー入力装置4から出力される。トリガー情報学習部44では、トリガー入力装置4からのトリガー(音声入力信号)の出力があったか否かを判断する(S55)。その結果、トリガーが出力されなかった場合には、ステップS51に戻り、同様の手順を繰り返す。一方、トリガーが出力された場合には、トリガー情報を学習する(S56)。このトリガー情報は、上記第3の実施形態に係るトリガー情報と同様のものである。
こうして、トリガー情報を学習したら、トリガー情報学習部44は、学習したトリガー情報を学習モデル記憶部46に出力する。学習モデル記憶部46では、出力されたトリガー情報を学習モデルとして追加して記憶する(S57)。その一方、トリガー情報学習部44は、学習モデル記憶部46にトリガー情報を出力した際に、トリガー情報学習部44からトリガー情報廃棄部47に廃棄信号が出力される。トリガー情報廃棄部47では、廃棄信号が出力されることにより、学習モデル記憶部46に記憶された学習モデルのうちもっとも古いものを廃棄する(S58)。こうして、トリガー情報を学習して記憶するとともに、古いトリガー情報を廃棄する工程が終了する。
このように、本実施形態に係る動き認識装置U4における動き認識方法では、上記第3の実施形態と同様の作用効果を奏するほか、学習モデルを記憶する際に、古い学習モデルを廃棄している。このため、学習モデルのデータ長を一定にすることができ、演算装置にかかる負荷を軽減することができるので、処理の迅速化を図ることができる。
続いて、本発明の第5の実施形態について説明する。図20は、本発明の第5の実施形態に係る動き認識装置のブロック構成図である。図20に示すように、本実施形態に係る動き認識装置U5は、演算装置50を有しており、演算装置50は、画像抽出部51、重心算出部52、特徴量検出部53、トリガー情報学習部54、動き検出部55、学習モデル記憶部56、および本発明の時間調整手段である判定タイミング調整部57を備えている。また、演算装置50には、撮像装置2、表示装置3、およびトリガー入力装置4が接続されている。撮像装置2は、タクト、タクト先端のマーカー、指揮者の手、洋服の袖などを同時に撮像し、演算装置50に出力している。また、表示装置3は、動き認識装置U5で認識されたタクトの動きを表示している。さらに、トリガー入力装置4は、対象物の特徴量に関連付けられ、かつ対象物の特徴量とは異なる特徴量関連情報である音声を集音している。トリガー入力装置4は、所定の音声を入力した際には、音声入力信号を演算装置50に出力する。
演算装置50における画像抽出部51では、タクトの先端に設けられた対象物となるマーカーの色などの画像中における特徴量により、撮像装置2から出力された画像のうち、マーカーの部分を他の部分から分離して抽出する。重心算出部52は、画像抽出部51で抽出されたマーカーの部分の重心値を算出する。特徴量検出部53は、重心算出部52で算出された重心値の時系列的な変化に基づいて、本発明の特徴量となる対象物の重心の変化を検出する。トリガー情報学習部54は、トリガー入力装置4から出力したトリガーとなる音声および特徴量検出部53で検出されたに基づいて、トリガー情報を学習し、判定タイミング調整部57に出力する。判定タイミング調整部57では、トリガー情報学習部54で学習したトリガー情報に対する一定時間のバイアスを学習し、学習モデル記憶部56に出力する。学習モデル記憶部56は、トリガー情報学習部34で学習したトリガー情報を学習モデルとして記憶しており、この学習モデルを動き検出部35に適宜出力する。動き検出部55は、特徴量検出部で検出された特徴量および学習モデル記憶部56から出力されたトリガー情報に基づいて、対象物の動きを検出する。
次に、本実施形態の動き認識装置における動き認識方法について説明する。図21は、本発明の第5の実施形態に係る動き認識方法におけるトリガー情報学習記憶工程を示すフローチャートである。
トリガー情報を学習し記憶する際には、図21に示すように、まず、撮像装置2で撮像した画像を演算装置50の画像抽出部51に出力する(S61)。画像抽出部51では、出力された画像を色空間に変換する(S62)。続いて、画像を変換して得られた色空間から、タクトの先端に設けられた対象物となるマーカーの色領域を抽出する(S63)。この抽出された色領域は、画像抽出部51から重心算出部52に出力される。重心算出部52では、出力された色領域に基づいて、マーカーの色領域の重心値を算出する(S64)。重心算出部52は、算出した重心値を特徴量検出部53およびトリガー情報学習部54に出力する。特徴量検出部53では、出力された重心値に基づいて、マーカーの特徴量の変化となる重心値の移動量の時系列的な変化を検出し、トリガー情報学習部54および動き検出部55に出力する。
その一方、トリガー入力装置4では、トリガーとなる音声が入力されたときには、音声入力信号を演算装置50におけるトリガー情報学習部54に出力する。トリガー情報学習部54には、特徴量検出部53で検出されたマーカーの特徴量が出力されるとともに、トリガー入力装置4が所定の音声を入力した際に音声入力信号がトリガー入力装置4から出力される。トリガー情報学習部54では、トリガー入力装置4からのトリガー(音声入力信号)の出力があったか否かを判断する(S65)。その結果、トリガーが出力されなかった場合には、ステップS61に戻り、同様の手順を繰り返す。一方、トリガーが出力された場合には、トリガー情報を学習する(S66)。
こうして、トリガー情報を学習したら、トリガー情報学習部54は、学習したトリガー情報を判定タイミング調整部57に出力する。判定タイミング調整部57では、たとえばt時間のバイアスをトリガー情報とともに学習することにより、時間タイミングを調整する(S67)。判定タイミング調整部57は、時間タイミングの調整が行われたトリガー情報を学習モデル記憶部56に出力する。学習モデル記憶部56では、出力されたトリガー情報を学習モデルとして追加して記憶する(S68)。こうして、トリガー情報を学習して記憶する工程が終了する。
続いて、学習して記憶したトリガー情報に基づいて、動き認識を行う工程について図20および図22を参照して説明する。図22は、本実施形態に係る動き認識方法における動き認識を行う工程を示すフローチャートである。図22に示すように、動き認識を行う際には、まず、学習モデル記憶部56から動き検出部55に対して学習モデルを出力する(S71)。このとき、動き検出部55には、複数の学習モデルが出力される。次に、撮像装置2で撮像した画像を画像抽出部51に出力する(S72)。続いて、画像抽出部51では、出力された画像を色空間に変換する(S73)。さらに、画像を変換して得られた色空間から、タクトの先端に設けられた対象物となるマーカーの色領域を抽出する(S74)。抽出された色領域は、画像抽出部51から重心算出部52に出力される。重心算出部52では、出力された色領域から、マーカーの色領域の重心値を算出する(S75)。重心算出部52は、算出した重心値を特徴量検出部53に出力する。
特徴量検出部53では、では、複数のフレームの重心値があるか否かを判断する(S76)。その結果、複数のフレームがない場合には、ステップS72に戻って同様の処理を繰り返す。一方、複数のフレームがある場合には、複数のフレームにおけるマーカーの重心値から、マーカーの特徴量となる重心値の変化を求め、動き検出部55に出力する。
動き検出部55では、特徴量検出部53から検出された特徴量および学習モデル記憶部56から出力された学習モデルを比較する(S77)。この学習モデルとの比較を行うことにより、ノイズやぶれによる特徴量の変動を補償しながらマーカーの動きを検出することができる。また、ここで、動き検出部55に出力されたトリガー情報には、t時間のバイアスがともに学習されている。このため、たとえば図23に示すように、バイアス中にあるt時間内に学習モデルに相当する変化が特徴量の変化に見られた場合には、この特徴量の変化に相当する部分が、トリガーに対応する部分であると判断することができる。したがって、このような特徴量の変化が見られた部分をトリガーがあった部分と判断することにより、タイミング調整を行うことができる。
このようにして、あらかじめ求めた学習モデルと比較しながらマーカーの動きを検出しているので、高い精度で対象物であるマーカーの動きを検出することができる。また、時系列の動き情報に時間関数をあてはめるなどの処理を必要としないので、高い精度でマーカーの動きを認識することができる。
次に、本発明の第6の実施形態について説明する。本実施形態および第7の実施形態については、車両を運転するドライバの動きを例にとって説明する。ドライバが車両を運転する際には、ハンドルの動きとそれを操作する手の動きと顔向きとの間に最適な関係があると考えられる。本実施形態では、それらを統合的に1つの特徴量として考え、顔を対象物とし、顔の動き(顔向き)に関連するとともに顔の変位と異なる変位が生じるハンドルとそれを操作する手を関連変位物体とする。
図24は、第6の実施形態に係る動き認識装置のブロック構成図、図25は、撮像装置を配置した車両内の状態を示す模式図である。図24に示すように、本実施形態に係る動き認識装置U6は、演算装置60を有しており、演算装置60は、ハンドル画像抽出部61、アフィン変換部62、肌色領域抽出部63、ハンドル−手距離算出部64、右手・左手判定部65、顔画像抽出部66、顔向き判定部67、特徴量検出部68、および動き検出部69を備えている。また、演算装置60には、撮像装置2、ハンドル角度検出センサ5、および出力装置6が接続されている。
撮像装置2は、図25に示すように、車両の天井部に取り付けられており、本実施形態における動き認識の対象物となるドライバの顔の動きに関連する関連物体であるドライバの右手RH、左手LH、ハンドルST、およびドライバの顔FAなどを上方から撮像し、演算装置60に出力している。また、ハンドル角度検出センサ5は、たとえばハンドルSTに接続された図示しないステアリングロッドに取り付けられており、ハンドルSTの切り角を検出し、演算装置60に出力している。さらに、出力装置6は、演算装置60で認識されたドライバの右手RH、左手LHなどの動きに基づいて判断された車両の動きに危険があり、警告信号が演算装置60から出力されたときに警報を発する。
演算装置60におけるハンドル画像抽出部61では、撮像装置2から出力された画像のうち、手HやハンドルSTの部分の画像中における特徴量、たとえば色を算出して、手の部分を他の部分から分離して抽出する。アフィン変換部62では、ハンドル画像抽出部61で抽出された手およびハンドルの部分をアフィン変換して、手およびハンドルを正面から見た状態に変換する。肌色領域抽出部63では、アフィン変換された画像から、肌色に相当する部分を抽出する。ハンドル−手距離算出部64では、抽出された肌色部分とハンドルの中心との距離から、ハンドルの中心と手との距離を算出する。右手・左手判定部65では、抽出された肌色領域が、右手に相当するものであるか左手に相当するものであるかを判断する。
また、顔画像抽出部66には、撮像装置2で撮像された画像が出力される。顔画像抽出部66では、出力された画像中における顔に相当する部分が画面中の特徴量を算出するなどの手段で検出し、顔向き判定部67に出力する。顔向き判定部67では、抽出された顔画像に基づいて、運転者の顔の向きを判定する。特徴量検出部68は、ハンドルの中心と手との距離、右手であるか左手であるか、顔向きなどの情報に基づいて、顔の動きの特徴量を検出して、動き検出部69に出力する。動き検出部69では、右手・左手判定部65から出力される右手・左手情報、顔向き判定部67から出力される顔向き情報、およびハンドル角度検出センサ5から出力されるハンドル角度情報に基づいて、車両の動きを検出している。また、この車両の動きに危険があると判断したときには、出力装置6に警告信号を出力する。
次に、本実施形態に係る動き認識装置を用いた動き認識方法について、主に図24〜図29を参照して説明する。図26は、本実施形態に係る動き認識方法の手順を示すフローチャートである。図26に示すように、まず、撮像装置2で撮像した画像の1つのフレームを演算装置60のハンドル画像抽出部61および顔画像抽出部66に出力する(S81)。ハンドル画像抽出部61では、図25に示すように、上方から撮像したハンドルST近傍の部分を抽出し、その後にアフィン変換部62に出力する。アフィン変換部62では、出力されたハンドルST近傍の画像をアフィン変換する(S82)。図27に示すように、アフィン変換前のハンドルST部分の画像FBでは、上方から撮像された画像であるため、ハンドルSTがだ円形をなした状態で撮像されている。この画像をアフィン変換すると、図28に示すアフィン変換画像FHのように、ハンドルSTが円形となる。続いて、アフィン変換が済んだら、アフィン変換画像を肌色領域抽出部63に出力する。肌色領域抽出部63では、出力された画像から肌色領域を抽出する(S83)。アフィン変換した画像において肌色領域を抽出したら、肌色領域抽出部63からハンドル−手距離算出部64に肌色領域の情報が出力される。ハンドル−手距離算出部64では、ハンドルSTの座標と、抽出された肌色領域の座標とによって、ハンドルSTの中心から検出された肌色領域までの距離を算出する(S84)。撮像装置2で撮像された肌色領域は、手の部分であると推定することができるので、ハンドルSTの中心から肌色領域までの距離は、ハンドルSTの中心から手までの距離と考えることができる。また、画像はアフィン変換されていることから、ここで算出された距離は、実際の距離に近いものとなる。そして、この距離がハンドルSTの半径よりも大きい場合には、ドライバはハンドルSTから手を離していることになる。一方、ハンドルSTの半径よりも小さい場合にも、ハンドルから手を離している可能性があるものとなる。
また、肌色領域の情報は、右手・左手判定部65に出力される。右手・左手判定部65では、アフィン変換した画像から抽出した肌色領域について、右手・左手判定部65において、抽出された肌色領域が右手のものであるか左手のものであるかを判定する(S85)。右手と左手との判定は、次のようにして行う。まず、図28に一点鎖線で示すように、アフィン変換された画像FHの幅方向の中央にハンドル対称線Xを設定する。このハンドル対象線よりも右側で、たとえば図29(a−1)に示すような手HおよびハンドルSTなどが撮像された画像があるとする。このとき、肌色領域を検出すると、手Hが検出される。続いて、図29(a−1)に示すように、この画像をエッジ処理した後、手Hにおける輪郭以外の部分のエッジ部分Eを検出する。このエッジ部分Eの角度により、右手か左手かを検出する。図29(a−2)に示すように、エッジ部分Eの角度がハンドル対称線の平行な線X1に対して、中央下側の角度θが鋭角である場合には、右手であると判断することができる。逆に、図29(b−1)に示すような手Hについて、図29(b−2)に示すようにエッジ処理した画像が得られたとする。このように、ハンドル対称線Xに対して、中央下側の角度θが鈍角である場合には、左手であると判定することができる。ハンドル対称線Xの左側では、これと反対の判定を行うことができる。すなわち、エッジ部分とハンドル対称線とのなす角のうち、中央下側が鈍角である場合には左手、中央下側が鋭角である場合には、右手であると判定することができる。こうして、撮像された肌色部分が右手であるか左手であるかを判定したら、その判定結果が特徴量検出部68に出力される。特徴量検出部68では、肌色領域が算出された位置およびその肌色領域が右手であるか左手であるかに基づいて、ハンドル角度が判定される(S86)。撮像装置2で撮像された画像において、たとえば左手が左側にあるときには、車両は直進していることが多い。また、右側に左手がある場合には、ハンドルが右に切られていることが多い。具体的なハンドルの切り角については、別途ハンドル角度検出センサ5によって検出され、動き検出部69に出力される。
このようなハンドル角度の判定を行う一方、顔画像抽出部66では、撮像装置2から出力された画像から、ドライバの顔部分を抽出する(S87)。抽出した画像中における顔部分は、顔向き判定部67に出力される。顔向き判定部67では、出力された画像中における顔部分の形状等に基づいて、顔向きを判定する(S88)。顔向きを判定したら、判定結果を特徴量検出部68に出力する。他方、動き検出部69には、ハンドル角度検出センサ5で検出されたハンドル角度が入力される。
特徴量検出部68では、ハンドル角度や手の位置、さらには顔向きに基づいて、特徴量を算出し(S89)、動き検出部69に出力する。動き検出部69では、出力された特徴量に基づいて、ドライバの顔向きの変化からドライバの運転状況を予測し、車両に危険があるか否かの判断を行う(S90)。車両の危険の有無は、特徴量から次のように判断される。たとえば、ハンドルSTが切られていないのに顔向きが左右のいずれかを向いている場合や、ハンドルSTが右に切られているときに顔向きが左である場合には危険があると判断する。なお、ハンドル角度については、ハンドル角度検出センサ5から出力されるハンドル角度によって検証することができる。
このような危険が有るか否かの判断の結果、危険がないと判断した場合には、ステップS71の戻って、同様の処理を繰り返す。一方、危険があると判断した場合には、動き検出部69は、出力装置6に警告信号を出力し、出力装置6は、警報などの警告を施す(S91)。
このようにして、ハンドル角度、ハンドルを操作する手の動き、および顔向きに基づいて求められた特徴量によって動き検出を行うことにより、ドライバの顔向きを確実に検出することができる。したがって、より確実な運転状況予測を行うことができる。
次に、本発明の第7の実施形態について説明する。図30は、本発明の第7の実施形態に係る動き認識装置のブロック構成図である。図30に示すように、本実施形態に係る動き認識装置U7は、演算装置70を備えており、ハンドル画像抽出部71、トリガー情報学習部72、学習モデル記憶部73、ハンドル−手距離算出部74、右手・左手判定部75、顔画像抽出部76、顔向き判定部77、特徴量検出部78、および動き検出部79を備えている。また、演算装置70には、撮像装置2、トリガー入力装置4、ハンドル角度検出センサ5、および出力装置6が接続されている。
撮像装置2は、第6の実施形態と同様に、図25に示すように、車両の天井部に取り付けられており、本実施形態における動き認識の対象物となるドライバの右手RH、左手LH、ハンドルST、およびドライバの顔FAなどを上方から撮像し、演算装置70に出力している。また、トリガー入力装置4は、ドライバが足で操作するブレーキペダルと接続されており、ブレーキペダルが操作された際に、トリガー信号を演算装置70に出力する。ハンドル角度検出センサ5は、たとえばハンドルSTに接続された図示しないステアリングロッドに取り付けられており、ハンドルSTの切り角を検出し、演算装置70に出力している。さらに、出力装置6は、演算装置70で認識されたドライバの右手RH、左手LHなどの動きに基づいて判断された車両の動きに危険があり、警告信号が演算装置70から出力されたときに警報を発する。
演算装置70におけるハンドル画像抽出部71では、撮像装置2から出力された画像のうち、手HやハンドルSTの部分の画像中における特徴量、たとえば色を算出して、手の部分を他の部分から分離して抽出する。トリガー情報学習部72は、トリガー入力装置4から出力したトリガーとなる音声および特徴量検出部78で検出された特徴量に基づいて、トリガー情報を学習し、学習モデル記憶部73に出力する。学習モデル記憶部73は、トリガー情報学習部72で学習したトリガー情報を学習モデルとして記憶しており、トリガー情報を動き検出部79に出力する。
ハンドル−手距離算出部74では、図示しないアフィン変換部で手およびハンドルの部分にアフィン変換され、肌色領域抽出部で肌色領域抽出された画像における抽出された肌色部分とハンドルの中心との距離から、ハンドルの中心と手との距離を算出する。右手・左手判定部75では、抽出された肌色領域が、右手に相当するものであるか左手に相当するものであるかを判断する。
また、顔画像抽出部76には、撮像装置2で撮像された画像が出力される。顔画像抽出部76では、出力された画像中における顔に相当する部分が画面中の特徴量を算出するなどの手段で検出し、顔向き判定部77に出力する。顔向き判定部77では、抽出された顔画像に基づいて、運転者の顔の向きを判定する。特徴量検出部78は、ハンドルの中心と手との距離、右手であるか左手であるか、顔向きなどの情報に基づいて、顔の動きの特徴量を検出して、動き検出部79に出力する。動き検出部79では、右手・左手判定部75から出力される右手・左手情報、顔向き判定部77から出力される顔向き情報、およびハンドル角度検出センサ5から出力されるハンドル角度情報に基づいて、車両の動きを検出している。また、この車両の動きに危険があると判断したときには、出力装置6に警告信号を出力する。
次に、本実施形態に係る動き認識装置による動き認識方法について説明する。本実施形態に係る動き認識方法では、トリガー情報を自動的に学習して記憶するとともに、学習して記憶したトリガー情報に基づいて、動き認識を行うものである。トリガー情報の学習は図31に示す工程に沿って行われる。図31は、本発明の第7の実施形態に係る動き認識方法におけるトリガー情報学習記憶工程を示すフローチャートである。
トリガー情報を学習し記憶する際には、図31に示すように、まず、撮像装置2で撮像した画像の1つのフレームを演算装置70のハンドル画像抽出部71および顔画像抽出部76に出力する(S101)。ハンドル画像抽出部71では、図25に示すように、上方から撮像したハンドルST近傍の部分を抽出する。この抽出されたハンドルST付近の画像の上記第6の実施形態と同様のアフィン変換、肌色領域抽出を行った後、ハンドル−手距離算出部74において、ハンドルSTの座標と、抽出された肌色領域の座標とによって、ハンドルSTの中心から検出された肌色領域までの距離を算出する(S102)。一方、右手・左手判定部75では、上記第6の実施形態と同様にして、アフィン変換した画像から抽出した肌色領域について、右手・左手判定部75において、抽出された肌色領域が右手のものであるか左手のものであるかを判定する(S103)。さらに、特徴量検出部78では、肌色領域が算出された位置およびその肌色領域が右手であるか左手であるかに基づいて、ハンドル角度が算出される(S104)。
一方、顔画像抽出部76では、撮像装置2から出力された画像から、ドライバの顔部分を抽出する(S105)。抽出した画像中における顔部分は、顔向き判定部77に出力される。顔向き判定部77では、出力された画像中における顔部分の形状等に基づいて、顔向きを判定する(S106)。顔向きを判定したら、判定結果を特徴量検出部78に出力する。
特徴量検出部68では、ハンドル角度や手の位置、さらには顔向きに基づいて、特徴量を算出し(S107)、トリガー情報学習部72に出力する。また、トリガー情報学習部72には、トリガー入力装置4からのトリガー信号が出力される。トリガー情報学習部72では、トリガー入力装置4からのトリガーの出力があったか否かを判断する(S108)。その結果、トリガーが出力されなかった場合には、ステップS31に戻り、同様の手順を繰り返す。一方、トリガーが出力された場合には、トリガー情報を学習する(S109)。
ここでいうトリガー情報について、図32および図33を参照して説明する。図32に模式的に示すように、車両にはアクセルペダルAPおよびブレーキペダルBPが設けられており、ドライバは、通常右足RFで示すように、アクセルペダルAPおよびブレーキペダルPBを操作する。また、左足LFは利用されない。このうちのブレーキペダルBPが操作された(踏まれた)ときに、トリガー入力装置4にブレーキ信号が出力される。このブレーキ信号が出力されたトリガー入力装置4は、演算装置70におけるトリガー情報学習部72に出力する。また、トリガー情報学習部72には、特徴量検出部78から特徴量信号が一定間隔をおいて出力されており、その特徴量の変化を記憶している。たとえば、その特徴量の変化が、図33に示すグラフWのようになる。このグラフは、説明の便宜上図16に示すグラフと同一の波形を有しているが、実際には異なる波形となることがあるのはいうまでもない。図33において、時刻A,Bの点でブレーキペダルBPの操作があったことを意味しているが、時刻Aは、前の時刻Bから経過した時間が短いことから、時刻Aにおけるデータは破棄されている。
このような波形を有するグラフに対して、トリガー入力装置4からトリガーが信号出力された際には、トリガーの入力があった際の直前における一定時間の波形をトリガー情報(正解情報)の学習モデル(特徴量関連情報)として学習する。学習モデルの態様は、上記第3の実施形態に示す態様と同様であり、たとえばW(+1)〜W(+3)、W(+5)、W(−1)〜W(−3)、W(−5)などを学習モデルとすることができる。
こうして、トリガー情報を学習したら、トリガー情報学習部72は、学習したトリガー情報を学習モデル記憶部73に出力する。学習モデル記憶部73では、出力されたトリガー情報を学習モデルとして追加して記憶する(S110)。こうして、トリガー情報を学習して記憶する工程が終了する。
また、動き認識装置U7では、学習して記憶したトリガー情報に基づいて、動き認識を行う。この動き認識は、上記第6の実施形態と同様に、図26に示す手順によって行われる。ただし、本実施形態では、ステップS95における危険があるか否かを判断する際に、特徴量のみならず、特徴量およびトリガー情報から学習した学習モデルを利用する。このように、学習モデルを利用することにより、さらに高い精度で危険を検出することができる。なお、本実施形態では、トリガー信号としてブレーキペダルの操作を利用しているが、たとえばアクセルペダルの操作や両方のペダルの操作をトリガー信号として利用することもできる。
また、本実施形態に係る動き認識装置において、第4の実施形態のようなトリガー情報破棄手段を設ける態様とすることもできる。このようなトリガー情報廃棄手段を設けることにより、学習モデルのデータ長を一定にすることができ、演算装置にかかる負荷を軽減することができるので、処理の迅速化を図ることができる。さらには、上記第5の実施形態のように、判定タイミング調整手段を設ける態様とすることもできる。このような判定タイミング調整手段を設けることにより、バイアス中にあるt時間内に学習モデルに相当する変化が特徴量の変化に見られた場合には、この特徴量の変化に相当する部分が、トリガーに対応する部分であると判断することができる。したがって、このような特徴量の変化が見られた部分をトリガーがあった部分と判断することにより、タイミング調整を行うことができる。
1…演算装置、2…撮像装置、3…表示装置、4…トリガー入力装置、5…ハンドル角度検出センサ、6…出力装置、11…画像抽出部、12…重心算出部、13…動き検出部、23…エッジ検出部、24…形状算出部、33…特徴量検出部、34…トリガー情報学習部、36…学習モデル記憶部、47…トリガー情報廃棄部、57…判定タイミング調整部、61…ハンドル画像抽出部、62…アフィン変換部、63…肌色領域抽出部、64…手距離算出部、65…右手・左手判定部、66…顔画像抽出部、67…顔向き判定部、U1〜U7…動き認識装置。
Claims (14)
- 対象物および前記対象物の動きに関連するとともに前記対象物の変位と異なる変位が生じる関連変位物体を撮像する撮像手段と、
前記撮像手段で撮像された前記対象物および関連変位物体の部分を抽出する物体部分抽出手段と、
前記対象物および関連変位物体の部分の変化に基づいて、前記対象物の動きを検出する動き検出手段と、
を備えることを特徴とする動き認識装置。 - 前記物体部分抽出手段で抽出された対象物および関連変位物体の重心を求める重心算出手段を備え、
前記対象物および関連変位物体の変化が、前記重心算出手段で求められた前記対象物および関連変位物体の重心の変化である請求項1に記載の動き認識装置。 - 対象物を撮像する撮像手段と、
前記撮像手段で撮像された前記対象物の部分を抽出する物体部分抽出手段と、
前記物体部分抽出手段で検出された対象物の重心を求める重心算出手段と、
前記物体部分抽出手段で抽出された対象物のエッジを検出するエッジ検出手段と、
前記重心算出手段で求められた前記対象物の重心および前記エッジ検出手段で求められた前記対象物のエッジに基づいて、前記対象物の形状を検出する対象物形状算出手段と、
前記対象物形状検出手段で検出された前記対象物の形状に基づいて、前記対象物の動きを検出する動き検出手段と、
を備えることを特徴とする動き認識装置。 - 対象物を撮像する撮像手段と、
前記対象物の動きに基づく特徴量を検出する特徴量検出手段と、
前記対象物の特徴量に関連付けられ、かつ前記対象物の特徴量とは異なる特徴量関連情報を検出する関連情報検出手段と、
前記特徴量と前記特徴量関連情報との関連を学習する特徴量関連情報学習手段と、
前記特徴量関連情報を記憶する特徴量関連情報記憶手段と、
前記対象物の動きに基づく特徴量と前記特徴量関連情報との比較に基づいて、前記対象物の動きを検出する動き検出手段と、
を備えることを特徴とする動き認識装置。 - 前記特徴量関連情報学習手段が、新しい特徴量関連情報を学習したときに、既に学習した特徴量関連情報を破棄する特徴量関連情報破棄手段を備える請求項4に記載の動き認識装置。
- 前記特徴量関連情報を古い順に破棄する請求項5に記載の動き認識装置。
- 前記特徴量と、前記特徴量関連情報との関係のタイミングを調整する時間調整手段を備える請求項4〜請求項6のうちのいずれか1項に記載の動き認識装置。
- 対象物および前記対象物の動きに関連するとともに前記対象物の変位と異なる変位が生じる関連変位物体を撮像し、
撮像された前記対象物および関連変位物体の部分を抽出し、
前記対象物および関連変位物体の部分の変化に基づいて、前記対象物の動きを検出して、前記対象物の動きを認識することを特徴とする動き認識方法。 - 抽出された前記対象物および関連変位物体の重心を求め、
対象物および関連変位物体の重心の変化に基づいて、前記対象物の動きを検出して、前記対象物の動きを認識する請求項1に記載の動き認識方法。 - 対象物を撮像し、
撮像された前記対象物の部分を抽出し、
抽出された対象物の重心を求め、
前記対象物のエッジを検出し、
前記対象物の重心およびエッジに基づいて、前記対象物の形状を検出し、
対象物の形状に基づいて、前記対象物の動きを検出して、前記対象物の動きを認識することを特徴とする動き認識方法。 - 対象物を撮像し、
前記対象物の動きに基づく特徴量を検出し、
前記対象物の特徴量に関連付けられ、かつ前記対象物の特徴量とは異なる特徴量関連情報を検出し、
前記特徴量と前記特徴量関連情報との関連を学習し、
前記特徴量関連情報を記憶し、
前記対象物の動きに基づく特徴量と前記特徴量関連情報との比較に基づいて、前記対象物の動きを検出して、前記対象物の動きを認識することを特徴とする動き認識方法。 - 前記特徴量関連情報学習手段が、新しい特徴量関連情報を学習したときに、既に学習した特徴量関連情報を破棄する請求項11に記載の動き認識方法。
- 前記特徴量関連情報を古い順に破棄する請求項12に記載の動き認識方法。
- 前記特徴量と、前記特徴量関連情報との関係のタイミングを調整する請求項11〜請求項13のうちいずれか1項に記載の動き認識方法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003284299A JP2005050284A (ja) | 2003-07-31 | 2003-07-31 | 動き認識装置および動き認識方法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003284299A JP2005050284A (ja) | 2003-07-31 | 2003-07-31 | 動き認識装置および動き認識方法 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2005050284A true JP2005050284A (ja) | 2005-02-24 |
Family
ID=34268951
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003284299A Pending JP2005050284A (ja) | 2003-07-31 | 2003-07-31 | 動き認識装置および動き認識方法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2005050284A (ja) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005047329A (ja) * | 2003-07-31 | 2005-02-24 | Nissan Motor Co Ltd | 車輌用入力装置 |
| WO2014128788A1 (ja) * | 2013-02-19 | 2014-08-28 | 株式会社ブリリアントサービス | 形状認識装置、形状認識プログラム、および形状認識方法 |
| JP2015118473A (ja) * | 2013-12-17 | 2015-06-25 | 日本電信電話株式会社 | 特徴抽出装置、方法、及びプログラム |
| JP2018152037A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 運転者監視装置、運転者監視方法、学習装置及び学習方法 |
-
2003
- 2003-07-31 JP JP2003284299A patent/JP2005050284A/ja active Pending
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005047329A (ja) * | 2003-07-31 | 2005-02-24 | Nissan Motor Co Ltd | 車輌用入力装置 |
| WO2014128788A1 (ja) * | 2013-02-19 | 2014-08-28 | 株式会社ブリリアントサービス | 形状認識装置、形状認識プログラム、および形状認識方法 |
| JPWO2014128788A1 (ja) * | 2013-02-19 | 2017-02-02 | 株式会社ブリリアントサービス | 形状認識装置、形状認識プログラム、および形状認識方法 |
| US9778464B2 (en) | 2013-02-19 | 2017-10-03 | Mirama Service Inc. | Shape recognition device, shape recognition program, and shape recognition method |
| JP2015118473A (ja) * | 2013-12-17 | 2015-06-25 | 日本電信電話株式会社 | 特徴抽出装置、方法、及びプログラム |
| JP2018152037A (ja) * | 2017-03-14 | 2018-09-27 | オムロン株式会社 | 運転者監視装置、運転者監視方法、学習装置及び学習方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11789545B2 (en) | Information processing device and method, program and recording medium for identifying a gesture of a person from captured image data | |
| JP4881766B2 (ja) | カメラ間連結関係情報生成装置 | |
| JP4203512B2 (ja) | 車両周辺監視装置 | |
| US7593552B2 (en) | Gesture recognition apparatus, gesture recognition method, and gesture recognition program | |
| JP4884331B2 (ja) | 移動物体追跡装置 | |
| JP4874150B2 (ja) | 移動物体追跡装置 | |
| US20130215270A1 (en) | Object detection apparatus | |
| JP6570786B2 (ja) | 動作学習装置、技能判別装置および技能判別システム | |
| JP4153818B2 (ja) | ジェスチャ認識装置、ジェスチャ認識方法及びジェスチャ認識プログラム | |
| JP2009510541A (ja) | オブジェクト追跡方法及びオブジェクト追跡装置 | |
| JP4969291B2 (ja) | 移動物体追跡装置 | |
| WO2006030633A1 (ja) | 物体検出装置 | |
| JP2013093639A (ja) | 車両周辺監視装置 | |
| JP2008288684A (ja) | 人物検出装置及びプログラム | |
| JP2011089784A (ja) | 物体方向推定装置 | |
| JP7102383B2 (ja) | 路面画像管理システム及びその路面画像管理方法 | |
| JP5100688B2 (ja) | 対象物検出装置及びプログラム | |
| JP2005050284A (ja) | 動き認識装置および動き認識方法 | |
| JP2011221699A (ja) | 操作指示認識装置及びロボット | |
| JP4687506B2 (ja) | オブジェクトサイズ算出装置、それを用いたオブジェクト検索装置およびオブジェクト分類装置ならびにオブジェクトサイズ算出方法 | |
| KR101976498B1 (ko) | 차량용 제스처 인식 시스템 및 그 방법 | |
| JP5120627B2 (ja) | 画像処理装置および画像処理プログラム | |
| JPH1044824A (ja) | 車両運転者の開閉眼判定装置 | |
| JP2010128961A (ja) | 画像監視装置 | |
| JP6265370B2 (ja) | 対象物追跡方法及び対象物追跡システム |