WO2019155570A1

WO2019155570A1 - 視線推定装置、視線推定方法、および記録媒体

Info

Publication number: WO2019155570A1
Application number: PCT/JP2018/004370
Authority: WO
Inventors: 雄介森下
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2019-08-15
Anticipated expiration: 2020-08-08
Also published as: JP7040539B2; JPWO2019155570A1

Abstract

人物の目の形状によらず、人物の視線を高精度に推定する。画像取得部（１１０）は、人物の顔を含む画像を取得する。目検出部（１２０）は、画像から目を検出する。特徴量計算部（１３０）は、目の形状に関する特徴量、例えば目の大きさまたは傾き、を計算する。正規化部（１４０）は、各画像から目を含む領域を抽出して、目の形状に関する特徴量が平準化されるように、抽出した画像を変換する。視線推定部（１５０）は、変換した画像を用いて視線を推定する。

Description

視線推定装置、視線推定方法、および記録媒体

　本開示は、視線推定装置、視線推定方法、および記録媒体に関し、特に、撮影画像に含まれる人物の視線を推定する視線推定装置に関する。

　人物の視線（目が見ている方向）は、その人物の行動や意図を解析する上で重要な手掛かりとなり得る。例えば、人物の視線から、その人物が注視している物体または事象を特定することができる。人物の視線を推定する技術、特に、人物の顔を含む画像（以下「顔画像」と呼ぶ。）を用いて、人物の視線を推定する技術が開発されている。

　顔画像に基づいて視線を推定する技術が、例えば、特許文献１～３、および非特許文献１～２に記載されている。特許文献１は、顔画像に含まれる特徴点（画像特徴点）を用いて、視線を推定する方法（feature-based methods）を開示している。非特許文献１は、ただ１つの目を含む顔画像から、視線を推定する方法を開示している。

　また、特許文献２および非特許文献２は、「見た目に基づく視線の推定」（appearance-based gaze estimation）の例を、それぞれ開示している。例えば、特許文献２では、与えられた顔画像のデータセットを用いて、ＣＮＮ（Convolutional neural network）モデルに基づく深層学習を行うことにより、顔と視線の関係を学習する。

特許第４８２９１４１号公報特開２００９－０５９２５７号公報特許第５７７２８２１号公報国際公開第２００８／００７７８１号特開２０１４－２１００７６号公報特開２００８－２１０２３９号公報特開２０００－３３９４５７号公報

J. Wang, E. Sung, and R. Venkateswarlu, "Eye Gaze Estimation from a Single Image of One Eye," Proc. IEEE ICCV 2003, pp.I－136－143, 2003. X. Zhang, Y. Sugano, M. Fritz and A. Bulling, "Appearance-Based Gaze Estimation in the Wild," Proc. IEEE CVPR 2015, pp. 4511-4520, 2015.

　上述した関連する技術には、人物の目の形状の違いによって、視線の推定の精度が変動するという問題がある。例えば、特許文献２に開示された技術では、目の大きい人物の視線を精度よく推定できるが、目の小さい人物の視線を精度よく推定できないといった問題が生じ得る。すなわち、上述した関連する技術は、目の形状に関する特徴量（例えば、大きさ、傾き）によらず、視線を高精度に推定することが困難である。

　本発明は上記の課題に鑑みてなされたものであり、その目的は、人物の目の形状によらず、人物の視線を高精度に推定することにある。

　本発明の一態様に係わる視線推定装置は、人物の顔を含む画像を取得する画像取得手段と、前記画像から人物の目を検出する目検出手段と、前記検出された目の形状に関する特徴量を計算する特徴量計算手段と、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換する画像変換手段と、前記変換された部分画像を用いて、前記人物の視線を推定する視線推定手段と、前記推定された視線の情報を出力する出力手段と、を備えている。

　本発明の一態様に係わる視線推定方法は、人物の顔を含む画像を取得することと、前記画像から人物の目を検出することと、前記検出された目の形状に関する特徴量を計算することと、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、前記変換された部分画像を用いて、前記人物の視線を推定することと、前記推定された視線の情報を出力することと、を含む。

　本発明の一態様に係わる、一時的でない記録媒体は、人物の顔を含む画像を取得することと、前記画像から人物の目を検出することと、前記検出された目の形状に関する特徴量を計算することと、前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、前記変換された部分画像を用いて、前記人物の視線を推定することと、前記推定された視線の情報を出力することと、をコンピュータ装置に実行させるためのプログラムを記録している。

　本開示によれば、人物の目の形状によらず、人物の視線を高精度に推定することができる。

視線推定装置の構成の一例を示すブロック図である。顔画像の一例を示す図である。目領域画像の一例を示す図である。（ａ）および（ｂ）は、目の大きさ（高さ）に基づく目領域画像の正規化の流れを説明する図である。視線推定装置の動作の一例を示すフローチャートである。コンピュータ装置によって実現される視線推定装置のハードウェア構成の一例を示すブロック図である。

　［第１実施形態］
　図１は、第１実施形態に係る視線推定装置１００の構成を示すブロック図である。視線推定装置１００は、画像に含まれる人物の視線を推定するための装置である。図１に示すように、視線推定装置１００は、画像取得部１１０と、目検出部１２０と、特徴量計算部１３０と、正規化部１４０と、視線推定部１５０と、出力部１６０とを少なくとも含む。視線推定装置１００は、図示しない他の構成要素を含んでもよい。

　［画像取得部１１０］
　画像取得部１１０は、人物の顔を含む画像データを取得する。例えば、画像取得部１１０は、他の装置から送信される画像データを取得してもよい。ここでいう他の装置とは、監視カメラまたは電子機器の内蔵カメラ等の撮像装置であってもよいし、画像データが記録されたデータベース等の記憶装置であってもよい。画像取得部１１０は、目検出部１２０へ、取得した画像データを出力する。

　画像取得部１１０が取得する画像データは、複数の画素の輝度値によって表現されている。画像データに含まれる画素数、色数（色成分の数）、および階調数などは、特定の数値に限定されない。画像取得部１１０は、あらかじめ決められた画素数および色数を有する画像データのみを取得してもよいが、画像データの画素数および色数を制限しなくてもよい。また、画像データは、静止画であってもよいし、動画であってもよい。説明の便宜上、以下では、画像取得部１１０が取得する画像データを「入力画像」と呼ぶ。

　以下の説明においては、入力画像はいずれも、ただ１人の人物の顔を含んでいることとする。１つの入力画像に複数の顔が含まれる場合、画像取得部１１０は、その入力画像を、それぞれ１つの顔のみを含む複数の入力画像に分割すればよい。

　画像取得部１１０は、取得した入力画像から、顔画像を生成し、生成した顔画像を、目検出部１２０および正規化部１４０に供給する。顔画像とは、人物の顔の一部又は全部を含む画像のことをいう。換言すれば、顔画像とは、入力画像から、人物の顔以外の要素（背景、物体、および人物の体等）を除いたものである。

　（顔画像）
　図２は、画像取得部１１０が入力画像から生成する顔画像４００を示す。図２に示す顔画像４００は、目の他にも、顔のパーツ（眉、鼻、および口）を含んでいる。しかしながら、顔画像４００は、少なくとも片目を含んでいれば十分である。本実施形態では、顔画像４００から抽出した目領域画像（後述）のみを使用するからである。

　入力画像が動画である場合、入力画像は複数の画像（フレーム）で構成される。この場合、ある再生期間の画像には顔が含まれるが、別の再生期間の画像には顔が含まれない可能性がある。そこで、入力画像が動画である場合、画像取得部１１０は、動画から、人物の顔を含む１または複数の画像のみを抽出して、抽出した１または複数の画像を、顔画像として、目検出部１２０および正規化部１４０に供給してもよい。この構成により、視線推定装置１００が視線を推定する処理（後述）を効率化することができる。

　一方、入力画像が静止画である場合、画像取得部１１０は、入力画像をそのまま、顔画像として、目検出部１２０と正規化部１４０に供給してもよいし、加工した入力画像を、顔画像として、目検出部１２０と正規化部１４０に供給してもよい。後者の構成では、例えば、画像取得部１１０は、入力画像から人物の顔を検出し、検出した人物の顔を含む入力画像の一部を、顔画像として抽出し、抽出した顔画像を、目検出部１２０および正規化部１４０に供給してもよい。

　顔画像はモノクロ画像またはカラー画像であってよい。すなわち、顔画像は、Ｒ（赤）、Ｇ（緑）、Ｂ（青）などの複数の色成分を含む画素により構成されていてよい。この場合、画像取得部１１０は、色数または階調数が所定の数値になるように、顔画像を変換し、変換した顔画像を、目検出部１２０および正規化部１４０に供給してもよい。あるいは、画像取得部１１０は、カラー画像である顔画像を、単一成分のグレースケールで表わされる単色の顔画像に変換してもよい。本実施形態では、顔画像に含まれる色の情報（彩度、色相）を使用しないからである。このようにして変換された顔画像のことも、以後は単に「顔画像」と呼ぶ。

　［目検出部１２０］
　目検出部１２０は、画像取得部１１０から供給される顔画像４００（図２参照）から、目を検出する。そして、目検出部１２０は、顔画像４００から検出した目の瞳の中心と、目の輪郭線上の複数の点とを検出する。目検出部１２０が検出する、瞳の中心、および、目の輪郭線上の複数の点のことを、以下では目の特徴点と呼ぶ。

　本実施形態において、目検出部１２０は、目の特徴点として、瞳の中心に加えて、内眼角、外眼角、上瞼の中心、および、下瞼の中心の４点を特定する。内眼角（いわゆる目頭）とは、目の輪郭線の両端において、上下の瞼が相会する２点のうち、顔の内側にあるほうの点を言う。外眼角（いわゆる目尻）とは、上下のまぶたが相会する２点のうち、顔の外側にあるほうの点を言う。上瞼の中心とは、上瞼と眼球との境界の、横方向における中心である。また、下瞼の中心とは、下瞼と眼球との境界の、横方向における中心である。

　目検出部１２０は、目の特徴点を検出するために、例えば特許文献３に記載された方法など、周知のいかなる方法を使用してもよい。例えば、目検出部１２０は、教師あり学習などの一般的な機械学習を用いてもよい。この構成では、目検出部１２０は、与えられた顔画像４００を用いて、複数の人物の顔における瞳および目の輪郭線の特徴および位置を学習する。

　目検出部１２０は、顔画像４００から検出した目の特徴点の情報を、特徴量計算部１３０に出力する。
　［特徴量計算部１３０］
　特徴量計算部１３０は、目検出部１２０が検出した目の特徴点の情報に基づいて、顔画像４００（図２参照）に含まれる目の形状に関する特徴を示す指標（以下では、この指標を、「目の形状に関する特徴量」あるいは単に「特徴量」と呼ぶ）を計算する。

　（特徴量の例）
　図３を参照して、目の形状に関する特徴量の具体例を説明する。図３は、図２に示す顔画像４００の一部の拡大図である。図３に示す顔画像４１０は、図２に示す顔画像４００において左側の目を含み、顔画像４２０は、図２に示す顔画像４００において右側の目を含む。顔画像４１０、４２０において、点Ｉが内眼角であり、点Ｏが外眼角である。また、図３に示す顔画像４１０において、点Ｈが上瞼の中心であり、点Ｌが下瞼の中心である。そして、点Ｐが瞳の中心である。

　例えば、特徴量計算部１３０は、顔画像４１０、４２０における目の高さを、目の形状に関する特徴量としてもよい。図３の顔画像４１０に示すように、目の高さｙは、上瞼の中心Ｈと下瞼の中心Ｌとの間の距離である。上瞼の中心Ｈおよび下瞼の中心Ｌは、目検出部１２０によって検出されている。そこで、特徴量計算部１３０は、目検出部１２０から取得した目の特徴点（点Ｈ，Ｌを含む）の情報を用いて、目の高さｙを計算することができる。目の高さｙが高い（低い）目は、一般的に目が大きい（細い）といわれるような特徴を備えている。

　左右の目の大きさは、通常、微妙に異なる。そこで、特徴量計算部１３０は、左右の目の高さの平均値を特徴量としてもよいし、左右の目の高さの両方を特徴量としてもよい。

　あるいは、他の例では、特徴量計算部１３０は、顔画像４１０における目の幅ｘを、目の形状に関する特徴量としてもよい。図３の顔画像４１０に示すように、目の幅ｘは、目の内眼角Ｉ（目頭）と外眼角Ｏ（目尻）との間の距離である。目の内眼角Ｉおよび外眼角Ｏは、目検出部１２０によって検出されている。そこで、特徴量計算部１３０は、目検出部１２０から取得した目の特徴点（点Ｉ、Ｏを含む）の情報を用いて、目の幅ｘを計算することができる。なお、特徴量計算部１３０は、左右の目の幅の平均値を特徴量としてもよいし、左右の目の幅の両方を特徴量としてもよい。

　あるいはまた、他の例では、特徴量計算部１３０は、図３の顔画像４２０に示す目の傾きθを、目の形状に関する特徴量としてもよい。この場合、特徴量計算部１３０は、まず、左右の瞳の中心Ｐを通る第１の線分と、内眼角Ｉ（目頭）と外眼角Ｏ（目尻）とを通る第２の線分とを計算する。そして、特徴量計算部１３０は、第１の線分に対する第２の線分の傾きθを計算する。なお、特徴量計算部１３０は、左右の目の傾きの平均値を特徴量としてもよいし、左右の目の傾きの両方を特徴量としてもよい。

　あるいはまた、特徴量計算部１３０は、目検出部１２０が検出した目の輪郭線（すなわち、上下の瞼と眼球との境界）そのものを、特徴量としてもよい。

　あるいはまた、特徴量計算部１３０は、上述した複数の特徴量を計算してもよい。例えば、特徴量計算部１３０は、目の高さおよび目の幅の両方を、目の形状に関する特徴量としてもよい。しかしながら、目の形状に関する特徴量は、上述した例に限定されない。特徴量計算部１３０は、目の形状に関する他の要素を、特徴量の一つとして計算してもよい。
　［正規化部１４０］
　正規化部１４０は、画像取得部１１０から、顔画像４００（図２参照）を取得する。そして、正規化部１４０は、特徴量計算部１３０から取得した特徴量の情報を用いて、顔画像４００に対する正規化処理を実行することによって、目領域画像（正規化された顔画像）を生成する。

　正規化部１４０は、まず、顔画像４００上において、目領域画像の大きさを規定する４つの基準座標を決定する。

　正規化部１４０は、顔画像４００上における左右の瞳の中心Ｐの間の距離ｗ（以下、「目間距離」と呼ぶ）を計算する。目検出部１２０によって、左右の瞳の中心Ｐが検出されているので、特徴量計算部１３０は、目検出部１２０から取得した目の特徴点（点Ｐを含む）の情報を用いて、距離ｗを計算することができる。

　正規化部１４０は、例えば、以下の式（１）にしたがって、目領域画像の幅Ｘ０および高さＹ０を計算する。
Ｘ０＝Ｙ０＝ｗ×ｋ　・・・・　（１）
　式（１）によれば、目領域画像の幅Ｘ０および高さＹ０は、左右の瞳の中心Ｐの間の距離ｗに比例する。ｋは所定の定数である。ｋは、例えば０．７５であってよい。

　正規化部１４０は、瞳の中心Ｐから、直交座標系上で（±Ｘ０／２，±Ｙ０／２）だけ離れた４つの点を、目領域画像の基準座標Ａ～Ｄとして設定する。

　（正規化処理）
　図４の（ａ）および（ｂ）を参照して、正規化部１４０による目領域画像の生成について説明する。図４の（ａ）は、正規化部１４０が目検出部１２０から取得する顔画像４３４～４３６を示す。図４の（ｂ）は、顔画像４３４～４３６が正規化されることによって生成される目領域画像４３７～４３９を示す。なお、図４の（ａ）および（ｂ）では、目以外の顔のパーツ（眉など）の図示を省略している。

　図４の（ａ）に示す顔画像４３４～４３６は、それぞれ異なる人物の顔を含んでいる。顔画像４３４～４３６に含まれる目の大きさは、互いに異なる。具体的には、顔画像４３５に含まれる目は大きく、顔画像４３６に含まれる目は小さい。また、顔画像４３４に含まれる目は、顔画像４３５よりも小さいが、顔画像４３６よりも大きい。

　正規化部１４０は、まず、顔画像４３４～４３６に含まれる目の形状に係わる特徴量に基づいて、顔画像４３４～４３６の大きさを規定する基準座標Ａ´～Ｄ´を決定する。

　次に、正規化部１４０は、目の形状に関する特徴量（本実施形態では目の大きさ）が平準化されるように、顔画像４３４～４３６に対する正規化処理を行う。これにより、図４の（ａ）に示す顔画像４３４～４３６から、図４の（ｂ）に示す目領域画像４３７～４３９が生成される。正規化処理は、例えば、顔画像４３４～４３６に対するアフィン変換（affine transformation）を含む。正規化部１４０が実行する正規化処理の具体例を後述する。

　図４の（ｂ）に示す目領域画像４３７～４３９の高さＹ０と、図４の（ａ）に示す顔画像４３４～４３６の高さＹとの比をＪ１とおく。また、図４の（ｂ）に示す目領域画像４３７～４３９の幅Ｘ０と、図４の（ａ）に示す顔画像４３４～４３６の幅Ｘとの比をＪ２とおく。このとき、Ｙ０とＹとの関係は、以下の式（２）によって表される。また、Ｘ０とＸとの関係は、以下の式（３）によって表される。
Ｙ＝Ｊ１×Ｙ０　　・・・・　（２）
Ｘ＝Ｊ２×Ｘ０　　・・・・　（３）
　ここで、図４の（ｂ）に示す目領域画像４３７～４３９の画素サイズは、図４の（ａ）に示す顔画像４３４～４３６の画素サイズと一致してもよい。しかしながら、これらは一致している必要はない。例えば、元の顔画像４３４～４３６が６４０×４８０画素で構成されている一方、目領域画像４３７～４３９は５０×５０画素で構成されていてもよい。

　なお、目領域画像４３７～４３９の画素の位置を示す座標が整数ではない場合、つまり、顔画像４３４～４３６における画素と画素との間の位置を示す座標と対応している場合、正規化部１４０は、バイリニア法（bilinear method）（線形補間法）またはバイキュービック法（bicubic method）などの周知の任意の方法を用いて、目領域画像４３７～４３９の画素値を計算することができる。

　（正規化の具体例）
　＜例１：特徴量が目の高さである場合＞
　一例では、正規化部１４０は、目の位置および高さが一定になるように、顔画像を正規化する。

　この例では、上述した式（２）のＪ１は、顔画像４３４～４３６における目の高さｙに依存する。具体的に、Ｊ１は、以下の式（４）で表される。
Ｊ１＝ｊ０×ｙ÷ｗ　・・・・　（４）
　式（４）のｊ０は、目領域画像４３７～４３９における目の高さｙ０と目領域画像の高さＹ０との比であり、一定値である。ｊ０は、例えば５．０であってよい。式（４）のｗは、前述した目間距離（図３参照）である。

　したがって、式（１）、式（２）、および式（４）にしたがって、顔画像４３４～４３６の高さＹは、以下の式（５）のように表される。
Ｙ＝ｋ×ｊ０×ｙ　　・・・・　（５）
　式（５）に基づいて、正規化部１４０は、顔画像４３４～４３６の高さＹを決定する。また、本例では、Ｊ２＝１である。すなわち、Ｘは、以下の式（６）で表される。
Ｘ＝ｗ×ｋ　　　　　・・・・　（６）
　正規化部１４０は、瞳の中心Ｐを中心とし、高さＹ、幅Ｘを有する顔画像４３４～４３６の４つの基準座標Ａ´～Ｄ´を決定する。

　さらに、正規化部１４０は、左右の瞳の中心Ｐを結ぶ線分が水平になるように、目領域画像４３７～４３９を回転させても良い。具体的には、左右の瞳の中心Ｐを結ぶ線分の傾きがθ（図３の顔画像４２０参照）であるとすれば、正規化部１４０は、目領域画像４３７～４３９を、目の瞳の中心Ｐを回転中心として、θだけ回転させる。

　＜例２：特徴量が目の幅である場合＞
　他の例では、正規化部１４０は、目の幅が一定になるように、顔画像を正規化する。

　正規化部１４０は、まず、特徴量が目の高さである場合と同様に、目領域画像の大きさを規定するパラメータの組（Ｘ０，Ｙ０）を決定する。

　顔画像の幅をＸとする。本例では、顔画像の幅Ｘは、目間距離ｗ（図３参照）に比例するように決定される。目領域画像の幅Ｘ０と、目領域画像における目の幅ｘ０との比を、ｊ１とおく。顔画像４３４～４３６の幅Ｘは、以下の式（７）によって表される。
Ｘ＝ｋ×ｊ１×ｘ　　・・・・　（７）
　　式（７）のｊ１は、目領域画像４３７～４３９における目の幅ｘ０と目領域画像の幅Ｘ０との比であり、一定値である。ｊ１は、例えば１．２５であってよい。

　この例では、上述した式（３）のＪ２は、顔画像４３４～４３６における目の幅ｘに依存する。具体的に、Ｊ２は、以下の式（８）で表される。
Ｊ２＝ｊ１×ｘ÷ｗ　・・・・　（８）
　式（８）のｊ１は、目領域画像４３７～４３９における目の幅ｘ０と目領域画像の幅Ｘ０との比であり、一定値である。ｊ１は、例えば１．２５であってよい。式（８）のｗは、前述した目間距離（図３参照）である。
　式（７）に基づいて、正規化部１４０は、顔画像４３４～４３６の幅Ｘを決定する。また、本例では、Ｊ１＝１である。すなわち、Ｙは、以下の式（９）で表される。
Ｙ＝ｗ×ｋ　　　　　・・・・　（９）
　正規化部１４０は、瞳の中心Ｐを中心とし、高さＹ、幅Ｘを有する顔画像４３４～４３６の４つの基準座標Ａ´～Ｄ´を決定する。さらに、特徴量が目の高さである場合と同様に、正規化部１４０は、左右の瞳の中心Ｐを結ぶ線分が水平になるように、目領域画像を回転させてもよい。

　＜例３：特徴量が目の傾きである場合＞
　正規化部１４０は、目の傾きθ（図３参照）が一定になるように、顔画像を正規化する。

　正規化部１４０は、まず、特徴量が目の高さである場合と同様に、目領域画像の大きさを規定する基準座標を計算する。次に、正規化部１４０は、顔画像において、左右の瞳の中心Ｐを結ぶ第１の線分と、目頭と外眼角とを結ぶ第２の線分とを計算する。

　水平に対する第１の線分の傾き角度をφとし、第１の線分に対する第２の線分の傾き角度をθとする。正規化部１４０は、顔画像の座標系を、瞳の中心を回転中心として、角度－（θ＋φ）だけ回転させることによって正規化する。これにより、目領域画像の間では、目の傾きが一定になる。

　正規化部１４０が、例１～３で説明したような画像処理を実行することによって、目領域画像における目の大きさ（ｘ０、ｙ０）または傾き（θ）は一定になる。したがって、視線推定部１５０は、目の大きさまたは傾きの変化と、視線との関係を視線推定器１５１に学習させる必要がなくなる。そのため、視線推定部１５０は、目領域画像を用いて、視線をより精度よく推定することができる。

　［視線推定部１５０］
　視線推定部１５０は、顔画像に含まれる顔の向きおよび目（瞳）の向きから、人物の視線を推定する。視線は、人物の目が見ている方向（より正確には向き）を示す。具体的には、視線推定部１５０は、正規化部１４０が正規化した目領域画像から視線を推定する。視線推定部１５０は、周知である任意の視線の推定方法を用いることができる。

　本実施形態では、視線推定部１５０は、視線が予め特定されている顔画像（正解あり顔画像）を用いて、顔の見た目と視線との関係を視線推定器１５１に学習させる。視線推定部１５０は、学習した視線推定器１５１を用いて、視線を推定する。視線推定部１５０は、視線の推定結果のデータを、出力部１６０に出力する。

　（教師あり学習）
　視線推定器１５１は、以下の式（１０）を用いて、視線がどちらの方向を向いているかを示す視線ベクトル（ｇ_ｘ，ｇ_ｙ）を算出する。式（１０）において、通常、ｇ_ｘは、－９０≦ｇ_ｘ≦９０[deg]を満たすように、また、ｇ_ｙは、－９０≦ｇ_ｙ≦９０[deg]を満たすように、式（１０）のｕ_ｘ、ｕ_ｙが学習される。

　式（１０）に示すｆは画像特徴量（スカラー）であり、（ｕ_ｘ、ｕ_ｙ）は重みベクトルである。式（１０）に示す視線ベクトル（ｇ_ｘ，ｇ_ｙ）は、顔の正面に対する視線のずれの方向を表してもよい。この場合、視線が顔の正面を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，０）である。視線が真上を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，＋９０）である。視線が真下を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（０，－９０）である。また、視線が真横（右または左）を向いているならば、（ｇ_ｘ，ｇ_ｙ）＝（±９０，０）である。

　なお、視線ベクトル（ｇ_ｘ，ｇ_ｙ）は、顔の正面に対する相対的な方向を表す。したがって、撮影された人物が目で見ている方向は、視線ベクトル（ｇ_ｘ，ｇ_ｙ）のみによっては特定されず、視線ベクトル（ｇ_ｘ，ｇ_ｙ）と人物の顔の向きとによって特定される。

　視線推定器１５１は、顔の正面を基準とする代わりに、カメラの方向を基準としてもよい。この場合、目がカメラを真っすぐに見ているとき、すなわち視線とカメラの方向とが一致するとき、視線ベクトル（ｇ_ｘ，ｇ_ｙ）＝（０，０）になる。視線ベクトル（ｇ_ｘ，ｇ_ｙ）は、カメラの方向からの視線のずれを水平角と仰俯角とによって表す。例えば、視線がカメラの方向に対して、上に３０度を向いているとき、視線ベクトル（ｇ_ｘ，ｇ_ｙ）＝（０，＋３０）である。視線がカメラの方向に対して、横（右または左）に３０度を向いているとき、視線ベクトル（ｇ_ｘ，ｇ_ｙ）＝（±３０，０）である。

　画像特徴量ｆは、目領域における輝度の変化の方向と大きさとを、所定の次元数（例えば、数百～数千）で示す。一例では、画像特徴量ｆは、画像の輝度の勾配に関する。輝度の勾配に関する画像特徴量ｆとしては、例えば、ＨＯＧ（Histograms of Oriented Gradients）が知られている。この画像特徴量ｆは、所定の要素数の列ベクトルによっても表現される。

　重みベクトルｕ_ｘ、ｕ_ｙは、それぞれ、画像特徴量ｆと同じ要素数の行ベクトルである。したがって、視線推定器１５１は、画像特徴量ｆと重みベクトルｕ_ｘ、ｕ_ｙとの内積を算出することができる。重みベクトルｕ_ｘ、ｕ_ｙは、サポートベクトル回帰（Support Vector Regression, SVR）や最小二乗法による線形回帰などの周知の手法によって、学習することができる。

　［出力部１６０］
　出力部１６０は、視線推定部１５０により推定された視線を示すデータ（以下「視線データ」ともいう。）を出力する。視線データは、視線推定部１５０により決定された視線が示す方向を、所定の規則に従って表す。出力部１６０による出力は、例えば、視線データを表示装置等の他の装置に供給することであってもよいし、視線推定装置１００に含まれる記録媒体に視線データを書き込むことであってもよい。

　視線推定装置１００の構成は以上のとおりである。このような構成を備えた視線推定装置１００は、例えば、以下で説明するように動作する。ただし、視線推定装置１００の具体的な動作は、ここで説明する動作例に限定されない。

　［視線の推定方法（視線推定装置１００の動作例）］
　図５は、本実施形態に係る視線推定装置１００が実行する視線の推定方法を示すフローチャートである。視線推定装置１００は、図５に示す各ステップの処理を、フローにしたがって順番に実行することにより、顔画像から視線を推定する。

　視線推定装置１００は、例えば、ユーザによって指定されたタイミングや、他の装置から入力画像が送信されたタイミングなどの適当なタイミングで、図５に示される処理を開始することができる。この例において、視線推定装置１００に入力される画像データは、人物の顔を含む。画像上の座標は、所定の位置（例えば、画像の中心）を原点とする直交座標系によって表される。

　図５に示すステップＳ１１において、画像取得部１１０は、入力画像を取得する。画像取得部１１０は、取得した入力画像から、１つまたは複数の顔画像を生成する。各顔画像は、一人の人物の顔を含む。

　ステップＳ１２において、目検出部１２０は、ステップＳ１１において生成された顔画像に含まれる目を検出し、検出した目の特徴点を検出する。具体的には、目検出部１２０は、目の虹彩の中心と、目頭と、目尻と、上瞼の中心と、下瞼の中心とを検出する。

　ステップＳ１３において、特徴量計算部１３０は、ステップＳ１２において計算された目の形状のデータを用いて、目の形状に関する特徴量を計算する。例えば、特徴量計算部１３０は、前述したように、目の形状に関する特徴量として、目の高さ、目の幅、または目の傾きを計算する。

　ステップＳ１４において、正規化部１４０は、ステップＳ１１で生成された顔画像から、目領域画像を抽出する。そして、正規化部１４０は、ステップＳ１３において計算された特徴量を用いて、目領域画像を正規化する。

　ステップＳ１５において、視線推定部１５０は、事前に機械学習を行った視線推定器１５１を用いて、人物の視線を推定する。

　ステップＳ１６において、出力部１６０は、視線推定部１５０により算出された視線（ｇ_ｘ，ｇ_ｙ）を示す視線データを出力する。視線データは、例えば、表示装置（図示せず）に出力されることによって可視化される。視線データは、数値で表示されてもよいし、顔画像上において、視線を示す矢印で表示されてもよい。

　［変形例］
　本実施形態１に対して、例えば、以下のような変形例を適用することができる。ここで説明する変形例は、必要に応じて組み合わせることも可能である。

　（変形例１）
　視線推定部１５０は、周知の顔向き推定技術を用いることによって、顔の方向を推定してもよい。視線推定部１５０は、このように推定された顔の方向を基準として用いても良い。

　（変形例２）
　右目および左目の中心などの特徴点や目領域画像を、ユーザが入力してもよい。この場合、視線推定装置１００は、特徴点を検出する必要がなく、また目領域画像を生成する必要がない。

　（変形例３）
　目領域画像の形状は、必ずしも矩形に限定されない。例えば、目領域画像では、顔の一部、すなわち視線の推定に直接的に影響しない部分（例えば眉または鼻を含む）が、除外されていてもよい。また、目領域画像は、必ずしも片目（左目または右目）のみを含んでいなくてもよい。目領域画像は両目を含んでいてもよい。

　（変形例４）
　視線推定器１５１による視線の学習方法は、上述した機械学習に限定されない。例えば、視線推定器１５１は、ランダムフォレスト（random forest）等の集団学習アルゴリズムにより、視線を推定するための非線形関数を学習してもよい。

　（変形例５）
　視線推定装置１００により推定された視線の用途は特に限定されない。例えば、視線推定装置１００は、店舗に設置された監視カメラによって撮像された人物の視線を推定し、推定した視線から不審人物を判定するシステムに適用されてもよい。

　あるいは、視線推定装置１００は、情報が表示された画面に対するユーザの視線を推定して、視線の推定結果に基づいて、ユーザの興味・関心を推測するシステムに適用されてもよい。そのほかにも、視線推定装置１００は、視線の動きによって操作可能な電子機器に適用されてもよいし、自動車等の運転支援に適用されてもよい。

　（変形例６）
　視線推定装置１００の具体的なハードウェア構成には、さまざまなバリエーションが含まれてよく、特定の構成に限定されない。例えば、本開示に係わる装置は、ソフトウェアを用いて実現されてもよく、複数のハードウェアを用いて各種処理を分担するように構成されてもよい。なお、本変形例の構成に関して、実施形態２で詳細に説明する。

　［本実施形態の効果］
　本実施形態に係わる視線推定装置１００は、人物の目の形状に関する特徴量が一定になるように正規化した目領域画像を生成し、正規化した目領域画像に基づいて、人物の視線を推定する。このようにして目の形状に関する特徴量を正規化した目領域画像を、機械学習のための正解あり画像として用いることで、頑健（ロバスト）な推定結果を安定して得ることができる。

　最小二乗法による線形回帰などの線形学習器は、非線形学習器と比べ、表現能力が相対的に低いので、目の形状に関する特徴量の差異が、視線の推定の精度に影響を与えやすい。本実施形態の構成を適用した場合、線形学習器による視線の推定性能が飛躍的に改善する。本実施形態の構成によれば、目の形状に関する特徴量の差異によらず、視線を高精度に推定することができるためである。

　［実施形態２］
　図６は、本実施形態２に係わる視線推定装置３００を実現するコンピュータのハードウェア構成の一例を示すブロック図である。視線推定装置３００は、ＣＰＵ（Central Processing Unit）３０１と、ＲＯＭ（Read Only Memory）３０２と、ＲＡＭ（Random Access Memory）３０３と、記憶装置３０４と、ドライブ装置３０５と、通信インタフェース３０６と、入出力インタフェース３０７とを含んで構成される。本実施形態２に係わる視線推定装置３００は、図６に示されるハードウェア構成（又はその一部）によって実現され得る。

　ＣＰＵ３０１は、ＲＡＭ３０３に読み込んだプログラム３０８を実行する。プログラム３０８は、ＲＯＭ３０２に記憶されていてもよい。また、プログラム３０８は、メモリカード等の記録媒体３０９に記録され、ドライブ装置３０５によって読み出されてもよいし、外部装置から、ネットワーク３１０を介して、視線推定装置３００へと送信されてもよい。通信インタフェース３０６は、ネットワーク３１０を介して外部装置とデータをやり取りする。入出力インタフェース３０７は、周辺機器（入力装置、表示装置など）とデータをやり取りする。通信インタフェース３０６および入出力インタフェース３０７は、データを取得または出力するための構成要素として機能することができる。

　あるいは、本実施形態に係わる視線推定装置３００の構成要素は、単一の回路（circuitry）（プロセッサ等）によって構成されてもよいし、複数の回路の組み合わせによって構成されてもよい。ここでいう回路は、専用又は汎用のいずれであってもよい。例えば、本開示に係る視線推定装置は、一部が専用のプロセッサによって実現され、他の部分が汎用のプロセッサによって実現されてもよい。

　本実施形態において、視線推定装置３００は単体のコンピュータによって実現されている必要はない。視線推定装置３００の構成要素は、複数のコンピュータに分散して設けられてもよい。例えば、本実施形態に係わる視線推定装置３００は、クラウドコンピューティング技術を用いて、複数のコンピュータ装置の協働によって実現されてもよい。

　以上、本発明は、上述された実施形態及び変形例を模範的な例として説明した。しかしながら、本発明は、これらの実施形態及び変形例に限定されない。本発明は、本発明のスコープ内において、当業者が把握し得るさまざまな変形又は応用を適用した実施の形態を含み得る。また、本発明は、本明細書に記載された事項を必要に応じて適宜に組み合わせ、又は置換した実施の形態を含み得る。例えば、特定の実施形態を用いて説明された事項は、矛盾を生じない範囲において、他の実施形態に対しても適用し得る。

１００　　視線推定装置
３００　　視線推定装置
１１０　　画像取得部
１２０　　目検出部
１３０　　特徴量計算部
１４０　　正規化部
１５０　　視線推定部
１６０　　出力部

Claims

　人物の顔を含む画像を取得する画像取得手段と、
　前記画像から人物の目を検出する目検出手段と、
　前記検出された目の形状に関する特徴量を計算する特徴量計算手段と、
　前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換する画像変換手段と、
　前記変換された部分画像を用いて、前記人物の視線を推定する視線推定手段と、
　前記推定された視線の情報を出力する出力手段と、
を備えたことを特徴とする視線推定装置。
　前記目検出手段は、前記人物の目の中心、および目の輪郭線上の特徴点を検出することを特徴とする、請求項１に記載の視線推定装置。
　前記特徴量計算手段は、前記検出された目の高さ、目の幅、および目の傾きのうちの少なくとも１つを、前記特徴量として計算することを特徴とする、請求項１または２に記載の視線推定装置。
　前記特徴量計算手段は、個人の目ごとに、前記特徴量を計算することを特徴とする、請求項１～３のいずれか１項に記載の視線推定装置。
　人物の顔を含む画像を取得することと、
　前記画像から人物の目を検出することと、
　前記検出された目の形状に関する特徴量を計算することと、
　前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、
　前記変換された部分画像を用いて、前記人物の視線を推定することと、
　前記推定された視線の情報を出力することと、を含む
ことを特徴とする視線推定方法。
　人物の顔を含む画像を取得することと、
　前記画像から人物の目を検出することと、
　前記検出された目の形状に関する特徴量を計算することと、
　前記画像から、前記検出された目を含む部分画像を抽出し、前記抽出された部分画像において、前記目の形状に関する少なくとも１つの特徴量が、特徴量の基準と等しくなるように、前記部分画像の形状を変換することと、
　前記変換された部分画像を用いて、前記人物の視線を推定することと、
　前記推定された視線の情報を出力することと、
　をコンピュータ装置に実行させるためのプログラムを記録した、
一時的でない記録媒体。