[go: up one dir, main page]

JP7633885B2 - Gaze Estimation System - Google Patents

Gaze Estimation System Download PDF

Info

Publication number
JP7633885B2
JP7633885B2 JP2021095579A JP2021095579A JP7633885B2 JP 7633885 B2 JP7633885 B2 JP 7633885B2 JP 2021095579 A JP2021095579 A JP 2021095579A JP 2021095579 A JP2021095579 A JP 2021095579A JP 7633885 B2 JP7633885 B2 JP 7633885B2
Authority
JP
Japan
Prior art keywords
gaze
estimation process
gaze estimation
target range
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021095579A
Other languages
Japanese (ja)
Other versions
JP2022187546A (en
Inventor
勇氣 ▲高▼橋
俊剛 関
亜矢 橋本
尚武 佐久本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yazaki Corp
Original Assignee
Yazaki Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yazaki Corp filed Critical Yazaki Corp
Priority to JP2021095579A priority Critical patent/JP7633885B2/en
Publication of JP2022187546A publication Critical patent/JP2022187546A/en
Application granted granted Critical
Publication of JP7633885B2 publication Critical patent/JP7633885B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、視線推定システムに関する。 The present invention relates to a gaze estimation system.

画像処理を利用した視線推定技術には、モデルベース手法とアピアランスベース手法の2種類がある。モデルベース手法を用いた視線推定は、例えば、眼球モデルを含む3次元モデルを作成し、当該モデルと、測定対象者の目を含む画像とを対比して視線を推定するものである(例えば特許文献1参照)。アピアランスベース手法を用いた視線推定は、測定対象者の目を含む画像と、学習器に機械学習させた複数の学習画像と照合して視線を推定するものである(例えば特許文献2参照)。 There are two types of gaze estimation technology that use image processing: model-based methods and appearance-based methods. Gaze estimation using a model-based method involves, for example, creating a three-dimensional model that includes an eyeball model, and estimating the gaze by comparing the model with an image that includes the subject's eyes (see, for example, Patent Document 1). Gaze estimation using an appearance-based method involves estimating the gaze by comparing an image that includes the subject's eyes with multiple learning images that have been machine-learned by a learning device (see, for example, Patent Document 2).

特開2018-88236号公報JP 2018-88236 A 特開2019-28843号公報JP 2019-28843 A

ところで、アピアランスベース手法によれば、深層学習を利用することで、測定対象者の視線を高精度に推定できるが、演算装置の処理負荷が増大し、また機械学習のための大量の学習が必要となる。一方、モデルベース手法によれば、アピアランスベース手法と比較して装置の処理負荷が減少するが、測定対象者の視線を高精度に推定することが容易ではない。そのため、測定対象者の視線を推定する場合において、処理負荷の軽減と、高精度な視線推定の両立が望まれる。 According to the appearance-based method, the gaze of the subject can be estimated with high accuracy by using deep learning, but the processing load on the computing device increases and a large amount of learning is required for machine learning. On the other hand, according to the model-based method, the processing load on the device is reduced compared to the appearance-based method, but it is not easy to estimate the gaze of the subject with high accuracy. Therefore, when estimating the gaze of the subject, it is desirable to achieve both a reduction in the processing load and high-accuracy gaze estimation.

本発明は、上記課題に鑑みてなされたものであり、処理負荷の軽減と、高精度な視線推定との両立を図ることができる視線推定システムを提供することを目的とする。 The present invention has been made in consideration of the above problems, and aims to provide a gaze estimation system that can achieve both a reduction in processing load and highly accurate gaze estimation.

上記目的を達成するために、本発明に係る視線推定システムは、測定対象者の顔を含む撮影画像を時系列上連続して取得する画像取得部と、取得された各前記撮影画像に基づいて前記測定対象者の視線の推定処理を実行する処理部と、を備え、前記処理部は、前記測定対象者の顔を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第1推定視線情報を生成する第1視線推定処理、及び、前記学習画像に基づいてモデルベース手法による視線の推定処理を行って第2推定視線情報を生成する第2視線推定処理を実行するものであり、各前記撮影画像から得られる前記測定対象者の視線の変化が伴う動作に応じて、当該視線が、相対的に高い精度を要求される第1対象範囲に向いているか、前記第1対象範囲の外側にあって前記第1対象範囲以上の高い精度を要求されない第2対象範囲に向いているかを判定する第1判定部を有し、前記第1判定部により前記視線が前記第1対象範囲に向いていると判定された場合、前記第1視線推定処理を実行し、前記視線が前記第2対象範囲に向いていると判定された場合、前記第2視線推定処理を実行する、ことを特徴とする。 In order to achieve the above object, the gaze estimation system according to the present invention includes an image acquisition unit that acquires photographed images including the face of the subject in a continuous time series, and a processing unit that executes an estimation process of the gaze of the subject based on each of the acquired photographed images. The processing unit executes a first gaze estimation process that performs an appearance-based gaze estimation process based on a learning image including the face of the subject to generate first estimated gaze information, and a second gaze estimation process that performs a model-based gaze estimation process based on the learning image to generate second estimated gaze information. The processing unit has a first determination unit that determines whether the gaze of the subject is directed toward a first target range that requires relatively high accuracy or toward a second target range that is outside the first target range and does not require higher accuracy than the first target range, depending on a movement accompanied by a change in the gaze of the subject obtained from each of the photographed images. If the first determination unit determines that the gaze is directed toward the first target range, the processing unit executes the first gaze estimation process, and if the gaze is determined to be directed toward the second target range, the processing unit executes the second gaze estimation process.

本発明に係る視線推定システムは、取得された各撮影画像に基づいて測定対象者の視線の推定処理における処理負荷の軽減と、高精度な視線推定との両立を図ることができる、という効果を奏する。 The gaze estimation system according to the present invention has the advantage of being able to reduce the processing load in estimating the gaze of the subject based on each captured image while achieving highly accurate gaze estimation.

図1は、実施形態に係る視線推定システムの適用例を示す模式図である。FIG. 1 is a schematic diagram illustrating an application example of a gaze estimation system according to an embodiment. 図2は、図1の視線推定システムの概略構成を示すブロック図である。FIG. 2 is a block diagram showing a schematic configuration of the line-of-sight estimation system of FIG. 図3(A)は、図1の視線推定システムの動作の概要を示す状態遷移図、図3(B)は、測定対象者が視線を向ける対象範囲の一例を示す模式図である。FIG. 3A is a state transition diagram showing an overview of the operation of the gaze estimation system of FIG. 1, and FIG. 3B is a schematic diagram showing an example of a target range to which the measurement subject directs his/her gaze. 図4は、図1の視線推定システムで実行される第1視線推定処理の概要を示す模式図である。FIG. 4 is a schematic diagram showing an overview of the first gaze estimation process executed by the gaze estimation system of FIG. 図5は、図1の視線推定システムで実行される第2視線推定処理の概要を示すフローチャート図である。FIG. 5 is a flowchart showing an outline of the second gaze estimation process executed in the gaze estimation system of FIG. 図6(A)は、図5のステップS16における眼球の三次元(3D)モデル及び二次元(2D)画像の関係を示す模式図、図6(B)は、図5のステップS17,S18で実行される黒目探索の概要を示す模式図である。FIG. 6(A) is a schematic diagram showing the relationship between a three-dimensional (3D) model of the eyeball and a two-dimensional (2D) image in step S16 of FIG. 5, and FIG. 6(B) is a schematic diagram showing an overview of the iris search performed in steps S17 and S18 of FIG. 5. 図7は、図1の視線推定システムで実行される視線推定処理のアルゴリズムの一例を示すフローチャート図である。FIG. 7 is a flowchart showing an example of an algorithm of the gaze estimation process executed by the gaze estimation system of FIG. 図8は、実施形態の変形例に係る視線推定システムにて測定対象者が視線を向ける対象範囲の一例を示す模式図である。FIG. 8 is a schematic diagram illustrating an example of a target range to which a measurement subject directs his/her gaze in a gaze estimation system according to a modified example of the embodiment.

以下に、本発明の実施形態に係る視線推定システムについて図面を参照しつつ詳細に説明する。なお、以下に示す実施形態により本発明が限定されるものではない。以下の実施形態における構成要素には、いわゆる当業者が容易に想定できるもの、あるいは実質的に同一のものが含まれる。また、以下の実施形態における構成要素は、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。 The following describes in detail a gaze estimation system according to an embodiment of the present invention with reference to the drawings. Note that the present invention is not limited to the embodiments described below. The components in the following embodiments include those that a person skilled in the art would easily imagine, or those that are substantially the same. Furthermore, the components in the following embodiments can be omitted, replaced, or modified in various ways without departing from the spirit of the invention.

[実施形態]
図1及び図2に示す本実施形態の視線推定システム1は、測定対象者を撮影し当該測定対象者の顔を含む撮影画像に基づいて当該測定対象者の視線を推定するシステムである。本実施形態では、視線推定システム1を車両に適用した場合について説明する。視線推定システム1は、撮影ユニット12と、処理部13とを含んで構成される。
[Embodiment]
The gaze estimation system 1 of the present embodiment shown in Fig. 1 and Fig. 2 is a system that captures an image of a subject and estimates the gaze of the subject based on the captured image including the face of the subject. In this embodiment, the gaze estimation system 1 is applied to a vehicle. The gaze estimation system 1 includes a photographing unit 12 and a processing unit 13.

撮影ユニット12は、画像取得部(または画像取得装置)の一例であり、車両2の運転者20の顔21を撮影し、運転者20の顔21を含む撮影画像を時系列上連続して取得するものである。本実施形態では、運転者20が測定対象者である。撮影ユニット12は、光源と、カメラとを含んで構成される。光源及びカメラは、例えば、1枚の基板上に互いに隣接して配置される。 The photographing unit 12 is an example of an image acquisition section (or image acquisition device) that captures the face 21 of the driver 20 of the vehicle 2 and acquires photographed images including the face 21 of the driver 20 continuously in time series. In this embodiment, the driver 20 is the subject of measurement. The photographing unit 12 includes a light source and a camera. The light source and the camera are arranged adjacent to each other on a single substrate, for example.

光源は、例えば、撮影ユニット12の外部に向けて近赤外光を出射するLED(Light Emitting Diode)である。近赤外光は、波長が凡そ0.7~2.5μmの電磁波であり、赤色の可視光線に近い波長を有し、例えば、「見えない光」として、赤外線カメラや赤外線通信等に利用されている。光源は、処理部13から入力された点灯信号に応じて点灯(赤外光を発光)し、消灯信号に応じて消灯する。光源は、被視認対象物上または被視認対象物の近傍に配置される。 The light source is, for example, an LED (Light Emitting Diode) that emits near-infrared light toward the outside of the photographing unit 12. Near-infrared light is an electromagnetic wave with a wavelength of approximately 0.7 to 2.5 μm, and has a wavelength close to red visible light. For example, it is used as "invisible light" in infrared cameras and infrared communications. The light source turns on (emits infrared light) in response to a turn-on signal input from the processing unit 13, and turns off in response to a turn-off signal. The light source is placed on or near the object to be viewed.

カメラは、光源の近傍に配置され、撮影ユニット12外側に設定される撮影範囲(例えば画角)を撮影する。カメラは、撮影ユニット12外側に設定される撮影範囲に運転者20が存在する場合、光源から出射された赤外光によって照らされた運転者20を撮影する。撮影ユニット12は、車両2の車室10内の運転席101に着座している運転者20の顔21を撮影するために、例えば運転席101前方のメータユニット内、または、コラムカバー上部に設置される。撮影ユニット12は、処理部13に接続されており、取得した撮影画像を処理部13に出力する。 The camera is placed near the light source and captures an image of a shooting range (e.g., an angle of view) set outside the shooting unit 12. When the driver 20 is present in the shooting range set outside the shooting unit 12, the camera captures the driver 20 illuminated by infrared light emitted from the light source. The shooting unit 12 is installed, for example, in the meter unit in front of the driver's seat 101 or on the top of the column cover in order to capture an image of the face 21 of the driver 20 seated in the driver's seat 101 in the passenger compartment 10 of the vehicle 2. The shooting unit 12 is connected to the processing unit 13 and outputs the captured image to the processing unit 13.

カメラは、光源から出射される赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置される。カメラが赤外光の出射方向と反対方向に反射する反射光を受光する位置に配置された場合、当該カメラの光軸と光源の光軸とは重なる。カメラの光軸と光源の光軸とが重なるとは、両方の光軸が同軸になることであるが、両方の光軸が並行であって反射光が受光可能な位置であればよい。カメラは、少なくとも顔21全体が十分な解像度で撮影できることが好ましい。撮影範囲は、アプリケーションより要求される検出したい範囲より決めることができる。アプリケーションは、例えば、自動販売機の興味の計測、デジタルサイネージ等の広告の視認者の自動カウント、ディスプレイシステムの視認時のみ点灯させる(または輝度をあげる)といったものがある。 The camera is placed in a position where it receives the reflected light reflected in the opposite direction to the direction of emission of the infrared light emitted from the light source. When the camera is placed in a position where it receives the reflected light reflected in the opposite direction to the direction of emission of the infrared light, the optical axis of the camera and the optical axis of the light source overlap. The optical axis of the camera and the optical axis of the light source overlap means that both optical axes are coaxial, but it is sufficient that both optical axes are parallel and the reflected light can be received. It is preferable that the camera can capture at least the entire face 21 with sufficient resolution. The capture range can be determined based on the range to be detected that is required by the application. Examples of applications include measuring the interest of vending machines, automatically counting the number of viewers of advertisements such as digital signage, and turning on (or increasing the brightness of) a display system only when it is viewed.

処理部13は、処理部(または処理装置)の一例であり、撮影ユニット12で取得された撮影画像に基づいて運転者20の視線の推定処理を実行するものである。処理部13は、例えば、視線推定システム1における各種処理機能を実現する処理回路(不図示)を有する。処理回路は、例えば、プロセッサによって実現される。プロセッサとは、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の回路を意味する。処理部13は、例えば、不図示の記憶回路(記憶部)から読み出したプログラムを実行することにより、各処理機能を実現する。 The processing unit 13 is an example of a processing unit (or processing device) that performs an estimation process of the line of sight of the driver 20 based on the captured image acquired by the photographing unit 12. The processing unit 13 has, for example, a processing circuit (not shown) that realizes various processing functions in the gaze estimation system 1. The processing circuit is realized, for example, by a processor. The processor means, for example, a circuit such as a CPU (Central Processing Unit), an MPU (Micro Processing Unit), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field Programmable Gate Array). The processing unit 13 realizes each processing function, for example, by executing a program read from a memory circuit (memory unit) not shown.

処理部13は、図2に示すように、第1視線推定処理部14Aと、第2視線推定処理部14Bと、第1判定部15Aと、第2判定部15Bと、第3判定部15Cとを含んで構成される。 As shown in FIG. 2, the processing unit 13 includes a first gaze estimation processing unit 14A, a second gaze estimation processing unit 14B, a first judgment unit 15A, a second judgment unit 15B, and a third judgment unit 15C.

処理部13のうち第1視線推定処理部14Aは、運転者20の顔21を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第1推定視線情報を生成する第1視線推定処理を実行する。第1推定視線情報は、例えば、運転者20の視線24の視線角度である。第1視線推定処理は、第1視線推定処理部14Aが実行する。アピアランスベース手法による視線推定の技術は、例えば、以下の文献に示されている。
「特定環境応用におけるアピアランスベース手法による高精度視線推定,瞿 万霆(慶應大学)高橋勇氣(矢崎総業株式会社)他 第26回画像センシングシンポジウム(SSII2020),IS2-18,June 2020.」
The first gaze estimation processing unit 14A of the processing unit 13 executes a first gaze estimation process that generates first estimated gaze information by performing a gaze estimation process by an appearance-based method based on a learning image including the face 21 of the driver 20. The first estimated gaze information is, for example, the gaze angle of the gaze 24 of the driver 20. The first gaze estimation process is executed by the first gaze estimation processing unit 14A. The gaze estimation technology by the appearance-based method is described in, for example, the following document.
"High-precision gaze estimation using appearance-based methods for specific environment applications, Qu Manting (Keio University), Takahashi Yuki (Yazaki Corporation), et al., 26th Symposium on Image Sensing (SSII2020), IS2-18, June 2020."

アピアランスベース手法による視線の推定は、被験者の目画像そのものを入力情報とし、機械学習によって視線と目画像の組み合わせを学習し、新規目画像に対して視線の位置を推定する手法である。機械学習手法は、例えば、深層学習手法である畳み込みニューラルネットワーク(Convolutional Neural Networks:CNN)等が用いられる。CNNは、ニューラルネットワークというパターン認識手法を多層化したDNN(Deep Neural Network,ディープニューラルネットワーク)のうち、2次元データに対応させたもので、画像に対して高いパターン認識能力が報告されている手法である。CNNで学習を実施するためには、入力画像と対応した正解ラベルが必要である。今回は入力情報として顔画像を、正解ラベルとして視線角度を与える。 Gaze estimation using appearance-based methods uses the subject's eye image itself as input information, learns the combination of gaze and eye image through machine learning, and estimates the gaze position for a new eye image. Machine learning methods include, for example, Convolutional Neural Networks (CNN), a deep learning method. CNN is a type of DNN (Deep Neural Network), which is a multi-layered pattern recognition method called a neural network, that is compatible with two-dimensional data and has been reported to have high pattern recognition capabilities for images. To perform learning with CNN, a correct label corresponding to the input image is required. In this case, a face image is given as input information and the gaze angle is given as the correct label.

アピアランスベース手法による視線の推定では、学習用データセットを作成し、機械学習によってモデルを生成する必要がある。このとき、学習用データセットを正確に作成することが学習の精度に影響する。そのため、学習用データセットを作成する際に、測定対象者(または被験者)が正確に視認対象を見ているようにする必要があることから、例えば、図4に示すように、測定対象者が装着型の視線計測器を着用して視線計測結果を収集する。画像31は、測定対象者が視線計測器を着用した状態で当該測定対象者を撮影して得られたものである。一方、実際に測定対象者の視線を推定する場合、視線計測器を装着していない顔画像が入力されることから、実際の利用時の画像に近づけるために、画像32に示すように、顔画像にかかる視線計測器のアーム部分を顔と同じ色で塗り潰す処理を行う。 In estimating gaze using an appearance-based method, it is necessary to create a learning dataset and generate a model by machine learning. At this time, the accuracy of the learning dataset affects the accuracy of the learning. Therefore, when creating the learning dataset, it is necessary to ensure that the subject (or test subject) is looking accurately at the visual target. For example, as shown in FIG. 4, the subject wears a wearable gaze measurement device and gaze measurement results are collected. Image 31 was obtained by photographing the subject while wearing the gaze measurement device. On the other hand, when actually estimating the gaze of the subject, a face image without the gaze measurement device is input, so in order to make it closer to the image during actual use, a process is performed to paint the arm part of the gaze measurement device that is over the face image with the same color as the face, as shown in image 32.

処理部13のうち第2視線推定処理部14Bは、運転者20の顔21を含む学習画像に基づいてモデルベース手法による視線の推定処理を行って第2推定視線情報を生成する第2視線推定処理を実行する。第2推定視線情報は、例えば、運転者20の視線24の視線角度である。第2視線推定処理は、第2視線推定処理部14Bが実行する。モデルベース手法による視線推定の技術は、例えば、特開2018-88236号公報に示されている。 The second gaze estimation processing unit 14B of the processing unit 13 executes a second gaze estimation process that performs gaze estimation processing using a model-based method based on a learning image including the face 21 of the driver 20 to generate second estimated gaze information. The second estimated gaze information is, for example, the gaze angle of the gaze 24 of the driver 20. The second gaze estimation process is executed by the second gaze estimation processing unit 14B. A gaze estimation technique using a model-based method is disclosed, for example, in JP 2018-88236 A.

図5に示す処理は、第2視線推定処理の一例であり、処理部13が記憶部から読みだしたプログラムを実行することにより、各ステップが順次行われる。 The process shown in FIG. 5 is an example of the second gaze estimation process, and each step is performed sequentially by the processing unit 13 executing a program read from the storage unit.

ステップS12では、撮影ユニット12は、運転者20の顔を含む映像を撮影して映像の信号を出力する。処理部13は、撮影ユニット12から映像の信号を1フレーム分取り込む。 In step S12, the photographing unit 12 photographs an image including the face of the driver 20 and outputs an image signal. The processing unit 13 captures one frame of the image signal from the photographing unit 12.

ステップS13では、処理部13は、グレースケール化を含む、画像のデータ形式の変換(下処理)を行う。例えば、1フレーム内の画素位置毎に、輝度を「0~255」の範囲の階調で表す8ビットデータを、撮影時のフレーム内走査方向に合わせて縦方向及び横方向に並べた二次元(2D)配列の画像データを生成する。 In step S13, the processing unit 13 converts the data format of the image (pre-processing), including grayscaling. For example, for each pixel position in one frame, 8-bit data expressing brightness in a gradation range of "0 to 255" is generated as a two-dimensional (2D) array of image data arranged vertically and horizontally in accordance with the scanning direction within the frame at the time of shooting.

ステップS14では、処理部13は、ステップS13で変換された画像に基づいて、例えば「Viola-Jones法」を用いて顔検出を行い、1フレームの二次元画像データの中から顔を含む顔画像を抽出する。すなわち、顔の陰影差を特徴とし「Boosting」を用いた学習によって作成された検出器を使って顔画像を抽出する。「Viola-Jones法」の技術は、例えば以下の文献に示されている。
「Viola,Paul and Michael J.Jones,“Rapid Object Detection using aBoosted Cascade of Simple Features”,Proceedings of the 2001 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition,2001.Volume:1,pp.511-518.」
In step S14, the processing unit 13 performs face detection using, for example, the "Viola-Jones method" based on the image converted in step S13, and extracts a face image including a face from one frame of two-dimensional image data. That is, the face image is extracted using a detector that is characterized by the shading difference of the face and that is created by learning using "Boosting". The technology of the "Viola-Jones method" is described in, for example, the following document.
“Viola, Paul and Michael J. Jones, “Rapid Object Detection using a Boosted Cascade of Simple Features”, Proceedings of The 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2001. Volume: 1, pp. 511-518.

ステップS15では、処理部13は、ステップS14で抽出した顔画像から、例えば上述したViola-Jones法を用いて目の領域を検出する。 In step S15, the processing unit 13 detects the eye area from the face image extracted in step S14, for example, using the Viola-Jones method described above.

ステップS16では、処理部13は、後述する眼球3Dモデルを用いるモデルベース手法によって視線を検出する場合、眼球中心を推定する。ここでは、ステップS15で検出した目の矩形領域の中心座標を眼球中心と仮定する。例えば、目尻、目頭位置に基づき眼球中心を決定する方法や、顔の特徴点より骨格を推定し同時に眼球中心位置を算出する方法を利用することも想定される。 In step S16, when the processing unit 13 detects the gaze using a model-based method that uses a 3D eyeball model described below, it estimates the eyeball center. Here, the central coordinates of the rectangular area of the eye detected in step S15 are assumed to be the eyeball center. For example, it is also possible to use a method of determining the eyeball center based on the positions of the outer corner and inner corner of the eye, or a method of estimating the skeleton from facial feature points and simultaneously calculating the eyeball center position.

ステップS17では、処理部13は、ステップS15で検出した目の矩形領域のデータについて、テンプレートマッチングの手法を適用して、黒目(瞳孔または虹彩)の粗探索を行う。具体的には、目周辺を切り出した目画像を二値化した画像に対して、テンプレートとして黒丸画像をマッチングさせて最も尤度の大きかった黒丸画像の画像中心(黒丸の中心)の座標を目画像中の黒目の中心位置とし、最も尤度の大きかった黒丸画像の半径を目画像中の黒目の半径とする。なお、ステップS17の処理は、目画像中の黒目の中心位置及び半径に関して大凡の目処をつけるために行うものである。 In step S17, the processing unit 13 performs a rough search for the iris (pupil or iris) by applying a template matching technique to the data of the rectangular region of the eye detected in step S15. Specifically, a black circle image is matched as a template to a binarized image of the eye image in which the area around the eye has been cut out, and the coordinates of the image center (center of the black circle) of the black circle image with the highest likelihood are set as the center position of the iris in the eye image, and the radius of the black circle image with the highest likelihood is set as the radius of the iris in the eye image. The processing of step S17 is performed to roughly estimate the center position and radius of the iris in the eye image.

ステップS18では、処理部13は、ステップS17で探索した黒目の中心位置及び半径を利用し、パーティクルフィルタの手法を適用して、より精度の高い黒目の中心位置及び半径を検出する。 In step S18, the processing unit 13 uses the center position and radius of the iris found in step S17 and applies a particle filter technique to detect the center position and radius of the iris with higher accuracy.

ステップS19では、処理部13は、上述したステップS13~ステップS18の処理により、1フレームの画像について、眼球中心座標、黒目の中心位置の座標の数値データを得るので、その数値データを出力する。眼球中心座標および黒目の中心位置の座標により視線の方向を特定できる。また、撮影ユニット12が出力する映像が途切れるまで、ステップS11~ステップS20のループ状の処理を繰り返すことで、リアルタイムでの視線検出を実現する。これらのデータを用いて画像平面上の座標から眼球回転角を計算する際には、図6の(A)に示す、眼球3Dモデルを用いた変換を行う。 In step S19, the processing unit 13 obtains numerical data on the eyeball center coordinates and the coordinates of the center position of the iris for one frame of image through the processes in steps S13 to S18 described above, and outputs this numerical data. The direction of gaze can be identified from the eyeball center coordinates and the coordinates of the center position of the iris. Furthermore, by repeating the loop processes in steps S11 to S20 until the video output by the photographing unit 12 is interrupted, gaze detection can be achieved in real time. When using this data to calculate the eyeball rotation angle from the coordinates on the image plane, a conversion is performed using a 3D eyeball model as shown in Figure 6 (A).

図6の(A)に示す眼球3Dモデルにおいて、この眼球Eは、眼球中心Oと、眼球半径Rとで表される球体である。また、この眼球Eの表面には、黒目を構成する円形形状の虹彩Fがあり、虹彩Fの中央には円形形状の瞳孔Gがある。視線の方向は、眼球中心Oから虹彩Fまたは瞳孔Gの中央に向かう方向として特定でき、水平面内の基準方向に対する回転角度ヨー(yaw)、および上下方向の基準方向に対する回転角度ピッチ(pitch)により表すことができる。また、虹彩Fまたは瞳孔Gの中心座標は、眼球中心Oを基準とした場合、眼球半径R、ヨー(yaw)、およびピッチ(pitch)により表すことができる。一方、撮影ユニット12で撮影された映像は、2次元平面を表していることから、撮影ユニット12の撮影で得た二次元画像を眼球3Dモデルに適用する場合には、二次元/三次元の相互変換を行う必要がある。例えば、次式を用いて変換する。 In the 3D eyeball model shown in FIG. 6A, the eyeball E is a sphere represented by the eyeball center O and the eyeball radius R. In addition, on the surface of the eyeball E, there is a circular iris F that constitutes the black eye, and in the center of the iris F, there is a circular pupil G. The direction of the line of sight can be specified as the direction from the eyeball center O toward the center of the iris F or the pupil G, and can be represented by the rotation angle yaw with respect to a reference direction in the horizontal plane, and the rotation angle pitch with respect to a reference direction in the up-down direction. In addition, when the eyeball center O is used as a reference, the central coordinates of the iris F or the pupil G can be represented by the eyeball radius R, yaw, and pitch. On the other hand, since the image captured by the photographing unit 12 represents a two-dimensional plane, when applying a two-dimensional image captured by the photographing unit 12 to the 3D eyeball model, it is necessary to perform two-dimensional/three-dimensional mutual conversion. For example, the conversion is performed using the following formula.

X=-R×cos(pitch)×sin(yaw)・・・(1)
Y=R×sin(pitch) ・・・(2)
X:二次元画像平面上での眼球中心Oからのx方向の距離
Y:二次元画像平面上での眼球中心Oからのy方向の距離
X=-R×cos(pitch)×sin(yaw)...(1)
Y=R×sin(pitch)...(2)
X: distance in the x direction from the eyeball center O on the two-dimensional image plane Y: distance in the y direction from the eyeball center O on the two-dimensional image plane

次に、顔画像から黒目を探索する処理について図6の(B)を参照して説明する。ステップS41では、処理部13は、図5中のステップS15の結果を利用し、1フレーム全体の二次元画像データの中から目及びその周辺の矩形領域を切り出して、データD41を取得する。 Next, the process of searching for the iris from a face image will be described with reference to FIG. 6B. In step S41, the processing unit 13 uses the result of step S15 in FIG. 5 to cut out the eyes and a rectangular area around them from the two-dimensional image data of one entire frame, and obtains data D41.

ステップS42では、処理部13は、ステップS41で取得したデータD41を画素毎の階調が黒/白の二値のみになるように二値化したデータD42を生成した後で、このデータD42に対して図5中のステップS17のテンプレートマッチングを実施する。すなわち、黒目の形状に似た黒丸形状の画像をテンプレートとして利用し、このテンプレートをデータD42の画像上で走査しながら、特徴が尤も似ている大凡の黒目の位置を探索し、その位置および黒目の半径または直径を特定する。 In step S42, the processing unit 13 generates data D42 by binarizing the data D41 acquired in step S41 so that the gradation for each pixel is only two values, black/white, and then performs template matching on this data D42 in step S17 in FIG. 5. That is, an image of a black circle shape similar to the shape of the iris is used as a template, and while scanning the image of data D42 with this template, the approximate position of the iris with the most similar features is searched for, and the position and the radius or diameter of the iris are identified.

ステップS43では、処理部13は、ステップS41で取得した目のデータD41に対してソーベルフィルタの処理を施す。具体的には、目のデータD41を左から右に向かって水平方向に順次に走査し、輝度変化のない部分では黒(階調値:0)を出力し、輝度変化の勾配が大きいほど白(階調値:255)に近づくようにして、エッジを検出する。これにより、エッジを抽出した目画像のデータD43が得られる。 In step S43, the processing unit 13 applies Sobel filter processing to the eye data D41 acquired in step S41. Specifically, the eye data D41 is scanned horizontally from left to right, and edges are detected by outputting black (tone value: 0) in areas where there is no change in luminance, and approaching white (tone value: 255) as the gradient of the luminance change increases. This results in the acquisition of eye image data D43 from which edges have been extracted.

ステップS44では、処理部13は、ステップS42で得られた大凡の黒目の位置を起点として、ステップS43で得られた目画像のデータD43に対してパーティクルフィルタの処理を実行する。パーティクルフィルタによる黒目検出は、以下の[1]~[4]の順に行う。 In step S44, the processing unit 13 performs particle filter processing on the eye image data D43 obtained in step S43, starting from the approximate position of the iris obtained in step S42. Iris detection using the particle filter is performed in the following order [1] to [4].

[1]処理部13は、テンプレートマッチングで大まかな黒目位置を探索する
[2]処理部13は、眼球3Dモデルに基づき、上記[1]の黒目位置から眼球回転角を算出する。
[3]処理部13は、上記[2]で得た大まかな眼球回転角近傍に、黒目楕円候補サンプリングのためのパーティクルを散布する。
[4]処理部13は、[3]で散布した黒目楕円候補位置での尤度を計算する。ここで尤度は黒目楕円候補44aにおいて、ソーベルフィルタのエッジ画像D44を参照しエッジと抽出された点であれば+1、エッジでなければ+0として、円周上の全点で合計したスコアを算出した値を尤度とする。
[5]散布したパーティクルに対して尤度を計算し、散布位置に対して尤度の変化傾向を捉えた上で検出結果を出力する。すなわち、複数のパーティクルの散布結果より、散布位置変化に対して尤度が最大になる点を検出結果として出力する。
[1] The processing unit 13 searches for a rough position of the iris by template matching. [2] The processing unit 13 calculates the eyeball rotation angle from the iris position in [1] above based on a 3D eyeball model.
[3] The processing unit 13 scatters particles for sampling iris ellipse candidates in the vicinity of the rough eyeball rotation angle obtained in [2] above.
[4] The processing unit 13 calculates the likelihood at the iris ellipse candidate positions scattered in [3]. Here, the likelihood is calculated by summing the scores of all points on the circumference of the iris ellipse candidate 44a, calculating +1 for points extracted as edges by referring to the edge image D44 of the Sobel filter, and +0 for points not extracted as edges.
[5] Calculate the likelihood for the scattered particles, and output the detection result after capturing the trend of change in the likelihood with respect to the scattering position. In other words, from the scattering results of multiple particles, the point at which the likelihood is maximized with respect to the scattering position change is output as the detection result.

上記[3]の眼球回転角近傍は、図6の(A)に示した眼球3Dモデルのyaw、pitchの値に乱数によるブレを加え複数パターン作成する。このとき、次フレームの検出のブレの変化量は、その前のフレームの検出結果より生成される。すなわち、乱数の中央値より検出結果の差が大きくなるほど、乱数によるブレの変化量は大きくなる。 For the vicinity of the eyeball rotation angle in [3] above, multiple patterns are created by adding blur due to random numbers to the yaw and pitch values of the 3D eyeball model shown in Figure 6 (A). At this time, the amount of change in blur detected in the next frame is generated from the detection result of the previous frame. In other words, the greater the difference in the detection result from the median of the random numbers, the greater the amount of change in blur due to the random numbers.

処理部13は、図3の(A)に示すように、モデルベース視線推定(第2視線推定処理)を実行し、当該視線推定処理の結果が条件Aを満たす場合、アピアランスベース視線推定(第1視線推定処理)を実行する。一方、処理部13は、第1視線推定処理を実行した際、当該第1視線推定処理を実行する前に行う顔向き算出処理の結果が条件Bを満たす場合、第2視線推定処理を実行する。条件Aは、例えば、第2視線推定処理にて推定された視線角度が±θ°以内である。θ°(yaw,pitch)は、モデルベース視線推定で得られた視線角度に基づいてアピアランスベース視線推定へ遷移する閾値であり、アピアランスベース視線推定における対応範囲を示す。条件Bは、顔向き算出処理にて算出された顔向き角度が±φ°以上である。φ°(yaw,pitch)は、アピアランスベース視線推定からモデルベース視線推定に遷移する顔向き角度の閾値である。φ°は、アピアランスベース視線推定における対応範囲θ°に基づいて設定することができる。例えば、対象物を見たときの顔向きと視線角度との関連性について検討された分担比に基づいて設定することができる。分担比の詳細については、例えば、下記文献に示されている。なお、処理部13は、システム起動直後は、初期設定を行い、初期設定後は第2視線推定処理を実行する。
「2次元平面上の指標を注視させたときの頭部運動と眼球運動の協調関係の分析、山田光穂、電子情報通信学会論文誌D Vol.J75-D2 No.5 pp971-981 1992年5月」
As shown in FIG. 3A, the processing unit 13 executes model-based gaze estimation (second gaze estimation process), and executes appearance-based gaze estimation (first gaze estimation process) if the result of the gaze estimation process satisfies condition A. On the other hand, when the processing unit 13 executes the first gaze estimation process, if the result of the face direction calculation process executed before executing the first gaze estimation process satisfies condition B, the processing unit 13 executes the second gaze estimation process. Condition A is, for example, a gaze angle estimated in the second gaze estimation process within ±θ°. θ° (yaw, pitch) is a threshold value for transitioning to appearance-based gaze estimation based on the gaze angle obtained in the model-based gaze estimation, and indicates a corresponding range in the appearance-based gaze estimation. Condition B is a face direction angle calculated in the face direction calculation process is ±φ° or more. φ° (yaw, pitch) is a threshold value for the face direction angle for transitioning from appearance-based gaze estimation to model-based gaze estimation. φ° can be set based on the corresponding range θ° in appearance-based gaze estimation. For example, it can be set based on a sharing ratio that has been considered regarding the relationship between the face direction when looking at an object and the gaze angle. Details of the sharing ratio are shown in, for example, the following document. Note that the processing unit 13 performs initial setting immediately after the system is started, and executes the second gaze estimation process after the initial setting.
"Analysis of the Coordination of Head and Eye Movements When Gazing at a Two-Dimensional Indicator, Mitsuho Yamada, IEICE Transactions on Computer Science and Technology Vol. J75-D2 No. 5 pp. 971-981 May 1992"

第1判定部15Aは、各撮影画像から得られる運転者20の視線24の変化が伴う動作に応じて、当該視線24が、第1対象範囲41に向いているか、第2対象範囲42に向いているかを判定する。各撮影画像から得られる運転者20の視線24の変化が伴う動作とは、例えば、顔の向きを変える動作や体の向きを変える動作である。本実施形態では、顔向きを変える動作とする。第1判定部15Aは、各撮影画像から運転者20の顔向き角度を算出し、当該顔向き角度に基づいて、視線24が第1対象範囲41に向いているか、第2対象範囲42に向いているかを判定する。 The first determination unit 15A determines whether the line of sight 24 of the driver 20 is directed toward the first target range 41 or the second target range 42, depending on the movement accompanied by a change in the line of sight 24 of the driver 20 obtained from each captured image. The movement accompanied by a change in the line of sight 24 of the driver 20 obtained from each captured image is, for example, a movement of turning the face or a movement of turning the body. In this embodiment, the movement is a movement of turning the face. The first determination unit 15A calculates the facial direction angle of the driver 20 from each captured image, and determines whether the line of sight 24 is directed toward the first target range 41 or the second target range 42, based on the facial direction angle.

第1対象範囲41は、運転者20の視認範囲のうち、相対的に高精度な視線の推定を要求される範囲に設定される。第1対象範囲41は、図3の(B)に示すように、例えば、運転視野範囲である。運転視野範囲では、例えば、運転者20が前方を走行する車両のブレーキランプを見たか、赤信号を確認したか、遠方の横断歩道の歩行者を見たかといった視線の向きを推定することが要求される。第2対象範囲42は、運転者20の視認範囲のうち、第1対象範囲41の外側にあって第1対象範囲41以上の高精度な視線の推定を要求されない範囲である。第2対象範囲42は、例えば、運転者20が安全確認や、脇見をした際に視線を向ける範囲である。 The first target range 41 is set to a range within the visible range of the driver 20 that requires a relatively high-precision gaze estimation. The first target range 41 is, for example, the driving visual field range, as shown in FIG. 3B. In the driving visual field range, it is required to estimate the gaze direction, for example, whether the driver 20 saw the brake lights of the vehicle ahead, whether the driver saw a red light, or whether the driver saw a pedestrian at a crosswalk in the distance. The second target range 42 is a range within the visible range of the driver 20 that is outside the first target range 41 and does not require a gaze estimation with a higher degree of precision than the first target range 41. The second target range 42 is, for example, a range into which the driver 20 looks when checking for safety or looking aside.

第2判定部15Bは、第2推定視線情報を得た場合、当該第2推定視線情報に基づいて、視線24が第1対象範囲41に向いているか、第2対象範囲42に向いているかを判定する。 When the second judgment unit 15B obtains the second estimated gaze information, it judges whether the gaze 24 is directed toward the first target range 41 or the second target range 42 based on the second estimated gaze information.

第3判定部15Cは、直前に実行された視線の推定処理が第1視線推定処理か、第2視線推定処理かを判定する。 The third determination unit 15C determines whether the gaze estimation process executed immediately before was the first gaze estimation process or the second gaze estimation process.

次に、視線推定システム1で実行される視線推定処理のアルゴリズムについて図3及び図7を参照して説明する。図7に示す処理は、例えば、電源投入(例えば車両2のIGNのON)に応じて、処理部13が記憶部から読みだしたプログラムを実行することにより、各ステップが順次行われる。 Next, the algorithm of the gaze estimation process executed by the gaze estimation system 1 will be described with reference to Figs. 3 and 7. In the process shown in Fig. 7, each step is performed sequentially by the processing unit 13 executing a program read from the memory unit in response to, for example, power-on (e.g., turning on the IGN of the vehicle 2).

ステップS31では、撮影ユニット12は、運転者20の顔を含む映像を撮影して映像の信号を出力する。処理部13は、撮影ユニット12から映像の信号を1フレーム分取り込む。このとき、処理部13は、グレースケール化を含む、画像のデータ形式の変換やサイズの変更などを必要に応じて実行する。 In step S31, the photographing unit 12 photographs an image including the face of the driver 20 and outputs an image signal. The processing unit 13 captures one frame of the image signal from the photographing unit 12. At this time, the processing unit 13 converts the data format of the image, including grayscaling, and changes the size, as necessary.

ステップS32では、処理部13は、ステップS31で取り込んだ撮影画像に基づいて、例えば、上述した「Viola-Jones法」を用いて顔検出を行い、1フレームの二次元画像データの中から顔を含む顔画像を抽出する。 In step S32, the processing unit 13 performs face detection using, for example, the above-mentioned "Viola-Jones method" based on the captured image captured in step S31, and extracts a facial image including a face from one frame of two-dimensional image data.

ステップS33では、処理部13は、ステップS32で抽出した顔画像内で目検出を行う。処理部13は、例えば、上述した「Viola-Jones法」により、目の位置を検出することも可能だが、後段のステップで顔向き算出を行うため、顔の特徴点検出を行い、目の特徴点を包含する矩形部分を特定する手法が好ましい。例えば、下記サイトに示す一般的な顔の特徴点検出アルゴリズムを使用してもよい。 Facial point annotations :https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/ In step S33, the processing unit 13 performs eye detection in the face image extracted in step S32. The processing unit 13 can detect the position of the eyes using, for example, the above-mentioned "Viola-Jones method", but in order to calculate the face direction in a later step, it is preferable to perform a method of detecting facial feature points and identifying a rectangular part that includes the eye feature points. For example, a general facial feature point detection algorithm shown on the following site may be used. Facial point annotations: https://ibug.doc.ic.ac.uk/resources/facial-point-annotations/

ステップS34では、処理部13は、ステップS32で抽出した顔画像内で顔の向きを算出する。ステップS33で実行されるアルゴリズムには、顔の向きを算出するアルゴリズムが含まれる。これは、標準的な顔モデルを予め作成しておき、検出された2次元の特徴点配置と対応する各点の位置を比較することによって、顔向きの回転角度(yaw,pitch,roll)を推定する手法である。なお、顔向き角度は、後段のステップで使用されるので、例えば、処理部13内の記憶部に一時格納される。なお、ステップS32~S34で実行されるアルゴリズムは、上述した手法以外のソフトウェアを用いて実現してもよい。 In step S34, the processing unit 13 calculates the face direction in the face image extracted in step S32. The algorithm executed in step S33 includes an algorithm for calculating the face direction. This is a method of estimating the rotation angle (yaw, pitch, roll) of the face direction by creating a standard face model in advance and comparing the position of each point corresponding to the detected two-dimensional feature point arrangement. Note that the face direction angle is used in a later step, so it is temporarily stored in a memory unit in the processing unit 13, for example. Note that the algorithm executed in steps S32 to S34 may be realized using software other than the above-mentioned method.

ステップS35では、処理部13は、直前に実行された視線推定処理があるか否かを判定する。処理部13は、例えば、記憶部にソフトウェア使用ログが記録されているか否かを判定する。ここでソフトウェア使用ログには、上記第1視線推定処理に対応するものと、上記第2視線推定処理に対応するものとがある。処理部13は、記憶部にソフトウェア使用ログが記録されていない場合、直前に実行された視線推定処理がないと判定して、ステップS41へ移行する。記憶部にソフトウェア使用ログが記録されていない場合とは、例えば、初期フレームに対して視線推定処理を実行する場合やシステムが初期化された場合が含まれる。または、前段の顔検出や目検出において検出できない、すなわち運転者20の顔21が横や後ろを向いていることで、当該顔21や眼22が画像範囲内に存在しない場合が含まれる。ステップS35の判定の結果、記憶部にソフトウェア使用ログが記録されている場合、ステップS36へ進む。 In step S35, the processing unit 13 determines whether or not there is a gaze estimation process that has been executed immediately before. The processing unit 13 determines, for example, whether or not a software usage log is recorded in the storage unit. Here, the software usage log includes a log corresponding to the first gaze estimation process and a log corresponding to the second gaze estimation process. If the software usage log is not recorded in the storage unit, the processing unit 13 determines that there is no gaze estimation process that has been executed immediately before, and proceeds to step S41. The case where the software usage log is not recorded in the storage unit includes, for example, a case where the gaze estimation process is executed for the initial frame or a case where the system is initialized. Alternatively, the face 21 or eyes 22 cannot be detected in the previous face detection or eye detection, that is, the face 21 of the driver 20 is facing to the side or backward, and the face 21 or eyes 22 are not present within the image range. If the software usage log is recorded in the storage unit as a result of the determination in step S35, the processing proceeds to step S36.

ステップS36では、処理部13は、直前に実行された視線の推定処理が第1視線推定処理か、第2視線推定処理かを判定する。ステップS36は、第3判定部15Cにより実行される。処理部13は、記憶部に記録されたソフトウェア使用ログを参照し、第1視線推定処理に対応するものか、第2視線推定処理に対応するものかを判定する。処理部13は、ソフトウェア使用ログが第1視線推定処理に対応するものである場合、ステップS37へ進む。一方、ソフトウェア使用ログが第2視線推定処理に対応するものである場合、ステップS41へ進む。 In step S36, the processing unit 13 determines whether the gaze estimation process executed immediately before was the first gaze estimation process or the second gaze estimation process. Step S36 is executed by the third determination unit 15C. The processing unit 13 refers to the software usage log recorded in the memory unit and determines whether it corresponds to the first gaze estimation process or the second gaze estimation process. If the software usage log corresponds to the first gaze estimation process, the processing unit 13 proceeds to step S37. On the other hand, if the software usage log corresponds to the second gaze estimation process, the processing unit 13 proceeds to step S41.

ステップS37では、処理部13は、顔向き角度が±φ°以上か否かを判定する。ステップS37は、第1判定部15Aにより実行される。顔向き角度は、ステップS34で算出されたものである。処理部13は、顔向き角度が±φ°以上であると判定した場合、運転者20の視線24が第2対象範囲42を向いていると判定して、ステップS41へ進む。一方、顔向き角度が±φ°以上でないと判定した場合、運転者20の視線24が第1対象範囲41を向いていると判定して、ステップS38へ進む。 In step S37, the processing unit 13 determines whether the face direction angle is ±φ° or more. Step S37 is executed by the first determination unit 15A. The face direction angle is the one calculated in step S34. If the processing unit 13 determines that the face direction angle is ±φ° or more, it determines that the line of sight 24 of the driver 20 is directed toward the second target range 42, and proceeds to step S41. On the other hand, if the processing unit 13 determines that the face direction angle is not ±φ° or more, it determines that the line of sight 24 of the driver 20 is directed toward the first target range 41, and proceeds to step S38.

ステップS38では、処理部13は、上記第1視線推定処理を実行して、ステップS39へ進む。 In step S38, the processing unit 13 executes the first gaze estimation process and proceeds to step S39.

ステップS39では、処理部13は、実行した視線推定処理の結果を出力して、ステップS40へ進む。 In step S39, the processing unit 13 outputs the result of the gaze estimation process that was performed and proceeds to step S40.

ステップS40では、処理部13は、実行した視線推定処理を示すソフトウェア使用ログを記憶部に記録してステップS31に戻る。 In step S40, the processing unit 13 records a software usage log indicating the gaze estimation process that was performed in the memory unit and returns to step S31.

ステップS41では、処理部13は、上記第2視線推定処理を実行して、ステップS42へ進む。処理部13は、実行した視線推定処理の結果を記憶部に一時記録する。 In step S41, the processing unit 13 executes the second gaze estimation process and proceeds to step S42. The processing unit 13 temporarily records the result of the executed gaze estimation process in the memory unit.

ステップS42では、処理部13は、視線角度が±θ°以内か否かを判定する。ステップS42は、第2判定部15Bにより実行される。視線角度は、ステップS41で推定されたものである。処理部13は、視線角度が±θ°以内であると判定した場合、運転者20の視線24が第1対象範囲41に向いていると判定し、ステップS41で一時記録された視線推定処理の結果を消去してステップS38へ進む。一方、視線角度が±θ°以内でないと判定した場合、運転者20の視線24が第2対象範囲42に向いていると判定し、ステップS39へ進む。 In step S42, the processing unit 13 determines whether the gaze angle is within ±θ°. Step S42 is executed by the second determination unit 15B. The gaze angle is the one estimated in step S41. If the processing unit 13 determines that the gaze angle is within ±θ°, it determines that the gaze 24 of the driver 20 is directed toward the first target range 41, erases the result of the gaze estimation process temporarily recorded in step S41, and proceeds to step S38. On the other hand, if it determines that the gaze angle is not within ±θ°, it determines that the gaze 24 of the driver 20 is directed toward the second target range 42, and proceeds to step S39.

以上説明した視線推定システム1は、撮影画像から得られる運転者20の視線24が、相対的に高い精度を要求される第1対象範囲41に向いているか、第1対象範囲41の外側にあって第1対象範囲41以上の高い精度を要求されない第2対象範囲42に向いているかを判定する。この結果、視線24が第1対象範囲41に向いていると判定した場合、アピアランスベース手法による視線の推定処理を行って第1推定視線情報を生成する第1視線推定処理を実行する。一方、視線24が第2対象範囲42に向いていると判定した場合、モデルベース手法による視線の推定処理を行って第2推定視線情報を生成する第2視線推定処理を実行する。 The gaze estimation system 1 described above determines whether the gaze 24 of the driver 20 obtained from the captured image is directed toward a first target range 41, which requires a relatively high level of accuracy, or toward a second target range 42, which is outside the first target range 41 and does not require a higher level of accuracy than the first target range 41. As a result, if it is determined that the gaze 24 is directed toward the first target range 41, a first gaze estimation process is executed in which a gaze estimation process using an appearance-based method is performed to generate first estimated gaze information. On the other hand, if it is determined that the gaze 24 is directed toward the second target range 42, a second gaze estimation process is executed in which a gaze estimation process using a model-based method is performed to generate second estimated gaze information.

上記構成により、運転者20が、高い精度が要求される第1対象範囲41に視線を向けている場合には、アピアランスベース手法により高精度に視線を推定することができ、高い精度を要求されない第2対象範囲42に視線を向けている場合には、アピアランスベース手法より処理負荷が低いモデルベース手法により視線推定を行うことができる。この結果、アピアランスベース手法のみを用いて視線を推定する場合に比べて処理負荷を軽減することができ、モデルベースのみを用いて視線を推定する場合に比べて高精度な視線を推定することができ、処理負荷の軽減と、高精度な視線推定との両立を図ることができる。また、視線推定システム1を車両に適用した場合、車両前方の運転視野範囲における視線、運転者20の安全確認や脇見といった運転視野範囲外の視線を推定することができる。 With the above configuration, when the driver 20 is directing his/her gaze to the first target range 41, which requires high accuracy, the gaze can be estimated with high accuracy using the appearance-based method, and when the driver is directing his/her gaze to the second target range 42, which does not require high accuracy, the gaze can be estimated using the model-based method, which has a lower processing load than the appearance-based method. As a result, the processing load can be reduced compared to when estimating the gaze using only the appearance-based method, and the gaze can be estimated with high accuracy compared to when estimating the gaze using only the model-based method, so that both the reduction in processing load and high accuracy gaze estimation can be achieved. In addition, when the gaze estimation system 1 is applied to a vehicle, it is possible to estimate the gaze in the driving field of view in front of the vehicle and the gaze outside the driving field of view, such as the driver 20 checking for safety or looking aside.

また、視線推定システム1は、動作が運転者20の顔向き動作である場合、各撮影画像から運転者20の顔向き角度を算出し、当該顔向き角度に基づいて、視線24が第1対象範囲41に向いているか、第2対象範囲42に向いているかを判定する。これにより、例えば、画像ごとに第2視線推定処理を実行し、運転者20の視線24が第1対象範囲41と第2対象範囲42のどちらを向いているかを判定する場合と比較して、運転者20の顔向き角度に基づいて視線24がどちらの対象範囲を向いているかを判定する方が処理負荷を軽減することができる。 Furthermore, when the action is a facial movement of the driver 20, the gaze estimation system 1 calculates the facial direction angle of the driver 20 from each captured image, and determines whether the gaze 24 is directed toward the first target range 41 or the second target range 42 based on the facial direction angle. As a result, the processing load can be reduced by determining which target range the gaze 24 is directed toward based on the facial direction angle of the driver 20, compared to, for example, performing the second gaze estimation process for each image and determining whether the gaze 24 of the driver 20 is directed toward the first target range 41 or the second target range 42.

また、視線推定システム1は、第2視線推定視線情報に基づいて、視線24が第1対象範囲41に向いているか、第2対象範囲42に向いているかを判定し、視線24が第1対象範囲41に向いていると判定した場合、第1視線推定処理を実行する。これにより、例えば、運転者20の視線24が第1対象範囲41に向いていると判定すべきところを誤って第2対象範囲42を向いていると判定して第2視線推定処理で視線推定を行ったとしても、第1視線推定処理を実行することができ、第1対象範囲41に向いた視線を高精度に推定することができる。 Furthermore, the gaze estimation system 1 determines whether the gaze 24 is directed toward the first target range 41 or the second target range 42 based on the second gaze estimation gaze information, and executes the first gaze estimation process if it determines that the gaze 24 is directed toward the first target range 41. As a result, even if it erroneously determines that the gaze 24 of the driver 20 is directed toward the second target range 42 instead of the first target range 41 and performs gaze estimation in the second gaze estimation process, it is possible to execute the first gaze estimation process and estimate the gaze directed toward the first target range 41 with high accuracy.

また、視線推定システム1は、直前に実行された視線の推定処理が第1視線推定処理か、第2視線推定処理かを判定し、直前に実行された視線の推定処理が、第2視線推定処理である場合、第2視線推定処理を実行し、第1視線推定処理である場合、第1判定部15Aによる判定を行う。これにより、例えば、直前に実行された視線の推定処理が第2視線推定処理の場合、第1判定部15Aによる判定を行うことなく第2視線推定処理を行うことから、第1判定部15Aによる判定分の処理を軽減することができる。 The gaze estimation system 1 also determines whether the gaze estimation process executed immediately before was the first gaze estimation process or the second gaze estimation process, and if the gaze estimation process executed immediately before was the second gaze estimation process, executes the second gaze estimation process, and if it was the first gaze estimation process, makes a determination by the first determination unit 15A. As a result, for example, if the gaze estimation process executed immediately before was the second gaze estimation process, the second gaze estimation process is performed without making a determination by the first determination unit 15A, thereby reducing the amount of processing for determination by the first determination unit 15A.

[変形例]
なお、上記実施形態では、視線推定システム1は、自動車等の車両2に適用されているが、これに限定されず、例えば車両2以外の船舶や航空機等に適用してもよい。また、視線推定システム1は、撮影ユニット12と、処理部13とに分かれているが、これに限定されず、一体で構成されていてもよい。
[Modification]
In the above embodiment, the gaze estimation system 1 is applied to a vehicle 2 such as an automobile, but is not limited thereto, and may be applied to, for example, a ship or an aircraft other than the vehicle 2. In addition, the gaze estimation system 1 is separated into the photographing unit 12 and the processing unit 13, but is not limited thereto, and may be configured as an integrated unit.

また、視線推定システム1をデジタルサイネージに適用してもよい。例えば、デジタルサイネージに撮影ユニット12を設置することで、通行人がデジタルサイネージのどこを見たかを分析することができる。図8に示す例では、中央のデジタルサイネージ51の上部に撮影ユニット12を設置している。なお、撮影ユニット12の設置位置は下部でもよいが、設置位置と測定対象者のあらわれる範囲に応じて、アピアランスベース手法による視線推定に使用する学習済モデルを学習させるための視線角度情報と顔画像を対応させた視線データベースを作成する必要がある。このような視線推定システムでは、撮影ユニット12を設置したデジタルサイネージ51内では、アピアランスベース手法による視線推定を用いることで、当該デジタルサイネージ51内のどの部分に着目したかを精度よく推定することができる。また、デジタルサイネージ外52では、モデルベース手法による視線推定を用いることで、例えばデジタルサイネージ51の左右に隣接するデジタルサイネージ外52のどちらを見ているかといった視線情報を推定することができる。また、これらの視線位置と注視している時間を合わせて記録することで、表示しているコンテンツの注目度合を計測することが可能になる。 The gaze estimation system 1 may also be applied to digital signage. For example, by installing the photographing unit 12 on the digital signage, it is possible to analyze where passersby looked on the digital signage. In the example shown in FIG. 8, the photographing unit 12 is installed on the top of the central digital signage 51. The photographing unit 12 may be installed at the bottom, but it is necessary to create a gaze database that corresponds gaze angle information and face images to learn a trained model used for gaze estimation by the appearance-based method according to the installation position and the range in which the measurement subject appears. In such a gaze estimation system, within the digital signage 51 in which the photographing unit 12 is installed, it is possible to accurately estimate which part of the digital signage 51 is focused on by using gaze estimation by the appearance-based method. Furthermore, within the digital signage outside 52, it is possible to estimate gaze information such as which of the digital signage outside 52 adjacent to the left and right of the digital signage 51 is being looked at by using gaze estimation by the model-based method. In addition, by recording the gaze position and the duration of gaze, it is possible to measure the degree of attention to the displayed content.

また、上記実施形態では、処理回路は、単一のプロセッサによって各処理機能が実現されるものとして説明したがこれに限らない。処理回路は、複数の独立したプロセッサを組み合わせて各プロセッサがプログラムを実行することにより各処理機能が実現されてもよい。また、処理回路が有する処理機能は、単一又は複数の処理回路に適宜に分散又は統合されて実現されてもよい。また、処理回路が有する処理機能は、その全部又は任意の一部をプログラムにて実現してもよく、また、ワイヤードロジック等によるハードウェアとして実現してもよい。 In the above embodiment, the processing circuit has been described as having each processing function realized by a single processor, but this is not limited to the above. The processing circuit may be configured by combining multiple independent processors, each of which executes a program to realize each processing function. The processing functions of the processing circuit may be realized by distributing or integrating them as appropriate in a single or multiple processing circuits. The processing functions of the processing circuit may be realized in whole or in any part by a program, or may be realized as hardware using wired logic or the like.

以上で説明したプロセッサによって実行されるプログラムは、記憶回路等に予め組み込まれて提供される。なお、このプログラムは、これらの装置にインストール可能な形式又は実行可能な形式のファイルで、コンピュータで読み取り可能な記憶媒体に記録されて提供されてもよい。また、このプログラムは、インターネット等のネットワークに接続されたコンピュータ上に格納され、ネットワーク経由でダウンロードされることにより提供又は配布されてもよい。 The program executed by the processor described above is provided by being pre-installed in a storage circuit or the like. This program may also be provided by being recorded on a computer-readable storage medium in a format that can be installed on these devices or in a format that can be executed. This program may also be provided or distributed by being stored on a computer connected to a network such as the Internet and downloaded via the network.

1 視線推定システム
2 車両
12 撮影ユニット
13 処理部
14A 第1視線推定処理部
14B 第2視線推定処理部
15A 第1判定部
15B 第2判定部
15C 第3判定部
20 運転者
21 顔
22 眼
REFERENCE SIGNS LIST 1 Gaze estimation system 2 Vehicle 12 Shooting unit 13 Processing unit 14A First gaze estimation processing unit 14B Second gaze estimation processing unit 15A First determination unit 15B Second determination unit 15C Third determination unit 20 Driver 21 Face 22 Eyes

Claims (4)

測定対象者の顔を含む撮影画像を時系列上連続して取得する画像取得部と、
取得された各前記撮影画像に基づいて前記測定対象者の視線の推定処理を実行する処理部と、を備え、
前記処理部は、
前記測定対象者の顔を含む学習画像に基づいてアピアランスベース手法による視線の推定処理を行って第1推定視線情報を生成する第1視線推定処理、及び、前記学習画像に基づいてモデルベース手法による視線の推定処理を行って第2推定視線情報を生成する第2視線推定処理を実行するものであり、
各前記撮影画像から得られる前記測定対象者の視線の変化が伴う動作に応じて、当該視線が、相対的に高い精度を要求される第1対象範囲に向いているか、前記第1対象範囲の外側にあって前記第1対象範囲以上の高い精度を要求されない第2対象範囲に向いているかを判定する第1判定部を有し、
前記第1判定部により前記視線が前記第1対象範囲に向いていると判定された場合、前記第1視線推定処理を実行し、
前記視線が前記第2対象範囲に向いていると判定された場合、前記第2視線推定処理を実行する、
ことを特徴とする視線推定システム。
an image acquisition unit that acquires photographed images including a face of a subject in a time series;
a processing unit that executes an estimation process of the line of sight of the measurement subject based on each of the acquired photographic images,
The processing unit includes:
a first gaze estimation process for performing a gaze estimation process by an appearance-based method based on a learning image including a face of the measurement subject to generate first estimated gaze information, and a second gaze estimation process for performing a gaze estimation process by a model-based method based on the learning image to generate second estimated gaze information,
a first determination unit that determines, according to a movement accompanied by a change in the line of sight of the measurement subject obtained from each of the captured images, whether the line of sight is directed toward a first target range requiring a relatively high degree of accuracy or toward a second target range outside the first target range and not requiring a higher degree of accuracy than the first target range;
When the first determination unit determines that the line of sight is directed toward the first target range, the first line of sight estimation process is executed;
When it is determined that the line of sight is directed toward the second target range, the second line of sight estimation process is executed.
The gaze estimation system is characterized by:
前記動作は、前記測定対象者の顔の動きであり、
前記第1判定部は、
各前記撮影画像から前記測定対象者の顔向き角度を算出し、当該顔向き角度に基づいて、前記視線が前記第1対象範囲に向いているか、前記第2対象範囲に向いているかを判定する、
請求項1に記載の視線推定システム。
The movement is a facial movement of the measurement subject,
The first determination unit is
calculating a face direction angle of the measurement subject from each of the captured images, and determining whether the line of sight is directed toward the first target range or the second target range based on the face direction angle;
The gaze estimation system according to claim 1 .
前記処理部は、
前記第2推定視線情報を得た場合、当該第2推定視線情報に基づいて、前記視線が前記第1対象範囲に向いているか、前記第2対象範囲に向いているかを判定する第2判定部をさらに有し、
前記第2判定部により前記視線が前記第1対象範囲に向いていると判定された場合、前記第1視線推定処理を実行する、
請求項1または2に記載の視線推定システム。
The processing unit includes:
a second determination unit that, when the second estimated gaze information is obtained, determines whether the gaze is directed toward the first target range or the second target range based on the second estimated gaze information;
When the second determination unit determines that the line of sight is directed toward the first target range, the first line of sight estimation process is executed.
The gaze estimation system according to claim 1 .
前記処理部は、
直前に実行された視線の推定処理が前記第1視線推定処理か、前記第2視線推定処理かを判定する第3判定部をさらに有し、
前記第3判定部により、直前に実行された視線の推定処理が前記第2視線推定処理であると判定された場合、前記第2視線推定処理を実行し、直前に実行された視線の推定処理が前記第1視線推定処理であると判定された場合、前記第1判定部による判定を行う、
請求項3に記載の視線推定システム。
The processing unit includes:
a third determination unit that determines whether a previously executed gaze estimation process is the first gaze estimation process or the second gaze estimation process,
When the third determination unit determines that the gaze estimation process executed immediately before is the second gaze estimation process, the second gaze estimation process is executed, and when the third determination unit determines that the gaze estimation process executed immediately before is the first gaze estimation process, a determination is made by the first determination unit.
The gaze estimation system according to claim 3 .
JP2021095579A 2021-06-08 2021-06-08 Gaze Estimation System Active JP7633885B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021095579A JP7633885B2 (en) 2021-06-08 2021-06-08 Gaze Estimation System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021095579A JP7633885B2 (en) 2021-06-08 2021-06-08 Gaze Estimation System

Publications (2)

Publication Number Publication Date
JP2022187546A JP2022187546A (en) 2022-12-20
JP7633885B2 true JP7633885B2 (en) 2025-02-20

Family

ID=84531950

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021095579A Active JP7633885B2 (en) 2021-06-08 2021-06-08 Gaze Estimation System

Country Status (1)

Country Link
JP (1) JP7633885B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160005176A1 (en) 2013-02-27 2016-01-07 Thomson Licensing Method and device for calibration-free gaze estimation
WO2018030515A1 (en) 2016-08-12 2018-02-15 国立大学法人静岡大学 Line-of-sight detection device
JP2019028640A (en) 2017-07-28 2019-02-21 アルプス電気株式会社 Visual line detection device
WO2020183732A1 (en) 2019-03-14 2020-09-17 日本電気株式会社 Information processing device, information processing system, information processing method, and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160005176A1 (en) 2013-02-27 2016-01-07 Thomson Licensing Method and device for calibration-free gaze estimation
WO2018030515A1 (en) 2016-08-12 2018-02-15 国立大学法人静岡大学 Line-of-sight detection device
JP2019028640A (en) 2017-07-28 2019-02-21 アルプス電気株式会社 Visual line detection device
WO2020183732A1 (en) 2019-03-14 2020-09-17 日本電気株式会社 Information processing device, information processing system, information processing method, and recording medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
長松隆 外2名,キャリブレーションフリー視線計測手法の研究動向,ヒューマンインタフェース学会 論文誌 2021[CD-ROM],2021年02月25日,第23巻 第1号,pp.73~88

Also Published As

Publication number Publication date
JP2022187546A (en) 2022-12-20

Similar Documents

Publication Publication Date Title
US10318831B2 (en) Method and system for monitoring the status of the driver of a vehicle
KR101550474B1 (en) Method and device for finding and tracking pairs of eyes
EP3241151B1 (en) An image face processing method and apparatus
JP6322986B2 (en) Image processing apparatus, image processing method, and image processing program
RU2431190C2 (en) Facial prominence recognition method and device
CN111144207B (en) Human body detection and tracking method based on multi-mode information perception
Borghi et al. Hands on the wheel: a dataset for driver hand detection and tracking
JP4263737B2 (en) Pedestrian detection device
CN108304828B (en) Three-dimensional living body face recognition device and method
US20170186170A1 (en) Facial contour recognition for identification
US12288421B2 (en) Optical skin detection for face unlock
JP2014067193A (en) Image processing apparatus and image processing method
CN107203743B (en) A face depth tracking device and implementation method
US20110150322A1 (en) Three-dimensional multilayer skin texture recognition system and method
KR101961266B1 (en) Gaze Tracking Apparatus and Method
JP6340795B2 (en) Image processing apparatus, image processing system, image processing method, image processing program, and moving body control apparatus
Ballotta et al. Head detection with depth images in the wild
Shieh et al. Fast facial detection by depth map analysis
JP7633885B2 (en) Gaze Estimation System
US12154378B2 (en) Techniques for detecting a three-dimensional face in facial recognition
US20250095405A1 (en) System for identifying a display device
CN114761999A (en) Image processing method, image processing apparatus, and image processing program
JP6468755B2 (en) Feature point detection system, feature point detection method, and feature point detection program
CN117751391A (en) Privacy compliance monitoring of objects
KR20130143405A (en) A method of detecting human skin region utilizing depth information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250207

R150 Certificate of patent or registration of utility model

Ref document number: 7633885

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150