[go: up one dir, main page]

WO2017064838A1 - 顔検出装置およびこれを備えた顔検出システムならびに顔検出方法 - Google Patents

顔検出装置およびこれを備えた顔検出システムならびに顔検出方法 Download PDF

Info

Publication number
WO2017064838A1
WO2017064838A1 PCT/JP2016/004362 JP2016004362W WO2017064838A1 WO 2017064838 A1 WO2017064838 A1 WO 2017064838A1 JP 2016004362 W JP2016004362 W JP 2016004362W WO 2017064838 A1 WO2017064838 A1 WO 2017064838A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
detection
area
face area
areas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2016/004362
Other languages
English (en)
French (fr)
Inventor
一 田村
宏明 由雄
一樹 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2017545084A priority Critical patent/JP6803525B2/ja
Priority to US15/765,951 priority patent/US10496874B2/en
Publication of WO2017064838A1 publication Critical patent/WO2017064838A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/167Detection; Localisation; Normalisation using comparisons between temporally consecutive images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/446Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering using Haar-like filters, e.g. using integral image techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the present disclosure relates to a face detection apparatus that detects a human face area from time-series images, a face detection system including the face detection apparatus, and a face detection method.
  • the face feature point is a set of pixel points of a characteristic part in the captured image, and may be detected in a part other than the human face area.
  • the face region detected based on the face feature point is naturally erroneously detected.
  • FIGS. 3A and 3B when a facial feature point is detected in the collar portion 23 of the clothes 22 of the person 21, the collar portion 23 is erroneously detected as the face regions B t-1 and B t. Is done. If such a false detection occurs, subsequent processing using the detected face area (for example, face authentication processing, face matching processing, etc.) is affected, so it is desirable to eliminate the false detection.
  • the present disclosure has been devised in view of the problems of the conventional technology, and a face detection device capable of removing false detection when a plurality of face regions are detected in a captured image, and It is a main object of the present invention to provide a face detection system and a face detection method.
  • the face detection device of the present disclosure is a face detection device that detects a human face area from time-sequential captured images, the face detection processing for detecting the face area from the captured image, and the face area
  • the face detection processing for detecting the face area from the captured image
  • the face area When a plurality of detected face areas are detected, a movement direction between the captured images that follow each other in time series is calculated, and the correlation degree of the movement directions between the face areas is equal to or greater than a predetermined threshold.
  • the present invention is characterized in that a processor for performing correct / incorrect determination processing for determining correct / incorrect detection of face areas is provided for a plurality of face areas.
  • FIG. 1 is a block diagram illustrating a hardware configuration for realizing the face detection system of the present disclosure.
  • FIG. 2 is a flowchart showing the flow of face detection processing by the processor.
  • FIG. 3A is a diagram illustrating a detection result in the (t-1) th frame as an example of the detection result of the face area.
  • FIG. 3B is a diagram illustrating the detection result at the t-th frame as an example of the detection result of the face area.
  • FIG. 4 is a diagram for explaining the moving direction of each face area between image frames.
  • FIG. 5 is a diagram illustrating an example of the tracking result.
  • FIG. 6 is a diagram illustrating an example of a tracking range in a captured image.
  • FIG. 7 is a flowchart showing the flow of the correctness determination process.
  • FIG. 8 is a flowchart showing the flow of the correctness determination process.
  • FIG. 9 is a flowchart showing the flow of the correctness determination process.
  • a first disclosure made in order to solve the above-described problem is a face detection device that detects a face area of a person from time-sequential captured images, and detects the face area from the captured image.
  • a movement direction between the captured images that are in time series with respect to each face area is calculated, and a correlation degree of the movement directions between the face areas is calculated in advance.
  • the present invention is characterized in that a processor is provided that performs correct / incorrect determination processing for determining correctness of detection as a face region for a plurality of face regions that are equal to or greater than a predetermined threshold value.
  • the face detection device when a plurality of face regions are detected in a captured image, a plurality of faces having a high degree of correlation in the moving direction between captured images that follow each other in time series. Correct / incorrect determination processing for determining correctness as a face region can be performed on the region.
  • a plurality of face areas having a high degree of correlation in the moving direction include a part that moves together with the face area of the person (for example, a collar part of clothes worn by the person) as a false detection.
  • the correctness determination process may be configured such that the face in the plurality of face areas in which the degree of correlation in the movement direction between the face areas is equal to or greater than a predetermined threshold value. It is characterized in that a face area having the maximum evaluation value of the face likeness of the area is determined as positive detection, and other face areas are determined as erroneous detection.
  • the evaluation values of the facialness of each face region are obtained from each other for a plurality of face regions in which the degree of correlation in the movement direction between the face regions is equal to or greater than a predetermined threshold. By comparing, it is possible to determine the correctness of detection as a face region. As a result, when a plurality of face regions are detected in the captured image, it is possible to easily and easily remove erroneous detection.
  • the barycentric position of the face region in the plurality of face regions in which the correlation degree of the movement direction between the face regions is equal to or greater than a predetermined threshold value is characterized in that a face area in which a person's height direction coordinate value has an extreme value is determined as positive detection, and other face areas are determined as false detection.
  • the face detection device According to the face detection device according to the third disclosure, the height direction of the person at the center of gravity of each face area with respect to a plurality of face areas whose correlation degree in the moving direction between the face areas is equal to or greater than a predetermined threshold. By comparing these coordinate values with each other, it is possible to determine the correctness of detection as a face region. As in the example of FIG. 3 described above, the face area of the positive determination is often located above the face area of the erroneous determination. Therefore, it is possible to easily and easily remove erroneous detection by determining that a face region where the coordinate value in the height direction of the person at the center of gravity is an extreme value is determined as positive detection.
  • the correctness determination process may be configured such that the face in the plurality of face regions in which the degree of correlation in the movement direction between the face regions is equal to or greater than a predetermined threshold value. It is characterized in that a face area in which the evaluation value of the face-likeness of the area is equal to or greater than a predetermined threshold value is determined as positive detection, and other face areas are determined as false detection.
  • the evaluation value of the facialness of each face area is obtained in advance for a plurality of face areas in which the correlation degree of the movement direction between the face areas is equal to or greater than a predetermined threshold.
  • a predetermined threshold value By comparing with a predetermined threshold value, it is possible to determine whether the face area is detected correctly.
  • all face areas having high facial appearance evaluation values are determined to be positive detection, for example, even when a plurality of persons are walking side by side, the face areas of each person can be detected.
  • a fifth disclosure is a face detection system including any one of the first disclosure to the fourth disclosure described above, and a face detection device and an imaging device for continuously imaging a vehicle in time series. is there.
  • the sixth disclosure is a face detection method for detecting a face area of a person from time-sequential continuous captured images, the face detection processing step for detecting the face area from the captured image, and the face area
  • the face detection processing step for detecting the face area from the captured image
  • the face area When a plurality of images are detected, the movement direction between the captured images that follow each other in time series is calculated for each face area, and the degree of correlation between the calculated movement directions between the face areas is determined in advance.
  • a plurality of face areas that are equal to or greater than the threshold value, and includes a correct / incorrect determination process step that determines whether the detection of the face area is correct or incorrect.
  • a face detection system is a system for detecting a face area of a person from a captured image of a person imaged by an imaging device, for example, a face authentication system, a face matching system, a face search system, and a detection
  • the present invention can be applied to various analysis systems (for example, customer demographic analysis systems) that statistically analyze the face area.
  • analysis systems for example, customer demographic analysis systems
  • FIG. 1 is a block diagram showing a hardware configuration for realizing the face detection system according to the present disclosure.
  • the hardware configuration includes a camera (imaging device) 11, a display unit 12, an input unit 13, a storage unit 14, a processor 15, and a bus 16 for connecting them.
  • the storage unit 14 and the processor 15 are components of the face detection device 2 according to the present disclosure.
  • the camera 11 is a general imaging device such as a CCD camera, for example.
  • the camera 11 is arranged in the vicinity of the entrance of a building, and the person 21 entering the entrance is continuously arranged in time series (temporally) from approximately the front (approximately front). Take an image.
  • Time-sequential captured images (hereinafter also referred to as “image frames” or simply “frames”) captured by the camera 11 are input to the processor 15.
  • image frames or simply “frames”
  • the form, function, arrangement, quantity, and the like are not particularly limited, and various changes can be made.
  • the display unit 12 is a general display device such as a monitor (display), and is used for displaying a processing result in the processor 15.
  • the processing result in the processor 15 may be output not to the display unit 12 but to an external system such as a face authentication system.
  • the input unit 13 is an input device such as a keyboard or a mouse, for example, and is used by the user to input various commands to the face detection device 2.
  • the storage unit 14 is a storage device (storage) such as a ROM or a hard disk, for example, and stores various programs and various data for realizing each function of the face detection device 2.
  • the storage unit 14 also stores detection results and determination results from the processor 15.
  • the processor 15 is, for example, a CPU, reads various programs and various data from the storage unit 14 onto a RAM (not shown), and executes each process of the face detection device 2. In addition, the processor 15 performs overall control of the face detection device 2 and the face detection system 1. Specifically, the processor 15 performs face detection processing for detecting a human face area from the captured image input from the camera 11, and when a plurality of face areas are detected in the captured image, the detected face is detected. An area correctness determination process is further performed. The face detection process and the correctness determination process are performed for each image frame.
  • FIG. 2 is a flowchart showing the flow of face detection processing and correctness determination processing by the processor 15. With reference to FIG. 2, the flow of processing by the processor 15 will be described. This process is performed for the t-th frame.
  • a human face area is detected from a captured image input from the camera 11 (step ST101).
  • the detection of the face area is performed using a conventionally known method. Specifically, first, feature quantities used in a known face detection method such as Haar-Like feature quantities are extracted for each predetermined area (face candidate area) in the captured image. Next, the extracted feature amount is compared with a learning model learned in advance. Then, based on the comparison result, the face likelihood of the face candidate region is calculated as an evaluation value. When the calculated evaluation value is equal to or greater than a predetermined threshold T1, the face candidate area is set as a face area.
  • a score of 1 to 100 is preferably used as the evaluation value.
  • the standard value is 50, and the larger the value, the higher the facial appearance.
  • the threshold T1 is set to 60.
  • FIG. 3A and 3B are diagrams illustrating an example of a captured image (image frame) of the person 21 captured from the front substantially by the camera 11,
  • FIG. 3A is a detection result in the (t-1) th frame, and
  • FIG. The detection result in t frame is shown.
  • the horizontal direction in the captured image be the x coordinate and the vertical direction be the y coordinate.
  • the y coordinate is the height direction of the person 21.
  • two face areas are detected: a face area A t ⁇ 1 that is positive detection (correct detection) and a face area B t ⁇ 1 that is false detection. .
  • FIG. 3A in the t ⁇ 1 frame, two face areas are detected: a face area A t ⁇ 1 that is positive detection (correct detection) and a face area B t ⁇ 1 that is false detection. .
  • FIG. 3A in the t ⁇ 1 frame, two face areas are detected: a face area A t ⁇ 1 that is positive detection (correct detection) and a face area B t ⁇ 1
  • the face area since the detection of the face area is performed based on the feature amount extracted from the captured image, depending on the image, the face area may be detected in a portion other than the human face area.
  • the collar portion 23 of the clothes 22 of the person 21 is erroneously detected as the face area B t ⁇ 1 and the face area B t .
  • step ST102 it is determined whether or not a human face region is detected from the captured image. If it is determined that a face area has been detected (step ST102: Yes), the process proceeds to step ST103. If it is determined that no face area has been detected (step ST102: No), the process returns to step ST101.
  • step ST103 tracking processing is performed for each detected face area.
  • the tracking process is to associate the same face area with each other between two adjacent image frames in time series, and detect the tracking state and the moving direction of the face area.
  • the association of the face area is performed based on the coordinates of the gravity center position of the face area, luminance information, and the like.
  • the tracking state is set to ON when the same face area exists between two adjacent image frames, and is set to OFF when the face area does not exist.
  • the movement direction of the face area is obtained as the direction of the movement vector passing through the center of gravity of each face area.
  • the direction of the movement vector passing through the center of gravity of the face region of the t-1 frame (Fig. 3A and the face region of the t frame (Fig. 3B) is obtained.
  • a tracking ID is assigned to each face area.
  • the tracking ID includes the tracking state, the coordinates of the barycentric position in the t-1 frame and the evaluation value (score) of the facial appearance, the coordinates of the barycentric position in the t frame and the evaluation value (score) of the facial appearance, and the movement vector
  • the result is stored as a tracking result in the storage unit 14 together with the direction.
  • FIG. 5 is an example of the tracking result stored in the storage unit 14.
  • the face area A t-1 denoted as simply face region A may be collectively a face area A t
  • the case of collectively face region B t-1 the face region B t is simply referred to as the face region B.
  • the tracking ID “1” is assigned to the face area A
  • the tracking state “ON” the coordinates of the center of gravity position and the score “center of gravity position a1, score 96” in the t ⁇ 1 frame
  • the coordinates and the score “centroid position a2, score 93” and the direction “lower left” of the movement vector VA are stored.
  • a tracking ID of “2” is assigned to the face area B, the tracking state is “ON”, the coordinates of the center of gravity position and the score “center of gravity position b1, score 62” in the t ⁇ 1 frame, The coordinates of the center of gravity position, the score “center of gravity position b2, score 65”, and the direction “lower left” of the movement vector V B are stored.
  • the coordinates of the centroid position are represented by a1, a2, b1, and b2, but actually are the x coordinate and y coordinate value of the pixel (pixel) corresponding to the centroid position.
  • the subsequent step ST104 it is determined whether or not there are a plurality of face areas in the tracking state ON in the tracking area R having a predetermined size in the captured image. Since the face area in the tracking state OFF does not exist between two adjacent image frames, it is not a determination target.
  • the tracking area R is set by specifying the number of vertical and horizontal pixels.
  • the tracking area R is appropriately set so that the detected face area and its surrounding area are included. As an example, it is conceivable that a rectangular area having a predetermined range centering on the detected face area is set as the tracking area R.
  • FIG. 6 is a diagram illustrating an example of the tracking region R.
  • a rectangular region of a predetermined range centered on the face area A t to the tracking area R the face area of the tracking state ON within the tracking region R it is determined whether there are multiple. Further, parallel therewith, in a tracking area of a predetermined range centered on the face area B t R (not shown), the face area of the tracking state ON is judged might whether there are multiple.
  • a plurality of face areas in the tracking state ON are detected in such a tracking area R, there is a possibility that a part that moves together with the person 21, for example, a part of clothes worn by the person 21 is erroneously detected as a face area. Is considered high.
  • FIG. 6 a rectangular region of a predetermined range centered on the face area A t to the tracking area R, the face area of the tracking state ON within the tracking region R it is determined whether there are multiple. Further, parallel therewith, in a tracking area of a predetermined range centered on
  • a plurality of tracking areas R can be set in the captured image. In that case, the following processing is performed for each tracking region R.
  • step ST104: Yes When it is determined that there are a plurality of face regions whose tracking state is ON in the tracking region R (step ST104: Yes), the process proceeds to step ST105, and when it is determined that there are no more face regions (step ST104: No), the process proceeds to step ST109. Proceed to In step ST109, the face area detected from the captured image is output as positive detection, and then the process ends.
  • the degree of correlation of the movement vectors between the face regions is calculated.
  • the degree of correlation between the movement vector of the face area A and the movement vector of the face area B is calculated.
  • the degree of correlation of the movement vector (see FIG. 4) is calculated using a known method.
  • An example of a known method is to use normalized correlation of vectors.
  • the correlation degree for example, a correlation value obtained by normalizing the similarity of movement vectors in the range of ⁇ 1 to +1 may be used.
  • step ST106 it is determined whether or not the correlation degree of the movement vector between the face regions is equal to or greater than a predetermined threshold value T2.
  • a predetermined threshold value T2 it is determined that the degree of correlation is greater than or equal to the threshold T2 (step ST106: Yes)
  • the process proceeds to step ST107, and when it is determined that the degree of correlation is lower than the predetermined threshold T2 (step ST106: No), Proceed to step ST109.
  • step ST109 as described above, the face area detected from the captured image is output as a positive detection, and then the process ends.
  • a correct / incorrect determination process for determining correct / incorrect detection is performed on all the face areas determined in step ST106 that the correlation degree is equal to or greater than the threshold value T2.
  • the correctness / incorrectness determination process of detection is performed for the two face areas of the face area A and the face area B.
  • the number of face areas to be determined in the right / wrong determination process is not limited to two. For example, when there are three face areas having a correlation degree equal to or greater than the threshold T2, the three face areas The correctness / incorrectness determination process of the detection is performed.
  • the correctness / incorrectness determination process in step ST107 can be performed by any of the following determination methods (1) to (3).
  • each face in the t-th frame calculated at the time of face area detection in step ST101 and stored in the storage unit 14 as a tracking result (see FIG. 5).
  • the area score is acquired (step ST201).
  • the scores of the acquired face areas are compared with each other (step ST202), and the face area with the maximum score is determined to be positive detection (step ST203). Face areas other than those determined to be positive detection are determined to be erroneous detection.
  • the score in the t-th frame of the face area A (tracking ID: 1) is 93, and the score in the t-th frame of the face area B (tracking ID: 2) is 65. . Therefore, since the score of the face area A is larger than the score of the face area B, the face area A is determined to be positive detection, and the face area B is determined to be erroneous detection. In this way, by comparing the evaluation values (scores) of the facialness of each face area with each other, it is possible to easily determine whether or not the face area is detected correctly. As a result, when a plurality of face regions are detected in the captured image, it is possible to easily and easily remove erroneous detection.
  • each face area in the t-th frame calculated at the time of ST101 face area detection and stored in the storage unit 14 as a tracking result (see FIG. 5).
  • the y-coordinate value of the center of gravity position is acquired (step ST301).
  • the acquired y-coordinate values of each face area are compared with each other (step ST302), and the face area with the largest y-coordinate value is determined to be positive detection (step ST303). Face areas other than those determined to be positive detection are determined to be erroneous detection.
  • the face area A is determined to be positive detection, and the face area B is determined to be erroneous detection.
  • the positively determined face area is often located above the erroneously determined face area.
  • the face area having the larger y-coordinate value of the barycentric position is positive detection.
  • the face area located on the foot side of the person 21 may be erroneously judged as compared with the face area located on the head side. It is based on the premise that it is high. 3 and 5, the y coordinate is used as the height direction coordinate of the person 21, but the coordinate system in the captured image depends on its definition, and therefore other coordinate axes (for example, x coordinate axis) may be used.
  • the magnitude of the coordinate value also depends on the definition of the coordinate system of the captured image, either the maximum value or the minimum value may be used as the extreme value according to the definition of the coordinate system.
  • the score of each acquired face area is compared with a predetermined threshold T3 (step ST402), and all face areas having a score equal to or higher than the threshold T3 are determined to be positive detection (step ST403). Face areas other than those determined to be positive detection are determined to be erroneous detection.
  • Threshold value T3 is set to a value larger than threshold value T1 used for face area detection in step ST101.
  • the threshold T1 is set to 60
  • the threshold T3 is set to 70.
  • the score in the t-th frame of the face area A (tracking ID: 1) is 93, it is equal to or greater than the threshold T2.
  • the score in the t-th frame of the face area B (tracking ID: 2) is 65, which is below the threshold value T2. Therefore, the face area A is determined to be positive detection, and the face area B is determined to be erroneous detection.
  • the above method (3) may erroneously detect the face picture as a face area.
  • the determination based on the illumination unevenness may be used supplementarily. Since the face picture is a two-dimensional plane, the degree of uneven illumination of the face area image detected from the captured image is reduced. Therefore, it is possible to eliminate erroneous detection by comparing the degree of illumination unevenness with a predetermined threshold value.
  • step ST107 After the correct / incorrect determination process in step ST107, the process proceeds to step ST108.
  • step ST108 erroneous detection is removed based on the correctness determination result in step ST107, correct detection is output, and then the process ends.
  • the false detection removal and the positive detection output are performed on the face area of the (t-1) th frame.
  • a plurality of face regions are detected in a captured image, and the correlation of movement vectors between two captured images that precede and follow the plurality of face regions in time series.
  • the degree is equal to or greater than a predetermined threshold, it is possible to easily and easily remove the erroneous detection by performing the correctness determination process on the plurality of face regions.
  • the detection correctness determination process is performed every frame.
  • the detection correctness determination process may be performed every predetermined number of frames instead of every frame.
  • the tracking process is also performed not with the previous frame but with a frame that is a predetermined number of frames before.
  • the tracking process in step ST103 is performed before the determination process (step ST104) for determining whether or not there are a plurality of tracking area ON face areas in the tracking area R in the captured image.
  • the tracking process in step ST103 may be performed after the determination process in step ST104.
  • a face detection device, a face detection system including the face detection method, and a face detection method according to the present disclosure include a face detection device capable of removing false detection when a plurality of face regions are detected in a captured image, and the face detection device. It is useful as a face detection system and a face detection method provided.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

撮像画像中に顔領域が複数検出された場合に誤検出を除去することを可能とする為に、本開示の顔検出装置(2)は、時系列的に連続する撮像画像から人物の顔領域を検出する顔検出装置であって、撮像画像から顔領域を検出する顔検出処理と、顔領域が複数検出された場合に、各顔領域について時系列的に相前後する撮像画像間での移動方向を算出し、顔領域間の移動方向の相関度が予め定められた閾値以上である顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理と行うプロセッサ(15)を備えた構成とする。

Description

顔検出装置およびこれを備えた顔検出システムならびに顔検出方法
 本開示は、時系列的に連続する画像から人物の顔領域を検出する顔検出装置およびこれを備えた顔検出システムならびに顔検出方法に関する。
 従来、顔認証や顔照合等を目的として、カメラにより撮像された人物の撮像画像から、前記人物の顔領域を検出する技術が知られている。このような顔検出技術は、撮像画像から、顔の特徴的な部分である目、鼻、口等を顔特徴点として検出し、検出された顔特徴点に基づいて顔領域を検出している(例えば、特許文献1)。
特開2008-90452公報
 しかしながら、顔特徴点は、撮像画像中の特徴的な部分の画素点の集合であるため、人物の顔領域以外の部分に検出される場合がある。顔領域以外の部分に顔特徴点が検出された場合、その顔特徴点に基づいて検出される顔領域は、当然、誤検出となる。例えば、図3Aおよび図3Bに示すように、人物21の服22の襟の部分23に顔特徴点が検出された場合は、襟の部分23が顔領域Bt-1、Bとして誤検出される。このような誤検出が生じると、検出された顔領域を利用するその後の処理(例えば、顔認証処理、顔照合処理等)に影響が及ぶため、誤検出は除去することが望ましい。特に、上記の図3A,図3Bの例のように、撮像画像中に顔領域が複数検出された場合は、検出された複数の顔領域の中に誤検出が含まれている可能性が高いため、とりわけこのような場合は、誤検出を除去することが望まれる。
 本開示は、このような従来技術の課題を鑑みて案出されたものであり、撮像画像中に顔領域が複数検出された場合に誤検出を除去することが可能な顔検出装置およびこれを備えた顔検出システムならびに顔検出方法を提供することを主目的とする。
 本開示の顔検出装置は、時系列的に連続する撮像画像から人物の顔領域を検出する顔検出装置であって、前記撮像画像から前記顔領域を検出する顔検出処理と、前記顔領域が複数検出された場合に、各顔領域について時系列的に相前後する前記撮像画像間での移動方向を算出し、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理とを行うプロセッサを備えたことを特徴とする。
 本開示によれば、撮像画像中に顔領域が複数検出された場合に誤検出を除去することが可能となる。
図1は、本開示の顔検出システムを実現するためのハードウェア構成を示すブロック図である。 図2は、プロセッサによる顔検出処理の流れを示すフロー図である。 図3Aは、顔領域の検出結果の一例として、第t-1フレームでの検出結果を示す図である。 図3Bは、顔領域の検出結果の一例として、第tフレームでの検出結果を示す図である。 図4は、画像フレーム間での各顔領域の移動方向を説明するための図である。 図5は、追跡結果の一例を示す図である。 図6は、撮像画像中の追跡範囲の一例を示す図である。 図7は、正誤判定処理の流れを示すフロー図である。 図8は、正誤判定処理の流れを示すフロー図である。 図9は、正誤判定処理の流れを示すフロー図である。
 上記課題を解決するためになされた第1の開示は、時系列的に連続する撮像画像から人物の顔領域を検出する顔検出装置であって、前記撮像画像から前記顔領域を検出する顔検出処理と、前記顔領域が複数検出された場合に、各顔領域について時系列的に相前後する前記撮像画像間での移動方向を算出し、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理とを行うプロセッサを備えたことを特徴とする。
 この第1の開示に係る顔検出装置によれば、撮像画像中に顔領域が複数検出された場合に、時系列的に相前後する撮像画像間での移動方向の相関度が高い複数の顔領域に対して、顔領域としての正誤を判定する正誤判定処理を行うことができる。移動方向の相関度が高い複数の顔領域は、人物の顔領域と共に移動する部分(例えば人物が着ている服の襟の部分)を誤検出として含んでいる可能性が高い。したがって、移動方向の相関度が高い複数の顔領域に対して正誤判定処理を行うことにより、人物の顔領域と共に移動する部分などの誤検出を除去することが可能となる。また、移動方向の相関度を、時系列的に相前後する撮像画像間で算出することにより、顔領域間の移動方向の相関度を正確に判断することができる。
 また、第2の開示では、上記第1の開示において、前記正誤判定処理は、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の顔らしさの評価値が最大の顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする。
 この第2の開示に係る顔検出装置によれば、顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域について、各顔領域の顔らしさの評価値を互いに比較することにより、顔領域としての検出の正誤を判定することができる。これにより、撮像画像中に顔領域が複数検出された場合に、誤検出を簡単かつ容易に除去することが可能となる。
 また、第3の開示では、上記第1の開示において、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の重心位置の前記人物の身長方向の座標値が極値をとる顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする。
 この第3の開示に係る顔検出装置によれば、顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域について、各顔領域の重心位置の人物の身長方向の座標値を互いに比較することにより、顔領域としての検出の正誤を判定することができる。上述した図3の例のように、正判定の顔領域は、誤判定の顔領域よりも上側に位置する場合が多い。したがって、重心位置の人物の身長方向の座標値が極値をとる顔領域を正検出と判定することにより、誤検出を簡単かつ容易に除去することが可能となる。
 また、第4の開示では、上記第1の開示において、前記正誤判定処理は、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の顔らしさの評価値が予め定められた閾値以上となる顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする。
 この第4の開示に係る顔検出装置によれば、顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域について、各顔領域の顔らしさの評価値を予め定められた閾値と比較することにより、顔領域としての検出の正誤を判定することができる。これにより、撮像画像中に顔領域が複数検出された場合に、誤検出を簡単かつ容易に除去することが可能となる。また、顔らしさの評価値が高い顔領域は全て正検出と判定するので、例えば、複数の人物が並んで歩いている場合でも、各人物の顔領域を検出することが可能となる。
 また、第5の開示は、上記第1の開示ないし第4の開示のいずれかに顔検出装置と、車両を時系列的に連続して撮像するための撮像装置とを備えた顔検出システムである。
 また、第6の開示は、時系列的に連続する撮像画像から人物の顔領域を検出する顔検出方法であって、前記撮像画像から前記顔領域を検出する顔検出処理ステップと、前記顔領域が複数検出された場合に、各顔領域について時系列的に相前後する前記撮像画像間での移動方向を算出し、前記顔領域間の算出された前記移動方向の相関度が予め定められた閾値以上である複数の顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理ステップとを有することを特徴とする。
 以下、本開示の実施形態について、図面を参照しながら説明する。
 本開示に係る顔検出システムは、撮像装置により撮像された人物の撮像画像から前記人物の顔領域を検出するためのシステムであり、例えば、顔認証システム、顔照合システム、顔検索システム、および検出された顔領域を統計分析する各種分析システム(例えば、客層分析システム)等に適用可能である。以下では、本開示に係る顔検出システムを、顔認証システムに適用した場合について説明する。
 図1は、本開示に係る顔検出システムを実現するためのハードウェア構成を示すブロック図である。図1に示すように、前記ハードウェア構成は、カメラ(撮像装置)11、表示部12、入力部13、記憶部14、プロセッサ15、およびそれらを接続するバス16を含む。記憶部14およびプロセッサ15は、本開示に係る顔検出装置2の構成要素である。
 カメラ11は、例えばCCDカメラ等の一般的な撮像装置であり、建物のエントランスの近傍に配置され、エントランスに入った人物21を略正面(略前方)から時系列的(時間的)に連続して撮像する。カメラ11により撮像された時系列的に連続する撮像画像(以降、「画像フレーム」または単に「フレーム」とも称する)はプロセッサ15に入力される。なお、カメラ11は、人物21を略正面から撮像可能な限りにおいて、その形態、機能、配置、数量等については、特に限定されるものではなく種々の変更が可能である。
 表示部12は、例えばモニタ(ディスプレイ)等の一般的な表示装置であり、プロセッサ15での処理結果の表示等に使用される。なお、プロセッサ15での処理結果は、表示部12ではなく、顔認証システム等の外部のシステムに出力するようにしてもよい。
 入力部13は、例えば、キーボードやマウス等の入力デバイスであり、ユーザが顔検出装置2に各種の命令を入力するのに使用される。
 記憶部14は、例えばROMやハードディスク等の記憶装置(ストレージ)であり、顔検出装置2の各機能を実現するための各種プログラムおよび各種データを格納している。また、記憶部14は、プロセッサ15での検出結果および判定結果も記憶する。
 プロセッサ15は、例えばCPUであり、記憶部14から各種プログラムおよび各種データを図示しないRAM上に読み出して、顔検出装置2の各処理を実行する。また、プロセッサ15は、顔検出装置2および顔検出システム1全体の制御を統括的に実行する。具体的には、プロセッサ15は、カメラ11から入力された撮像画像から人物の顔領域を検出する顔検出処理を行い、撮像画像中に複数の顔領域が検出された場合に、検出された顔領域の正誤判定処理をさらに行う。上記の顔検出処理および正誤判定処理は、画像フレーム毎に行われる。
 図2は、プロセッサ15による顔検出処理および正誤判定処理の流れを示すフロー図である。図2を参照して、プロセッサ15による処理の流れを説明する。この処理は、第tフレームに対して行うものとする。
 まず、カメラ11から入力された撮像画像から、人物の顔領域を検出する(ステップST101)。顔領域の検出は、従来公知の方法を用いて行う。具体的には、まず、撮像画像中の所定の領域(顔候補領域)毎に、Haar-Like特徴量などの公知の顔検出手法に用いられる特徴量を抽出する。次に、抽出された特徴量を、予め学習した学習モデルと比較する。そして、その比較結果に基づいて、前記顔候補領域の顔らしさを評価値として算出する。算出された評価値が予め定められた閾値T1以上の場合に、その顔候補領域を顔領域とする。評価値としては、1~100のスコアを使用するとよい。標準値が50であり、値が大きくなるほど顔らしさが高くなるものとする。本実施形態では、閾値T1は60に設定する。
 図3A、図3Bは、カメラ11により略正面から撮像された人物21の撮像画像(画像フレーム)の一例を示す図であり、図3Aは第t-1フレームでの検出結果、図3Bは第tフレームでの検出結果を示す。撮像画像中の水平方向をx座標、垂直方向をy座標とする。y座標は、人物21の身長方向である。図3Aに示すように、第t-1フレームでは、正検出(正しい検出)である顔領域At-1と、誤検出である顔領域Bt-1の2つの顔領域が検出されている。また、図3Bに示すように、第tフレームでは、正検出である顔領域Aと、誤検出である顔領域Bの2つの顔領域が検出されている。上述したように、顔領域の検出は撮像画像から抽出される特徴量に基づいて行われるため、画像によっては、人物の顔領域以外の部分に検出される場合もある。図3の例では、人物21の服22の襟の部分23が、顔領域Bt-1、顔領域Bとして誤検出されている。
 続いて、撮像画像から人物の顔領域が検出されたか否かを判定する(ステップST102)。顔領域が検出されたと判定された場合(ステップST102:Yes)は、ステップST103に進み、顔領域が検出されなかったと判定された場合(ステップST102:No)は、ステップST101に戻る。
 ステップST103では、検出された顔領域毎に追跡処理を行う。追跡処理とは、時系列的に隣接する2つの画像フレーム間で同一の顔領域を互いに対応付け、かつ、追跡状態および顔領域の移動方向を検出することである。顔領域の対応付けは、顔領域の重心位置の座標および輝度情報等に基づいて行う。追跡状態は、隣接する2つの画像フレーム間に同一の顔領域が存在する場合はONとし、存在しない場合はOFFとする。
 顔領域の移動方向は、各顔領域の重心位置を通る移動ベクトルの方向として求める。具体的には、図4に示すように、第t-1フレームの顔領域(図3Aと第tフレームの顔領域(図3B)の重心位置を通る移動ベクトルの方向を求める。図4の例では、顔領域At-1、顔領域Aの重心位置を通る移動ベクトルVと、顔領域Bt-1、顔領域Bの重心位置を通る移動ベクトルVは、両方とも左下を向いている。したがって、移動ベクトルVおよび移動ベクトルVの方向は左下と判断される。
 各顔領域に追跡IDが付与される。追跡IDは、追跡状態、第t-1フレームでの重心位置の座標および顔らしさの評価値(スコア)、第tフレームでの重心位置の座標および顔らしさの評価値(スコア)、移動ベクトルの方向と共に記憶部14に追跡結果として記憶される。
 図5は、記憶部14に記憶された追跡結果の一例である。以降、顔領域At-1、顔領域Aを総称する場合は単に顔領域Aと表記し、顔領域Bt-1、顔領域Bを総称する場合は単に顔領域Bと表記する。図5に示すように、顔領域Aには「1」という追跡IDが付与され、追跡状態「ON」、第t-1フレームでの重心位置の座標およびスコア「重心位置a1、スコア96」、第tフレームでの重心位置の座標およびスコア「重心位置a2、スコア93」、移動ベクトルVの方向「左下」と共に記憶されている。また、顔領域Bには「2」という追跡IDが付与され、追跡状態「ON」、第t-1フレームでの重心位置の座標およびスコア「重心位置b1、スコア62」、第tフレームでの重心位置の座標およびスコア「重心位置b2、スコア65」、移動ベクトルVの方向「左下」と共に記憶されている。なお、図5では、重心位置の座標は、a1、a2、b1、b2で表しているが、実際には、重心位置に対応する画素(ピクセル)のx座標およびy座標値である。
 続くステップST104では、撮像画像中の予め定められたサイズの追跡領域R内に、追跡状態ONの顔領域が複数存在するか否かを判定する。追跡状態OFFの顔領域は、隣接する2つの画像フレーム間に存在していないので、判定対象にはならない。追跡領域Rは、縦横のピクセル数を指定して設定する。追跡領域Rは、検出された顔領域およびその周辺の領域が含まれるように適宜設定する。一例としては、検出された顔領域を中心とする所定の範囲の矩形領域を追跡領域Rとすることが考えられる。
 図6は、追跡領域Rの一例を示す図である。図6では、顔領域Aを中心とする所定の範囲の矩形領域を追跡領域Rとし、その追跡領域R内に追跡状態ONの顔領域が複数存在するか否かを判定している。また、それと並行して、顔領域Bを中心とする所定の範囲の追跡領域R(図示せず)内に、追跡状態ONの顔領域が複数存在するか否かも判定している。このような追跡領域R内に追跡状態ONの顔領域が複数検出された場合は、人物21と共に移動する部分、例えば人物21が着ている服の一部などを顔領域として誤検出した可能性が高いと考えられる。図6の例では、追跡状態ONの顔領域である顔領域Aと顔領域Bが、追跡領域R内に存在しているので、少なくとも一方の顔領域が誤検出の可能性が高いと考えられる。なお、上述したように、撮像画像中に追跡領域Rを複数設定することも可能である。その場合は、追跡領域R毎に、以降の処理を行う。
 追跡領域R内に追跡状態ONの顔領域が複数存在すると判定された場合(ステップST104:Yes)は、ステップST105へ進み、複数存在しないと判定された場合(ステップST104:No)は、ステップST109に進む。ステップST109では、撮像画像から検出された顔領域を正検出として出力し、その後、処理を終了する。
 続くステップST105では、顔領域間の移動ベクトルの相関度を算出する。図3の例では、顔領域Aの移動ベクトルと、顔領域Bの移動ベクトルとの相関度を算出する。移動ベクトル(図4参照)の相関度は、公知の方法を用いて算出する。公知の方法の一例としては、ベクトルの正規化相関を用いることが挙げられる。相関度は、例えば、移動ベクトルの類似度を-1から+1の範囲に正規化した相関値を用いるとよい。
 次に、ステップST106では、顔領域間の移動ベクトルの相関度が予め定められた閾値T2以上であるか否かを判定する。相関度が閾値T2以上であると判定された場合(ステップST106:Yes)は、ステップST107へ進み、相関度が予め定められた閾値T2を下回ると判定された場合(ステップST106:No)は、ステップST109に進む。ステップST109では、上述したように、撮像画像から検出された顔領域を正検出として出力し、その後、処理を終了する。
 ステップST107では、ステップST106で、相関度が閾値T2以上であると判定された全ての顔領域に対して、検出の正誤を判定する正誤判定処理を行う。図3の例では、顔領域Aおよび顔領域Bの2つの顔領域に対して、検出の正誤判定処理を行う。なお、正誤判定処理の判定対象となる顔領域の数は2つに限定されるものではなく、例えば、相関度が閾値T2以上である顔領域が3つ存在する場合は、その3つの顔領域に対して検出の正誤判定処理を行う。
 ステップST107での正誤判定処理は、下記の(1)~(3)の判定方法のいずれかにより行うことができる。
 (1)各顔領域の顔らしさの評価値(スコア)を互いに比較し、スコアが最大の顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定する。図7のフロー図を参照して詳しく説明すると、まず、ステップST101の顔領域検出のときに算出され、記憶部14に追跡結果(図5参照)として記憶されている第tフレームでの各顔領域のスコアを取得する(ステップST201)。続いて、取得した各顔領域のスコアを互いに比較し(ステップST202)、スコアが最大の顔領域を正検出と判定する(ステップST203)。正検出と判定された顔領域以外の顔領域は、誤検出と判定する。
 図3および図5の例では、顔領域A(追跡ID:1)の第tフレームでのスコアは93であり、顔領域B(追跡ID:2)の第tフレームでのスコアは65である。したがって、顔領域Aのスコアは顔領域Bのスコアよりも大きいので、顔領域Aを正検出と判定し、顔領域Bは誤検出と判定する。このように、各顔領域の顔らしさの評価値(スコア)を互いに比較することにより、顔領域としての検出の正誤を容易に判定することができる。これにより、撮像画像中に顔領域が複数検出された場合に、誤検出を簡単かつ容易に除去することが可能となる。
 (2)各顔領域の重心位置のy座標値を互いに比較し、y座標値が最大の顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定する。図8のフロー図を参照して詳しく説明すると、まず、ST101の顔領域検出のときに算出され、記憶部14に追跡結果(図5参照)として記憶されている第tフレームでの各顔領域の重心位置のy座標値を取得する(ステップST301)。続いて、取得した各顔領域のy座標値を互いに比較し(ステップST302)、y座標値が最大の顔領域を正検出と判定する(ステップST303)。正検出と判定された顔領域以外の顔領域は、誤検出と判定する。
 図3および図5の例では、顔領域Aは顔領域Bよりも上方に位置しているので、顔領域Aの重心位置のy座標値は、顔領域Bの重心位置のy座標値よりも大きい。したがって、顔領域Aは正検出と判定し、顔領域Bは誤検出と判定する。このように、各顔領域の重心位置のy座標値を互いに比較することにより、顔領域としての検出の正誤を容易に判定することができる。これにより、撮像画像中に顔領域が複数検出された場合に、誤検出を簡単かつ容易に除去することが可能となる。図3の例のように、正判定の顔領域は、誤判定の顔領域よりも上側に位置する場合が多い。したがって、重心位置のy座標値が大きい方の顔領域を正検出と判定することにより、誤検出を簡単かつ容易に除去することが可能となる。この(2)の判定方法は、人間の顔領域は頭部に位置するので、人物21の足側に位置する顔領域は頭部側に位置する顔領域と比較すると誤判定である可能性が高い、という前提に基づくものである。なお、図3および図5の例では人物21の身長方向の座標としてy座標を用いたが、撮像画像中の座標系はその定義に依存するため、y座標の代わりに他の座標軸(例えば、x座標軸)を用いてもよい。同様に、座標値の大小も撮像画像の座標系の定義に依存するため、極値は、座標系の定義に合わせて極大値または極小値のいずれかを用いるとよい。
 (3)各顔領域の顔らしさの評価値(スコア)を予め定められた閾値T3と比較し、スコアが閾値T3以上となる顔領域は全て正検出と判定し、それ以外の顔領域を誤検出と判定する。図9のフロー図を参照して詳しく説明すると、まず、ステップST101の顔領域検出のときに算出され、記憶部14に追跡結果(図5参照)として記憶されている第tフレームでの各顔領域のスコアを取得する(ステップST401)。続いて、取得した各顔領域のスコアを予め定められた閾値T3と比較し(ステップST402)、スコアが閾値T3以上となる顔領域は全て正検出と判定する(ステップST403)。正検出と判定された顔領域以外の顔領域は、誤検出と判定する。
 閾値T3は、ステップST101での顔領域検出に用いる閾値T1よりも大きい値に設定する。本実施形態では、閾値T1は60に設定し、閾値T3は70に設定する。図3および図5の例では、顔領域A(追跡ID:1)の第tフレームでのスコアは93なので閾値T2以上である。また、顔領域B(追跡ID:2)の第tフレームでのスコアは65であり、閾値T2を下回る。したがって、顔領域Aを正検出と判定し、顔領域Bは誤検出と判定する。このように、各顔領域の顔らしさの評価値(スコア)を予め定められた閾値T3と比較することにより、顔領域としての検出の正誤を容易に判定することができる。これにより、撮像画像中に顔領域が複数検出された場合に、誤検出を簡単かつ容易に除去することが可能となる。また、顔らしさの評価値が高い顔領域は全て正検出と判定するので、例えば、複数の人物が並んで歩いている場合でも、各人物の顔領域を検出することが可能となる。
 なお、必要に応じて、照明ムラ(影の付き方)に基づく判定を組み合わせてもよい。例えば、人物が着ている服に顔の絵がプリントされている場合、上記の(3)の方法では、顔の絵を顔領域として誤検出するおそれがある。この場合、照明ムラに基づく判定を補助的に用いるとよい。顔の絵は2次元の平面であるため、撮像画像から検出された顔領域画像の照明ムラの度合いが小さくなる。したがって、照明ムラの度合いを予め定められた閾値と比べることにより、誤検出を除去することが可能となる。
 ステップST107での正誤判定処理の終了後は、ステップST108に進む。ステップST108では、ステップST107での正誤判定結果に基づき、誤検出を除去し、正検出を出力し、その後、処理を終了する。誤検出の除去および正検出の出力は、第t-1フレームの顔領域を対象にして行う。
 以上のように、本実施形態によれば、撮像画像中に複数の顔領域が検出され、かつ前記複数の顔領域の、時系列的に相前後する2つの撮像画像間での移動ベクトルの相関度が予め定められた閾値以上である場合に、前記複数の顔領域に対して正誤判定処理を行うことにより、誤検出を簡単かつ容易に除去することができる。
 なお、本実施形態では、検出の正誤判定処理は毎フレーム行うとしたが、検出の正誤判定処理は、毎フレームでなく、予め定められたフレーム数毎に行うようにしてもよい。その場合、追跡処理も、1つ前のフレームとの間ではなく、予め定められたフレーム数前のフレームとの間で行う。
 また、本実施形態では、ステップST103の追跡処理は、撮像画像中の追跡領域R内に、追跡状態ONの顔領域が複数存在するか否かを判定する判定処理(ステップST104)の前に行ったが、ステップST103の追跡処理は、ステップST104の判定処理の後に行うようにしてもよい。
 以上、本開示を特定の実施形態に基づいて説明したが、これらの実施形態はあくまでも例示であって、本開示はこれらの実施形態によって限定されるものではない。なお、上記実施形態に示した本開示に係る顔検出装置およびこれを備えた顔検出システムならびに顔検出方法の各構成要素は、必ずしも全てが必須ではなく、少なくとも本開示の範囲を逸脱しない限りにおいて適宜取捨選択することが可能である。
 本開示に係る顔検出装置およびこれを備えた顔検出システムならびに顔検出方法は、撮像画像中に顔領域が複数検出された場合に誤検出を除去することを可能とする顔検出装置およびこれを備えた顔検出システムならびに顔検出方法等として有用である。
 1  顔検出システム
 2  顔検出装置
 11 カメラ(撮像装置)
 12 表示部
 13 入力部
 14 記憶部
 15 プロセッサ
 16 バス
 21 人物
 22 服
 23 襟の部分

Claims (6)

  1.  時系列的に連続する撮像画像から人物の顔領域を検出する顔検出装置であって、
     前記撮像画像から前記顔領域を検出する顔検出処理と、
     前記顔領域が複数検出された場合に、各顔領域について時系列的に相前後する前記撮像画像間での移動方向を算出し、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である複数の顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理とを行うプロセッサを備えた顔検出装置。
  2.  前記正誤判定処理は、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の顔らしさの評価値が最大の顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする請求項1に記載の顔検出装置。
  3.  前記正誤判定処理は、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の重心位置の前記人物の身長方向の座標値が極値となる顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする請求項1に記載の顔検出装置。
  4.  前記正誤判定処理は、前記顔領域間の前記移動方向の相関度が予め定められた閾値以上である前記複数の顔領域における、前記顔領域の顔らしさの評価値が予め定められた閾値以上となる顔領域を正検出と判定し、それ以外の顔領域を誤検出と判定することを特徴とする請求項1に記載の顔検出装置。
  5.  請求項1ないし請求項4のいずれかに記載の顔検出装置と、
     人物の顔領域を時系列的に連続して撮像するための撮像装置と
     を備えた顔検出システム。
  6.  時系列的に連続する撮像画像から人物の顔領域を検出する顔検出方法であって、
     前記撮像画像から前記顔領域を検出する顔検出処理ステップと、
     前記顔領域が複数検出された場合に、各顔領域について時系列的に相前後する前記撮像画像間での移動方向を算出し、前記顔領域間の算出された前記移動方向の相関度が予め定められた閾値以上である複数の顔領域に対して、顔領域としての検出の正誤を判定する正誤判定処理ステップと
     を有する顔検出方法。
PCT/JP2016/004362 2015-10-14 2016-09-28 顔検出装置およびこれを備えた顔検出システムならびに顔検出方法 Ceased WO2017064838A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017545084A JP6803525B2 (ja) 2015-10-14 2016-09-28 顔検出装置およびこれを備えた顔検出システムならびに顔検出方法
US15/765,951 US10496874B2 (en) 2015-10-14 2016-09-28 Facial detection device, facial detection system provided with same, and facial detection method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015202852 2015-10-14
JP2015-202852 2015-10-14

Publications (1)

Publication Number Publication Date
WO2017064838A1 true WO2017064838A1 (ja) 2017-04-20

Family

ID=58518111

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/004362 Ceased WO2017064838A1 (ja) 2015-10-14 2016-09-28 顔検出装置およびこれを備えた顔検出システムならびに顔検出方法

Country Status (3)

Country Link
US (1) US10496874B2 (ja)
JP (1) JP6803525B2 (ja)
WO (1) WO2017064838A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522846A (zh) * 2018-11-19 2019-03-26 深圳博为教育科技有限公司 一种起立监测方法、装置、服务器及起立监测系统

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6722878B2 (ja) * 2015-07-30 2020-07-15 パナソニックIpマネジメント株式会社 顔認証装置
WO2019003973A1 (ja) 2017-06-26 2019-01-03 日本電気株式会社 顔認証装置、顔認証方法およびプログラム記録媒体
JP6947099B2 (ja) * 2018-03-27 2021-10-13 日本電気株式会社 余所見判定装置、余所見判定システム、余所見判定方法、プログラム
WO2019226544A1 (en) * 2018-05-21 2019-11-28 Sensormatic Electronics, LLC Facial recognition frictionless access control
JP6675564B1 (ja) * 2019-05-13 2020-04-01 株式会社マイクロネット 顔認識システム、顔認識方法及び顔認識プログラム
US12356076B2 (en) * 2022-05-24 2025-07-08 Canon Kabushiki Kaisha Image capture control device, image capture device, image capture control method, and non-transitory computer-readable storage medium

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250999A (ja) * 2007-03-08 2008-10-16 Omron Corp 対象物追跡方法、対象物追跡装置および対象物追跡プログラム
JP2009188837A (ja) * 2008-02-07 2009-08-20 Olympus Corp 撮像装置及び撮像方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5061563B2 (ja) 2006-09-29 2012-10-31 オムロン株式会社 検出装置、生体判定方法、およびプログラム
JP5642410B2 (ja) 2010-03-30 2014-12-17 パナソニック株式会社 顔認識装置及び顔認識方法
JP5484184B2 (ja) * 2010-04-30 2014-05-07 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
JP5753966B2 (ja) 2010-08-05 2015-07-22 パナソニックIpマネジメント株式会社 顔画像登録装置および方法
JPWO2013186994A1 (ja) * 2012-06-15 2016-02-04 日本電気株式会社 投射型投影装置、光防眩方法、および光防眩用プログラム
WO2015001791A1 (ja) 2013-07-03 2015-01-08 パナソニックIpマネジメント株式会社 物体認識装置及び物体認識方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008250999A (ja) * 2007-03-08 2008-10-16 Omron Corp 対象物追跡方法、対象物追跡装置および対象物追跡プログラム
JP2009188837A (ja) * 2008-02-07 2009-08-20 Olympus Corp 撮像装置及び撮像方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522846A (zh) * 2018-11-19 2019-03-26 深圳博为教育科技有限公司 一种起立监测方法、装置、服务器及起立监测系统
CN109522846B (zh) * 2018-11-19 2020-08-14 深圳博为教育科技有限公司 一种起立监测方法、装置、服务器及起立监测系统

Also Published As

Publication number Publication date
JPWO2017064838A1 (ja) 2018-08-02
US20180307896A1 (en) 2018-10-25
US10496874B2 (en) 2019-12-03
JP6803525B2 (ja) 2020-12-23

Similar Documents

Publication Publication Date Title
JP6803525B2 (ja) 顔検出装置およびこれを備えた顔検出システムならびに顔検出方法
JP6655878B2 (ja) 画像認識方法及び装置、プログラム
JP6494253B2 (ja) 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム
US11270108B2 (en) Object tracking method and apparatus
JP4830650B2 (ja) 追跡装置
US10212324B2 (en) Position detection device, position detection method, and storage medium
CN105940430B (zh) 人员计数方法及其装置
JP6273685B2 (ja) 追尾処理装置及びこれを備えた追尾処理システム並びに追尾処理方法
JP7230939B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN110427905A (zh) 行人跟踪方法、装置以及终端
JP6474126B2 (ja) オブジェクト追跡方法、装置およびプログラム
US10152633B2 (en) Line-of-sight detection device and line-of-sight detection method
JP7188240B2 (ja) 人検出装置および人検出方法
CN111797652B (zh) 对象跟踪方法、设备及存储介质
KR101139930B1 (ko) 부분 템플릿 매칭 기반의 객체 식별 장치 및 방법
WO2020137193A1 (ja) 人検出装置および人検出方法
JP2019121904A (ja) 不審者検出装置、不審者検出方法及び不審者検出用コンピュータプログラム
JP7327923B2 (ja) 情報処理装置、情報処理方法、システムおよびプログラム
JP6289308B2 (ja) 情報処理装置およびプログラム
CN111325073A (zh) 基于运动信息聚类的监控视频异常行为检测方法
US20200167583A1 (en) Apparatus and method for registering face pose for face recognition
US20240071028A1 (en) Information processing device and information processing method
US20230196773A1 (en) Object detection device, object detection method, and computer-readable storage medium
JP6451418B2 (ja) 注視対象判定装置、注視対象判定方法、および、注視対象判定プログラム
JP6516609B2 (ja) 動物体検出装置及びその背景モデル構築方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16855095

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017545084

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15765951

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16855095

Country of ref document: EP

Kind code of ref document: A1