[go: up one dir, main page]

EP4381471A1 - Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite - Google Patents

Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite

Info

Publication number
EP4381471A1
EP4381471A1 EP22754477.2A EP22754477A EP4381471A1 EP 4381471 A1 EP4381471 A1 EP 4381471A1 EP 22754477 A EP22754477 A EP 22754477A EP 4381471 A1 EP4381471 A1 EP 4381471A1
Authority
EP
European Patent Office
Prior art keywords
image
vector
face
facial landmarks
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP22754477.2A
Other languages
German (de)
English (en)
Inventor
Manel BEN YOUSSEF
Maïssa DIOP
Sylvian LEMPEREUR
Emile MENETREY
Hugues Talbot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smartphone Id
Original Assignee
Smartphone Id
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smartphone Id filed Critical Smartphone Id
Publication of EP4381471A1 publication Critical patent/EP4381471A1/fr
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/166Detection; Localisation; Normalisation using acquisition arrangements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • TITLE METHOD FOR DETERMINING IF AN IMAGE OF A PERSON'S FACE IS SUITABLE TO FORM AN IDENTITY PHOTOGRAPH
  • the technical field of the invention is that of the processing of digital images.
  • a piece or an identity document usually includes a photograph of the face of the holder of the piece, the photograph being called “identity”. It is thus possible to verify biometrically (by facial recognition) the correspondence between the identity photograph and the bearer of the identity document or document, and therefore that the bearer is actually the holder thereof.
  • Compliance with the applicable rules can be ensured by a human operator, for example a professional photographer when the photograph is taken by such a professional or by a remote operator to whom the photograph has been transmitted when the photograph was taken in a photo booth or by the applicant himself, which is permitted in some countries (United Kingdom).
  • facial attack fraud denotes fraud consisting in presenting a made-up face or a representation of a face whose recognition is expected.
  • identity photograph it is important to be able to detect that a photograph represents the face of a real person, and not a face extracted from an image or a video. .
  • the document EP2751739 addresses this problem and proposes several fraud detection methods implementing the acquisition of two images of a person's face. A treatment is carried out to assess the flatness of the face appearing in these images and a fraud detection is identified if a flatness score exceeds a critical threshold.
  • the methods proposed by this document are however complex and limited to certain categories of facial attacks, plane or semi-plane.
  • CompactNet learning a compact space for face presentation attack detection
  • an object is to propose a method and a program for determining whether an image of a person's face is suitable for forming an identity photograph.
  • This method and this program are particularly simple to implement and are not limited to certain categories of facial attacks. This simplicity of implementation makes it possible to carry out the method and the program on a computing device having a limited computing capacity, such as a smartphone (i.e. a multifunction mobile telephone), and therefore to make the identity photograph immediately available to the user.
  • the object of the invention proposes a method for detecting an attempted identity theft by facial attack in order to determine whether an image of a person's face is capable of forming an identity photograph , the method comprising the following steps , implemented by a computing device :
  • a location step for respectively providing a first vector of N facial landmarks extracted from the first image and a second vector of N facial landmarks extracted from the second image; a step of propagating the facial landmarks of the first vector and the facial landmarks of the second vector in two Siamese branches of a main neural network to respectively provide a first output vector and a second output vector of dimensions N; a step of combining the first output vector and the second output vector through a cost function and establishing an output digital measure evaluating the random or non-random nature of the face displacement between the first image and the second picture ; a step of classifying the output measurement to determine the random or non-random nature of the face displacement and to conclude, if necessary, an identity theft attempt.
  • the time elapsed between the acquisition of the first image and the acquisition of the second image is between 0.1 and 2 seconds;
  • the location step comprises the identification of bounding boxes of a face respectively present on the first image and on the second image;
  • the location step further comprises the identification of the facial landmarks in the areas of the first image and of the second image defined by the bounding boxes;
  • the facial landmarks forming the first vector and the second vector are specific descriptors of the face
  • the main neural network comprises a plurality of layers downstream of the two Siamese branches and forming a common trunk of the main neural network, the common trunk at least partially implementing the combining step (S4);
  • the cost function is a contrastive loss function;
  • the classification step comprises comparing the digital output measurement to a predetermined threshold;
  • the method comprises a step of transforming the first vector into a first graph of facial landmarks and the second vector into a second graph of facial landmarks, the propagation step comprising the propagation of the first and of the second graphs in, respectively, the branches conjoins of the main neural network.
  • an object of the invention proposes a computer program comprising instructions adapted to the implementation of each of the steps of the method, when the program is executed on a computing device.
  • an object of the invention proposes a system for determining whether an image of the face of a person is suitable for forming an identity photograph, the system comprising:
  • a display device connected to a computing device and to storage means, the computing device being configured to implement the method proposed above.
  • FIG. 1 represents an overview of a system 1 according to one embodiment
  • FIGS. 2a and 2b represent respectively in the form of functional blocks and method steps of a computer program in accordance with the invention
  • FIG. 3 represents an architecture of the branches of a main neural network according to a particular embodiment of the invention.
  • FIG. 4 represents the evolution of an optimization criterion established during the training of the main neural network represented in FIG. 3;
  • FIG. 5 represents the RPC graph of an example implementation of the invention.
  • a system in accordance with the various embodiments presented in this description aims to deliver to a user an identity photograph in accordance with a predetermined acceptance regulation.
  • This delivery can be made in paper or digital form. It can be accompanied by the delivery of a certificate of conformity, or incorporate this certificate by means of a marking of the photograph.
  • system 1 aims to provide the user with an identity photograph (or a certificate), on the sole condition that no attempt at identity theft by facial attack has been identified.
  • System 1 can of course apply other rules depending on the nature of the identity document for which the photograph is intended or according to the national regulations that apply, as mentioned in the introduction to this application.
  • the delivery or non-delivery of the identity photograph or the certificate is carried out in an automated manner by the system 1, using a computer program implementing an image processing method which will be the subject of a following section of this description.
  • Figure 1 shows an overview of a system 1 according to one embodiment. It comprises a shooting device 2 (an image sensor or a camera), an input interface 3 (for example a keyboard or control buttons, a display device 4 (for example a screen) connected to a computing device 5 and to storage means 6.
  • the system 1 can also provide other components, such as for example a communication interface 7 making it possible to connect the system to a computer or telecommunications network, such as the network Internet .
  • the calculation device 5 and the storage means 6 have the function, on the one hand, of coordinating the correct operation of the other devices of the system 1 and, on the other hand, of implementing the image processing method allowing to certify the conformity of the identity photograph.
  • the computing device 5 and the storage means 6 are in particular configured to execute an operating program of the system 1 making it possible to present to the user, for example on the display device 4, the instructions to be followed to obtain a photograph .
  • the operating program collects the information or commands provided by the user using the input interface 3, for example the nature of the document for which the photograph is intended and/or the start command making it possible to initiate an acquisition step of images via the shooting device 2.
  • the storage means make it possible to memorize all the data necessary for the proper functioning of the system 1, and in particular to store the images produced by the shooting device 2. These means also store the programs for operating or dragging images, these programs being conventionally made up of instructions capable of implementing all of the processing operations and/or steps detailed in the present description.
  • the display device 4 can present the images captured by the shooting device 2 to the user so as to allow this user to check his position and, more generally, his correct attitude before providing the system 1 the start command mentioned above.
  • this figure 1 is purely illustrative and other bodies than those shown can be provided.
  • the input interface 3 symbolized by a keyboard in FIG. 1 can be implemented by a touch surface associated with the display device.
  • These may be simple control buttons (physical or virtually represented on the display device) allowing the user to operate the system 1, for example to obtain, by simply pressing such a button an identity photograph intended to be associated with a predetermined document, such as a driver's license or a passport.
  • the identity photograph if it is in conformity, can be stored in the storage means 6, printed, addressed to the user via the communication interface 7 and/or communicated to this user by any appropriate means.
  • the system 1 can correspond to a photo booth, to a personal or portable computer, or even to a simple smartphone, that is to say a multifunction mobile telephone.
  • the user seeking to exploit the system 1 to receive an identity photograph can specify, in the first place and using the input interface 3, the type of photograph chosen. (driving license, passport ...) and, possibly, the national regulations to be applied, in order to allow the selection of the rules of acceptance that the identity photograph must respect. These rules can of course be predefined, in which case the previous step is not necessary. He positions himself suitably opposite the shooting device 2, possibly with the help of the reproduction of the images acquired by this device 2 on the display device 4. Then he engages the command to start the shooting sequences and image processing. At the end of this processing, and if the photograph resulting from the images acquired complies with the selected rules, and in particular those concerning attempts at identity theft, the photograph may be returned.
  • FIGS. 2a and 2b respectively represent, in the form of functional blocks and process steps, the computer program P implementing the processing aimed at determining whether an image of the user acquired via the camera device 2 is able to be delivered to this user.
  • this program P can be held in the storage means 6 and executed by the computing device 5 of the system 1.
  • the system 1 Prior to the execution of this program P, the system 1 proceeds during a step of acquisition SI of at least a first image II and a second image 12 of the face of the user, upon receipt of the start command.
  • the processing then implemented by the program P aims to determine to what extent the displacement of facial landmarks present on the first image II and on the second image 12 is of an unpredictable nature or not. It is indeed expected that if the face represented on images II, 12 is not a real face (but a photo of a face, a mask or any other form of facial attack) the distributions of the facial landmarks on, respectively, the first image II and the second image I2 are correlated with each other. This correlation can take the form of a regular mathematical transformation (for example affine, quadratic or more complex) between the facial landmarks of the first image II and the facial landmarks of the second image 12.
  • the expression “random face displacement” will designate in the present application the situation in which the facial landmarks associated with two images are not correlated with each other, that is to say that the images most likely represent a real face.
  • “non-random face displacement” will designate the situation in which these spatial landmarks are correlated, that is to say that most likely these images represent a simulated face, for example a photo of a face or a mask .
  • facial landmarks is meant points of interest of the first image II and of the second image 12 defined by their coordinates in the image II, 12, for example their rows and columns of pixels . These points of interest can correspond to particular morphological elements of the face (corner of the eye, of the lip, etc.) but this is not necessary.
  • the point of interest is placed on the face (and not in the background of the face in the image) without however necessarily corresponding to a precise morphological element.
  • the computer program P therefore receives as input the two images II, 12 of the face of the person which has been acquired during the prior acquisition step SI.
  • the time elapsed between the acquisition of the first image II and the acquisition of the second image I2 is less than 5, of the order of a few seconds, and typically between 0.5 and 2 seconds. This is a reasonable waiting time for the user and sufficient for a face displacement of significant amplitude to occur while limiting this time to avoid any attempt at complex fraud, for example by replacement of a mask by another or a photograph of a face by another during the period of time separating the two shots.
  • the two images II, I2 are supplied, successively or simultaneously, to a tracking module MR.
  • This computer module has the function of processing, during a registration step S2, an image or a plurality of images and providing a vector of facial marks associated with each image provided.
  • the tracking module MR can thus comprise a first face detection computer sub-module MD, which returns the coordinates/dimensions of a bounding box of the face present in the submitted image.
  • a sub-module is well known per se, and it can in particular implement a technique of oriented gradient histogram (HOG for "histogram of oriented gradient” according to the Anglo-Saxon terms of the field) or a technique based on convolutional neural network trained for this task.
  • This computer sub-module whatever the technique used is for example available in a pre-trained form in the library of computer functions “Dlib”.
  • the detection sub-module MD can be operated successively on the first image II and on the second image 12, in order to respectively provide coordinates/dimensions of a first bounding box and d a second bounding box. These coordinates/dimensions can correspond to the coordinates of a corner of the box and a dimension of a side when this box is square in shape.
  • the face detection sub-module MD does not locate any face in at least one of the images II, 12 which are submitted to it, it returns an indication which can be intercepted by the system 1 in order to interrupt processing and inform the user of the anomaly.
  • the tracking module MR can also include a location sub-module ML, downstream of the face detection sub-module MD.
  • This localization computer sub-module ML receives as input the information from the first and second bounding boxes supplied by the detection sub-module MD as well as the first and the second image II, 12. This information can be supplied to the sub-module MD to be processed successively or simultaneously by this module.
  • this sub-module ML processes the data received as input to provide, at its output, a vector of points of interest of the image, and more precisely of the portion of the image arranged in the bounding box.
  • these points of interest do not form specific descriptors of the face . It may thus be a question of the S IFT (“Scale Invariant Feature Transform”), SURF (“Speed Up Robust Feature”), ORB (“Oriented FAST and rotated BRIEF”) techniques or any other similar technique, which can be find a detailed description in the paper by Karami, Ebrahim & Prasad, Siva & Shehata, Mohamed. ( 2015 ) . "Image Matching Using SIFT, SURF, BRIEF and ORB: Performance Comparison for Distorted Images". These techniques can be implemented using freely available computer libraries.
  • this sub-module ML Used in the context of the program P, this sub-module ML simultaneously establishes a first vector XI of points of interest arranged in the portion of the first image I I included in the first bounding box and a second vector X2 of points of interest arranged in the portion of the second image 12 included in the second bounding box.
  • the points of interest of the first and of the second vector are paired between them, that is to say that the same inputs of the first and of the second vector consist of points of interest which correspond in the first image I I and in the second picture 12 .
  • the points of interest are specific descriptors of the face (corner of the mouth, of the eye, of the nose, etc.).
  • This approach can be implemented by a neural network trained to identify in an image (here a portion of the first image I I and/or of the second image 12 ) these specific descriptors.
  • a neural network is also available in the previously mentioned Dlib library.
  • the points of interest of the first and of the second vector provided according to this alternative approach are also paired with one another.
  • the points of interest of images identified by the various techniques presented above form, within the framework of the present application, facial landmarks on the faces. represented on the processed images.
  • it will be chosen to configure the location sub-module ML to identify a number N of points of interest/facial landmarks comprised between 20 and 200, and more particularly between 60 and 90.
  • this localization computer sub-module ML outputs a first vector XI of N facial landmarks extracted from the first image I I and a second vector X2 of N facial landmarks extracted of the second image 12 .
  • This paired first and second vector X1, X2 also form the outputs of the tracking module MR.
  • the computer program P comprises, downstream of the tracking module MR, a main neural network RP formed of two Siamese branches.
  • a neural network consists of layers of neurons interconnected with one another according to a determined architecture , and each neuron of each layer is defined by neuron parameters collectively forming the parameters of network learning.
  • the two branches RP1, RP2 are themselves neural networks which have precisely the same architecture and the same learning parameters. This is why these two branches are called “Siamese”.
  • the first vector XI is applied to the input of the first branch BRI of the main neural network RP.
  • the second vector X2 is applied to the input of the second branch BR2 of this network RP.
  • the first branch provides a first output vector Y1 composed of N scalar values and therefore defining a point in a vector space of dimension N.
  • the second branch BR2 provided a second output vector Y2 also composed of N scalar values.
  • the main neural network RP1 has been trained and configured to separate in distinct zones of the vector space the two output vectors Y1, Y2 when the two images II, 12 with which these vectors are associated present a random face displacement, c' that is to say when the faces represented on the two images II, 12 appear very real.
  • the main neural network RP is configured to group together in the same zone of the vector space two output vectors Y1, Y2 when the two images II, 12 with which these vectors are associated present a non-random face displacement, that is to say when the faces represented on the two images II, 12 do not appear real, which testifies to an attempt at identity theft by facial attack.
  • an inverse operation can naturally be chosen (that is to say group together in the same zone of the vector space two output vectors corresponding to a situation of random face displacement and separate the two output vectors in different zones in the opposite case), the important thing being to attempt to discriminate between the two situations of random and non-random face displacement by grouping the output vectors in the same zone or by separating them in distinct zones as the case may be.
  • the processing leading to transforming the first vector of facial landmarks XI and the second vector of facial landmarks X2 extracted from the first and second images II, 12 into a first and a second output vector Y1, Y2 implemented by the main neural network RP form a propagation step S3.
  • a propagation step S3 we will illustrate in a specific example presented at the end of this description, an architecture common to the two branches BRI, BR2, but in general this architecture is formed of a sequence of purely convolutional and activation layers allowing the identification spatial relationships between facial landmark vectors.
  • the main neural network RP can be supplemented, downstream of the two branches, with a small number of entirely connected layers of decreasing size, forming a common core of the neural network, and making it possible to prepare decision-making.
  • the output vectors Y1, Y2 do not form outputs of the main neural network RP as such, but an intermediate state of this network which supplies the layers of the common trunk.
  • the last layer of this prepares a combined output vector Z, which combines the two vectors Y1, Y2 together.
  • This combined output vector Z can have any dimension, which can in particular be different from those of the output vectors Y1, Y2 and even correspond to a simple scalar value.
  • the common trunk part of the main network is trained simultaneously and with the same training data as the two branches BRI, BR2.
  • this program P also comprises, downstream of the main neural network RP, a block of cost L combining the first output vector Y1 and the second output vector Y2 by the intermediary of a cost function, and provide a numerical output value a seeking to numerically evaluate the random or non-random nature of face displacement between the first image II and the second image I2.
  • the cost block L processes the combined output vector Z to provide this numeric value.
  • the block of cost L is fully integrated into the main neural network RP, and that the scalar value provided by this network RP constitutes the digital output value a seeking to numerically assess the random or non-random nature of face displacement.
  • This numerical value which can for example be between 0 and 1, measures in a way the “distance” separating the two output vectors Y1, Y2.
  • the cost function implemented by the cost block L can correspond to any suitable function, for example a contrastive loss function as is well known per se. In any event, the processing operations implemented by the cost block L are executed during a combination step S4 of the method.
  • the program P comprises a classification module K of the output measurement a in order, on the basis of this measurement, to determine the random or non-random nature of the face displacement, and to conclude, if necessary, an attempt to usurp a identify .
  • the classification step S5 implemented by this module K can comprise the comparison of the digital measurement a with a predetermined threshold making it possible, depending on whether the digital measurement a is greater than or less than this predetermined threshold, to conclude that there has been an attempt at fraud or No .
  • the information supplied by the classification module concludes the execution of the image processing program , and this information can therefore be exploited by the program . of the operating system 1 to validate or not the conformity of the images II, 12 and to provide or not an identity photograph which can correspond to the first or to the second image II, 12.
  • the image processing implemented by the program P is not limited to that described and represented in FIG. 2. It is thus possible to provide that this program P performs other processing on at least one of the images II, 12, for example to identify a non-compliant object therein (glasses, headgear for example) or to make them compliant (uniformity of the background, erasing of red eyes) or even to retouch the images, for example to remove non-compliant objects that may have been identified; this for minor alterations accepted by the authority issuing the identity documents.
  • this program P performs other processing on at least one of the images II, 12, for example to identify a non-compliant object therein (glasses, headgear for example) or to make them compliant (uniformity of the background, erasing of red eyes) or even to retouch the images, for example to remove non-compliant objects that may have been identified; this for minor alterations accepted by the authority issuing the identity documents.
  • the tracking module MR is perfectly identical to that of the main mode of implementation. It therefore prepares a first vector X1 of N facial landmarks extracted from the first image II and a second vector X2 of N facial landmarks extracted from the second image I2.
  • the vectors XI, X2 are supplied to an additional module which aims to transform each vector XI, X2 into a graph making it possible to describe the face with more precision.
  • This graph is thus constructed by associating each entry of a vector (a facial marker) with a list of other entries (other facial markers) being connected to it.
  • a facial landmark associated with the left corner of the lip is connected to the facial landmarks associated with the center points of the lips, at the base of the left wing of the nose, and the horizontal projection of the left corner of the mouth onto the oval of the face.
  • each entry of a vector (a facial landmark of the image) to the k other neighboring entries (the k closest facial landmarks on the image)
  • k can be chosen typically between 3 and 10.
  • the originality of this variant is that it makes it possible to reinforce the quality of the predictions by adding information that can be calculated quickly, while using a neural network suitable for comparing data.
  • the results of the two branches of the neural network are compared within the cost block L, a value which will then be introduced into the classification module K in order to determine, just like in the main mode of implementation, if the user tried to make a legitimate acquisition or tried to defraud.
  • FIG. 3 shows a particular architecture of the branches BRI, BR2 of the main neural network RP.
  • This architecture comprises successively connected to each other:
  • the fully connected first and second layers are followed by a linear rectification unit (ReLu) on each of their outputs (not shown in the figure).
  • ReLu linear rectification unit
  • the facial reference vectors XI, X2 are formed from the 81 coordinates of points of interest of the faces determined using the functions available in the Dlib library.
  • the cost block implements a contrastive loss function (generally designated in the field by the Anglo-Saxon expression “contrastive loss”.
  • This architecture combined with the cost block L was trained using a dataset composed of 1075 pairs of images of a real face, and 254 pairs of representative images of attempted spoofing. by facial attack. This dataset was split into two parts, 60% of each category was used during training of the main neural network, and the remaining 40% was used to assess fraud detection accuracy.
  • the example main neural network was trained using the training data over 100 epochs, using an Adam-type optimizer and a training parameter of 10“ 6 .
  • FIG. 4 represents the evolution of the optimization criterion established during this learning. It is observed that this evolution converges whether it is measured on the learning data or on the validation data.
  • the curve in FIG. 5 represents the ROC (receiver operating characteristic) curve of this example.
  • the graph shows the performance of the program P and of the processing method according to the chosen value of the threshold in the classification module K.
  • the graph presents an abscissa axis corresponding to the proportion of false positives and the ordinate the proportion of true positives.
  • we aim for the optimal point of coordinates (0,1) that is to say presenting 0% of false positives and 100% of true positives.
  • the graph in Figure 5 shows the performance of this example according to the chosen value of the classification modulus threshold. It also makes it possible to choose the value of this threshold S* making it possible to locate as close as possible to the optimum point of coordinates (0,1).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)
  • Image Processing (AREA)

Abstract

L'invention porte sur procédé pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité. Le procédé comprend une étape d'acquisition (S1) d'une première image (I1) et d'une deuxième image (I2) du visage de la personne. Il comprend également une étape de propagation (S3) de repères faciaux issues de la première image (I1) et de repères faciaux issues de la deuxième image (I2) dans deux branches siamoises (RP1, RP2) d'un réseau neuronal principal (RP). L'invention porte également sur un programme informatique mettant en œuvre ce procédé et sur un système (1) configuré pour mettre en œuvre ce procédé.

Description

DESCRIPTION
TITRE : PROCEDE POUR DETERMINER S I UNE IMAGE DU VI SAGE D' UNE PERSONNE EST APTE A FORMER UNE PHOTOGRAPHIE D' IDENTITE
DOMAINE DE L' INVENTION
Le domaine technique de l ' invention est celui du traitement des images numériques .
ARRIERE PLAN TECHNOLOGIQUE DE L' INVENTION
Une pièce ou un document d' identité comporte usuellement la photographie du visage du titulaire de la pièce , la photographie étant dite « d' identité » . On peut de la sorte vérifier biométriquement (par reconnaissance faciale ) la correspondance entre la photographie d' identité et le porteur de la pièce ou du document d' identité , et donc que le porteur en est effectivement le titulaire .
Les administrations nationales ont défini des règles d' acceptation des photographies proposées par un demandeur, pour qu' une telle photographie puisse être considérée « d' identité » . Ces règles dépendent à la fois du type de document et du pays . Par exemple , il est interdit de porter un foulard religieux sur une carte d' identité " française , alors que cela est possible sur une photographie d' autres pays européens . De manière analogue , l ' administration française interdit le port de coiffes sur les passeports et les cartes d' identité alors que d' autres administrations le permettent , comme au Royaume-Uni ou en Inde .
Le respect des règles applicables peut être assuré par un opérateur humain, par exemple un photographe professionnel lorsque la photographie est réalisée par un tel professionnel ou par un opérateur distant auquel la photographie a été transmise lorsque la photographie a été réalisée dans une photo-cabine ou par le demandeur lui-même, ce qui est permis dans certains pays (Royaume Uni) .
Cette étape de vérification prend donc du temps, et l'automatisation de cette approbation nécessaire est très avantageuse. Le document US9369625 propose ainsi un système permettant de directement déterminer si une image du visage d'une personne est apte à former une photographie d'identité, selon les exigences imposées par un pays donné.
La vérification que l'image respecte bien les critères administratifs requis n'est toutefois pas suffisante pour proposer un système de prise de vue conforme et fiable. Les administrations veulent en effet s'assurer que les photographies utilisées pour la création d'un document d'identité soient bien des clichés de visages réels, afin de limiter la fraude, notamment d'usurpation d'identité. La photo d'identité doit également avoir moins de 6 mois. Le risque de fraude se pose tout particulièrement lorsque le système est entièrement automatisé .
Dans le domaine de la sécurité biométrique, on désigne par « fraude par attaque faciale » les fraudes consistant à présenter un visage grimé ou une représentation d'un visage dont la reconnaissance est attendue. Ainsi, dans le cas de la préparation d'une photographie d'identité, il est important de pouvoir détecter qu'une photographie représente bien le visage d'une personne réelle, et non un visage extrait d'une image ou d'une vidéo.
Le document EP2751739 adresse ce problème et propose plusieurs méthodes de détection de fraude mettant en œuvre l'acquisition de deux images du visage d'une personne. Un traitement est opéré pour évaluer la planéité du visage apparaissant sur ces images et une détection de fraude est identifiée si un score de planéité dépasse un seuil critique. Les méthodes proposées par ce document sont toutefois complexes et limitées à certaines catégories d'attaques faciales, plane ou semi-plane .
D'autres procédés sont proposés dans la littérature pour s'attaquer au problème de ce type de fraudes.
L'article « Identity-constrained noise modeling with metric learning for face anti-spoofing" par Yaowen Xu et al., Neurocomputing 434 (2021) 149-164 décrit un procédé basé sur la modélisation du bruit d'une image d'identité contrefaite par un système d'apprentissage.
L'article « CompactNet : learning a compact space for face presentation attack detection » by Lei Li et al., Neurocomputing 409 (2020) 191-207, décrit un procédé basé sur l'apprentissage d'un espace colorimétrique compact, considérant que des images quelconques enregistrées sont reproduites selon un espace colorimétrique donné, de sorte qu'une attaque faciale peut être déjouée sur la base de l'espace colorimétrique d'un visage, qui sera différent selon qu'il s'agit d'un vrai visage ou d'une image reproduisant un visage.
OBJET DE L'INVENTION
Un des buts de l'invention est de proposer une solution alternative à celles de l'état de la technique. Plus particulièrement, un but est de proposer un procédé et un programme pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité. Ce procédé et ce programme sont particulièrement simples à mettre en œuvre et ne sont pas limités à certaines catégories d'attaques faciales. Cette simplicité de mise en œuvre permet d'exécuter le procédé et le programme sur un dispositif de calcul présentant une capacité de calcul limité , tel qu' un smartphone ( i . e . un téléphone mobile multifonctions ) , et donc de rendre la photographie d' identité immédiatement disponible à 1 ' utilisateur .
BREVE DESCRIPTION DE L' INVENTION
En vue de la réalisation de ce but , l ' obj et de l ' invention propose un procédé de détection d' une tentative d' usurpation d' identité par attaque faciale pour déterminer si une image du visage d' une personne est apte à former une photographie d' identité , le procédé comprenant les étapes suivantes , mises en œuvre par un dispositif de calcul :
- une étape d' acquisition d' une première image et d' une deuxième image du visage de la personne , le temps écoulé entre l ' acquisition de la première image et l ' acquisition de la deuxième image étant inférieur à 5 secondes ;
- une étape de repérage pour respectivement fournir un premier vecteur de N repères faciaux extraits de la première image et un deuxième vecteur de N repères faciaux extraits de la deuxième image ; une étape de propagation des repères faciaux du premier vecteur et des repères faciaux du deuxième vecteur dans deux branches siamoises d' un réseau neuronal principal pour respectivement fournir un premier vecteur de sortie et un deuxième vecteur de sortie de dimensions N; une étape de combinaison du premier vecteur de sortie et du deuxième vecteur de sortie par l ' intermédiaire d' une fonction de coût et établir une mesure numérique de sortie évaluant la nature aléatoire ou non aléatoire du déplacement de visage entre la première image et la deuxième image ; une étape de classification de la mesure de sortie pour déterminer la nature aléatoire ou non aléatoire du déplacement de visage et conclure, le cas échéant, à une tentative d'usurpation d'identité.
Selon d'autres caractéristiques avantageuses et non limitatives de l'invention, prises seules ou selon toute combinaison techniquement réalisable :
- le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image est compris entre 0,1 et 2 secondes ;
- l'étape de repérage comprend l'identification de boites englobantes d'un visage respectivement présent sur la première image et sur la deuxième image ;
- l'étape de repérage comprend en outre l'identification des repères faciaux dans les zones de la première image et de la deuxième image définies par les boites englobantes ;
- les repères faciaux formant le premier vecteur et le deuxième vecteur sont des descripteurs spécifiques du visage ;
- le réseau de neuronal principal comprend une pluralité de couches en aval des deux branches siamoises et formant un tronc commun du réseau neuronal principal, le tronc commun mettant en œuvre au moins en partie l'étape de combinaison (S4) ; la fonction de coût est une fonction de perte contrastive ; - l'étape de classification comprend la comparaison de la mesure numérique de sortie à un seuil prédéterminé ;
- le procédé comprend une étape de transformation du premier vecteur en un premier graphe de repères faciaux et du deuxième vecteur en un deuxième graphe de repères faciaux, l'étape de propagation comprenant la propagation du premier et du deuxième graphes dans, respectivement, les branches siamoises du réseau neuronal principal.
Selon un autre aspect, un objet de l'invention propose un programme informatique comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé, lorsque le programme est exécuté sur un dispositif de calcul.
Selon un autre aspect encore, un objet de l'invention propose un système pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le système comprenant :
- un dispositif de prise de vue ;
- une interface d'entrée ;
- un dispositif d'affichage reliés à un dispositif de calcul et à des moyens de stockage, le dispositif de calcul étant configuré pour mettre en œuvre le procédé proposé précédemment.
BREVE DESCRIPTION DES FIGURES
D'autres caractéristiques et avantages de l'invention ressortiront de la description détaillée de l'invention qui va suivre en référence aux figures annexées sur lesquels :
[Fig. 1] La figure 1 représente une vue d'ensemble d'un système 1 selon un mode de réalisation ;
[Fig. 2a]
[Fig. 2b] Les figures 2a et 2b représentent respectivement sous forme de blocs fonctionnels et d'étapes de procédés d'un programme informatique conforme à l'invention ;
[Fig. 3]
La figure 3 représente une architecture des branches d'un réseau neuronal principal selon un mode mis en œuvre particulier de l'invention ;
[Fig. 4]
La figure 4 représente l'évolution d'un critère d'optimisation établi au cours de l'apprentissage du réseau neuronal principal représenté sur la figure 3 ;
[Fig. 5]
La figure 5 représente le graphe RPC d'un exemple de mise en œuvre de l'invention.
DESCRIPTION DETAILLEE DE L'INVENTION
Un système conforme aux différents modes de réalisation présentés dans cette description vise à délivrer à un utilisateur une photographie d' identité conforme à un règlement d'acceptation prédéterminé. Cette livraison peut être réalisée sous forme papier ou sous forme numérique. Elle peut être accompagnée de la remise d'un certificat de conformité, ou incorporer ce certificat par l'intermédiaire d'un marquage de la photographie. A minima, le système 1 vise à fournir une photographie d'identité à l'utilisateur (ou un certificat) , à la condition exclusive qu'aucune tentative d'usurpation d'identité par attaque faciale n'ait été identifiée. Le système 1 peut bien naturellement appliquer d'autre règles selon la nature du document d' identité auquel la photographie est destinée ou selon la réglementation nationale qui s'applique, comme cela a été évoqué en introduction de cette demande.
La remise ou la non-remise de la photographie d' identité ou du certificat est réalisée de manière automatisée par le système 1, à l'aide d'un programme informatique mettant en œuvre un procédé de traitement d'images qui fera l'objet d'une section suivante de cette description.
La figure 1 représente une vue d'ensemble d'un système 1 selon un mode de réalisation. Il comprend un dispositif de prise de vue 2 (un capteur d'image ou une caméra) , une interface d'entrée 3 (par exemple un clavier ou des boutons de commande, un dispositif d'affichage 4 (par exemple un écran) reliés à un dispositif de calcul 5 et à des moyens de stockage 6. Le système 1 peut également prévoir d'autres organes, comme par exemple une interface de communication 7 permettant de relier le système à un réseau informatique ou de télécommunication, tel que le réseau Internet .
Le dispositif de calcul 5 et les moyens de stockage 6 ont pour fonction, d'une part, de coordonner le bon fonctionnement des autres dispositifs du système 1 et, d'autre part, de mettre en œuvre le procédé de traitement d' images permettant de certifier la conformité de la photographie d'identité.
Le dispositif de calcul 5 et les moyens de stockage 6 sont notamment configurés pour exécuter un programme d'exploitation du système 1 permettant de présenter à l'utilisateur, par exemple sur le dispositif d'affichage 4, les instructions à suivre pour obtenir une photographie. Le programme d'exploitation collecte les informations ou commandes fournies par l'utilisateur à l'aide de l'interface d'entrée 3, par exemple la nature du document auquel la photographie est destinée et/ou la commande de démarrage permettant d'enclencher une étape d'acquisition d'images par l'intermédiaire du dispositif de prise de vue 2. Les moyens de stockage permettent de mémoriser toutes les données nécessaires au bon fonctionnement du système 1, et notamment de stocker les images produites par le dispositif de prise de vue 2. Ces moyens stockent également les programmes d'exploitation ou de traînement d'images, ces programmes étant conventionnellement constitués d' instructions aptes à mettre en œuvre l'ensemble des traitements et/ou des étapes détaillés dans la présente description.
Le dispositif d'affichage 4 peut présenter à l'utilisateur les images captées par le dispositif de prise de vue 2 de manière à permettre à cet utilisateur de vérifier son positionnement et, de manière plus générale, sa bonne attitude avant de fournir au système 1 la commande de démarrage évoquée précédemment.
Bien entendu cette figure 1 est purement illustrative et on peut prévoir d'autres organes que ceux représentés. Ainsi, on peut prévoir de munir le système 1 d'un dispositif d'impression permettant de remettre sous forme physique la photographie. Par ailleurs, l'interface d'entrée 3 symbolisée par un clavier sur la figure 1 peut être mise en œuvre par une surface tactile associée au dispositif d'affichage. Il peut s'agir de simples boutons de commande (physiques ou virtuellement représentés sur le dispositif d'affichage) permettant à l'utilisateur d'opérer le système 1, par exemple pour obtenir par l'intermédiaire d'un simple appui sur un tel bouton une photographie d' identité destinée à être associée à un document prédéterminé, comme un permis de conduire ou un passeport. Après l'exécution des traitements d'images et en fin d'exécution du programme d'exploitation, la photographie d'identité, si elle est bien conforme, peut être mémorisée dans les moyens de stockage 6, imprimée, adressée à l'utilisateur par l'intermédiaire de l'interface de communication 7 et/ou communiquée à cet utilisateur par tout moyen qui convient.
Selon le mode de réalisation choisi, le système 1 peut correspondre à une photo-cabine, à un ordinateur personnel ou portable, voire même à un simple smartphone, c'est-à-dire un téléphone mobile multifonctions.
Quel que soit le mode de réalisation choisi, l'utilisateur cherchant à exploiter le système 1 pour recevoir une photographie d'identité peut préciser, en premier lieu et à l'aide de l'interface d'entrée 3, le type de photographie choisie (permis de conduire, passeport ...) et, éventuellement, la réglementation nationale à appliquer, afin de permettre la sélection des règles d'acceptation que la photographie d'identité doit respecter. Ces règles peuvent bien entendu être prédéfinies, auquel cas l'étape précédente n'est pas nécessaire. Il se positionne convenablement face au dispositif de prise de vue 2, en s'aidant possiblement de la reproduction des images acquise par ce dispositif 2 sur le dispositif d'affichage 4. Puis il enclenche la commande de démarrage des séquences de prise de vue et de traitement d'images. A l'issue de ces traitements, et si la photographie issue des images acquises est bien conforme aux règles sélectionnées, et notamment celles concernant les tentatives d'usurpation d'identité, la photographie peut être remise. Bien entendu si une telle tentative de fraude est identifiée, la photographie n'est pas remise ou le certificat de conformité n'est pas délivré. Les figures 2a et 2b représentent respectivement sous forme de blocs fonctionnels et d'étapes de procédés le programme informatique P mettant en œuvre les traitements visant à déterminer si une image de l'utilisateur acquise par l'intermédiaire du dispositif de prise de vue 2 est apte à être remise à cet utilisateur. Comme on l'a déjà indiqué, ce programme P peut être détenu dans les moyens de stockage 6 et exécuté par le dispositif de calcul 5 du système 1.
Préalablement à l'exécution de ce programme P, le système 1 procède au cours d'une étape d'acquisition SI d'au moins une première image II et d'une deuxième image 12 du visage de l'utilisateur, à réception de la commande de démarrage. Le traitement mis en œuvre ensuite par le programme P vise à déterminer dans quelle mesure le déplacement de repères faciaux présents sur la première image II et sur la deuxième image 12 présente une nature imprévisible ou non. Il est en effet attendu que si le visage représenté sur les images II, 12 n'est pas un visage réel (mais une photo d'un visage, un masque ou toute autre forme d'attaque faciale) les distributions des repères faciaux sur, respectivement, la première image II et la deuxième image 12, soient corrélées entre elles. Cette corrélation peut prendre la forme d'une transformation mathématique régulière (par exemple affine, quadratique ou plus complexe) entre les repères faciaux de la première image II et les repères faciaux de la deuxième image 12.
A contrario, il est attendu que les distributions des repères faciaux sur, respectivement, la première image II et la deuxième image 12, ne pas soient corrélées entre elles lorsque ces images II, 12 représente un visage réel. Un utilisateur ne peut effectivement maîtriser l'expression de son visage pour le maintenir figé dans le temps. Ces variations d'expression ne sont pas parfaitement ordonnées et ne peuvent être décrites avec précision, au niveau des repère faciaux, par une transformation régulière .
Par simplicité d'expression, on désignera dans la présente demande par l'expression « déplacement de visage de nature aléatoire » la situation dans laquelle les repères faciaux associés à deux images ne sont pas corrélés entre eux, c'est-à- dire que les images représentent très probablement un visage réel. Corolairement , on désignera par « déplacement de visage de nature non aléatoire » la situation dans laquelle ces repères spatiaux sont corrélés, c'est-à-dire que très probablement ces images représentent un visage simulé, par exemple une photo de visage ou un masque.
Pour être tout à fait clair, par « repères faciaux » on désigne des points d'intérêt de la première image II et de la deuxième image 12 définis par leurs coordonnés dans l'image II, 12, par exemple leurs rangs et colonnes de pixel. Ces points d'intérêt peuvent correspondre à des éléments morphologiques particuliers du visage (coin de l'œil, de la lèvre ...) mais cela n'est pas nécessaire. Avantageusement toutefois le point d'intérêt est placé sur le visage (et non dans l'arrière-plan du visage dans l'image) sans toutefois nécessairement correspondre à un élément morphologique précis.
On comprend que la nature des transformations qui peuvent s'appliquer aux repères faciaux entre la première image du visage de l'utilisateur et la deuxième image de ce visage dans le cas d'une tentative d'usurpation d'identité par attaque faciale, peut varier selon la nature de cette attaque et être complexe à identifier. Aussi, dans le cadre de la présente invention, on propose de discriminer la nature aléatoire/non aléatoire des mouvements de visage par apprentissage, à partir de données d'entrainement variées et représentatives des multiples sortes d'attaques faciales possibles.
Revenant à la description générale des figures 2a et 2b, le programme informatique P reçoit donc en entrée les deux images II, 12 du visage de la personne dont on a fait l'acquisition au cours de l'étape préalable d'acquisition SI. Le temps écoulé entre l'acquisition de la première image II et l'acquisition de la deuxième image 12 est inférieur à 5, de l'ordre de quelques secondes, et typiquement compris entre 0.5 et 2 secondes. Il s'agit d'une durée d'attente raisonnable pour l'utilisateur et suffisante pour qu'un déplacement de visage d'amplitude significative puisse se produire tout en limitant ce temps pour éviter toute tentative de fraude complexe, par exemple par remplacement d'un masque par un autre ou d'une photographie de visage par une autre pendant la période de temps séparant les deux prises de vues.
Les deux images II, 12 sont fournies, successivement ou simultanément, à un module de repérage MR. Ce module informatique a pour fonction de traiter, au cours d'une étape de repérage S2 une image ou une pluralité d' image et fournir un vecteur de repères faciaux associé à chaque image fournie.
Le module de repérage MR peut ainsi comprendre un premier sous module informatique de détection de visage MD, qui retourne les coordonnées/dimensions d'une boite englobante du visage présent sur l'image soumise. Un tel sous-module est bien connu en soi, et il peut notamment mettre en œuvre une technique d'histogramme de gradient orienté (HOG pour « histogram of oriented gradient » selon les termes anglo-saxons du domaine) ou une technique à base de réseau neuronal à convolution entraîné à cette tâche. Ce sous-module informatique, quel que soit la technique employée est par exemple disponible sous une forme pré-entrainée dans la bibliothèque de fonctions informatiques « Dlib ».
Dans le cadre du programme P illustré sur les figures, le sous- module de détection MD peut être exploité successivement sur la première image II et sur la deuxième image 12, afin de fournir respectivement des coordonnées/dimensions d'une première boite englobante et d'une deuxième boite englobante. Ces coordonnées/dimensions peuvent correspondre aux coordonnées d'un angle de la boite et une dimension d'un côté lorsque cette boite est de forme carrée.
On note que si le sous-module de détection de visage MD ne repère aucun visage dans l'une au moins des images II, 12 qui lui sont soumises, il retourne une indication qui peut être interceptée par le système 1 en vue d' interrompre les traitements et informer l'utilisateur de l'anomalie.
Le module de repérage MR peut également comprendre un sous- module de localisation ML, en aval du sous-module de détection du visage MD. Ce sous-module informatique de localisation ML reçoit en entrée les informations des premières et deuxièmes boites englobantes fournies par le sous-module de détection MD ainsi que la première et la deuxième image II, 12. Ces informations peuvent être fournies au sous-module MD pour être traitées successivement ou simultanément par ce module.
D'une manière très générale, ce sous-module ML traite les données reçues en entrée pour fournir, en sa sortie, un vecteur de points d'intérêt de l'image, et plus précisément de la portion de l'image disposée dans la boite englobante.
Selon un premier type de techniques communément employées, ces points d' intérêt ne forment pas des descripteurs spécifiques du visage . I l peut ainsi s ' agir des techniques S IFT (« Scale Invariant Feature Transform ») , SURF (« Speed Up Robust Feature ») , ORB (« Oriented FAST and rotated BRIEF ») ou de toute autre technique similaire , dont on pourra trouver une description détaillée dans le document de Karami , Ebrahim & Prasad, Siva & Shehata, Mohamed . ( 2015 ) . " Image Matching Using S IFT , SURF, BRIEF and ORB : Performance Comparison for Distorted Images" . Ces techniques peuvent être mises en œuvre à l ' aide de bibliothèques informatiques librement disponibles .
Exploité dans le cadre du programme P, ce sous-module ML établit simultanément un premier vecteur XI de points d' intérêt disposés dans la portion de la première image I I comprise dans la première boite englobante et un deuxième vecteur X2 de points d' intérêt disposés dans la portion de la deuxième image 12 comprise dans la deuxième boite englobante . Les points d' intérêts du premier et du deuxième vecteur sont appariés entre eux, c' est-à-dire que les mêmes entrées du premier et du deuxième vecteur sont constituées de points d' intérêt qui se correspondent dans la première image I I et dans la deuxième image 12 .
Selon une approche alternative , les points d' intérêts sont des descripteurs spécifiques du visage ( coin de la bouche , de l ' œil , du nez...) . Cette approche peut être mise en œuvre par un réseau neuronal entraîné pour repérer dans une image ( ici une portion de la première image I I et/ou de la seconde image 12 ) ces descripteurs spécifiques . Un tel réseau neuronal est également disponible dans la bibliothèque Dlib citée précédemment . Les points d' intérêts du premier et du deuxième vecteur fournis selon cette approche alternative sont également appariés entre eux .
Les points d' intérêt d' images identifiés par les différentes techniques présentées ci-dessus forment , dans le cadre de la présente demande , des repères faciaux sur les visages représentés sur les images traitées . Typiquement , on choisira de configurer le sous-module de localisation ML pour identifier un nombre N de points d' intérêts /repères faciaux compris entre 20 et 200 , et plus particulièrement entre 60 et 90 .
Quelle que soit l ' approche retenue pour mettre en œuvre ce sous - module informatique de localisation ML, celui -ci fournit en sortie un premier vecteur XI de N repères faciaux extraits de la première image I I et un deuxième vecteur X2 de N repères faciaux extraits de la deuxième image 12 . Ce premier et deuxième vecteur XI , X2 appariés forment également les sorties du module de repérage MR .
Poursuivant la description des figures 2a et 2b, le programme informatique P comprend, en aval du module de repérage MR, un réseau neuronal principal RP formé de deux branches siamoises . D' une manière très générale et comme cela est bien connu en soi , un réseau neuronal est constitué de couches de neurones interconnectées entre elles selon une architecture déterminée , et chaque neurone de chaque couche est défini par des paramètres de neurone formant collectivement les paramètres d' apprentissage du réseau . Dans le réseau neuronal principal RP, les deux branches RP1 , RP2 sont elles-mêmes des réseaux de neurones qui présentent précisément la même architecture et les mêmes paramètres d' apprentissage . C' est pourquoi ces deux branches sont appelées « siamoises » .
Comme cela est visible sur la figure 2a, le premier vecteur XI est appliqué à l ' entrée de la première branche BRI du réseau neuronal principal RP . Similairement , le deuxième vecteur X2 est appliqué à l ' entrée de la deuxième branche BR2 de ce réseau RP . La première branche fournie un premier vecteur de sortie Y1 composé de N valeurs scalaires et définissant donc un point dans un espace vectoriel de dimension N . La deuxième branche BR2 fournie un deuxième vecteur de sortie Y2 composé également de N valeurs scalaires.
Le réseau neuronal principal RP1 a été entraîné et configuré pour séparer dans des zones distinctes de l'espace vectoriel les deux vecteurs de sortie Yl, Y2 quand les deux images II, 12 auxquelles sont associés ces vecteurs présente un déplacement de visage aléatoire, c'est-à-dire lorsque les visages représentés sur les deux images II, 12 apparaissent bien réels. Dans le même temps, le réseau neuronal principal RP est configuré pour regrouper dans une même zone de l'espace vectoriel deux vecteurs de sortie Yl, Y2 lorsque les deux images II, 12 auxquels sont associés ces vecteurs présente un déplacement de visage non aléatoire, c'est-à-dire lorsque les visages représentés sur les deux images II, 12 n'apparaissent pas réels, ce qui témoigne d'une tentative d'usurpation d'identité par attaque faciale.
On note qu'un fonctionnement inverse peut naturellement être choisi (c'est-à-dire regrouper dans un même zone de l'espace vectoriel deux vecteurs de sortie correspondant à une situation de déplacement de visage aléatoire et séparer les deux vecteurs de sortie dans des zones différentes dans le cas contraire) , l'important étant de tenter de discriminer les deux situations de déplacement de visage aléatoire et non aléatoire en regroupant les vecteurs de sortie dans une même zone ou en les séparant dans des zones distinctes selon le cas.
Quelle que soit la solution retenue, les traitements conduisant à transformer le premier vecteur de repères faciaux XI et le deuxième vecteur de repères faciaux X2 extraits de la première et de la deuxième images II, 12 en un premier et un deuxième vecteur de sortie Yl, Y2 mis en œuvre par le réseau neuronal principal RP forment une étape de propagation S3. On illustrera dans un exemple précis présenté en fin de la présente description, une architecture commune aux deux branches BRI , BR2 , mais d' une manière générale cette architecture est formé d' un enchaînement de couches purement convolutives et d' activation permettant l ' identification de relations spatiales entre les vecteurs de repères faciaux .
Dans une variante particulièrement avantageuse , on peut compléter le réseau neuronal principal RP, en aval des deux branches d' un petit nombre de couches entièrement connectées de dimension décroissantes , formant un tronc commun du réseau neuronal , et permettant de préparer la prise de décision . Dans une telle variante , les vecteurs de sortie Yl , Y2 ne forment pas des sorties du réseau neuronal principal RP en tant que tel , mais un état intermédiaire de ce réseau qui alimente les couches du tronc commun . La dernière couche de celui-ci prépare un vecteur de sortie combiné Z , qui combine entre eux les deux vecteurs Yl , Y2 . Ce vecteur de sortie combiné Z , peut présenter une dimension quelconque , qui peut notamment être différente de celles des vecteurs de sortie Yl , Y2 et même correspondre à une simple valeur scalaire . Bien entendu, la partie de tronc commun du réseau principal est entraînée simultanément et avec les mêmes données d' entrainement que les deux branches BRI , BR2 .
Pour finir la description du schéma fonctionnel du programme P des figures 2a, 2b, ce programme P comprend également , en aval du réseau neuronal principal RP, un bloc de coût L combinant le premier vecteur de sortie Yl et le deuxième vecteur de sortie Y2 par l ' intermédiaire d' une fonction de coût , et fournir une valeur numérique de sortie a cherchant à évaluer numériquement la nature aléatoire ou non aléatoire de déplacement de visage entre la première image I I et la deuxième image 12 . Lorsque le réseau neuronal principal RP comprend la partie de tronc commun, comme cela a été présenté antérieurement , le bloc de coût L traite le vecteur de sortie combiné Z pour fournir cette valeur numérique . Lorsque le vecteur de sortie combiné Z se résume à un simple scalaire , on considère alors que le bloc de coût L est entièrement intégré dans le réseau neuronal principal RP, et que la valeur scalaire fourni par ce réseau RP constitue la valeur numérique de sortie a cherchant à évaluer numériquement la nature aléatoire ou non aléatoire de déplacement de visage .
Cette valeur numérique qui peut être par exemple comprise entre 0 et 1 mesure en quelque sorte la « distance » séparant les deux vecteurs de sortie Yl , Y2 . La fonction de coût mise en œuvre par le bloc de coût L peut correspondre à toute fonction qui convient , par exemple une fonction de perte contrastive comme cela est bien connu en soi . En tout état de cause , les traitements mis en œuvre par le bloc de coût L sont exécutés au cours d' une étape de combinaison S4 du procédé .
Enfin le programme P comprend un module de classification K de la mesure de sortie a pour, sur le fondement de cette mesure , déterminer la nature aléatoire ou non aléatoire du déplacement de visage , et conclure le cas échéant à une tentative d' usurpation d' identité . L' étape de classification S5 mise en œuvre par ce module K peut comprendre la comparaison de la mesure numérique a à un seuil prédéterminé permettant , selon que la mesure numérique a est supérieure ou inférieure à ce seuil prédéterminé , conclure à une tentative de fraude ou non .
L' information fournie par le module de classification conclut l ' exécution du programme de traitement d' image , et cette information peut donc être exploitée par le programme d'exploitation du système 1 pour valider ou non la conformité des images II, 12 et fournir ou non une photographie d'identité qui peut correspondre à la première ou à la deuxième image II, 12.
On note que le traitement d' image mise en œuvre par le programme P n'est pas limité à celui décrit et représenté sur la figure 2. On peut ainsi prévoir que ce programme P effectue d'autres traitements sur l'une au moins des images II, 12, par exemple pour y repérer un objet non conforme (lunette, coiffe par exemple) ou pour les rendre conformes (uniformité de l'arrière- plan, gommage des yeux rouges) voire même pour retoucher les images, par exemple pour y faire disparaître des objets non conformes éventuellement identifiés ; ceci pour les retouches mineures acceptées par l'autorité délivrant les documents d' identité .
Variante basée sur les réseaux neuronaux graphiques
Dans une variante de mise en œuvre, le module de repérage MR est parfaitement identique à celui du mode de mis en œuvre principal. Il prépare donc un premier vecteur XI de N repères faciaux extraits de la première image II et un deuxième vecteur X2 de N repères faciaux extraits de la deuxième image 12.
À la suite de cette étape de repérage, les vecteurs XI, X2 sont fournis à un module additionnel qui vise à transformer chaque vecteur XI, X2 en un graphe permettant de décrire avec plus de précision le visage. Ce graphe est ainsi construit en associant chaque entrée d'un vecteur (un repère facial) à une liste d'autres entrées (d'autres repères faciaux) lui étant connectés.
Par exemple, un repère facial associé au coin gauche de la lèvre est relié aux repères faciaux associés aux points centraux des lèvres, à la base de l'aile gauche du nez, et au projeté horizontal du coin gauche de la bouche sur l'ovale du visage.
Dans une approche alternative de formation du graphe qui ne repose pas sur des repères faciaux correspondant à des éléments morphologiques du visage, on peut relier chaque entrée d'un vecteur (un repère facial de l'image) aux k autres entrées voisines (les k repères faciaux les plus proches sur l'image) , k pouvant être choisi typiquement entre 3 et 10.
De cette manière, il est possible de décrire la forme du v sage comme une succession de points tous reliés entre eux. Cette approche basée sur des graphes ou « graphique » permet d' apporter une information de corrélation entre les repères faciaux, en complément aux informations de positions et des distances entre les repères faciaux, ces informations étant rendus disponible dans la représentation en vecteur du mode de mis en œuvre principal.
Ce graphe est ensuite propagé au sein d'un réseau neuronal siamois, dans lequel chaque branche est formée d'un réseau neuronal de graphes, dont on pourra trouver une description détaillée dans le document de Micheli, Alessio. (2009) . "Neural Network for Graphs: A Contextual Constructive Approach".
L'originalité de cette variante est qu'elle permet de renforcer la qualité des prédictions en ajoutant des informations pouvant être calculées rapidement, tout en utilisant un réseau neuronal adapté à la comparaison de données.
À la suite de la propagation au sein du réseau siamois, les résultats des deux branches du réseau neuronal sont comparés au sein du bloc de coût L, valeur qui sera ensuite introduite dans le module de classification K afin de déterminer, tout comme dans le mode de mis en œuvre principal, si l'utilisateur a essayé de réaliser une acquisition légitime ou a essayé de frauder.
Exemple
A titre d' illustration du programme P et du procédé de traitement d'image qui viennent d'être présentés, on a représenté sur la figure 3 une architecture particulière des branches BRI, BR2 du réseau neuronal principal RP. Cette architecture comprend successivement connectée entre elles :
- Une couche d'entrée E;
- Une première couche entièrement connectée E2 ;
- Une couche d'étalement E3 ;
- Une seconde couche entièrement connectée E4;
Les première et deuxième couches entièrement connectées sont suivi d'une unité de rectification linéaire (ReLu) sur chacune de leurs sorties (non représentée sur la figure) .
Les vecteurs de repères faciaux XI, X2 sont formés des 81 coordonnées de points d'intérêt du visages déterminés à l'aide des fonctions disponibles dans la bibliothèque Dlib. Le bloc de coût met en œuvre une fonction de perte contrastive (généralement désignée dans le domaine par l'expression anglo-saxonne de « contrastive loss ».
Cette architecture combinée au bloc de coût L a été entraînée à l'aide d'un ensemble de données composé de 1075 paires d'images d'un visage réel, et de 254 paires d'images représentatives de tentative d'usurpation d'identité par attaque faciale. Cet ensemble de données a été divisé en deux parties, 60% de chaque catégorie ont été exploitées au cours de l'entrainement du réseau neuronal principal, et les 40% restant ont servi à évaluer la précision de détection de fraude. Le réseau neuronal principal pris en exemple a été entraîné à l'aide des données d'entrainement au cours de 100 époques, à l'aide d'un optimisateur de type Adam et un paramètre d'apprentissage de 10“6. La figure 4 représente l'évolution du critère d'optimisation établi au cours de cet apprentissage. On observe que cette évolution converge qu'elle soit mesurée sur les données d'apprentissage ou sur les données de validation.
La courbe de la figure 5 représente la courbe ROC (receiver operating characteristic en anglais; ou fonction d'efficacité du récepteur) de cet exemple. Le graphe montre la performance du programme P et du procédé de traitement selon la valeur choisie du seuil dans le module de classification K. Le graphe présente un axe des abscisses correspondant à la proportion de faux positif et en ordonnée la proportion de vrai positif. Sur ce graphe, on vise le point optimal de coordonnées (0,1) , c'est-à- dire présentant 0% de faux positifs et 100% de vrais positifs. Le graphe de la figure 5 montre la performance de cet exemple selon la valeur choisi du seuil du module de classification. Il permet également de choisir la valeur de ce seuil S* permettant de se situer au plus près du point optimal de coordonnées (0,1) .
Bien entendu l'invention n'est pas limitée aux modes de mise en œuvre décrits et on peut y apporter des variantes de réalisation sans sortir du cadre de l'invention tel que défini par les revendications .

Claims

24 REVENDICATIONS
1. Procédé de détection d'une tentative d'usurpation d' identité par attaque faciale pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le procédé comprenant les étapes suivantes, mises en œuvre par un dispositif de calcul :
- une étape d'acquisition (SI) d'une première image (II) et d'une deuxième image (12) du visage de la personne, le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image étant inférieure à 5 secondes ;
- une étape de repérage (S2) pour respectivement fournir un premier vecteur (XI) de N repères faciaux extraits de la première image (II) et un deuxième vecteur (X2) de N repères faciaux extraits de la deuxième image (12) ;
- une étape de propagation (S3) des repères faciaux du premier vecteur (XI) et des repères faciaux du deuxième vecteur (X2) dans deux branches siamoises (RP1, RP2) d'un réseau neuronal principal (RP) pour respectivement fournir un premier vecteur de sortie (Yl) et un deuxième vecteur de sortie (Y2) de dimensions N ;
- une étape de combinaison (S4) du premier vecteur de sortie (Yl) et du deuxième vecteur de sortie (Y2) par l'intermédiaire d'une fonction de coût et établir une mesure numérique de sortie a évaluant la nature aléatoire ou non aléatoire du déplacement de visage entre la première image (II) et la deuxième image (12) ;
- une étape de classification (S5) de la mesure numérique de sortie a pour déterminer la nature aléatoire ou non aléatoire du déplacement de visage et conclure, le cas échéant, à une tentative d'usurpation d'identité. Procédé selon la revendication précédente dans lequel le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image est compris entre 0,1 et 2 secondes. Procédé selon l'une des revendications précédentes dans lequel l'étape de repérage comprend l'identification de boites englobantes d'un visage respectivement présent sur la première image (II) et sur la deuxième image (12) . Procédé selon la revendication précédente dans lequel l'étape de repérage comprend en outre l'identification des repères faciaux dans les zones de la première image (II) et de la deuxième image (12) définies par les boites englobantes . Procédé selon l'une des revendications précédentes dans lequel les repères faciaux formant le premier vecteur (XI) et le deuxième vecteur (X2) sont des descripteurs spécifiques du visage. Procédé selon l'une des revendications précédentes dans lequel le réseau de neuronal principal (RP) comprend une pluralité de couches en aval des deux branches siamoises (BRI, BR2) et formant un tronc commun du réseau neuronal principal, le tronc commun mettant en œuvre au moins en partie l'étape de combinaison (S4) . Procédé selon l'une des revendications précédentes dans lequel la fonction de coût est une fonction de perte contrastive . Procédé selon l'une des revendications précédentes dans lequel l'étape de classification (S5) comprend la comparaison de la mesure numérique de sortie a à un seuil prédéterminé . Procédé selon l'une des revendications précédentes comprenant une étape de transformation du premier vecteur (XI) en un premier graphe de repères faciaux et du deuxième vecteur (X2) en un deuxième graphe de repères faciaux, l'étape de propagation comprenant la propagation du premier et du deuxième graphes dans, respectivement, les branches siamoise (RP1, RP2) du réseau neuronal principal (RP) . Programme informatique comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé selon l'une des revendications 1 à 8, lorsque le programme est exécuté sur un dispositif de calcul. Système (1) pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le système comprenant :
- un dispositif de prise de vue (2) ;
- une interface d'entrée (3) ;
- un dispositif d'affichage (4) ; reliés à un dispositif de calcul (5) et à des moyens de stockage (6) , le dispositif de calcul (5) étant configuré pour mettre en œuvre le procédé selon l'une des revendication 1 à 9.
EP22754477.2A 2021-08-04 2022-07-15 Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite Pending EP4381471A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR2108488A FR3126051B1 (fr) 2021-08-04 2021-08-04 Procédé pour déterminer si une image du visage d’une personne est apte à former une photographie d’identité
PCT/FR2022/051421 WO2023012415A1 (fr) 2021-08-04 2022-07-15 Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite

Publications (1)

Publication Number Publication Date
EP4381471A1 true EP4381471A1 (fr) 2024-06-12

Family

ID=77821911

Family Applications (1)

Application Number Title Priority Date Filing Date
EP22754477.2A Pending EP4381471A1 (fr) 2021-08-04 2022-07-15 Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite

Country Status (4)

Country Link
US (1) US20240338977A1 (fr)
EP (1) EP4381471A1 (fr)
FR (1) FR3126051B1 (fr)
WO (1) WO2023012415A1 (fr)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2979728B1 (fr) 2011-09-01 2016-05-13 Morpho Detection de fraude pour systeme de controle d'acces de type biometrique
US9369625B2 (en) 2014-08-12 2016-06-14 Kodak Alaris Inc. System for producing compliant facial images for selected identification documents

Also Published As

Publication number Publication date
US20240338977A1 (en) 2024-10-10
FR3126051A1 (fr) 2023-02-10
FR3126051B1 (fr) 2023-11-03
WO2023012415A1 (fr) 2023-02-09

Similar Documents

Publication Publication Date Title
CN105787454B (zh) 用于生物特征验证的方法和系统
EP2751739B1 (fr) Detection de fraude pour systeme de controle d'acces de type biometrique
FR2924247A1 (fr) Procede d'identification d'une personne par son iris.
EP3285209B1 (fr) Procede de surveillance au moyen d'un systeme multi-capteur
FR3088467A1 (fr) Procede de classification d'une image d'entree representative d'un trait biometrique au moyen d'un reseau de neurones a convolution
CA3000153A1 (fr) Procede d'analyse d'un document structure susceptible d'etre deforme
EP3866064B1 (fr) Procede d'authentification ou d'identification d'un individu
EP3567521B1 (fr) Procédé de reconnaissance biométrique à partir des iris
EP3582141A1 (fr) Procédé d'apprentissage de paramètres d'un réseau de neurones à convolution
FR3053500B1 (fr) Procede de detection de fraude d'un systeme de reconnaissance d'iris
EP3459013A1 (fr) Procédé d'authentification augmentée d'un sujet matériel
EP4381471A1 (fr) Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite
EP3929809A1 (fr) Procédé de détection d'au moins un trait biométrique visible sur une image d entrée au moyen d'un réseau de neurones à convolution
FR3028980A1 (fr) Procede et dispositif d'authentification d'un utilisateur
EP4099200A1 (fr) Procede et dispositif d'identification et/ou d'authentification biometrique
EP4169002A1 (fr) Procédé d'authentification d'un élément optiquement variable
EP3908968A1 (fr) Procédé de traitement d'images numériques
FR3106678A1 (fr) Traitement biométrique comprenant une pénalisation d’un score de correspondance
FR3054057A1 (fr) Procede d'authentification augmentee d'un sujet materiel
EP3185178B1 (fr) Procede et dispositif d`identification biometrique
FR3100070A1 (fr) Procédé de reconnaissance biométrique à contrôle de dérive et installation associée
FR3110009A1 (fr) Procédé de reconnaissance et d’identification de clés aux fins de leur duplication
FR3161973A1 (fr) Procédé de sécurisation d’accès à une source de données
FR3157636A1 (fr) Procédé et dispositif de détermination de fraudes dans un système de reconnaissance d’images biométriques.
FR3144679A1 (fr) Procédé d’enrôlement d’une carte à puce dans un smartphone.

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20240119

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAX Request for extension of the european patent (deleted)
RAV Requested validation state of the european patent: fee paid

Extension state: TN

Effective date: 20240119

Extension state: MA

Effective date: 20240119