EP4381471A1

EP4381471A1 - Procede pour determiner si une image du visage d'une personne est apte a former une photographie d'identite

Info

Publication number: EP4381471A1
Application number: EP22754477.2A
Authority: EP
Inventors: Manel BEN YOUSSEF; Maïssa DIOP; Sylvian LEMPEREUR; Emile MENETREY; Hugues Talbot
Original assignee: Smartphone Id
Current assignee: Smartphone Id
Priority date: 2021-08-04
Filing date: 2022-07-15
Publication date: 2024-06-12
Also published as: US20240338977A1; FR3126051A1; FR3126051B1; WO2023012415A1

Abstract

L'invention porte sur procédé pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité. Le procédé comprend une étape d'acquisition (S1) d'une première image (I1) et d'une deuxième image (I2) du visage de la personne. Il comprend également une étape de propagation (S3) de repères faciaux issues de la première image (I1) et de repères faciaux issues de la deuxième image (I2) dans deux branches siamoises (RP1, RP2) d'un réseau neuronal principal (RP). L'invention porte également sur un programme informatique mettant en œuvre ce procédé et sur un système (1) configuré pour mettre en œuvre ce procédé.

Description

DESCRIPTION

TITRE : PROCEDE POUR DETERMINER S I UNE IMAGE DU VI SAGE D' UNE PERSONNE EST APTE A FORMER UNE PHOTOGRAPHIE D' IDENTITE

DOMAINE DE L' INVENTION

Le domaine technique de l ' invention est celui du traitement des images numériques .

ARRIERE PLAN TECHNOLOGIQUE DE L' INVENTION

Une pièce ou un document d' identité comporte usuellement la photographie du visage du titulaire de la pièce , la photographie étant dite « d' identité » . On peut de la sorte vérifier biométriquement (par reconnaissance faciale ) la correspondance entre la photographie d' identité et le porteur de la pièce ou du document d' identité , et donc que le porteur en est effectivement le titulaire .

Les administrations nationales ont défini des règles d' acceptation des photographies proposées par un demandeur, pour qu' une telle photographie puisse être considérée « d' identité » . Ces règles dépendent à la fois du type de document et du pays . Par exemple , il est interdit de porter un foulard religieux sur une carte d' identité " française , alors que cela est possible sur une photographie d' autres pays européens . De manière analogue , l ' administration française interdit le port de coiffes sur les passeports et les cartes d' identité alors que d' autres administrations le permettent , comme au Royaume-Uni ou en Inde .

Le respect des règles applicables peut être assuré par un opérateur humain, par exemple un photographe professionnel lorsque la photographie est réalisée par un tel professionnel ou par un opérateur distant auquel la photographie a été transmise lorsque la photographie a été réalisée dans une photo-cabine ou par le demandeur lui-même, ce qui est permis dans certains pays (Royaume Uni) .

Cette étape de vérification prend donc du temps, et l'automatisation de cette approbation nécessaire est très avantageuse. Le document US9369625 propose ainsi un système permettant de directement déterminer si une image du visage d'une personne est apte à former une photographie d'identité, selon les exigences imposées par un pays donné.

La vérification que l'image respecte bien les critères administratifs requis n'est toutefois pas suffisante pour proposer un système de prise de vue conforme et fiable. Les administrations veulent en effet s'assurer que les photographies utilisées pour la création d'un document d'identité soient bien des clichés de visages réels, afin de limiter la fraude, notamment d'usurpation d'identité. La photo d'identité doit également avoir moins de 6 mois. Le risque de fraude se pose tout particulièrement lorsque le système est entièrement automatisé .

Dans le domaine de la sécurité biométrique, on désigne par « fraude par attaque faciale » les fraudes consistant à présenter un visage grimé ou une représentation d'un visage dont la reconnaissance est attendue. Ainsi, dans le cas de la préparation d'une photographie d'identité, il est important de pouvoir détecter qu'une photographie représente bien le visage d'une personne réelle, et non un visage extrait d'une image ou d'une vidéo.

Le document EP2751739 adresse ce problème et propose plusieurs méthodes de détection de fraude mettant en œuvre l'acquisition de deux images du visage d'une personne. Un traitement est opéré pour évaluer la planéité du visage apparaissant sur ces images et une détection de fraude est identifiée si un score de planéité dépasse un seuil critique. Les méthodes proposées par ce document sont toutefois complexes et limitées à certaines catégories d'attaques faciales, plane ou semi-plane .

D'autres procédés sont proposés dans la littérature pour s'attaquer au problème de ce type de fraudes.

L'article « Identity-constrained noise modeling with metric learning for face anti-spoofing" par Yaowen Xu et al., Neurocomputing 434 (2021) 149-164 décrit un procédé basé sur la modélisation du bruit d'une image d'identité contrefaite par un système d'apprentissage.

L'article « CompactNet : learning a compact space for face presentation attack detection » by Lei Li et al., Neurocomputing 409 (2020) 191-207, décrit un procédé basé sur l'apprentissage d'un espace colorimétrique compact, considérant que des images quelconques enregistrées sont reproduites selon un espace colorimétrique donné, de sorte qu'une attaque faciale peut être déjouée sur la base de l'espace colorimétrique d'un visage, qui sera différent selon qu'il s'agit d'un vrai visage ou d'une image reproduisant un visage.

OBJET DE L'INVENTION

Un des buts de l'invention est de proposer une solution alternative à celles de l'état de la technique. Plus particulièrement, un but est de proposer un procédé et un programme pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité. Ce procédé et ce programme sont particulièrement simples à mettre en œuvre et ne sont pas limités à certaines catégories d'attaques faciales. Cette simplicité de mise en œuvre permet d'exécuter le procédé et le programme sur un dispositif de calcul présentant une capacité de calcul limité , tel qu' un smartphone ( i . e . un téléphone mobile multifonctions ) , et donc de rendre la photographie d' identité immédiatement disponible à 1 ' utilisateur .

BREVE DESCRIPTION DE L' INVENTION

En vue de la réalisation de ce but , l ' obj et de l ' invention propose un procédé de détection d' une tentative d' usurpation d' identité par attaque faciale pour déterminer si une image du visage d' une personne est apte à former une photographie d' identité , le procédé comprenant les étapes suivantes , mises en œuvre par un dispositif de calcul :

- une étape d' acquisition d' une première image et d' une deuxième image du visage de la personne , le temps écoulé entre l ' acquisition de la première image et l ' acquisition de la deuxième image étant inférieur à 5 secondes ;

- une étape de repérage pour respectivement fournir un premier vecteur de N repères faciaux extraits de la première image et un deuxième vecteur de N repères faciaux extraits de la deuxième image ; une étape de propagation des repères faciaux du premier vecteur et des repères faciaux du deuxième vecteur dans deux branches siamoises d' un réseau neuronal principal pour respectivement fournir un premier vecteur de sortie et un deuxième vecteur de sortie de dimensions N; une étape de combinaison du premier vecteur de sortie et du deuxième vecteur de sortie par l ' intermédiaire d' une fonction de coût et établir une mesure numérique de sortie évaluant la nature aléatoire ou non aléatoire du déplacement de visage entre la première image et la deuxième image ; une étape de classification de la mesure de sortie pour déterminer la nature aléatoire ou non aléatoire du déplacement de visage et conclure, le cas échéant, à une tentative d'usurpation d'identité.

Selon d'autres caractéristiques avantageuses et non limitatives de l'invention, prises seules ou selon toute combinaison techniquement réalisable :

- le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image est compris entre 0,1 et 2 secondes ;

- l'étape de repérage comprend l'identification de boites englobantes d'un visage respectivement présent sur la première image et sur la deuxième image ;

- l'étape de repérage comprend en outre l'identification des repères faciaux dans les zones de la première image et de la deuxième image définies par les boites englobantes ;

- les repères faciaux formant le premier vecteur et le deuxième vecteur sont des descripteurs spécifiques du visage ;

- le réseau de neuronal principal comprend une pluralité de couches en aval des deux branches siamoises et formant un tronc commun du réseau neuronal principal, le tronc commun mettant en œuvre au moins en partie l'étape de combinaison (S4) ; la fonction de coût est une fonction de perte contrastive ; - l'étape de classification comprend la comparaison de la mesure numérique de sortie à un seuil prédéterminé ;

- le procédé comprend une étape de transformation du premier vecteur en un premier graphe de repères faciaux et du deuxième vecteur en un deuxième graphe de repères faciaux, l'étape de propagation comprenant la propagation du premier et du deuxième graphes dans, respectivement, les branches siamoises du réseau neuronal principal.

Selon un autre aspect, un objet de l'invention propose un programme informatique comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé, lorsque le programme est exécuté sur un dispositif de calcul.

Selon un autre aspect encore, un objet de l'invention propose un système pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le système comprenant :

- un dispositif de prise de vue ;

- une interface d'entrée ;

- un dispositif d'affichage reliés à un dispositif de calcul et à des moyens de stockage, le dispositif de calcul étant configuré pour mettre en œuvre le procédé proposé précédemment.

BREVE DESCRIPTION DES FIGURES

D'autres caractéristiques et avantages de l'invention ressortiront de la description détaillée de l'invention qui va suivre en référence aux figures annexées sur lesquels :

[Fig. 1] La figure 1 représente une vue d'ensemble d'un système 1 selon un mode de réalisation ;

[Fig. 2a]

[Fig. 2b] Les figures 2a et 2b représentent respectivement sous forme de blocs fonctionnels et d'étapes de procédés d'un programme informatique conforme à l'invention ;

[Fig. 3]

La figure 3 représente une architecture des branches d'un réseau neuronal principal selon un mode mis en œuvre particulier de l'invention ;

[Fig. 4]

La figure 4 représente l'évolution d'un critère d'optimisation établi au cours de l'apprentissage du réseau neuronal principal représenté sur la figure 3 ;

[Fig. 5]

La figure 5 représente le graphe RPC d'un exemple de mise en œuvre de l'invention.

DESCRIPTION DETAILLEE DE L'INVENTION

Un système conforme aux différents modes de réalisation présentés dans cette description vise à délivrer à un utilisateur une photographie d' identité conforme à un règlement d'acceptation prédéterminé. Cette livraison peut être réalisée sous forme papier ou sous forme numérique. Elle peut être accompagnée de la remise d'un certificat de conformité, ou incorporer ce certificat par l'intermédiaire d'un marquage de la photographie. A minima, le système 1 vise à fournir une photographie d'identité à l'utilisateur (ou un certificat) , à la condition exclusive qu'aucune tentative d'usurpation d'identité par attaque faciale n'ait été identifiée. Le système 1 peut bien naturellement appliquer d'autre règles selon la nature du document d' identité auquel la photographie est destinée ou selon la réglementation nationale qui s'applique, comme cela a été évoqué en introduction de cette demande.

La remise ou la non-remise de la photographie d' identité ou du certificat est réalisée de manière automatisée par le système 1, à l'aide d'un programme informatique mettant en œuvre un procédé de traitement d'images qui fera l'objet d'une section suivante de cette description.

La figure 1 représente une vue d'ensemble d'un système 1 selon un mode de réalisation. Il comprend un dispositif de prise de vue 2 (un capteur d'image ou une caméra) , une interface d'entrée 3 (par exemple un clavier ou des boutons de commande, un dispositif d'affichage 4 (par exemple un écran) reliés à un dispositif de calcul 5 et à des moyens de stockage 6. Le système 1 peut également prévoir d'autres organes, comme par exemple une interface de communication 7 permettant de relier le système à un réseau informatique ou de télécommunication, tel que le réseau Internet .

Le dispositif de calcul 5 et les moyens de stockage 6 ont pour fonction, d'une part, de coordonner le bon fonctionnement des autres dispositifs du système 1 et, d'autre part, de mettre en œuvre le procédé de traitement d' images permettant de certifier la conformité de la photographie d'identité.

Le dispositif de calcul 5 et les moyens de stockage 6 sont notamment configurés pour exécuter un programme d'exploitation du système 1 permettant de présenter à l'utilisateur, par exemple sur le dispositif d'affichage 4, les instructions à suivre pour obtenir une photographie. Le programme d'exploitation collecte les informations ou commandes fournies par l'utilisateur à l'aide de l'interface d'entrée 3, par exemple la nature du document auquel la photographie est destinée et/ou la commande de démarrage permettant d'enclencher une étape d'acquisition d'images par l'intermédiaire du dispositif de prise de vue 2. Les moyens de stockage permettent de mémoriser toutes les données nécessaires au bon fonctionnement du système 1, et notamment de stocker les images produites par le dispositif de prise de vue 2. Ces moyens stockent également les programmes d'exploitation ou de traînement d'images, ces programmes étant conventionnellement constitués d' instructions aptes à mettre en œuvre l'ensemble des traitements et/ou des étapes détaillés dans la présente description.

Le dispositif d'affichage 4 peut présenter à l'utilisateur les images captées par le dispositif de prise de vue 2 de manière à permettre à cet utilisateur de vérifier son positionnement et, de manière plus générale, sa bonne attitude avant de fournir au système 1 la commande de démarrage évoquée précédemment.

Bien entendu cette figure 1 est purement illustrative et on peut prévoir d'autres organes que ceux représentés. Ainsi, on peut prévoir de munir le système 1 d'un dispositif d'impression permettant de remettre sous forme physique la photographie. Par ailleurs, l'interface d'entrée 3 symbolisée par un clavier sur la figure 1 peut être mise en œuvre par une surface tactile associée au dispositif d'affichage. Il peut s'agir de simples boutons de commande (physiques ou virtuellement représentés sur le dispositif d'affichage) permettant à l'utilisateur d'opérer le système 1, par exemple pour obtenir par l'intermédiaire d'un simple appui sur un tel bouton une photographie d' identité destinée à être associée à un document prédéterminé, comme un permis de conduire ou un passeport. Après l'exécution des traitements d'images et en fin d'exécution du programme d'exploitation, la photographie d'identité, si elle est bien conforme, peut être mémorisée dans les moyens de stockage 6, imprimée, adressée à l'utilisateur par l'intermédiaire de l'interface de communication 7 et/ou communiquée à cet utilisateur par tout moyen qui convient.

Selon le mode de réalisation choisi, le système 1 peut correspondre à une photo-cabine, à un ordinateur personnel ou portable, voire même à un simple smartphone, c'est-à-dire un téléphone mobile multifonctions.

Quel que soit le mode de réalisation choisi, l'utilisateur cherchant à exploiter le système 1 pour recevoir une photographie d'identité peut préciser, en premier lieu et à l'aide de l'interface d'entrée 3, le type de photographie choisie (permis de conduire, passeport ...) et, éventuellement, la réglementation nationale à appliquer, afin de permettre la sélection des règles d'acceptation que la photographie d'identité doit respecter. Ces règles peuvent bien entendu être prédéfinies, auquel cas l'étape précédente n'est pas nécessaire. Il se positionne convenablement face au dispositif de prise de vue 2, en s'aidant possiblement de la reproduction des images acquise par ce dispositif 2 sur le dispositif d'affichage 4. Puis il enclenche la commande de démarrage des séquences de prise de vue et de traitement d'images. A l'issue de ces traitements, et si la photographie issue des images acquises est bien conforme aux règles sélectionnées, et notamment celles concernant les tentatives d'usurpation d'identité, la photographie peut être remise. Bien entendu si une telle tentative de fraude est identifiée, la photographie n'est pas remise ou le certificat de conformité n'est pas délivré. Les figures 2a et 2b représentent respectivement sous forme de blocs fonctionnels et d'étapes de procédés le programme informatique P mettant en œuvre les traitements visant à déterminer si une image de l'utilisateur acquise par l'intermédiaire du dispositif de prise de vue 2 est apte à être remise à cet utilisateur. Comme on l'a déjà indiqué, ce programme P peut être détenu dans les moyens de stockage 6 et exécuté par le dispositif de calcul 5 du système 1.

Préalablement à l'exécution de ce programme P, le système 1 procède au cours d'une étape d'acquisition SI d'au moins une première image II et d'une deuxième image 12 du visage de l'utilisateur, à réception de la commande de démarrage. Le traitement mis en œuvre ensuite par le programme P vise à déterminer dans quelle mesure le déplacement de repères faciaux présents sur la première image II et sur la deuxième image 12 présente une nature imprévisible ou non. Il est en effet attendu que si le visage représenté sur les images II, 12 n'est pas un visage réel (mais une photo d'un visage, un masque ou toute autre forme d'attaque faciale) les distributions des repères faciaux sur, respectivement, la première image II et la deuxième image 12, soient corrélées entre elles. Cette corrélation peut prendre la forme d'une transformation mathématique régulière (par exemple affine, quadratique ou plus complexe) entre les repères faciaux de la première image II et les repères faciaux de la deuxième image 12.

A contrario, il est attendu que les distributions des repères faciaux sur, respectivement, la première image II et la deuxième image 12, ne pas soient corrélées entre elles lorsque ces images II, 12 représente un visage réel. Un utilisateur ne peut effectivement maîtriser l'expression de son visage pour le maintenir figé dans le temps. Ces variations d'expression ne sont pas parfaitement ordonnées et ne peuvent être décrites avec précision, au niveau des repère faciaux, par une transformation régulière .

Par simplicité d'expression, on désignera dans la présente demande par l'expression « déplacement de visage de nature aléatoire » la situation dans laquelle les repères faciaux associés à deux images ne sont pas corrélés entre eux, c'est-à- dire que les images représentent très probablement un visage réel. Corolairement , on désignera par « déplacement de visage de nature non aléatoire » la situation dans laquelle ces repères spatiaux sont corrélés, c'est-à-dire que très probablement ces images représentent un visage simulé, par exemple une photo de visage ou un masque.

Pour être tout à fait clair, par « repères faciaux » on désigne des points d'intérêt de la première image II et de la deuxième image 12 définis par leurs coordonnés dans l'image II, 12, par exemple leurs rangs et colonnes de pixel. Ces points d'intérêt peuvent correspondre à des éléments morphologiques particuliers du visage (coin de l'œil, de la lèvre ...) mais cela n'est pas nécessaire. Avantageusement toutefois le point d'intérêt est placé sur le visage (et non dans l'arrière-plan du visage dans l'image) sans toutefois nécessairement correspondre à un élément morphologique précis.

On comprend que la nature des transformations qui peuvent s'appliquer aux repères faciaux entre la première image du visage de l'utilisateur et la deuxième image de ce visage dans le cas d'une tentative d'usurpation d'identité par attaque faciale, peut varier selon la nature de cette attaque et être complexe à identifier. Aussi, dans le cadre de la présente invention, on propose de discriminer la nature aléatoire/non aléatoire des mouvements de visage par apprentissage, à partir de données d'entrainement variées et représentatives des multiples sortes d'attaques faciales possibles.

Revenant à la description générale des figures 2a et 2b, le programme informatique P reçoit donc en entrée les deux images II, 12 du visage de la personne dont on a fait l'acquisition au cours de l'étape préalable d'acquisition SI. Le temps écoulé entre l'acquisition de la première image II et l'acquisition de la deuxième image 12 est inférieur à 5, de l'ordre de quelques secondes, et typiquement compris entre 0.5 et 2 secondes. Il s'agit d'une durée d'attente raisonnable pour l'utilisateur et suffisante pour qu'un déplacement de visage d'amplitude significative puisse se produire tout en limitant ce temps pour éviter toute tentative de fraude complexe, par exemple par remplacement d'un masque par un autre ou d'une photographie de visage par une autre pendant la période de temps séparant les deux prises de vues.

Les deux images II, 12 sont fournies, successivement ou simultanément, à un module de repérage MR. Ce module informatique a pour fonction de traiter, au cours d'une étape de repérage S2 une image ou une pluralité d' image et fournir un vecteur de repères faciaux associé à chaque image fournie.

Le module de repérage MR peut ainsi comprendre un premier sous module informatique de détection de visage MD, qui retourne les coordonnées/dimensions d'une boite englobante du visage présent sur l'image soumise. Un tel sous-module est bien connu en soi, et il peut notamment mettre en œuvre une technique d'histogramme de gradient orienté (HOG pour « histogram of oriented gradient » selon les termes anglo-saxons du domaine) ou une technique à base de réseau neuronal à convolution entraîné à cette tâche. Ce sous-module informatique, quel que soit la technique employée est par exemple disponible sous une forme pré-entrainée dans la bibliothèque de fonctions informatiques « Dlib ».

Dans le cadre du programme P illustré sur les figures, le sous- module de détection MD peut être exploité successivement sur la première image II et sur la deuxième image 12, afin de fournir respectivement des coordonnées/dimensions d'une première boite englobante et d'une deuxième boite englobante. Ces coordonnées/dimensions peuvent correspondre aux coordonnées d'un angle de la boite et une dimension d'un côté lorsque cette boite est de forme carrée.

On note que si le sous-module de détection de visage MD ne repère aucun visage dans l'une au moins des images II, 12 qui lui sont soumises, il retourne une indication qui peut être interceptée par le système 1 en vue d' interrompre les traitements et informer l'utilisateur de l'anomalie.

Le module de repérage MR peut également comprendre un sous- module de localisation ML, en aval du sous-module de détection du visage MD. Ce sous-module informatique de localisation ML reçoit en entrée les informations des premières et deuxièmes boites englobantes fournies par le sous-module de détection MD ainsi que la première et la deuxième image II, 12. Ces informations peuvent être fournies au sous-module MD pour être traitées successivement ou simultanément par ce module.

D'une manière très générale, ce sous-module ML traite les données reçues en entrée pour fournir, en sa sortie, un vecteur de points d'intérêt de l'image, et plus précisément de la portion de l'image disposée dans la boite englobante.

Selon un premier type de techniques communément employées, ces points d' intérêt ne forment pas des descripteurs spécifiques du visage . I l peut ainsi s ' agir des techniques S IFT (« Scale Invariant Feature Transform ») , SURF (« Speed Up Robust Feature ») , ORB (« Oriented FAST and rotated BRIEF ») ou de toute autre technique similaire , dont on pourra trouver une description détaillée dans le document de Karami , Ebrahim & Prasad, Siva & Shehata, Mohamed . ( 2015 ) . " Image Matching Using S IFT , SURF, BRIEF and ORB : Performance Comparison for Distorted Images" . Ces techniques peuvent être mises en œuvre à l ' aide de bibliothèques informatiques librement disponibles .

Exploité dans le cadre du programme P, ce sous-module ML établit simultanément un premier vecteur XI de points d' intérêt disposés dans la portion de la première image I I comprise dans la première boite englobante et un deuxième vecteur X2 de points d' intérêt disposés dans la portion de la deuxième image 12 comprise dans la deuxième boite englobante . Les points d' intérêts du premier et du deuxième vecteur sont appariés entre eux, c' est-à-dire que les mêmes entrées du premier et du deuxième vecteur sont constituées de points d' intérêt qui se correspondent dans la première image I I et dans la deuxième image 12 .

Selon une approche alternative , les points d' intérêts sont des descripteurs spécifiques du visage ( coin de la bouche , de l ' œil , du nez...) . Cette approche peut être mise en œuvre par un réseau neuronal entraîné pour repérer dans une image ( ici une portion de la première image I I et/ou de la seconde image 12 ) ces descripteurs spécifiques . Un tel réseau neuronal est également disponible dans la bibliothèque Dlib citée précédemment . Les points d' intérêts du premier et du deuxième vecteur fournis selon cette approche alternative sont également appariés entre eux .

Les points d' intérêt d' images identifiés par les différentes techniques présentées ci-dessus forment , dans le cadre de la présente demande , des repères faciaux sur les visages représentés sur les images traitées . Typiquement , on choisira de configurer le sous-module de localisation ML pour identifier un nombre N de points d' intérêts /repères faciaux compris entre 20 et 200 , et plus particulièrement entre 60 et 90 .

Quelle que soit l ' approche retenue pour mettre en œuvre ce sous - module informatique de localisation ML, celui -ci fournit en sortie un premier vecteur XI de N repères faciaux extraits de la première image I I et un deuxième vecteur X2 de N repères faciaux extraits de la deuxième image 12 . Ce premier et deuxième vecteur XI , X2 appariés forment également les sorties du module de repérage MR .

Poursuivant la description des figures 2a et 2b, le programme informatique P comprend, en aval du module de repérage MR, un réseau neuronal principal RP formé de deux branches siamoises . D' une manière très générale et comme cela est bien connu en soi , un réseau neuronal est constitué de couches de neurones interconnectées entre elles selon une architecture déterminée , et chaque neurone de chaque couche est défini par des paramètres de neurone formant collectivement les paramètres d' apprentissage du réseau . Dans le réseau neuronal principal RP, les deux branches RP1 , RP2 sont elles-mêmes des réseaux de neurones qui présentent précisément la même architecture et les mêmes paramètres d' apprentissage . C' est pourquoi ces deux branches sont appelées « siamoises » .

Comme cela est visible sur la figure 2a, le premier vecteur XI est appliqué à l ' entrée de la première branche BRI du réseau neuronal principal RP . Similairement , le deuxième vecteur X2 est appliqué à l ' entrée de la deuxième branche BR2 de ce réseau RP . La première branche fournie un premier vecteur de sortie Y1 composé de N valeurs scalaires et définissant donc un point dans un espace vectoriel de dimension N . La deuxième branche BR2 fournie un deuxième vecteur de sortie Y2 composé également de N valeurs scalaires.

Le réseau neuronal principal RP1 a été entraîné et configuré pour séparer dans des zones distinctes de l'espace vectoriel les deux vecteurs de sortie Yl, Y2 quand les deux images II, 12 auxquelles sont associés ces vecteurs présente un déplacement de visage aléatoire, c'est-à-dire lorsque les visages représentés sur les deux images II, 12 apparaissent bien réels. Dans le même temps, le réseau neuronal principal RP est configuré pour regrouper dans une même zone de l'espace vectoriel deux vecteurs de sortie Yl, Y2 lorsque les deux images II, 12 auxquels sont associés ces vecteurs présente un déplacement de visage non aléatoire, c'est-à-dire lorsque les visages représentés sur les deux images II, 12 n'apparaissent pas réels, ce qui témoigne d'une tentative d'usurpation d'identité par attaque faciale.

On note qu'un fonctionnement inverse peut naturellement être choisi (c'est-à-dire regrouper dans un même zone de l'espace vectoriel deux vecteurs de sortie correspondant à une situation de déplacement de visage aléatoire et séparer les deux vecteurs de sortie dans des zones différentes dans le cas contraire) , l'important étant de tenter de discriminer les deux situations de déplacement de visage aléatoire et non aléatoire en regroupant les vecteurs de sortie dans une même zone ou en les séparant dans des zones distinctes selon le cas.

Quelle que soit la solution retenue, les traitements conduisant à transformer le premier vecteur de repères faciaux XI et le deuxième vecteur de repères faciaux X2 extraits de la première et de la deuxième images II, 12 en un premier et un deuxième vecteur de sortie Yl, Y2 mis en œuvre par le réseau neuronal principal RP forment une étape de propagation S3. On illustrera dans un exemple précis présenté en fin de la présente description, une architecture commune aux deux branches BRI , BR2 , mais d' une manière générale cette architecture est formé d' un enchaînement de couches purement convolutives et d' activation permettant l ' identification de relations spatiales entre les vecteurs de repères faciaux .

Dans une variante particulièrement avantageuse , on peut compléter le réseau neuronal principal RP, en aval des deux branches d' un petit nombre de couches entièrement connectées de dimension décroissantes , formant un tronc commun du réseau neuronal , et permettant de préparer la prise de décision . Dans une telle variante , les vecteurs de sortie Yl , Y2 ne forment pas des sorties du réseau neuronal principal RP en tant que tel , mais un état intermédiaire de ce réseau qui alimente les couches du tronc commun . La dernière couche de celui-ci prépare un vecteur de sortie combiné Z , qui combine entre eux les deux vecteurs Yl , Y2 . Ce vecteur de sortie combiné Z , peut présenter une dimension quelconque , qui peut notamment être différente de celles des vecteurs de sortie Yl , Y2 et même correspondre à une simple valeur scalaire . Bien entendu, la partie de tronc commun du réseau principal est entraînée simultanément et avec les mêmes données d' entrainement que les deux branches BRI , BR2 .

Pour finir la description du schéma fonctionnel du programme P des figures 2a, 2b, ce programme P comprend également , en aval du réseau neuronal principal RP, un bloc de coût L combinant le premier vecteur de sortie Yl et le deuxième vecteur de sortie Y2 par l ' intermédiaire d' une fonction de coût , et fournir une valeur numérique de sortie a cherchant à évaluer numériquement la nature aléatoire ou non aléatoire de déplacement de visage entre la première image I I et la deuxième image 12 . Lorsque le réseau neuronal principal RP comprend la partie de tronc commun, comme cela a été présenté antérieurement , le bloc de coût L traite le vecteur de sortie combiné Z pour fournir cette valeur numérique . Lorsque le vecteur de sortie combiné Z se résume à un simple scalaire , on considère alors que le bloc de coût L est entièrement intégré dans le réseau neuronal principal RP, et que la valeur scalaire fourni par ce réseau RP constitue la valeur numérique de sortie a cherchant à évaluer numériquement la nature aléatoire ou non aléatoire de déplacement de visage .

Cette valeur numérique qui peut être par exemple comprise entre 0 et 1 mesure en quelque sorte la « distance » séparant les deux vecteurs de sortie Yl , Y2 . La fonction de coût mise en œuvre par le bloc de coût L peut correspondre à toute fonction qui convient , par exemple une fonction de perte contrastive comme cela est bien connu en soi . En tout état de cause , les traitements mis en œuvre par le bloc de coût L sont exécutés au cours d' une étape de combinaison S4 du procédé .

Enfin le programme P comprend un module de classification K de la mesure de sortie a pour, sur le fondement de cette mesure , déterminer la nature aléatoire ou non aléatoire du déplacement de visage , et conclure le cas échéant à une tentative d' usurpation d' identité . L' étape de classification S5 mise en œuvre par ce module K peut comprendre la comparaison de la mesure numérique a à un seuil prédéterminé permettant , selon que la mesure numérique a est supérieure ou inférieure à ce seuil prédéterminé , conclure à une tentative de fraude ou non .

L' information fournie par le module de classification conclut l ' exécution du programme de traitement d' image , et cette information peut donc être exploitée par le programme d'exploitation du système 1 pour valider ou non la conformité des images II, 12 et fournir ou non une photographie d'identité qui peut correspondre à la première ou à la deuxième image II, 12.

On note que le traitement d' image mise en œuvre par le programme P n'est pas limité à celui décrit et représenté sur la figure 2. On peut ainsi prévoir que ce programme P effectue d'autres traitements sur l'une au moins des images II, 12, par exemple pour y repérer un objet non conforme (lunette, coiffe par exemple) ou pour les rendre conformes (uniformité de l'arrière- plan, gommage des yeux rouges) voire même pour retoucher les images, par exemple pour y faire disparaître des objets non conformes éventuellement identifiés ; ceci pour les retouches mineures acceptées par l'autorité délivrant les documents d' identité .

Variante basée sur les réseaux neuronaux graphiques

Dans une variante de mise en œuvre, le module de repérage MR est parfaitement identique à celui du mode de mis en œuvre principal. Il prépare donc un premier vecteur XI de N repères faciaux extraits de la première image II et un deuxième vecteur X2 de N repères faciaux extraits de la deuxième image 12.

À la suite de cette étape de repérage, les vecteurs XI, X2 sont fournis à un module additionnel qui vise à transformer chaque vecteur XI, X2 en un graphe permettant de décrire avec plus de précision le visage. Ce graphe est ainsi construit en associant chaque entrée d'un vecteur (un repère facial) à une liste d'autres entrées (d'autres repères faciaux) lui étant connectés.

Par exemple, un repère facial associé au coin gauche de la lèvre est relié aux repères faciaux associés aux points centraux des lèvres, à la base de l'aile gauche du nez, et au projeté horizontal du coin gauche de la bouche sur l'ovale du visage.

Dans une approche alternative de formation du graphe qui ne repose pas sur des repères faciaux correspondant à des éléments morphologiques du visage, on peut relier chaque entrée d'un vecteur (un repère facial de l'image) aux k autres entrées voisines (les k repères faciaux les plus proches sur l'image) , k pouvant être choisi typiquement entre 3 et 10.

De cette manière, il est possible de décrire la forme du v sage comme une succession de points tous reliés entre eux. Cette approche basée sur des graphes ou « graphique » permet d' apporter une information de corrélation entre les repères faciaux, en complément aux informations de positions et des distances entre les repères faciaux, ces informations étant rendus disponible dans la représentation en vecteur du mode de mis en œuvre principal.

Ce graphe est ensuite propagé au sein d'un réseau neuronal siamois, dans lequel chaque branche est formée d'un réseau neuronal de graphes, dont on pourra trouver une description détaillée dans le document de Micheli, Alessio. (2009) . "Neural Network for Graphs: A Contextual Constructive Approach".

L'originalité de cette variante est qu'elle permet de renforcer la qualité des prédictions en ajoutant des informations pouvant être calculées rapidement, tout en utilisant un réseau neuronal adapté à la comparaison de données.

À la suite de la propagation au sein du réseau siamois, les résultats des deux branches du réseau neuronal sont comparés au sein du bloc de coût L, valeur qui sera ensuite introduite dans le module de classification K afin de déterminer, tout comme dans le mode de mis en œuvre principal, si l'utilisateur a essayé de réaliser une acquisition légitime ou a essayé de frauder.

Exemple

A titre d' illustration du programme P et du procédé de traitement d'image qui viennent d'être présentés, on a représenté sur la figure 3 une architecture particulière des branches BRI, BR2 du réseau neuronal principal RP. Cette architecture comprend successivement connectée entre elles :

- Une couche d'entrée E;

- Une première couche entièrement connectée E2 ;

- Une couche d'étalement E3 ;

- Une seconde couche entièrement connectée E4;

Les première et deuxième couches entièrement connectées sont suivi d'une unité de rectification linéaire (ReLu) sur chacune de leurs sorties (non représentée sur la figure) .

Les vecteurs de repères faciaux XI, X2 sont formés des 81 coordonnées de points d'intérêt du visages déterminés à l'aide des fonctions disponibles dans la bibliothèque Dlib. Le bloc de coût met en œuvre une fonction de perte contrastive (généralement désignée dans le domaine par l'expression anglo-saxonne de « contrastive loss ».

Cette architecture combinée au bloc de coût L a été entraînée à l'aide d'un ensemble de données composé de 1075 paires d'images d'un visage réel, et de 254 paires d'images représentatives de tentative d'usurpation d'identité par attaque faciale. Cet ensemble de données a été divisé en deux parties, 60% de chaque catégorie ont été exploitées au cours de l'entrainement du réseau neuronal principal, et les 40% restant ont servi à évaluer la précision de détection de fraude. Le réseau neuronal principal pris en exemple a été entraîné à l'aide des données d'entrainement au cours de 100 époques, à l'aide d'un optimisateur de type Adam et un paramètre d'apprentissage de 10“⁶. La figure 4 représente l'évolution du critère d'optimisation établi au cours de cet apprentissage. On observe que cette évolution converge qu'elle soit mesurée sur les données d'apprentissage ou sur les données de validation.

La courbe de la figure 5 représente la courbe ROC (receiver operating characteristic en anglais; ou fonction d'efficacité du récepteur) de cet exemple. Le graphe montre la performance du programme P et du procédé de traitement selon la valeur choisie du seuil dans le module de classification K. Le graphe présente un axe des abscisses correspondant à la proportion de faux positif et en ordonnée la proportion de vrai positif. Sur ce graphe, on vise le point optimal de coordonnées (0,1) , c'est-à- dire présentant 0% de faux positifs et 100% de vrais positifs. Le graphe de la figure 5 montre la performance de cet exemple selon la valeur choisi du seuil du module de classification. Il permet également de choisir la valeur de ce seuil S* permettant de se situer au plus près du point optimal de coordonnées (0,1) .

Bien entendu l'invention n'est pas limitée aux modes de mise en œuvre décrits et on peut y apporter des variantes de réalisation sans sortir du cadre de l'invention tel que défini par les revendications .

Claims

24 REVENDICATIONS

1. Procédé de détection d'une tentative d'usurpation d' identité par attaque faciale pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le procédé comprenant les étapes suivantes, mises en œuvre par un dispositif de calcul :

- une étape d'acquisition (SI) d'une première image (II) et d'une deuxième image (12) du visage de la personne, le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image étant inférieure à 5 secondes ;

- une étape de repérage (S2) pour respectivement fournir un premier vecteur (XI) de N repères faciaux extraits de la première image (II) et un deuxième vecteur (X2) de N repères faciaux extraits de la deuxième image (12) ;

- une étape de propagation (S3) des repères faciaux du premier vecteur (XI) et des repères faciaux du deuxième vecteur (X2) dans deux branches siamoises (RP1, RP2) d'un réseau neuronal principal (RP) pour respectivement fournir un premier vecteur de sortie (Yl) et un deuxième vecteur de sortie (Y2) de dimensions N ;

- une étape de combinaison (S4) du premier vecteur de sortie (Yl) et du deuxième vecteur de sortie (Y2) par l'intermédiaire d'une fonction de coût et établir une mesure numérique de sortie a évaluant la nature aléatoire ou non aléatoire du déplacement de visage entre la première image (II) et la deuxième image (12) ;

- une étape de classification (S5) de la mesure numérique de sortie a pour déterminer la nature aléatoire ou non aléatoire du déplacement de visage et conclure, le cas échéant, à une tentative d'usurpation d'identité. Procédé selon la revendication précédente dans lequel le temps écoulé entre l'acquisition de la première image et l'acquisition de la deuxième image est compris entre 0,1 et 2 secondes. Procédé selon l'une des revendications précédentes dans lequel l'étape de repérage comprend l'identification de boites englobantes d'un visage respectivement présent sur la première image (II) et sur la deuxième image (12) . Procédé selon la revendication précédente dans lequel l'étape de repérage comprend en outre l'identification des repères faciaux dans les zones de la première image (II) et de la deuxième image (12) définies par les boites englobantes . Procédé selon l'une des revendications précédentes dans lequel les repères faciaux formant le premier vecteur (XI) et le deuxième vecteur (X2) sont des descripteurs spécifiques du visage. Procédé selon l'une des revendications précédentes dans lequel le réseau de neuronal principal (RP) comprend une pluralité de couches en aval des deux branches siamoises (BRI, BR2) et formant un tronc commun du réseau neuronal principal, le tronc commun mettant en œuvre au moins en partie l'étape de combinaison (S4) . Procédé selon l'une des revendications précédentes dans lequel la fonction de coût est une fonction de perte contrastive . Procédé selon l'une des revendications précédentes dans lequel l'étape de classification (S5) comprend la comparaison de la mesure numérique de sortie a à un seuil prédéterminé . Procédé selon l'une des revendications précédentes comprenant une étape de transformation du premier vecteur (XI) en un premier graphe de repères faciaux et du deuxième vecteur (X2) en un deuxième graphe de repères faciaux, l'étape de propagation comprenant la propagation du premier et du deuxième graphes dans, respectivement, les branches siamoise (RP1, RP2) du réseau neuronal principal (RP) . Programme informatique comprenant des instructions adaptées à la mise en œuvre de chacune des étapes du procédé selon l'une des revendications 1 à 8, lorsque le programme est exécuté sur un dispositif de calcul. Système (1) pour déterminer si une image du visage d'une personne est apte à former une photographie d'identité, le système comprenant :

- un dispositif de prise de vue (2) ;

- une interface d'entrée (3) ;

- un dispositif d'affichage (4) ; reliés à un dispositif de calcul (5) et à des moyens de stockage (6) , le dispositif de calcul (5) étant configuré pour mettre en œuvre le procédé selon l'une des revendication 1 à 9.