FR3160797A1

FR3160797A1 - Procédé et dispositif d’apprentissage d’un modèle de prédiction de profondeur d’un ensemble de pixels d’une image associé à un système de vision stéréoscopique embarqué dans un véhicule.

Info

Publication number: FR3160797A1
Application number: FR2403164A
Authority: FR
Inventors: Hai Li
Original assignee: Stellantis Auto SAS
Current assignee: Stellantis Auto SAS
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2025-10-03

Abstract

Procédé ou dispositif d’apprentissage d’un modèle de prédiction de profondeur mis en œuvre par un réseau de neurones associé à un système de vision. En effet, le procédé comprend la génération (32) d’un ensemble de couples de cartes de caractéristiques à partir d’images acquises par le système de vision, chaque couple de cartes de caractéristiques comprenant des première et deuxième cartes de caractéristiques associées respectivement à chaque image acquise, chaque couple de cartes de caractéristiques ayant une définition différente. Un autre couple de cartes de caractéristiques est associé (35) à chaque couple de caractéristiques et comprend deux autres cartes de caractéristiques générées à partir de profondeurs et directions (33, 34) prédites pour les pixels des première et deuxième cartes de caractéristiques. Le modèle de prédiction de profondeur est appris par minimisation (37) d’une erreur déterminée par comparaison des cartes de caractéristiques pour les différentes résolutions. Figure pour l’abrégé : Figure 3

Description

Procédé et dispositif d’apprentissage d’un modèle de prédiction de profondeur d’un ensemble de pixels d’une image associé à un système de vision stéréoscopique embarqué dans un véhicule.

La présente invention concerne les procédés et dispositifs d’apprentissage d’un modèle de prédiction de profondeur associé à un système de vision stéréoscopique embarqué dans un véhicule, par exemple dans un véhicule automobile. La présente invention concerne également un procédé et un dispositif de détermination d’une profondeur et/ou de mesurage d’une distance séparant un objet d’un véhicule embarquant un système de vision.

Arrière-plan technologique

De nombreux véhicules modernes sont équipés de systèmes d’aide à la conduite dits ADAS (de l’anglais « Advanced Driver-Assistance System » ou en français « Système d’aide à la conduite avancé »). De tels systèmes ADAS sont des systèmes de sécurité passifs et actifs conçus pour éliminer la part d'erreur humaine dans la conduite de véhicules de tous types. Les ADAS utilisent des technologies avancées pour assister le conducteur pendant la conduite et améliorer ainsi ses performances. Les ADAS utilisent une combinaison de technologies de capteurs pour percevoir l’environnement autour d’un véhicule, puis fournissent des informations au conducteur ou agissent sur certains systèmes du véhicule.

Il existe plusieurs niveaux d’ADAS, tels que les caméras de recul et les capteurs d'angle mort, les systèmes d'alerte de franchissement de ligne, les régulateurs de vitesse adaptatifs ou encore les systèmes de stationnement automatique.

Les ADAS embarqués dans un véhicule sont alimentés par des données obtenues d’un ou plusieurs capteurs embarqués tels que, par exemple, des caméras. Ces caméras permettent notamment de détecter et de situer d’autres usagers de la route ou d’éventuels obstacles présents autour d’un véhicule afin, par exemple :
• d’adapter l’éclairage du véhicule en fonction de la présence d’autres usagers ;
• de réguler de façon automatique la vitesse du véhicule ;
• d’agir sur le système de freinage en cas de risque d’impact avec un objet.

Afin d’avoir un vision étendue de l’environnement du véhicule, c’est-à-dire d’une scène tridimensionnelle se déroulant autour du véhicule, une caméra grand angle, c’est-à-dire une caméra disposant d’un large champ de vision est préconisée. En effet, l’utilisation d’une caméra grand angle présente de nombreux avantages par rapport à des caméras « standard » :
• un champ de vision plus large permettant de capturer une plus grande partie de la scène, ce qui est particulièrement important dans le contexte de la conduite automobile, où il est essentiel de surveiller l'environnement aussi bien sur les côtés qu’à l'avant du véhicule par exemple,
• une plus grande efficacité pour percevoir des environnements complexes, tels que les intersections, les virages serrés, les places de stationnement, etc., en minimisant les angles morts et en fournissant une vue plus complète des situations de conduite, et
• une sécurité accrue en détectant plus facilement des obstacles, d’autres véhicules, des piétons et des cyclistes dans les zones adjacentes au véhicule.

Bien que les caméras grand angle offrent de nombreux avantages, elles peuvent également introduire des distorsions dans les images capturées, et ces distorsions peuvent entraîner certains problèmes tels que :
• la déformation des lignes droites, par exemple en barillet ou en coussinet, provoquant une courbure des lignes droites dans une image acquise par la caméra grand angle, rendant difficile l'estimation des distances réelles entre les objets, en particulier vers les bords de l'image,
• l’étirement des objets ou leur compression, en particulier vers les bords de l'image, modifiant la taille apparente des objets, ce qui peut être problématique lors de l'évaluation de la distance ou de la taille réelle des objets,
• la modification des proportions des objets, les rendant plus grands ou plus petits que leur taille réelle et plus complexes à identifier, et
• la difficulté de rectification ou correction de la distorsion dans le post-traitement pouvant être complexe et pouvant entraîner une perte d'information.

Ainsi, le traitement d’une image acquise par une caméra grand angle requiert un traitement particulier notamment à cause de la forte distorsion présente dans l’image. La détermination d’une distance séparant le véhicule embarquant la caméra d’un objet de la scène n’est alors pas réalisable avec les méthodes couramment utilisées pour les caméras standard utilisées dans certains systèmes de vision.

Certaines méthodes connues présentent également l’inconvénient de ne pas être en mesure de prédire précisément, voire de prédire, une profondeur associée à chaque pixel d’une image. Ainsi, les « trous », c’est-à-dire les pixels auxquels aucune profondeur n’est associée, génèrent des incohérences ou des manques d’information pouvant perturber le fonctionnement d’un ADAS.

De plus, des images acquises à un même instant temporel par un système de vision stéréoscopique, c’est à dire un système de vision comprenant plusieurs caméras faisant l’acquisition d’images d’une même scène tridimensionnelle, comprennent parfois des zones occluses, c’est à dire des zones visibles dans une image acquise par une caméra ayant des pixels associés à un objet de la scène tridimensionnelle non visible sur une image acquise par une autre caméra du système de vision stéréoscopique. La prédiction d’une profondeur associée à un pixel correspondant à un objet de la scène tridimensionnelle non visible par l’ensemble des caméras du système de vision stéréoscopique est complexe et est source d’erreur de prédiction.

Résumé de la présente invention

Un objet de la présente invention est de résoudre au moins l’un des problèmes de l’arrière-plan technologique décrit précédemment.

Un autre objet de la présente invention est d’améliorer la qualité des données issues du traitement d’une image acquise par un système de vision, notamment par un modèle de prédiction de profondeur mis en œuvre par un réseau de neurones associé à ce système de vision stéréoscopique.

Un autre objet de la présente invention est d’améliorer la sécurité routière, notamment par l’amélioration de la sûreté de fonctionnement des système ADAS alimentés par des données obtenues d’une caméra grand angle.

Selon un premier aspect, la présente invention concerne un procédé d’apprentissage d’un modèle de prédiction de profondeur mis en œuvre par un réseau de neurones convolutif associé à un système de vision stéréoscopique embarqué dans un véhicule, le système de vision stéréoscopique comprenant une première caméra et une deuxième caméra disposées de manière à acquérir chacune une image d’une scène tridimensionnelle selon un point de vue différent,
le procédé étant mis en œuvre par au moins un processeur, et étant caractérisé en ce qu’il comprend les étapes suivantes :
- réception d’une première image et d’une deuxième image acquises par respectivement la première caméra et la deuxième caméra à un même instant temporel d’acquisition ;
- génération d’un ensemble de premiers couples de cartes de caractéristiques par un extracteur de caractéristiques à partir des première et deuxième images, chaque premier couple de cartes de caractéristiques comprenant une première carte de caractéristiques associée à la première image et une deuxième carte de caractéristiques associée à la deuxième image et chaque premier couple de cartes de caractéristiques ayant une définition différente ;
- prédiction, pour chaque premier couple de cartes de caractéristiques, de directions associées à des pixels d’un ensemble de pixels de la première carte de caractéristiques, dits premiers pixels, et de directions associées à des pixels d’un ensemble de pixels de la deuxième carte de caractéristiques, dits deuxièmes pixels, par un modèle de prédiction de direction à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques ;
- prédiction, pour chaque premier couple de cartes de caractéristiques, de profondeurs associées aux premiers pixels et aux deuxièmes pixels par le modèle de prédiction de profondeur à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques ;
- association, à chaque premier couple de cartes de caractéristiques, d’un deuxième couple de cartes de caractéristiques comprenant une troisième carte de caractéristiques et une quatrième carte de caractéristiques,
la troisième carte de caractéristiques étant générée à partir de la première carte de caractéristiques, des directions et des profondeurs associées aux premiers pixels et de paramètres extrinsèques du système de vision stéréoscopique, et
la quatrième carte de caractéristiques étant générée à partir de la deuxième carte de caractéristiques, des directions et des profondeurs associées aux deuxièmes pixels et des paramètres extrinsèques du système de vision stéréoscopique ;
- détermination, pour chaque premier couple de cartes de caractéristiques, d’une erreur de perte à partir d’une première erreur déterminée pour chaque premier pixel par comparaison du chaque premier pixel de la première carte de caractéristiques à un pixel de la quatrième carte de caractéristiques correspondant au chaque premier pixel et d’une deuxième erreur déterminée pour chaque deuxième pixel par comparaison du chaque deuxième pixel de la deuxième carte de caractéristiques à un pixel de la troisième carte de caractéristiques correspondant au chaque deuxième pixel ;
- apprentissage du modèle de prédiction de profondeur par minimisation d’une erreur globale déterminée à partir des erreurs de perte déterminées pour l’ensemble de premiers couples de cartes de caractéristiques.

Selon une variante du procédé, l’erreur globale est la somme des erreurs de perte, déterminée par la fonction suivante :

Avec :
• l’erreur globale,
• une erreur de perte pour un premier couple de cartes de caractéristiques , et
• une somme sur l’ensemble de premiers couples de cartes de caractéristiques.

Selon une autre variante du procédé, des valeurs colorimétriques sont associées à chaque pixel des première, deuxième, troisième et quatrième cartes de caractéristiques.

Selon encore une variante du procédé, la première erreur, respectivement deuxième erreur, est déterminée par la fonction suivante :

Avec :
• la première erreur notée , respectivement la deuxième erreur notée , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• une valeur colorimétrique du pixel dans la première carte de caractéristiques, respectivement deuxième carte de caractéristiques,
• une valeur colorimétrique du pixel dans la quatrième carte de caractéristiques, respectivement troisième carte de caractéristiques,
• SSIM une fonction qui prend en compte une structure locale, et
• un facteur de pondération dépendant notamment du type d’environnement dans lequel évolue le véhicule.

Selon une variante supplémentaire du procédé, l’erreur de perte est déterminée en outre à partir d’une erreur de construction déterminée par la fonction suivante :

Avec :
• l’erreur de construction pour un pixel p de la troisième carte de caractéristiques, respectivement l’erreur de construction pour un pixel p de la quatrième carte de caractéristiques ,
• est une profondeur d’un pixel obtenue de la troisième carte de profondeurs, respectivement obtenue de la quatrième carte de profondeur ;
• est une matrice de paramètres ;
• est l’ordre d’un gradient de lissage ;
• une norme L1 des gradients de profondeur du second ordre est calculée avec =1 , et =2 ;
• et sont les dimensions des cartes de caractéristiques ;
• est un hyperparamètre dépendant de l’environnement dans lequel évolue le véhicule ; et
• est une valeur colorimétrique du pixel dans la troisième carte de caractéristiques, respectivement quatrième carte de caractéristiques.

Selon encore une variante du procédé, l’erreur de perte est déterminée par la fonction suivante :

Avec :
• l’erreur de perte,
• la première erreur pour un pixel , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• la deuxième erreur pour le pixel ,
• l’erreur de construction pour un pixel de la troisième carte de caractéristiques, et
• l’erreur de construction pour un pixel de la quatrième carte de caractéristiques.

Selon encore une autre variante du procédé, les troisième et quatrième cartes de caractéristiques sont générées à l’aide de la fonction suivante :

Avec :
• un pixel d’une carte de caractéristiques générée correspondant à la troisième carte de caractéristiques, respectivement la quatrième carte de caractéristiques,
• une fonction pour passer de coordonnées homogènes à des coordonnées pixels en supprimant une dimension d’un vecteur,
• un modèle de prédiction de direction associé à la deuxième caméra, respectivement à la première caméra,
• un modèle de prédiction de direction associé à la première caméra, respectivement à la deuxième caméra,
• une matrice extrinsèque du système de vision stéréoscopique,
• une fonction de projection dans la scène tridimensionnelle d’un pixel en fonction de sa profondeur, et
• est une profondeur associée à un pixel de la première carte de caractéristiques, respectivement de la deuxième carte de caractéristiques.

Selon un deuxième aspect, la présente invention concerne un dispositif configuré pour apprendre un modèle de prédiction de profondeur par un système de vision embarqué dans un véhicule, le dispositif comprenant une mémoire associée à au moins un processeur configuré pour la mise en œuvre des étapes du procédé selon le premier aspect de la présente invention.

Selon un troisième aspect, la présente invention concerne un véhicule, par exemple de type automobile, comprenant un dispositif tel que décrit ci-dessus selon le deuxième aspect de la présente invention.

Selon un quatrième aspect, la présente invention concerne un programme d’ordinateur qui comporte des instructions adaptées pour l’exécution des étapes du procédé selon le premier aspect de la présente invention, ceci notamment lorsque le programme d’ordinateur est exécuté par au moins un processeur.

Un tel programme d’ordinateur peut utiliser n’importe quel langage de programmation et être sous la forme d’un code source, d’un code objet, ou d’un code intermédiaire entre un code source et un code objet, tel que dans une forme partiellement compilée, ou dans n’importe quelle autre forme souhaitable.

Selon un cinquième aspect, la présente invention concerne un support d’enregistrement lisible par un ordinateur sur lequel est enregistré un programme d’ordinateur comprenant des instructions pour l’exécution des étapes du procédé selon le premier aspect de la présente invention.

D’une part, le support d’enregistrement peut être n'importe quel entité ou dispositif capable de stocker le programme. Par exemple, le support peut comporter un moyen de stockage, tel qu'une mémoire ROM, un CD-ROM ou une mémoire ROM de type circuit microélectronique, ou encore un moyen d'enregistrement magnétique ou un disque dur.

D'autre part, ce support d’enregistrement peut également être un support transmissible tel qu'un signal électrique ou optique, un tel signal pouvant être acheminé via un câble électrique ou optique, par radio classique ou hertzienne ou par faisceau laser autodirigé ou par d'autres moyens. Le programme d’ordinateur selon la présente invention peut être en particulier téléchargé sur un réseau de type Internet.

Alternativement, le support d'enregistrement peut être un circuit intégré dans lequel le programme d’ordinateur est incorporé, le circuit intégré étant adapté pour exécuter ou pour être utilisé dans l'exécution du procédé en question.

Brève description des figures

D’autres caractéristiques et avantages de la présente invention ressortiront de la description des exemples de réalisation particuliers et non limitatifs de la présente invention ci-après, en référence aux figures 1 à 4 annexées, sur lesquelles :

FIG. 1illustre schématiquement un système de vision équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention ;

FIG. 2illustre un organigramme des différentes étapes d’un procédé de détermination d’une profondeur d’un pixel d’une image par un modèle de prédiction de profondeur associé à un système de vision embarqué dans le véhicule de laFIG. 1, selon un exemple de réalisation particulier et non limitatif de la présente invention ;

FIG. 3illustre un organigramme des différentes étapes d’un procédé d’apprentissage du modèle de prédiction de profondeur utilisé dans le procédé de laFIG. 2, selon un exemple de réalisation particulier et non limitatif de la présente invention ; et

FIG. 4illustre schématiquement un dispositif configuré pour apprendre un modèle de prédiction de profondeur par un système de vision embarqué dans le véhicule de laFIG. 1, selon un exemple de réalisation particulier et non limitatif de la présente invention.

Description des exemples de réalisation

Un procédé et un dispositif d’apprentissage d’un modèle de prédiction de profondeur mis en œuvre par un réseau de neurones convolutif associé à un système de vision stéréoscopique embarqué dans un véhicule vont maintenant être décrits dans ce qui va suivre en référence conjointement aux figures 1 à 4. Des mêmes éléments sont identifiés avec des mêmes signes de référence tout au long de la description qui va suivre.

Les termes « premier(s) », « deuxième(s) » (ou « première(s) », « deuxième(s) »), etc. sont utilisés dans ce document par convention arbitraire pour permettre d’identifier et de distinguer différents éléments (tels que des opérations, des moyens, etc.) mis en œuvre dans les modes de réalisation décrits ci-après. De tels éléments peuvent être distincts ou correspondre à un seul et unique élément, selon le mode de réalisation.

Pour l’ensemble de la description, on entend par réception d’une image la réception de données représentatives d’une image. De même pour la génération d’une carte de caractéristiques, on entend la génération de données représentatives d’une carte de caractéristiques. Ces raccourcis ont uniquement pour but de simplifier la description, néanmoins, les procédés étant mis en œuvre par un ou plusieurs processeurs, il est évident que les données d’entrée et de sortie des différentes étapes d’un procédé sont des données informatiques.

Selon un exemple particulier et non limitatif de réalisation de la présente invention, un modèle de prédiction de profondeur associé à un système de vision stéréoscopique comprenant deux caméras est appris dans une phase d’apprentissage.

En effet, le procédé comprend la génération d’un ensemble de premiers couples de cartes de caractéristiques à partir d’images acquises par le système de vision stéréoscopique, chaque premier couple de cartes de caractéristiques comprenant des première et deuxième cartes de caractéristiques associées respectivement à chaque image acquise, chaque premier couple de cartes de caractéristiques ayant une définition différente.

Un deuxième couple de cartes de caractéristiques est associé à chaque premier couple de caractéristiques et comprend deux autres cartes de caractéristiques générées à partir, notamment, de profondeurs et directions prédites pour les pixels des première et deuxième cartes de caractéristiques.

Le modèle de prédiction de profondeur est appris par minimisation d’une erreur déterminée par comparaison des cartes de caractéristiques pour les différentes résolutions.

LaFIG. 1illustre schématiquement un système de vision équipant un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention.

Un tel environnement 1 correspond, par exemple, à un environnement routier formé d’un réseau de routes accessibles pour le véhicule 10.

Dans cet exemple, le véhicule 10 correspond à un véhicule à moteur thermique, à moteur(s) électrique(s) ou encore un véhicule hybride avec un moteur thermique et un ou plusieurs moteurs électriques. Le véhicule 10 correspond ainsi, par exemple, à un véhicule terrestre tel une automobile, un camion, un car, une moto. Enfin, le véhicule 10 correspond à un véhicule autonome ou non, c’est-à-dire un véhicule circulant selon un niveau d’autonomie déterminé ou sous la supervision totale du conducteur.

Le véhicule 10 comprend avantageusement au moins deux caméras embarquées, une première caméra 11 et une deuxième caméra 12, configurées pour acquérir des images d’une scène tridimensionnelle se déroulant dans l’environnement du véhicule 10 depuis des positions d’observation distinctes. La première caméra 11 et la deuxième caméra 12 forment un système de vision stéréoscopique lorsqu’elles sont utilisées ensemble comme illustré dans laFIG. 1. La première caméra 11 forme un système de vision monoscopique lorsqu’elle est utilisée seule, de même la deuxième caméra 12 forme un autre système de vision monoscopique lorsqu’elle est utilisée seule. La présente invention s’étend cependant à tout système de vision comprenant au moins deux caméras, par exemple 2, 3 ou 5 caméras.

Les paramètres intrinsèques de la première caméra 11 caractérisent la transformation qui associe, pour un point image, par la suite appelé « point », ses coordonnées tridimensionnelles dans le référentiel de la première caméra 11 aux coordonnées pixel dans une image acquise par la première caméra 11. Ces paramètres ne changent pas si l'on déplace la première caméra 11. Les paramètres intrinsèques de la première caméra 11 comprennent notamment une première distance focale f1 associée à la première caméra 11.

Les paramètres intrinsèques de la deuxième caméra 12 caractérisent, quant à eux, la transformation qui associe, pour un point image, ses coordonnées tridimensionnelles dans le référentiel de la deuxième caméra 12 aux coordonnées pixel dans une image acquise par la deuxième caméra 12. Ces paramètres ne changent pas si l'on déplace la deuxième caméra 12. Les paramètres intrinsèques de la deuxième caméra 12 comprennent notamment une deuxième distance focale f2 associée à la deuxième caméra 12.

Les distorsions, qui sont dues aux imperfections du système optique telles que des défauts de forme et de positionnement des lentilles des caméras, vont dévier les faisceaux lumineux et donc induire un écart de positionnement pour le point projeté par rapport à un modèle idéal. Il est possible alors de compléter le modèle de caméra en y introduisant les trois distorsions qui génèrent le plus d’effets, à savoir les distorsions radiales, de décentrage et prismatiques, induites par des défauts de courbure, de parallélisme des lentilles et de coaxialité des axes optiques. Dans cet exemple, les caméras sont supposées parfaites, c’est-à-dire que les distorsions ne sont pas prises en compte, que leur correction est traitée au moment de l’acquisition d’une image ou au moment de la calibration.

Ces deux caméras 11, 12 sont disposées de manière à acquérir chacune une image d’une scène selon un point de vue différent, le premier point de vue est par exemple localisé sur ou dans le rétroviseur gauche du véhicule 10 ou en haut du pare-brise du véhicule 10, le deuxième point de vue est par exemple localisé sur ou dans le rétroviseur droit du véhicule 10 ou en haut du pare-brise du véhicule 10. Dans le cas où les deux caméras sont situées en haut du pare-brise du véhicule, celles-ci sont alors placées à une certaine distance. Dans cet exemple, la première caméra 11 est située en haut du pare-brise du véhicule 10, la deuxième caméra 12 est située dans le rétroviseur droit du véhicule 10.

Un premier repère est associé à la première caméra 11 :
- la direction de l’axe x est définie horizontale et normale à l’axe optique C1 de la première caméra 11. La distance B séparant le centre optique de la première caméra 11 de la projection du centre optique de la deuxième caméra 12 sur le plan horizontal passant par le centre optique de la première caméra 11 est appelée base de référence (en anglais « baseline ») ;
- la direction de l’axe y est définie verticale et normale à l’axe optique C1 de la première caméra 11 ;
- la direction de l’axe z est définie orthogonale aux directions des axes x et y.
Les trois axes x, y et z forment ainsi un repère orthonormé.

L’axe optique C1 de la première caméra 11 et l’axe optique C2 de la deuxième caméra 12 ne sont pas nécessairement parallèles ni même compris dans un même plan.

Selon une variante, des axes optiques des première et deuxième caméras ne sont pas coplanaires

Les paramètres extrinsèques liés à la position des caméras 11, 12 sont les paramètres suivants :
- trois translations dans les directions x, y et z : Tx, Ty et Tz constituant le vecteur translation T ; et
- trois rotations dans les directions x, y et z : θx, θy et θz.

Une matrice extrinsèque du système de vision comprend alors les paramètres extrinsèques précédemment définis.

Les paramètres extrinsèques sont déterminés, par exemple, lors d’une phase de calibration du système de vision stéréoscopique comprenant la première caméra 11 et la deuxième caméra 12.

Une contrainte principale du système de vision stéréoscopique utilisé dans l’automobile est, par exemple, la grande distance entre les deux caméras. En effet, pour pouvoir couvrir une plage de mesure de 200 mètres, la base de référence doit atteindre 60cm pour les caméras couramment utilisées dans ce domaine.

Les deux caméras 11, 12 font l’acquisition d’images d’une scène se situant devant le véhicule 10, la première caméra 11 couvrant seule un premier champ d’acquisition 13, la deuxième caméra 12 couvrant seule un deuxième champ d’acquisition 14 et les deux caméras 11, 12 couvrant toutes deux un troisième champ d’acquisition 15. Les premier et troisième champs d’acquisition 13, 15 permettent ainsi une vision monoscopique de la scène par la première caméra 11, les deuxième et troisième champs d’acquisition 14, 15 permettent une vision monoscopique de la scène par la deuxième caméra 12 et le troisième champ d’acquisition 15 permet une vision stéréoscopique de la scène par le système de vision stéréoscopique composé des deux caméras 11, 12.

Un obstacle 18 est placé dans le champ d’acquisition des caméras, par exemple dans le troisième champ d’acquisition 15. La présence de l’obstacle 18 définit un champ d’occlusion pour le système de vision stéréoscopique composé ici des trois champs 16, 17 et 19.

Parmi ces trois champs, le champ 16 est visible depuis la deuxième caméra 12. La partie de la scène présente dans ce champ 16 est donc observable à l’aide du système de vision monoscopique comprenant la deuxième caméra 12.

Le champ 17 est quant à lui visible depuis la première caméra 11. La partie de la scène présente dans ce champ 17 est donc observable à l’aide du système de vision monoscopique comprenant la première caméra 11.

Enfin, le champ 19 n’est visible par aucune des caméras. La partie de la scène présente dans ce champ 19 n’est donc pas observable.

Selon un exemple de réalisation particulier, le champ de vision de la deuxième caméra 12 couvre au moins la moitié du champ de vision de la première caméra 11.

Il est évident qu’il est possible d’utiliser un tel système de vision stéréoscopique pour prendre des images de scènes situées sur les côtés ou derrière le véhicule 10 en l’équipant de caméras placées et orientées différemment.

Les images acquises par les caméras 11, 12 à un instant temporel d’acquisition se présentent sous la forme de données représentant des pixels caractérisés par :
- des coordonnées dans chaque image ; et
- des données relatives aux couleurs et luminosité des objets de la scène observée sous forme par exemple de coordonnées colorimétriques RGB (de l’anglais « Red Green Blue », en français « Rouge Vert Bleu ») ou TSL (Ton, Saturation, Luminosité).

Chaque pixel de l’image acquise est représentatif d’un objet de la scène tridimensionnelle présent dans le champ de vision de la caméra. En effet, un pixel de l’image acquise est la plus petite unité visible et correspond à un point lumineux résultant de l'émission ou de la réflexion de la lumière par un objet physique présent dans la scène tridimensionnelle. Lorsque la lumière frappe cet objet, des photons sont émis ou réfléchis, captés par un capteur photosensible de la caméra après passage à travers son objectif. Ce capteur divise la scène tridimensionnelle en une grille de pixels. Chaque pixel enregistre l'intensité lumineuse à un emplacement spécifique, capturant ainsi des détails visuels. La combinaison de millions de pixels crée une image représentant fidèlement l'objet physique observé par la caméra. Un point image précédemment présenté est ainsi un point d’une surface d’un objet de la scène tridimensionnelle.

Les images acquises par les caméras 11, 12 représentent des vues d’une même scène prises à des points de vue différents, les positions des caméras étant distinctes. Sur cette scène se trouvent par exemple :
- des bâtiments ;
- des infrastructures routières ;
- d’autres usagers immobiles, par exemple un véhicule stationné ; et/ou
- d’autres usagers mobiles, par exemple un autre véhicule, un cycliste ou un piéton en mouvement.

Selon un exemple de réalisation particulier, la première caméra 11 et/ou la deuxième caméra 12 est de type « grand angle », une caméra grand angle étant par exemple équipée d’un objectif conçu pour faire l’acquisition d’une image représentative d’une scène tridimensionnelle perçue selon un champ de vision plus large que celui d'une caméra standard, aussi appelé parfois objectif panoramique. En d'autres termes, un objectif grand angle permet de saisir une plus grande portion de la scène tridimensionnelle se déroulant devant ou autour de la caméra grand angle, ce qui est particulièrement utile dans des situations où il est nécessaire d'inclure davantage d'éléments dans le cadre de l’image acquise par cette caméra. L’angle α du champ de vision de la caméra grand angle est par exemple égal à 120°, 145°, 180° ou 360°, alors qu’une caméra standard propose, par exemple, un champ de vision ouvert suivant un angle de 45° ou moins. Une telle caméra grand angle correspond par exemple à une caméra équipée de miroirs ou encore à une caméra « fisheye » (en français « œil de poisson »). Les objectifs grand angle ont une distance focale plus courte par rapport aux objectifs standard, ce qui les rend adaptés pour faire l’acquisition d’images de paysages, d'architectures, de croisements de routes ou de tout autre sujet nécessitant une perspective étendue. Les caméras grand angle sont, par exemple, utilisées pour capturer des images immersives et dynamiques avec une profondeur de champ étendue.

Selon un exemple de réalisation particulier, une image acquise par la première caméra 11 et/ou une image acquise par la deuxième caméra 12 comprend une distorsion égale à 0,5%, 0,8% ou supérieure à 1%. La mesure d’une telle distorsion correspond à la détermination d’un rapport entre :
- l'écartement maximal d’un pixel de l'image d’une ligne droite de la première scène tridimensionnelle dont l’image est une ligne touchant le bord le plus long de la première image, soit au centre du bord de l’image, soit au niveau des angles du bord de l’image, et
- la longueur de ce bord.

Couramment, une distorsion est considérée, dans le monde de la photographie, comme :
• négligeable si elle est inférieure à 0,3%,
• peu sensible si elle est comprise entre 0,3% ou 0,4%,
• sensible si elle est comprise entre 0,5% et 0,6%,
• très sensible si elle est comprise entre 0,7% et 0,9%, et
• gênante si elle est supérieure ou égale à 1% ou plus.

Une distorsion en barillet est caractérisée par un pourcentage positif, tandis qu’une distorsion en croissant est caractérisée par un pourcentage négatif.

Selon un exemple de réalisation particulier, un champ de vision de la première caméra 11 couvre au moins la moitié d’un champ de vision de la deuxième caméra 12 et un champ de vision de la deuxième caméra 12 couvre au moins la moitié d’un champ de vision de la première caméra 11. En d’autres termes, plus de la moitié des pixels d’une image acquise par la première caméra 11 correspondent à un objet de la scène tridimensionnelle vu par la deuxième caméra 12, des pixels d’une image acquise par la deuxième caméra 12 correspondant également à cet objet de la scène tridimensionnelle. De même, plus de la moitié des pixels d’une image acquise par la deuxième caméra 12 correspondent à un objet de la scène tridimensionnelle vu par la première caméra 11, des pixels d’une image acquise par la première caméra 11 correspondant également à cet objet de la scène tridimensionnelle.

Les images acquises par la première caméra 11 et par la deuxième caméra 12 sont envoyées à un calculateur d’un dispositif équipant le véhicule 10 ou stockées dans une mémoire d’un dispositif accessible à un calculateur d’un dispositif équipant le véhicule 10.

Un procédé de détermination d’une profondeur par un système de vision embarqué dans le véhicule 10 est avantageusement mis en œuvre par le véhicule 10, c’est-à-dire par un processeur, un calculateur ou une combinaison de calculateurs du système embarqué du véhicule 10, par exemple par le ou les calculateurs en charge du système de vision du véhicule 10.

LaFIG. 2illustre un organigramme des différentes étapes d’un procédé 2 de détermination d’une profondeur d’un pixel d’une image par modèle de prédiction de profondeur mis en œuvre par un réseau de neurones convolutif associé à un système de vision embarqué dans un véhicule, par exemple dans le véhicule 10 de laFIG. 1, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le procédé 2 est par exemple mis en œuvre par un dispositif du système de vision embarqué dans le véhicule 10 ou par le dispositif 4 de laFIG. 4.

Dans une étape 21, des données représentatives d’une image acquise par la première caméra 11 et d’une image acquise par la deuxième caméra 12 sont reçues.

Dans une étape 22, des profondeurs associées à un ensemble de pixels d’une des images reçues sont déterminées par le modèle de prédiction de profondeur à partir des deux images reçues.

Chaque profondeur déterminée correspond alors à une distance séparant le véhicule 10 ou une partie du véhicule 10 d’un objet de la scène tridimensionnelle auquel est associé un pixel, la détermination d’une profondeur d’un pixel correspondant alors à un mesurage d’une distance séparant un objet du véhicule embarquant le système de vision.

Si l’ADAS utilise ces profondeurs ou distances comme données d’entrée pour déterminer la distance entre une partie du véhicule 10, par exemple le pare-chocs avant, et un autre usager présent sur la route, l’ADAS est alors en mesure de déterminer précisément cette distance. Par exemple, si l’ADAS a pour fonction d’agir sur un système de freinage du véhicule 10 en cas de risque de collision avec un autre usager de la route et que la distance séparant le véhicule 10 de ce même usager de la route diminue fortement, alors l’ADAS est en mesure de détecter ce rapprochement soudain et d’agir sur le système de freinage du véhicule 10 pour éviter un éventuel accident.

LaFIG. 3illustre un organigramme des différentes étapes d’un procédé d’apprentissage du modèle de prédiction de profondeur utilisé dans un procédé de détermination d’une profondeur d’un pixel d’une image, par exemple dans le procédé 2 de laFIG. 2, selon un exemple de réalisation particulier et non limitatif de la présente invention.

Le procédé d’apprentissage 3 est par exemple mis en œuvre par le dispositif embarqué dans le véhicule 10 mettant en œuvre le procédé de détermination d’une profondeur par le système de vision embarqué dans un véhicule ou par le dispositif 4 de laFIG. 4.

Dans une étape 31, une première image et une deuxième image sont reçues, la première image étant acquise par la première caméra 11 à un instant temporel d’acquisition et la deuxième image étant acquise par la deuxième caméra au même instant temporel d’acquisition.

Selon un exemple de réalisation particulier, les première image et deuxième image sont de même définition, c’est-à-dire qu’elles comportent un même nombre de pixels, ont un même nombre de pixels selon leur hauteur et un même nombre de pixels selon leur largeur.

Selon un autre exemple de réalisation particulier, les première image et deuxième image ne sont pas de même définition. Une étape additionnelle consiste alors à les redimensionner ou à les rogner pour obtenir une première image et une deuxième image de même définition.

Dans une étape 32, un ensemble de premiers couples de cartes de caractéristiques est généré par un extracteur de caractéristiques à partir des première et deuxième images, chaque premier couple de cartes de caractéristiques comprenant une première carte de caractéristiques associée à la première image et une deuxième carte de caractéristiques associée à la deuxième image et chaque premier couple de cartes de caractéristiques ayant une définition différente.

L’encadré en pointillés dans laFIG. 3intitulé ‘R’ regroupe les différentes étapes dans lesquelles sont traitées chaque premier couple de cartes de caractéristiques de l’ensemble de premiers couples de caractéristiques, c’est-à-dire que ces mêmes étapes sont appliquées autant de fois qu’il y a de premiers couples de cartes de caractéristiques.

Selon un exemple de réalisation particulier, parmi ces premiers couples de cartes de caractéristiques, un unique couple de caractéristiques a la même définition que les première et deuxième images. Les autres premiers couples de caractéristiques comprennent des première et deuxième cartes de caractéristiques de définition moindre, par exemple dont la définition est un sous-multiple de la définition des première et deuxième images.

Il est à noter que chaque première carte de caractéristiques d’un premier couple de cartes de caractéristiques a la même définition que la deuxième carte de caractéristiques de ce premier couple de cartes de caractéristiques.

Le nombre de premiers couples de caractéristiques est supérieur ou égal à deux, par exemple ce nombre est égal à 3, 5, 20 ou 64.

Un tel extracteur de caractéristiques (en anglais « feature extractor ») est connu de l’homme du métier et est par exemple présenté dans le document « Unifying Flow, Stereo and Depth Estimation » rédigé par Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Fisher Yu, Dacheng Tao et Andreas Geiger, publié en juillet 2023 ou encore dans le document « PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume » rédigé par Deqing Sun, Xiaodong Yang, Ming-Yu Liu et Jan Kautz, publié en juin 2018. Le dernier document cité présente un extracteur de caractéristiques avantageux qui offre une meilleure couverture de la plage de caractéristiques en proposant moins de candidats pour chaque niveau de la carte de caractéristiques mais plusieurs cartes de caractéristique aux différentes résolutions.

De telles caractéristiques sont par exemple représentatives d’informations relatives à une forme d’un objet dans une image et/ou une texture d’un ensemble de pixels d’une image et/ou une couleur d’un ensemble de pixels d’une image.

Dans une étape 33, pour chaque premier couple de cartes de caractéristiques, des directions associées à des pixels d’un ensemble de pixels de la première carte de caractéristiques, dits premiers pixels, et des directions associées à des pixels d’un ensemble de pixels de la deuxième carte de caractéristiques, dits deuxièmes pixels, sont prédites par un modèle de prédiction de direction à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques.

Un tel modèle de prédiction de direction est connu de l’homme du métier, il est notamment présenté dans le document « Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion » rédigé par Igor Vasiljevic, Vitor Guizilini, Rares Ambrus, Sudeep Pillai, Wolfram Burgard, Greg Shakhnarovich et Adrien Gaidon, publié en aout 2020. Ce modèle de prédiction de direction met en œuvre, par exemple, un réseau de neurones convolutifs différents de celui mis en œuvre par le modèle de prédiction de profondeur.

La direction prédite est représentative de la direction dans laquelle se situe le point de la scène tridimensionnelle correspondant au pixel ou à un ensemble de pixels d’une image acquise et dont le pixel de la carte de caractéristiques est l’image, la direction étant exprimée dans le référentiel de la caméra ayant fait l’acquisition de l’image à l’origine de la carte de caractéristiques. Ce modèle de prédiction de direction est notamment capable de prédire une direction associée à un pixel même lorsqu’une image présente une grande distorsion comme c’est le cas pour des images acquises par une caméra grand angle ou par une caméra « œil de poisson ». De plus, ce modèle de prédiction de direction est également utilisable pour une caméra non calibrée, et remplace, par exemple, une matrice intrinsèque correspondant à une caméra sténopé.

La direction prédite associée à un pixel d’une image acquise représente la direction suivant laquelle un rayon lumineux incident rencontre la caméra faisant l’acquisition d’une image, le rayon lumineux incident correspondant à ce même pixel.

Dans une étape 34, pour chaque premier couple de cartes de caractéristiques, des profondeurs associées aux premiers pixels et aux deuxièmes pixels sont prédites par le modèle de prédiction de profondeur à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques.

Un tel modèle de prédiction de profondeur, mis en œuvre par un réseau de neurones convolutif, est connu de l’homme du métier et est par exemple présenté dans le document « PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume ». Les profondeurs prédites sont alors associées aux pixels des première et deuxième cartes de caractéristiques, par exemple dans un canal supplémentaire, ou sont enregistrées dans une première et une deuxième cartes de profondeurs, la première carte de profondeurs étant associée à la première carte de caractéristiques et la deuxième carte de profondeurs étant associée à la deuxième carte de caractéristiques.

Il est à noter que le document « Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion » présente également un modèle de prédiction de profondeur utilisable dans cette invention.

Dans une étape 35, un deuxième couple de cartes de caractéristiques comprenant une troisième carte de caractéristiques et une quatrième carte de caractéristiques est associé à chaque premier couple de cartes de caractéristiques.

La troisième carte de caractéristiques est générée à partir :
• de la première carte de caractéristiques,
• des directions et des profondeurs associées aux premiers pixels, et
• de paramètres extrinsèques du système de vision stéréoscopique.

La quatrième carte de caractéristiques est générée à partir :
• de la deuxième carte de caractéristiques,
• des directions et des profondeurs associées aux deuxièmes pixels, et
• des paramètres extrinsèques du système de vision stéréoscopique.

La génération d’une troisième ou quatrième carte de caractéristiques à partir d’une première ou deuxième carte de caractéristiques consiste en la reprojection d’un pixel de la première ou deuxième carte de caractéristiques dans la scène tridimensionnelle sous forme d’un point dont les coordonnées sont exprimées dans le référentiel d’une caméra, puis à projeter ce point dans le plan image d’une autre caméra du système de vision, de manière à obtenir une carte de caractéristiques correspondant à une vue de la scène tridimensionnelle depuis le point de vue de l’autre caméra. Le plan image d’une caméra correspond à un plan défini dans le référentiel de la caméra, normal à l’axe optique de la caméra et situé à la distance focale de la caméra. Ainsi, la troisième carte de caractéristiques générée à partir de la première carte de caractéristiques est comparable à la deuxième carte de caractéristiques. De manière similaire, la quatrième carte de caractéristiques générée à partir de la deuxième carte de caractéristiques est comparable à la première carte de caractéristiques. Les champs de vision des caméras n’étant pas confondus et des objets pouvant masquer d’autres objets de la scène, les carte de caractéristiques générées ne sont pas identiques à des carte de caractéristiques acquises. De plus, la prédiction des profondeurs et des directions, tout comme les modèles utilisés pour générer les carte de caractéristiques, ne sont pas exempts d’erreurs. Ainsi, la comparaison d’une carte de caractéristiques générée à un carte de caractéristiques acquise permet d’évaluer la pertinence des différents modèles employés.

Selon un exemple de réalisation particulier, les troisième et quatrième cartes de caractéristiques sont générées à l’aide de la fonction suivante :

Avec :
• un pixel d’une carte de caractéristiques générée correspondant à la troisième carte de caractéristiques, respectivement la quatrième carte de caractéristiques,
• une fonction pour passer de coordonnées homogènes à des coordonnées pixels en supprimant une dimension d’un vecteur,
• un modèle de prédiction de direction associé à la deuxième caméra 12, respectivement à la première caméra 11,
• un modèle de prédiction de direction associé à la première caméra 11, respectivement à la deuxième caméra 12,
• une matrice extrinsèque du système de vision stéréoscopique,
• une fonction de projection dans la scène tridimensionnelle d’un pixel en fonction de sa profondeur, et
• est une profondeur associée à un pixel de la première carte de caractéristiques, respectivement de la deuxième carte de caractéristiques.

A noter que la matrice extrinsèque n’est pas la même pour la génération des deux images, en effet, une première matrice extrinsèque permet de passer d’un référentiel associé à la première caméra 11 à un référentiel associé à la deuxième caméra 12 lors de la génération de la troisième carte de caractéristiques, tandis qu’une deuxième matrice extrinsèque permet de passer d’un référentiel associé à la deuxième caméra 12 à un référentiel associé à la première caméra 11 lors de la génération de la quatrième carte de caractéristiques.

Les projections et reprojections sont des fonctions inverses obtenues à partir du modèle de prédiction de direction et sont fonction d’une profondeur, un tel modèle de projection est notamment présenté dans le document « Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion ».

Dans une étape 36, pour chaque premier couple de cartes de caractéristiques, une erreur de perte est déterminée à partir d’une première erreur déterminée pour chaque premier pixel par comparaison du chaque premier pixel de la première carte de caractéristiques à un pixel de la quatrième carte de caractéristiques correspondant au chaque premier pixel, c’est-à-dire ayant les mêmes coordonnées, et d’une deuxième erreur déterminée pour chaque deuxième pixel par comparaison du chaque deuxième pixel de la deuxième carte de caractéristiques à un pixel de la troisième carte de caractéristiques correspondant au chaque deuxième pixel, c’est-à-dire ayant les mêmes coordonnées.

Selon un exemple de réalisation particulier, des valeurs colorimétriques sont associées à chaque pixel des première, deuxième, troisième et quatrième cartes de caractéristiques. A noter que dans le cas où une carte de caractéristiques présente la même définition que l’image à laquelle elle correspond, aussi appelée image source, alors les valeurs colorimétriques d’un pixel de la carte de caractéristiques sont identiques à celles du pixel lui correspondant dans l’image. Dans le cas où la définition de la carte de caractéristiques est inférieure à la définition de l’image source, alors la valeur colorimétrique d’un pixel de la carte de caractéristiques est déterminée en fonction de valeurs colorimétriques de plusieurs pixels lui correspondant dans l’image source.

Selon une première variante de réalisation, les première et deuxième erreurs sont des erreurs photométriques (en anglais « photometric error ») telles que présentées dans le document « Digging Into Self-Supervised Monocular Depth Estimation » de Clément Godard, Oisin Mac Aodha, Michael Firman et Gabriel Brostow publié en août 2019 et sont déterminées respectivement par la fonction suivante :

Avec :
• la première erreur notée , respectivement la deuxième erreur notée , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• une valeur colorimétrique du pixel dans la première carte de caractéristiques, respectivement deuxième carte de caractéristiques,
• une valeur colorimétrique du pixel dans la quatrième carte de caractéristiques, respectivement troisième carte de caractéristiques,
• SSIM une fonction qui prend en compte une structure locale, et
• un facteur de pondération dépendant notamment du type d’environnement dans lequel évolue le véhicule 10.

Selon une deuxième variante de réalisation, l’erreur de perte est déterminée en outre à partir d’une erreur de construction déterminée par la fonction suivante :

Avec :
• l’erreur de construction pour un pixel p de la troisième carte de caractéristiques, respectivement l’erreur de construction pour un pixel p de la quatrième carte de caractéristiques ,
• est une profondeur d’un pixel obtenue de la troisième carte de profondeurs, respectivement obtenue de la quatrième carte de profondeur ;
• est une matrice de paramètres ;
• est l’ordre d’un gradient de lissage ;
• une norme L1 des gradients de profondeur du second ordre est calculée avec =1 , et =2 ;
• et sont les dimensions des cartes de caractéristiques ;
• est un hyperparamètre dépendant de l’environnement dans lequel évolue le véhicule 10 ; et
• est une valeur colorimétrique du pixel dans la troisième carte de caractéristiques, respectivement quatrième carte de caractéristiques.

Cette deuxième fonction est généralement utilisée pour traiter la discontinuité à la bordure des objets (en anglais « edge aware smoothness »).

L’erreur de perte est ainsi définie, par exemple, à partir des erreurs photométriques et erreurs de reconstruction précédemment définies.

Selon un exemple de réalisation particulier, l’erreur de perte est déterminée par la fonction suivante :

Avec :
• l’erreur de perte pour un premier couple de cartes de caractéristiques,
• la première erreur pour un pixel , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• la deuxième erreur pour le pixel ,
• l’erreur de construction pour un pixel de la troisième carte de caractéristiques, et
• l’erreur de construction pour un pixel de la quatrième carte de caractéristiques.

Dans une étape 37, le modèle de prédiction de profondeur est appris par minimisation d’une erreur globale déterminée à partir des erreurs de perte déterminées pour l’ensemble de premiers couples de cartes de caractéristiques, c’est-à-dire pour l’ensemble des définitions appliquées aux cartes de caractéristiques.

Selon un exemple de réalisation particulier, l’erreur globale est la somme des erreurs de perte, déterminée par la fonction suivante :

Avec :
• l’erreur globale,
• une erreur de perte pour un premier couple de cartes de caractéristiques , et
• une somme sur l’ensemble de premiers couples de cartes de caractéristiques.

L’apprentissage du modèle de prédiction de profondeur consiste en l’ajustement de paramètres d’entrée du réseau de neurones convolutif afin de minimiser l’erreur de perte précédemment calculée.

Un objet occlus ou non visible dans le champ de vision d’une caméra et visible dans le champ de vision de l’autre caméra n’impacte pas l’erreur de perte grâce à la fonction de minimisation rendant insensible l’erreur de perte, et donc l’erreur globale, à l’occlusion. Ainsi, le modèle de prédiction de profondeur utilisé pour la prédiction de profondeur d’un pixel d’une image acquise par l’une des caméras du système de vision stéréoscopique est fiabilisé grâce à ce procédé d’apprentissage.

L’intérêt d’utiliser plusieurs résolutions de cartes de caractéristiques permet d’éviter des « trous », c’est-à-dire d’avoir des pixels dans la carte de caractéristiques de résolution égale à celle des images acquises sans profondeur prédite. En effet, grâce aux différentes définitions, il est toujours possible de prédire une profondeur pour un pixel d’une carte de caractéristiques. Cette architecture permet de trouver un bon compromis entre le coût de calcul et la plage de caractéristiques couverte par ce modèle. Par les cartes de caractéristiques aux différentes résolutions, le modèle est davantage capable de couvrir les caractéristiques de différentes grandeurs.

Cet apprentissage est réalisé à partir de données acquises par le système de vision embarqué et ne nécessite donc pas de données annotées par un autre système embarqué ou de stockage d’une bibliothèque d’images d’apprentissage. De plus, les données d’apprentissage sont représentatives des données reçues lorsque le système est en fonctionnement ou en production, en effet les données d’apprentissage sont représentatives d’environnements réels dans lesquels évolue ou se déplace le véhicule embarquant le système de vision stéréoscopique, ces données d’apprentissage sont donc particulièrement pertinentes.

LaFIG. 4illustre schématiquement un dispositif 4 configuré pour apprendre un modèle de prédiction de profondeur par un système de vision embarqué dans un véhicule, selon un exemple de réalisation particulier et non limitatif de la présente invention. Le dispositif 4 correspond par exemple à un dispositif embarqué dans le premier véhicule 10, par exemple un calculateur associé au système de vision stéréoscopique.

Le dispositif 4 est par exemple configuré pour la mise en œuvre des opérations décrites en regard des figures 1 et 4 et/ou étapes décrites en regard des figures 2 et 3. Des exemples d’un tel dispositif 4 comprennent, sans y être limités, un équipement électronique embarqué tel qu’un ordinateur de bord d’un véhicule, un calculateur électronique tel qu’une UCE (« Unité de Commande Electronique »), un téléphone intelligent, une tablette, un ordinateur portable. Les éléments du dispositif 4, individuellement ou en combinaison, peuvent être intégrés dans un unique circuit intégré, dans plusieurs circuits intégrés, et/ou dans des composants discrets. Le dispositif 4 peut être réalisé sous la forme de circuits électroniques ou de modules logiciels (ou informatiques) ou encore d’une combinaison de circuits électroniques et de modules logiciels.

Le dispositif 4 comprend un (ou plusieurs) processeur(s) 40 configurés pour exécuter des instructions pour la réalisation des étapes du procédé et/ou pour l’exécution des instructions du ou des logiciels embarqués dans le dispositif 4. Le processeur 40 peut inclure de la mémoire intégrée, une interface d’entrée/sortie, et différents circuits connus de l’homme du métier. Le dispositif 4 comprend en outre au moins une mémoire 41 correspondant par exemple à une mémoire volatile et/ou non volatile et/ou comprend un dispositif de stockage mémoire qui peut comprendre de la mémoire volatile et/ou non volatile, telle que EEPROM, ROM, PROM, RAM, DRAM, SRAM, flash, disque magnétique ou optique.

Le code informatique du ou des logiciels embarqués comprenant les instructions à charger et exécuter par le processeur est par exemple stocké sur la mémoire 41.

Selon différents exemples de réalisation particuliers et non limitatifs, le dispositif 4 est couplé en communication avec d’autres dispositifs ou systèmes similaires (par exemple d’autres calculateurs) et/ou avec des dispositifs de communication, par exemple une TCU (de l’anglais « Telematic Control Unit » ou en français « Unité de Contrôle Télématique »), par exemple par l’intermédiaire d’un bus de communication ou au travers de ports d’entrée / sortie dédiés.

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 comprend un bloc 42 d’éléments d’interface pour communiquer avec des dispositifs externes. Les éléments d’interface du bloc 42 comprennent une ou plusieurs des interfaces suivantes :
- interface radiofréquence RF, par exemple de type Wi-Fi® (selon IEEE 802.11), par exemple dans les bandes de fréquence à 2,4 ou 5 GHz, ou de type Bluetooth® (selon IEEE 802.15.1), dans la bande de fréquence à 2,4 GHz, ou de type Sigfox utilisant une technologie radio UBN (de l’anglais Ultra Narrow Band, en français bande ultra étroite), ou LoRa dans la bande de fréquence 868 MHz, LTE (de l’anglais « Long-Term Evolution » ou en français « Evolution à long terme »), LTE-Advanced (ou en français LTE-avancé) ;
- interface USB (de l’anglais « Universal Serial Bus » ou « Bus Universel en Série » en français) ;
interface HDMI (de l’anglais « High Definition Multimedia Interface », ou « Interface Multimedia Haute Definition » en français) ;
- interface LIN (de l’anglais « Local Interconnect Network », ou en français « Réseau interconnecté local »).

Selon un autre exemple de réalisation particulier et non limitatif, le dispositif 4 comprend une interface de communication 43 qui permet d’établir une communication avec d’autres dispositifs (tels que d’autres calculateurs du système embarqué) via un canal de communication 430. L’interface de communication 43 correspond par exemple à un transmetteur configuré pour transmettre et recevoir des informations et/ou des données via le canal de communication 430. L’interface de communication 43 correspond par exemple à un réseau filaire de type CAN (de l’anglais « Controller Area Network » ou en français « Réseau de contrôleurs »), CAN FD (de l’anglais « Controller Area Network Flexible Data-Rate » ou en français « Réseau de contrôleurs à débit de données flexible »), FlexRay (standardisé par la norme ISO 17458) ou Ethernet (standardisé par la norme ISO/IEC 802-3).

Selon un exemple de réalisation particulier et non limitatif, le dispositif 4 peut fournir des signaux de sortie à un ou plusieurs dispositifs externes, tels qu’un écran d’affichage 440, tactile ou non, un ou des haut-parleurs 450 et/ou d’autres périphériques 460 via respectivement les interfaces de sortie 44, 45, 46. Selon une variante, l’un ou l’autre des dispositifs externes est intégré au dispositif 4.

Bien entendu, la présente invention ne se limite pas aux exemples de réalisation décrits ci-avant mais s’étend à un procédé de détermination de profondeur d’un pixel d’une image acquise par un système de vision, et/ou de mesurage d’une distance séparant un objet d’un véhicule embarquant un système de vision, la profondeur et/ou la distance étant prédite et/ou mesurée via un modèle de prédiction de profondeur appris selon le procédé d’apprentissage décrit ci-dessus, qui inclurait des étapes secondaires sans pour autant sortir de la portée de la présente invention. Il en serait de même d’un dispositif configuré pour la mise en œuvre d’un tel procédé.

La présente invention concerne également un véhicule, par exemple automobile ou plus généralement un véhicule autonome à moteur terrestre, comprenant le dispositif 4 de laFIG. 4.

Claims

Procédé d’apprentissage d’un modèle de prédiction de profondeur mis en œuvre par un réseau de neurones convolutif associé à un système de vision stéréoscopique embarqué dans un véhicule (10), le système de vision stéréoscopique comprenant une première caméra (11) et une deuxième caméra (12) disposées de manière à acquérir chacune une image d’une scène tridimensionnelle selon un point de vue différent,
ledit procédé étant mis en œuvre par au moins un processeur, et étant caractérisé en ce qu’il comprend les étapes suivantes :
- réception (31) d’une première image et d’une deuxième image acquises par respectivement la première caméra (11) et la deuxième caméra (12) à un même instant temporel d’acquisition ;
- génération (32) d’un ensemble de premiers couples de cartes de caractéristiques par un extracteur de caractéristiques à partir des première et deuxième images, chaque premier couple de cartes de caractéristiques comprenant une première carte de caractéristiques associée à la première image et une deuxième carte de caractéristiques associée à la deuxième image et chaque premier couple de cartes de caractéristiques ayant une définition différente ;
- prédiction (33), pour chaque premier couple de cartes de caractéristiques, de directions associées à des pixels d’un ensemble de pixels de la première carte de caractéristiques, dits premiers pixels, et de directions associées à des pixels d’un ensemble de pixels de la deuxième carte de caractéristiques, dits deuxièmes pixels, par un modèle de prédiction de direction à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques ;
- prédiction (34), pour chaque premier couple de cartes de caractéristiques, de profondeurs associées aux premiers pixels et aux deuxièmes pixels par ledit modèle de prédiction de profondeur à partir respectivement de la première carte de caractéristiques et de la deuxième carte de caractéristiques ;
- association (35), à chaque premier couple de cartes de caractéristiques, d’un deuxième couple de cartes de caractéristiques comprenant une troisième carte de caractéristiques et une quatrième carte de caractéristiques,
la troisième carte de caractéristiques étant générée à partir de la première carte de caractéristiques, des directions et des profondeurs associées aux premiers pixels et de paramètres extrinsèques du système de vision stéréoscopique, et
la quatrième carte de caractéristiques étant générée à partir de la deuxième carte de caractéristiques, des directions et des profondeurs associées aux deuxièmes pixels et des paramètres extrinsèques du système de vision stéréoscopique ;
- détermination (36), pour chaque premier couple de cartes de caractéristiques, d’une erreur de perte à partir d’une première erreur déterminée pour chaque premier pixel par comparaison dudit chaque premier pixel de la première carte de caractéristiques à un pixel de la quatrième carte de caractéristiques correspondant audit chaque premier pixel et d’une deuxième erreur déterminée pour chaque deuxième pixel par comparaison dudit chaque deuxième pixel de la deuxième carte de caractéristiques à un pixel de la troisième carte de caractéristiques correspondant audit chaque deuxième pixel ;
- apprentissage (37) du modèle de prédiction de profondeur par minimisation d’une erreur globale déterminée à partir des erreurs de perte déterminées pour l’ensemble de premiers couples de cartes de caractéristiques.
Procédé selon la revendication 1, pour lequel l’erreur globale est la somme des erreurs de perte, déterminée par la fonction suivante :

Avec :
• l’erreur globale,
• une erreur de perte pour un premier couple de cartes de caractéristiques , et
• une somme sur l’ensemble de premiers couples de cartes de caractéristiques.
Procédé selon la revendication 1 ou 2, pour lequel des valeurs colorimétriques sont associées à chaque pixel des première, deuxième, troisième et quatrième cartes de caractéristiques.
Procédé selon la revendication 3, pour lequel la première erreur, respectivement deuxième erreur, est déterminée par la fonction suivante :

Avec :
• la première erreur notée , respectivement la deuxième erreur notée , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• une valeur colorimétrique du pixel dans la première carte de caractéristiques, respectivement deuxième carte de caractéristiques,
• une valeur colorimétrique du pixel dans la quatrième carte de caractéristiques, respectivement troisième carte de caractéristiques,
• SSIM une fonction qui prend en compte une structure locale, et
• un facteur de pondération dépendant notamment du type d’environnement dans lequel évolue le véhicule (10).
Procédé selon l’une des revendications 3 à 4, pour lequel l’erreur de perte est déterminée en outre à partir d’une erreur de construction déterminée par la fonction suivante :

Avec :
• l’erreur de construction pour un pixel p de la troisième carte de caractéristiques, respectivement l’erreur de construction pour un pixel p de la quatrième carte de caractéristiques ,
• est une profondeur d’un pixel obtenue de la troisième carte de profondeurs, respectivement obtenue de la quatrième carte de profondeur ;
• est une matrice de paramètres ;
• est l’ordre d’un gradient de lissage ;
• une norme L1 des gradients de profondeur du second ordre est calculée avec =1 , et =2 ;
• et sont les dimensions des cartes de caractéristiques ;
• est un hyperparamètre dépendant de l’environnement dans lequel évolue le véhicule (10) ; et
• est une valeur colorimétrique du pixel dans la troisième carte de caractéristiques, respectivement quatrième carte de caractéristiques.
Procédé selon la revendication 5, pour lequel l’erreur de perte est déterminée par la fonction suivante :

Avec :
• l’erreur de perte,
• la première erreur pour un pixel , étant un pixel défini par ses coordonnées dans une carte de caractéristiques,
• la deuxième erreur pour le pixel ,
• l’erreur de construction pour un pixel de la troisième carte de caractéristiques, et
• l’erreur de construction pour un pixel de la quatrième carte de caractéristiques.
Procédé selon l’une des revendications 1 à 3, pour lequel les troisième et quatrième cartes de caractéristiques sont générées à l’aide de la fonction suivante :

Avec :
• un pixel d’une carte de caractéristiques générée correspondant à la troisième carte de caractéristiques, respectivement la quatrième carte de caractéristiques,
• une fonction pour passer de coordonnées homogènes à des coordonnées pixels en supprimant une dimension d’un vecteur,
• un modèle de prédiction de direction associé à la deuxième caméra (12), respectivement à la première caméra (11),
• un modèle de prédiction de direction associé à la première caméra (11), respectivement à la deuxième caméra (12),
• une matrice extrinsèque du système de vision stéréoscopique,
• une fonction de projection dans la scène tridimensionnelle d’un pixel en fonction de sa profondeur, et
• est une profondeur associée à un pixel de la première carte de caractéristiques, respectivement de la deuxième carte de caractéristiques.
Programme d’ordinateur comportant des instructions pour la mise en œuvre du procédé selon l’une quelconque des revendications précédentes, lorsque ces instructions sont exécutées par un processeur.
Dispositif (4) configuré pour apprendre un modèle de prédiction de profondeur par un système de vision embarqué dans un véhicule (10), ledit dispositif (4) comprenant une mémoire (41) associée à au moins un processeur (40) configuré pour la mise en œuvre des étapes du procédé selon l’une quelconque des revendications 1 à 7.
Véhicule (10) comprenant le dispositif (4) selon la revendication 9.