FR3152612A1

FR3152612A1 - Conversion de traçabilités de données

Info

Publication number: FR3152612A1
Application number: FR2309060A
Authority: FR
Inventors: Philippe Wagner
Original assignee: Ab Initio Technology LLC
Current assignee: Ab Initio Technology LLC
Priority date: 2023-08-29
Filing date: 2023-08-29
Publication date: 2025-03-07
Also published as: WO2025049234A1

Abstract

La présente divulgation concerne un procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, le procédé comprenant : l’obtention d’une première traçabilité de données spécifiant des relations entre des composants physiques d’une pluralité de composants physiques ; la réception d’une identification d’une partie de la première traçabilité de données ; la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre des deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données. Un support lisible par ordinateur correspondant, un système de traitement de données correspondant et un programme informatique correspondant sont également décrits. Figure pour l’abrégé : Fig. 1

Description

CONVERSION DE TRAÇABILITÉS DE DONNÉES

La présente invention concerne un procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, ainsi qu’un support lisible par ordinateur correspondant, un appareil de traitement de données correspondant et un programme informatique correspondant.

Arrière-plan

Des environnements différents, tels que des groupes, des organisations ou des systèmes différents, peuvent avoir des normes différentes pour retracer l’origine de données. Lors de l’échange de données entre deux environnements, la traçabilité de données produites dans l’un des environnements est souvent perdue lors de l’importation des données dans l’autre environnement.

Les approches conventionnelles de la maintenance de la traçabilité de données à travers des environnements ne sont généralement pas fiables.

La présente invention a donc pour objet de fournir des moyens permettant une maintenance plus fiable d’une traçabilité de données.

Cet objet est atteint
par un procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, comprenant :
l’obtention d’une première traçabilité de données spécifiant des relations entre les composants physiques d’une pluralité de composants physiques ;
la réception d’une identification d’une partie de la première traçabilité de données ;
la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre les deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données,
par un support lisible par ordinateur comprenant des instructions qui, lorsqu’elles sont exécutées par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’invention,
par un système de traitement de données comprenant des moyens pour mettre en œuvre le procédé selon l’invention, et
par un programme informatique comprenant des instructions qui, lorsque le programme informatique est exécuté par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’invention. Certains des modes de réalisation préférés sont décrits dans la description et dans les figures.

Les inventeurs ont reconnu que les approches conventionnelles de la maintenance de la traçabilité de données entre des environnements source et cible impliquent la spécification manuelle d’une traçabilité cible pour l’environnement cible, que l’on espère conforme à une traçabilité de données source de l’environnement source. Cela représente non seulement une charge pour l’utilisateur, mais crée le risque que les traçabilités source et cible soient incohérentes ou le deviennent au fil du temps. C’est pourquoi les inventeurs ont mis au point des techniques permettant de générer par ordinateur (de manière automatisée) une traçabilité de données cible avec un minimum d’informations de la part de l’utilisateur. Les inventeurs ont également reconnu que la génération de la traçabilité de données cible à partir de la traçabilité de données source permet une génération plus précise et plus fiable de la traçabilité de données cible en éliminant les divergences entre la traçabilité de données cible et la traçabilité de données source. Ceci est particulièrement utile lorsque l’on travaille sur des données dans des environnements source et cible et/ou lorsque l’on établit un échange de données entre l’environnement source ayant la traçabilité de données source et l’environnement cible ayant la traçabilité de données cible. Un environnement peut être défini par un groupe de personnes, une organisation, un système informatique ou un réseau. Toutefois, les technologies décrites ici peuvent également être utilisées à d’autres fins.

En conséquence, selon un aspect général de l’invention, un procédé mis en œuvre par ordinateur est fourni pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, comprenant : l’obtention d’une première traçabilité de données spécifiant des relations entre les composants physiques d’une pluralité de composants physiques ; la réception d’une identification d’une partie de la première traçabilité de données ; la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre les deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données. Dans l’ensemble, cela élimine la charge de spécifier manuellement la deuxième traçabilité de données et élimine les divergences entre la deuxième traçabilité de données et la première traçabilité de données, et peut être utilisé pour maintenir la traçabilité de données de manière précise et fiable.

En général, chaque composant physique comprend un ensemble de données et/ou une transformation. Chaque ensemble de données peut comprendre un ou plusieurs éléments de données. Chaque ensemble de données peut être un tableau, chaque ligne ou colonne étant un élément de données de l’ensemble de données.

Selon un aspect préféré de la présente invention, l’identification de la partie de la première traçabilité de données comprend l’identification d’un premier composant physique de la pluralité de composants physiques qui indique un point de départ pour la deuxième traçabilité de données et l’identification d’un deuxième composant physique de la pluralité de composants physiques qui indique un point d’arrivée pour la deuxième traçabilité de données. Cela permet d’effectuer une sélection précise d’une partie de la première traçabilité de données pour la génération de la deuxième traçabilité de données. Cela permet également d’exclure les parties de la première traçabilité de données qui ne sont pas intéressantes lors de la génération de la deuxième traçabilité de données, ce qui réduit la consommation de ressources informatiques pour la génération de la deuxième traçabilité de données.

Selon un aspect préféré de la présente invention, la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données comprend la génération de la deuxième traçabilité de données en parcourant la première traçabilité de données du point de départ au point d’arrivée. Les inventeurs ont reconnu que le parcours est un moyen particulièrement précis et efficace sur le plan informatique de générer la deuxième traçabilité de données tout en conservant de manière fiable les relations entre les composants.

Selon un aspect préféré de la présente invention, le procédé peut comprendre : en réponse à la détection d’un changement dans la première traçabilité de données, la mise à jour de la deuxième traçabilité de données générée, ou la génération d’une nouvelle deuxième traçabilité de données, en fonction du changement détecté. De préférence, chaque deuxième composant de la pluralité de deuxièmes composants est associé par un lien d’identification à un composant physique correspondant de l’au moins une partie des composants physiques de la partie de la première traçabilité de données, ce lien d’identification pouvant conserver la preuve de l’origine d’un ensemble de données. Le lien d’identification permet d’éliminer efficacement des divergences entre la deuxième traçabilité de données et la première traçabilité de données et de mettre à jour ou de générer automatiquement la deuxième traçabilité de données en cas de modification de la première traçabilité de données sous-jacente.

Selon un aspect préféré de la présente invention, la représentation graphique de la partie de la deuxième traçabilité de données générée comprend des indicateurs graphiques de deuxièmes composants de la pluralité de deuxièmes composants, de sorte que les indicateurs graphiques sont disposés dans la représentation graphique de la partie de la deuxième traçabilité de données générée d’une manière conforme aux relations entre la pluralité de deuxièmes composants. La représentation graphique de la partie de la deuxième traçabilité de données générée peut inclure des liens reliant les indicateurs graphiques des deuxièmes composants de la pluralité de deuxièmes composants, le procédé pouvant en outre comprendre : la réception d’une sélection par l’utilisateur de l’un des liens ; et, sur la base du lien sélectionné, la génération d’une troisième traçabilité de données spécifiant des relations entre les composants physiques de la pluralité de composants physiques qui sont associés aux deuxièmes composants dont les indicateurs graphiques sont reliés par le lien sélectionné. Par conséquent, les informations relatives à la traçabilité de données spécifiées par la première traçabilité de données sont directement accessibles par l’intermédiaire la deuxième traçabilité de données, même si l’on utilise la deuxième traçabilité de données au lieu de la première traçabilité de données. En d’autres termes, il est possible d’approfondir les composants physiques et leurs relations par l’intermédiaire de la deuxième traçabilité de données. La troisième traçabilité de données peut être une partie de la première traçabilité de données, de sorte que l’on peut approfondir la première traçabilité de données par l’intermédiaire de la deuxième traçabilité de données.

Selon un aspect préféré de la présente invention, le procédé comprend l’exécution répétée de la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données ; la comparaison d’une deuxième traçabilité de données nouvellement générée avec une deuxième traçabilité de données précédemment générée lors de l’exécution répétée, comprenant la détermination de l’existence d’une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée ; et l’émission d’un message indiquant l’existence d’une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée. En conséquence, une divergence est signalée à l’utilisateur, comme une indication d’une condition d’erreur potentielle dans la collecte des première et deuxième traçabilités de données. En particulier, un changement dans la première traçabilité de données au fil du temps peut être identifié en suivant des changements de la deuxième traçabilité de données au fil du temps.

Selon un aspect préféré de la présente invention, le procédé comprend l’obtention d’une quatrième traçabilité de données spécifiant des relations entre des composants physiques d’une pluralité de composants physiques ; la réception d’une identification d’une partie de la quatrième traçabilité de données ; la génération d’une cinquième traçabilité de données à partir de la partie identifiée de la quatrième traçabilité de données, la cinquième traçabilité de données spécifiant des relations entre des cinquièmes composants d’une pluralité de cinquièmes composants, les cinquièmes composants de la pluralité de cinquièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la quatrième traçabilité de données ; la comparaison de la cinquième traçabilité de données à la deuxième traçabilité de données, comprenant la détermination s’il existe une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données ; et l’émission en sortie s’il existe une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données. En conséquence, une divergence est signalée à l’utilisateur, comme une indication d’une condition d’erreur potentielle dans la collecte des première et deuxième traçabilités de données. En particulier, une divergence entre la première traçabilité de données et la quatrième traçabilité de données peut être identifiée en comparant la deuxième traçabilité de données avec la cinquième traçabilité de données.

En général, chaque deuxième et/ou cinquième composant est une représentation d’un ensemble de données et/ou d’une transformation du composant physique correspondant. Le deuxième et/ou le cinquième composant peuvent être associés à une signification sémantique du composant physique correspondant, conformément à un dictionnaire associant des composants physiques à des significations sémantiques correspondantes.

Selon un aspect préféré de la présente invention, la première et/ou la troisième traçabilité de données est générée au moins en partie en effectuant (a) une analyse du code source d’au moins un programme informatique configuré pour accéder à au moins une partie de la pluralité de composants physiques afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé ; et/ou (b) une analyse des informations obtenues pendant l’exécution de l’au moins un programme informatique, comprenant l’analyse d’un ou plusieurs journaux générés pendant l’exécution du programme informatique afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé. Grâce à ces moyens, la première et/ou la troisième traçabilité de données peuvent être générées de manière efficace et complète.

Selon un aspect préféré de la présente invention, avant de générer la deuxième et/ou la cinquième traçabilité de données à partir de la partie identifiée de la première et/ou de la troisième traçabilité de données, le procédé comprend le prétraitement des composants physiques de la partie identifiée de la première et/ou de la troisième traçabilité de données, la génération de la deuxième et/ou de la cinquième traçabilité de données à partir de la partie identifiée de la première et/ou de la troisième traçabilité de données étant exécutée sur la base d’un résultat du prétraitement. De préférence, le prétraitement comprend : l’identification d’un flux de commande et/ou d’une traçabilité de données interne associée à un ou plusieurs composants physiques de la partie de la première et/ou de la troisième traçabilité de données et l’exclusion du flux de commande et/ou de la traçabilité de données interne lors de la génération de la deuxième et/ou de la cinquième traçabilité de données. Le flux de commande peut être représenté par les données qui n’appartiennent pas à la première et/ou à la troisième traçabilité de données mais qui jouent un rôle dans le processus de sélection d’un enregistrement de données associé à un composant physique : clés d’entrée dans des jointures relationnelles, clause WHERE dans des requêtes SQL et/ou conditions dans des langages de programmation. Le flux de commande peut être la somme de tous les participants aux données qui influenceront indirectement le résultat. La traçabilité de données interne, une étape intermédiaire à l’intérieur d’un composant. L’abandon du flux de commande et/ou de la traçabilité de données internes réduira le nombre d’interactions et donc le temps et les ressources nécessaires à la génération de la deuxième traçabilité de données. De préférence, lors de la génération de la deuxième et/ou de la cinquième traçabilité de données, un filtre peut être ajouté pour éliminer des parties de la première traçabilité de données qui ne sont pas intéressantes, afin de réduire la quantité de données à traiter et à stocker en association avec la deuxième et/ou la cinquième traçabilité de données. La deuxième ou la cinquième traçabilité de données peut être un résumé des seules parties pertinentes de la première traçabilité de données, du point de départ au point d’arrivée.

Selon un aspect préféré de la présente invention, le procédé comprend la réception d’une sélection par l’utilisateur d’une partie d’une deuxième traçabilité de données générée, et l’affichage d’informations plus détaillées sur la partie sélectionnée, telles que le nombre de passages à travers un composant, le nombre de transformations impliquées jusqu’à la génération d’un ensemble de données particulier, le nombre d’entrées et/ou de sorties d’un composant, ou d’autres informations de ce type.

Selon un aspect préféré de la présente invention, la pluralité de deuxièmes composants de la deuxième traçabilité de données générée peut inclure des deuxièmes composants créés manuellement en plus des deuxièmes composants générés par l’ordinateur.

Des supports informatiques (de stockage), de préférence de type non transitoire, et des appareils de traitement de données ou des systèmes informatiques peuvent être fournis qui correspondent aux procédés décrits dans le présent document.

En d’autres termes, les inventeurs ont mis au point des techniques qui permettent de conserver de manière efficace et fiable la traçabilité de données lors de la génération d’une traçabilité de données cible. Des moyens sont fournis pour permettre une génération plus précise et plus fiable de la traçabilité de données cible tout en maintenant une faible consommation de ressources informatiques. Les divergences entre la traçabilité de données cible et une traçabilité de données source sont éliminées et des changements entre les traçabilités de données source et cible sont identifiés. Ceci est particulièrement utile pour établir un échange de données entre un environnement source (dynamique) ayant la traçabilité de données source et l’environnement cible ayant la traçabilité de données cible. En outre, des moyens sont fournis pour permettre d’approfondir la traçabilité de données cible vers les composants physiques associés à la traçabilité de données source.

D’autres caractéristiques et avantages ressortiront de la description qui suit et le résumé ci-dessus ne vise pas à limiter la portée de l’invention.

Divers aspects et modes de réalisation seront décrits en référence aux figures suivantes. Il convient de noter que les figures ne sont pas nécessairement dessinées à l’échelle. Les éléments figurant dans de multiples figures sont indiqués par le même numéro de référence dans toutes les figures où ils apparaissent.

FIG. 1LaFIG. 1est un schéma fonctionnel d’un environnement informatique illustratif, dans lequel certains modes de réalisation de la technologie décrite ici peuvent fonctionner.

FIG. 2LaFIG. 2illustre une représentation graphique d’une traçabilité de données, conformément à certains modes de réalisation de la technologie décrite ici.

FIG. 3LaFIG. 3illustre une représentation graphique d’une traçabilité de données, conformément à certains modes de réalisation de la technologie décrite ici.

FIG. 4LaFIG. 4est un diagramme illustrant une association entre un exemple de deuxième traçabilité de do3nnées 420 et un exemple de première traçabilité de données 400, conformément à certains modes de réalisation de la technologie décrite ici.

FIG. 5LaFIG. 5présente une interface utilisateur graphique illustrant graphiquement une association entre un exemple de deuxième traçabilité de données 520 et un exemple de première traçabilité de données 500, conformément à certains modes de réalisation de la technologie décrite dans le présent document.

FIG. 6LaFIG. 6illustre des relations exemplaires entre des ensembles de données, des éléments de données, des transformations et des éléments de données de transformation, conformément à certains modes de réalisation de la technologie décrite ici.

FIG. 7LaFIG. 7illustre des relations exemplaires entre des ensembles de données, des éléments de données, des transformations, des éléments de données de transformation, l’application et le système, conformément à certains modes de réalisation de la technologie décrite ici.

FIG. 8àFIG. 8Les figures 8A-8E illustrent un procédé exemplaire mise en œuvre par ordinateur pour générer une deuxième traçabilité de données à partir de la première traçabilité de données et approfondir la première traçabilité de données en générant une troisième traçabilité de données identique à une partie de la première traçabilité de données, conformément à certains modes de réalisation de la technologie décrite dans le présent document.

LaFIG. 9illustre une interface utilisateur graphique conforme à certains modes de réalisation de la technologie décrite ici.

Selon l’invention, une première traçabilité de données est utilisée pour générer une deuxième traçabilité de données à partir de la première traçabilité de données.

La traçabilité de données est une structure de données qui décrit des relations entre des composants d’une pluralité de composants, où chaque composant inclut ou représente un ou plusieurs ensembles de données et/ou une ou plusieurs transformations. Chaque ensemble de données peut comprendre un ou plusieurs éléments de données. En particulier, la traçabilité de données décrit le cycle de vie des ensembles de données et de leurs éléments de données auxquels les transformations sont appliquées lorsqu’ils sont traités par un système de traitement de données. Des informations sur la traçabilité de données pour un ensemble de données donné comprennent un identifiant d’un ou plusieurs ensembles de données en amont dont dépend l’ensemble de données donné, un ou plusieurs ensembles de données en aval qui dépendent de l’ensemble de données donné, et une ou plusieurs transformations qui traitent des données pour générer l’ensemble de données donné. Lorsqu’un composant particulier est « en aval » d’un composant donné, cela signifie que le composant particulier dépend directement ou indirectement de l’ensemble de données donné. Par « amont » d’un composant donné, on entend que le composant donné est directement ou indirectement dépendant du composant donné. Par exemple, par ensemble de données en aval dépendant d’un ensemble de données en amont, on entend que le traitement (d’un ou de plusieurs éléments de données) de l’ensemble de données en amont par le système de traitement de données entraîne directement ou indirectement la génération (d’un ou de plusieurs éléments de données) de l’ensemble de données en aval. L’ensemble de données généré en aval peut être un ensemble de données qui sort du système de traitement de données (parfois appelé ensemble de données de sortie) ou un ensemble de données qui doit être traité ultérieurement par le système de traitement de données (parfois appelé ensemble de données intermédiaires). L’ensemble de données en amont peut être un ensemble de données introduit dans le système de traitement de données (parfois appelé ensemble de données d’entrée ou ensemble de données de référence) ou un ensemble de données qui a déjà été traité par le système de traitement de données (parfois appelé ensemble de données intermédiaires). Une transformation est une opération de traitement de données appliquée à un ensemble de données en amont pour produire un ensemble de données en aval qui est fourni à un collecteur de données. Un diagramme de traçabilité de données est une représentation graphique de la traçabilité de données, comprenant des composants et des relations entre les composants d’un système de traitement de données.

LaFIG. 1est un exemple de diagramme de traçabilité de données 100 illustrant une pluralité de composants 102-122, les relations entre les composants étant indiquées par des flèches. À des fins d’illustration, les composants 102-122 sont des composants physiques. Chaque composant physique comprend un ensemble de données et/ou une transformation, chaque ensemble de données pouvant comprendre un ou plusieurs éléments de données. Le diagramme de traçabilité de données 100 illustre la traçabilité de données de sortie 110 générées par un système de traitement de données. Dans l’exemple de laFIG. 1, le système de traitement de données reçoit deux ensembles de données sources 102, 104. Les données sources peuvent être des ensembles de données stockées ou reçues, par exemple, dans un fichier tel qu’un fichier plat, une base de données telle qu’une base de données relationnelle ou une base de données d’objets, une file d’attente ou un autre référentiel de stockage de données dans un système informatique. Par exemple, un ensemble de données peut généralement être un tableau (de base de données), chaque ligne ou colonne étant un élément de données de l’ensemble de données. Par exemple, les données sources 102 peuvent être des ensembles de données sur les transactions par carte de crédit aux États-Unis, stockées dans un fichier « US_feed.dat. » Chaque ensemble de données peut comprendre une valeur pour chacun d’un ou plusieurs champs, tels que des attributs définis dans une structure d’enregistrement ou des colonnes d’une table de base de données. Les données sources 102, 104 peuvent être reçues et traitées par lots, par exemple les données d’un fichier ou d’une base de données qui sont traitées toutes les heures, tous les jours, toutes les semaines, tous les mois, tous les trimestres, tous les ans ou à d’autres intervalles. Les données sources 102, 104 peuvent être reçues sous forme de flux et traitées en continu, par exemple, mises en mémoire tampon dans une file d’attente et traitées au fur et à mesure que des données sont disponibles et que des ressources du système le permettent.

Les ensembles de données et/ou les éléments de données peuvent être associés à des transformations. Les données sources 102 sont traitées par un élément de transformation 106, qui agit sur les données sources 102, par exemple pour modifier les données sources 102 d’une certaine manière. L’élément de transformation peut être un programme exécutable capable de manipuler des données, tel qu’un programme Java exécuté dans une machine virtuelle, un exécutable, un graphique de flux de données ou un autre type de programme exécutable. Par exemple, l’élément de transformation 106 peut être un exécutable nommé « TransformA.exe ». Dans un exemple spécifique, les éléments de transformation 106 peuvent être un composant de filtrage qui élimine des ensembles de données ou des éléments de données indésirables des données source 102, tels que des ensembles de données ou des éléments de données ayant un format incorrect. L’élément de transformation 106 traite les données sources 102 à la lumière des données de référence 120 pour produire des données intermédiaires 112. Les données de référence sont des données utilisées par un élément de transformation pour permettre à l’élément de transformation de traiter des données. Par exemple, des données de référence qui permettent une opération de mise en correspondance comprennent un ou plusieurs champs dont les valeurs correspondent à celles d’un ou plusieurs champs des données traitées. Les données intermédiaires 112 peuvent être stockées dans un fichier, une base de données, une file d’attente ou tout autre répertoire permettant de stocker des données dans un système informatique.

Un élément de transformation 108 traite l’ensemble des données sources 104 à la lumière des données de référence 122 pour produire des données intermédiaires 114. Les données intermédiaires 114 peuvent être stockées dans un fichier, une base de données, une file d’attente ou tout autre répertoire permettant de stocker des données dans un système informatique.

Les données intermédiaires 112, 114 sont traitées ensemble par un élément de transformation 116, qui utilise des données de référence 118. Dans un exemple, l’élément de transformation 116 est une opération de mise en correspondance et les données de référence 118 comprennent des ensembles de données qui indiquent des valeurs d’état et des valeurs de région correspondantes. Lorsque les données intermédiaires 112, 114 sont traitées par l’élément de transformation 116, la valeur du champ d’état de chaque ensemble de données des données intermédiaires 112, 114 est mise en correspondance avec la région correspondante indiquée dans les données de référence 118. Dans un exemple, les données de référence 118 comprennent des données qui indiquent des unités de l’entreprise et les identifiants des services correspondants, les noms des responsables et les lieux. Lorsque les données intermédiaires 112, 114 sont traitées par l’élément de transformation 116, chaque ensemble de données est affecté à une unité d’entreprise sur la base de la mise en correspondance permise par l’ensemble de données de référence. Les données de référence 118 peuvent être utilisées pour traiter de multiples ensembles de données et ne sont pas modifiées par le traitement. Les données de référence 118 peuvent être mises à jour par un utilisateur périodiquement ou selon les besoins.

L’élément de transformation 116 produit les données de sortie 110, qui sont stockées dans un fichier, une base de données, une file d’attente ou un autre référentiel de stockage de données dans un système informatique. Les données de sortie 110 peuvent être traitées ultérieurement, par exemple par d’autres éléments de transformation dans le même système de traitement de données ou dans un système de traitement de données différent, ou peuvent être stockées en vue d’une analyse ultérieure.

Dans l’exemple de laFIG. 1, la traçabilité de données des données de sortie 110 est indiquée pour les composants de traçabilité de données dans un seul système de traitement de données. Dans certains exemples, la traçabilité de données d’un ensemble de données peut être suivie par de multiples systèmes de traitement de données. Par exemple, les données sources peuvent être initialement traitées par un premier système de traitement de données pour produire des données de sortie X. Un deuxième système de traitement de données lit les données de sortie X du premier système de traitement de données et traite les données de sortie X pour générer des données de sortie Y. Les données de sortie Y sont traitées par un troisième système de traitement de données pour générer des données de sortie Z. La traçabilité de données des données de sortie Z comprend les données sources initiales, les transformations incluses dans chacun des trois systèmes de traitement de données et toutes les données de référence utilisées pendant le traitement par l’un des trois systèmes de traitement de données.

Comme illustré à laFIG. 1, un utilisateur peut sélectionner (ici à l’aide d’un curseur de souris dans une interface utilisateur graphique) des composants physiques 104 et 110 comme point de départ et point d’arrivée, respectivement, d’une partie 124 de la première traçabilité de données 100, cette sélection identifie la partie 124 à convertir (voir la flèche dans le coin inférieur gauche de laFIG. 1) en une deuxième traçabilité de données 100A. En d’autres termes, tous les composants physiques de la première traçabilité 100 entre le composant 104 selon le point de départ et le composant 110 selon le point d’arrivée sont incorporés dans la partie identifiée 124 et participent à la conversion vers la deuxième traçabilité de données 100A. La première traçabilité de données 100 peut être hébergée dans un environnement (informatique) et la deuxième traçabilité de données peut être hébergée dans un autre environnement (informatique).

En conséquence, un procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données 100 en une deuxième traçabilité de données 100A conformément aux modes de réalisation de l’invention revendiquée comprend : l’obtention d’une première traçabilité de données 100 spécifiant des relations entre des composants physiques d’une pluralité de composants physiques 102-122 ; la réception d’une identification d’une partie 124 de la première traçabilité de données 100 ; la génération d’une deuxième traçabilité de données 100A à partir de la partie identifiée 124 de la première traçabilité de données 100, la deuxième traçabilité de données 100A spécifiant des relations (voir les flèches entre les deuxièmes composants dans laFIG. 1) entre des deuxièmes composants d’une pluralité de deuxièmes composants 103, 105, 107, 109, 111, les deuxièmes composants de la pluralité de deuxièmes composants 103, 105, 107, 109, 111 étant associés (cf. associations 113, 115, 117, 119, 121 dans laFIG. 1) à au moins certains des composants physiques, ici les composants 104, 108, 114, 116, 110, de la partie identifiée 124 de la première traçabilité de données 100. De cette manière, la traçabilité de données est maintenue lors de la conversion d’une partie d’une traçabilité de données en une autre traçabilité de données.

LaFIG. 1est un exemple de diagramme de traçabilité de données. Dans certains exemples, des données de sortie peuvent être générées par un système de traitement de données plus complexe, comme le montre l’exemple de diagramme de traçabilité de données de bout en bout 200A de laFIG. 2pour un élément cible 206A.

LaFIG. 2illustre un exemple de diagramme de traçabilité de données 200A qui présente une pluralité de composants physiques 202A-206A et leurs relations (voir les flèches). Chaque composant physique comprend un ensemble de données et/ou une transformation, chaque ensemble de données pouvant comprendre un ou plusieurs éléments de données. Dans le diagramme de traçabilité de données 200A, des connexions ou des liens (voir les flèches) sont indiqués entre des ensembles de données 202A et des éléments de transformation 204A. Les ensembles de données 202A peuvent représenter des tableaux, des lignes dans des tableaux, des colonnes dans des tableaux, des champs dans des tableaux ou des fichiers, ou d’autres données. Un exemple d’un élément de transformation est un élément d’un exécutable qui décrit comment une sortie unique d’un élément de données est produite. La cause première d’une erreur potentielle dans un composant cible 206A (ou dans un autre composant intermédiaire) peut être suivie dans le système de traitement de données de laFIG. 2.

Les informations figurant dans un diagramme de traçabilité de données, tel que le diagramme de traçabilité de données de laFIG. 1ou de laFIG. 2, illustrent quels sources de données, ensembles de données, collecteur de données ou transformations en amont affectent un ensemble de données en aval. Par exemple, le diagramme de traçabilité de données 100 de laFIG. 1montre que les données de sortie 110 sont affectées par les données sources 102, 104, les données de référence 118, 120, 122 et les éléments de transformation 106, 108, 116.

La compréhension de la traçabilité d’un ensemble de données en aval (tel que l’ensemble de données de sortie 110) peut être utile pour identifier la cause première d’une erreur dans un ensemble de données qui peut se produire dans l’ensemble de données en aval. Par cause première, nous entendons l’identification d’un composant en amont qui est au moins partiellement à l’origine de l’erreur dans le composant en aval. Une erreur dans un ensemble de données en aval, tel que dans l’ensemble de données de sortie 110, peut être due à des données sources erronées, à des données de référence erronées ou à une erreur dans un élément de transformation dans la traçabilité en amont de l’ensemble de données de sortie 110, ou à une combinaison de deux ou plus de ces éléments. Le suivi de la qualité ou de l’état de composants de traçabilité de données peut fournir des informations qui peuvent être utilisées pour évaluer une cause première possible d’erreurs dans des ensembles de données.

Par erreur dans un ensemble de données, nous entendons généralement la question de savoir si l’ensemble de données présente les caractéristiques attendues, par exemple pour éviter une erreur dans le traitement de données. Une erreur dans un ensemble de données peut se manifester par le fait qu’un ensemble de données ne présente pas les caractéristiques attendues, par exemple en sortant des normes statistiques, en renvoyant un échec de consultation en réponse à une requête standard, ou tout autre type de comportement. Un paramètre à évaluer peut être une mesure de la qualité des données ou du code de programme associé à l’ensemble de données. L’évaluation des paramètres ou la qualité d’un ensemble de données peut être caractérisée sur la base d’un profil de certains ou de tous les ensembles de données de l’ensemble de données ou sur la base de la valeur de chacun d’un ou de plusieurs champs d’un ensemble de données spécifique, ou les deux.

Une erreur dans un ensemble de données en aval (par exemple, les données de sortie 110) peut être attribuée à divers facteurs dans la traçabilité de données en amont de l’ensemble de données de sortie. Une cause possible de données de sortie erronées peut être des données sources erronées, des données de référence erronées, une logique de transformation erronée ou une combinaison de ces facteurs. Par exemple, un ensemble de données source peut avoir été corrompu ou coupé pendant la transmission, il peut s’agir d’un mauvais ensemble de données, il peut y avoir des données manquantes, ou il peut y avoir un autre problème. Un ensemble de données de référence peut avoir été exposé à une erreur lors d’une mise à jour récente de l’ensemble de données de référence, peut être corrompu, peut être un mauvais ensemble de données ou peut présenter un autre problème. Une autre cause possible de la mauvaise qualité des données de sortie peut être un problème avec un élément de transformation dans la traçabilité de données en amont des données de sortie. Par exemple, si le logiciel mettant en œuvre un élément de transformation a été récemment mis à jour, l’élément de transformation peut ne plus effectuer le traitement souhaité si, par exemple, le logiciel mis à jour comporte une erreur ou a été corrompu. Des données sources, des données de référence et des éléments de transformation dans la traçabilité de données de l’ensemble de données de sortie 110 peuvent être contrôlés pour faciliter l’identification préventive d’une erreur potentielle, comme un problème de qualité des données pouvant survenir dans l’ensemble de données de sortie, le suivi ultérieur de la cause première d’une erreur survenue dans l’ensemble de données de sortie, ou les deux à la fois.

Le contrôle et l’analyse des données sources et des données de référence peuvent aider un utilisateur ou un système à diagnostiquer une ou plusieurs causes possibles de données de sortie erronées. Par exemple, si un ensemble de données de sortie erronées est généré, l’analyse des données sources ou des données de référence dans la traçabilité de données de l’ensemble de données de sortie de mauvaise qualité peut indiquer si un ensemble donné de données sources ou de données de référence est lui-même erroné et donc susceptible de contribuer aux données de sortie erronées. Le contrôle des données sources et des données de référence permet également d’identifier à l’avance des données sources ou des données de référence erronées qui, si elles sont traitées, risquent de provoquer une erreur, comme un problème de qualité des données, dans les données de sortie en aval.

LaFIG. 3est un schéma fonctionnel d’un environnement informatique illustratif 300, dans lequel certains modes de réalisation de la technologie décrite ici peuvent fonctionner. L’environnement informatique 300 comprend le système de traitement de données 305, qui est configuré pour opérer sur des données stockées dans le stockage de données 304.

Le stockage de données 304 peut comprendre un ou de multiples dispositifs de stockage stockant des ensembles de données dans un ou plusieurs formats de tout type approprié. Par exemple, le ou les dispositifs de stockage faisant partie du stockage de données 304 peuvent stocker des ensembles de données sous la forme d’une ou plusieurs tables de base de données, de fichiers de feuilles de calcul, de fichiers de texte plat et/ou de fichiers dans tout autre format approprié (par exemple, un format natif d’un ordinateur central). Le ou les dispositifs de stockage peuvent être de tout type approprié et peuvent inclure un ou plusieurs serveurs, un ou plusieurs systèmes de base de données, un ou plusieurs dispositifs de stockage portables, un ou plusieurs dispositifs de stockage non volatiles, un ou plusieurs dispositifs de stockage volatiles, et/ou tout autre dispositif configuré pour stocker des données électroniquement. Le stockage de données 304 peut comprendre un ou plusieurs flux de données en ligne d’ensembles de données en plus ou à la place du ou des dispositifs de stockage. Ainsi, par exemple, le système de traitement de données 305 peut avoir accès à des ensembles de données fournis par un ou plusieurs flux de données dans n’importe quel format approprié.

Dans les cas où le stockage de données 304 comprend de multiples dispositifs de stockage, les dispositifs de stockage peuvent être situés dans un même lieu physique (par exemple, dans un bâtiment) ou répartis dans de multiples lieux physiques (par exemple, dans de multiples bâtiments, dans différentes villes, différents États ou différents pays). Les dispositifs de stockage peuvent être configurés pour communiquer entre eux à l’aide d’un ou de plusieurs réseaux tels que, par exemple, le réseau 306 illustré à laFIG. 1.

Les ensembles de données stockés par le ou les dispositifs de stockage peuvent comprendre une ou plusieurs entités de données telles qu’un ou plusieurs fichiers, tableaux, données dans des lignes et/ou colonnes de tableaux, feuilles de calcul, ensembles de données, enregistrements de données (par exemple, enregistrements de transactions par carte de crédit, enregistrements d’appels téléphoniques et enregistrements de transactions bancaires), champs, variables, messages et/ou rapports. Le ou les dispositifs de stockage peuvent stocker des milliers, des millions, des dizaines de millions ou des centaines de millions d’entités de données. Chaque ensemble de données peut comprendre un ou plusieurs éléments de données.

Un élément de données peut être tout élément de données stocké et/ou traité par un système de traitement de données. Par exemple, un élément de données peut être un champ d’un enregistrement de données, et la valeur de l’élément de données peut être la valeur stockée dans le champ de l’enregistrement de données ou peut être une colonne ou une ligne d’un tableau (de base de données). À titre d’exemple spécifique non limitatif, un élément de données peut être un champ stockant le nom d’un appelant dans un enregistrement de données stockant des informations sur un appel téléphonique (cet enregistrement de données peut faire partie de multiples enregistrements de données sur des appels téléphoniques effectués par des clients d’une société de télécommunications) et la valeur de l’élément de données peut être la valeur stockée dans le champ. Autre exemple, un élément de données peut être une cellule d’un tableau (par exemple, une cellule se trouvant sur une ligne et une colonne particulières du tableau) et la valeur de l’élément de données peut être la valeur de la cellule du tableau. Autre exemple, un élément de données peut être une variable (par exemple, dans un rapport) et la valeur de l’élément peut être la valeur de la variable (par exemple, dans une instance particulière du rapport). À titre d’exemple spécifique non limitatif, un élément de données peut être une variable dans un rapport sur un demandeur de prêt bancaire représentant la cote de crédit du demandeur, et la valeur de l’élément de données peut être la valeur numérique de la cote de crédit (par exemple, une valeur numérique comprise entre 300 et 850). La valeur de l’élément de données représentant la cote de crédit du demandeur peut changer en fonction des données utilisées pour générer le rapport sur le demandeur de prêt bancaire.

Un élément de données peut prendre une valeur de tout type approprié. Par exemple, un élément de données peut prendre une valeur numérique, une valeur alphabétique, une valeur provenant d’un ensemble discret d’options (par exemple, un ensemble fini de catégories) ou tout autre type de valeur approprié, les aspects de la technologie décrite ici n’étant pas limités à cet égard.

Le système de traitement de données 305 peut comprendre un ou de multiples programmes informatiques 309 configurés pour opérer sur des données du stockage de données 304. Les programmes informatiques 309 peuvent être de n’importe quel type et écrits dans n’importe quel(s) langage(s) de programmation approprié(s). Par exemple, des programmes informatiques 309 peuvent comprendre un ou plusieurs programmes informatiques écrits au moins en partie à l’aide du langage d’interrogation structuré (SQL) et configurés pour accéder aux données dans une ou plusieurs bases de données faisant partie du stockage de données 304. Autre exemple, le système de traitement de données 305 est configuré pour exécuter des programmes sous forme de graphiques et des programmes informatiques 309 peuvent comprendre un ou plusieurs programmes informatiques développés sous forme de graphiques de flux de données. Un graphique de flux de données peut comprendre des composants, appelés « nœuds » ou « sommets », représentant des opérations de traitement de données à effectuer sur des données d’entrée et des liens entre les composants représentant les flux de données. Les techniques d’exécution de calculs codés par des graphes de flux de données sont décrites dans le brevet américain no : 5,966,072, intitulé“ Executing Computations Expressed as Graphs”, « Exécution de calculs exprimés sous forme de graphes ».

Dans l’exemple de laFIG. 3, le système de traitement de données 305 comprend en outre un environnement de développement 308 qui peut être utilisé par une personne (par exemple, un développeur) pour développer un ou plusieurs programmes informatiques 309 destinés à fonctionner sur des données du stockage de données 304. Par exemple, l’utilisateur 302 peut utiliser le dispositif informatique 303 pour interagir avec l’environnement de développement 308 afin de spécifier un programme informatique 309, tel qu’un graphique de flux de données, et enregistrer le programme informatique en tant que partie des programmes informatiques 309. Par exemple, l’utilisateur 302 peut utiliser le dispositif informatique 303 pour interagir, par l’intermédiaire du réseau 306, avec d’autres utilisateurs 330 d’autres dispositifs informatiques 334. Un environnement permettant de développer des programmes informatiques sous forme de graphiques de flux de données est décrit dans le document U.S. Pat. Pub. n° : 2007/0031668, intitulé“ Managing Parameters for Graph- Based Applications”, « Gestion des paramètres pour les applications basées sur les graphes ».

Un ou plusieurs programmes informatiques 309 peuvent être configurés pour effectuer toute opération appropriée sur des données du stockage de données 304. Par exemple, un ou plusieurs programmes informatiques 309 peuvent être configurés pour accéder à des données provenant d’une ou de plusieurs sources, transformer les données accédées (par exemple, en modifiant des valeurs des données, en filtrant des enregistrements de données, en modifiant des formats de données, en triant les données, en combinant des données provenant de multiples sources, en divisant des données en plusieurs parties, et/ou de toute autre manière appropriée), calculer une ou plusieurs nouvelles valeurs à partir des données accédées, et/ou écrire les données vers une ou plusieurs destinations.

Un ou plusieurs programmes informatiques 309 peuvent être configurés pour effectuer des calculs et/ou générer des rapports à partir des données contenues dans le stockage de données 309. Les calculs effectués et/ou les rapports générés peuvent être liés à une ou plusieurs quantités pertinentes pour une entreprise. Par exemple, un programme informatique peut être configuré pour accéder aux données relatives à l’historique de crédit d’une personne et déterminer une cote de crédit pour la personne sur la base de l’historique de crédit. Autre exemple, un programme informatique peut accéder aux journaux d’appels téléphoniques de multiples clients d’une compagnie de téléphone et générer un rapport indiquant combien de clients utilisent plus de données que ce qui est autorisé dans leur plan de données. Autre exemple, un programme informatique peut accéder à des données indiquant les types de prêts accordés par une banque et générer un rapport indiquant le risque global des prêts accordés par la banque. Ces exemples sont illustratifs et non limitatifs, car un programme informatique peut être configuré pour générer n’importe quelle information appropriée (par exemple, pour n’importe quel objectif commercial ou technologique approprié) à partir des données stockées dans le stockage de données 304.

Dans l’exemple de laFIG. 3, le système de traitement de données 305 peut également comprendre un module de gouvernance des données 310 qui prend en charge l’exécution de diverses tâches de gouvernance des données. Par exemple, dans le mode de réalisation illustré, le module de gouvernance de données 310 comprend le module de dictionnaire de données 312, le module de gestion des rôles 314, le module d’évaluation des paramètres 316, le module de traçabilité de données 318, le module de traçabilité dérivé 320 et le module d’association d’une traçabilité 322, chacun comprenant des instructions exécutables par le processeur qui, lorsqu’elles sont exécutées, permettent d’accomplir une ou plusieurs tâches de gouvernance de données, comme décrit plus en détail ci-dessous.

Le module de dictionnaire de données 312 peut être configuré pour stocker des informations sur les données dans le stockage de données 304. En d’autres termes, le dictionnaire de données 312 peut être configuré pour stocker des métadonnées associées aux données dans le stockage de données 304. Par exemple, le dictionnaire de données 312 peut stocker un ou plusieurs noms alternatifs pour des éléments de données dans le stockage de données 304. Ainsi, plutôt que de désigner un élément de données par le nom de la variable à laquelle il correspond (ce nom de variable peut avoir été créé par un programmeur et n’être pas « convivial » en ce sens qu’il n’indique pas immédiatement à l’utilisateur quelle information la variable représente), le dictionnaire de données peut inclure un ou plusieurs termes alternatifs pour l’élément de données (par exemple, des deuxièmes éléments de données de la deuxième traçabilité de données) tels que, par exemple, un terme ou une phrase en langage naturel que les professionnels utiliseraient pour se référer à l’élément de données. À titre d’exemple, le dictionnaire de données 312 peut stocker le nom “Bank Customer Credit Score” ou “Bank Customer FICO Credit Score” comme nom alternatif pour un élément de données correspondant à une variable nommée « cstCrdScr », qui stocke la valeur d’une cote de crédit FICO pour un client bancaire particulier. Autre exemple spécifique, le dictionnaire de données 312 peut stocker le nom “Order Amount”, « Montant de la commande » en tant que langage pouvant être utilisé pour faire référence à l’élément de données correspondant à un champ nommé « order_amt ».

Le module de gestion des rôles 314 peut gérer des informations indiquant quelle(s) partie(s) est/sont responsable(s) de divers éléments de données stockés dans le stockage de données 304. La gestion de ces informations sur les rôles peut consister à stocker les informations sur les rôles, à permettre à un ou plusieurs utilisateurs de modifier ces informations (par exemple, en supprimant, en ajoutant ou en modifiant des parties et/ou leurs responsabilités), et/ou à afficher les informations sur les rôles.

Le module de gestion des rôles 314 peut spécifier des parties responsables d’un ou de plusieurs éléments de données de la première et/ou de la deuxième traçabilité de données. Par exemple, le module de gestion des rôles 314 peut être configuré pour gérer des informations utilisées pour générer (et peut être configuré pour générer) une interface graphique indiquant des parties responsables de la gestion d’un élément de données.

Le module d’évaluation des paramètres 316 peut être configuré pour évaluer un ou plusieurs paramètres indiquant une erreur potentielle dans un ensemble de données et/ou ses un ou plusieurs éléments de données. Le paramètre peut être défini de toute manière appropriée indiquant une erreur potentielle dans un ensemble de données. Le paramètre peut être une mesure de la qualité des données ou du code de programme associé à l’ensemble de données. Le paramètre peut être évalué à l’aide de règles prédéfinies, qui peuvent définir des critères d’évaluation des valeurs des ensembles de données et/ou de leurs éléments de données, par exemple en identifiant des caractéristiques (par exemple, l’exactitude, la précision, l’exhaustivité et la validité) des valeurs en fonction des critères. La manière selon laquelle les valeurs présentent ces caractéristiques peut ainsi produire une mesure de la qualité des données pour l’ensemble de données et/ou les éléments de données. Certains aspects de l’évaluation de la qualité des données à l’aide de règles de qualité des données sont décrits dans le document U.S. Pat. Pub. n° : 2014/0308357,“ Specifying and Applying Rules to Data”, « Spécifier et appliquer des règles aux données ».

Le module de traçabilité de données 318 peut être configuré pour générer une traçabilité de données pour au moins une partie des données du stockage de données 304. Une traçabilité de données peut comprendre des informations sur la traçabilité d’un ou de plusieurs composants physiques, comprenant des ensembles de données et, le cas échéant, des transformations. Par exemple, une traçabilité de données dérivée, telle que les deuxième et cinquième traçabilités de données décrites ici, peut inclure des informations sur la traçabilité en amont indiquant comment la valeur d’un composant en amont a été obtenue et/ou des informations sur la traçabilité en aval indiquant un ou plusieurs autres composants en aval qui dépendent de la valeur du composant en amont.

Le module de traçabilité de données 318 peut être configuré pour générer une traçabilité de données, telle que la traçabilité de données 100, 200A des figures 1 et 2, respectivement, en analysant le code source d’au moins un programme informatique configuré pour accéder (par exemple, lire, écrire et modifier) à au moins une partie de la pluralité de composants physiques gérés par un système de traitement de données. L’analyse du code source peut être utilisée pour identifier des entrées d’un programme informatique (par exemple, identifier un ou plusieurs ensembles de données auxquels le programme informatique accède), identifier une ou plusieurs transformations appliquées aux entrées et/ou des calculs effectués à l’aide des entrées dans le cadre du programme informatique, et/ou identifier une ou plusieurs sorties du programme informatique. Le programme informatique peut comprendre un graphique de flux de données.

Le module de traçabilité de données 318 peut être configuré pour générer une traçabilité de données, telle que la traçabilité de données 100, 200A des figures 1 et 2, respectivement, en analysant des informations obtenues pendant l’exécution de l’au moins un programme informatique. Par exemple, un ou plusieurs journaux générés pendant l’exécution d’un programme informatique peuvent être analysés pour identifier des entrées du programme informatique, une ou plusieurs transformations appliquées aux entrées et/ou des calculs effectués à l’aide des entrées dans le cadre du programme informatique, et/ou une ou plusieurs sorties du programme informatique.

Le module de traçabilité de données 318 peut être configuré pour générer une traçabilité de données, telle que la traçabilité de données 100, 200A des figures 1 et 2, respectivement, à l’aide d’un ou de plusieurs processus de découverte de données. Par exemple, un programme informatique mettant en œuvre une recherche de données peut être configuré pour identifier différents ensembles de données contenant les mêmes valeurs de données et, sur la base de cette identification, déterminer que ces ensembles de données sont liés. Par exemple, le programme informatique peut être configuré pour déterminer qu’un même tableau de données est stocké dans de multiples bases de données différentes et, sur cette base, déterminer que les éléments de données de ces tableaux sont liés. Il convient de noter que le module de traçabilité de données 318 peut être configuré pour générer une traçabilité de données en utilisant l’un des procédés décrits ci-dessus ou toute combinaison de deux ou plus de deux des procédés décrits ci-dessus ou d’autres procédés, les aspects de la technologie décrite ici n’étant pas limités à cet égard.

Le module de traçabilité dérivée 320 peut être configuré pour faciliter la génération d’une traçabilité dérivée par un système (par exemple, un système informatique). Le module de traçabilité dérivée 320 peut indiquer des relations de traçabilité entre des composants de la traçabilité dérivée.

Le module d’association 322 peut être configuré pour faciliter la génération d’une association entre la traçabilité de données source (par exemple, des première, troisième et quatrième traçabilités de données) et une traçabilité (cible) dérivée de la traçabilité de données source (par exemple, des deuxième et cinquième traçabilités de données). À cette fin, le module d’association 322 peut générer, pour chacun d’un ou plusieurs composants de la traçabilité dérivée, une association entre le composant de la traçabilité dérivée et un ou plusieurs composants physiques correspondants de la traçabilité de données (source).

Pour revenir à laFIG. 2, le procédé mis en œuvre par ordinateur selon l’invention comprend : l’obtention d’une première traçabilité de données 200A spécifiant des relations entre des composants physiques d’une pluralité de composants physiques 202A, 204A ; la réception d’une identification d’une partie de la première traçabilité de données (voir, par exemple. les composants dans le rectangle en pointillés de laFIG. 2) ; la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre des deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données.

LaFIG. 4est un diagramme illustrant une association entre un exemple de deuxième traçabilité de données 420 et un exemple de première traçabilité de données 400, conformément à certains modes de réalisation de la technologie décrite ici. Chacune de la deuxième traçabilité de données 420 et de la première traçabilité de données 400 peut être obtenue selon l’une ou l’autre des manières décrites dans le présent document, en utilisant un procédé mis en œuvre par ordinateur : l’obtention d’une première traçabilité de données 400 spécifiant des relations entre des composants physiques d’une pluralité de composants physiques 440, 442, 444, 446, 448 et 450 ; la réception d’une identification d’une partie de la première traçabilité de données ; la génération d’une deuxième traçabilité de données 420 à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre des deuxièmes composants d’une pluralité de deuxièmes composants 403, 405, 406, 409, les deuxièmes composants de la pluralité de deuxièmes composants étant associés (cf. associations ou liens 452, 454, 456, 458) avec au moins certains des composants physiques de la partie identifiée de la première traçabilité de données.

La première traçabilité de données 400 peut comprendre une pluralité de composants physiques d’un ou de plusieurs systèmes (physiques) de traitement de données, chaque composant physique pouvant comprendre un ensemble de données et/ou une transformation. La deuxième traçabilité de données dérivée 420 peut comprendre une pluralité de deuxièmes composants, chaque deuxième composant étant associé à et/ou représentant un composant physique correspondant de la première traçabilité de données 400.

Chacun des composants physiques peut comprendre un ou plusieurs éléments de données physiques 422, 424, 426, 428, 430, 432, 434, 436. Chacun des deuxièmes composants peut comprendre un ou plusieurs deuxièmes éléments de données 302, 304, 307, 308. La première traçabilité de données 400 comprend des ensembles de données 440, 442, 444, 446, 448 et 450. Chacun des ensembles de données peut être stocké dans différents systèmes et/ou dispositifs informatiques. En variante, il est possible de stocker deux ou plus de deux ensembles de données (ou tous) dans un seul système et/ou dispositif informatique. Des exemples d’ensembles de données sont fournis dans le présent document. Chaque ensemble de données peut comprendre un ou de multiples éléments de données physiques. L’ensemble de données 440 contient un ou plusieurs éléments de données physiques, dont l’élément de données physiques 422. L’ensemble de données 442 contient un ou plusieurs éléments de données physiques, dont l’élément de données physiques 424. L’ensemble de données 444 contient de multiples éléments de données physiques, dont les éléments de données physiques 426, 428 et 430. L’ensemble de données 446 comprend un ou plusieurs éléments de données physiques, dont l’élément de données physiques 432. L’ensemble de données 448 comprend un ou plusieurs éléments de données physiques, dont l’élément de données physiques 434. L’ensemble de données 450 comprend un ou plusieurs éléments de données physiques, dont l’élément de données physiques 436.

Il convient d’apprécier le fait que des deuxième et première traçabilités de données peuvent être plus complexes que les traçabilités illustrées dans laFIG. 4et, par exemple, peuvent comprendre beaucoup plus de deuxièmes éléments de données, de deuxièmes composants, d’éléments de données physiques et de composants physiques. Les exemples de traçabilité représentés sur laFIG. 4sont utilisés pour faciliter l’exposé sans être limitatifs.

Dans certains modes de réalisation, une première traçabilité de données peut inclure des informations de traçabilité de données en amont pour un ou plusieurs éléments de données physiques, qui fournissent des informations sur la manière dont le ou les éléments de données physiques ont été obtenus et/ou générés. Par exemple, dans l’exemple illustratif de laFIG. 4, la première traçabilité de données 400 comprend des informations sur la traçabilité de données en amont pour l’élément de données physiques 422. Comme l’indique l’ombrage de laFIG. 4, l’élément de données physiques 422 a été obtenu à partir de l’élément de données physiques 424, qui a été obtenu à partir de de multiples éléments de données physiques, dont l’élément de données physiques 426, qui a été obtenu à partir de l’élément de données physiques 432. En conséquence, l’élément de données physiques 422 a été obtenu sur la base, au moins en partie, de l’élément de données physiques 432 de l’ensemble de données 446.

La deuxième traçabilité de données 420 comprend des deuxièmes composants 403, 405, 407 et 409. Un deuxième composant peut être tout contenant approprié pour encapsuler une représentation d’un composant physique correspondant. Le deuxième composant peut être utilisé pour présenter le composant physique correspondant à un utilisateur ou à un système dans des termes que l’utilisateur ou le système peut comprendre ou traiter. Par exemple, un deuxième composant peut être un rapport, une feuille de calcul, une présentation comportant une ou de multiples diapositives, un fichier texte, un document Word et/ou un fichier PDF. Dans certains modes de réalisation, le contenu du deuxième composant peut être généré par un ordinateur, par exemple en effectuant une requête dans une base de données (par exemple, une requête SQL) et en plaçant les résultats de la requête dans le deuxième composant. À titre d’exemple spécifique non limitatif, un ordinateur créant une deuxième traçabilité de données peut effectuer une requête dans une base de données et insérer un tableau résultant de la requête dans un fichier de feuille de calcul.

Comme le montre laFIG. 4, le deuxième composant 403 comprend un ou plusieurs deuxièmes éléments de données, dont le deuxième élément de données 402. Le deuxième composant 405 comprend un ou plusieurs deuxièmes éléments de données, dont le deuxième élément de données 404. Le deuxième composant 407 comprend un ou plusieurs deuxièmes éléments de données, dont le deuxième élément de données 406. Le deuxième composant 409 comprend un ou plusieurs deuxièmes éléments de données, dont le deuxième élément de données 408.

Dans certains modes de réalisation, une deuxième traçabilité de données peut inclure des informations de traçabilité de données en amont, qui fournissent des informations sur la manière dont le ou les deuxièmes éléments de données ont été obtenus et/ou générés, et/ou des informations de traçabilité en aval pour un ou plusieurs deuxièmes éléments de données, qui fournissent des informations indiquant quels autres deuxièmes éléments de données dépendent du ou des deuxièmes éléments de données. Par exemple, dans l’exemple illustratif de laFIG. 4, la traçabilité spécifiée par l’utilisateur 400 comprend des informations sur la traçabilité de données en amont pour le deuxième élément de données 402. Comme le montre laFIG. 4, la deuxième traçabilité de données 420 indique que le deuxième élément de données 402 a été obtenu à partir du deuxième élément de données 404, qui a été obtenu à partir du deuxième élément de données 406, qui a été obtenu à partir du deuxième élément de données 408.

Comme indiqué dans le présent document, dans certains modes de réalisation, une association peut être générée entre une deuxième traçabilité de données et une première traçabilité de données en générant une association ou un lien entre un ou plusieurs éléments de données physiques dans la première traçabilité de données et un ou plusieurs deuxièmes éléments de données correspondants dans la deuxième traçabilité de données. Un exemple illustratif d’une telle association est présenté dans laFIG. 4, qui montre que : (1) le deuxième élément de données 402 est associé à l’élément de données physiques 422 par l’intermédiaire du lien d’association 452 ; (2) le deuxième élément de données 404 est associé à l’élément de données physiques 424 par l’intermédiaire du lien d’association 454 ; (3) le deuxième élément de données 406 est associé à l’élément de données physiques 426 par l’intermédiaire du lien d’association 456 ; et (4) le deuxième élément de données 408 est associé à l’élément de données physiques 432 par l’intermédiaire du lien d’association 458. Comme le montre l’exemple de laFIG. 4, une association entre une deuxième traçabilité de données et une première traçabilité de données peut comprendre des informations spécifiant un ou plusieurs liens d’association entre des éléments de données dans les traçabilités. Par exemple, l’association représentée à laFIG. 4indique qu’il n’y a pas de divergence entre la deuxième traçabilité de données pour le deuxième élément de données 402 et la première traçabilité de données pour l’élément de données physique 422, qui est associé au deuxième élément de données 402. Dans cet exemple, chaque élément de données physiques dans la première traçabilité de données en amont de l’élément de données physiques 422 est associé à un deuxième élément de données correspondant dans la deuxième traçabilité de données en amont pour le deuxième élément de données 402. Par exemple, l’élément de données physiques 432, qui est utilisé pour obtenir l’élément de données physiques 422, conformément à la première traçabilité de données 400, est associé au deuxième élément de données 408, qui est utilisé pour obtenir le deuxième élément de données 402, conformément à la deuxième traçabilité de données 420.

LaFIG. 5est une interface utilisateur graphique illustrant graphiquement une association entre un exemple de deuxième traçabilité de données 520 et un exemple de première traçabilité de données 500, toutes deux obtenues conformément à certains modes de réalisation de la technologie décrite dans le présent document. Chacun des composants physiques de la première traçabilité de données 500 comprend un ensemble de données et/ou une transformation. Le composant physique 530 comportant un élément de données est associé par association 515 au deuxième élément de données 510 du deuxième composant 505 de la deuxième traçabilité de données 520. Plusieurs composants physiques, tels que des composants physiques 550, 560, 570, peuvent être associés à la même application ou au même processus 540, comme indiqué dans la première traçabilité de données 500 en associant des composants physiques 550, 560, 570 à la même application ou au même processus 540. Ceci est expliqué plus en détail dans le contexte des figures 6 et 7.

Les figures 6 et 7 illustrent des relations exemplaires entre des ensembles de données, des éléments de données, des transformations, des éléments de données de transformation, l’application et le système.

Comme indiqué, une traçabilité de données, telle que la première et/ou la troisième traçabilité de données, décrivant des relations entre des composants physiques d’une pluralité de composants physiques est une structure de données. Chaque composant physique comprend un ou plusieurs ensembles de données et/ou une ou plusieurs transformations (cf.FIG. 2et 6). En particulier, la traçabilité de données décrit le cycle de vie des ensembles de données et de leurs éléments de données auxquels les transformations sont appliquées lorsqu’ils sont traités par un système de traitement de données (cf.FIG. 2et 6). Un élément de données est une unité de données dans un ensemble de données. Un élément de données imbriqué (récursif) peut contenir d’autres éléments de données. L’élément de données peut être l’un des sous-types d’éléments de données suivants (le type d’objet de base) : champ de fichier, colonne ou ligne d’un tableau, champ d’un message, etc. Un élément de données est l’élément physique le plus détaillé qui identifie et décrit une donnée dans un système automatisé. Par exemple, dans un fichier, il s’agit d’un champ, dans une table de base de données, il s’agit d’une colonne. Un ensemble de données est une collection nommée d’éléments de données d’entrée ou de sortie qui sont utilisés par des transformations ou dont les valeurs sont produites par des transformations. L’ensemble de données peut être l’un des sous-types suivants : Fichier, tableau, vue, interface, etc. Un ensemble de données est une collection d’éléments de données. Il représente une unité de stockage dans le système automatisé ou une unité d’échange entre systèmes.

Comme le montre laFIG. 7, l’ensemble de données et la transformation, qui est un exécutable, peuvent être associés à la même application, qui est exécutée par un système. La transformation peut être appliquée à l’ensemble de données lors de l’exécution de l’application sur le système.

Les figures 8A et 8B illustrent un procédé exemplaire mis en œuvre par ordinateur et consistant à générer une deuxième traçabilité de données à partir de la première traçabilité de données et à approfondir la première traçabilité de données en générant une troisième traçabilité de données identique à une partie de la première traçabilité de données.

LaFIG. 8est une interface utilisateur graphique illustrant graphiquement un exemple de première traçabilité de données 800, conformément à certains modes de réalisation de la technologie décrite ici. La première traçabilité de données 800 indique des relations entre une pluralité de composants physiques tels que des composants physiques 802, 804, 807, 809, 810 et 811. La relation est indiquée par des liens, tels que des liens 803, 805, 808. Les liens indiquent quel composant en amont génère une sortie qui est une entrée d’un composant en aval. Par exemple, le composant physique 804 est en aval du composant physique 802 et dépend du composant physique 802, car la sortie du composant physique 802 s’écoule par l’intermédiaire de la connexion indiquée par le lien 803 vers l’entrée du composant physique 804. Les deux composants physiques 802 et 804 sont associés à la même application ou au même processus 801. Chacun des composants physiques de la première traçabilité de données 800 comprend un ensemble de données et/ou une transformation, et l’ensemble de données peut comprendre un ou plusieurs éléments de données. L’ensemble de données 811 comprend une collection 812 d’éléments de données. Des données externes, comme des données de référence, peuvent être incorporées dans la première traçabilité de données 800, comme l’indique laFIG. 8. Les données externes ainsi que des ensembles de données 807, 809, 810 et 811 sont tous associés à la même application 806.

Comme le montrent les figures 8A à 8C, le procédé mis-en œuvre par ordinateur consiste à convertir la première traçabilité de données 800 en une deuxième traçabilité de données 820 : l’obtention d’une première traçabilité de données 800 spécifiant des relations entre des composants physiques d’une pluralité de composants physiques 802, 804, 807, 809, 810 et 811 ; la réception d’une identification d’une partie 813 - 817 de la première traçabilité de données ; la génération d’une deuxième traçabilité de données 820 à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre des deuxièmes composants d’une pluralité de deuxièmes composants 822, 824, 827, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données.

Comme l’indiquent des éléments exemplaires 813 à 817 de laFIG. 8, un utilisateur peut sélectionner la partie de la première traçabilité de données 800 pour laquelle la deuxième traçabilité de données 820 est générée en sélectionnant des points de départ et/ou d’arrivée dans la première traçabilité de données 800, tels que des éléments de données spécifiques parmi des éléments de données 813 à 817.

Comme l’indique laFIG. 8, la représentation graphique de la deuxième traçabilité de données générée 820 comprend des indicateurs graphiques de deuxièmes composants 822, 824, 827 de la pluralité de deuxièmes composants, de sorte que les indicateurs graphiques sont disposés dans la représentation graphique de la partie de la deuxième traçabilité de données générée d’une manière qui est conforme aux relations entre la pluralité de deuxièmes composants de la première traçabilité de données 800. Comme le montre laFIG. 8, l’algorithme a filtré un grand nombre d’informations généralement non pertinentes du point de vue de l’environnement cible. En utilisant la direction ascendante, l’algorithme a conservé la traçabilité à partir des éléments de données enrichis avec des termes associés, jusqu’à leurs sources, tout en ne conservant que les éléments de données qui appartiennent aux applications ou aux processus 821, 825 et 826 marqués dans une étape précédente.

Comme l’indique laFIG. 8, l’utilisateur peut sélectionner un lien 823 associant deux deuxièmes composants 822, 824 de la deuxième traçabilité de données 820. Par exemple, lorsque l’utilisateur sélectionne le lien 823, une fenêtre contextuelle peut être générée dans laquelle l’utilisateur peut activer une icône 829 (“drill down point-to-point technical lineage”, « analyse de la traçabilité technique point par point ») pour soumettre des instructions afin d’approfondir la première traçabilité de données pour la partie de la deuxième traçabilité de données 820 associée au lien sélectionné 823.

Sur la base du lien sélectionné, la troisième traçabilité de données 830 illustrée à laFIG. 8est générée, la première traçabilité de données 830 spécifiant des relations entre les composants physiques 802, 804, 807, 809, 810 de la pluralité de composants physiques qui sont associés aux deuxièmes composants 822, 824 dont les indicateurs graphiques sont reliés par le lien sélectionné 823. La troisième traçabilité de données 830 peut être une partie de la première traçabilité de données 800. De cette manière, l’utilisateur peut approfondir une partie de la première traçabilité de données 800 grâce à la deuxième traçabilité de données générée 820.

LaFIG. 9est une interface utilisateur graphique 900 illustrant graphiquement un exemple de deuxième traçabilité de données, conformément à certains modes de réalisation de la technologie décrite ici. Comme l’indique laFIG. 9, le procédé peut également comprendre : la réception d’une sélection par l’utilisateur d’une partie d’une deuxième traçabilité de données générée, et la génération d’une vue pour des informations plus détaillées sur la partie sélectionnée, telles que le nombre de passages à travers un composant, le nombre de transformations impliquées jusqu’à la génération d’un ensemble de données particulier, le nombre d’entrées et/ou de sorties d’un composant, ou d’autres informations de ce type. L’interface graphique 900 affiche des informations annotées pour une partie sélectionnée de la deuxième traçabilité de données.

En d’autres termes, les inventeurs ont mis au point des techniques qui permettent de conserver de manière efficace et fiable la traçabilité de données lors de la génération d’une traçabilité de données cible. Des moyens sont fournis pour permettre une génération plus précise, plus fiable et plus complète de la traçabilité de données cible tout en maintenant une faible consommation de ressources informatiques. Les divergences entre la traçabilité de données cible et une traçabilité de données source sont éliminées et des changements entre les traçabilités de données source et cible sont identifiés. Ceci est particulièrement utile pour établir un échange de données entre un environnement source (dynamique) ayant la traçabilité de données source et l’environnement cible ayant la traçabilité de données cible. En outre, des moyens sont fournis pour permettre d’approfondir la traçabilité de données cible vers les composants physiques associés à la traçabilité de données source.

Les aspects et modes de réalisation de la technologie décrits ci-dessus peuvent être mis en œuvre de nombreuses manières. Par exemple, les modes de réalisation peuvent être mis en œuvre à l’aide de matériel, de logiciels ou d’une combinaison de ceux-ci. Lorsqu’il est mis en œuvre sous forme de logiciel, le code logiciel peut être exécuté sur n’importe quel processeur ou ensemble de processeurs approprié, qu’il se trouve dans un seul ordinateur ou qu’il soit réparti entre de multiples ordinateurs. Ces processeurs peuvent être mis en œuvre sous forme de circuits intégrés, avec un ou plusieurs processeurs dans un composant de circuit intégré, comprenant des composants de circuit intégré disponibles dans le commerce et connus dans l’art sous des noms tels que puces CPU, puces GPU, microprocesseur, microcontrôleur ou coprocesseur. Un processeur peut également être mis en œuvre dans un circuit personnalisé, tel qu’un ASIC, ou dans un circuit semi-personnalisé résultant de la configuration d’un dispositif logique programmable. Autre possibilité, un processeur peut être une partie d’un circuit plus large ou d’un dispositif semi-conducteur, qu’il soit disponible dans le commerce, semi-personnalisé ou personnalisé. À titre d’exemple, certains microprocesseurs disponibles dans le commerce sont dotés de multiples cœurs, de sorte qu’un seul ou un sous-ensemble de ces cœurs peut constituer un processeur. Toutefois, un processeur peut être mis en œuvre à l’aide de circuits dans n’importe quel format approprié. Un processeur et une mémoire peuvent être utilisés à la place des moyens de mise en œuvre du procédé.

En outre, il convient de noter qu’un « ordinateur », tel que le client 1, peut se présenter sous différentes formes, telles qu’un ordinateur monté en rack, un ordinateur de bureau, un ordinateur portable ou un ordinateur tablette. En outre, un ordinateur peut être intégré dans un dispositif qui n’est généralement pas considéré comme un ordinateur mais qui possède des capacités de traitement appropriées, notamment un assistant numérique personnel (PDA), un téléphone intelligent ou tout autre dispositif électronique portable ou fixe approprié.

Un ordinateur peut également avoir un ou plusieurs dispositifs d’entrée et de sortie. Ces dispositifs peuvent être utilisés, entre autres, pour présenter une interface utilisateur. Comme exemples de dispositifs de sortie pouvant être utilisés pour fournir une interface utilisateur, on peut citer les imprimantes ou les écrans d’affichage pour la présentation visuelle des résultats et les haut-parleurs ou autres dispositifs générateurs de sons pour la présentation sonore des résultats. Comme exemples de dispositifs d’entrée pouvant être utilisés pour une interface utilisateur, on peut citer les claviers et les dispositifs de pointage, tels que les souris, les tablettes tactiles et les tablettes de numérisation. Comme autre exemple, un ordinateur peut recevoir des informations d’entrée par reconnaissance vocale ou sous un autre format audible.

Ces ordinateurs peuvent être interconnectés par un ou plusieurs réseaux sous n’importe quelle forme appropriée, comprenant un réseau local ou un réseau étendu, tel qu’un réseau d’entreprise ou l’Internet 306. Ces réseaux peuvent être basés sur n’importe quelle technologie appropriée et peuvent fonctionner selon n’importe quel protocole approprié et peuvent comprendre des réseaux sans fil, des réseaux câblés ou des réseaux à fibres optiques.

En outre, les divers procédés ou processus décrits dans le présent document peuvent être codés sous forme de logiciel exécutable sur un ou plusieurs processeurs utilisant l’un d’une variété de systèmes d’exploitation ou plates-formes. En outre, ces logiciels peuvent être écrits à l’aide d’un certain nombre de langages de programmation et/ou d’outils de programmation ou de script appropriés, et peuvent également être compilés sous forme de code exécutable en langage machine ou de code intermédiaire qui est exécuté sur un cadre de travail ou une machine virtuelle.

À cet égard, la présente invention peut prendre la forme d’un support de stockage lisible par ordinateur (ou de multiples supports lisibles par ordinateur) (par exemple, une mémoire informatique, une ou plusieurs disquettes, des disques compacts (CD), des disques optiques, des disques vidéo numériques (DVD), des bandes magnétiques, des mémoires flash, des configurations de circuits dans des réseaux de portes programmables ou d’autres dispositifs semi-conducteurs, ou tout autre support de stockage informatique tangible) codé avec un ou plusieurs programmes qui, lorsqu’ils sont exécutés sur un ou plusieurs ordinateurs ou autres processeurs, réalisent des procédés qui mettent en œuvre les divers modes de réalisation de l’invention présentés ci-dessus. Comme il ressort des exemples précédents, un support de stockage lisible par ordinateur peut conserver des informations pendant une durée suffisante pour fournir des instructions exécutables par ordinateur sous une forme non transitoire. Un tel support ou de tels supports de stockage lisible par ordinateur peuvent être transportables, de sorte que le ou les programmes qui y sont stockés peuvent être chargés sur un ou plusieurs ordinateurs ou autres processeurs différents afin de mettre en œuvre divers aspects de la présente invention, tels qu’ils sont présentés ci-dessus. Dans le présent document, l’expression « support de stockage lisible par ordinateur », qui constitue un exemple préféré de « support lisible par ordinateur », n’englobe qu’un support lisible par ordinateur non transitoire qui peut être considéré comme un produit manufacturé (c’est-à-dire un article de fabrication) ou une machine. En variante ou en plus, l’invention peut se présenter sous la forme d’un support lisible par ordinateur autre qu’un support de stockage lisible par ordinateur, tel qu’un signal de propagation.

Les termes « application », « algorithme », « service », « code de programme », « programme informatique » ou « logiciel » sont utilisés ici dans un sens générique pour désigner tout type de code informatique ou d’ensemble d’instructions exécutables par ordinateur pouvant être utilisé pour programmer un ordinateur ou un autre processeur afin de mettre en œuvre divers aspects de la présente invention, comme indiqué ci-dessus. Le stockage des données, le récepteur, l’abonné, le répartiteur, le transformateur et le synthétiseur peuvent être mis en œuvre par des logiciels et/ou du matériel informatique. En outre, il convient d’apprécier que, selon un aspect de ce mode de réalisation, un ou plusieurs programmes informatiques qui, lorsqu’ils sont exécutés, réalisent des procédés de la présente invention, ne doivent pas nécessairement résider sur un seul ordinateur ou processeur, mais peuvent être répartis de manière modulaire entre un certain nombre d’ordinateurs ou de processeurs différents pour mettre en œuvre divers aspects de la présente invention.

Les instructions exécutables par ordinateur peuvent se présenter sous de nombreuses formes, telles que des modules de programme, exécutés par un ou plusieurs ordinateurs ou autres dispositifs. En général, les modules de programme comprennent des routines, des programmes, des objets, des composants, des structures de données, etc. qui réalisent des tâches particulières ou mettent en œuvre des types de données abstraits particuliers. Typiquement, les fonctionnalités des modules de programme peuvent être combinées ou réparties comme on le souhaite dans divers modes de réalisation.

En outre, l’ensemble de données peut être stocké sur un support lisible par ordinateur sous n’importe quelle forme appropriée. Pour simplifier l’illustration, des ensembles de données peuvent être présentés comme ayant des entrées d’ensemble de données. Toutefois, tout mécanisme approprié peut être utilisé pour établir des emplacements dans l’ensemble de données afin de stocker des données, telles que des valeurs de paramètres.

Divers aspects de la présente invention peuvent être utilisés seuls, en combinaison ou dans une variété d’arrangements non spécifiquement discutés dans les modes de réalisation décrits dans ce qui précède et ne sont donc pas limités dans leur application aux détails et à la disposition des composants exposés dans la description qui précède ou illustrés dans les dessins. Par exemple, des aspects décrits dans un mode de réalisation peuvent être combinés de n’importe quelle manière avec des aspects décrits dans d’autres modes de réalisation.

L’invention peut également prendre la forme d’un procédé, dont un exemple a été fourni. Les actes effectués dans le cadre du procédé peuvent être ordonnés de toute manière appropriée. En conséquence, il est possible de construire des modes de réalisation dans lesquels des actes sont effectués dans un ordre différent de celui illustré, ce qui peut inclure l’exécution simultanée de certains actes, même s’ils sont présentés comme des actes séquentiels dans des modes de réalisation illustratifs.

En outre, certaines actions sont décrites comme étant effectuées par un « utilisateur » ou un « joueur ». Il convient de noter qu’un « utilisateur » ou un « joueur » n’est pas nécessairement une seule personne et que, par exemple, des actions attribuables à un « utilisateur » ou à un « joueur » peuvent être effectuées par une équipe de personnes et/ou une personne en combinaison avec des outils assistés par ordinateur ou d’autres mécanismes. Il convient de noter qu’un « utilisateur »ou un « joueur » n’est pas nécessairement un individu et qu’il peut s’agir d’une machine, par exemple sous la forme d’un robot.

L’utilisation de termes ordinaux tels que « premier », « deuxième », « troisième », etc., pour modifier un élément revendiqué ne connote pas en soi la priorité, l’antériorité ou l’ordre d’un élément revendiqué par rapport à un autre ou l’ordre temporel dans lequel des actes d’un procédé sont exécutés, mais sont utilisés simplement comme étiquettes pour distinguer un élément revendiqué ayant un certain nom d’un autre élément ayant le même nom (sans l’utilisation du terme ordinal) pour distinguer les éléments revendiqués. En outre, la phraséologie et la terminologie utilisées dans le présent document le sont à des fins de description et ne doivent pas être considérées comme limitatives. L’utilisation des termes « incluant », « comprenant » ou « ayant », « contenant », « impliquant » et de leurs variantes dans le présent document vise à englober les éléments énumérés ci-après et leurs équivalents, ainsi que d’autres éléments.

En outre, bien que des avantages de la présente invention soient indiqués, il convient d’apprécier le fait que tous les modes de réalisation de l’invention décrits ici n’incluent pas tous les avantages décrits. Certains aspects et certains modes de réalisation peuvent ne pas mettre en œuvre toutes caractéristiques décrites comme avantageuses dans le présent document et, dans certains cas, une ou plusieurs des caractéristiques décrites peuvent être mises en œuvre pour réaliser d’autres modes de réalisation. En conséquence, cette description et ces dessins ne sont donnés qu’à titre d’exemple.

La présente invention peut (en variante) être décrite par un ou plusieurs des aspects numérotés suivants :

Aspects

1. Procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, comprenant : l’obtention d’une première traçabilité de données spécifiant des relations entre les composants physiques d’une pluralité de composants physiques ; la réception d’une identification d’une partie de la première traçabilité de données ; la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre des deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données.

2. Procédé selon l’aspect 1, l’identification de la partie de la première traçabilité de données comprenant une identification d’un premier composant physique de la pluralité de composants physiques qui indique un point de départ pour la deuxième traçabilité de données et une identification d’un deuxième composant physique de la pluralité de composants physiques qui indique un point d’arrivée pour la deuxième traçabilité de données.

3. Procédé selon l’aspect 2, la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données comprenant la génération de la deuxième traçabilité de données en parcourant la première traçabilité de données depuis le point de départ jusqu’au point d’arrivée.

4. Procédé selon l’un quelconque des aspects précédents, l’identification de la partie de la première traçabilité de données étant basée sur l’entrée de l’utilisateur, de préférence l’entrée de l’utilisateur comprenant une sélection utilisateur d’un ou de plusieurs composants physiques de la pluralité de composants physiques.

5. Procédé selon l’un quelconque des aspects 2 à 4, l’identification du premier composant physique et/ou du deuxième composant physique étant basée sur l’entrée de l’utilisateur, de préférence l’entrée de l’utilisateur comprenant une sélection utilisateur du premier composant physique et/ou une sélection utilisateur du deuxième composant physique par l’utilisateur.

6. Procédé selon l’un quelconque des aspects précédents, chaque deuxième composant de la pluralité de deuxièmes composants étant associé par un lien d’identification à un composant physique correspondant de l’au moins une partie des composants physiques de la partie de la première traçabilité de données.

7. Procédé selon l’un quelconque des aspects précédents, comprenant en outre :
l’émission en sortie de la deuxième traçabilité de données générée.

8. Procédé selon l’aspect 7, la sortie de la deuxième traçabilité de données générée comprenant l’affichage, dans une interface utilisateur graphique, d’une représentation graphique d’une partie de la deuxième traçabilité de données générée.

9. Procédé selon l’aspect 8, la représentation graphique de la partie de la deuxième traçabilité de données générée comprenant des indicateurs graphiques de deuxièmes composants de la pluralité de deuxièmes composants de sorte que les indicateurs graphiques sont disposés dans la représentation graphique de la partie de la deuxième traçabilité de données générée d’une manière qui est en accord avec les relations entre la pluralité de deuxièmes composants.

10. Procédé selon l’un quelconque des aspects précédents, la génération de la deuxième traçabilité de données étant exécutée automatiquement par l’ordinateur.

11. Procédé selon l’un quelconque des aspects précédents, comprenant en outre :
l’exécution de manière répétée de la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données ;
la comparaison d’une deuxième traçabilité de données nouvellement générée avec une deuxième traçabilité de données précédemment générée de l’exécution répétée, comprenant la détermination s’il y a une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée ; et
l’émission en sortie s’il existe une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée.

12. Procédé selon l’aspect 11, comprenant en outre :
sur la base de la comparaison, la détermination, sur la base d’un ou de plusieurs critères, s’il convient de conserver ou d’abandonner une ou plusieurs différences déterminées entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée pour une deuxième traçabilité de données à conserver, de préférence le ou les critères comprenant le fait qu’un nombre de différences dépasse une valeur seuil.

13. Procédé selon l’aspect 11 ou 12, comprenant en outre :
sur la base de la comparaison, la détermination s’il convient de sélectionner la deuxième traçabilité de données nouvellement générée ou la deuxième traçabilité de données précédemment générée en tant que deuxième traçabilité de données à conserver.

14. Procédé selon l’un des aspects précédents, comprenant en outre :
en réponse à la détection d’un changement dans la première traçabilité de données, la mise à jour de la deuxième traçabilité de données générée, ou la génération d’une nouvelle deuxième traçabilité de données, en fonction du changement détecté.

15. Procédé selon l’un quelconque des aspects précédents, chaque composant physique de la pluralité de composants physiques comprenant un ensemble de données et/ou une transformation.

16. Procédé selon l’un quelconque des aspects précédents, la première traçabilité de données étant générée au moins en partie en effectuant :
(a) l’analyse du code source d’au moins un programme informatique configuré pour accéder à au moins une partie de la pluralité de composants physiques afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé ; et/ou
(b) l’analyse des informations obtenues pendant l’exécution de l’au moins un programme informatique, comprenant l’analyse d’un ou plusieurs journaux générés pendant l’exécution du programme informatique afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé.

17. Procédé selon l’aspect 16, le ou les composants physiques auxquels le programme informatique accède comprenant une ou plusieurs entrées du programme informatique, et/ou une ou plusieurs transformations appliquées aux entrées du programme informatique, et/ou une ou plusieurs sorties du programme informatique.

18. Procédé selon l’un des aspects précédents, comprenant en outre :
avant de générer la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, le prétraitement des composants physiques de la partie identifiée de la première traçabilité de données, la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données étant exécutée sur la base d’un résultat du prétraitement.

19. Procédé selon l’aspect 18, le prétraitement comprenant :
l’identification d’un flux de commande et/ou d’une traçabilité de données interne associés à un ou plusieurs des composants physiques de la partie de la première traçabilité de données et l’exclusion du flux de commande et/ou de la traçabilité de données interne lors de la génération de la deuxième traçabilité de données.

20. Procédé selon l’un quelconque des aspects 9 à 19, la représentation graphique de la partie de la deuxième traçabilité de données générée comprenant des liens reliant les indicateurs graphiques des deuxièmes composants de la pluralité de deuxièmes composants, le procédé comprenant en outre :
la réception d’une sélection utilisateur pour l’un des liens ; et
sur la base du lien sélectionné, la génération d’une troisième traçabilité de données spécifiant des relations entre les composants physiques de la pluralité de composants physiques qui sont associés aux deuxièmes composants dont les indicateurs graphiques sont reliés par le lien sélectionné.

21. Procédé selon l’un quelconque des aspects précédents, comprenant en outre :
l’obtention d’une quatrième traçabilité de données spécifiant des relations entre des composants physiques d’une pluralité de composants physiques ;
la réception d’une identification d’une partie de la quatrième traçabilité de données ;
la génération d’une cinquième traçabilité de données à partir de la partie identifiée de la quatrième traçabilité de données, la cinquième traçabilité de données spécifiant des relations entre des cinquièmes composants d’une pluralité de cinquièmes composants, les cinquièmes composants de la pluralité de cinquièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la quatrième traçabilité de données ;
la comparaison de la cinquième traçabilité de données avec la deuxième traçabilité de données, comprenant la détermination s’il y a une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données ; et
l’émission en sortie s’il existe une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données.

22. Support lisible par ordinateur comprenant des instructions qui, lorsqu’elles sont exécutées par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’un quelconque des aspects précédents.

23. Système de traitement de données comprenant des moyens pour mettre en œuvre le procédé selon l’un quelconque des aspects 1 à 21.

24. Programme informatique comprenant des instructions qui, lorsque le programme informatique est exécuté par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’un quelconque des aspects 1 à 21.

La présente invention est définie par les modes de réalisation suivants. Certains des modes de réalisation préférés sont décrits dans les revendications dépendantes suivantes ainsi que dans la description ci-dessus et dans les figures ci-jointes. Après avoir décrit plusieurs aspects des modes de réalisation de la présente invention, il convient d’apprécier que diverses altérations, modifications et améliorations de ces aspects sont possibles dans le cadre de l’invention telle que définie par les revendications annexées.

Claims

Procédé mis en œuvre par ordinateur pour la conversion d’une première traçabilité de données en une deuxième traçabilité de données, comprenant :
l’obtention d’une première traçabilité de données spécifiant des relations entre les composants physiques d’une pluralité de composants physiques ;
la réception d’une identification d’une partie de la première traçabilité de données ;
la génération d’une deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, la deuxième traçabilité de données spécifiant des relations entre les deuxièmes composants d’une pluralité de deuxièmes composants, les deuxièmes composants de la pluralité de deuxièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la première traçabilité de données.
Procédé selon la revendication 1,
l’identification de la partie de la première traçabilité de données comprenant une identification d’un premier composant physique de la pluralité de composants physiques qui indique un point de départ pour la deuxième traçabilité de données et une identification d’un deuxième composant physique de la pluralité de composants physiques qui indique un point d’arrivée pour la deuxième traçabilité de données.
Procédé selon la revendication 2,
la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données comprenant la génération de la deuxième traçabilité de données en parcourant la première traçabilité de données du point de départ au point d’arrivée.
Procédé selon l’une quelconque des revendications précédentes,
l’identification de la partie de la première traçabilité de données étant basée sur l’entrée de l’utilisateur,
de préférence, l’entrée de l’utilisateur comprenant une sélection utilisateur du premier composant physique et/ou une sélection utilisateur du deuxième composant physique par l’utilisateur.
Procédé selon l’une quelconque des revendications précédentes,
chaque deuxième composant de la pluralité de deuxièmes composants étant associé par un lien d’identification à un composant physique correspondant de l’au moins une partie des composants physiques de la partie de la première traçabilité de données.
Procédé selon l’une quelconque des revendications précédentes, comprenant en outre :
l’émission en sortie de la deuxième traçabilité de données générée.
Procédé selon la revendication 6,
l’émission en sortie de la deuxième traçabilité de données générée comprenant l’affichage, dans une interface utilisateur graphique, d’une représentation graphique d’une partie de la deuxième traçabilité de données générée,
la représentation graphique de la partie de la deuxième traçabilité de données générée comprenant des indicateurs graphiques de deuxièmes composants de la pluralité de deuxièmes composants, de sorte que les indicateurs graphiques sont disposés dans la représentation graphique de la partie de la deuxième traçabilité de données générée d’une manière qui est conforme aux relations entre la pluralité de deuxièmes composants.
Procédé selon la revendication 7,
la représentation graphique de la partie de la deuxième traçabilité de données générée comprenant des liens reliant les indicateurs graphiques des deuxièmes composants de la pluralité de deuxièmes composants, le procédé comprenant en outre :
la réception d’une sélection utilisateur pour l’un des liens ; et
sur la base du lien sélectionné, la génération d’une troisième traçabilité de données spécifiant des relations entre les composants physiques de la pluralité de composants physiques qui sont associés aux deuxièmes composants dont les indicateurs graphiques sont reliés par le lien sélectionné.
Procédé selon l’une quelconque des revendications précédentes, la génération de la deuxième traçabilité de données étant exécutée automatiquement par l’ordinateur.
Procédé selon l’une quelconque des revendications précédentes, comprenant en outre :
l’exécution de manière répétée de la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données ;
la comparaison d’une deuxième traçabilité de données nouvellement générée avec une deuxième traçabilité de données précédemment générée de l’exécution répétée, comprenant la détermination s’il y a une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée ; et
l’émission en sortie s’il existe une différence entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée.
Procédé selon la revendication 10, comprenant en outre :
sur la base de la comparaison, la détermination, sur la base d’un ou de plusieurs critères, s’il convient de conserver ou d’abandonner une ou plusieurs différences déterminées entre la deuxième traçabilité de données nouvellement générée et la deuxième traçabilité de données précédemment générée pour une deuxième traçabilité de données à conserver, de préférence le ou les critères comprenant le fait qu’un nombre de différences dépasse une valeur seuil.
Procédé selon la revendication 10 ou 11, comprenant en outre :
sur la base de la comparaison, la détermination s’il convient de sélectionner la deuxième traçabilité de données nouvellement générée ou la deuxième traçabilité de données précédemment générée en tant que deuxième traçabilité de données à conserver.
Procédé selon l’une quelconque des revendications précédentes, comprenant en outre :
en réponse à la détection d’un changement dans la première traçabilité de données, la mise à jour de la deuxième traçabilité de données générée, ou la génération d’une nouvelle deuxième traçabilité de données, en fonction du changement détecté.
Procédé selon l’une quelconque des revendications précédentes, la première traçabilité de données étant générée au moins en partie en réalisant :
(a) l’analyse du code source d’au moins un programme informatique configuré pour accéder à au moins une partie de la pluralité de composants physiques afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé ; et/ou
(b) l’analyse des informations obtenues pendant l’exécution de l’au moins un programme informatique, comprenant l’analyse d’un ou plusieurs journaux générés pendant l’exécution du programme informatique afin d’identifier un ou plusieurs composants physiques auxquels le programme informatique a accédé, de préférence
le ou les composants physiques auxquels le programme informatique a accédé comprenant une ou plusieurs entrées du programme informatique, et/ou une ou plusieurs transformations appliquées aux entrées du programme informatique, et/ou une ou plusieurs sorties du programme informatique.
Procédé selon l’une quelconque des revendications précédentes, comprenant en outre :
avant la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données, le pré-traitement des composants physiques de la partie identifiée de la première traçabilité de données, la génération de la deuxième traçabilité de données à partir de la partie identifiée de la première traçabilité de données étant exécutée sur la base d’un résultat du prétraitement, de préférence
le prétraitement comprenant :
l’identification d’un flux de commande et/ou d’une traçabilité de données interne associés à un ou plusieurs des composants physiques de la partie de la première traçabilité de données et l’exclusion du flux de commande et/ou de la traçabilité de données interne lors de la génération de la deuxième traçabilité de données.
Procédé selon l’une quelconque des revendications précédentes, comprenant en outre :
l’obtention d’une quatrième traçabilité de données spécifiant des relations entre des composants physiques d’une pluralité de composants physiques ;
la réception d’une identification d’une partie de la quatrième traçabilité de données ;
la génération d’une cinquième traçabilité de données à partir de la partie identifiée de la quatrième traçabilité de données, la cinquième traçabilité de données spécifiant des relations entre des cinquièmes composants d’une pluralité de cinquièmes composants, les cinquièmes composants de la pluralité de cinquièmes composants étant associés à au moins certains des composants physiques de la partie identifiée de la quatrième traçabilité de données ;
la comparaison de la cinquième traçabilité de données avec la deuxième traçabilité de données, comprenant la détermination s’il y a une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données ; et
l’émission en sortie s’il existe une différence entre la cinquième traçabilité de données et la deuxième traçabilité de données.
Support lisible par ordinateur comprenant des instructions qui, lorsqu’elles sont exécutées par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’une quelconque des revendications précédentes.
Système de traitement de données comprenant des moyens pour mettre en œuvre le procédé selon l’une quelconque des revendications 1 à 16.
Programme informatique comprenant des instructions qui, lorsque le programme informatique est exécuté par un ordinateur, amènent l’ordinateur à mettre en œuvre le procédé selon l’une quelconque des revendications 1 à 16.