WO1999001825A1

WO1999001825A1 - Procede de construction d'un reseau de neurones pour la modelisation d'un phenomene

Info

Publication number: WO1999001825A1
Application number: PCT/FR1998/001381
Authority: WO
Inventors: Hervé STOPPIGLIA; Gérard Dreyfus
Original assignee: INFORMATIQUE CDC
Current assignee: INFORMATIQUE CDC
Priority date: 1997-07-02
Filing date: 1998-06-29
Publication date: 1999-01-14
Anticipated expiration: 2000-01-02
Also published as: FR2765705B1; FR2765705A1

Abstract

L'invention concerne la construction d'un réseau de neurones. Elle se rapporte à un procédé qui comprend la détermination des variables à incorporer au modèle optimal par évaluation des résultats, et la construction d'un réseau de neurones par détermination des liaisons des neurones en fonction d'un modèle obtenu. Il comprend l'introduction d'une variable supplémentaire qui possède des valeurs aléatoires, la détermination et le classement des descripteurs des variables, par application d'un critère de comparaison des résultats, pour la détermination d'un ordre de signification décroissante des descripteurs, puis l'élimination d'une variable dont le descripteur est classé après celui de la variable supplémentaire. Application à la modélisation des phénomènes.

Description

Procédé de construction d'un réseau de neurones pour la modélisation d'un phénomène

La présente invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, ainsi qu'un réseau de neurones réalisé par mise en oeuvre du procédé selon l'invention.

Bien que l'invention concerne un perfectionnement apporté à la construction des réseaux de neurones, on ne décrit pas l'ensemble des principes et procédés utilisés de façon classique pour la construction des réseaux de neurones car ils sont connus depuis longtemps, et il existe une littérature considérable à leur sujet. On ne décrit donc la technique antérieure que dans la mesure où l'invention s'y rapporte, et on décrit l'invention en référence à ces aspects de la technique antérieure.

On considère d'abord un certain nombre de définitions utilisées dans le présent mémoire et qui sont en général celles de la technique antérieure.

Les réseaux de neurones sont des circuits matériels, réalisés par exemple sous forme de circuits intégrés, mais qui peuvent aussi être réalisés uniquement sous forme d'un logiciel. Un neurone est un élément qui possède des entrées destinées à recevoir des signaux représentatifs de variables et une ou plusieurs sorties, et il transmet des données de sortie ou de résultat par application d'une fonction d ' activation .

Dans un réseau de neurones, il existe, en plus des neurones, des entrées, au moins une sortie et des liaisons formées entre les entrées et les neurones et entre les neurones et les sorties, et éventuellement entre les neurones. On démontre qu'un réseau de neurones du type précité et qui comporte plusieurs couches, c'est-à-dire ayant des liaisons en cascade entre des sorties de neurones d'une couche et des entrées de neurones d'une autre couche, est équivalent à un réseau de neurones à une seule couche dite "cachée", c'est-à-dire que tous les neurones du réseau n'ont des liaisons qu'avec les entrées et les sorties. Les variables sont des grandeurs qui peuvent prendre plusieurs valeurs et participent au phénomène qu'on veut modéliser. Le phénomène qu'on veut modéliser peut être quelconque, mais les réseaux de neurones sont évidemment appli- qués à des phénomènes dont on ne connaît pas la fonction qui lie les variables au résultat. Si l'on connaît cette fonction, il est plus simple et plus précis de réaliser directement un circuit mettant en oeuvre la fonction.

Un modèle d'un phénomène est représenté à la fois par l'ensemble des variables et par le traitement qu'elles subissent pour donner le résultat, notamment par les fonctions d'activation des neurones. Un sous -modèle est un modèle dont une variable au moins a été éliminé.

La validité d'un modèle est déterminée par apprentis - sage, c'est-à-dire par utilisation, comme signaux d'entrée, des valeurs de variables qui ont été déterminées et dont on connaît le résultat. L'apprentissage comprend l'application de plusieurs exemples, c'est-à-dire de plusieurs groupes de valeurs de variables, avec obtention de résultats qui peuvent être comparés aux résultats des exemples.

L'appréciation de la validité d'un modèle s'effectue par comparaison du résultat obtenu dans l'apprentissage avec le résultat de l'exemple considéré.

On utilise aussi des "descripteurs" qui sont des ensembles des valeurs d'une même variable dans un ensemble d'exemples utilisés pour l'apprentissage. Cet ensemble des valeurs de variables peut avoir diverses formes . Dans un exemple particulièrement intéressant, constituant un mode de réalisation préféré de l'invention, les descripteurs sont des vecteurs à N dimensions, N étant le nombre d'exemples utilisés pour l'apprentissage. Ces vecteurs agissent donc dans un espace à N dimensions. Chacun de ces vecteurs est orthogonal à un espace à N-l dimensions qui est défini comme étant l'espace à N-l dimensions dans lequel la projection du vecteur du descripteur, supposé non nul, est un point.

Les définitions qui précèdent des termes utilisés dans le présent mémoire suggèrent déjà le problème auquel s'applique l'invention et qui est la modélisation d'un phénomène, permettant la réalisation optimale d'un réseau de neurones dont les entrées reçoivent les valeurs des variables et dont la sortie ou les sorties représentent des données de résultat. Le procédé de construction d'un tel réseau de neurones comprend en général, de manière connue, une première phase qui, à partir d'un groupe de variables trop important, détermine les seules variables qui doivent être utilisées parce qu'elles ont une signification dans le phénomène, et une seconde phase de construction d'un réseau de neurones optimal qui, à partir des signaux représentatifs des valeurs des variables, transmet des données de résultat représentant le phénomène.

De manière connue, la première phase comprend la détermination de descripteurs, en nombre excessif, et la sélection, parmi l'ensemble des modèles possibles, de celui qui explique de la meilleure manière possible le phénomène observé. Il faut noter que cette explication doit tenir compte de la performance du modèle (faible écart entre le résultat donné par le modèle et les observations) , mais aussi de sa complexité (notamment parce que le traitement doit être aussi rapide que possible) .

On pourrait évaluer tous les modèles possibles. Il faut noter qu'un modèle a un type (par exemple linéaire ou non, statique ou dynamique, ...), une structure (définie par la famille de fonctions envisagées et l'ensemble des variables descriptives nécessaires) , et des paramètres (qui définissent la fonction choisie parmi la famille F de fonctions). Une première possibilité de sélection d'un modèle comprend la prise en considération d'un modèle complet utilisant tous les descripteurs, puis la réalisation de tous les sous-modèles possibles et, parmi ces sous- modèles possibles, la sélection du meilleur. Il faut alors estimer un nombre de modèles extrêmement important. En effet, lorsque le nombre de variables, et donc de descripteurs, est égal à P, il faut estimer 2^P modèles séparément. Par exemple, lorsque l'ensemble comporte quinze variables, le nombre de modèles possibles à comparer est de 32 768. Ce nombre devient vite extrêmement grand si bien que ce procédé devient rapidement inutilisable.

On a donc mis au point d'autres procédés permettant de réduire le nombre de modèles à évaluer. On connaît ainsi des procédés destructif et constructif. Dans le premier procédé, on utilise, à partir du modèle complet à P descripteurs, tous les sous-modèles possibles à P-l descripteurs, on sélectionne celui qui donne la meilleure performance, et, si le sous-modèle est meilleur que le modèle complet, on reprend la procédure à partir de celui-ci alors que, s'il n'est pas meilleur que le modèle complet, on repart du modèle complet. Dans le procédé "constructif", on part d'un modèle à 0 descripteur et on construit les P modèles à 1 descripteur, on choisit le meilleur de ces modèles et on poursuit la procédure par addition d'un descripteur, jusqu'à ce que le modèle obtenu soit meilleur que tous les modèles obtenus par augmentation du nombre de descripteurs d'une unité. Ces deux procédés permettent une réduction très importante du nombre de modèles à évaluer.

Par rapport au procédé de sélection de modèle par évaluation de tous les modèles, les deux procédés précités peuvent ne pas donner un modèle optimal. Cependant, ils doivent être souvent utilisés dans la mesure où l'évaluation de la totalité des modèles possibles est en dehors des possibilités des machines disponibles de calcul. Lorsque les deux procédés (destructif et constructif) conduisent à un même modèle, la probabilité de celui-ci d'être le meilleur modèle est accrue. L'exécution successive des deux procédés constructif et destructif nécessite l'évaluation de P² modèles, c'est-à-dire un nombre très inférieur à 2^P modèles nécessaires pour l'évaluation de la totalité des modèles.

Les procédés de sélection des modèles nécessitent donc de nombreuses estimations de paramètres et l'emploi de tests d'hypothèses statistiques ou de critères d'information qui ne sont pas toujours faciles à comprendre par les utilisateurs non initiés. L'invention met en oeuvre un nouveau procédé pour la construction du réseau de neurones dans lequel est utilisé un nouveau procédé d'évaluation des modèles. Plus précisément, selon l'invention, les descripteurs sont ordonnés par ordre de signification décroissante. Au départ, l'ensemble des P descripteurs est suffisamment important pour décrire les données. Parmi ces P descripteurs, on détermine celui qui décrit le mieux la sortie voulue, puis le second et ainsi de suite. On obtient ainsi un classement des descripteurs. On considère alors les sous-modèles constitués par un seul descripteur, deux descripteurs, trois descripteurs, etc., en commençant à chaque fois par le descripteur le plus significatif. Il est donc possible de considérer un nombre très réduit de modèles. En outre, selon l'invention, on utilise au moins une variable supplémentaire qui a un descripteur supplémentaire qui est aléatoire, c'est-à-dire que les valeurs de la variable supplémentaire sont purement aléatoires . Lorsque les descripteurs sont ordonnés, on considère que tous ceux qui se trouvent après le descripteur aléatoire ont une signification qui n'est pas supérieure à celle du descripteur aléatoire et peuvent donc être éliminés.

Plus précisément, dans un premier aspect, l'invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, du type qui comprend, dans une première étape, la détermination des variables qui doivent être utilisées dans des modèles du phénomène par déter- mination de descripteurs représentatifs chacun des valeurs d'une variable, dans une seconde étape, la sélection des variables à incorporer à au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, et dans une troisième étape, la construction d'un réseau de neurones par détermination des liaisons des neurones en fonction d'un modèle optimal obtenu ; selon l'invention, le procédé comprend aussi, pendant ou avant la première étape de détermination des descripteurs, l'introduction d'au moins une variable supplémentaire qui possède des valeurs aléatoires, et la détermination d'un descripteur représentatif des valeurs de cette variable supplémentaire, le classement des descripteurs, y compris celui de la variable supplémentaire, par application d'un critère de comparaison des résultats donnés par les modèles aux données représentatives du résultat du phénomène, avec détermination d'un ordre de signification décroissante des descripteurs, puis l'élimination d'au moins un descripteur qui, dans l'ordre de signification décroissante des descripteurs, est classé après le descripteur représentatif des valeurs de la variable supplémentaire.

Dans un mode de réalisation avantageux, le procédé comporte en outre la représentation des descripteurs et du résultat du phénomène par des vecteurs d'un espace à N dimensions, N étant le nombre d'exemples d'un ensemble d'exemples d'apprentissage du phénomène, chaque exemple comprenant au moins une valeur de chacune des variables et au moins une donnée représentative du résultat du phénomène pour les valeurs correspondantes des variables . Dans ce mode de réalisation, le critère de comparaison utilisé pour le classement des descripteurs est avantageusement une comparaison, dans l'espace à N dimensions, des angles formés par un vecteur représentatif d'un descripteur avec le vecteur représentatif du résultat du phénomène.

Dans ce mode de réalisation, l'étape de classement comprend de préférence la détermination du premier descripteur dans l'ordre de signification décroissante des descripteurs, et la projection des vecteurs descripteurs restants et du vecteur résultat sur l'espace à une dimension de moins qui est orthogonal à ce premier descripteur ; ensuite, cette étape comprend le classement des descripteurs dans cet espace à une dimension de moins pour la déter- mination du premier, dans l'ordre de signification décroissante, des descripteurs restants, et la projection des vecteurs descripteurs restants et du vecteur résultat sur un espace à une dimension de moins qui est orthogonal au premier descripteur dans l'ordre de signification décrois - santé des descripteurs restants, puis la répétition de ces étapes jusqu'au classement de tous les descripteurs ou jusqu'au classement du descripteur représentatif des valeurs de la variable supplémentaire.

De préférence, la construction d'au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles comprend la construction de plusieurs sous- modèles successifs du phénomène, chaque sous-modèle contenant une variable de plus que le sous-modèle précédent, la variable ajoutée étant choisie dans l'ordre de signification décroissante des descripteurs, la variable du premier sous- modèle étant soit une constante, soit la variable la plus significative, et la sélection d'un sous-modèle comme modèle optimal par utilisation d'un critère de sélection.

Dans cet exemple de réalisation, le critère de sélec- tion d'un sous-modèle comprend de préférence la sélection du sous-modèle ayant le plus grand nombre de descripteurs donnant un niveau de risque de sélection de la variable supplémentaire qui est inférieur à un niveau choisi de seuil . Dans un second aspect, l'invention concerne un procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables qui sont représentées par des descripteurs, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, par détermination des liaisons des neurones en fonction du modèle ; le procédé comprend : - la construction d'un réseau de neurones à une seule couche dont le nombre de neurones est certainement trop élevé, les entrées des neurones correspondant aux descripteurs du modèle, le réseau de neurones contenant en outre, dans sa couche unique, au moins un neurone supplémentaire ayant une fonction d'activation dont les paramètres ont des valeurs aléatoires, et

- l'exécution d'un processus comprenant, avec le nombre trop élevé de neurones, un apprentissage des neurones par utilisation des descripteurs, et l'élimination au moins du neurone ayant la contribution la moins significative au résultat, afin que le réseau ait un nombre plus petit de neurones, puis

- la répétition de ce processus avec le nombre plus petit de neurones, au moins jusqu'à ce que le neurone à éliminer soit un neurone supplémentaire.

Dans ce mode de réalisation, l'apprentissage des neurones par utilisation des descripteurs est effectué de préférence avec une partie seulement des exemples. Il est avantageux que l'exécution d'un processus comprenne, avant l'élimination d'un neurone, au moins une répétition d'un apprentissage pour la confirmation du neurone ayant la contribution la moins significative.

Il est avantageux que le modèle du phénomène utilisé soit un modèle optimal obtenu par mise en oeuvre du procédé selon le premier aspect de l'invention.

D'autres caractéristiques et avantages de l'invention ressortiront mieux de la description qui suit d'un exemple de réalisation, faite en référence au dessin annexé sur lequel : - la figure 1 est un diagramme vectoriel représentant géométriquement un algorithme de comparaison des descripteurs ; - la figure 2 est un graphique indiquant les résultats obtenus d'une part avec une procédure dite "de Gram-Schmidt" et d'autre part avec évaluation des performances de tous les sous -modèles d'un ensemble complet ; - la figure 3 est un graphique indiquant le résultat donné par l'algorithme d'évaluation de Gram-Schmidt et la répartition du classement de la variable aléatoire ; et

- la figure 4 est un graphique illustrant un processus modêlisé dans un exemple de mise en oeuvre du procédé de l'invention.

On considère un exemple plus détaillé de mise en oeuvre de 1 ' invention en référence à un exemple dans lequel on cherche à modéliser un processus.

On dispose de P descripteurs (c'est-à-dire qu'on suppose initialement que P variables peuvent participer au résultat) . On construit donc P descripteurs sous forme de vecteurs dans un espace à N dimensions, N étant le nombre d'exemples. Chaque exemple comprend une valeur de chacune des P variables, et au moins la valeur d'un résultat. Pour le classement des descripteurs, on utilise avantageusement l'algorithme d¹ orthogonalisation de Gram-Schmidt modifié qu'on décrit maintenant rapidement. On peut cependant se reporter avantageusement, pour plus de détails, à l'article de S.Chen, S.A.Billings et .Luo, "Orthogonal least squares methods and their application to non-linear System identification". International Journal of Control, Vol. 50, n° 5, p. 1873 à 1896, 1989.

L'algorithme d' orthogonalisation de Gram-Schmidt considère les descripteurs et la sortie voulue comme des vecteurs. Les notations sont les suivantes :

avec x. à 1 ' entrée P et Y

La matrice X est la matrice des entrées (P colonnes correspondent aux P descripteurs du modèle et N lignes représentent les N exemples de l'ensemble d'apprentissage). On considère que la matrice X est composée de P vecteurs représentant chacun une entrée. Le vecteur Y est le vecteur de sortie (N lignes correspondent aux sorties observées des N exemples) .

A la première itération, on détermine le vecteur d'entrée qui "explique" le mieux la sortie. Pour cela, on détermine l'angle du vecteur de sortie avec chaque vecteur d'entrée. On évalue à cet effet le carré des cosinus des angles. Le vecteur sélectionné est celui pour lequel le carré des cosinus est maximal.

Une fois déterminé ce vecteur le plus significatif, on élimine sa contribution en projetant le vecteur de sortie et tous les vecteurs d'entrée restants sur un sous-espace ou espace à N-l dimensions qui est orthogonal au vecteur sélectionné.

L'algorithme se poursuit jusqu'à ce que tous les vecteurs d'entrée aient été ordonnés. Selon l'invention, on peut interrompre l'évaluation lorsqu'on doit sélectionner le vecteur aléatoire.

A chaque itération, on calcule la solution ordinaire des moindres carrés et la valeur de 1 ' écart quadratique moyen correspondant. L'estimation des paramètres de la régression des moindres carrés est obtenue par résolution d'une équation linéaire ayant une matrice triangulaire supérieure et la norme du vecteur de sortie projeté détermine la valeur de l'écart quadratique moyen. La figure 1 indique l'interprétation géométrique de l'algorithme qu'on vient de décrire. Sur cette figure, on a représenté un espace à deux dimensions. Le vecteur de sortie Y est mieux "expliqué" par le vecteur X₂ que par le vecteur X_λ (l'angle θ₂ est plus petit que l'angle θ_x) . On sélectionne donc X₂ comme premier descripteur. Pour éliminer la partie expliquée par ce descripteur, on projette les vecteurs Y et X-_L (et de façon générale tous les vecteurs restants) sur le sous-espace orthogonal au vecteur X₂. Les projections sont utilisées pour la sélection du descripteur suivant mais, dans le cas de deux dimensions, il n'en existe plus puisqu'il ne reste plus qu'un seul vecteur d'entrée X-_]_ . L'algorithme de Gram-Schmidt qu'on vient de décrire ne donne pas toujours le résultat optimal. La figure 2 indique les résultats obtenus d'une part avec l'algorithme de Gram- Schmidt et d'autre part avec évaluation des performances des 1 024 sous-modèles d'un ensemble complet comprenant quinze points d'apprentissage de dix descripteurs dont cinq seulement sont pertinents. Les croix représentent les résultats des 1 024 sous-modèles possibles et la courbe le sous-modèle sélectionné par l'algorithme de Gram-Schmidt. On note que, à l'exception du sous-modèle à trois descripteurs, les sous- modèles obtenus sont toujours les meilleurs.

On a porté sur la figure 3 en superposition, en fonction du nombre de descripteurs, le résultat donné par l'algorithme d'évaluation de Gram-Schmidt et la répartition du classement de la variable aléatoire, avec indication, sur l'échelle des ordonnées de droite, de la probabilité en pourcentage. On note ainsi que la probabilité pour que la variable aléatoire soit comprise dans les cinq premiers descripteurs est inférieure à 10 %. On peut ainsi déterminer que, si l'on sélectionne un sous-modèle à cinq descripteurs, la probabilité pour qu'une variable aléatoire explique mieux le problème posé qu'un des cinq descripteurs sélectionnés est inférieure à 10 %. Le niveau de risque détermine le nombre de descripteurs retenu. Ce niveau de risque ne doit pas être trop élevé, car des variables non significatives peuvent alors d'être incorporées. Il ne doit pas être trop faible car des valeurs significatives peuvent de ne pas être incorporées. Dans le cas représenté, les seules possibilités de sélection sont cinq ou six descripteurs, c'est-à-dire le nombre réel de descripteurs significatifs ou ce nombre augmenté d'un descripteur non significatif.

Cette répartition du classement de la variable aléatoire peut aussi être réalisée uniquement par le calcul, mais on ne décrit pas celui-ci.

Le traitement qu'on vient de décrire permet ainsi de déterminer les descripteurs qui doivent être conservés et le modèle optimal. On peut alors construire un réseau de neu- rones.

On a déjà démontré que n'importe quel réseau de neurones à plusieurs couches de type non bouclé pouvait être représenté par un réseau de neurones à une seule couche cachée. On utilise donc initialement un réseau de neurones à une couche cachée dont le nombre de descripteurs (couche d'entrées) a été déterminé, et ayant un nombre de neurones trop élevé, puis on élimine les neurones qui n'ont pas une contribution significative. On poursuit l'apprentissage avec les neurones restants, et on élimine à nouveau les neurones inutiles. On arrête la procédure lorsqu'on n'élimine plus aucun neurone .

Dans un mode de réalisation particulièrement avantageux de l'invention, on utilise un processus analogue à celui de la sélection des descripteurs pour la sélection des neu- rones. Plus précisément, on introduit un neurone supplémentaire ayant une fonction d'activation qui n'est pas linéaire et dont les paramètres sont aléatoires. Dans cette réalisation, on exécute la procédure jusqu'à ce que ce neurone supplémentaire se classe après les autres neurones. (De manière connue, les fonctions d'activation sont continues, dérivables et bornées, et des exemples sont les fonctions trigonométriques hyperboliques, telles que la tangente hyperbolique, et les fonctions gaussiennes) .

Si l'on dispose d'un très grand nombre d'exemples pour l'apprentissage, il est possible que le neurone supplémentaire soit tout de suite classé le dernier. Dans ce cas, l'utilisation d'un tel neurone supplémentaire ne présente pas d'intérêt. Il est alors préférable d'utiliser un sous- ensemble réduit pour l'apprentissage, afin que le neurone supplémentaire ne soit pas immédiatement le dernier. L'apprentissage s'effectue sur les exemples de ce sous- ensemble, on conserve la valeur moyenne de l'écart quadratique sur le reste de l'ensemble, et on applique la procédure de sélection aux exemples du sous -ensemble ; les coefficients du réseau de neurones correspondent à la valeur moyenne minimale de l'écart quadratique ainsi calculé. De cette manière, on supprime les neurones classés après le neurone supplémentaire.

Le procédé selon l'invention présente, grâce au classement des descripteurs, l'intérêt d'indiquer quelles sont les variables les plus significatives. Il permet une réduction considérable du temps de calcul nécessaire pour l'évaluation des descripteurs significatifs, puis pour la construction du réseau de neurones .

L'invention concerne aussi des réseaux de neurones réalisés par mise en oeuvre du procédé précité. Ces réseaux de neurones, lorsque leur structure optimale a été ainsi évaluée par mise en oeuvre du procédé de l'invention, peuvent être réalisés par exemple sous forme de circuits intégrés, avec détermination des liaisons entre les entrées, les neurones et la sortie ou les sorties, et avec déter- mination des fonctions d'activation des neurones. Exemple

On considère maintenant, à titre d'illustration, un exemple d'application de l'invention à la solution d'un problème de modélisation destiné à la simulation d'un processus.

La figure 4 est un graphique représentant, en ordonnées, la valeur donnée par un processus (sur une échelle allant de —15 à +15) en fonction du temps t, porté en abscisses. La courbe en trait gras représente la valeur donnée y_p(t) par le processus en fonction d'une commande u(t) représentée par la courbe en trait fin. Dans la première phase du procédé, on choisit 20 variables possibles y_p(t—1) à y_p(t—10) et u(t—1) à u(t—10). Le graphique de la figure 4 permet d'établir 20 descripteurs correspondant aux 20 variables pour 1 000 exemples. On ajoute un descripteur aléatoire, on exécute la première phase du procédé, et on obtient finalement les 3 variables y_p(t-l), y_p(t-2) et u(t-l).

On construit alors un réseau de neurones représentatif de ce processus. On utilise initialement un réseau à 20 neurones, plus un neurone aléatoire, chaque neurone ayant une fonction d'activation en forme de sigmoïde. Après un premier passage, il reste 17 neurones. Après un second passage, il reste 14 neurones. Le traitement s'arrête à 11 ou 12 neurones . Pour évaluer l'intérêt du procédé de l'invention, on construit 21 réseaux de neurones différents (de 0 à 20 neurones) , et on les compare pour déterminer le meilleur, par détermination de l'écart quadratique moyen en fonction du nombre de neurones. Cette évaluation est très longue et nécessite d'importants moyens de calcul. Le résultat indique que le meilleur réseau comporte 11 neurones. Ce résultat confirme l'exactitude du résultat obtenu beaucoup plus rapidement par le procédé de l'invention.

Il est bien entendu que l'invention n'a été décrite et représentée qu'à titre d'exemple préférentiel et qu'on pourra apporter toute équivalence technique dans ses éléments constitutifs sans pour autant sortir de son cadre.

Claims

REVENDICATIONS 1. Procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau comprenant des entrées destinées à recevoir des signaux repré- sentatifs de valeurs de variables, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, du type qui comprend : dans une première étape, la détermination des variables qui doivent être utilisées dans des modèles du phénomène par détermination de descripteurs représentatifs chacun des valeurs d'une variable, dans une seconde étape, la sélection des variables à incorporer à au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, et dans une troisième étape, la construction d'un réseau de neurones par détermination des liaisons des neurones en fonction d'un modèle optimal obtenu, caractérisé en ce que le procédé comprend

- pendant ou avant la première étape de détermination des descripteurs, l'introduction d'au moins une variable supplémentaire qui possède des valeurs aléatoires, et la détermination d'un descripteur représentatif des valeurs de cette variable supplémentaire,

- le classement des descripteurs, y compris celui de la variable supplémentaire, par application d'un critère de comparaison des résultats donnés par les modèles aux données représentatives du résultat du phénomène, avec détermination d'un ordre de signification décroissante des descripteurs, puis

- l'élimination d'au moins un descripteur qui, dans l'ordre de signification décroissante des descripteurs, est classé après le descripteur représentatif des valeurs de la variable supplémentaire.

2. Procédé selon la revendication 1, caractérisé en ce qu'il comporte en outre la représentation des descripteurs et du résultat du phénomène par des vecteurs d'un espace à N dimensions, N étant le nombre d'exemples d'un ensemble d'exemples d'apprentissage du phénomène, chaque exemple comprenant au moins une valeur de chacune des variables et au moins une donnée représentative du résultat du phénomène pour les valeurs correspondantes des variables.

3. Procédé selon la revendication 2, caractérisé en ce que le critère de comparaison utilisé pour le classement des descripteurs est une comparaison, dans l'espace à N dimensions, des angles formés par un vecteur représentatif d'un descripteur avec le vecteur représentatif du résultat du phénomène .

4. Procédé selon la revendication 3, caractérisé en ce que 1 ' étape de classement comprend la détermination du premier descripteur dans l'ordre de signification décroissante des descripteurs, et la projection des vecteurs descripteurs restants et du vecteur résultat sur l'espace à une dimension de moins qui est orthogonal à ce premier descripteur, puis le classement des descripteurs dans cet espace à une dimension de moins pour la détermination du premier, dans l'ordre de signification décroissante, des descripteurs restants, et la projection des vecteurs des- cripteurs restants et du vecteur résultat sur un espace à une dimension de moins qui est orthogonal au premier descripteur dans l'ordre de signification décroissante des descripteurs restants, et la répétition de ces étapes jusqu'au classement de tous les descripteurs ou jusqu'au classement du descripteur représentatif des valeurs de la variable supplémentaire.

5. Procédé selon l'une quelconque des revendications précédentes, caractérisé en ce que la construction d'au moins un modèle optimal du phénomène par évaluation des résultats de plusieurs modèles, comprend

- la construction de plusieurs sous-modèles successifs du phénomène, chaque sous-modèle contenant une variable de plus que le sous-modèle précédent, la variable ajoutée étant choisie dans l'ordre de signification décroissante des descripteurs, la variable du premier sous-modèle étant soit une constante, soit la variable la plus significative, et - la sélection d'un sous-modèle comme modèle optimal par utilisation d'un critère de sélection.

6. Procédé selon la revendication 5, caractérisé en ce que le critère de sélection d'un sous-modèle comprend la sélection du sous-modèle ayant le plus grand nombre de descripteurs donnant un niveau de risque de sélection de la variable supplémentaire qui est inférieur à un niveau choisi de seuil.

7. Procédé de construction d'un réseau de neurones destiné à la modélisation d'un phénomène, le réseau compre- nant des entrées destinées à recevoir des signaux représentatifs de valeurs de variables qui sont représentées par des descripteurs, des neurones destinés à appliquer une fonction d'activation aux signaux qu'ils reçoivent, au moins une sortie destinée à transmettre des données de résultat du modèle du phénomène, et des liaisons formées entre les entrées et les neurones et entre les neurones et la sortie, par détermination des liaisons des neurones en fonction du modèle, caractérisé en ce qu'il comprend :

- la construction d'un réseau de neurones à une seule couche dont le nombre de neurones est certainement trop élevé, les entrées des neurones correspondant aux descripteurs du modèle, le réseau de neurones contenant en outre, dans sa couche unique, au moins un neurone supplémentaire ayant une fonction d'activation dont les paramètres ont des valeurs aléatoires, et

- l'exécution d'un processus comprenant, avec le nombre trop élevé de neurones, un apprentissage des neurones par utilisation des descripteurs, et l'élimination au moins du neurone ayant la contribution la moins significative au résultat, afin que le réseau ait un nombre plus petit de neurones, puis - la répétition de ce processus avec le nombre plus petit de neurones, au moins jusqu'à ce que le neurone à éliminer soit un neurone supplémentaire.

8. Procédé selon la revendication 7, caractérisé en ce que l'apprentissage des neurones par utilisation des descripteurs est effectué avec une partie seulement des exemples .

9. Procédé selon l'une des revendications 7 et 8, caractérisé en ce que l'exécution d'un processus comprend, avant l'élimination d'un neurone, au moins une répétition d'un apprentissage pour la confirmation du neurone ayant la contribution la moins significative.

10. Procédé selon l'une quelconque des revendications 7 à 9, caractérisé en ce que le modèle du phénomène utilisé est un modèle optimal obtenu par mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 6.