EP1588229A2

EP1588229A2 - Verfahren zur ermittlung des zulässigen arbeitsbereichs eines neuronalen netzes

Info

Publication number: EP1588229A2
Application number: EP04700118A
Authority: EP
Inventors: Georg Mogk; Thomas Mrziglod; Peter HÜBL
Original assignee: Bayer Technology Services GmbH
Current assignee: Bayer AG
Priority date: 2003-01-16
Filing date: 2004-01-05
Publication date: 2005-10-26
Also published as: US20040172375A1; WO2004063832A3; WO2004063832A2; EP1588229A3; DE10301420A1

Abstract

Die Erfindung betrifft ein Verfahren zur Prüfung, ob ein Eingabedatensatz in dem zulässigem Arbeitsbereich eines neuronalen Netzes liegt, mit folgenden Schritten:- Definition der konvexen Hülle, die von den Trainingseingabesätzen des neuronalen Netzes aufgespannt wird, und deren Umgebung als zulässigen Arbeitsbereich eines neuronalen Netzes.- Prüfung, ob der Eingabedatensatz in der konvexen Hülle liegt.

Description

Verfahren zur Ermittlung des zulässigen Arbeitsbereichs eines neuronalen

Netzes

Die Erfindung betrifft ein Verfahren zur Prüfung, ob ein Eingabedatensatz im zulässigen Arbeitsbereich eines neuronalen Netzes liegt, sowie ein entsprechendes Compute rogrammprodukt und System.

Aus dem Stand der Technik sind eine Vielzahl von Anwendungsmöglichkeiten für neuronale Netze bekannt. Neuronale Netze werden zur datengetriebenen Modellbildung zum Beispiel für physikalische, biologische, chemische und technische Vorgänge und Systeme eingesetzt, vgl. Babel .: Einsatzmöglichkeiten neuronaler Netze in der Industrie: Mustererkennung anhand überwachter Lernverfahren - mit Beispielen aus der Verkehrs- und Medizintechnik, Expert Verlag, Renningen- Malmsheim, 1997. Insbesondere gehören zu den Einsatzgebieten neuronaler Netze die Prozessoptimierung, Bildverarbeitung, Mustererkennung, Robotersteuerung und die Medizintechnik.

Bevor ein neuronales Netz zu Prognose- oder Optimierungszwecken eingesetzt werden kann, muss es trainiert werden. Dabei werden üblicherweise die Gewichte der Neuronen durch ein iteratives Verfahren anhand von Trainingsdaten angepasst, vgl. Bärmann F.: Prozessmodellierung: Modellierung von Kontianlagen mit neuronalen Netzen, Internetseite NN-Tool, www.baermann.de und Bärmann F.: Neuronale Netze. Skriptum zur Vorlesung. FH-Gelsenkirchen, Fachbereich Physikalische Technik, Fachgebiet Neuroinformatik, 1998.

Für das Training eines neuronalen Netzes eignet sich besonders das sogenannte back- propagation Verfahren. Ein weiterer Ansatz ist in dem Programm „NN-Tool 2000" implementiert. Dieses Programm ist kommerziell erhältlich von Professor Frank Bärmann, Fachhochschule Gelsenkirchen, Fachbereich physikalische Technik. Das entsprechende Trainingsverfahren ist auch in der Publikation „Neural Network", Volume 5, Seiten 139 bis 144, 1992, „On a class of efficient learning algorithms for neural networks", Frank Bärmann, Friedrich Biegler-König, beschrieben.

Aus der DE 195 31 967 ist ein Verfahren zum Training eines neuronalen Netzes mit dem nichtdeterministischen Verhalten eines technischen Systems bekannt. Das neuronale Netz wird dabei so in einen Regelkreis eingebunden, dass das neuronale Netz als Ausgangsgröße eine Stellgröße an das technische System abgibt und das technische System aus der von dem neuronalen Netz zugeführten Stellgröße eine Regelgröße erzeugt, die dem neuronalen Netz als Eingangsgröße zugeführt wird. Die Stell- große wird mit einem Rauschen von bekannter Rauschverteilung überlagert, bevor sie dem technischen System zugeführt wird. Weitere Verfahren zum Trainieren neuronaler Netze sind bekannt aus DE 692 28 412 T2 und DE 198 38 654 Cl.

Ferner ist aus dem Stand der Technik ein Verfahren zur Abschätzung der Vertrau- enswürdigkeit der von einem neuronalen Netz abgegebenen Prognose bekannt:

Protzel P.: Kindermann L., Tagscherer M., Lewandowski A. „Abschätzung der Vertrauenswürdigkeit von Neuronalen Netzprognosen bei der Prozessoptimierung", VDI Berichte NR. 1526, 2000. Aus der EP 0 762 245 Bl ist ferner ein Verfahren zur Erkennung von fehlerhaften Vorhersagen in einer neuromodellgestützten oder neuro- nalen Prozessregelung bekannt.

Ein gemeinsamer Nachteil dieser aus dem Stand der Technik bekannten Verfahren ist, dass diese lediglich eine Aussage über die Sensitivität des durch das neuronale Netz zur Verfügung gestellten Modells bezüglich Variationen der Trainingsdaten liefern können. Eine Aussage über die Vertrauenswürdigkeit einer von dem neuronalen Netz erstellten Prognose ist damit aber nicht möglich.

Aus F. Bärmann; Handbuch zu NN-Tool 98, 1998, ist ein Ansatz bekannt, bei dem versucht wird, den Prognosefehler an einer bestimmten Stelle mit Hilfe des bekann- ten Prognosefehlers an benachbarten Datenpunkten zu schätzen. Allen diesen Verfahren ist gemeinsam, dass keine Aussage darüber getroffen wird, ob ein Eingangsdatensatz überhaupt in dem zulässigen Arbeitsbereich des neuronalen Netzes liegt. Aber nur in diesem Fall ist eine Fehlerschätzung möglich.

Der Erfindung liegt daher die Aufgabe zu Grunde ein Verfahren zu schaffen, welches es erlaubt zu prüfen, ob ein Eingabedatensatz in dem zulässigen Arbeitsbereich eines neuronalen Netzes liegt. Ferner liegt der Erfindung die Aufgabe zu Grunde ein entsprechendes Computeφrogrammprodukt zu schaffen.

Die der Erfindung zu Grunde liegende Aufgabe wird jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst. Bevorzugte Ausführungsformen der Erfindung sind in den abhängigen Patentansprüchen angegeben.

Die vorliegende Erfindung ermöglicht es, einen Eingabedatensatz für ein neuronales Netz daraufhin zu überprüfen, ob er in dem zulässigen Arbeitsbereich des neuronalen

Netzes liegt. Die Erfindung geht von der Erkenntnis aus, dass in neuronale Netze keine strukturellen Informationen einfließen, sondern lediglich Trainingseingabedatensätze verwendet werden, die zum Beispiel messtechnisch ermittelt worden sind. Aufgrund dessen können solche Modelle nur in den Bereichen vertrauenswürdige Prognosen liefern, in denen die Modelle trainiert worden sind.

Zwischen den gegebenen Trainingsdatenpunkten kann mit solchen Modellen sehr effizient interpoliert werden. Im Unterschied zu entsprechenden rigorosen Modellen können datengetriebene Modelle aber nicht oder nur sehr eingeschränkt extrapolie- ren. Insbesondere für die Überwachung und/oder Steuerung kritischer Applikationen ist es daher von großem Vorteil, dass geprüft werden kann, ob das verwendete Modell in dem zulässigen Arbeitsbereich verwendet wird.

Dies gilt im verstärkten Maße auch für Hybridmodelle, bei denen es sich um eine Verschaltung mehrerer Neuronaler Netze mit rigorosen Modellen handelt. Hybridmodelle sind zwar als Gesamtmodell extrapolierfähig aber für jede einzelne daten- getriebene Teilkomponente, das heißt für die in dem Hybridmodell beinhalteten neuronalen Netze, muss der Interpolationsbereich überprüft werden.

Erfindungsgemäß wird der Arbeitsbereich eines neuronalen Netzes durch die von den Trainingseingabedatensätzen des neuronalen Netzes aufgespannte konvexe Hülle definiert. Beispielsweise hat ein neuronales Netz eine Anzahl von Eingängen und eine Anzahl von b Ausgängen. Zur Modellbildung werden Datensätze für die a Eingangs- und die b Ausgangsparameter messtechnisch erfasst.

Soll beispielsweise eine Modellbildung für einen Herstellungsprozess erfolgen, so kann es sich bei den Eingangsparametern um Daten hinsichtlich der verwendeten Grundstoffe, deren Zusammensetzung und/oder um Parameter der Produktionsanlage, wie zum Beispiel Drücke, Temperaturen und dergleichen handeln. Für die Ausgangsparameter werden dann beispielsweise die resultierenden Produkteigenschaften gemessen. Auf diese Art und Weise erhält man Trainingsdatensätze, die jeweils einen

Satz Eingangsparameter und zugehörige Ausgangsparameter beinhalten. Mit Hilfe dieser Trainingsdatensätze wird das neuronale Netz trainiert, das heißt die Gewichtungen der Neuronen werden iterativ angepasst.

Nach einer bevorzugten Ausführungsform der Erfindung kommt folgende Definition der konvexen Hülle als Festlegung des zulässigen Arbeitsbereichs zur Anwendung:

Es sei P eine gegebene, endliche Menge von n Punkten p_\t...j?_n. Die Punkte p, (für i=l,..., ) der Menge P werden durch die Trainingseingabedatensätze, mit denen das neuronale Netz trainiert worden ist, gebildet. Ein Punkt x , das heißt ein bestimmter

Eingabedatensatz, gehört zu der von P aufgespannten konvexen Hülle, die als conv(P) bezeichnet wird, wenn es reelle Zahlen λ_l ,...,λ_n > 0 mit λ₁ +... + λ_n =l gibt, so dass gilt p_x +... + λ_np_n = x für p_teP (für i=l,...,n). (Zur Theorie der konvexen Hüllen siehe auch: Dieter Jungnickel; Optimierungsmethoden; Springer, Heidelberg; 1999; ISBN: 3540660577) Nach einer bevorzugten Ausführungsform der Erfindung wird auch die unmittelbare Umgebung der konvexen Hülle noch als zulässiger Arbeitsbereich betrachtet, da neuronale Netze auch in der unmittelbaren Nachbarschaft der konvexen Hülle noch sinnvolle Ergebnisse liefern können. Alternativ wird jedoch der Arbeitsbereich unmittelbar auf die konvexe Hülle beschränkt, da eine exakte Aussage hierüber, wo die „unmittelbare Nachbarschaft" endet, nicht getroffen werden kann. Insbesondere für kritische Anwendungen, die beispielsweise die fortlaufende Produktion betreffen, wird daher der Arbeitsbereich auf das Innere der konvexen Hülle beschränkt, wobei die äußere Umgebung in der unmittelbaren Nachbarschaft der konvexen Hülle vom

Arbeitsbereich ausgeschlossen wird.

Bei der praktischen Anwendung, insbesondere bei zeitkritischen Applikationen, ist es von besonderer Bedeutung effiziente Vorgehensweisen zu verwenden, um festzu- stellen, ob ein Eingabedatensatz in dem zulässigen Arbeitsbereich des zugehörigen

Neuronalen Netzes liegt.

Aus der Literatur sind die Algorithmen Quickhull ( seihe C.B.Barber, D.P. Dobkin und H.T. Huhdanpaa; " The Quickhull Algorithm for Convex Hulls"; ACM Transaction Mathematical Software; Vol 22, No 4; 1996; ρ469-483, Simplex- Algorithmus) sowie der Simplex-Algorithmus (siehe z.B. Dieter Jungnickel; Optimierungsmethoden; Springer, Heidelberg; 1999; ISBN: 3540660577) an sich bekannt. Diese Verfahren sind in hochdimensionalen Räumen (d.h. Eingangsdimension größer als 9) ineffizient, weil sie extrem lange Rechenzeiten benötigen oder auf handelübli- chen Rechnern am Speicherbedarf scheitern. In bevorzugten Ausfuhrungsformen der

Erfindung kann dagegen auf drei grundsätzlich verschiedene, sehr effiziente Verfahren zurückgegriffen werden.

Nach einer bevorzugten Ausführungsform der Erfindung wird zur Prüfung, ob ein Eingabedatensatz in der konvexen Hülle liegt, zunächst ein Simplex aus einer Anzahl von d + 1 nicht kollinearen Punkten aus der Menge P gebildet, wobei d die Dirnen- sion des von P aufgespannten Raums ist. Aus dem Inneren dieses Simplex wird dann ein Punkt ausgewählt. Hierfür kann zum Beispiel der Schwerpunkt des Simplex verwendet werden, der aus den Eckpunkten des Simplex berechnet wird. Dieser Punkt wird im Folgenden mit x₀ bezeichnet.

Im nächsten Schritt wird die Strecke [x, x₀] zwischen dem durch den Eingabedatensatz definierten Punkt x und dem aus dem Simplex gewählten Punkt xobetrachtet. Dann wird geprüft, ob es einen Schnittpunkt der Strecke [x, x₀] mit einer Facette des Simplex gibt. Bei den Facetten handelt es sich um die „Seitenflächen" des Simplex.

Wenn es einen solchen Schnittpunkt nicht gibt, bedeutet dies, dass der Punkt x im Inneren der konvexen Hülle liegt.

Ist das Gegenteil der Fall, so ergibt sich daraus, dass der Punkt x außerhalb des Simplex liegt. Damit ist aber noch nicht die Frage beantwortet, ob der Punkt x innerhalb oder außerhalb der konvexen Hülle liegt. Es wird daher geprüft, ob es möglich ist einen weiteren Simplex aus d + 1 nicht kollinearen Punkten aus der Menge P so zu bilden, dass der weitere Simplex den Schnittpunkt mit der Facette und einen Abschnitt der Strecke [x, x₀] beinhaltet.

Wenn dies nicht möglich ist, ergibt sich daraus, dass der Punkt x außerhalb der konvexen Hülle liegt (Satz von Caratheodory). Wenn ein solcher Simplex gebildet werden kann, wird erneut die Prüfung durchgeführt, ob ein Schnittpunkt der Strecke [x, x₀] mit einer Facette des weiteren Simplex existiert. Da es nur eine endliche Anzahl von Punkten in P gibt, kommt dieses Verfahren nach einer endlichen Anzahl von

Iterationen zu der Aussage, ob x in der konvexen Hülle liegt oder nicht, da alle Simplices nacheinander geprüft werden können.

Nach einer bevorzugten Ausführungsform der Erfindung wird die Prüfung, ob die Bildung eines weiteren Simplex, das einen Abschnitt der Strecke [x, x₀] beinhaltet, möglich ist, wie folgt durchgeführt: Zunächst werden die Eckpunkte der Facette, die von der Strecke [x, x₀] geschnitten wird, bestimmt. Dann wird ein weiterer Punkt aus der Menge P ausgewählt. Hierbei kann es sich um einen beliebigen Punkt handeln, der nicht zu den Eckpunkten der Facette gehört.

Aus dem weiteren Punkt und den Eckpunkten wird dann versuchsweise ein weiterer

Simplex gebildet. Wenn dieser versuchsweise gebildete weitere Simplex einen Abschnitt der Strecke [x, x₀] beinhaltet, so wird dieser versuchsweise gebildete weitere Simplex als Simplex für eine weitere Iteration des Verfahrens verwendet.

Wenn ein solcher Abschnitt von der Strecke [x, x₀] in dem versuchsweise gebildeten

Simplex nicht beinhaltet ist, wird der weitere aus P gewählte Punkt durch einen anderen Punkt ersetzt, um versuchsweise einen weiteren Simplex zu bilden und um die nachfolgende Prüfung, ob ein Abschnitt von Strecke [x, x₀] in dem versuchsweise gebildeten Simplex liegt, erneut durchzuführen.

Dieses Verfahren wird solange durchgeführt, bis entweder ein weiterer Simplex aufgefunden worden ist oder alle in Frage kommenden Punkte aus der Menge P gewählt worden sind, ohne dass es zu der Bildung eines Simplex, der die Nebenbedingung erfüllt, einen Abschnitt der Strecke [x, x₀] zu beinhalten, gekommen ist. In die- sem Fall endet das Verfahren mit der Aussage, dass keine Bildung eines weiteren

Simplex möglich ist, das einen Abschnitt der Strecke [x, x₀] beinhaltet, also x außerhalb der konvexen Hülle liegt.

Nach einer weiteren bevorzugten Ausführungsform der Erfindung wird eine andere geometrische Eigenschaft der konvexen Hülle verwendet. Diese Eigenschaft lautet:

Existiert eine Hyperebene durch den zu untersuchenden Punkt x , so dass sich alle p, e P auf einer Seite der Ebene befinden, dann liegt der Punkt x außerhalb der durch P aufgespannten konvexen Hülle. (Satz von Hahn-Banach) Existiert keine solche Ebene, so liegt der Punkt im Innern. Nach einer weiteren bevorzugten Ausführungsform der Erfindung wird zur Beantwortung der Frage, ob ein Punkt x in der konvexen Hülle liegt oder nicht, geprüft, ob sich das durch die analytische Definition der konvexen Hülle gegebene Gleichungssystem lösen lässt. Hierzu wird von einem iterativen Verfahren Gebrauch gemacht.

Nach einer weiteren bevorzugten Ausführungsform der Erfindung wird einem neuronalen Netz ein Modul zur Prüfung, ob sich ein Eingabedatensatz in einem zulässigen Arbeitsbereich des neuronalen Netzes befindet, vorgeschaltet. Handelt es sich bei dem betreffenden System um ein System mit mehreren neuronalen Netzen und / oder um ein System mit rigorosen Modellanteilen, das heißt ein sogenanntes Hybridmodell, so wird vorzugsweise jedem neuronalen Netz des Systems ein solches Modul vorgeschaltet. Werden mehrere Neuronale Netze verwendet, können diese Module mit einem logischem „UND" verknüpft werden, um zu gewährleisten, dass ein Ein- gabedatensatz im zulässigen Arbeitsbereich aller dieser Neuronalen Netze liegt. Dies ist insbesondere bei Hybridmodellen von Bedeutung.

Im weiteren werden bevorzugte Ausführungsformen der Erfindung mit Bezugnahme auf die Zeichnungen näher erläutert. Es zeigen:

Figur 1 ein Flussdiagramm einer ersten Ausführungsform eines Verfahrens zur Prüfung, ob ein Eingabedatensatz in der konvexen Hülle liegt,

Figur 2 eine Weiterbildung des Verfahrens der Figur 1 zur Bestimmung eines weiteren Simplex,

Figur 3 eine weitere Ausführungsform eines erfindungsgemäßen Verfahrens zur Prüfung, ob ein Eingabedatensatz in der konvexen Hülle liegt,

Figur 4 eine grafische Veranschaulichung des Verfahrens der Figur 3, Figur 5 eine weitere Ausführungsform des Verfahrens zur Prüfung, ob ein

Eingabedatensatz in der konvexen Hülle liegt, basierend auf einer Prüfung, ob es eine Lösung für das durch die analytische Definition der konvexen Hülle gegebene Gleichungssystem gibt,

Figur 6 ein Blockdiagram einer Ausführungsform eines erfindungsgemäßen

Systems.

Die Figur 1 veranschaulicht eine erste Ausführungsform des Verfahrens zur Prüfung, ob ein Eingabedatensatz in der konvexen Hülle liegt. Dieses Verfahren geht von einem Punkt x₀ im Inneren der konvexen Hülle aus und überprüft, ob die Strecke [x, x₀] im Inneren der konvexen Hülle liegt.

Dabei ist x der durch den Eingabesatz bestimmte Punkt, von dem man wissen möchte, ob er ebenfalls im Inneren der konvexen Hülle liegt.

Dazu wird getestet, ob die Strecke [x, x₀] eine der Facetten der konvexen Hülle schneidet. Ist dies der Fall, liegt der Punkt x außerhalb. Hierbei wird die geometrische Eigenschaft der konvexen Hülle ausgenutzt, dass jede geradlinige Verbin- düng zweier beliebiger Punkte der konvexen Hülle vollständig in der konvexen Hülle liegt.

Dieses Verfahren basiert auf der im Folgenden beschriebenen Vorgehensweise:

Gegeben sei ein d -dimensionaler Raum R^d, wobei d die Anzahl der nicht kollineareren Trainingseingabedatensätze des neuronalen Netzes ist. Die Punktmenge P beinhaltet sämtliche Trainingseingabedatensätze, mit denen das neuronale Netz trainiert worden ist. Diese Punktmenge P ist also vollständig in dem Raum R^d beinhalte Weiter sei ein Punkt x₀ aus dem Inneren der konvexen Hülle, die von P aufgespannt wird, mit einer bekannten Darstellung als konvexe Linearkombination der Punkte aus P, gegeben, d.h. es gibt λ ⁰⁾,...,λ > 0 mit λ<⁰⁾ + ... + λ = 1 und

/i i + • • • + λ^p_n = x₀. Nach dem Satz von Caratheodory können die Koeffizienten λ_t (i =l,...,n) so gewählt werden, so dass alle bis auf d+1 gleich 0 sind. Weiter sei x e R^d ein Punkt, für den zu untersuchen ist, ob dieser im Inneren von conv(P) liegt oder nicht.

Es sei [x, xo] die Strecke zwischen den Punkten x und x₀. Die bekannten Koeffizien- ten λ|⁰⁾ (i =l,...,n) werden nun so modifiziert, dass eine Linearkombination mit den neuen Koeffizienten einen Punkt xι ergibt, der sich auf der Strecke [x₀x] befindet. Dieser Vorgang wird so lange wiederholt, bis man schließlich den Punkt x trifft, oder auf eine der Seitenbegrenzungen der konvexen Hülle stößt.

Zur Modifikation der Koeffizienten λ[⁰⁾ wird eine geeignete Lösung des folgenden unterbestimmten, linearen Gleichungssystems gesucht:

Gleichung 1 n _Jε_iPi = x - x₀

1=1

Anschließend wird ein Faktor c>0 so bestimmt, dass λf + cε_t ≥ 0 für i =1,..., n gilt.

Man setze nun λ ⁾ := λ ^} + cε₍ . Dann ist x, := eine konvexe Linearkombination für einen Punkt x_t € conv(P) , der näher an x liegt als x₀. Ist man für xo von der obenbeschrieben Linearkombination ausgegangen, in der höchsten d+1 Koeffizienten ungleich 0 sind, und wählt man das größt mögliche c, dann erhält man auf diese Weise den Schnittpunkt der Strecke [xo,*] n it einer Facette des Simplexes, der von den zu den Koeffizienten gehörenden Punkten aus P aufgespannt wird.

Das Gleichungssystem der Gleichung 1 ist jedoch nicht eindeutig lösbar, und nicht für jede Lösung kann ein c > 0 gefunden werden, das den oben aufgeführten Anforderungen genügt, um neue Koeffizienten λf* zu bestimmen.

Im Weiteren ist ein iteratives Verfahren angegeben, das eine Antwort auf die Frage ermöglicht, ob eine Lösung des Gleichungssystems existiert und damit der Punkt x in der konvexen Hülle liegt oder nicht:

Initialisierungsschritt: Es sei d die Dimension des Raumes, in dem die konvexe Hülle liegt. Um einen Startwert x₀ zu bestimmen werden d beliebige linear unabhängige Punkte q ⁰⁾ e P für j = \,...,d ausgewählt. Man wähle nun ein

als Startwert. Des Weiteren setzen wir i = 0.

Iterationsschritt: Durch die Punkte wird eine ( -l)-dimensionale Hyper- fläche im R^d eindeutig festgelegt. Diese Hyperfläche soll durch Hinz mahme eines weiteren Punktes aus der Menge P zu einem ci-dimensionalen Simplex ausgebaut werden. Es sei nun q^ e P der Punkt mit der Eigenschaft, dass das längste mögliche Teilstück der Strecke x c im Inneren des Simplex liege.

Um diesen Punkt herauszufinden, muss man mehrfach nahezu dasselbe Gleichungssystem lösen, was sich performant durchfuhren lässt. Ist es nicht möglich, einen weiteren Eckpunkt des Simplex zu finden, so befindet sich der Punkt x außerhalb der konvexen Hülle und das Verfahren kommt zum Abbruch. Im anderen Fall besitzt das Gleichungssystem

Σ^«.

eine eindeutige Lösung (ε,,...,ε_rf+1) und es kann ein c >0 mit den oben beschriebenen Eigenschaften gewählt werden. Man setze nun

_λ λ_j + cε_J

für j =1,..., d+1. Man kann c so wählen, dass entweder eines der λ^'⁺¹⁾ (für = 1,..., d+1) gleich 0 wird oder c =\ gilt. Tritt der Fall c =1 auf, so liegt der Punkt x im Inneren der konvexen Hülle und das Verfahren kann beendet werden.

Im anderen Fall muss ein weiterer Iterationsschritt durchgeführt werden. Als Punkte bei denen das jeweils zugehörige λ^'⁺¹ (j=\,..., d +1) ungleich 0 sind. Anschließend wird i um 1 erhöht.

Liegt der Punkt x im Inneren der konvexen Hülle von P, so liefert der Algorithmus eine konvexe Linearkombination zur Darstellung des Punktes. Liegt der Punkt außerhalb, so erhält man d Punkte, durch die eine Hyperebene E bestimmt ist, welche die Punktmenge P von dem Punkt x trennt. Dies bedeutet, dass alle Punkte des R^d, die auf derselben Seite von E liegen wie der Punkt x, nicht zur konvexen Hülle gehö- ren können. Dies kann bei einer Mehrfachauswertung genutzt werden, um die gesamte Auswertung erheblich zu beschleunigen.

Eine Realisierungsform dieses Verfahrens ist in der Figur 1 veranschaulicht:

In dem Schritt 100 wird ein Eingabedatensatz, für den eine Prognose erstellt werden soll, eingegeben. Dieser Eingabedatensatz für das neuronale Netz bestimmt einen Punkt x .

In dem Schritt 101 wird eine Anzahl von d + 1 nicht kollinearen Punkten aus der

Menge P gewählt.

In dem Schritt 102 wird der Index /auf Null gesetzt. In dem Schritt 103 wird ein Simplex S_l aus den in dem Schritt 101 gewählten Punkten gebildet.

In dem Schritt 104 wird ein Punkt x, aus dem Inneren des Simplex S_; gewählt. Beispielsweise wird der Schwerpunkt aus den Eckpunkten des Simplex S, berechnet, um den Punkt x_t zu erhalten.

In dem Schritt 105 wird eine Strecke [x_/x] zwischen x und x, definiert.

In dem Schritt 106 wird geprüft, ob ein Schnittpunkt x_/+1 der Strecke [x_/x] mit einer Facette des Simplex S_s zwischen x und x, liegt. Es wird also geprüft, ob man von x, ausgehend auf der Geraden Richtung x laufend zuerst x oder eine Facette des Simplex S, erreicht.

Wenn es einen solchen Schnittpunkt x_;+1 der Strecke [x_/x] mit einer Facette von S, gibt, bedeutet dies, dass der Punkt x nicht innerhalb des Simplex S, liegt. Ist das Gegenteil der Fall, so wird in dem Schritt 107 ausgegeben, dass x in der konvexen Hülle liegt, da ja festgestellt worden ist, dass x in dem Simplex S_{ liegt und dieser wiederum vollständig innerhalb der konvexen Hülle liegt.

Liegt dagegen der Punkt x außerhalb des Simplex S, , so wird in dem Schritt 108 geprüft, ob es möglich ist, einen weiteren Simplex S_M in P zu finden, der sowohl den Schnittpunkt x_/+1 und einen Abschnitt der Geraden g beinhaltet. Wenn dies nicht möglich ist, wird in dem Schritt 109 ausgegeben, dass x außerhalb der konvexen Hülle liegt.

Im gegenteiligen Fall wird der Index / in dem Schritt 110 um Eins erhöht und der

Schritt 106 mit Bezug auf den weiteren Simplex erneut durchgeführt.

Die Figur 2 zeigt eine Weiterbildung des Verfahrens der Figur 1 zur Durchfuhrung der Prüfung in dem Schritt 108. Zur Durchführung dieser Prüfung werden in dem Schritt 200 zunächst die Eckpunkte der Facette von S, auf der der Schnittpunkt x_/+1 liegt, bestimmt.

In dem Schritt 201 wird ein weiterer Punkt aus P gewählt, der nicht bereits ein Eckpunkt der Facette von S, ist und der nicht kollinear zu den Eckpunkten der Facette ist.

In dem Schritt 202 wird ein Simplex S' aus den Eckpunkten und dem weiteren Punkt aus P gebildet.

In dem Schritt 203 wird geprüft, ob der Simplex S' einen Abschnitt der Strecke [x_/x] beinhaltet. Wenn dies der Fall ist, wird in dem Schritt 204 der gesuchte weitere Simplex S_M gleich dem Simplex S' gesetzt. Damit ist dann auch die Frage beantwortet, ob es tatsächlich möglich ist, einen solchen Simplex S_/+1 zu bilden. Wenn die Prüfung in dem Schritt 203 ergibt, dass der Simplex S' keinen Abschnitt von der Geraden g beinhaltet, wird in dem Schritt 205 geprüft, ob zuvor bereits alle in Frage kommenden Punkte aus P in dem Schritt 201 gewählt worden sind. Ist dies nicht der Fall, so wird in dem Schritt 201 ein weiterer Punkt aus P gewählt, der zu- vor noch nicht gewählt worden ist, um eine weitere Iteration des Verfahrens durchzuführen.

Wenn auch nach „Ausprobieren" sämtlicher aus P in Frage kommender Punkte kein Simplex S_;+1 gefunden werden konnte, so wird in dem Schritt 206 eine entspre- chende Information ausgegeben. Dies bedeutet zugleich, dass der Punkt x außerhalb der konvexen Hülle liegt.

Von besonderem Vorteil bei dieser Ausfuhrungsform ist, dass das Verfahren in jedem Fall nach einer endlichen Anzahl von Schritten zu einer Aussage fuhrt, ob der Eingabedatensatz in der konvexen Hülle, und damit im Arbeitsbereich liegt oder nicht.

Die Figur 3 zeigt eine weitere Ausfuhrungsform eines Verfahrens zur Prüfung, ob ein Eingabedatensatz in der konvexen Hülle liegt. Dieses Verfahren ergibt sich nicht unmittelbar aus der Definition der konvexen Hülle als Linearkombination der Stützstellen. Vielmehr wird hier eine andere geometrische Eigenschaft der konvexen Hülle verwendet, die in der Figur 4 auch grafisch verdeutlicht ist:

Existiert eine Hyperebene durch den zu untersuchenden Punkt x, so dass sich alle pt&P auf einer Seite der Ebene befinden, dann liegt der Punkt x außerhalb der durch

P aufgespannten konvexen Hülle. Existiert keine solche Ebene, so liegt der Punkt im Innern.

Wird die Ebene durch den Normalenvektor k dargestellt, so lässt sich die Bedingung „alle Punkte pi P liegen auf einer Seite der Ebene" folgendermaßen ausdrücken: k-η > 0, i = l...n

wobei Ti =pi - x die Ortsvektoren der Datenpunkte in einem Koordinatensystem sind, welches den zu untersuchenden Datenpunkt im Ursprung hat.

Ohne Beschränkung der Allgemeinheit, kann die Ungleichheit auf „größer" abgefragt werden, da der Normalenvektor -k dieselbe Hyperebene darstellt wie k. Punkte auf den Facetten der konvexen Hülle führen zu einem Skalarprodukt gleich 0 und sind somit Bestandteil der konvexen Hülle.

Vorzugsweise wird für die Suche nach einer Hyperebene ein Optimierungsverfahren eingesetzt.

Dabei wird bei variierendem Normalenvektor k folgende Zielfunktion minimiert:

Ist das Optimum von F kleiner als 0, so liegt der zu untersuchende Punkt außerhalb der konvexen Hülle. Für Punkte innerhalb der konvexen Hülle lässt sich keine Hyperebene finden, für die <0 gilt.

Für den Einsatz als Optimierungsverfahren kommen verschiedene Verfahren in Betracht, wie zum Beispiel die MATLAB-Routine fminsearch, sowie das Gradien- tenverfahren, ein Levenberg-Marquard-Algorithmus oder eine Evolutionsstrategie, die auch in Kombination mit lokalen Verfahren eingesetzt werden kann.

Ein für das Laufzeitverhalten des Algorithmus wesentlicher Vorteil ist, dass wenn für einen Datenpunkt eine entsprechende Hyperebene gefunden worden ist, diese auch - 17 -

eine Lösung für alle Punkte auf der Seite der Ebene darstellt, welche der konvexen Hülle gegenüberliegt. Ist für mehrere Datenpunkte simultan die Untersuchung auf Zugehörigkeit zur konvexen Hülle durchzuführen, so kann das Verfahren hierdurch erheblich beschleunigt werden.

Die Figur 3 veranschaulicht dieses Verfahren anhand eines Flussdiagramms. In dem Schritt 300 wird der Eingabedatensatz, das heißt der Punkt , eingegeben.

h dem Schritt 301 wird mittels eines oder mehreren der genannten Verfahren ge- prüft, ob es eine Hyperebene gibt, die x beinhaltet und für die gilt k - η > 0 , i - l,...,n , wobei es sich bei k um den Normalenvektor der gesuchten Hyperebene handelt und bei r_i um den Differenzvektor zwischen einem durch einen Trainingseingabedatensatz gegebenen Punkt p_t und x .

Wenn es eine solche Hyperebene gibt, folgt daraus in dem Schritt 302, dass x in der konvexen Hülle liegt. Im gegenteiligen Fall wird in dem Schritt 303 eine Information ausgegeben, wonach x außerhalb der konvexen Hülle liegt.

Die Prüfung in dem Schritt 301, ob es eine geeignete Hyperebene gibt, ist in der Figur 4 veranschaulicht. Die in dem grauschraffierten Bereich der Figur 4 befindlichen Punkte p_t spannen eine konvexe Hülle 400 auf. Der Punkt x befindet sich außerhalb der konvexen Hülle 400. Zwischen dem Punkt x und den Punkten p_t befinden sich die Differenzvektoren r_t = p_l , - x .

Durch x verläuft eine Hyperebene 401, die durch den Normalenvektor k beschrieben wird. Da sich alle Punkte p. der konvexen Hülle 400 auf derselben Seite der

Hyperebene 400 befinden, folgt daraus, dass x tatsächlich außerhalb der konvexen Hülle 400 liegt. Die Figur 5 veranschaulicht ein weiteres Verfahren zur Prüfung, ob ein Eingabedatensatz x in der konvexen Hülle liegt.

Bei diesem Verfahren wird geprüft, ob es eine Lösung für das Gleichungssystem gibt, welches der analytischen Definition der konvexen Hülle entnommen ist.

Gleichung 2 λ_lp₁ + ... + λ„p_n = x λ, +. . + λ_n = l

Dabei wird nach einer Lösung gesucht, so dass die Nebenbedingungen λj > 0 erfüllt sind. Bei dem folgenden Verfahren wird sukzessive versucht dies zu erreichen.

Wie bei dem Verfahren der Figuren 1 und 2 wird auch in diesem Fall von einer An- fangslösung für λ⁽⁰ := (λf^>,...,λf⁾) ausgegangen, für die im allgemeinen die Ungleichungsnebenbedingungen nicht erfüllt sind.

Wir schreiben im folgenden Gleichung 2 in Matrix Form. Man erhält dann

Gleichung 3

P^mλ = χ

wobei bei dem Vektor x und der Punktematrix R⁽⁰⁾ jeweils eine Zeile mit Einsen zugefügt wurde.

Initialisierungsschritt

Wir setzen t-0 und wählen einen beliebigen n-dimensionalen Vektor λ⁽⁰⁾ = (λ₁₅.»A) ^itλι + - --+K = ι und λ > 0. Iterationsschritt

Als erstes transformieren wir die Gleichung 3, indem wir sie auf beiden Seiten mit einer Matrix M multiplizieren. Die Matrix Mist dabei so zu wählen, dass die Zeilen der Matrix P^{,) :=M-P orthonormiert sind (sollte solch eine Matrix M nicht existieren, können abhängige Zeilen in der Matrix P® weggelassen werden). Weiter sei x :=M -x . Es wird nun nicht versucht das Gleichungssystem P^λ = x direkt zu lösen, sondern wir gehen von dem bekannten Koeffizientenvektor λ ^,) aus und setzen x^(,) := _P^wλ^w . Wir suchen nun nach einer Lösung des äquivalenten Gleichungs- Systems

pu . (λ -λ⁰⁾) = x-x^{i) .

Da in den meisten Fällen dieses Gleichungssystem unterbestimmt ist, suchen wir nach der Lösung λ, so dass λ -λ^w minimal ist (wobei ||| die euklidische Norm

bezeichnet). Hierbei können wir ausnutzen, dass die Matrix R^(, orthonormiert ist. Es gilt

λ = λ^U +p^UT - (x-χ^U),

wobei R^(,) die Transponierte der Matrix R^w ist. Falls alle Komponenten des so gefundenen Koeffizientenvektors λ die Nebenbedingungen λ, ≥ 0 erfüllen, so ist eine konvexe Linearkombination für den Punkt x gefunden worden und der Punkt x liegt daher im Inneren der konvexen Hülle. Andernfalls setzen wir alle Koeffizienten, welche die Nebenbedingung verletzen, für den Rest des Verfahrens auf Null und versuchen die Komponenten, welche die Nebenbedingung nicht verletzen, so zu korrigieren, dass dieser Schritt kompensiert wird. Praktisch bewerkstelligt man dies dadurch, dass sowohl alle Komponenten, welche die Nebenbedingung verletzen, aus dem Vektor λ als auch alle zugehörigen Spalten aus der Matrix P eliminiert werden. Den so erhaltenen Vektor kleinerer Dimension und die so erhaltene Matrix mit weniger Spalten bezeichnen wir mit λ^(,+1) und R^(,+1) .

Für die Korrektur muss das (kleinere) Gleichungssystem

P^(/+1)λ = x

gelöst werden. Dafür führen wir nun einen weiteren Iterationsschritt aus, wobei wir i um eins erhöhen, diesmal mit λ ^,+1) als Startwert. Lässt sich das Gleichungssystem nicht lösen, so existiert keine konvexe Linearkombination für den Punkt x und der

Punkt befindet sich außerhalb der konvexen Hülle.

Da bei jedem Iterationsschritt immer mindestens eine Spalte eliminiert wird, kommt das Verfahren nach maximal n Schritten zu einem Ergebnis.

Eine Ausfuhrungsform dieses Verfahrens ist in der Figur 5 veranschaulicht.

In dem Schritt 500 wird der Index i gleich Null gesetzt. In dem Schritt 501 wird ein Startwert für den n -dimensionalen Vektor λ^⁰' , der die Nebenbedingungen erfüllt, gewählt. Hierzu kann beispielsweise λ_t = 11 n gewählt werden.

In dem Schritt 502 wird die Matrix M berechnet. Darauf basierend erfolgt in dem Schritt 503 die Berechnung der Matrix P^ω und der Vektoren und x⁽'^} .

Daraus wird in dem Schritt 504 λ = λ⁽⁰ + P^ii)T ■ (x - x^{( )} ) berechnet.

In dem Schritt 505 wird geprüft, ob alle λ_t (j=l,..,ή)des in dem Schritt 504 berechneten Vektors λ ≥ 0 sind. Wenn dies der Fall ist, folgt daraus in dem Schritt 506, dass der durch den Eingabedatensatz gegebene Punkt innerhalb der konvexen Hülle liegt. Ist das Gegenteil der Fall, so werden in dem Schritt 507 alle Komponenten des Vektors λ und die entsprechenden Spalten der Matrix P*' , die die Nebenbedingung verletzten, gestrichen. Daraus resultiert das kleinere Gleichungssystem P^(,+1)λ = x .

In dem Schritt 508 wird der Index inkrementiert, um eine weitere Iteration des Verfahrens durchzuführen.

Die Figur 6 zeigt ein Blockdiagram einer Ausführungsform eines erfindungsgemäßen Systems 600. Das System 600 hat ein Eingabemodul 601 zur Eingabe eines Eingabedatensatzes, der in dem hier betrachteten Beispiel aus a= 3 Parametern besteht.

Das Eingabemodul 601 ist mit einem Modul 602 verknüpft, welches zur Prüfung dient, ob ein Eingabedatensatz innerhalb der konvexen Hülle des neuronalen Netzes 603 liegt. Diese Prüfung erfolgt beispielsweise nach einem der mit Bezug auf die

Figuren 1 bis 5 geschilderten Verfahren oder nach einem anderen Verfahren.

Das Modul 602 ist mit dem neuronalen Netz 603 verknüpft. Wenn das Modul 602 feststellt, dass ein Eingabedatensatz in dem zulässigen Arbeitsbereich des neuronalen Netzes liegt, der durch die konvexe Hülle gegeben ist, erfolgt eine Eingabe dieses

Eingabedatensatzes in das neuronale Netz 603, welches dann zumindest einen Prognosewert an seinem Ausgang 604 abgibt. Stellt das Modul 602 dagegen fest, dass der Eingabedatensatz nicht in dem zulässigen Arbeitsbereich liegt, so wird an dem Ausgang 605 ein entsprechendes Signal abgegeben, wonach für den aktuellen Eingabe- datensatz keine zuverlässige Prognose möglich ist.

Neben dem neuronalen Netz 603 kann das System 600 noch weitere neuronale Netze beinhalten (Hybridmodell), denen jeweils wiederum ein dem Modul 602 entsprechendes Modul vorgelagert ist. Die Ergebnisse der einzelnen Module 602 müssen dann mit einem logischen „UND" verknüpft werden. Dadurch wird sichergestellt, dass alle neuronalen Netze des Hybridmodells 600 für einen bestimmten Eingabe- datensatz des Eingabemoduls 601 in einem zulässigen Arbeitsbereich betrieben werden. Daneben kann das System 600 auch noch rigorose Modellanteile beinhalten.

Bezugszeichenliste

konvexe Hülle 400

Hyperebene 401 System 600

Eingabemodul 601

Modul 602 neuronales Netz 603

Ausgang 604 Ausgang 605

Claims

Patentansprttche

1. Verfahren zur Prüfung, ob ein Eingabedatensatz in einem Arbeitsbereich eines neuronalen Netzes liegt, mit folgenden Schritten:

Speicherung von Trainingseingabedatensätzen für das neuronale Netz, wobei durch die Trainingseingabedatensätze eine konvexe Hülle aufgespannt wird,

- Prüfung, ob der Eingabedatensatz in der konvexen Hülle liegt.

2. Verfahren nach Anspruch 1 mit folgenden weiteren Schritten:

Auswahl von einer Anzahl (d + l) nicht kollinearer Punkte aus der Menge der Trainingseingabesätze,

Bildung eines ersten Simplex ( Si ) aus den gewählten Punkten,

Auswahl eines Punktes (x, ) aus dem Inneren des Simplex (S ) ,

Definition einer Strecke zwischen dem Eingabedatensatz und dem gewählten Punkt,

Prüfung, ob ein Schnittpunkt (x_/+I ) der Strecke mit einer Facette des ersten Simplex existiert,

Prüfung, ob ein zweiter Simplex (S_/+1 ) aus der Anzahl von Punkten aus den Trainingseingabedatensätzen gebildet werden kann, der den Schnittpunkt und einen Abschnitt der Strecke beinhaltet. Verfahren nach Anspruch 2, wobei für die Durchführung der Prüfung, ob es möglich ist, einen zweiten Simplex zu bilden, folgende Schritte durchgeführt werden:

Bestimmung der Eckpunkte der Facette des ersten Simplex auf der der Schnittpunkt liegt,

Wahl eines weiteren nicht kollinearen Punkts aus der Menge der Trainingseingabedatensätze,

Bildung eines Simplex (S') aus den Eckpunkten und dem weiteren Punkt,

Prüfung, ob der Simplex einen Abschnitt der Geraden beinhaltet und Ausgabe des Simplex als zweiten Simplex, wenn dies der Fall ist,

Austausch des weiteren Punkts gegen einen anderen nicht kollinearen Punkt aus der Menge der Trainingseingabedatensätze und erneute Prüfung.

Verfahren nach einem der vorhergehenden Ansprüche 1 bis 3, wobei geprüft, wird, ob es eine Hyperebene gibt, die den Eingabedatensatz beinhaltet, so dass sich alle Trainingseingabedatensätze auf einer Seite der Hyperebene befinden.

Verfahren nach Anspruch 4, wobei zur Prüfung, ob eine Hyperebene existiert ein Minimum von F gesucht wird, wobei

und wobei die Hyperebene durch den Normalenverktor k dargestellt wird und r_t = p_l — x wobei x der durch den Eingabedatensatz definierte Punkt ist.

6. Verfahren nach einem der vorhergehenden Ansprüche 1 bis 5 mit folgenden weiteren Schritten:

Wahl eines initialen Vektors λ = (λ_l,..._:^λ_n) mitλ, +... + λ_n = 1 und

λ > 0 (j=l,..,ή), wobei vorzugsweise λ = — gewählt wird, n

- Wahl einer Matrix M so, dass die Zeilen der Matrix P^(, := -P^W orfhonormiert sind,

Berechnung von λ = λ^{,) + P^i, • (x - x^(,)) , wobei x^w := P^(,)λ^w ,

- Prüfung ob alle λ_} ≥ 0 sind (füry-1,...,«),

Streichung aller Komponenten aus der Matrix ^ und aus dem Vektor AΛ', die die Nebenbedingung λ_} ≥ 0 (für/=l,...,«) verletzten,

- erneute Berechnung von λ .

7. System zur Ermittlung von zumindest einem Prognosewert mit

zumindest einem neuronalen Netz, welches mit Hilfe einer Menge von Trainingseingabedatensätzen trainiert worden ist, Mitteln zur Prüfung, ob ein Eingabedatensatz für das neuronale Netz in der konvexen Hülle liegt, die von den Trainingseingabedatensätzen aufgespannt wird.

8. System nach Anspruch 7 mit einem Hybridmodell, das zumindest ein erstes und ein zweites neuronales Netz beinhaltet, wobei das erste neuronale Netz mit Hilfe einer Menge von ersten Trainingseingabedatensätzen trainiert worden ist, und wobei das zweite neuronale Netz mit Hilfe einer Menge von zweiten Trainingseingabedatensätzen trainiert worden ist, wobei die Mittel zur Prüfung so ausgebildet sind, dass für einen ersten Eingabedatensatz für das erste neuronale Netz geprüft wird, ob der erste Eingabedatensatz in der konvexen Hülle liegt, die von den ersten Trainingseingabedatensätzen aufgespannt wird, und dass für einen zweiten Eingabedatensatz für das zweite neuronale Netz geprüft wird, ob der zweite Eingabedatensatz in der konvexen Hülle liegt, die von den zweiten Trainingseingabedatensätzen aufgespannt wird, wobei die Zuordnung des ersten Eingabedatensatzes zum ersten Neuronalen Netz und die Zuordnung des zweiten Eingabedatensatzes zum zweiten Neuronalen Netz aus einem Gesamtdatensatz automatisiert erfolgt.

9. System nach Anspruch 8, wobei die Mittel zur Prüfung so ausgebildet sind, dass die Prüfung gemäß einem Verfahren nach einem der vorhergehenden Ansprüche 1 bis 6 durchgeführt wird.

10. Computerprogrammprodukt, insbesondere digitales Speichermedium, zur Durchführung eines Verfahrens nach einem der vorhergehenden Ansprüche 1 bis 6.