WO2020193481A1

WO2020193481A1 - Verfahren und vorrichtung für training und herstellung eines künstlichen neuronalen netzes

Info

Publication number: WO2020193481A1
Application number: PCT/EP2020/058017
Authority: WO
Inventors: Markus Hanselmann; Thilo Strauss; Holger Ulmer; Andrej Junginger; Katharina Dormann; Matthias Werner
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2019-03-26
Filing date: 2020-03-23
Publication date: 2020-10-01
Anticipated expiration: 2021-09-26
Also published as: DE102019204136A1

Abstract

Verfahren zur Herstellung einer Klassifizierungseinrichtung, zur Herstellung einer Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke und Verfahren zum Trainieren einer Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke, die eine Vielzahl von Schichten umfassen, wobei das Verfahren zum Trainieren in einer ersten Iteration für einen ersten Trainingsdatenpunkt eines ersten Batches aus einer Vielzahl Batches einer Epoche von Trainingsdaten folgende Schritte umfasst: stochastisches Bestimmen (206) eines Werts für eine Schicht der Vielzahl von Schichten, wobei der Wert abhängig von einer maximalen Anzahl von Neuronen für diese Schicht bestimmt wird, Bestimmen (208) einer Vielzahl von Neuronen aus den Neuronen der Schicht und abhängig vom Wert, Vorwärtspropagation (208) des Batches durch die Vielzahl von Neuronen, Bestimmen (208) einer Ausgabe des künstlichen neuronalen Netzwerks oder der Schicht, Rückwärtspropagation (210), insbesondere mit Berechnung eines Gradienten einer Abweichung der Ausgabe von einer erwarteten Ausgabe, wobei für eine zweite Iteration die Gewichte der Vielzahl der Neuronen abhängig von der Ausgabe bestimmt werden (212) und wobei die Gewichte anderer Neuronen der Schicht für die zweite Iteration für einen zweiten Batch aus der Vielzahl Batches erhalten bleiben.

Description

Beschreibung

Titel

Verfahren und Vorrichtung für Training und Herstellung eines künstlichen neuronalen Netzes

Stand der Technik

Die Erfindung betrifft ein Verfahren und eine Vorrichtung für Training und zur Herstellung eines künstlichen neuronalen Netzes.

Künstliche neuronale Netze sind zur Lösung vielfältiger Probleme einsetzbar.

Eine der Schwierigkeiten besteht darin, eine Architektur der Netzstruktur des künstlichen neuronalen Netzes so zu wählen, dass es möglich ist, ein

zugrundeliegendes Problem optimal zu lösen. Für eine gute Performance ist es beispielsweise essentiell, die Anzahl der Neuronen pro Netzwerkschicht geeignet zu wählen, so dass das künstliche neuronale Netzwerk eine gute

Generalisierbarkeit auf neue, ungesehen Daten aufweist und nicht ausschließlich auf Trainingsdaten konditioniert ist, mit denen das künstlichen neuronale Netz trainiert wurde. Eine weitere Schwierigkeit besteht darin, eine Architektur der Netzstruktur des künstlichen neuronalen Netzes so zu wählen, dass der Einsatz auf einem System mit beschränkten Ressourcen wie Speicher oder

Rechenkapazität möglich ist. Für den Einsatz in einer Umgebung, die in Hinblick auf Ressourcen Beschränkungen hat, beispielsweise in einem Steuergerät in einem Fahrzeug, einem Smartphone oder einem Tablet, ist es beispielsweise essentiell die Anzahl der Neuronen pro Netzwerkschicht möglichst gering zu wählen, um ein kleines künstliches neuronales Netz herzustellen, das dennoch eine für das zugrundeliegende Problem ausreichende Performance hat. Der Einsatz künstlicher neuronale Netze zur Lösung desselben Problems auf unterschiedlichen Geräten erfordert daher verschiedene gerätespezifische Modelle mit unterschiedlichen Netzwerkstrukturen, die unter den gegebenen Randbedingungen einen optimalen Kompromiss zwischen Ressourcenbedarf und Leistungsfähigkeit darstellt.

Es ist einerseits möglich, unterschiedliche gerätespezifische Modelle mit den unterschiedlichen Netzwerkstrukturen für jedes der Geräte herzustellen und separat zu trainieren. Dies erfordert jedoch ein separates Training der gerätespezifischen Modelle für jedes der unterschiedlichen Geräte. Es ist andererseits möglich, ein geräteunspezifisches Modell mit einer tiefen neuronalen Netzwerkstruktur zu trainieren, wobei die Anzahl der Neuronen durch Dropout im Training verringert wird. Dabei wird beim Training des

geräteunspezifischen Modells eine beispielsweise vorher spezifizierte Anzahl von Neuronen in jeder Schicht des künstlichen neuronalen Netzwerks ausgeschaltet. Damit sind jedoch keine gerätespezifischen Modelle für unterschiedliche Geräte trainier- und herstellbar.

Wünschenswert ist es daher das Vorgehen für gerätespezifische Modelle demgegenüber zu verbessern.

Offenbarung der Erfindung

Dies wird durch Verfahren und Vorrichtungen nach den unabhängigen

Ansprüchen erreicht.

Ein Verfahren zur Herstellung einer Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke sieht vor, dass in einer ersten Iteration abhängig von einer allgemeinen Netzwerkarchitektur, die eine Vielzahl Neuronen umfasst, Neuronen einer gerätespezifischen Netzwerkarchitektur für eines der Vielzahl

gerätespezifischer künstlicher neuronaler Netzwerke stochastisch bestimmt werden, wobei ein Trainingsdatenpunkt für eine Ausgabe des künstlichen neuronalen Netzwerks durch die Neuronen der gerätespezifischen

Netzwerkarchitektur vorwärts propagiert wird, wobei für eine zweite Iteration die Gewichte der Neuronen der gerätespezifischen Netzwerkarchitektur durch Backpropagation abhängig von der Ausgabe bestimmt werden, und wobei die Gewichte der anderen Neuronen für die zweite Iteration erhalten bleiben. Damit wird das Modelltraining für mehrere Geräte auf denen die Funktion des künstlichen neuronalen Netzwerks ausgeführt werden soll iterativ durchgeführt. Für jeden Trainingsdatenpunkt wird eine Netzwerkarchitektur insbesondere stochastisch bestimmt, die optimiert werden soll. Die so hergestellten

gerätespezifischen künstlichen neuronalen Netzwerke weisen eine optimierte Netzwerkarchitektur für eine gegebene Fragestellung unter Einbeziehung von Randbedingungen durch Ressourcenbeschränkungen auf. Damit ist eine Pareto- optimale Lösung hinsichtlich der Größe des künstlichen neuronalen Netzwerks gegenüber seiner Performance wählbar, ohne dass das künstliche neuronale Netzwerk hierzu nachtrainiert werden muss. Alternativ dazu kann nach-trainiert werden, um die Performance weiter zu erhöhen. Für eine Berücksichtigung der Ressourcenbeschränkungen wird beispielweise insbesondere durch eine Festlegung der Anzahl Neuronen für ein bestimmtes gerätespezifisches künstliches neuronales Netzwerk systematisch festgelegt, wie viele Neuronen pro Layer nötig sind, um eine gewünschte Leistung auf dem Gerät zu erzielen. Der Trainingsprozess für die verschiedenen gerätespezifischen künstlichen neuronalen Netze ist nicht viel aufwändiger, als das normale Training eines künstlichen neuronalen Netzes. Zudem wird ermöglicht, die Vielzahl an möglichen verschiedenen Netzwerkarchitekturen insbesondere mit einer oberen Schranke für die Anzahl an Neuronen pro Schicht in deren Performance gegeneinander zu evaluieren, ohne explizit jedes entsprechende

gerätespezifische Modell separat zu trainieren. Dies ermöglicht es, automatisiert, entweder grundsätzlich eine optimierte Netzarchitektur für das zugrunde liegende Problem zu finden, oder aber eine, die die entsprechenden Randbedingungen bezüglich der Ressourcen erfüllt.

Vorzugsweise wird eine Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke abhängig von der allgemeinen Netzwerkarchitektur hergestellt, wobei für jeden Trainingsdatenpunkt aus einer Vielzahl Trainingsdatenpunkte die Neuronen ausgewählt werden, durch die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifischen künstlichen neuronalen Netzwerke definiert ist, wobei für jeden Trainingsdatenpunkt durch die Neuronen, die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifischen künstlichen neuronalen Netzwerke definieren, Trainingsdaten vorwärts propagiert werden, wobei die Gewichte der Neuronen des zu trainierenden gerätespezifischen künstlichen neuronalen Netzwerks durch Backpropagation abhängig von der Ausgabe bestimmt werden, und wobei die Gewichte der anderen Neuronen beibehalten werden. Durch Training im künstlichen neuronalen Netzwerk mit der allgemeinen Netzwerkarchitektur in einer Vielzahl Trainingsdatenpunkte wird so eine Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke mit gerätespezifischer Netzwerkarchitektur hergestellt.

Vorzugsweise werden aus einer Schicht der allgemeinen Netzwerkarchitektur die Neuronen ausgewählt, die die Neuronen für eine gerätespezifische Schicht der gerätespezifischen Netzwerkarchitektur sind. Damit bildet eine Untermenge der Neuronen des gesamten künstlichen neuronalen Netzwerks die Neuronen derselben Schicht des gerätespezifischen künstlichen neuronalen Netzwerks.

Vorzugsweise werden aus der allgemeinen Netzwerkarchitektur die Neuronen ausgewählt, die in der allgemeinen Netzwerkarchitektur und in der

gerätespezifischen Netzwerkarchitektur eine Gruppe Neuronen bilden, die in der gerätespezifischen Netzwerkarchitektur dieselbe Funktion wie in der allgemeinen Netzwerkarchitektur definieren. Dadurch bleiben logische Gruppen von

Neuronen, die z.B. Filter in einem convolutional neural network bilden, erhalten.

Vorzugsweise ist für ein Neuron eine Priorität definiert, wobei die Gewichte für das Neuron abhängig von der Priorität in der Backpropagation bestimmt werden oder unverändert bleiben. Den Neuronen wird durch die Priorität eine natürliche Ordnung gegeben. Der Trainingsprozess ist derart gestaltet, dass Neuronen mit einer höheren Priorität im Trainingsprozess häufiger verwendet werden als solche mit einer niedrigeren Priorität. Anschaulich gesehen wird das Netzwerk im Trainingsprozess darauf konditioniert, wichtige Informationen in den Neuronen höherer Priorität zu codieren. Anders formuliert ist die Information die in

Neuronen codiert ist desto spezifischer desto niedriger deren Priorität ist.

Vorzugsweise ist dem Neuron ein Parameter zugeordnet, der die Priorität definiert, wobei der Parameter in einem Vergleich mit einem Schwellwert verglichen wird, und wobei die Gewichte für das Neuron abhängig von einem Ergebnis des Vergleichs bestimmt werden oder unverändert bleiben. Dieser Parameter ist im Training einfach anhand des Vergleichs mit dem Schwellwert auswertbar.

Vorzugsweise ist für jedes der Vielzahl Neuronen eine Ordnungszahl definiert, die die Priorität charakterisiert, wobei in der Backpropagation nur die Neuronen bestimmt werden, deren Ordnungszahl unterhalb einer oberen Schranke für die Ordnungszahlen liegt. Die Ordnungszahl gibt den Neuronen eine natürliche Ordnung. Der Trainingsprozess ist derart gestaltet, dass Neuronen mit einer kleineren Ordnungszahl im Trainingsprozess häufiger verwendet werden als solche mit einer hohen Ordnungszahl. Wichtige Informationen werden damit in den Neuronen niedriger Ordnung codiert. Das bedeutet, je höher die Ordnung eines Neurons ist, desto spezifischer ist die dort codierte Information. Dadurch wird wichtige Information nur in den Gewichten der Neuronen, die mit einer niedrigen Ordnungszahl korrespondieren, codiert.

Vorzugsweise sind funktional zusammengehörende Neuronen durch dieselbe Ordnungszahl definiert. Damit sind logische Gruppen von Neuronen, die eine Funktion in der Netzwerkarchitektur erfüllen, berücksichtigbar.

Vorzugsweise ist für jede Schicht eines mehrschichtigen künstlichen neuronalen Netzes ein separater Schwellwert oder eine separate obere Schranke nur für die Neuronen dieser Schicht definiert. Den Neuronen ist damit in jeder Schicht eine eigene natürliche Ordnung gegeben.

Vorzugsweise ist die allgemeine Netzwerkarchitektur als tiefes künstliches neuronales Netzwerk ausgebildet, insbesondere mit wenigstens einer Schicht, die als Fully Connected Layer oder als Convolutional Layer ausgebildet ist. Dies ist eine bevorzugte Netzwerkarchitektur, die Netzwerkarchitektur kann zusätzlich oder alternativ andere Layertypen umfassen.

Ein Verfahren zur Herstellung einer Klassifizierungseinrichtung insbesondere für einen Roboter, ein Werkzeug oder ein zumindest teilweise autonomes Fahrzeug sieht vor, dass ein gerätespezifisches künstliches neuronales Netzwerk nach dem Verfahren gemäß eines der vorherigen Ansprüche bestimmt wird, wobei die Netzwerkarchitektur des so bestimmten gerätespezifischen künstlichen neuronalen Netzwerks ohne weiteres Training auf die Klassifizierungseinrichtung übertragen wird. Ein gesondertes Nachtrainieren ist nicht nötig, könnte aber zu besserer Prädiktion führen. Dies ermöglicht eine effiziente Implementierung derselben Funktionalität auf Geräten, die unterschiedliche Ressourcen für die Funktionalität bereitstellen. Ein Verfahren zum Trainieren einer Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke, die eine Vielzahl von Schichten umfassen ist ebenfalls vorgesehen. Das Verfahren zum Trainieren umfasst in einer ersten Iteration für einen ersten Trainingsdatenpunkt eines ersten Batches aus einer Vielzahl Batches einer Epoche von Trainingsdaten folgende Schritte: stochastisches Bestimmen eines Werts für eine Schicht der Vielzahl von Schichten, wobei der Wert abhängig von einer maximalen Anzahl von Neuronen für diese Schicht bestimmt wird, Bestimmen einer Vielzahl von Neuronen aus den Neuronen der Schicht und abhängig vom Wert, Vorwärtspropagation des Batches durch die Vielzahl von Neuronen, Bestimmen einer Ausgabe des künstlichen neuronalen Netzwerks oder der Schicht, Rückwärtspropagation, insbesondere mit

Berechnung eines Gradienten einer Abweichung der Ausgabe von einer erwarteten Ausgabe, wobei für eine zweite Iteration die Gewichte der Vielzahl der Neuronen abhängig von der Ausgabe bestimmt werden und wobei die Gewichte anderer Neuronen der Schicht für die zweite Iteration für einen zweiten Batch aus der Vielzahl Batches erhalten bleiben. Ein Batch bezeichnet eine Untermenge der Trainingsdaten anhand derer der Gradient für das Update der Gewichte berechnet wird. Ein Batch enthält Trainingsdatenpunkte. Bei der Iteration über die Batches werden in einem Forwardpass und dem zugehörigen Backwardpass nur die Gewichte der Neuronen aktualisiert, die für das in diesem Batch zu trainierende gerätespezifische künstliche neuronale Netzwerk trainiert werden sollen. Die anderen Gewichte bleiben unverändert erhalten für die nächsten Trainingsdatenpunkte. Im Updateschritt des Trainings führt dies nur zu einer Änderung der Gewichte, die mit diesen Neuronen korrespondieren. Trainiert man auf diese Weise, werden implizit die vielen unterschiedlichen

Netzwerkarchitekturen, die sich durch die Anzahl der Neuronen in den Layern unterscheiden, synchron trainiert.

Vorzugsweise wird der Wert positiv und kleiner oder gleich der maximalen Anzahl von Neuronen bestimmt. Die Methodik, wie die Werte gewählt werden, ist stochastisch, die Wahl der Verteilung der Werte ist hierbei nicht festgelegt und kann vom Anwender vorgegeben werden. Insbesondere kann der Wert abhängig von der maximalen Anzahl Neuronen uniform aus einem Intervall zwischen Eins und der maximalen Anzahl Neuronen gesampelt werden. Vorzugsweise ist vorgesehen, eine maximale Anzahl von Neuronen für jede der Schichten insbesondere vor Beginn des Trainings vorzugeben. Damit werden gerätespezifische Voraussetzungen hinsichtlich der Ressourcen berücksichtigt.

Vorzugsweise ist jedem Neuron des künstlichen neuronalen Netzwerks eine Ordnungszahl zugeordnet, wobei in einem Vergleich die Ordnungszahl, die einem Neuron zugeordnet ist, mit dem Wert verglichen wird, und wobei abhängig vom Ergebnis des Vergleichs bestimmt wird, ob ein Neuron Teil eines

gerätespezifischen künstlichen neuronalen Netzwerks ist oder nicht. Der Trainingsprozess erfolgt ansonsten, wie bei einer festen, vorgegebenen

Architektur. Gegebenenfalls kann jedoch eine höhere Anzahl der Epochen notwendig sein. Nach dem Training kann systematisch ausgewertet werden, welche Architektur ggf. unter den gegebenen Randbedingungen optimal ist. Hierfür können Testdaten auf den unterschiedlichen Architekturen ausgewertet werden,

indem man wiederum für die Schichten einen Wert wählt und bei der Auswertung nur diejenigen Neuronen verwendet, deren Ordnungszahl kleiner oder gleich dem Wert ist.

Weitere vorteilhafte Ausgestaltungen ergeben sich aus der folgenden

Beschreibung und der Zeichnung. In der Zeichnung zeigt

Fig. 1 eine schematische Darstellung eines künstlichen neuronalen Netzwerks, Fig. 2 eine schematische Darstellung von Schritten in einem Verfahren zum Trainieren des künstlichen neuronalen Netzwerks,

Fig. 3 eine schematische Darstellung von Schritten in einem Verfahren zum Herstellen eines gerätespezifischen künstlichen neuronalen Netzwerks.

Figur 1 zeigt eine schematische Darstellung eines künstlichen neuronalen Netzwerks 100.

Das künstliche neuronale Netzwerk 100 umfasst eine allgemeine

Netzwerkarchitektur mit einer Eingabeschicht 102, wenigstens einer verborgene Schicht 104 und einer Ausgabeschicht 106. In Figur 1 ist eine verborgene Schicht 104 dargestellt, es können jedoch mehrere verborgene Schichten vorgesehen sein. Den Neuronen, die in einer verborgenen Schicht angeordnet sind, sind Ordnungszahlen zugeordnet. Im Beispiel ist jedem Neuron in der verborgenen Schicht 104 eine der Ordnungszahlen 1 , 2, 3, 4, 5, 6, 7, 8 zugeordnet. Es können auch Gruppen von Neuronen dieselbe Ordnungszahl zugeordnet werden. Die Ordnungszahlen geben im Beispiel eine Priorität an.

Die allgemeine Netzwerkarchitektur ist beispielsweise als tiefes künstliches neuronales Netzwerk ausgebildet. Die wenigstens eine verborgene Schicht 104 ist beispielsweise als Fully Connected Layer oder als Convolutional Layer ausgebildet. Dies ist eine bevorzugte allgemeine Netzwerkarchitektur, die allgemeine Netzwerkarchitektur kann zusätzlich oder alternativ andere

Layertypen umfassen.

Figur 2 stellt eine schematische Darstellung von Schritten in einem Verfahren zum Trainieren des künstlichen neuronalen Netzwerks dar.

Das Verfahren zum Trainieren des künstlichen neuronalen Netzwerks geht davon aus, dass das künstliche neuronale Netzwerk eine Vielzahl von Schichten , ..., L_k umfasst. Jedem Neuron des künstlichen neuronalen Netzwerks ist eine Ordnungszahl zugeordnet.

Zum Trainieren werden eine Vielzahl Epochen mit Trainingsdaten verwendet, die in Batches angeordnet sind.

Im Beispiel wird jedem Neuron in einer Schicht L eine eindeutige Ordnungszahl zugeordnet. Die Ordnungszahlen beginnen im Beispiel bei 1 und sind

aufsteigend geordnet. Dadurch wird eine natürliche Ordnung der Neuronen der Schicht U definiert. Dies erfolgt im Beispiel durch Durchnummerieren der Neuronen. Wenn mehrere Neuronen zu einer Gruppe zusammengefasst sind, wird die Ordnungsstruktur auf dieser Gruppe definiert. Insbesondere können bei Convolutional Layern die Neuronen eines Filters zu einer Gruppe

zusammengefasst werden. Letzteres kann darüber realisiert werden, den Neuronen einer Gruppe dieselbe Ordnungszahl zuzuweisen.

Es kann vorgesehen sein vor dem Beginn des Trainings eine maximale Anzahl von Neuronen m, für jede der Schichten L vorzugeben. In diesem Fall ist im Beispiel vorgesehen, nur diese maximale Anzahl von Neuronen m, in jeder der Schichten U zu verwenden. In diesem Fall wird jedes Neuron dessen

Ordnungszahl kleiner oder gleich m, ist verwendet. Die übrigen Neuronen mit höheren Ordnungszahlen werden nicht verwendet.

Der Trainingsprozess erfolgt bis auf die folgenden Änderungen, wie bei einer festen, vorgegebenen Netzwerkarchitektur. Im Beispiel wird das künstliche neuronale Netzwerk überwacht trainiert. Das heißt, dass für das Training

Eingangs-Ausgangspaare (c; y,) zur Verfügung stehen. Die Trainingsdaten x, werden in das Netzwerk eingespeist und die Ausgabe des Netzwerkes, d.h. die Prädiktion p(x), über eine sogenannte Kostenfunktion mit einem gewünschten Ergebnis y, verglichen. Über eine beispielhafte Kostenfunktion C = C_©(p(x); y , die bei Bedarf über einen Parametersatz Q parametrisiert sein kann, ist damit ein Maß vorgegeben, das angibt, wie weit die Prädiktion von der Grundwahrheit abweicht. Ist die Kostenfunktion differenzierbar, können zu jedem Trainingspaar (x; y,) die Gradienten von C mit Bezug auf die Gewichte des neuronalen Netzes bestimmt werden. Die Gradienten können dann dazu verwendet werden, die Gewichte des neuronalen Netzes nach einer vorgegebenen Regel zu

aktualisieren, so dass die Performance des Netzes iterativ verbessert wird.

Dieser Vorgang wird im Folgenden als Backpropagation bezeichnet. Es gibt vielerlei Ausgestaltungen der Backpropagation. So können beispielsweise bei einer Batchoptimierung die Gradienten über mehrere Trainingsbeispiele gemittelt werden, bevor die Gewichte ein Update erfahren. Die Aktualisierungsregel für die Aktualisierung der Gewichte kann ebenfalls variieren. Des Weiteren können Regularisierungen angewandt werden und in die Kostenfunktion mit eingehen. Die im Folgenden beschriebene Vorgehensweis ist unabhängig von der genauen Ausgestaltung des Optimierungsprozesses der Gewichte, d.h. die im Folgenden beschriebenen Verfahren sind diesbezüglich universell und unabhängig von der diesbezüglichen Ausprägung des Trainingsprozesses.

Nach dem Start wird in einem Schritt 202 eine Epoche mit einer Vielzahl Batches ausgewählt. Anschließend wird ein Schritt 204 ausgeführt.

Im Schritt 204 wird ein Batch aus der Vielzahl von Batches der Epoche ausgewählt. Anschließend wird ein Schritt 206 ausgeführt. Im Schritt 206 wird ein Wert u, für eine Schicht U der Vielzahl von Schichten ,

L_k bestimmt. Der Wert u, wird abhängig von einer maximalen Anzahl von Neuronen m, für diese Schicht L bestimmt. Im Beispiel wird der Wert u, so bestimmt, dass er positiv ist und kleiner oder gleich der maximalen Anzahl von Neuronen m,. Wie genau Werte u, gewählt werden, ist im Beispiel vom Anwender vorgebbar. Beispielsweise wird u, uniform aus dem Intervall N n [1 ;m,] gesampelt. Anschließend wird ein Schritt 208 ausgeführt.

Im Schritt 208 wird eine Vielzahl von Neuronen aus den Neuronen der Schicht L und abhängig vom Wert u, bestimmt. Im Beispiel werden in der Schicht L ausschließlich die Neuronen verwendet, deren Ordnungszahl kleiner oder gleich Ui ist. Dazu wird beispielsweise in einem Vergleich die Ordnungszahl, die einem Neuron zugeordnet ist, mit dem Wert u, verglichen und abhängig vom Ergebnis des Vergleichs bestimmt, ob ein Neuron Teil eines gerätespezifischen

künstlichen neuronalen Netzwerks ist oder nicht. Das bedeutet, eine so bestimmte gerätespezifische Netzwerkarchitektur umfasst in der Schicht L nur diese Vielzahl von Neuronen. Die Auswahl der Neuronen für das

gerätespezifische Netzwerk ist damit stochastisch. Für die Vielzahl von Neuronen wird eine Vorwärtspropagation des Batches durch die Vielzahl von Neuronen ausgeführt, um eine Ausgabe des künstlichen neuronalen Netzwerks oder der Schicht U zu bestimmen. Anschließend wird ein Schritt 210 ausgeführt.

Im Schritt 210 wird in einer Rückwärtspropagation eine Abweichung der Ausgabe von einer erwarteten Ausgabe bestimmt. Insbesondere erfolgt eine Berechnung eines Gradienten, um neue Gewichte für die Vielzahl von Neuronen zu bestimmen. Anschließend wird ein Schritt 212 ausgeführt.

Im Schritt 212 werden nur die Gewichte der Vielzahl der Neuronen abhängig von der Ausgabe bestimmt. Anschließend wird ein Schritt 214 ausgeführt.

Im Schritt 214 wird geprüft, ob ein Abbruchkriterium erfüllt ist. Falls das

Abbruchkriterium erfüllt ist, wird das Training beendet. Falls das Abbruchkriterium nicht erfüllt ist wird der Schritt 202 ausgeführt.

Durch diese Iteration über die Epochen und Batches werden für einen

Trainingsdatenpunkt in einem Forwardpass und dem zugehörigen Backwardpass nur die Gewichte der Neuronen aktualisiert, die für das in diesem

Trainingsdatenpunkt zu trainierende gerätespezifische künstliche neuronale Netzwerk trainiert werden. Im Updateschritt des Trainings führt dies nur zu einer Änderung der Gewichte, die mit diesen Neuronen korrespondieren. Dies führt dazu, dass wichtige Informationen für die zugrundeliegende Aufgabe über Neuronen mit einer niedrigen Ordnungszahl codiert werden. Trainiert man auf diese Weise, werden implizit die vielen unterschiedlichen Netzwerkarchitekturen, die sich durch die Anzahl der Neuronen in den Layern U unterscheiden, synchron trainiert.

Es kann vorgesehen sein, Testdaten auf unterschiedlichen im künstlichen neuronalen Netzwerk möglichen Netzwerkarchitekturen auszuwerten, indem für deren Schichten U mit i e [1 , ..., k] einen Wert 1 < u, < m, wählt und bei der Auswertung nur diejenigen Neuronen verwendet, deren Ordnungszahl kleiner oder gleich u, ist.

Es kann vorgesehen sein, nicht die Anzahl der Neuronen direkt anzugeben, sondern vielmehr einer logischen Gruppe von Neuronen, die z.B. einen Filter in einem Convolutional Netzwerk darstellen, eine gemeinsame Ordnungszahl zuzuweisen.

Figur 3 zeigt eine schematische Darstellung von Schritten in einem Verfahren zum Herstellen eines gerätespezifischen künstlichen neuronalen Netzwerks.

Das Verfahren zur Herstellung des gerätespezifischen künstlichen neuronalen Netzwerks sieht in einem Schritt 302 vor, dass abhängig von der allgemeinen Netzwerkarchitektur, die gerätespezifische Netzwerkarchitektur für das gerätespezifische künstliche neuronale Netzwerk bestimmt wird. Insbesondere wird die Anzahl Neuronen für ein bestimmtes gerätespezifisches künstliches neuronales Netzwerk systematisch festgelegt. Im Beispiel wird festgelegt, wie viele Neuronen pro Layer nötig sind, um eine gewünschte Leistung auf einem Zielgerät zu erzielen.

Anschließend wird ein Schritt 304 ausgeführt. Im Schritt 304 werden aus der Vielzahl der Neuronen abhängig von der festgelegten Anzahl die Neuronen ausgewählt, die für die gerätespezifische Netzwerkarchitektur verwendet werden. Im Beispiel wird von einer Schicht der allgemeinen Netzwerkarchitektur eine Anzahl Neuronen ausgewählt, die die Neuronen für eine gerätespezifische Schicht der gerätespezifischen

Netzwerkarchitektur definieren

Es kann vorgesehen sein, dass aus der allgemeinen Netzwerkarchitektur Neuronen ausgewählt werden, die in der allgemeinen Netzwerkarchitektur und in der gerätespezifischen Netzwerkarchitektur eine Gruppe Neuronen bilden, die in der gerätespezifischen Netzwerkarchitektur dieselbe Funktion wie in der allgemeinen Netzwerkarchitektur definieren. Dadurch bleiben logische Gruppen von Neuronen, die z.B. Filter in einem convolutional neural network bilden, erhalten.

Für die Neuronen ist im Beispiel eine Priorität definiert. Die Gewichte für ein Neuron werden abhängig von der Priorität in der Backpropagation bestimmt oder bleiben unverändert. Den Neuronen wird durch die Priorität eine natürliche Ordnung gegeben. Die Prioritäten und der Trainingsprozess sind derart gestaltet, dass Neuronen mit einer höheren Priorität im Trainingsprozess häufiger verwendet werden als solche mit einer niedrigeren Priorität. Dadurch werden wichtige Informationen in den Gewichten, die zu Neuronen höherer Priorität gehören, codiert.

Dazu ist dem Neuron im Beispiel ein Parameter zugeordnet, der die Priorität definiert. Der Parameter wird beispielsweise in einem Vergleich mit einem Schwellwert verglichen, der angibt, ab welcher Priorität ein Neuron zum Codieren von wichtiger Information auszuwählen ist. Die Gewichte für ein bestimmtes Neuron werden in diesem Aspekt abhängig von einem Ergebnis des Vergleichs mit dem Schwellwert entweder aktualisiert bestimmt oder bleiben unverändert.

In einem Aspekt ist für jedes der Vielzahl Neuronen eine Ordnungszahl insbesondere als Parameter definiert. Die Ordnungszahl charakterisiert die Priorität. Der Schwellwert bildet in diesem Fall eine obere Schranke. In der

Backpropagation werden nur die Aktualisierungen der Gewichte für die Neuronen bestimmt, deren Ordnungszahl unterhalb der oberen Schranke für die

Ordnungszahlen liegt. Die Ordnungszahl gibt den Neuronen eine natürliche Ordnung. Der Trainingsprozess ist derart gestaltet, dass Neuronen mit einer kleineren Ordnungszahl im Trainingsprozess häufiger verwendet werden als solche mit einer hohen Ordnungszahl.

Es kann vorgesehen sein, dass funktional zusammengehörende Neuronen durch dieselbe Ordnungszahl definiert sind. Damit sind logische Gruppen von

Neuronen, die eine Funktion in der Netzwerkarchitektur erfüllen,

berücksichtigbar.

Für jede Schicht eines mehrschichtigen künstlichen neuronalen Netzes kann ein separater Schwellwert oder eine separate obere Schranke nur für die Neuronen dieser Schicht definiert sein. Den Neuronen ist damit in jeder Schicht eine eigene natürliche Ordnung gegeben.

Anschließend wird ein Schritt 306 ausgeführt.

Im Schritt 306 werden Trainingsdaten eines Trainingsdatenpunkts für eine Ausgabe des künstlichen neuronalen Netzwerks durch die Neuronen der gerätespezifischen Netzwerkarchitektur vorwärts propagiert.

Anschließend wird ein Schritt 308 ausgeführt.

Im Schritt 308 werden die Gewichte der Neuronen der gerätespezifischen Netzwerkarchitektur durch Backpropagation abhängig von der Ausgabe bestimmt. Die Gewichte der anderen Neuronen bleiben erhalten.

Die Schritt 302 bis 308 werden wiederholt, um eine Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke abhängig von der allgemeinen

Netzwerkarchitektur herzustellen.

Für jeden Trainingsdatenpunkt aus einer Vielzahl Trainingsdatenpunkte werden in diesem Fall im Schritt 304 die Neuronen ausgewählt, durch die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifische künstliche neuronale Netzwerk definiert ist.

Im Schritt 306 werden in diesem Fall durch die Neuronen, die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifische künstliche neuronale Netzwerk definieren, Trainingsdaten vorwärts propagiert.

Im Schritt 308 werden in diesem Fall nur die Gewichte dieser Neuronen des zu trainierenden gerätespezifischen künstlichen neuronalen Netzwerks durch Backpropagation abhängig von der Ausgabe bestimmt. Die Gewichte der anderen Neuronen werden beibehalten.

Es kann vorgesehen sein, mit einem Batch von Trainingsdatenpunkten dasselbe gerätespezifische künstliche neuronale Netzwerk zu trainieren. In diesem Fall wird die Auswahl der Neuronen vor oder nach dem Batch getroffen. Während des Trainings mit dem Batch kann der Schritt 304 in diesem Fall entfallen.

Ein Verfahren zur Herstellung einer Klassifizierungseinrichtung sieht vor, dass ein gerätespezifisches künstliche neuronale Netzwerk nach dem Verfahren gemäß eines der vorherigen Ansprüche bestimmt wird. Die Netzwerkarchitektur des so bestimmten gerätespezifischen künstlichen neuronalen Netzwerks wird anschießend ohne weiteres Training auf die Klassifizierungseinrichtung übertragen. Die Klassifizierungseinrichtung kann insbesondere für einen Roboter, ein Werkzeug oder ein zumindest teilweise autonomes Fahrzeug verwendet werden.

Ein Vorteil dieser Vorgehensweise sind insbesondere, dass ein Modell aufgefunden wird, das eine optimale Architektur für die zugrundeliegende

Fragestellung vorweist, d.h. nicht größer als notwendig ist und nicht auf

Trainingsdaten overfitted. Ein weiterer Vorteil ist, dass ein Modell aufgefunden wird, das eine optimale Architektur für die zugrundeliegende Fragestellung unter Einschränkungen, wie z.B. Speicherplatz, vorweist. Ein weiterer Vorteil ist, dass mehrere Modelle für unterschiedliche Zielplattformen mit unterschiedlichen Einschränkungen zeitgleich trainiert werden, was zu einem vergleichbaren Verhalten auf vergleichbaren Daten führt. Dieses Vorgehen kann in jedem Bereich eingesetzt werden, in dem neuronale Netze verwendet werden, insbesondere wenn die Ressourcen auf der Zielplattform beschränkt sind. Insbesondere bei der Thematik autonomes Fahren, bei dem neuronale Netze auf Steuergeräten eingesetzt werden, ist dieses Vorgehen von besonderer Relevanz.

Claims

Ansprüche

1. Verfahren zur Herstellung einer Vielzahl gerätespezifischer künstlicher

neuronaler Netzwerke, dadurch gekennzeichnet, dass in einer ersten Iteration abhängig von einer allgemeinen Netzwerkarchitektur, die eine Vielzahl Neuronen umfasst, Neuronen einer gerätespezifischen Netzwerkarchitektur für das gerätespezifische künstliche neuronale Netzwerk stochastisch bestimmt werden (304), wobei ein Trainingsdatenpunkt für eine Ausgabe des künstlichen neuronalen Netzwerks durch die Neuronen der

gerätespezifischen Netzwerkarchitektur vorwärts propagiert wird (306), wobei für eine zweite Iteration die Gewichte der Neuronen der gerätespezifischen Netzwerkarchitektur durch Backpropagation abhängig von der Ausgabe bestimmt werden (308), und wobei die Gewichte der anderen Neuronen für die zweite Iteration erhalten bleiben (308).

2. Verfahren nach Anspruch 1 , dadurch gekennzeichnet, das eine Vielzahl gerätespezifischer künstlicher neuronaler Netzwerke abhängig von der allgemeinen Netzwerkarchitektur hergestellt wird, wobei für jeden

Trainingsdatenpunkt aus einer Vielzahl Trainingsdatenpunkte die Neuronen ausgewählt werden (304), durch die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifischen künstlichen neuronalen Netzwerke definiert ist, wobei für jeden Trainingsdatenpunkt durch die Neuronen, die das in diesem Trainingsdatenpunkt zu trainierende gerätespezifischen künstlichen neuronalen Netzwerke definieren, Trainingsdaten vorwärts propagiert werden (306), wobei die Gewichte der Neuronen des zu trainierenden

gerätespezifischen künstlichen neuronalen Netzwerks durch Backpropagation abhängig von der Ausgabe bestimmt werden (308), und wobei die Gewichte der anderen Neuronen beibehalten werden (308).

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass aus einer Schicht der allgemeinen Netzwerkarchitektur die Neuronen ausgewählt werden (304), die die Neuronen für eine gerätespezifische Schicht der gerätespezifischen Netzwerkarchitektur sind.

4. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass aus der allgemeinen Netzwerkarchitektur Neuronen ausgewählt werden (304), die in der allgemeinen Netzwerkarchitektur und in der

gerätespezifischen Netzwerkarchitektur eine Gruppe Neuronen bilden, die in der gerätespezifischen Netzwerkarchitektur dieselbe Funktion wie in der allgemeinen Netzwerkarchitektur definieren.

5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass für ein Neuron eine Priorität definiert ist, wobei die Gewichte für das Neuron abhängig von der Priorität in der Backpropagation bestimmt werden oder unverändert bleiben.

6. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass dem Neuron ein Parameter zugeordnet ist, der die Priorität definiert, wobei der Parameter in einem Vergleich mit einem Schwellwert verglichen wird, und wobei die Gewichte für das Neuron abhängig von einem Ergebnis des Vergleichs bestimmt werden oder unverändert bleiben.

7. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass für jedes der Vielzahl Neuronen eine Ordnungszahl definiert ist, die die Priorität charakterisiert, wobei in der Backpropagation nur die Neuronen bestimmt werden, deren Ordnungszahl unterhalb einer oberen Schranke für die Ordnungszahlen liegt.

8. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass funktional zusammengehörende Neuronen durch dieselbe

Ordnungszahl definiert sind.

9. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass für jede Schicht eines mehrschichtigen künstlichen neuronalen Netzes ein separater Schwellwert oder eine separate obere Schranke nur für die Neuronen dieser Schicht definiert ist.

10. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die allgemeine Netzwerkarchitektur als tiefes künstliches neuronales Netzwerk ausgebildet ist, insbesondere mit wenigstens einer Schicht, die als Fully Connected Layer oder als Convolutional Layer ausgebildet ist.

11. Verfahren zur Herstellung einer Klassifizierungseinrichtung, insbesondere für einen Roboter, ein Werkzeug oder ein zumindest teilweise autonomes Fahrzeug, dadurch gekennzeichnet, dass ein gerätespezifisches künstliches neuronales Netzwerk nach dem Verfahren gemäß eines der vorherigen Ansprüche bestimmt wird und wobei die Netzwerkarchitektur des so bestimmten gerätespezifischen künstlichen neuronalen Netzwerks ohne weiteres Training auf die Klassifizierungseinrichtung übertragen wird.

12. Verfahren zum Trainieren einer Vielzahl gerätespezifischer künstlicher

neuronaler Netzwerke, die eine Vielzahl von Schichten umfassen, wobei das Verfahren in einer ersten Iteration für einen ersten Trainingsdatenpunkt eines ersten Batches aus einer Vielzahl Batches einer Epoche von Trainingsdaten folgende Schritte umfasst: stochastisches Bestimmen (206) eines Werts für eine Schicht der Vielzahl von Schichten, wobei der Wert abhängig von einer maximalen Anzahl von Neuronen für diese Schicht bestimmt wird,

Bestimmen (208) einer Vielzahl von Neuronen aus den Neuronen der Schicht und abhängig vom Wert,

Vorwärtspropagation (208) des Batches durch die Vielzahl von Neuronen, Bestimmen (208) einer Ausgabe des künstlichen neuronalen Netzwerks oder der Schicht,

Rückwärtspropagation (210), insbesondere mit Berechnung eines Gradienten einer Abweichung der Ausgabe von einer erwarteten

Ausgabe, wobei für eine zweite Iteration die Gewichte der Vielzahl der Neuronen abhängig von der Ausgabe bestimmt werden (212) und wobei die Gewichte anderer Neuronen der Schicht für die zweite Iteration für einen zweiten Batch aus der Vielzahl Batches erhalten bleiben.

13. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass der Wert positiv bestimmt wird und kleiner oder gleich der maximalen Anzahl von Neuronen bestimmt wird.

14. Verfahren nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass vorgesehen ist, eine maximale Anzahl von Neuronen für jede der Schichten insbesondere vor Beginn des Trainings vorzugeben.

15. Verfahren nach einem der Ansprüche 12 bis 14, dadurch gekennzeichnet, dass jedem Neuron des künstlichen neuronalen Netzwerks eine

Ordnungszahl zugeordnet ist, wobei in einem Vergleich die Ordnungszahl, die einem Neuron zugeordnet ist, mit dem Wert verglichen wird, und wobei abhängig vom Ergebnis des Vergleichs bestimmt wird, ob ein Neuron Teil eines gerätespezifischen künstlichen neuronalen Netzwerks ist oder nicht.

16. Computerprogramm, dadurch gekennzeichnet, dass das Computerprogramm computerlesbare Instruktionen umfasst bei deren Ausführung durch einen Computer das Verfahren nach einem der Ansprüche 1 bis 15 abläuft.

17. Computerprogrammprodukt, dadurch gekennzeichnet, dass das

Computerprogrammprodukt einen Speicher umfasst, auf dem das

Computerprogramm nach Anspruch 16 gespeichert ist.