DE4440859A1

DE4440859A1 - Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters

Info

Publication number: DE4440859A1
Application number: DE4440859A
Authority: DE
Inventors: Alexander Kaske
Original assignee: Individual
Current assignee: Kaske Alexander Wien At
Priority date: 1994-11-15
Filing date: 1994-11-15
Publication date: 1996-05-30
Anticipated expiration: 2014-11-16
Also published as: US5774632A; EP0718732A2; EP0718732A3; DE4440859C2

Description

Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung zum Steuern eines autonom explorierenden Roboters gemäß den Oberbegriffen der Ansprüche 1 und 9.

Sollen Arbeiten in einer für den Menschen feindlichen Umge bung durchgeführt werden, so bietet es sich an, hierfür Robo ter einzusetzen. Diese Roboter können mittels einer Fern steuerung oder eines in einer robotereigenen Recheneinheit implementierten Programms gesteuert werden.

Der Einsatz einer Fernsteuerung setzt voraus, daß sich die Bedienungsperson an der Fernsteuerung zumindest in Kommunka tionsreichweite mit dem Roboter befindet. Dies ist aber in einer Reihe von Anwendungsfällen nicht möglich, insbesondere dann, wenn die Entfernung zwischen Bedienungsperson und Robo ter zu groß wird, oder aber, wenn Störungen in der Kommunika tion zwischen Roboter und Bedienungsperson auftreten können.

Demgegenüber weist ein Roboter, der mittels eines ihm eigenen Programms arbeitet, eine größere Unabhängigkeit gegenüber dem ferngesteuerten Roboter auf. Jedoch setzt die Verwendung ei nes Programms voraus, daß während der Programmierung alle eventuell auftretenden Situationen für den Roboter bereits bekannt und entsprechende Handlungstrategien dem Roboter mit eingegeben werden. Wird jedoch der Roboter für Arbeiten ein gesetzt, bei denen entweder die Einsatzumgebung und die damit möglicherweise auftretenden Situationen nicht vollständig bekannt sind und/oder aber Bedingungen auftreten können, die zum Zeitpunkt der Programmierung noch nicht vorhersehbar sind, so scheitert ein Roboter, der mittels eines Programms gesteuert wird. Wird demgegenüber versucht, die dem Roboter bereits bekannten Situationen dadurch zu erweitern, daß mit der Recheneinheit eine Datenbank verbunden ist, die eine Vielzahl von gegebenen Situationen speichert, so werden hier für erhebliche Rechenzeiten beansprucht, so daß der Roboter bei Auftreten einer für ihn zunächst unbekannten Situation einen verhältnismäßig langen Zeitraum stillgesetzt wird, bis nach Durchsuchen des Datenbestandes eine entsprechende Lö sungsstrategie gefunden wird. Dies kann aber dann von Nach teil sein, wenn der Roboter in eine Situation gerät, die eine sofortige Handlung erfordert.

Es sind in der Praxis bereits Netzwerke mit vorgeschalteten Kohonenkarten bekannt, die jedoch nicht in der Lage sind, zwischen bekannten und unbekannten Situationen zu unterschei den. Damit können keine gezielten Ausweichverhalten gegenüber ungewöhnlichen Situationen generiert werden. Auch bleibt das Verhalten in diesen neuen Situationen völlig stereotyp, da ja zu einem durch eine Sensorik erfaßten Wert mit einem Steuer befehl geantwortet wird, welcher einem gespeicherten sensori schen Wert am nächsten kommt. Eine Variation des Verhaltens wäre nur über eine Superposition von Ausgangswerten möglich, die den ähnlichsten gespeicherten Situationen entsprechen. Allerdings ist diese Superposition durch die Filterwirkung der Kohonenkarte fast ausgeschlossen. Es käme zur Instabili tät des Musters in der Kohonenkarte mit wechselnder Aktivität entsprechend der Ähnlichkeit zu den gespeicherten Prototypen. Das System würde also im Grunde sein Handlungsrepertoir nach einander ausprobieren. Ein Lernprozeß tritt nur nach dem Er folg einer dieser Versuche ein. Das spezifische dieser neuen Situation geht darüber hinaus in diesem Lernprozeß fast voll ständig verloren. Es ändert sich allenfalls geringfügig die Kohonenkarte. Das Netzwerk würde aus dem Erfolg sehr wenig lernen (die Stereotypen werden etwas erweitert oder vermin dert in der Kohonenkarte, während das Repertoire des Netz werkes praktisch unverändert bleibt) und könnte aus einem Mißerfolg überhaupt keine Schlußfolgerungen ziehen.

Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren so wie eine Vorrichtung der eingangs genannten Art zu schaffen, das bzw. die es dem Roboter innerhalb des real-time-Modus ge stattet, zwischen einer bekannten und einer unbekannten Si tuation zu unterscheiden.

Die vorliegende Aufgabe wird verfahrensgemäß mit den Merkma len des Anspruchs 1 gelöst. Durch die Verwendung des erfin dungsgemäßen Netzwerksystems benötigt der Roboter nicht mehr eine umfangreiche Datenbank möglicher auftretender Situatio nen. Es genügt vielmehr, dem Roboter während einer Trainings phase selektierte Wertepaare, die aus durch die sensorische Einrichtung zu erfassenden Werten der Umwelt und den hierzu gehörenden Steuerbefehlen bestehen, aufzutrainieren. Ein der artiges Auftrainieren führt bei den eingesetzten Netzwerken zur Ausbildung bestimmter Synapsenstärken. Wird während des Betriebs des Roboters durch das erfindungsgemäße Netzwerksy stem ein bekanntes Wertepaar aus von der sensorischen Ein richtung erfaßten Umweltwerten und von dem strategiegenerie renden Netzwerk hierzu erzeugte Steuerbefehlen erkannt, so kann dieses Wertepaar zum einen zu weiteren, bereits gelern ten Wertepaaren führen, die dem Roboter dann gestatten, einen bereits ihm bekannten Pfad bzw. Lösungsweg zu beschreiten. Zum anderen wird dem Roboter die Möglichkeit eröffnet, Erfah rung zu sammeln in der Form, daß die Wertepaare, die vor dem Erkennen des durch das Netzwerksystem als bekannt eingestuf ten Wertepaares ebenfalls erfaßt worden sind, mit diesem be kannten Wertepaar abgespeichert werden. Da die Wertepaare Re sultat von Handlungen des Roboters sind, können somit an sich unbekannte Wertepaare zu bekannten "gemacht" werden. Tritt in einer zukünftigen Situation dann wieder ein Wertepaar auf, das aus der Reihe der bereits abgespeicherten Wertepaare stammt, so besteht die Möglichkeit, die anderen hierzu gehö renden Wertepaare zu rekonstruieren bzw. die Erfahrung zu vergrößern.

Das vorgeschlagene Netzwerksystem wirkt praktisch als kogni tives Interferrometer, das sehr sensibel zwischen gespeicher ten Wertepaaren (durch hohe Rückkopplung und die Trainings prozesse sind nur diese stabil) und neuen ungespeicherten Wertepaaren unterscheidet. Damit kann einmal Neues spezifisch angegangen werden (vorsichtiges Explorieren oder Ausweichen). Die Dynamik des Netzwerksystems wird ungefiltert an das stra tegiegenerierende Netzwerk weitergegeben und modifiziert des sen Verhalten in Form geänderter Steuerbefehle bedarfsge recht. Hierdurch ist es möglich, eine Stabilisierung des Ver haltens in einem erfolgreichen Zustand und eine Variation des Verhaltens in Form veränderter Steuerbefehle in einem Zustand zu erhalten, der keinen Erfolg verspricht. Die Verhaltensva riationen werden situationsspezifisch abgespeichert, wodurch eine Erweiterung und Differenzierung der Diskrimination von Situationen und des Verhaltensrepertoires erfolgt.

Das System kann damit zumindest indirekt aus "Fehlern" ler nen, wobei unter dem Begriff "Fehler" das Auftauchen neuer, nicht erwarteter Situationen verstanden wird, die eine Ver haltensmodifikation erfordern. Die Durchbrechung der Erwar tung und das Ausbleiben des Erfolgs werden explizit als in stabiler Zustand des Netzwerksystems erfaßt und dargestellt. Die Verhaltensweisen, die zur Korrektur der "Fehler" führen, werden einerseits durch Verhaltensvariationen erzeugt und an schließend selektiert sowie unter Berücksichtigung der Beson derheiten der Situation repräsentiert (= Training). Sollten Lernprozesse ausbleiben, verlernt das Netzwerksystem aber nicht, diesen Fehler unter gleichen Gegebenheiten anzuzeigen. Damit bemerkt das System "Fehler" (= unerwartet) und stellt sein Verhalten darauf ein.

Es ist zu bemerken, daß im Sinne der Erfindung unter der sen sorischen Einrichtung eine Vorrichtung zu verstehen ist, die aus ein oder mehreren Sensoren oder sensorähnlichen Baugrup pen bestehen kann. Die Sensoren können die unterschiedlich sten physikalischen Werte erfassen und ggf. diese noch in eine für die verwendeten Netzwerke geeignete Form transfor mieren. Des weiteren ist unter Handlungseinheiten jede Form einer Einrichtung zu verstehen, die dem Roboter eine Handlung ermöglicht, sei es, daß ein Betätigungsglied des Roboters in irgendeiner Form verfahren wird, sei es, daß die Empfindlich keit von seinen Sensoren verändert wird. Insbesondere können die Handlungseinheiten Kombinationen von Netzwerken, Reglern und/oder Servos sein, die zudem noch lokale sensorische In formation verarbeiten können. Hierdurch sind sie in der Lage, teilweise autonom die an sie gehenden Steuerbefehle aufgrund der lokal, in Ort und Zeit (bei zu langsamer Variation der Steuerbefehle) vorliegenden Informationen weiter zu differen zieren. Das strategiegenerierende Netzwerk wird so entlastet. Zwischen solcherart differenzierten Handlungseinheiten und der hierarchischen Organisation von Netzwerken besteht eine große Ähnlichkeit. Schließlich ist noch zu bemerken, daß un ter Steuerbefehlen jede Form von Befehl an eine derartige Handlungseinheit verstanden werden kann.

Weiterhin ist darauf hinzuweisen, daß der Trainingsvorgang für das strategiegenerierende Netzwerk und die Netzwerke des Netzwerksystems eine doppelte Schleife bilden. Das Training des Netzwerksytems beschreibt die innere Schleife. Jedes Wer tepaar aus sensorischen Werten und den dazugehörigen Steuer befehlen wird solange den Netzwerken des Netzwerksystems an geboten, bis die Adaption zu einem stabilen Ausgangswert aus den Netzwerken des Netzwerksystems führt. Nun setzt die äu ßere Schleife ein, in dem die den Netzwerken des Netzwerksy stems zugeführten Wertepaare über ggf. vorhandene Kohonenkar ten und die nun stabilen Ausgangswerte der Netzwerke des Netzwerksystems an das strategiegenerierende Netzwerk als zu lernende Vektorkombination zugeführt werden. Würden die bei den Schleifen des Trainingsprozesses zeitlich parallel lau fen, würde das strategiegenerierende Netzwerk alle "Wackler" aus dem Netzwerksystem, d. h. alle instabilen Zwischenprozesse des Trainings des Netzwerksystems, mitlernen.

Um bekannte Wertepaare von unbekannten Wertepaaren zu unter scheiden, ist erfindungsgemäß vorgesehen, daß die Ausgangs werte der Netzwerke des Netzwerksystems einem Dynamikanalysa tor zugeführt werden. Anhand der Stabilität der Ausgangswerte der Netzwerke des Netzwerksystems kann dann der Dynamikanaly sator erkennen, daß ein bekanntes Wertepaar den Netzwerken des Netzwerksystems zugeführt worden ist.

Das Ergebnis des Dynamikanalysators kann dem strategiegene rierenden Netzwerk neben den Ausgangswerten der Netzwerke des Netzwerksystems und den den Netzwerken des Netzwerksystems als Eingangswerte zugeführten Wertepaaren als weiterer Ein gangswert zugeführt werden. Hierbei kann zwischen go-, no-go- oder chaos-Zuständen unterschieden werden. Ein go-Zustand wird bei Stabilität der Ausgangswerte der Netzwerke des Netz werksystems erkannt. Mit anderen Worten bedeutet dies, daß ein bekanntes Wertepaar erfaßt worden ist. Der chaos-Zustand (vollkommene Instabilität) tritt ein, wenn ein unbekanntes Wertepaar von den Netzwerten des Netzwerksystems behandelt wird. Der no-go-Zustand liegt dynamisch zwischen dem chaos- und dem go-Zustand und ist durch die Ausbildung eines angenä herten Grenzzyklus der Ausgangswerte des Netzwerksystems ge kennzeichnet. Der no-go-Zustand signalisiert, daß der momen tane sensorische Wert zwar bekannt ist, aber nicht zu dem ak tivierten Steuerbefehl paßt. Es kann deshalb vorgesehen sein, daß no-go-Zustände des Dynamikanalysators durch Ignorieren der Abwenden des Roboters von dieser Konfiguration der sen sorischen Werte beantwortet wird. Dadurch gerät der Roboter möglichst schnell wieder in den bekannten Bereich bereits ge speicherter Wertepaare. Der Übergang zwischen no-go- und chaos-Zuständen ist fließend, deshalb können neue Wertepaare ebenfalls teilweise ignoriert werden. Führt das Abwenden und/oder Ignorieren jedoch nicht in den bekannten Bereich zu rück, resultiert ein dauerhafter chaos-Zustand. Nun kann die im Netzwerksystem sich entfaltende Chaotik zunehmend das strategiegenerierende Netzwerk beeinflussen und damit völlig neue Aktionen im Sinne von neuen Steuerbefehlen generieren. Noch länger andauernde chaos- und/oder no-go-Zustände könnten auch durch explizite regressive Strategien beantwortet wer den. Beispielsweise etwa durch Zurückkehren zu dem Ausgangs punkt des Roboters oder zu demjenigen Punkt, an dem die letz ten bekannten Wertepaare erfaßt worden sind.

Da die von der sensorischen Einrichtung erfaßten Werte nicht nur Skalare sein können, sondern auch in Form von Vektoren mit einer Vielzahl von Komponenten auftreten können, werden zur Datenreduktion die von der sensorischen Einrichtung er faßten Werte und die ebenfalls in Form von Vektoren vorlie genden Steuerbefehle vor Zuführung zu den Netzwerken des Netzwerksystems und/oder vor Zuführung zu dem strategie generierenden Netzwerk Kohonenkarten zugeführt.

Zu der Trainingsphase ist im Zusammenhang mit dem Einsatz von Kohonenkarten noch zu bemerken, daß die Synapsen dieser Koho nenkarten während des Trainingsprozesses langsamer adaptieren sollen als die Synapsen der Netzwerke des Netzwerksystems so wie des strategiegenerierenden Netzwerkes, da diese zum Lern prozeß relativ stabile Eingangs- bzw. Ausgangsbeziehungen brauchen. Allerdings kann eine Adaptierung der Kohonenkarte den gesamten Prozeß erleichtern, insofern als die benutzten Netzwerke allein nicht alle Eingangs- bzw. Ausgangsbeziehun gen nachbilden können.

Des weiteren ist zu bemerken, daß es vorteilhaft ist, die ggf. vorhandenen Kohonenkarten sich fortlaufend oder zumin dest intermittierend synaptisch adaptieren zu lassen. Damit bilden die Kohonenkarten die Statistik der Steuerbefehle und der sensorischen Werte erfolgsunabhängig ab, um den Roboter "kognitiv" an das vorherrschende Terrain bzw. die gestellten Aufgaben anzupassen.

Die von der sensorischen Einrichtung erfaßten Werte sowie die dazugehörenden Steuerbefehle werden neben der Zuführung zu dem strategiegenerierenden Netzwerk und den Netzwerken des Netzwerksystems einem Kurzzeitgedächtnis zugeführt, wo sie abgelegt werden. Wird ein den Netzwerken des Netzwerksystems neu zugeführtes Wertepaar als bekanntes Wertepaar identifi ziert, so erfolgt eine Verknüpfung dieses als bekannt erkann ten Wertepaares mit den Wertepaaren einer zum Erfolg geführ ten Kette von Wertepaaren, wobei die Wertepaare, die vor dem gerade eben als bekannt erfaßten Wertepaar den Netzwerken des Netzwerksystems zugeführt worden sind, ebenfalls an der be reits bekannten Kette angeknüpft werden. Bei diesem solcher Art gesteuerten Lernprozeß werden fast ausschließlich neue Wertepaare an die in der anfänglich durchgeführten Trainings phase gespeicherten Wertepaare angehängt. Mit anderen Worten werden nur bereits angelegte Verhaltenselemente (die anfäng lich eintrainierten Wertepaare) verbessert und weiterentwic kelt. Besteht die Möglichkeit, durch externe Belohnung unab hängig von der Bekanntheit oder Neuheit von Wertepaaren einen dem oben beschriebenen gleichartigen Trainingsprozeß initiie ren zu können, kann man auch noch später gezielt in das Lern verhalten eingreifen. Die beobachterunabhängige Formulierung von Belehrungskriterien läuft auf das Training einer schon spezifizierten Untermenge von Wertepaaren hinaus. Diese Be lehrungskriterien wurden ja initial schon als Wertepaare ein gespeichert.

Es kann hierbei sinnvoll sein, alle möglicherweise eingesetz ten Kohonenkarten fortlaufend oder in regelmäßigen Abständen einem, wenn auch relativ wenig intensiven Trainingsprozeß un abhängig von den Erfolgskriterien zu unterwerfen. Die Stati stik von Umgebung und Handlung wird damit synaptisch abgebil det und damit der Roboter gezwungen, sich "kognitiv" auf seine Umgebung und Aufgaben einzustellen. Dadurch werden Lernprozesse beschleunigt. Umgekehrt sollten die Kohonenkar ten beim erfolgsinduzierten Training synaptisch relativ sta bil bleiben, da ihr Ausgang (= Output) ja den Eingang (= In put) für die nachgeschalteten Netzwerke darstellt, die in dieser Phase die Input/Output-Assoziation herstellen sollen. Eine gewisse Plastizität der Kohonenkarten erleichtert hier bei den Trainingsprozeß für das strategiegenerierende Netz werk und die Netzwerke des Netzwerksystems.

Wie bereits vorstehend darauf hingewiesen worden ist, werden in einer Trainingsphase dem strategiegenerierenden Netzwerk und den Netzwerken des Netzwerksystems ausgewählte Werte paare, die aus von der sensorischen Einrichtung möglicher weise zu erfassenden Werten und den dazugehörenden Steuerbe fehlen bestehen, zugeführt. Innerhalb dieser Trainingsphase bilden sich dann in den Netzwerken zugehörige Synapsenstärken aus.

Die vorstehende Aufgabe wird vorrichtungsgemäß mit den Merk malen des Anspruchs 9 gelöst. Diese vorrichtungsgemäße Lösung weist die gleichen Vorteile auf, wie sie im Zusammenhang mit dem erfindungsgemäßen Verfahren geschildert worden sind. Zum Aufbau des Netzwerksystems ist zu bemerken, daß die Ausgangs werte jedes einzelnen Netzwerkes des Netzwerksystems der zu dem jeweiligen Netzwerk gehörenden Kohonenkarte sowie der Ko honenkarte des benachbarten Netzwerkes zugeführt werden kön nen. Bei Verwendung mehrerer, parallel nebeneinander ange ordneter Netzwerke können die Ausgangswerte jedes Netzwerkes wiederum den Kohonenkarten der benachbarten bzw. der anderen Netzwerke zugeführt werden.

Der Dynamikanalysator führt dabei eine Fourieranalyse der Ausgangswerte der Netzwerke des Netzwerksystems und der zuge führten sensorischen Werte bzw. der Steuerbefehle mit an schließendem spektralen Vergleich durch. Sind die Spektren der zugeführten Werte gleich wird ein go-Zustand signa lisiert. Enthalten die Ausgangswerte der Netzwerke des Netz werksystems vorwiegend harmonische Obertöne des Spektrums der zugeführten sensorischen Werte bzw. der Steuerbefehle wird ein no-go-Zustand signalisiert. Sind die Spektren der Aus gangswerte der Netzwerke des Netzwerksystems und der sensori schen Werte bzw. der Steuerbefehle völlig ohne Gemeinsamkeit wird ein chaos-Zustand signalisiert.

Die Suche im Fourierraum ist durch die Abtastfrequenz und durch die Breite des betrachteten Intervalls bestimmt. Die Zuordnung der Zustände kann hierbei durch (beispielsweise vom strategiegenerierenden Netzwerk generierte) Variation der Zu weisung der relativen spektralen Amplituden zu den Zuständen optimiert werden. Da sowohl die Ausgangswerte des Netzwerksy stems als auch die Wertepaare mehrkomponentige Vektoren sind, müßten theoretisch alle ihre Vektorkomponenten einer Fourier analyse unterzogen werden. Welche Komponenten der Wertepaare mit welchen Komponenten der Ausgangswerte des Netzwerksystems in ihrer Dynamik verglichen werden, kann allerdings willkür lich sein. Beispielsweise könnte ein Netzwerk aufgrund belie biger noch anzugebener Kriterien (Korrelation von Wertepaar- Komponenten mit Komponenten der Ausgangswerte des Netzwerksy stems?) diese Zuordnung durchführen. Einfacher ist es, zumin dest alle Spektralamplituden wenigstens der Wertepaare (als relativ stabil vorausgesetzt) ggf. gewichtet und renormiert zu addieren. Für die Werte aus den Netzwerken des Netzwerksy stems kann ebenso verfahren werden. Es ist aber auch möglich, das Spektrum einer Komponente eines Ausgangswertes der Netz werke des Netzwerksystems mit dem zusammengefaßten Spektrum der Wertepaare zu vergleichen und komponentenweise den go, no-go- oder chaos-Zustand zu erheben. Zur Reduktion des Re chenaufwandes könnte man sowohl die Wertepaare als auch die Ausgangswerte der Netzwerke des Netzwerksystems in einen Un terraum projizieren, oder andere Verfahren der Dimensionsre duktion durchführen (extrem: Spur S1_*S2; Spur B1_*B2 usw.), und anschließend Fourieranalyse sowie Spektralvergleich durchführen. Wegen der unzähligen Möglichkeiten und des po tentiell großen Aufwands wird noch als Vorschlag eine primi tive Fourieranalyse vorgestellt.

Die Wertepaare und die Ausgangswerte der Netzwerke des Netz werksystems werden in getrennte Schieberegister eingelesen und auf Periodizität untersucht. Dies geht folgendermaßen. Ein Wertepaar oder ein Paar an Ausgangswerten wird mit einem zeitverschobenen Paar verglichen. Wenn die (euklidische-, Manhattan Distanz -Vektoren) Abweichung kleiner ist als die Schwelle s, gibt es einen Punkt.

Die Punktzahl ergibt sich über die doppelte, Summation der Elemente i des Schieberegisters bis y und der Variation der Zeitverschiebungen n von 1 bis y/2.
p = Σ_i Σ_n fi (xr1) + fi(xr2), wobei fi (xr) = 1 wenn /xi- xr/<-s, sonst 0
r1 = n+i modulo y, r2 = 2n+i modulo y, i-1 bis y; n-1 bis y/2, x_i = eingelesener Vektor in Position i des Schieberegi ster.

Dieser Prozeß wird getrennt für die Wertepaare und die Aus gangswerte der Netzwerke des Netzwerksystems durchgeführt. Die Differenz der Punktzahlen der Wertepaare und der Aus gangswerte ist maximal = 0, wenn die Ausgangswerte des Netz werksystems so stabil wie die Wertepaare sind. Ansonsten wird die Differenz um so negativer, je chaotischer sich die Aus gangswerte gegenüber den Wertepaaren verhält. Die Ausbildung von harmonischen der Ausgangswerte des Netzwerksystems würde zu (negativen) Mittelwerten führen. An dieser Differenz kann die Klassifikation der Dynamik des Netzwerksystems erfolgen.

Das Kurzzeitgedächtnis ist vorzugsweise als Schieberegister ausgebildet, so daß die neu hinzugekommenden Wertepaare die zeitlich ältesten abgespeicherten Wertepaare aus dem Schiebe register entfernen.

Weiterhin ist zu bemerken, daß die Intensität des Trainings (= Lernzyklen) sich in Abhängigkeit des Verhältnisses bzw. der Differenz von Belohnung und aufgelaufenen Kosten, die ggf. Energiekosten sein können, gestalten kann. Damit werden nur Wertepaare mit positiver Energiebilanz trainiert bzw. ge lernt (= zusätzliches Selektionskriterium). Damit Wertepaare über das Fassungsvermögen des ggf. vorhandenen Kurzzeitge dächtnisses hinaus trainiert werden können, müssen bekannte und gespeicherte Wertepaare mit einem Belohnungswert assozi iert werden, der die Weiterverteilung der Belohnung an die anschließenden Kettenglieder ermöglicht. Hierzu gibt es meh rere Möglichkeiten. Beispielsweise wird von der "Belohnung", wie die zugeführte Energie usw., dem ersten Wertepaar dessen "Kosten", wie beispielsweise die zur Erreichung der momenta nen Situation aufgewandte Energie usw., abgezogen und das Re sultat als Belohnungswert zugewiesen und gespeichert (ggf. als zusätzliche Steuerbefehlskomponente, die nur zum Kurzzeitgedächtnis projeziert wird). Dem nächsten zu spei chernden Wertepaar wird dieser Werte als Bruttobelohnung zu gewiesen, wobei wiederum die jeweiligen Kosten abgezogen wer den usw.

Eine ähnliche Form läßt sich dadurch erreichen, daß Beloh nungsverteilung und Anlaufkosten über mehrere aufeinanderfol gende Wertepaare hinweg aufsummiert bzw. gesammelt werden und der resultiertende Durchschnittswert auf die Wertepaare ver teilt wird. Dieses Verfahren ergibt aber einen schlechten Gradienten, der allerdings durch die Überlagerung vieler Lernprozesse sich verbessert. Ein relativ hoher Gradient läßt sich dadurch herstellen, daß der Nettogewinn der im Kurzzeit gedächtnis gespeicherten Wertepaare mit einer entsprechenden Formel verteilt wird.

Des weiteren ist zu bemerken, daß direkt nach den Sensoren der sensorischen Einrichtung bzw. vor den ggf. vorhandenen Kohonenkarten des strategiegenerierenden Netzwerkes bzw. den Kohonenkarten des Netzwerksystems sowie dem Kurzzeitgedächt nis Bandpaßfilter angeordnet sein können.

Dabei werden die Bandpaßfilter verwendet, um die zeitlichen Komponenten von Signalen, auf die die nachgeschalteten Sy steme kaum oder nur schlecht reagieren, auszufiltern. Der Filter hat im wesentlichen zwei Parameter, die zentrale Fre quenz seines Durchlaßbereiches und die Bandbreite. Die Steue rung der Zentralfrequenz sowie die Bandbreite erfolgt durch den Dynamikanalysator. Die Bandbreite wird von der Netzwerk- Konfiguration, das die so gefilterten Werte erhält, während eines go-Zustandes erhöht, wogegen sie bei no-go- bzw. chaos- Zuständen verringert wird.

Ist die vorgeschlagene Erfindung Bestandteil eines größeren Netzwerksystems so kann es sinnvoll sein, zwischen den ein zelnen Hierachien dieses Großnetzwerksytems ebenfalls Band paßfilter einzusetzen. Der Ausgang nach oben, der meistens gleich dem Eingang von unten ist, soll ebenfalls gefiltert werden. Das übergeordnete Netzwerk braucht über das un tergeordnete nur wenig zu wissen, wenn der Betrieb ohne Stö rung verläuft. Erst wenn Probleme auftreten, sollte es mehr wissen. Der dazwischenliegende Bandpaßfilter sollte unter diesen Umständen geöffnet werden (= chaos-Zustand), ansonsten in seiner Bandbreite reduziert werden. In der Hierarchie wer den vor- und nachgeschaltete Bandpaßfilter unmittelbar ge koppelt und können bei entsprechender Konvergenz und Verrech nung der Steuerbefehle von unten und oben zusammengefaßt wer den. Dabei können die aus dem hierachisch höher angeordneten Netzwerk und zeitverzögerte Signale aus dem Kurzzeitgedächt nis der gleichen Hierachie ebenfalls über einen Bandpaßfilter laufen.

Weiterhin ist zu bemerken, daß zeitverzögerte Wertepaare aus dem Kurzzeitgedächtnis dem strategiegenerierenden Netzwerk und der Kohonenkarte des Netzwerkes des Netzwerksystems, das die Steuerbefehle empfängt, angeboten bzw. zugeführt werden. Hieraus ergibt sich der Vorteil, daß die Netzwerke zeitlich kausale Beziehungen zwischen den Wertepaaren entdecken und speichern können. Die Kompetenz des Systems entlang der Zeit achse steigt. So können nun zeitversetzte Signale abwesende sensorische Werte partiell ersetzen und so die Abhängigkeit des Systems und dessen Strategien von den momentanen sensori schen Werten reduzieren, wodurch das Verhalten stabilisiert werden kann. Das Netzwerksystem kann nun Wertepaare in Bezie hung zu ganzen Netzwertepaarketten setzen. Eine zeitverzö gerte Rückführung wäre auch für das Netzwerksystem geeignet, um ganze Ketten zu lernen und damit solche des strategiegene rierenden Netzwerkes zu modulieren. Es ist sinnvoll die Rück führung zeitverzögerter Wertepaare von der Situation - insbe sondere go-, no-go-, chaos-Zustand - abhängig zu machen. Bei länger bestehenden chaos-Zustand sollte die Rückführung redu ziert werden (durch Reduktion von Bandbreite, Zeitverzögerung (falls mehrere berücksichtigt werden), Anzahl der Komponenten usw.) dadurch kommt es zur Konzentration auf das hier und jetzt.

Werden durch no-go-Zustände vorwiegend Vermeidungsreaktionen (Abwenden, Ignorieren), die oft am schnellsten in den go-Zu stand zurückführen, ausgelöst, setzt sich der Roboter nicht genug mit Neuem auseinander. Diskriminationsvermögen und Ver haltensrepertoire stagnieren. Um dies zu vermeiden, muß man ausreichend lange chaos-Zustände erzwingen. Dies wird durch ein übergeordnetes Rechenwerk bzw. einen Computer erreicht. On-line Explorationsphase: Treten innerhalb eines typischen Zeitraums nicht genug chaos-Zustände auf (Summation über "leaky integrator") induziert das Rechenwerk den chaos-Zu stand, indem die für eine Aufgabenstellung spezifischen Kom ponenten (aufgrund der initialen "Programmierung" bekannt) eines Aufgabenvektors (es können mehrere mehrkomponentige Aufgabenvektoren vorliegen, die sowohl Komponenten enthalten, die allen oder einigen Aufgabenvektoren gemeinsam sind, als auch Komponenten, die nur in einem Aufgabenvektor enthalten sind) durch stoachastische Variablen ersetzt werden. Durch diese neuen stochastischen Variablen werden neue Wertepaare erzeugt, die ausschließlich im Netzwerksystem gespeichert werden. Dadurch kommt es u. a. zu geringfügigen Modifikationen der Kohonenkarten der Netzwerke des Netzwerksystems. In er ster Linie werden die Wertepaare aber den ähnlichsten bereits gespeicherten Mustern, gemäß der Variation der spezifischen Komponente des Aufgabenvektors im Grunde zufällig, zugeord net.

Sollten Energiemangel, akute Bedrohungen oder Anforderungen, Erschöpfung der Speicherkapazität des Netzwerksystems auftre ten, wird die Explorationsphase ebenso abgebrochen wie bei erfüllter chaos-Zustands-Quote. Ansonsten auftretende Gefah ren bei der Exploration werden so vermieden.

Off-line Wissentransfer Phase: Diese wird vom Rechenwerk bei erfülltem chaos-Zustandskontingent und bei erschöpfter Spei cherkapazität des Netzwerksystems ausgelöst, indem die Hand lungseinheiten und sensorischen Einrichtungen sowohl von dem Netzwerksystem als auch dem strategiegenerierenden Netzwerk system abgekoppelt werden. Die sensorischen Daten der senso rischen Einrichtigung werden durch stochastische Variablen ersetzt. Die auf Grund dieser stochastischen Variablen er zeugten Steuerbefehle des strategiegenerierenden Netzwerksy stems werden dem Netzwerksystem als weitere Eingangsdaten zu geführt. Aus der Sicht des strategiegenerierenden Netzwerkes ersetzen diese Variablen und das im Netzwerksystem gespei cherte Wissen die physische Interaktion mit der Umwelt. Die stochastischen Variablen sorgen dafür, daß möglichst viele Wertepaare durchgespielt werden. Durch diese Interaktion des Netzwerksystems (indem auch die Variablen gespeichert sind) mit dem strategiegenerierenden Netzwerk wird indirekt Wissen aus der Explorationsphase nun gemäß der Ähnlichkeit der die sensorischen Daten ersetzenden stochastischen Variablen mit den von dem strategiegenerierenden Netzwerk auf Grund dieser stochastischen Variablen erzeugten Steuerbefehlen zu bereits im strategiegenerierenden Netzwerk gespeicherten Wertepaaren ins strategiegenerierende Netzwerk übertragen. Der springende Punkt bei diesem Prozeß ist, daß in dem Netzwerksystem nicht vollständig die gleichen Muster wie im strategiegenerierendem Netzwerk gespeichert sind. Wäre dies der Fall, würden beide Strukturen synchron agieren und sich gegenseitig stabilisieren. Dieses Gleichgewicht zwischen Netzwerksystem und strategiegenerierenden Netzwerk wird durch stochastische Variablen immer wieder (kurzfristig) gestört, wenn sie von dem Netzwerksystem als ein aus der Explorationsphase stammendes Wertepaar interpretiert werden.

Werden in dem Netzwerksystem durch Steuerbefehle und stocha stische Variablen Wertepaare aus der Explorationsphase ent sprechende Muster (nur dieser Fall wird im weiteren disku tiert) aktiviert, passiert folgendes. Die resultierenden Aus gangssignale aus den Netzwerken des Netzwerksystems und des Dynamikanalysators sind dem strategiegenerierenden Netzwerk im allgemeinen unbekannt und destabilisieren dessen Dynamik, insbesondere die resultierenden Steuerbefehle. Das strategie generierende Netzwerk wird so gewissermaßen von dem Netzwerk system dominiert, das nur einem instabilen selektierenden Steuerbefehl unterliegt, bis ein dem strategiegenerierenden Netzwerk bekannter, aufgabenspezifischer Ausgang des Netz werksystems an dem strategiegenerienden Netzwerk anliegt und zusammen mit Steuerbefehl und stochastischen Variablen dessen Dynamik stabilisiert. (Ausgabe eines stabilen Steuerbefehls mit entsprechender Selektionswirkung). Innerhalb der klassi fikatorischen Diskriminationsfähigkeiten des strategiegene rierenden Netzwerkes und dem Netzwerksystem wird so die Dyna mik einer Teilmenge von Wertepaaren aus der Explorationsphase nun auch vom strategiegenerierenden Netzwerk nachvollzogen. Hierbei wählt gemäß "best fit" -Kriterium der Steuerbefehl un ter den in der einem Netzwerk des Netzwerksystems vorgeschal teten Kohonenkarte repräsentierten Steuerbefehlen aus der Ex plorationsphase und die stochastische Variable unter den in der anderen Kohonenkarte repräsentierten sensorischen Muster aus der Explorationsphase aus. Die gleichzeitig an den Ein- und Ausgängen des strategiegenerierenden Netzwerkes anliegen den Ausgänge des Netzwerksystems, der stochastischen Vari ablen und den Steuerbefehlen stellen die Rekonstruktion der Wertepaare aus der Explorationsphase dar. Die Reaktion des strategiegenerierenden Netzwerkes erfolgt natürlich ebenfalls gemäß "best fit" -Kriterium. Die aus dieser Interaktion resul tierenden Wertepaare und Ausgänge des Netzwerksytems sollen nun in dem strategiegenerierenden Netzwerk und dem Netzwerk system gespeichert werden. Die off-line-Phase wird bei akuter Gefährdung oder Aufgabenstellung ebenso abgebrochen wie nach dem Ablauf der für diesen Prozeß eingeräumten Zeitspanne, die proportional der aufgelaufenen chaos-Zustände mit dem Explo rationszeitraum vergleichbar ist.

Erreicht wird hierdurch, daß eine Teilmenge der aus der Ex plorationsphase stammenden Wertepaare gemäß des "best fit"- Kriteriums ins strategiegenerierende Netzwerk übertragen wird. Es findet also ein crossing-over von explorativen Er fahrungen in aufgabespezifische Wertepaaren statt. Das neue Repertoire wird während aufgabenspezifischem Verhalten in üb licher Weise selektioniert.

Im allgemeinen wird während der off-line-Phase nur eine Teil menge der aus der Explorationsphase stammenden Wertepaare und der aufgabenspezifischen Wertepaare reproduziert. Die übrigen Wertepaare könnten einem beschleunigtem "Vergessensprozeß" unterliegen. Dadurch wird Platz für neue Wertepaare geschaf fen und die durchgespielten Werte gewinnen eine höhere Prio rität. Man kann diesen Prozeß der Straffung unterstützen, in dem während der off-line-Phase auftretende Wiederholungen in nerhalb der Reichweite des Kurzzeitgedächtnisses mitsamt den dazwischen liegenden Wertepaaren vom anschließenden Trai ningsprozeß ausgeschlossen werden. Weiteres Ausschlußkriterium wäre z. B. zu starke Instabilität der Muster. Der hier beschriebene Prozeß - insbesondere die off line-Phase - kann in einem System bestehend aus strategiegenerierende Netzwerke und Netzwerksysteme beinhaltenden Modulen autonom ablaufen, während andere Module Basisinteraktionen mit der Umwelt aufrecht erhalten können.

Um die Begrenzungen der vorhandenen Neurochips zu überwinden, können mehrere Neurochips in paralleler, hierarchischer oder gemischt parallel/hierarchischer ("fraktaler") Anordnung kom biniert werden. Die Dimensionalität der Verbindungen zwischen den Netzwerken bzw. den so entstandenen Modulen solcher An ordnungen ist dabei immer niedriger als innerhalb der Netz werke selbst. Diese geringere Dimensionalität kann für höhere Stabilität und gezieltere sowie schnellere Optimierung ge nutzt werden. Es muß aber berücksichtigt werden, daß nicht zu viel Flexibilität verloren geht. Um die vermehrte Anzahl an Modulen und Netzwerken gut zu nutzen, ist es vorteilhaft, daß jedes Modul schwerpunktmäßig einen anderen Bereich der Koor dination von sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen kontrolliert. Es wird ein topographisches Sy stem eingeführt. Dies bedeutet, daß die Steuerbefehle eines Moduls dorthin zurück gehen, wo die sensorische Information herstammt bzw. wo eine maximale Korrelation besteht, falls dies nicht auslegungsmäßig klar sein sollte.

Das topographische Prinzip wird auch innerhalb von Hierar chien von Netzwerken durchgehalten; der Feedback bzw. die Steuerbefehle gehen dorthin, wo die Information herkommt. Da bei können auch Hierarchiestufen übersprungen werden, die Bindung an den entsprechenden Abschnitt der Koordination von sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen bleibt aber erhalten.

Der Begriff "hierarchisch" definiert sich hierbei über die Beziehung der Signale zu den Kohonenkarten eines strategiege nerierende Netzwerkes. Ein Signal von "unten" passiert analog der sensorischen Information eine solche Kohonenkarten, Si gnale von "oben" gehen direkt an das strategiegenerierende Netzwerk. Die Verschaltung des zugehörigen Netzwerksystems hat damit primär nichts zu tun. Als Standard weisen die Netz werksysteme der verschiedenen strategiegenerierende Netzwerke keine Verbindungen untereinander auf. Als Option wäre es mög lich, unter den Netzwerksystemen genau zu den verbundenen strategiegenerierende Netzwerke analoge Verbindungen aufzu bauen (siehe auch Fig. 2).

Gemischt parallel hierarchisch heißt, daß zwischen den Netz werken u. a. auch hierarchische Beziehungen bestehen aber gleichzeitig diese Netzwerke (auszugsweise) direkten Zugang zur gleichen "sensorischen" Information haben und gemeinsam Steuerbefehle an die gleiche Substruktur richten.

"Fraktale" Organisation heißt, daß innerhalb eines Gefüges von strategiegenerierende Netzwerken jedes einzelne durch eine dem Gefüge analoge Kombination von Netzwerken ersetzt werden kann.

Besonders vorteilhaft ist in diesem Zusammenhang der Einsatz einer gemischt parallel/hierarchisch/fraktalen Anordnung mit erfolgsbelohnten Lernprozesse und bedarfsabhängigen Ersetzen bei häufigen chaos-Zuständen des betreffenden Netzwerks bzw. Netzwerksystems durch eine gemischt hierarchisches Vierer pack.

Steuert ein paralleles oder hierarchisches System aus strate giegenerierende Netzwerk-Modulen z. B. ein Ensemble von Schrittmotoren eines mehrgelenkigen Arms, ist es unvermeid bar, daß die Steuerbefehle an einen Schrittmotor auch Folgen für die übrigen Gelenke haben, speziell für die Position des Endglieds. Insbesondere bei einer topographischen Aufteilung der Arbeit auf verschiedenen Netzwerke muß sich z. B. ein Netzwerk b mit den Folgen der Steuerbefehle eines Netzwerks a befassen, obwohl die eigentliche Ursache bei Netzwerk a liegt. Deshalb kann Netzwerk b diese Folgen nur in Grenzen kompensieren. Damit die Stabilität gewährleistet wird, muß Netzwerk a auch über die unerwünschten Nebeneffekte seiner Steuerbefehle informiert werden. Wegen der reduzierten Dimen sionalität der Kommunikation zwischen den Netzwerken a und b (evtl. ist noch ein Netzwerk c oder mehr dazwischengeschal tet) dauert dies zur Aufrechterhaltung der Steuerstabilität zu lange. Man braucht also ein System, das diese unerwünsch ten Koppelungen der Steuersätze mit ihren dynamischen Folgen kompensiert ("Kleinhirn").

Das System muß die mangelnde Konnektivität zwischen Netzwerk a und b sowie deren unter Umständen zu große Zeitkonstante kompensieren. Damit das System nicht unnötige Arbeit leistet, ist es sinnvoll, das System vom Zeitverhalten so auszulegen, daß es nur die schnellen Korrekturen ausführt, die das zusam mengesetzte Netzwerk nicht beherrscht. Auf der anderen Seite begrenzt die Trägheit der Stellglieder die obere Grenzfre quenz von dem System. Es hat wenig Sinn die Generierung der Steuerbefehle schneller zu machen, als die Stellglieder fol gen können. Die Signalverarbeitung erfolgt also in einem re lativ engen Zeitbereich (= Bandpaßfilter). Alle Ein- und Ausgangssignale des Systems sind dementsprechend bandpaßge filtert. Das System selbst besteht aus einem (hochdimensionalen) closed-loop-Regler und einem Feedforward- Netzwerk, das die Korrekturbefehle aus dem Regler (Steuerbefehl aus dem strategiegenerierenden Netzwerk minus den tatsächlichen Positionen der Stellglieder (alle Größen bandpaßgefiltert) mit den (unter Umständen zeitverzögerten) Steuerbefehlen aus dem strategiegenerierenden Netzwerk asso ziiert, um in Zukunft diesen errechneten Korrekturbefehl bei Anliegen des Steuerbefehls am Feedforward-Netzwerk antezipie rend direkt an die Stellglieder zu geben. Das Feedforward- Netzwerk ersetzt durch Lernen zunehmend den im nachhinein, wenn auch schnell operierenden Regler.

Es werden Trainings- und Arbeitsphase unterschieden. In der Trainingsphase werden die bandpaßgefilterten Steuerbefehl aus dem strategiegenerierenden Netzwerk etwas zeitverzögert ange boten, damit die gelernten Korrekturen an die Stellglieder gegeben werden, bevor der Fehler im Regler detektiert und von dort korrigiert wird. Das im Feedforward-Netzwerk gespei cherte Wertepaar besteht aus dem behandelten Steuerbefehl-Si gnal und der Korrektur aus dem Regler.

In der Arbeitsphase löst ein Steuerbefehl gemäß der beim Training benutzten Zeitverzögerung den Korrekturbefehl aus, bevor der Fehler manifest wird.

An der Peripherie werden die Steuerbefehle aus dem zusammen gesetzten Netzwerk und bandpaßgefilterten Korrekturbefehle von Feedforward-Netzwerk und Regler entsprechend verrechnet, z. B. komponentengerecht, d. h. unter Berücksichtigung des to pographischen Prinzips superponiert (addiert und ggf. renor miert). Die Korrekturberichte aus dem Regler können ggf. nach Integration und Verstärkung mit einer für das strategiegene rierende Netzwerk handhabbaren Zeitkonstante an das strate giegenerierende Netzwerk zurückgemeldet werden. Das strate giegenerierende Netzwerk würde so soviel wie möglich dieser Korrekturbefehle lernen und damit das Feedforward-Netzwerk entlasten. Eine Trainingsphase empfiehlt sich, wenn das stra tegiegenerierende Netzwerk selbst neue Steuerbefehle lernt. Allerdings geht dies off-line nur, wenn ein entsprechendes Kurzzeitgedächtnis für die notwendigen Korrekturen vorhanden ist. Ansonsten muß mehr oder weniger unter on-line Bedingun gen trainiert werden (zusätzliches Bewegungstraining).

Ein Ausführungsbeispiel sowie weitere Vorteile werden nach stehend anhand der Zeichnungsfiguren 1 bis 4 erläutert. Es zeigt:

Fig. 1-4 jeweils ein 1. bis 4. Ausführungsbeispiel der Er findung.

In den Zeichnungsfiguren kennzeichnen die punktiert darge stellten Linien optionale Verbindungen. Darüber hinaus kenn zeichnet der Buchstabe "a" eine abgeleitete Größe oder einen zeitverzögerten Wert aus einem Kurzzeitgedächtnis. Die Buch stabenfolgen "S1g" und "S2g" kennzeichnen zwischen gespeicherte Werte, die in einer Starttrainingsphase oder in einer während des Betriebes stattfindenden Trainingsphase die aus der Umwelt durch die sensorische Einrichtung aufgenomme nen Werte und die dazugehörenden Steuerbefehle ersetzen. Dies wird auch durch die die Verbindungsleitung umschlingenden Kreise gekennzeichnet.

Von einer aus einem oder mehreren Sensoren bestehenden senso rischen Einrichtung SE werden die erfaßten Werte S2, die zu einem oder mehreren Vektoren mit mehreren Komponenten zusammengefaßt worden sind, einem strategiegenerierenden Netzwerk SGNW und einem Netzwerk B2 mit einer vorgeschalteten Kohonenkarte KK2 eines Netzwerksystems zugeführt. Ebenso wer den die von dem strategiegenerierenden Netzwerk SGNW aufgrund der Vektoren S2 erzeugten Vektoren S1, die steuerbefehle für Handlungseinheiten HE darstellen, neben ihrer Zuführung zu den Handlungseinheiten HE einem Netzwerk B1 mit einer vorge schalteten Kohonenkarte KK1 des Netzwerksystems zugeführt. Sowohl die steuerbefehle S1 als auch die sensorischen Werte S2 werden vor Zuführung zu den jeweiligen Netzwerken B1, B2 über die Kohonenkarten KK1, KK2 geführt. Die Netzwerke B1, B2 besitzen an ihren Ausgangsseiten jeweils Verbindungen zu ih ren eigenen Kohonenkarten KK1 bzw. KK2, als auch eine Verbin dung zu der Kohonenkarte KK1, KK2 des anderen Netzwerkes B1, B2. Die Ausgangswerte der Netzwerke B1, B2 werden ebenfalls einem Dynamikanalysator DAN zugeführt, der zwischen stabilen und unstabilen Ausgangswerten unterscheidet. Schließlich wer den die Ausgangswerte der Netzwerke B1, B2 des Netzwerksy stems dem strategiegenerierenden Netzwerk strategiegenerie rende Netzwerk zugeführt. Als weitere Eingangsinformation er hält das strategiegenerierende Netzwerk SGNW das Ergebnis des Dynamikanalysators DAN, der zwischen go-Zuständen, no-go-Zu ständen und chaos-Zuständen unterscheidet. In Abhängigkeit seiner Eingangswerte erzeugt das strategiegenerierende Netz werk wiederum Steuerbefehle S1, die den Handlungseinheiten HE als auch dem zugehörigen Netzwerk B1 des Netzwerksystems zugeführt werden. Infolge der Steuerbefehle S1 werden von den sensorischen Einrichtungen SE Vektoren S2 erfaßt, die dem zugehörige Netzwerk B2 zugeführt werden. Gleichfalls werden die Steuerbefehle S1 als auch die sensorischen Werte S2 einer dem strategiegenerierenden Netzwerk SGNW vorgeschalteten Kohonenkarte KK3 zugeführt. Schließlich werden die von der sensorischen Einrichtung SE erfaßten Sensorwerte S2 als auch die Steuerbefehle S1 einem Kurzzeitgedächtnis KZG zugeführt, welches diese Wertepaare abspeichert.

Das erfindungsgemäße Verfahren zerfällt in zwei Handlungsbe standteile. In einer Trainingsphase werden ausgesuchte Werte paare S1g/S2g als x_n-Werte (n = 1, . . ., i) den Kohonenkarten KK1, KK2 der Netzwerke B1, B2 des Netzwerksystems zugeführt. Ebenso werden diese Werte dem strategiegenerierenden Netzwerk SGNW zugeführt. Im Laufe dieses Trainings bilden sich dann in den zugehörigen Netzwerken SGNW, B1, B2 bestehende Synapsen stärken aus. Hierbei können die dem strategiegenerierenden Netzwerk zugeführten Werte (x₀) die Ausgangswerte des Dynami kanalysators und der Netzwerke B1, B2 des Netzwerksystems er setzen und deren Zuführung erst dann erfolgen, wenn der Dyna mikanalysator DAN Stabilität im Training zeigt. Nach Abschluß der Trainingsphase wird der Roboter in Gang gesetzt mittels eines ersten Steuerbefehles S1. Infolge dieses Steuerbefehles S1 erzeugen die Handlungseinheiten HE eine Handlung, die zu einer Veränderung der sensorischen Werte S2 führen, die dem strategiegenerierenden Netzwerk SGNW über die Kohonenkarte KK3 als auch dem Netzwerk B2 über die Kohonenkarte KK2 des Netzwerksystems sowie dem Kurzzeitgedächtnis KZG zugeführt werden. Infolge der von der sensorischen Einrichtung SE er faßten Werte S2 gibt das strategiegenerierende Netzwerk SGNW Steuerbefehle S1 aus, die sowohl den Handlungseinheiten HE, dem Netzwerk B1 des Netzwerksystems über die Kohonenkarte KK1 als auch dem Kurzzeitgedächtnis KZG und dem strategiegenerie renden Netzwerk SGNW selbst zugeführt werden. Die Ausgangs werte der Netzwerke B1, B2 werden sowohl ihren jeweiligen zu geordneten Kohonenkarten KK1, KK2 als auch der Kohonenkarte KK2, KK1 des benachbarten Netzwerkes B2, B1 zugeführt. Des weiteren werden die Ausgangswerte der Netzwerke B1, B2 dem Dynamikanalysator DAN und dem strategiegenerierenden Netzwerk SGNW zugeführt. Der Dynamikanalysator DAN unterscheidet auf grund der Stabilität bzw. Unstabilität der Ausgangswerte der Netzwerke B1, B2 in go-, no-go- oder chaos-Zustände. Diese Zustände werden dem strategiegenerierenden Netzwerk SGNW wie derum mitgeteilt, das aufgrund seiner weiteren Eingangswerte neue Steuerbefehle S1 erzeugt, die wiederum zu veränderten Steuerbefehlen S2 der sensorischen Einrichtungen SE führen. Nach Erreichen eines stabilen Zustandes der Ausgangswerte der Netzwerke B1, B2 wird das zugehörige Wertepaar S1, S2 zusam men mit den zeitlich vor diesem Wertepaar S1/S2 erfaßten und im Kurzzeitgedächtnis abgespeicherten Wertepaare den Netz werken SGNW, B1, B2 auftrainiert. Somit wird die "positive" Erfahrung des Roboters sofort umgesetzt, so daß bei Auftreten eines Wertepaares S1/S2, das zwar in der vorbeschriebenen Si tuation zu keinem stabilen Ausgangswert aus dem Netzwerksy stem geführt hat, jedoch zeitlich vor und in Verbindung mit einem als bekannt eingestuften Wertepaar S1/S2 steht, die Si tuation als bekannt eingeschätzt wird.

In der Fig. 2 wird ein Ausführungsbeispiel der Erfindung wiedergegeben, bei dem ein Netzwerksystem durch ein gemischt hierarchisches "Viererpack"-Netzwerksystem ersetzt ist. Das Netzwerk nw, welches ein strategiegenerierendes Netzwerk so wie ein Netzwerksystem umfaßt, wird durch ein Ensemble von vier gleichartig wie das Netzwerk nw aufgebauten Netzwerken a0, n1, n2, n3 ersetzt, wobei a₀ dem alten Netzwerk nw ent spricht und n1, n2, n3 neue Netzwerke sind. n2 wird im näch sten Schritt durch den Viererpack der nächsten Generation er setzt. Die neuen Netzwerke n1, n2, n3 liegen im Bypass zum alten Netzwerk a0 (nw) und können so sukzessive von a0 ler nen, bis unter Kontrolle von a0 deren Ausgang zunehmend be rücksichtigt wird. Dabei übernimmt das alte Netzwerk a0 das Managment von Eingangs- und Ausgangswerten aller Netzwerke n1, n2, n3 (des Viererpacks) inklusive ihrer Gewichtungen. Diese Gewichtungen sind vor allen Dingen für den zurückge führten Ausgang der vier Netzwerke von Bedeutung, die nun alle auf das normale Feedbackformat (identisch mit Format des ursprünglichen Steuerbefehls) reduziert werden.

Dies kann beispielsweise durch gewichtete Superposition bei Erhaltung der Topographie erfolgen, wie dies nachstehend im Zusammenhang mit der Fig. 3 erläutert wird. Als Resultat wird aber das Repertoire des Feedback-Outputs und damit der Steuersatz für untergeordnete Strukturen selbst ohne flexible Gewichtung mindestens verdreifacht. Für die Feedforward-Pro jektion FF zu einem übergeordneten, nicht dargestellten Netz werk ist es nicht nötig, die Ausgänge der vier Netzwerke a, n1, n2, n3 auf Feedbackformat PB zu reduzieren, da auf der Kohonenkarte dieses übergeordneten Netzwerkes genügend Platz ist, um den aus den Ausgängen a, n1, n2, n3 bestehenden zu sammengesetzten Feedforward Vektor aufzunehmen.

Weiterhin können in diesem Zusammenhang Karten als Sonderfall einer parallelen Erweiterung angesehen werden, vor allem für topographisch analog angeordnete Ensembles gleichartiger Sub systeme.

Bei der in Fig. 3 dargestellten Ausführungsform handelt es sich um eine Vertiefung der in Fig. 2 beschriebenen Ausfüh rung, wobei insbesondere die innere Kommunikation der Netz werke und die Organisation der Ein- und Ausgänge eines Viererpacks beschrieben werden. S2 ist die topographisch ge ordnete Information von der sensorischen Einrichtung SE. Der Output der Netzwerke a und n1 weist schon die richtige Topo graphie auf und kann direkt superponiert werden, um den Steu erbefehl S1 zu den Handlungseinheiten HE und untergeordneten Netzwerken zu bilden. Die jeweils benachbarten Ausgangskompo nenten der Netzwerke n2 und n3 werden zu einem Wert zusammen gefaßt, um das topographisch richtige Format zu bilden, das mit den Ausgängen der Netzwerke a und n1 zum Steuerbefehl S1 (= FB) superponiert werden kann. Die Erhaltung der Topogra phie ist durch die Symmetrie der Zuordnung der Netzwerke zu S2 und S1 angedeutet. Für die Feedforward Projektion FF zu einem übergeordneten Netzwerk ist es nicht nötig, die Aus gänge der 4 Netzwerke a, n1, n2, n3 auf Feedbackformat FB zu reduzieren, da auf der Kohonenkarte dieses Netzwerkes genü gend Platz ist um den aus den Ausgängen der Netzwerke a, n1, n2, n3 bestehenden zusammengesetzten Feedforward Vektor auf zunehmen.

Fig. 4 beschreibt folgende Ausführungsform: Das zusammenge setzte Netzwerk besteht aus den Modulen, die aus strategiege nerierenden Netzwerken SGNW und Netzwerksystemen bestehen. Deren Ausgänge S1 gehen an die Handlungseinheiten HE und an PK. PK besteht aus Bandpaßfiltern BPF, einem Regler (zwischen den BPF) und einem Feedforward Netzwerk. Im Signal weg liegen noch ein Integrator I mit der Zeitkonstanten des zusammengesetzten Netzwerks und ein Delay D, das während des Trainingsprozesses aktiv, ansonsten überbrückt ist. Die Fol gen der Steuersätze S1 und deren Korrekturen K und K′ aus PK, die gemeinsam die Handlungseinheiten HE steuern, werden von der sensorischen Einrichtung SE erfaßt und an das zusammenge setzte Netzwerk und PK (BPF) weitergegeben.

Claims

1. Verfahren zum Steuern eines autonom explorierenden Robo ters, wobei von einer sensorischen Einrichtung (SE) erfaßte Werte (S2) einem strategiegenerierenden Netzwerk (SGWN) zuge führt werden, welches aufgrund seiner während einer Trai ningsphase auftrainierten Synapsenstärken Steuerbefehle (S1) an Handhabungseinheiten (HE) abgibt, dadurch gekennzeichnet, daß die von der sensorischen Einrichtung (SE) erfaßten Werte (S2) und die vom strategiegenerierenden Netzwerk (SGNW) ausgegebenen Steuerbefehle (S1) einem Netzwerksystem mit meh reren Netzwerken (B1, B2) zugeführt werden, welches zwischen während einer Trainingsphase auftrainierten Wertepaaren (S1/S2) und unbekannten Wertepaaren (S1/S2) unterscheidet.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Ausgangswerte der Netzwerke des (B1, B2) des Netz werksystems dem strategiegenerierenden Netzwerk (SGNW) zuge führt werden.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Ausgangswerte der Netzwerke (B1, B2) des Netzwerksystems einem Dynamikkanalysator (DAN) zugeführt werden, der die auftrainierten Wertepaare (S1/S2) von den unbekannten Werte paaren (S1/S2) anhand der Stabilität dieser Ausgangswerte be stimmt.

4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß das Ergebnis des Dynamikanalysators (DAN) dem strategie generierenden Netzwerk (SGNW) als zusätzlicher Eingangswert zugeführt wird.

5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, daß die Ausgangswerte der Netzwerke (B1, B2) des Netzwerksy stems sowohl dem strategiegenerierenden Netzwerk (SGNW) wie auch dem Dynamikanalysator (DAN) zugeführt werden.

6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die den Netzwerken (B1, B2) des Netzwerksystems zugeführ ten Werte (S1/S2) über Kohonenkarten (KK1/KK2) den Netzwerken (B1, B2) zugeführt werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die dem strategiegenerierenden Netzwerk (SGNW) zugeführ ten Werte (S1/S2) über wenigstens eine Kohonenkarte (KK3) dem strategiegenerierenden Netzwerk (SGNW) zugeführt werden.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die von den sensorischen Einrichtung erfaßten Werte (S2) und die von dem strategiegenerierenden Netzwerk (SGNW) aus gegebenen Steuerbefehle (S1) in einem Kurzzeitgedächtnis (KZG) abgelegt werden.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß in der Trainingsphase dem strategiegenerierenden Netzwerk (SGNW) und den Netzwerken (B1, B2) des Netzwerksystems ausge wählte Wertepaare (S1/S2) zugeführt werden.

10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß dem strategiegenerierenden Netzwerk (SGNW) und den Netz werken (B1, B2) des Netzwerksystems während der Trainings phase anstelle der von der sensorischen Einrichtung (SE) er faßten Werte (S2) und den Steuerbefehlen (S1) des strategiegenerierenden Netzwerkes (SGNW) die ausgewählten Wertepaare (S1/S2) zugeführt werden.

11. Vorrichtung zum Steuern eines autonom explorierenden Robotors, umfassend ein strategiegenerierendes Netzwerk (SGNW), eine sensorische Einrichtung (SE) zum Erfassen von Werten der Umwelt (S2), wobei die von der sensorischen Ein richtung (SE) erfaßten Werte (S2) dem strategiegenerierenden Netzwerk (SGNW) zugeführt werden, und Handlungseinheiten (HE), die von dem strategiegenerierenden Netzwerk (SGNW) er zeugte Steuerbefehle (S1) empfangen, dadurch gekennzeichnet, daß ein Netzwerksystem mit mehreren Netzwerken (B1, B2) vor gesehen ist, welches die von den sensorischen Einrichtung (SE) erfaßten Werte (S2) und die von dem strategiegenerieren den Netzwerk (SGNW) erzeugten Steuerbefehle (S1) empfängt.

12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet, daß das Netzwerksystem wenigstens zwei Netzwerke (B1, B2) um faßt.

13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, daß jedem Netzwerk (B1, B2) eine Kohonenkarte (KK1, KK2) vor geschaltet ist, wobei die Ausgangswerte jedes Netzwerkes (B1, B2) sowohl seiner jeweiligen Kohonenkarte (KK1, KK2) als auch der Kohonenkarte (KK1, KK2) des anderen Netzwerkes (B1, B2) als Eingangswert zugeführt wird.

14. Vorrichtung nach einem der Ansprüche 11 bis 13, dadurch gekennzeichnet, daß die Ausgangswerte der beiden Netzwerke (B1, B2) einem ih nen nachgeschalteten Dynamikanalysator (DAN) zugeführt wer den, der anhand der Stabilität der Ausgangswerte der beiden Netzwerke (B1, B2) ein diesen Netzwerken (B1, B2) zugeführtes Wertepaar (S1/S2) als bekannt bzw. unbekannt unterscheidet, globale oder lokale go-, no-go- oder Chaos-Zustände anzeigt und diese zusammen mit den Ausgangswerten der Netzwerke (B1, B2) an das strategiegenerierende Netzwerk (SGNW) weitergibt.

15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß der Dynamikanalysator (DAN) als Schieberegister ausgebil det ist.

16. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß der Dynamikanalysator (DAN) als Fourieranalysator mit Spektral ausgebildet ist.

17. Vorrichtung nach einem der Ansprüche 11 bis 16, dadurch gekennzeichnet, daß die von der sensorischen Einrichtung (SE) erfaßten Werte (S2) und die von dem strategiegenerierenden Netzwerk (SGNW) ausgegebene Steuerbefehle (S1) einem Kurzzeitgedächtnis (KZG) zugeführt werden.

18. Vorrichtung nach Anspruch 17, dadurch gekennzeichnet, daß das Kurzzeitgedächtnis (KZG) als Schieberegister ausge bildet ist.

19. Vorrichtung nach einem der Ansprüche 11 bis 18, dadurch gekennzeichnet, daß die von den sensorischen Einrichtung (SE) erfaßten Werte (S2) und die von dem strategiegenerierenden Netzwerk (SGNW) erzeugten Steuerbefehle (S1) vor Zuführung zu dem strategie generierenden Netzwerk (SGNW) über eine weitere Kohonenkarte (KK3) geführt werden.