DE4440859A1 - Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters - Google Patents
Verfahren und Vorrichtung zum Steuern eines autonom explorierenden RobotersInfo
- Publication number
- DE4440859A1 DE4440859A1 DE4440859A DE4440859A DE4440859A1 DE 4440859 A1 DE4440859 A1 DE 4440859A1 DE 4440859 A DE4440859 A DE 4440859A DE 4440859 A DE4440859 A DE 4440859A DE 4440859 A1 DE4440859 A1 DE 4440859A1
- Authority
- DE
- Germany
- Prior art keywords
- network
- values
- strategy
- networks
- sgnw
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1602—Programme controls characterised by the control system, structure, architecture
- B25J9/161—Hardware, e.g. neural networks, fuzzy logic, interfaces, processor
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B25—HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
- B25J—MANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
- B25J9/00—Programme-controlled manipulators
- B25J9/16—Programme controls
- B25J9/1694—Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33012—Kohonen network, single layer with neurodes, associated with codebook vector
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B2219/00—Program-control systems
- G05B2219/30—Nc systems
- G05B2219/33—Director till display
- G05B2219/33022—One network for learned signal values, one network for unknown signal values
Description
Die Erfindung betrifft ein Verfahren sowie eine Vorrichtung
zum Steuern eines autonom explorierenden Roboters gemäß den
Oberbegriffen der Ansprüche 1 und 9.
Sollen Arbeiten in einer für den Menschen feindlichen Umge
bung durchgeführt werden, so bietet es sich an, hierfür Robo
ter einzusetzen. Diese Roboter können mittels einer Fern
steuerung oder eines in einer robotereigenen Recheneinheit
implementierten Programms gesteuert werden.
Der Einsatz einer Fernsteuerung setzt voraus, daß sich die
Bedienungsperson an der Fernsteuerung zumindest in Kommunka
tionsreichweite mit dem Roboter befindet. Dies ist aber in
einer Reihe von Anwendungsfällen nicht möglich, insbesondere
dann, wenn die Entfernung zwischen Bedienungsperson und Robo
ter zu groß wird, oder aber, wenn Störungen in der Kommunika
tion zwischen Roboter und Bedienungsperson auftreten können.
Demgegenüber weist ein Roboter, der mittels eines ihm eigenen
Programms arbeitet, eine größere Unabhängigkeit gegenüber dem
ferngesteuerten Roboter auf. Jedoch setzt die Verwendung ei
nes Programms voraus, daß während der Programmierung alle
eventuell auftretenden Situationen für den Roboter bereits
bekannt und entsprechende Handlungstrategien dem Roboter mit
eingegeben werden. Wird jedoch der Roboter für Arbeiten ein
gesetzt, bei denen entweder die Einsatzumgebung und die damit
möglicherweise auftretenden Situationen nicht vollständig
bekannt sind und/oder aber Bedingungen auftreten können, die
zum Zeitpunkt der Programmierung noch nicht vorhersehbar
sind, so scheitert ein Roboter, der mittels eines Programms
gesteuert wird. Wird demgegenüber versucht, die dem Roboter
bereits bekannten Situationen dadurch zu erweitern, daß mit
der Recheneinheit eine Datenbank verbunden ist, die eine
Vielzahl von gegebenen Situationen speichert, so werden hier
für erhebliche Rechenzeiten beansprucht, so daß der Roboter
bei Auftreten einer für ihn zunächst unbekannten Situation
einen verhältnismäßig langen Zeitraum stillgesetzt wird, bis
nach Durchsuchen des Datenbestandes eine entsprechende Lö
sungsstrategie gefunden wird. Dies kann aber dann von Nach
teil sein, wenn der Roboter in eine Situation gerät, die eine
sofortige Handlung erfordert.
Es sind in der Praxis bereits Netzwerke mit vorgeschalteten
Kohonenkarten bekannt, die jedoch nicht in der Lage sind,
zwischen bekannten und unbekannten Situationen zu unterschei
den. Damit können keine gezielten Ausweichverhalten gegenüber
ungewöhnlichen Situationen generiert werden. Auch bleibt das
Verhalten in diesen neuen Situationen völlig stereotyp, da ja
zu einem durch eine Sensorik erfaßten Wert mit einem Steuer
befehl geantwortet wird, welcher einem gespeicherten sensori
schen Wert am nächsten kommt. Eine Variation des Verhaltens
wäre nur über eine Superposition von Ausgangswerten möglich,
die den ähnlichsten gespeicherten Situationen entsprechen.
Allerdings ist diese Superposition durch die Filterwirkung
der Kohonenkarte fast ausgeschlossen. Es käme zur Instabili
tät des Musters in der Kohonenkarte mit wechselnder Aktivität
entsprechend der Ähnlichkeit zu den gespeicherten Prototypen.
Das System würde also im Grunde sein Handlungsrepertoir nach
einander ausprobieren. Ein Lernprozeß tritt nur nach dem Er
folg einer dieser Versuche ein. Das spezifische dieser neuen
Situation geht darüber hinaus in diesem Lernprozeß fast voll
ständig verloren. Es ändert sich allenfalls geringfügig die
Kohonenkarte. Das Netzwerk würde aus dem Erfolg sehr wenig
lernen (die Stereotypen werden etwas erweitert oder vermin
dert in der Kohonenkarte, während das Repertoire des Netz
werkes praktisch unverändert bleibt) und könnte aus einem
Mißerfolg überhaupt keine Schlußfolgerungen ziehen.
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren so
wie eine Vorrichtung der eingangs genannten Art zu schaffen,
das bzw. die es dem Roboter innerhalb des real-time-Modus ge
stattet, zwischen einer bekannten und einer unbekannten Si
tuation zu unterscheiden.
Die vorliegende Aufgabe wird verfahrensgemäß mit den Merkma
len des Anspruchs 1 gelöst. Durch die Verwendung des erfin
dungsgemäßen Netzwerksystems benötigt der Roboter nicht mehr
eine umfangreiche Datenbank möglicher auftretender Situatio
nen. Es genügt vielmehr, dem Roboter während einer Trainings
phase selektierte Wertepaare, die aus durch die sensorische
Einrichtung zu erfassenden Werten der Umwelt und den hierzu
gehörenden Steuerbefehlen bestehen, aufzutrainieren. Ein der
artiges Auftrainieren führt bei den eingesetzten Netzwerken
zur Ausbildung bestimmter Synapsenstärken. Wird während des
Betriebs des Roboters durch das erfindungsgemäße Netzwerksy
stem ein bekanntes Wertepaar aus von der sensorischen Ein
richtung erfaßten Umweltwerten und von dem strategiegenerie
renden Netzwerk hierzu erzeugte Steuerbefehlen erkannt, so
kann dieses Wertepaar zum einen zu weiteren, bereits gelern
ten Wertepaaren führen, die dem Roboter dann gestatten, einen
bereits ihm bekannten Pfad bzw. Lösungsweg zu beschreiten.
Zum anderen wird dem Roboter die Möglichkeit eröffnet, Erfah
rung zu sammeln in der Form, daß die Wertepaare, die vor dem
Erkennen des durch das Netzwerksystem als bekannt eingestuf
ten Wertepaares ebenfalls erfaßt worden sind, mit diesem be
kannten Wertepaar abgespeichert werden. Da die Wertepaare Re
sultat von Handlungen des Roboters sind, können somit an sich
unbekannte Wertepaare zu bekannten "gemacht" werden. Tritt in
einer zukünftigen Situation dann wieder ein Wertepaar auf,
das aus der Reihe der bereits abgespeicherten Wertepaare
stammt, so besteht die Möglichkeit, die anderen hierzu gehö
renden Wertepaare zu rekonstruieren bzw. die Erfahrung zu
vergrößern.
Das vorgeschlagene Netzwerksystem wirkt praktisch als kogni
tives Interferrometer, das sehr sensibel zwischen gespeicher
ten Wertepaaren (durch hohe Rückkopplung und die Trainings
prozesse sind nur diese stabil) und neuen ungespeicherten
Wertepaaren unterscheidet. Damit kann einmal Neues spezifisch
angegangen werden (vorsichtiges Explorieren oder Ausweichen).
Die Dynamik des Netzwerksystems wird ungefiltert an das stra
tegiegenerierende Netzwerk weitergegeben und modifiziert des
sen Verhalten in Form geänderter Steuerbefehle bedarfsge
recht. Hierdurch ist es möglich, eine Stabilisierung des Ver
haltens in einem erfolgreichen Zustand und eine Variation des
Verhaltens in Form veränderter Steuerbefehle in einem Zustand
zu erhalten, der keinen Erfolg verspricht. Die Verhaltensva
riationen werden situationsspezifisch abgespeichert, wodurch
eine Erweiterung und Differenzierung der Diskrimination von
Situationen und des Verhaltensrepertoires erfolgt.
Das System kann damit zumindest indirekt aus "Fehlern" ler
nen, wobei unter dem Begriff "Fehler" das Auftauchen neuer,
nicht erwarteter Situationen verstanden wird, die eine Ver
haltensmodifikation erfordern. Die Durchbrechung der Erwar
tung und das Ausbleiben des Erfolgs werden explizit als in
stabiler Zustand des Netzwerksystems erfaßt und dargestellt.
Die Verhaltensweisen, die zur Korrektur der "Fehler" führen,
werden einerseits durch Verhaltensvariationen erzeugt und an
schließend selektiert sowie unter Berücksichtigung der Beson
derheiten der Situation repräsentiert (= Training). Sollten
Lernprozesse ausbleiben, verlernt das Netzwerksystem aber
nicht, diesen Fehler unter gleichen Gegebenheiten anzuzeigen.
Damit bemerkt das System "Fehler" (= unerwartet) und stellt
sein Verhalten darauf ein.
Es ist zu bemerken, daß im Sinne der Erfindung unter der sen
sorischen Einrichtung eine Vorrichtung zu verstehen ist, die
aus ein oder mehreren Sensoren oder sensorähnlichen Baugrup
pen bestehen kann. Die Sensoren können die unterschiedlich
sten physikalischen Werte erfassen und ggf. diese noch in
eine für die verwendeten Netzwerke geeignete Form transfor
mieren. Des weiteren ist unter Handlungseinheiten jede Form
einer Einrichtung zu verstehen, die dem Roboter eine Handlung
ermöglicht, sei es, daß ein Betätigungsglied des Roboters in
irgendeiner Form verfahren wird, sei es, daß die Empfindlich
keit von seinen Sensoren verändert wird. Insbesondere können
die Handlungseinheiten Kombinationen von Netzwerken, Reglern
und/oder Servos sein, die zudem noch lokale sensorische In
formation verarbeiten können. Hierdurch sind sie in der Lage,
teilweise autonom die an sie gehenden Steuerbefehle aufgrund
der lokal, in Ort und Zeit (bei zu langsamer Variation der
Steuerbefehle) vorliegenden Informationen weiter zu differen
zieren. Das strategiegenerierende Netzwerk wird so entlastet.
Zwischen solcherart differenzierten Handlungseinheiten und
der hierarchischen Organisation von Netzwerken besteht eine
große Ähnlichkeit. Schließlich ist noch zu bemerken, daß un
ter Steuerbefehlen jede Form von Befehl an eine derartige
Handlungseinheit verstanden werden kann.
Weiterhin ist darauf hinzuweisen, daß der Trainingsvorgang
für das strategiegenerierende Netzwerk und die Netzwerke des
Netzwerksystems eine doppelte Schleife bilden. Das Training
des Netzwerksytems beschreibt die innere Schleife. Jedes Wer
tepaar aus sensorischen Werten und den dazugehörigen Steuer
befehlen wird solange den Netzwerken des Netzwerksystems an
geboten, bis die Adaption zu einem stabilen Ausgangswert aus
den Netzwerken des Netzwerksystems führt. Nun setzt die äu
ßere Schleife ein, in dem die den Netzwerken des Netzwerksy
stems zugeführten Wertepaare über ggf. vorhandene Kohonenkar
ten und die nun stabilen Ausgangswerte der Netzwerke des
Netzwerksystems an das strategiegenerierende Netzwerk als zu
lernende Vektorkombination zugeführt werden. Würden die bei
den Schleifen des Trainingsprozesses zeitlich parallel lau
fen, würde das strategiegenerierende Netzwerk alle "Wackler"
aus dem Netzwerksystem, d. h. alle instabilen Zwischenprozesse
des Trainings des Netzwerksystems, mitlernen.
Um bekannte Wertepaare von unbekannten Wertepaaren zu unter
scheiden, ist erfindungsgemäß vorgesehen, daß die Ausgangs
werte der Netzwerke des Netzwerksystems einem Dynamikanalysa
tor zugeführt werden. Anhand der Stabilität der Ausgangswerte
der Netzwerke des Netzwerksystems kann dann der Dynamikanaly
sator erkennen, daß ein bekanntes Wertepaar den Netzwerken
des Netzwerksystems zugeführt worden ist.
Das Ergebnis des Dynamikanalysators kann dem strategiegene
rierenden Netzwerk neben den Ausgangswerten der Netzwerke des
Netzwerksystems und den den Netzwerken des Netzwerksystems
als Eingangswerte zugeführten Wertepaaren als weiterer Ein
gangswert zugeführt werden. Hierbei kann zwischen go-, no-go-
oder chaos-Zuständen unterschieden werden. Ein go-Zustand
wird bei Stabilität der Ausgangswerte der Netzwerke des Netz
werksystems erkannt. Mit anderen Worten bedeutet dies, daß
ein bekanntes Wertepaar erfaßt worden ist. Der chaos-Zustand
(vollkommene Instabilität) tritt ein, wenn ein unbekanntes
Wertepaar von den Netzwerten des Netzwerksystems behandelt
wird. Der no-go-Zustand liegt dynamisch zwischen dem chaos-
und dem go-Zustand und ist durch die Ausbildung eines angenä
herten Grenzzyklus der Ausgangswerte des Netzwerksystems ge
kennzeichnet. Der no-go-Zustand signalisiert, daß der momen
tane sensorische Wert zwar bekannt ist, aber nicht zu dem ak
tivierten Steuerbefehl paßt. Es kann deshalb vorgesehen sein,
daß no-go-Zustände des Dynamikanalysators durch Ignorieren
der Abwenden des Roboters von dieser Konfiguration der sen
sorischen Werte beantwortet wird. Dadurch gerät der Roboter
möglichst schnell wieder in den bekannten Bereich bereits ge
speicherter Wertepaare. Der Übergang zwischen no-go- und
chaos-Zuständen ist fließend, deshalb können neue Wertepaare
ebenfalls teilweise ignoriert werden. Führt das Abwenden
und/oder Ignorieren jedoch nicht in den bekannten Bereich zu
rück, resultiert ein dauerhafter chaos-Zustand. Nun kann die
im Netzwerksystem sich entfaltende Chaotik zunehmend das
strategiegenerierende Netzwerk beeinflussen und damit völlig
neue Aktionen im Sinne von neuen Steuerbefehlen generieren.
Noch länger andauernde chaos- und/oder no-go-Zustände könnten
auch durch explizite regressive Strategien beantwortet wer
den. Beispielsweise etwa durch Zurückkehren zu dem Ausgangs
punkt des Roboters oder zu demjenigen Punkt, an dem die letz
ten bekannten Wertepaare erfaßt worden sind.
Da die von der sensorischen Einrichtung erfaßten Werte nicht
nur Skalare sein können, sondern auch in Form von Vektoren
mit einer Vielzahl von Komponenten auftreten können, werden
zur Datenreduktion die von der sensorischen Einrichtung er
faßten Werte und die ebenfalls in Form von Vektoren vorlie
genden Steuerbefehle vor Zuführung zu den Netzwerken des
Netzwerksystems und/oder vor Zuführung zu dem strategie
generierenden Netzwerk Kohonenkarten zugeführt.
Zu der Trainingsphase ist im Zusammenhang mit dem Einsatz von
Kohonenkarten noch zu bemerken, daß die Synapsen dieser Koho
nenkarten während des Trainingsprozesses langsamer adaptieren
sollen als die Synapsen der Netzwerke des Netzwerksystems so
wie des strategiegenerierenden Netzwerkes, da diese zum Lern
prozeß relativ stabile Eingangs- bzw. Ausgangsbeziehungen
brauchen. Allerdings kann eine Adaptierung der Kohonenkarte
den gesamten Prozeß erleichtern, insofern als die benutzten
Netzwerke allein nicht alle Eingangs- bzw. Ausgangsbeziehun
gen nachbilden können.
Des weiteren ist zu bemerken, daß es vorteilhaft ist, die
ggf. vorhandenen Kohonenkarten sich fortlaufend oder zumin
dest intermittierend synaptisch adaptieren zu lassen. Damit
bilden die Kohonenkarten die Statistik der Steuerbefehle und
der sensorischen Werte erfolgsunabhängig ab, um den Roboter
"kognitiv" an das vorherrschende Terrain bzw. die gestellten
Aufgaben anzupassen.
Die von der sensorischen Einrichtung erfaßten Werte sowie die
dazugehörenden Steuerbefehle werden neben der Zuführung zu
dem strategiegenerierenden Netzwerk und den Netzwerken des
Netzwerksystems einem Kurzzeitgedächtnis zugeführt, wo sie
abgelegt werden. Wird ein den Netzwerken des Netzwerksystems
neu zugeführtes Wertepaar als bekanntes Wertepaar identifi
ziert, so erfolgt eine Verknüpfung dieses als bekannt erkann
ten Wertepaares mit den Wertepaaren einer zum Erfolg geführ
ten Kette von Wertepaaren, wobei die Wertepaare, die vor dem
gerade eben als bekannt erfaßten Wertepaar den Netzwerken des
Netzwerksystems zugeführt worden sind, ebenfalls an der be
reits bekannten Kette angeknüpft werden. Bei diesem solcher
Art gesteuerten Lernprozeß werden fast ausschließlich neue
Wertepaare an die in der anfänglich durchgeführten Trainings
phase gespeicherten Wertepaare angehängt. Mit anderen Worten
werden nur bereits angelegte Verhaltenselemente (die anfäng
lich eintrainierten Wertepaare) verbessert und weiterentwic
kelt. Besteht die Möglichkeit, durch externe Belohnung unab
hängig von der Bekanntheit oder Neuheit von Wertepaaren einen
dem oben beschriebenen gleichartigen Trainingsprozeß initiie
ren zu können, kann man auch noch später gezielt in das Lern
verhalten eingreifen. Die beobachterunabhängige Formulierung
von Belehrungskriterien läuft auf das Training einer schon
spezifizierten Untermenge von Wertepaaren hinaus. Diese Be
lehrungskriterien wurden ja initial schon als Wertepaare ein
gespeichert.
Es kann hierbei sinnvoll sein, alle möglicherweise eingesetz
ten Kohonenkarten fortlaufend oder in regelmäßigen Abständen
einem, wenn auch relativ wenig intensiven Trainingsprozeß un
abhängig von den Erfolgskriterien zu unterwerfen. Die Stati
stik von Umgebung und Handlung wird damit synaptisch abgebil
det und damit der Roboter gezwungen, sich "kognitiv" auf
seine Umgebung und Aufgaben einzustellen. Dadurch werden
Lernprozesse beschleunigt. Umgekehrt sollten die Kohonenkar
ten beim erfolgsinduzierten Training synaptisch relativ sta
bil bleiben, da ihr Ausgang (= Output) ja den Eingang (= In
put) für die nachgeschalteten Netzwerke darstellt, die in
dieser Phase die Input/Output-Assoziation herstellen sollen.
Eine gewisse Plastizität der Kohonenkarten erleichtert hier
bei den Trainingsprozeß für das strategiegenerierende Netz
werk und die Netzwerke des Netzwerksystems.
Wie bereits vorstehend darauf hingewiesen worden ist, werden
in einer Trainingsphase dem strategiegenerierenden Netzwerk
und den Netzwerken des Netzwerksystems ausgewählte Werte
paare, die aus von der sensorischen Einrichtung möglicher
weise zu erfassenden Werten und den dazugehörenden Steuerbe
fehlen bestehen, zugeführt. Innerhalb dieser Trainingsphase
bilden sich dann in den Netzwerken zugehörige Synapsenstärken
aus.
Die vorstehende Aufgabe wird vorrichtungsgemäß mit den Merk
malen des Anspruchs 9 gelöst. Diese vorrichtungsgemäße Lösung
weist die gleichen Vorteile auf, wie sie im Zusammenhang mit
dem erfindungsgemäßen Verfahren geschildert worden sind. Zum
Aufbau des Netzwerksystems ist zu bemerken, daß die Ausgangs
werte jedes einzelnen Netzwerkes des Netzwerksystems der zu
dem jeweiligen Netzwerk gehörenden Kohonenkarte sowie der Ko
honenkarte des benachbarten Netzwerkes zugeführt werden kön
nen. Bei Verwendung mehrerer, parallel nebeneinander ange
ordneter Netzwerke können die Ausgangswerte jedes Netzwerkes
wiederum den Kohonenkarten der benachbarten bzw. der anderen
Netzwerke zugeführt werden.
Der Dynamikanalysator führt dabei eine Fourieranalyse der
Ausgangswerte der Netzwerke des Netzwerksystems und der zuge
führten sensorischen Werte bzw. der Steuerbefehle mit an
schließendem spektralen Vergleich durch. Sind die Spektren
der zugeführten Werte gleich wird ein go-Zustand signa
lisiert. Enthalten die Ausgangswerte der Netzwerke des Netz
werksystems vorwiegend harmonische Obertöne des Spektrums der
zugeführten sensorischen Werte bzw. der Steuerbefehle wird
ein no-go-Zustand signalisiert. Sind die Spektren der Aus
gangswerte der Netzwerke des Netzwerksystems und der sensori
schen Werte bzw. der Steuerbefehle völlig ohne Gemeinsamkeit
wird ein chaos-Zustand signalisiert.
Die Suche im Fourierraum ist durch die Abtastfrequenz und
durch die Breite des betrachteten Intervalls bestimmt. Die
Zuordnung der Zustände kann hierbei durch (beispielsweise vom
strategiegenerierenden Netzwerk generierte) Variation der Zu
weisung der relativen spektralen Amplituden zu den Zuständen
optimiert werden. Da sowohl die Ausgangswerte des Netzwerksy
stems als auch die Wertepaare mehrkomponentige Vektoren sind,
müßten theoretisch alle ihre Vektorkomponenten einer Fourier
analyse unterzogen werden. Welche Komponenten der Wertepaare
mit welchen Komponenten der Ausgangswerte des Netzwerksystems
in ihrer Dynamik verglichen werden, kann allerdings willkür
lich sein. Beispielsweise könnte ein Netzwerk aufgrund belie
biger noch anzugebener Kriterien (Korrelation von Wertepaar-
Komponenten mit Komponenten der Ausgangswerte des Netzwerksy
stems?) diese Zuordnung durchführen. Einfacher ist es, zumin
dest alle Spektralamplituden wenigstens der Wertepaare (als
relativ stabil vorausgesetzt) ggf. gewichtet und renormiert
zu addieren. Für die Werte aus den Netzwerken des Netzwerksy
stems kann ebenso verfahren werden. Es ist aber auch möglich,
das Spektrum einer Komponente eines Ausgangswertes der Netz
werke des Netzwerksystems mit dem zusammengefaßten Spektrum
der Wertepaare zu vergleichen und komponentenweise den go,
no-go- oder chaos-Zustand zu erheben. Zur Reduktion des Re
chenaufwandes könnte man sowohl die Wertepaare als auch die
Ausgangswerte der Netzwerke des Netzwerksystems in einen Un
terraum projizieren, oder andere Verfahren der Dimensionsre
duktion durchführen (extrem: Spur S1*S2; Spur B1*B2 usw.),
und anschließend Fourieranalyse sowie Spektralvergleich
durchführen. Wegen der unzähligen Möglichkeiten und des po
tentiell großen Aufwands wird noch als Vorschlag eine primi
tive Fourieranalyse vorgestellt.
Die Wertepaare und die Ausgangswerte der Netzwerke des Netz
werksystems werden in getrennte Schieberegister eingelesen
und auf Periodizität untersucht. Dies geht folgendermaßen.
Ein Wertepaar oder ein Paar an Ausgangswerten wird mit einem
zeitverschobenen Paar verglichen. Wenn die (euklidische-,
Manhattan Distanz -Vektoren) Abweichung kleiner ist als die
Schwelle s, gibt es einen Punkt.
Die Punktzahl ergibt sich über die doppelte, Summation der
Elemente i des Schieberegisters bis y und der Variation der
Zeitverschiebungen n von 1 bis y/2.
p = Σi Σn fi (xr1) + fi(xr2), wobei fi (xr) = 1 wenn /xi- xr/<-s, sonst 0
r1 = n+i modulo y, r2 = 2n+i modulo y, i-1 bis y; n-1 bis y/2, xi = eingelesener Vektor in Position i des Schieberegi ster.
p = Σi Σn fi (xr1) + fi(xr2), wobei fi (xr) = 1 wenn /xi- xr/<-s, sonst 0
r1 = n+i modulo y, r2 = 2n+i modulo y, i-1 bis y; n-1 bis y/2, xi = eingelesener Vektor in Position i des Schieberegi ster.
Dieser Prozeß wird getrennt für die Wertepaare und die Aus
gangswerte der Netzwerke des Netzwerksystems durchgeführt.
Die Differenz der Punktzahlen der Wertepaare und der Aus
gangswerte ist maximal = 0, wenn die Ausgangswerte des Netz
werksystems so stabil wie die Wertepaare sind. Ansonsten wird
die Differenz um so negativer, je chaotischer sich die Aus
gangswerte gegenüber den Wertepaaren verhält. Die Ausbildung
von harmonischen der Ausgangswerte des Netzwerksystems würde
zu (negativen) Mittelwerten führen. An dieser Differenz kann
die Klassifikation der Dynamik des Netzwerksystems erfolgen.
Das Kurzzeitgedächtnis ist vorzugsweise als Schieberegister
ausgebildet, so daß die neu hinzugekommenden Wertepaare die
zeitlich ältesten abgespeicherten Wertepaare aus dem Schiebe
register entfernen.
Weiterhin ist zu bemerken, daß die Intensität des Trainings
(= Lernzyklen) sich in Abhängigkeit des Verhältnisses bzw.
der Differenz von Belohnung und aufgelaufenen Kosten, die
ggf. Energiekosten sein können, gestalten kann. Damit werden
nur Wertepaare mit positiver Energiebilanz trainiert bzw. ge
lernt (= zusätzliches Selektionskriterium). Damit Wertepaare
über das Fassungsvermögen des ggf. vorhandenen Kurzzeitge
dächtnisses hinaus trainiert werden können, müssen bekannte
und gespeicherte Wertepaare mit einem Belohnungswert assozi
iert werden, der die Weiterverteilung der Belohnung an die
anschließenden Kettenglieder ermöglicht. Hierzu gibt es meh
rere Möglichkeiten. Beispielsweise wird von der "Belohnung",
wie die zugeführte Energie usw., dem ersten Wertepaar dessen
"Kosten", wie beispielsweise die zur Erreichung der momenta
nen Situation aufgewandte Energie usw., abgezogen und das Re
sultat als Belohnungswert zugewiesen und gespeichert (ggf.
als zusätzliche Steuerbefehlskomponente, die nur zum
Kurzzeitgedächtnis projeziert wird). Dem nächsten zu spei
chernden Wertepaar wird dieser Werte als Bruttobelohnung zu
gewiesen, wobei wiederum die jeweiligen Kosten abgezogen wer
den usw.
Eine ähnliche Form läßt sich dadurch erreichen, daß Beloh
nungsverteilung und Anlaufkosten über mehrere aufeinanderfol
gende Wertepaare hinweg aufsummiert bzw. gesammelt werden und
der resultiertende Durchschnittswert auf die Wertepaare ver
teilt wird. Dieses Verfahren ergibt aber einen schlechten
Gradienten, der allerdings durch die Überlagerung vieler
Lernprozesse sich verbessert. Ein relativ hoher Gradient läßt
sich dadurch herstellen, daß der Nettogewinn der im Kurzzeit
gedächtnis gespeicherten Wertepaare mit einer entsprechenden
Formel verteilt wird.
Des weiteren ist zu bemerken, daß direkt nach den Sensoren
der sensorischen Einrichtung bzw. vor den ggf. vorhandenen
Kohonenkarten des strategiegenerierenden Netzwerkes bzw. den
Kohonenkarten des Netzwerksystems sowie dem Kurzzeitgedächt
nis Bandpaßfilter angeordnet sein können.
Dabei werden die Bandpaßfilter verwendet, um die zeitlichen
Komponenten von Signalen, auf die die nachgeschalteten Sy
steme kaum oder nur schlecht reagieren, auszufiltern. Der
Filter hat im wesentlichen zwei Parameter, die zentrale Fre
quenz seines Durchlaßbereiches und die Bandbreite. Die Steue
rung der Zentralfrequenz sowie die Bandbreite erfolgt durch
den Dynamikanalysator. Die Bandbreite wird von der Netzwerk-
Konfiguration, das die so gefilterten Werte erhält, während
eines go-Zustandes erhöht, wogegen sie bei no-go- bzw. chaos-
Zuständen verringert wird.
Ist die vorgeschlagene Erfindung Bestandteil eines größeren
Netzwerksystems so kann es sinnvoll sein, zwischen den ein
zelnen Hierachien dieses Großnetzwerksytems ebenfalls Band
paßfilter einzusetzen. Der Ausgang nach oben, der meistens
gleich dem Eingang von unten ist, soll ebenfalls gefiltert
werden. Das übergeordnete Netzwerk braucht über das un
tergeordnete nur wenig zu wissen, wenn der Betrieb ohne Stö
rung verläuft. Erst wenn Probleme auftreten, sollte es mehr
wissen. Der dazwischenliegende Bandpaßfilter sollte unter
diesen Umständen geöffnet werden (= chaos-Zustand), ansonsten
in seiner Bandbreite reduziert werden. In der Hierarchie wer
den vor- und nachgeschaltete Bandpaßfilter unmittelbar ge
koppelt und können bei entsprechender Konvergenz und Verrech
nung der Steuerbefehle von unten und oben zusammengefaßt wer
den. Dabei können die aus dem hierachisch höher angeordneten
Netzwerk und zeitverzögerte Signale aus dem Kurzzeitgedächt
nis der gleichen Hierachie ebenfalls über einen Bandpaßfilter
laufen.
Weiterhin ist zu bemerken, daß zeitverzögerte Wertepaare aus
dem Kurzzeitgedächtnis dem strategiegenerierenden Netzwerk
und der Kohonenkarte des Netzwerkes des Netzwerksystems, das
die Steuerbefehle empfängt, angeboten bzw. zugeführt werden.
Hieraus ergibt sich der Vorteil, daß die Netzwerke zeitlich
kausale Beziehungen zwischen den Wertepaaren entdecken und
speichern können. Die Kompetenz des Systems entlang der Zeit
achse steigt. So können nun zeitversetzte Signale abwesende
sensorische Werte partiell ersetzen und so die Abhängigkeit
des Systems und dessen Strategien von den momentanen sensori
schen Werten reduzieren, wodurch das Verhalten stabilisiert
werden kann. Das Netzwerksystem kann nun Wertepaare in Bezie
hung zu ganzen Netzwertepaarketten setzen. Eine zeitverzö
gerte Rückführung wäre auch für das Netzwerksystem geeignet,
um ganze Ketten zu lernen und damit solche des strategiegene
rierenden Netzwerkes zu modulieren. Es ist sinnvoll die Rück
führung zeitverzögerter Wertepaare von der Situation - insbe
sondere go-, no-go-, chaos-Zustand - abhängig zu machen. Bei
länger bestehenden chaos-Zustand sollte die Rückführung redu
ziert werden (durch Reduktion von Bandbreite, Zeitverzögerung
(falls mehrere berücksichtigt werden), Anzahl der Komponenten
usw.) dadurch kommt es zur Konzentration auf das hier und
jetzt.
Werden durch no-go-Zustände vorwiegend Vermeidungsreaktionen
(Abwenden, Ignorieren), die oft am schnellsten in den go-Zu
stand zurückführen, ausgelöst, setzt sich der Roboter nicht
genug mit Neuem auseinander. Diskriminationsvermögen und Ver
haltensrepertoire stagnieren. Um dies zu vermeiden, muß man
ausreichend lange chaos-Zustände erzwingen. Dies wird durch
ein übergeordnetes Rechenwerk bzw. einen Computer erreicht.
On-line Explorationsphase: Treten innerhalb eines typischen
Zeitraums nicht genug chaos-Zustände auf (Summation über
"leaky integrator") induziert das Rechenwerk den chaos-Zu
stand, indem die für eine Aufgabenstellung spezifischen Kom
ponenten (aufgrund der initialen "Programmierung" bekannt)
eines Aufgabenvektors (es können mehrere mehrkomponentige
Aufgabenvektoren vorliegen, die sowohl Komponenten enthalten,
die allen oder einigen Aufgabenvektoren gemeinsam sind, als
auch Komponenten, die nur in einem Aufgabenvektor enthalten
sind) durch stoachastische Variablen ersetzt werden. Durch
diese neuen stochastischen Variablen werden neue Wertepaare
erzeugt, die ausschließlich im Netzwerksystem gespeichert
werden. Dadurch kommt es u. a. zu geringfügigen Modifikationen
der Kohonenkarten der Netzwerke des Netzwerksystems. In er
ster Linie werden die Wertepaare aber den ähnlichsten bereits
gespeicherten Mustern, gemäß der Variation der spezifischen
Komponente des Aufgabenvektors im Grunde zufällig, zugeord
net.
Sollten Energiemangel, akute Bedrohungen oder Anforderungen,
Erschöpfung der Speicherkapazität des Netzwerksystems auftre
ten, wird die Explorationsphase ebenso abgebrochen wie bei
erfüllter chaos-Zustands-Quote. Ansonsten auftretende Gefah
ren bei der Exploration werden so vermieden.
Off-line Wissentransfer Phase: Diese wird vom Rechenwerk bei
erfülltem chaos-Zustandskontingent und bei erschöpfter Spei
cherkapazität des Netzwerksystems ausgelöst, indem die Hand
lungseinheiten und sensorischen Einrichtungen sowohl von dem
Netzwerksystem als auch dem strategiegenerierenden Netzwerk
system abgekoppelt werden. Die sensorischen Daten der senso
rischen Einrichtigung werden durch stochastische Variablen
ersetzt. Die auf Grund dieser stochastischen Variablen er
zeugten Steuerbefehle des strategiegenerierenden Netzwerksy
stems werden dem Netzwerksystem als weitere Eingangsdaten zu
geführt. Aus der Sicht des strategiegenerierenden Netzwerkes
ersetzen diese Variablen und das im Netzwerksystem gespei
cherte Wissen die physische Interaktion mit der Umwelt. Die
stochastischen Variablen sorgen dafür, daß möglichst viele
Wertepaare durchgespielt werden. Durch diese Interaktion des
Netzwerksystems (indem auch die Variablen gespeichert sind)
mit dem strategiegenerierenden Netzwerk wird indirekt Wissen
aus der Explorationsphase nun gemäß der Ähnlichkeit der die
sensorischen Daten ersetzenden stochastischen Variablen mit
den von dem strategiegenerierenden Netzwerk auf Grund dieser
stochastischen Variablen erzeugten Steuerbefehlen zu bereits
im strategiegenerierenden Netzwerk gespeicherten Wertepaaren
ins strategiegenerierende Netzwerk übertragen. Der springende
Punkt bei diesem Prozeß ist, daß in dem Netzwerksystem nicht
vollständig die gleichen Muster wie im strategiegenerierendem
Netzwerk gespeichert sind. Wäre dies der Fall, würden beide
Strukturen synchron agieren und sich gegenseitig
stabilisieren. Dieses Gleichgewicht zwischen Netzwerksystem
und strategiegenerierenden Netzwerk wird durch stochastische
Variablen immer wieder (kurzfristig) gestört, wenn sie von
dem Netzwerksystem als ein aus der Explorationsphase
stammendes Wertepaar interpretiert werden.
Werden in dem Netzwerksystem durch Steuerbefehle und stocha
stische Variablen Wertepaare aus der Explorationsphase ent
sprechende Muster (nur dieser Fall wird im weiteren disku
tiert) aktiviert, passiert folgendes. Die resultierenden Aus
gangssignale aus den Netzwerken des Netzwerksystems und des
Dynamikanalysators sind dem strategiegenerierenden Netzwerk
im allgemeinen unbekannt und destabilisieren dessen Dynamik,
insbesondere die resultierenden Steuerbefehle. Das strategie
generierende Netzwerk wird so gewissermaßen von dem Netzwerk
system dominiert, das nur einem instabilen selektierenden
Steuerbefehl unterliegt, bis ein dem strategiegenerierenden
Netzwerk bekannter, aufgabenspezifischer Ausgang des Netz
werksystems an dem strategiegenerienden Netzwerk anliegt und
zusammen mit Steuerbefehl und stochastischen Variablen dessen
Dynamik stabilisiert. (Ausgabe eines stabilen Steuerbefehls
mit entsprechender Selektionswirkung). Innerhalb der klassi
fikatorischen Diskriminationsfähigkeiten des strategiegene
rierenden Netzwerkes und dem Netzwerksystem wird so die Dyna
mik einer Teilmenge von Wertepaaren aus der Explorationsphase
nun auch vom strategiegenerierenden Netzwerk nachvollzogen.
Hierbei wählt gemäß "best fit" -Kriterium der Steuerbefehl un
ter den in der einem Netzwerk des Netzwerksystems vorgeschal
teten Kohonenkarte repräsentierten Steuerbefehlen aus der Ex
plorationsphase und die stochastische Variable unter den in
der anderen Kohonenkarte repräsentierten sensorischen Muster
aus der Explorationsphase aus. Die gleichzeitig an den Ein-
und Ausgängen des strategiegenerierenden Netzwerkes anliegen
den Ausgänge des Netzwerksystems, der stochastischen Vari
ablen und den Steuerbefehlen stellen die Rekonstruktion der
Wertepaare aus der Explorationsphase dar. Die Reaktion des
strategiegenerierenden Netzwerkes erfolgt natürlich ebenfalls
gemäß "best fit" -Kriterium. Die aus dieser Interaktion resul
tierenden Wertepaare und Ausgänge des Netzwerksytems sollen
nun in dem strategiegenerierenden Netzwerk und dem Netzwerk
system gespeichert werden. Die off-line-Phase wird bei akuter
Gefährdung oder Aufgabenstellung ebenso abgebrochen wie nach
dem Ablauf der für diesen Prozeß eingeräumten Zeitspanne, die
proportional der aufgelaufenen chaos-Zustände mit dem Explo
rationszeitraum vergleichbar ist.
Erreicht wird hierdurch, daß eine Teilmenge der aus der Ex
plorationsphase stammenden Wertepaare gemäß des "best fit"-
Kriteriums ins strategiegenerierende Netzwerk übertragen
wird. Es findet also ein crossing-over von explorativen Er
fahrungen in aufgabespezifische Wertepaaren statt. Das neue
Repertoire wird während aufgabenspezifischem Verhalten in üb
licher Weise selektioniert.
Im allgemeinen wird während der off-line-Phase nur eine Teil
menge der aus der Explorationsphase stammenden Wertepaare und
der aufgabenspezifischen Wertepaare reproduziert. Die übrigen
Wertepaare könnten einem beschleunigtem "Vergessensprozeß"
unterliegen. Dadurch wird Platz für neue Wertepaare geschaf
fen und die durchgespielten Werte gewinnen eine höhere Prio
rität. Man kann diesen Prozeß der Straffung unterstützen, in
dem während der off-line-Phase auftretende Wiederholungen in
nerhalb der Reichweite des Kurzzeitgedächtnisses mitsamt den
dazwischen liegenden Wertepaaren vom anschließenden Trai
ningsprozeß ausgeschlossen werden. Weiteres
Ausschlußkriterium wäre z. B. zu starke Instabilität der
Muster. Der hier beschriebene Prozeß - insbesondere die off
line-Phase - kann in einem System bestehend aus
strategiegenerierende Netzwerke und Netzwerksysteme
beinhaltenden Modulen autonom ablaufen, während andere Module
Basisinteraktionen mit der Umwelt aufrecht erhalten können.
Um die Begrenzungen der vorhandenen Neurochips zu überwinden,
können mehrere Neurochips in paralleler, hierarchischer oder
gemischt parallel/hierarchischer ("fraktaler") Anordnung kom
biniert werden. Die Dimensionalität der Verbindungen zwischen
den Netzwerken bzw. den so entstandenen Modulen solcher An
ordnungen ist dabei immer niedriger als innerhalb der Netz
werke selbst. Diese geringere Dimensionalität kann für höhere
Stabilität und gezieltere sowie schnellere Optimierung ge
nutzt werden. Es muß aber berücksichtigt werden, daß nicht zu
viel Flexibilität verloren geht. Um die vermehrte Anzahl an
Modulen und Netzwerken gut zu nutzen, ist es vorteilhaft, daß
jedes Modul schwerpunktmäßig einen anderen Bereich der Koor
dination von sensorisch erfaßten Werten und ausgegebenen
Steuerbefehlen kontrolliert. Es wird ein topographisches Sy
stem eingeführt. Dies bedeutet, daß die Steuerbefehle eines
Moduls dorthin zurück gehen, wo die sensorische Information
herstammt bzw. wo eine maximale Korrelation besteht, falls
dies nicht auslegungsmäßig klar sein sollte.
Das topographische Prinzip wird auch innerhalb von Hierar
chien von Netzwerken durchgehalten; der Feedback bzw. die
Steuerbefehle gehen dorthin, wo die Information herkommt. Da
bei können auch Hierarchiestufen übersprungen werden, die
Bindung an den entsprechenden Abschnitt der Koordination von
sensorisch erfaßten Werten und ausgegebenen Steuerbefehlen
bleibt aber erhalten.
Der Begriff "hierarchisch" definiert sich hierbei über die
Beziehung der Signale zu den Kohonenkarten eines strategiege
nerierende Netzwerkes. Ein Signal von "unten" passiert analog
der sensorischen Information eine solche Kohonenkarten, Si
gnale von "oben" gehen direkt an das strategiegenerierende
Netzwerk. Die Verschaltung des zugehörigen Netzwerksystems
hat damit primär nichts zu tun. Als Standard weisen die Netz
werksysteme der verschiedenen strategiegenerierende Netzwerke
keine Verbindungen untereinander auf. Als Option wäre es mög
lich, unter den Netzwerksystemen genau zu den verbundenen
strategiegenerierende Netzwerke analoge Verbindungen aufzu
bauen (siehe auch Fig. 2).
Gemischt parallel hierarchisch heißt, daß zwischen den Netz
werken u. a. auch hierarchische Beziehungen bestehen aber
gleichzeitig diese Netzwerke (auszugsweise) direkten Zugang
zur gleichen "sensorischen" Information haben und gemeinsam
Steuerbefehle an die gleiche Substruktur richten.
"Fraktale" Organisation heißt, daß innerhalb eines Gefüges
von strategiegenerierende Netzwerken jedes einzelne durch
eine dem Gefüge analoge Kombination von Netzwerken ersetzt
werden kann.
Besonders vorteilhaft ist in diesem Zusammenhang der Einsatz
einer gemischt parallel/hierarchisch/fraktalen Anordnung mit
erfolgsbelohnten Lernprozesse und bedarfsabhängigen Ersetzen
bei häufigen chaos-Zuständen des betreffenden Netzwerks bzw.
Netzwerksystems durch eine gemischt hierarchisches Vierer
pack.
Steuert ein paralleles oder hierarchisches System aus strate
giegenerierende Netzwerk-Modulen z. B. ein Ensemble von
Schrittmotoren eines mehrgelenkigen Arms, ist es unvermeid
bar, daß die Steuerbefehle an einen Schrittmotor auch Folgen
für die übrigen Gelenke haben, speziell für die Position des
Endglieds. Insbesondere bei einer topographischen Aufteilung
der Arbeit auf verschiedenen Netzwerke muß sich z. B. ein
Netzwerk b mit den Folgen der Steuerbefehle eines Netzwerks a
befassen, obwohl die eigentliche Ursache bei Netzwerk a
liegt. Deshalb kann Netzwerk b diese Folgen nur in Grenzen
kompensieren. Damit die Stabilität gewährleistet wird, muß
Netzwerk a auch über die unerwünschten Nebeneffekte seiner
Steuerbefehle informiert werden. Wegen der reduzierten Dimen
sionalität der Kommunikation zwischen den Netzwerken a und b
(evtl. ist noch ein Netzwerk c oder mehr dazwischengeschal
tet) dauert dies zur Aufrechterhaltung der Steuerstabilität
zu lange. Man braucht also ein System, das diese unerwünsch
ten Koppelungen der Steuersätze mit ihren dynamischen Folgen
kompensiert ("Kleinhirn").
Das System muß die mangelnde Konnektivität zwischen Netzwerk
a und b sowie deren unter Umständen zu große Zeitkonstante
kompensieren. Damit das System nicht unnötige Arbeit leistet,
ist es sinnvoll, das System vom Zeitverhalten so auszulegen,
daß es nur die schnellen Korrekturen ausführt, die das zusam
mengesetzte Netzwerk nicht beherrscht. Auf der anderen Seite
begrenzt die Trägheit der Stellglieder die obere Grenzfre
quenz von dem System. Es hat wenig Sinn die Generierung der
Steuerbefehle schneller zu machen, als die Stellglieder fol
gen können. Die Signalverarbeitung erfolgt also in einem re
lativ engen Zeitbereich (= Bandpaßfilter). Alle Ein- und
Ausgangssignale des Systems sind dementsprechend bandpaßge
filtert. Das System selbst besteht aus einem
(hochdimensionalen) closed-loop-Regler und einem Feedforward-
Netzwerk, das die Korrekturbefehle aus dem Regler
(Steuerbefehl aus dem strategiegenerierenden Netzwerk minus
den tatsächlichen Positionen der Stellglieder (alle Größen
bandpaßgefiltert) mit den (unter Umständen zeitverzögerten)
Steuerbefehlen aus dem strategiegenerierenden Netzwerk asso
ziiert, um in Zukunft diesen errechneten Korrekturbefehl bei
Anliegen des Steuerbefehls am Feedforward-Netzwerk antezipie
rend direkt an die Stellglieder zu geben. Das Feedforward-
Netzwerk ersetzt durch Lernen zunehmend den im nachhinein,
wenn auch schnell operierenden Regler.
Es werden Trainings- und Arbeitsphase unterschieden. In der
Trainingsphase werden die bandpaßgefilterten Steuerbefehl aus
dem strategiegenerierenden Netzwerk etwas zeitverzögert ange
boten, damit die gelernten Korrekturen an die Stellglieder
gegeben werden, bevor der Fehler im Regler detektiert und von
dort korrigiert wird. Das im Feedforward-Netzwerk gespei
cherte Wertepaar besteht aus dem behandelten Steuerbefehl-Si
gnal und der Korrektur aus dem Regler.
In der Arbeitsphase löst ein Steuerbefehl gemäß der beim
Training benutzten Zeitverzögerung den Korrekturbefehl aus,
bevor der Fehler manifest wird.
An der Peripherie werden die Steuerbefehle aus dem zusammen
gesetzten Netzwerk und bandpaßgefilterten Korrekturbefehle
von Feedforward-Netzwerk und Regler entsprechend verrechnet,
z. B. komponentengerecht, d. h. unter Berücksichtigung des to
pographischen Prinzips superponiert (addiert und ggf. renor
miert). Die Korrekturberichte aus dem Regler können ggf. nach
Integration und Verstärkung mit einer für das strategiegene
rierende Netzwerk handhabbaren Zeitkonstante an das strate
giegenerierende Netzwerk zurückgemeldet werden. Das strate
giegenerierende Netzwerk würde so soviel wie möglich dieser
Korrekturbefehle lernen und damit das Feedforward-Netzwerk
entlasten. Eine Trainingsphase empfiehlt sich, wenn das stra
tegiegenerierende Netzwerk selbst neue Steuerbefehle lernt.
Allerdings geht dies off-line nur, wenn ein entsprechendes
Kurzzeitgedächtnis für die notwendigen Korrekturen vorhanden
ist. Ansonsten muß mehr oder weniger unter on-line Bedingun
gen trainiert werden (zusätzliches Bewegungstraining).
Ein Ausführungsbeispiel sowie weitere Vorteile werden nach
stehend anhand der Zeichnungsfiguren 1 bis 4 erläutert. Es
zeigt:
Fig. 1-4 jeweils ein 1. bis 4. Ausführungsbeispiel der Er
findung.
In den Zeichnungsfiguren kennzeichnen die punktiert darge
stellten Linien optionale Verbindungen. Darüber hinaus kenn
zeichnet der Buchstabe "a" eine abgeleitete Größe oder einen
zeitverzögerten Wert aus einem Kurzzeitgedächtnis. Die Buch
stabenfolgen "S1g" und "S2g" kennzeichnen zwischen
gespeicherte Werte, die in einer Starttrainingsphase oder in
einer während des Betriebes stattfindenden Trainingsphase die
aus der Umwelt durch die sensorische Einrichtung aufgenomme
nen Werte und die dazugehörenden Steuerbefehle ersetzen. Dies
wird auch durch die die Verbindungsleitung umschlingenden
Kreise gekennzeichnet.
Von einer aus einem oder mehreren Sensoren bestehenden senso
rischen Einrichtung SE werden die erfaßten Werte S2, die zu
einem oder mehreren Vektoren mit mehreren Komponenten
zusammengefaßt worden sind, einem strategiegenerierenden
Netzwerk SGNW und einem Netzwerk B2 mit einer vorgeschalteten
Kohonenkarte KK2 eines Netzwerksystems zugeführt. Ebenso wer
den die von dem strategiegenerierenden Netzwerk SGNW aufgrund
der Vektoren S2 erzeugten Vektoren S1, die steuerbefehle für
Handlungseinheiten HE darstellen, neben ihrer Zuführung zu
den Handlungseinheiten HE einem Netzwerk B1 mit einer vorge
schalteten Kohonenkarte KK1 des Netzwerksystems zugeführt.
Sowohl die steuerbefehle S1 als auch die sensorischen Werte
S2 werden vor Zuführung zu den jeweiligen Netzwerken B1, B2
über die Kohonenkarten KK1, KK2 geführt. Die Netzwerke B1, B2
besitzen an ihren Ausgangsseiten jeweils Verbindungen zu ih
ren eigenen Kohonenkarten KK1 bzw. KK2, als auch eine Verbin
dung zu der Kohonenkarte KK1, KK2 des anderen Netzwerkes B1,
B2. Die Ausgangswerte der Netzwerke B1, B2 werden ebenfalls
einem Dynamikanalysator DAN zugeführt, der zwischen stabilen
und unstabilen Ausgangswerten unterscheidet. Schließlich wer
den die Ausgangswerte der Netzwerke B1, B2 des Netzwerksy
stems dem strategiegenerierenden Netzwerk strategiegenerie
rende Netzwerk zugeführt. Als weitere Eingangsinformation er
hält das strategiegenerierende Netzwerk SGNW das Ergebnis des
Dynamikanalysators DAN, der zwischen go-Zuständen, no-go-Zu
ständen und chaos-Zuständen unterscheidet. In Abhängigkeit
seiner Eingangswerte erzeugt das strategiegenerierende Netz
werk wiederum Steuerbefehle S1, die den Handlungseinheiten HE
als auch dem zugehörigen Netzwerk B1 des Netzwerksystems
zugeführt werden. Infolge der Steuerbefehle S1 werden von den
sensorischen Einrichtungen SE Vektoren S2 erfaßt, die dem
zugehörige Netzwerk B2 zugeführt werden. Gleichfalls werden
die Steuerbefehle S1 als auch die sensorischen Werte S2 einer
dem strategiegenerierenden Netzwerk SGNW vorgeschalteten
Kohonenkarte KK3 zugeführt. Schließlich werden die von der
sensorischen Einrichtung SE erfaßten Sensorwerte S2 als auch
die Steuerbefehle S1 einem Kurzzeitgedächtnis KZG zugeführt,
welches diese Wertepaare abspeichert.
Das erfindungsgemäße Verfahren zerfällt in zwei Handlungsbe
standteile. In einer Trainingsphase werden ausgesuchte Werte
paare S1g/S2g als xn-Werte (n = 1, . . ., i) den Kohonenkarten
KK1, KK2 der Netzwerke B1, B2 des Netzwerksystems zugeführt.
Ebenso werden diese Werte dem strategiegenerierenden Netzwerk
SGNW zugeführt. Im Laufe dieses Trainings bilden sich dann in
den zugehörigen Netzwerken SGNW, B1, B2 bestehende Synapsen
stärken aus. Hierbei können die dem strategiegenerierenden
Netzwerk zugeführten Werte (x₀) die Ausgangswerte des Dynami
kanalysators und der Netzwerke B1, B2 des Netzwerksystems er
setzen und deren Zuführung erst dann erfolgen, wenn der Dyna
mikanalysator DAN Stabilität im Training zeigt. Nach Abschluß
der Trainingsphase wird der Roboter in Gang gesetzt mittels
eines ersten Steuerbefehles S1. Infolge dieses Steuerbefehles
S1 erzeugen die Handlungseinheiten HE eine Handlung, die zu
einer Veränderung der sensorischen Werte S2 führen, die dem
strategiegenerierenden Netzwerk SGNW über die Kohonenkarte
KK3 als auch dem Netzwerk B2 über die Kohonenkarte KK2 des
Netzwerksystems sowie dem Kurzzeitgedächtnis KZG zugeführt
werden. Infolge der von der sensorischen Einrichtung SE er
faßten Werte S2 gibt das strategiegenerierende Netzwerk SGNW
Steuerbefehle S1 aus, die sowohl den Handlungseinheiten HE,
dem Netzwerk B1 des Netzwerksystems über die Kohonenkarte KK1
als auch dem Kurzzeitgedächtnis KZG und dem strategiegenerie
renden Netzwerk SGNW selbst zugeführt werden. Die Ausgangs
werte der Netzwerke B1, B2 werden sowohl ihren jeweiligen zu
geordneten Kohonenkarten KK1, KK2 als auch der Kohonenkarte
KK2, KK1 des benachbarten Netzwerkes B2, B1 zugeführt. Des
weiteren werden die Ausgangswerte der Netzwerke B1, B2 dem
Dynamikanalysator DAN und dem strategiegenerierenden Netzwerk
SGNW zugeführt. Der Dynamikanalysator DAN unterscheidet auf
grund der Stabilität bzw. Unstabilität der Ausgangswerte der
Netzwerke B1, B2 in go-, no-go- oder chaos-Zustände. Diese
Zustände werden dem strategiegenerierenden Netzwerk SGNW wie
derum mitgeteilt, das aufgrund seiner weiteren Eingangswerte
neue Steuerbefehle S1 erzeugt, die wiederum zu veränderten
Steuerbefehlen S2 der sensorischen Einrichtungen SE führen.
Nach Erreichen eines stabilen Zustandes der Ausgangswerte der
Netzwerke B1, B2 wird das zugehörige Wertepaar S1, S2 zusam
men mit den zeitlich vor diesem Wertepaar S1/S2 erfaßten und
im Kurzzeitgedächtnis abgespeicherten Wertepaare den Netz
werken SGNW, B1, B2 auftrainiert. Somit wird die "positive"
Erfahrung des Roboters sofort umgesetzt, so daß bei Auftreten
eines Wertepaares S1/S2, das zwar in der vorbeschriebenen Si
tuation zu keinem stabilen Ausgangswert aus dem Netzwerksy
stem geführt hat, jedoch zeitlich vor und in Verbindung mit
einem als bekannt eingestuften Wertepaar S1/S2 steht, die Si
tuation als bekannt eingeschätzt wird.
In der Fig. 2 wird ein Ausführungsbeispiel der Erfindung
wiedergegeben, bei dem ein Netzwerksystem durch ein gemischt
hierarchisches "Viererpack"-Netzwerksystem ersetzt ist. Das
Netzwerk nw, welches ein strategiegenerierendes Netzwerk so
wie ein Netzwerksystem umfaßt, wird durch ein Ensemble von
vier gleichartig wie das Netzwerk nw aufgebauten Netzwerken
a0, n1, n2, n3 ersetzt, wobei a₀ dem alten Netzwerk nw ent
spricht und n1, n2, n3 neue Netzwerke sind. n2 wird im näch
sten Schritt durch den Viererpack der nächsten Generation er
setzt. Die neuen Netzwerke n1, n2, n3 liegen im Bypass zum
alten Netzwerk a0 (nw) und können so sukzessive von a0 ler
nen, bis unter Kontrolle von a0 deren Ausgang zunehmend be
rücksichtigt wird. Dabei übernimmt das alte Netzwerk a0 das
Managment von Eingangs- und Ausgangswerten aller Netzwerke
n1, n2, n3 (des Viererpacks) inklusive ihrer Gewichtungen.
Diese Gewichtungen sind vor allen Dingen für den zurückge
führten Ausgang der vier Netzwerke von Bedeutung, die nun
alle auf das normale Feedbackformat (identisch mit Format des
ursprünglichen Steuerbefehls) reduziert werden.
Dies kann beispielsweise durch gewichtete Superposition bei
Erhaltung der Topographie erfolgen, wie dies nachstehend im
Zusammenhang mit der Fig. 3 erläutert wird. Als Resultat
wird aber das Repertoire des Feedback-Outputs und damit der
Steuersatz für untergeordnete Strukturen selbst ohne flexible
Gewichtung mindestens verdreifacht. Für die Feedforward-Pro
jektion FF zu einem übergeordneten, nicht dargestellten Netz
werk ist es nicht nötig, die Ausgänge der vier Netzwerke a,
n1, n2, n3 auf Feedbackformat PB zu reduzieren, da auf der
Kohonenkarte dieses übergeordneten Netzwerkes genügend Platz
ist, um den aus den Ausgängen a, n1, n2, n3 bestehenden zu
sammengesetzten Feedforward Vektor aufzunehmen.
Weiterhin können in diesem Zusammenhang Karten als Sonderfall
einer parallelen Erweiterung angesehen werden, vor allem für
topographisch analog angeordnete Ensembles gleichartiger Sub
systeme.
Bei der in Fig. 3 dargestellten Ausführungsform handelt es
sich um eine Vertiefung der in Fig. 2 beschriebenen Ausfüh
rung, wobei insbesondere die innere Kommunikation der Netz
werke und die Organisation der Ein- und Ausgänge eines
Viererpacks beschrieben werden. S2 ist die topographisch ge
ordnete Information von der sensorischen Einrichtung SE. Der
Output der Netzwerke a und n1 weist schon die richtige Topo
graphie auf und kann direkt superponiert werden, um den Steu
erbefehl S1 zu den Handlungseinheiten HE und untergeordneten
Netzwerken zu bilden. Die jeweils benachbarten Ausgangskompo
nenten der Netzwerke n2 und n3 werden zu einem Wert zusammen
gefaßt, um das topographisch richtige Format zu bilden, das
mit den Ausgängen der Netzwerke a und n1 zum Steuerbefehl S1
(= FB) superponiert werden kann. Die Erhaltung der Topogra
phie ist durch die Symmetrie der Zuordnung der Netzwerke zu
S2 und S1 angedeutet. Für die Feedforward Projektion FF zu
einem übergeordneten Netzwerk ist es nicht nötig, die Aus
gänge der 4 Netzwerke a, n1, n2, n3 auf Feedbackformat FB zu
reduzieren, da auf der Kohonenkarte dieses Netzwerkes genü
gend Platz ist um den aus den Ausgängen der Netzwerke a, n1,
n2, n3 bestehenden zusammengesetzten Feedforward Vektor auf
zunehmen.
Fig. 4 beschreibt folgende Ausführungsform: Das zusammenge
setzte Netzwerk besteht aus den Modulen, die aus strategiege
nerierenden Netzwerken SGNW und Netzwerksystemen bestehen.
Deren Ausgänge S1 gehen an die Handlungseinheiten HE und an
PK. PK besteht aus Bandpaßfiltern BPF, einem Regler
(zwischen den BPF) und einem Feedforward Netzwerk. Im Signal
weg liegen noch ein Integrator I mit der Zeitkonstanten des
zusammengesetzten Netzwerks und ein Delay D, das während des
Trainingsprozesses aktiv, ansonsten überbrückt ist. Die Fol
gen der Steuersätze S1 und deren Korrekturen K und K′ aus PK,
die gemeinsam die Handlungseinheiten HE steuern, werden von
der sensorischen Einrichtung SE erfaßt und an das zusammenge
setzte Netzwerk und PK (BPF) weitergegeben.
Claims (19)
1. Verfahren zum Steuern eines autonom explorierenden Robo
ters, wobei von einer sensorischen Einrichtung (SE) erfaßte
Werte (S2) einem strategiegenerierenden Netzwerk (SGWN) zuge
führt werden, welches aufgrund seiner während einer Trai
ningsphase auftrainierten Synapsenstärken Steuerbefehle (S1)
an Handhabungseinheiten (HE) abgibt,
dadurch gekennzeichnet,
daß die von der sensorischen Einrichtung (SE) erfaßten Werte
(S2) und die vom strategiegenerierenden Netzwerk (SGNW)
ausgegebenen Steuerbefehle (S1) einem Netzwerksystem mit meh
reren Netzwerken (B1, B2) zugeführt werden, welches zwischen
während einer Trainingsphase auftrainierten Wertepaaren
(S1/S2) und unbekannten Wertepaaren (S1/S2) unterscheidet.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß die Ausgangswerte der Netzwerke des (B1, B2) des Netz
werksystems dem strategiegenerierenden Netzwerk (SGNW) zuge
führt werden.
3. Verfahren nach Anspruch 1 oder 2,
dadurch gekennzeichnet,
daß die Ausgangswerte der Netzwerke (B1, B2) des Netzwerksystems
einem Dynamikkanalysator (DAN) zugeführt werden, der die
auftrainierten Wertepaare (S1/S2) von den unbekannten Werte
paaren (S1/S2) anhand der Stabilität dieser Ausgangswerte be
stimmt.
4. Verfahren nach Anspruch 3,
dadurch gekennzeichnet,
daß das Ergebnis des Dynamikanalysators (DAN) dem strategie
generierenden Netzwerk (SGNW) als zusätzlicher Eingangswert
zugeführt wird.
5. Verfahren nach einem der Ansprüche 2 bis 4,
dadurch gekennzeichnet,
daß die Ausgangswerte der Netzwerke (B1, B2) des Netzwerksy
stems sowohl dem strategiegenerierenden Netzwerk (SGNW) wie
auch dem Dynamikanalysator (DAN) zugeführt werden.
6. Verfahren nach einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
daß die den Netzwerken (B1, B2) des Netzwerksystems zugeführ
ten Werte (S1/S2) über Kohonenkarten (KK1/KK2) den Netzwerken
(B1, B2) zugeführt werden.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
daß die dem strategiegenerierenden Netzwerk (SGNW) zugeführ
ten Werte (S1/S2) über wenigstens eine Kohonenkarte (KK3) dem
strategiegenerierenden Netzwerk (SGNW) zugeführt werden.
8. Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet,
daß die von den sensorischen Einrichtung erfaßten Werte (S2)
und die von dem strategiegenerierenden Netzwerk (SGNW) aus
gegebenen Steuerbefehle (S1) in einem Kurzzeitgedächtnis (KZG)
abgelegt werden.
9. Verfahren nach einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet,
daß in der Trainingsphase dem strategiegenerierenden Netzwerk
(SGNW) und den Netzwerken (B1, B2) des Netzwerksystems ausge
wählte Wertepaare (S1/S2) zugeführt werden.
10. Verfahren nach Anspruch 9,
dadurch gekennzeichnet,
daß dem strategiegenerierenden Netzwerk (SGNW) und den Netz
werken (B1, B2) des Netzwerksystems während der Trainings
phase anstelle der von der sensorischen Einrichtung (SE) er
faßten Werte (S2) und den Steuerbefehlen (S1) des
strategiegenerierenden Netzwerkes (SGNW) die ausgewählten
Wertepaare (S1/S2) zugeführt werden.
11. Vorrichtung zum Steuern eines autonom explorierenden
Robotors, umfassend ein strategiegenerierendes Netzwerk
(SGNW), eine sensorische Einrichtung (SE) zum Erfassen von
Werten der Umwelt (S2), wobei die von der sensorischen Ein
richtung (SE) erfaßten Werte (S2) dem strategiegenerierenden
Netzwerk (SGNW) zugeführt werden, und Handlungseinheiten
(HE), die von dem strategiegenerierenden Netzwerk (SGNW) er
zeugte Steuerbefehle (S1) empfangen,
dadurch gekennzeichnet,
daß ein Netzwerksystem mit mehreren Netzwerken (B1, B2) vor
gesehen ist, welches die von den sensorischen Einrichtung
(SE) erfaßten Werte (S2) und die von dem strategiegenerieren
den Netzwerk (SGNW) erzeugten Steuerbefehle (S1) empfängt.
12. Vorrichtung nach Anspruch 11,
dadurch gekennzeichnet,
daß das Netzwerksystem wenigstens zwei Netzwerke (B1, B2) um
faßt.
13. Vorrichtung nach Anspruch 12,
dadurch gekennzeichnet,
daß jedem Netzwerk (B1, B2) eine Kohonenkarte (KK1, KK2) vor
geschaltet ist, wobei die Ausgangswerte jedes Netzwerkes (B1,
B2) sowohl seiner jeweiligen Kohonenkarte (KK1, KK2) als auch
der Kohonenkarte (KK1, KK2) des anderen Netzwerkes (B1, B2)
als Eingangswert zugeführt wird.
14. Vorrichtung nach einem der Ansprüche 11 bis 13,
dadurch gekennzeichnet,
daß die Ausgangswerte der beiden Netzwerke (B1, B2) einem ih
nen nachgeschalteten Dynamikanalysator (DAN) zugeführt wer
den, der anhand der Stabilität der Ausgangswerte der beiden
Netzwerke (B1, B2) ein diesen Netzwerken (B1, B2) zugeführtes
Wertepaar (S1/S2) als bekannt bzw. unbekannt unterscheidet,
globale oder lokale go-, no-go- oder Chaos-Zustände anzeigt
und diese zusammen mit den Ausgangswerten der Netzwerke (B1,
B2) an das strategiegenerierende Netzwerk (SGNW) weitergibt.
15. Vorrichtung nach Anspruch 14,
dadurch gekennzeichnet,
daß der Dynamikanalysator (DAN) als Schieberegister ausgebil
det ist.
16. Vorrichtung nach Anspruch 14,
dadurch gekennzeichnet,
daß der Dynamikanalysator (DAN) als Fourieranalysator mit
Spektral ausgebildet ist.
17. Vorrichtung nach einem der Ansprüche 11 bis 16,
dadurch gekennzeichnet,
daß die von der sensorischen Einrichtung (SE) erfaßten Werte
(S2) und die von dem strategiegenerierenden Netzwerk (SGNW)
ausgegebene Steuerbefehle (S1) einem Kurzzeitgedächtnis (KZG)
zugeführt werden.
18. Vorrichtung nach Anspruch 17,
dadurch gekennzeichnet,
daß das Kurzzeitgedächtnis (KZG) als Schieberegister ausge
bildet ist.
19. Vorrichtung nach einem der Ansprüche 11 bis 18,
dadurch gekennzeichnet,
daß die von den sensorischen Einrichtung (SE) erfaßten Werte
(S2) und die von dem strategiegenerierenden Netzwerk (SGNW)
erzeugten Steuerbefehle (S1) vor Zuführung zu dem strategie
generierenden Netzwerk (SGNW) über eine weitere Kohonenkarte
(KK3) geführt werden.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4440859A DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
US08/554,948 US5774632A (en) | 1994-11-15 | 1995-11-13 | Method and device for the control of an autonomously exploring robot |
EP95118004A EP0718732A3 (de) | 1994-11-15 | 1995-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE4440859A DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4440859A1 true DE4440859A1 (de) | 1996-05-30 |
DE4440859C2 DE4440859C2 (de) | 1998-08-06 |
Family
ID=6533426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4440859A Expired - Fee Related DE4440859C2 (de) | 1994-11-15 | 1994-11-15 | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters |
Country Status (3)
Country | Link |
---|---|
US (1) | US5774632A (de) |
EP (1) | EP0718732A3 (de) |
DE (1) | DE4440859C2 (de) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7117131B2 (en) * | 1998-05-26 | 2006-10-03 | Definiens Ag | Method for characterizing a complex system |
JP3422686B2 (ja) | 1998-06-12 | 2003-06-30 | 三菱電機株式会社 | データ復号装置及びデータ復号方法 |
US6950814B2 (en) * | 2000-06-24 | 2005-09-27 | International Business Machines Corporation | Natural language processing methods and systems |
WO2003006215A2 (en) * | 2001-07-13 | 2003-01-23 | Fsi International | Robotic system control |
US7577631B2 (en) * | 2001-09-10 | 2009-08-18 | Feldhake Michael J | Cognitive image filtering |
AU2003218917A1 (en) * | 2002-01-31 | 2003-09-02 | Solar And Robotics Sa | Improvement to a method for controlling an autonomous mobile robot et related device |
EP1484716A1 (de) * | 2003-06-06 | 2004-12-08 | Sony France S.A. | Eine Architektur für selbstentwickelnde Einheiten |
US8096811B2 (en) * | 2003-11-29 | 2012-01-17 | American Board Of Family Medicine, Inc. | Computer architecture and process of user evaluation |
US7400291B2 (en) * | 2003-12-04 | 2008-07-15 | Sony Corporation | Local positioning system which operates based on reflected wireless signals |
KR100506097B1 (ko) * | 2004-02-04 | 2005-08-03 | 삼성전자주식회사 | 자기장 지도 생성 방법 및 장치와 이를 활용한 이동체의포즈 확인 방법 및 장치 |
US7478192B2 (en) * | 2004-11-03 | 2009-01-13 | Saffron Technology, Inc. | Network of networks of associative memory networks |
US7725418B2 (en) * | 2005-01-28 | 2010-05-25 | Honda Motor Co., Ltd. | Responding to situations using multidimensional semantic net and Bayes inference |
JP4663484B2 (ja) * | 2005-04-25 | 2011-04-06 | 株式会社日立製作所 | システムセキュリティ設計・評価支援ツール、システムセキュリティ設計支援ツール、システムセキュリティ設計・評価支援プログラム、およびシステムセキュリティ設計支援プログラム |
US7370022B2 (en) * | 2005-07-08 | 2008-05-06 | Honda Motor Co. | Building plans for household tasks from distributed knowledge |
US8019713B2 (en) * | 2005-07-08 | 2011-09-13 | Honda Motor Co., Ltd. | Commonsense reasoning about task instructions |
US7456596B2 (en) * | 2005-08-19 | 2008-11-25 | Cisco Technology, Inc. | Automatic radio site survey using a robot |
US7603330B2 (en) | 2006-02-01 | 2009-10-13 | Honda Motor Co., Ltd. | Meta learning for question classification |
KR100757839B1 (ko) * | 2006-04-04 | 2007-09-11 | 삼성전자주식회사 | 제어시스템, 제어시스템을 갖는 이동로봇장치 및 그제어방법 |
US20100017026A1 (en) * | 2008-07-21 | 2010-01-21 | Honeywell International Inc. | Robotic system with simulation and mission partitions |
US7977906B1 (en) * | 2008-08-14 | 2011-07-12 | Hrl Laboratories, Llc | Saccadic tracking for an electro-mechanical system |
US9409294B1 (en) | 2015-03-05 | 2016-08-09 | Toyota Motor Engineering & Manufacturing North America, Inc. | Hierarchical geometric plan composition (HGPC) framework for robot task planning |
CN110603122B (zh) * | 2017-04-28 | 2023-04-18 | 苏希自主工作股份有限公司 | 用于交互式学习应用的自动个性化反馈 |
DE102020211648A1 (de) | 2020-09-17 | 2022-03-17 | Robert Bosch Gesellschaft mit beschränkter Haftung | Vorrichtung und Verfahren zum Steuern einer Robotervorrichtung |
DE102022125829B3 (de) | 2022-10-06 | 2024-01-04 | Deutsches Zentrum für Luft- und Raumfahrt e.V. | Verfahren zum Steuern eines Roboters und Roboter |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4884216A (en) * | 1987-11-09 | 1989-11-28 | Michael Kuperstein | Neural network system for adaptive sensory-motor coordination of multijoint robots for single postures |
JPH02136904A (ja) * | 1988-11-18 | 1990-05-25 | Hitachi Ltd | 動作系列自己生成機能を持つ運動制御装置 |
US5111531A (en) * | 1990-01-08 | 1992-05-05 | Automation Technology, Inc. | Process control using neural network |
US5124918A (en) * | 1990-01-18 | 1992-06-23 | Case Western Reserve University | Neural-based autonomous robotic system |
DE4001493A1 (de) * | 1990-01-19 | 1991-07-25 | Pietzsch Ibp Gmbh | Verfahren und einrichtung zur selbsttaetigen steuerung von bewegbaren geraeten |
JPH04227507A (ja) * | 1990-07-02 | 1992-08-17 | Nec Corp | 移動ロボット用のマップを作成し保持する方法 |
JPH04211802A (ja) * | 1990-07-25 | 1992-08-03 | Toshiba Corp | ニュ−ラルネットワ−ク装置 |
DE69130147T2 (de) * | 1990-10-03 | 1999-04-01 | Aisin Seiki | Automatisches Steuersystem für Seitenführung |
US5448681A (en) * | 1992-03-27 | 1995-09-05 | National Semiconductor Corporation | Intelligent controller with neural network and reinforcement learning |
US5323470A (en) * | 1992-05-08 | 1994-06-21 | Atsushi Kara | Method and apparatus for automatically tracking an object |
JPH06131009A (ja) * | 1992-10-20 | 1994-05-13 | Fujitsu Ltd | フィードバック制御装置 |
US5392382A (en) * | 1992-12-01 | 1995-02-21 | Schoppers; Marcel J. | Automated plan synthesizer and plan execution method |
JPH06314103A (ja) * | 1993-04-30 | 1994-11-08 | Fujitsu Ltd | 制御装置と能動的センシング装置 |
US5608843A (en) * | 1994-08-01 | 1997-03-04 | The United States Of America As Represented By The Secretary Of The Air Force | Learning controller with advantage updating algorithm |
US5548512A (en) * | 1994-10-04 | 1996-08-20 | The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration | Autonomous navigation apparatus with neural network for a mobile vehicle |
-
1994
- 1994-11-15 DE DE4440859A patent/DE4440859C2/de not_active Expired - Fee Related
-
1995
- 1995-11-13 US US08/554,948 patent/US5774632A/en not_active Expired - Fee Related
- 1995-11-15 EP EP95118004A patent/EP0718732A3/de not_active Withdrawn
Non-Patent Citations (3)
Title |
---|
HOFFMANN, N.: "Kleines Handbuch Neuronale Netze", Vieweg-Verlag, Berlin 1993, S.105-110 u. 154-159 * |
ROJAS, PAUL: "Theorie der neuronalen Netze", Springer-Verlag 1993, S.356-375 * |
WALTER, J.A., SCHULTEN, K.J.: "Implemen- tation of Self-Organizing Neural Networks for Visno-Motor Control of an Industrial Robot" in "IEEE Transaktions on Neural Networks", Bd.4, Nr.1, Jan.1993, S.86-95 * |
Also Published As
Publication number | Publication date |
---|---|
US5774632A (en) | 1998-06-30 |
EP0718732A2 (de) | 1996-06-26 |
EP0718732A3 (de) | 1996-08-28 |
DE4440859C2 (de) | 1998-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4440859C2 (de) | Verfahren und Vorrichtung zum Steuern eines autonom explorierenden Roboters | |
DE102007001024B4 (de) | Verfahren zur rechnergestützten Regelung und/oder Steuerung eines technischen Systems insbesondere einer Gasturbine | |
DE10341573B4 (de) | Integrierte modellbasierte prädikative Steuerung und Optimierung innerhalb eines Prozesssteuerungssystems | |
DE19531967C2 (de) | Verfahren zum Training eines neuronalen Netzes mit dem nicht deterministischen Verhalten eines technischen Systems | |
DE102007001025A1 (de) | Verfahren zur rechnergestützten Steuerung und/oder Regelung eines technischen Systems | |
WO2006000427A1 (de) | Fahrzeug-steuergerät mit einem neuronalen netz | |
DE102017223717A1 (de) | Verfahren zum Betreiben eines Roboters in einem Multiagentensystem, Roboter und Multiagentensystem | |
DE4008510A1 (de) | Regeleinheit mit optimal-entscheidungsmitteln | |
DE10341762B4 (de) | Handhabung der Realisierbarkeit von Beschränkungen und Grenzen in einem Optimierer für Prozesssteuerungssysteme | |
DE4111354A1 (de) | Einrichtung zur fuehrung des endeffektors eines roboters laengs einer sollbahn | |
DE102008029657A1 (de) | Positionsgesteuerter Mechanismus und Verfahren zur Steuerung von in mehreren Bewegungsfreiheitsgraden beweglichen Mechanismen | |
EP3701433A1 (de) | Verfahren, vorrichtung und computerprogramm zur erstellung eines tiefen neuronalen netzes | |
EP3232282A1 (de) | Diagnoseeinrichtung und verfahren zur überwachung des be-triebs einer technischen anlage | |
WO2020182541A1 (de) | Verfahren zum betreiben eines roboters in einem multiagentensystem, roboter und multiagentensystem | |
WO2005055134A2 (de) | Inferenzmaschine | |
DE102017200580A1 (de) | Verfahren zur Optimierung einer Manöverplanung für autonom fahrende Fahrzeuge | |
DE112011100192T5 (de) | Verfahren zum Bearbeiten von Werkstücken mittels eines kognitiven Bearbeitungskopfes und ein dieses verwendender Bearbeitungskopf | |
EP1119799B1 (de) | Regeleinrichtung zur regelung einer strecke mit mehreren verkoppelten regelgrössen | |
DE102018128535B4 (de) | Trainieren eines künstlichen neuronalen Netzwerks mit durch Sensoren eines Fahrzeugs erfassten Daten | |
EP1148395A2 (de) | Regler, insbesondere Lenkregler für Flugkörper | |
EP0829809B1 (de) | Verfahren zur Prozessvisualisierung | |
DE102020103854B4 (de) | Maschinelles Lernen einer erfolgreich abgeschlossenen Roboteranwendung | |
DE102020206913B4 (de) | Verfahren und Vorrichtung zum Betreiben eines Roboters | |
WO1994022073A1 (de) | Verfahren zur verarbeitung von signalen auf fuzzy-logik-basis | |
EP0614547B1 (de) | Verfahren zur regelung für dynamische systeme n-ter ordnung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: VIRTUAL GENETICS AB, STOCKHOLM, SE |
|
8328 | Change in the person/name/address of the agent |
Free format text: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLLEGEN, 81369 MUENCHEN |
|
8381 | Inventor (new situation) |
Free format text: KASKE, ALEXANDER, 50933 KOELN, DE |
|
8327 | Change in the person/name/address of the patent owner |
Owner name: KASKE, ALEXANDER, WIEN, AT |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: VOGESER, LIEDL, ALBER, DR. STRYCH, MUELLER UND KOLL |
|
8328 | Change in the person/name/address of the agent |
Representative=s name: HANSMANN & VOGESER, 81369 MUENCHEN |
|
8339 | Ceased/non-payment of the annual fee |