Seite - (000488) - in Autonomes Fahren - Technische, rechtliche und gesellschaftliche Aspekte
Bild der Seite - (000488) -
Text der Seite - (000488) -
Lernen autonome
Fahrzeuge?470
den dabei genutzt, um diese Strukturen aufzudecken und neu beobachtete Eingangswerte
basierend darauf einzuteilen.
Reinforcement Learning
Das Reinforcement Learning oder Lernen durch Verstärkung unterscheidet sich von beiden
vorherigen Verfahren, denn zu Beginn liegen keine oder wenige Trainingsdaten vor. Die
für eine angestrebte Verbesserung benötigten Trainingsdaten erzeugt ein Agent1 selbst,
indem nach einem festgelegten Schema die zu optimierende Aufgabe ausgeführt wird. Eine
Bewertung der Ausführung der Aufgabe fließt in den Lernprozess zurück und bildet so
einen Trainingsdatensatz aus Ein- und Ausgangsgrößen, die für weitere Optimierungs-
schritte genutzt werden. Die Ansätze des Reinforcement Learnings sind dem sogenannten
Innovationsdilemma ausgesetzt, denn „Exploration“ und „Exploitation“ widersprechen
einander, was March folgendermaßen beschreibt:
Exploration includes things captured by terms such as search, variation, risk taking, experi-
mentation, play, flexibility, discovery, innovation. Exploitation includes such things as refine-
ment, choice, production, efficiency, selection, implementation, execution. [15]
Dem Lernproblem entsprechend ist ein Gleichgewicht für beides zu finden, denn auf der
einen Seite ist in einem teils unbekannten Suchraum eine optimale Ausführung der Aufga-
be gesucht und auf der anderen Seite wird diese Suche durch Rahmenbedingungen wie
Kosten, Sicherheit und Zeit begrenzt.
Neben der Frage, ob und in welcher Form die Trainingsdaten vorhanden sind, kann das
Lernproblem auch anhand des Einsatzes der Trainingsdaten unterschieden werden.
Batch Learning
Beim Batch oder Offline Learning wird zu einem Zeitpunkt ein Satz von Trainingsdaten
verwendet, um die Lernmethode anzuwenden. Erstellt die Lernmethode beispielsweise ein
Modell, wird dieses Modell durch weitere Erfahrungen, die während des Einsatzes gesam-
melt werden, nicht aktualisiert.
Online Learning
Das Online Learning zeichnet sich durch einen iterativen Prozess aus, bei dem neue Erfah-
rungen in den Lernprozess mit einfließen. Das Ziel ist, die Bewältigung der Aufgabe kon-
tinuierlich zu optimieren und dabei Erfahrungen aus dem Einsatz zu berücksichtigen. Das
hat ein Systemverhalten zur Folge, das sich über den Erfahrungen ändert. Da die Erfahrun-
gen in einer zeitlichen Abfolge gesammelt werden, ändert sich das Systemverhalten dem-
zufolge auch über der Zeit.
1 Russell definiert: “An agent is anything that can be viewed as perceiving its environment through
sensors and acting upon that environment through effectors.” [14]
Autonomes Fahren
Technische, rechtliche und gesellschaftliche Aspekte
Gefördert durch die Daimler und Benz Stiftung