Über das Trio aus Agent, Umwelt und Ziel hinaus gibt es vier Hauptunterelemente, die Probleme beim verstärkenden Lernen (Reinforcement Learning, RL) charakterisieren.
- Richtlinien. Dies definiert das Verhalten des RL-Agenten, indem wahrgenommene Umweltzustände bestimmten Aktionen zugeordnet werden, die der Agent in diesen Zuständen ausführen muss. Dies kann in Form einer rudimentären Funktion oder eines komplexeren Rechenprozesses erfolgen. Beispielsweise kann eine Richtlinie, die ein autonomes Fahrzeug steuert, die Erkennung eines Fußgängers einer Stopp-Aktion zuordnen.
- Belohnungssignal. Dies bezeichnet das Ziel des RL-Problems. Jede der Aktionen des RL-Agenten erhält entweder eine Belohnung von der Umgebung oder nicht. Das einzige Ziel des Agenten besteht darin, die kumulativen Belohnungen aus der Umgebung zu maximieren. Bei selbstfahrenden Fahrzeugen kann das Belohnungssignal eine kürzere Fahrzeit, weniger Kollisionen, das Verbleiben auf der Straße und in der richtigen Spur, die Vermeidung extremer Verzögerungen oder Beschleunigungen usw. sein. Dieses Beispiel zeigt, dass RL mehrere Belohnungssignale enthalten kann, um einen Agenten zu leiten.
- Wertfunktion. Das Belohnungssignal unterscheidet sich von der Wertfunktion dadurch, dass das erstere einen unmittelbaren Nutzen anzeigt, während das letztere einen langfristigen Nutzen angibt. Der Wert bezieht sich auf die Erwünschtheit eines Zustands im Vergleich zu allen anderen Zuständen (mit ihren jeweiligen Belohnungen), die wahrscheinlich folgen werden. Ein autonomes Fahrzeug kann zwar die Fahrzeit verkürzen, indem es die Fahrspur verlässt, auf dem Gehweg fährt und schnell beschleunigt, aber diese drei Aktionen können seine Gesamtwertfunktion verringern. Daher kann das Fahrzeug als RL-Agent eine geringfügig längere Reisezeit in Kauf nehmen, um seine Belohnung in den drei letztgenannten Bereichen zu erhöhen.
- Modell. Dies ist ein optionales Unterelement von Reinforcement-Learning-Systemen. Modelle ermöglichen es Agenten, das Verhalten der Umgebung für mögliche Aktionen vorherzusagen. Die Agenten verwenden dann Modellvorhersagen, um mögliche Vorgehensweisen auf der Grundlage potenzieller Ergebnisse zu bestimmen. Dies kann das Modell sein, das das autonome Fahrzeug steuert und ihm dabei hilft, die besten Routen vorherzusagen, was von den umliegenden Fahrzeugen aufgrund ihrer Position und Geschwindigkeit zu erwarten ist, und so weiter.7 Einige modellbasierte Ansätze nutzen direktes menschliches Feedback beim anfänglichen Lernen und wechseln dann zum autonomen Lernen.