Beim verstärkenden Lernen (Reinforcement Learning) lernt ein Agent, Entscheidungen zu treffen, indem er mit seiner Umgebung interagiert. Es wird in der Robotik und in anderen Entscheidungssituationen eingesetzt.
Reinforcement Learning (RL) ist eine Art maschineller Lernprozess, der sich auf die Entscheidungsfindung durch autonome Agenten konzentriert. Ein autonomer Agent ist ein System, das Entscheidungen treffen und als Reaktion auf seine Umgebung handeln kann, unabhängig von direkten Anweisungen eines menschlichen Benutzers. Roboter und selbstfahrende Autos sind Beispiele für autonome Agenten. Beim verstärkenden Lernen lernt ein autonomer Agent, eine Aufgabe durch Versuch und Irrtum auszuführen, ohne dass ein menschlicher Benutzer ihn anleitet.1 Dabei werden insbesondere Probleme der sequenziellen Entscheidungsfindung in unsicheren Umgebungen behandelt, und es zeigt sich vielversprechend für die Entwicklung künstlicher Intelligenz.
In der Literatur wird das verstärkende Lernen oft mit dem überwachten und dem unüberwachten Lernen verglichen. Überwachtes Lernen verwendet manuell gekennzeichnete Daten, um Vorhersagen oder Klassifizierungen zu erstellen. Unüberwachtes Lernen zielt darauf ab, verborgene Muster in nicht gekennzeichneten Daten aufzudecken und zu erlernen. Im Gegensatz zum überwachten Lernen werden beim verstärkenden Lernen keine Beispiele für richtiges oder falsches Verhalten verwendet. Aber auch das verstärkende Lernen unterscheidet sich vom unüberwachten Lernen dadurch, dass es durch Versuch und Irrtum und Belohnungsfunktion lernt und nicht durch die Extraktion von Informationen über verborgene Muster.2
Bei überwachten und unüberwachten Lernmethoden wird davon ausgegangen, dass jede Aufzeichnung von Eingabedaten unabhängig von anderen Aufzeichnungen im Datensatz ist, aber dass jede Aufzeichnung ein gemeinsames zugrunde liegendes Datenverteilungsmodell aktualisiert. Diese Methoden lernen, Vorhersagen zu treffen, wobei die Modellleistung anhand der Maximierung der Vorhersagegenauigkeit gemessen wird.
Im Gegensatz dazu lernt das verstärkende Lernen, zu handeln. Es wird davon ausgegangen, dass die Eingabedaten voneinander abhängige Tupel sind, d. h. als geordnete Datenfolge, die als „Zustand-Aktion-Belohnung“ organisiert ist. Viele Anwendungen von Algorithmen des verstärkenden Lernens zielen darauf ab, reale biologische Lernmethoden durch positive Verstärkung nachzuahmen.
Beachten Sie, dass, obwohl die beiden in der Literatur nicht oft verglichen werden, sich Reinforcement Learning auch von selbstüberwachtem Lernen unterscheidet. Letzteres ist eine Form des unüberwachten Lernens, bei der Pseudolabels, die aus unmarkierten Trainingsdaten abgeleitet werden, als Ground Truth zur Messung der Modellgenauigkeit verwendet werden. Beim verstärkenden Lernen werden jedoch keine Pseudo-Labels erstellt oder anhand einer Ground Truth gemessen – es handelt sich nicht um eine Klassifizierungsmethode, sondern um einen handlungsorientierten Lernprozess. Die beiden wurden jedoch bereits erfolgreich miteinander kombiniert – mit vielversprechenden Ergebnissen.3
Verstärkendes Lernen besteht im Wesentlichen aus der Beziehung zwischen einem Agenten, einer Umgebung und einem Ziel. In der Literatur wird diese Beziehung häufig im Rahmen des Markovschen Entscheidungsprozesses (Markov Decision Process, MDP) formuliert.
Der Agent für das verstärkende Lernen lernt durch die Interaktion mit seiner Umgebung etwas über ein Problem. Die Umgebung liefert Informationen über ihren aktuellen Zustand. Anhand dieser Informationen bestimmt der Agent dann, welche Maßnahme(n) zu ergreifen ist/sind. Wenn diese Aktion ein Belohnungssignal von der Umgebung erhält, wird der Agent dazu ermutigt, diese Aktion in einem ähnlichen zukünftigen Zustand erneut auszuführen. Dieser Vorgang wird danach für jeden neuen Status wiederholt. Mit der Zeit lernt der Agent durch Belohnungen und Bestrafungen, in der Umgebung Maßnahmen zu ergreifen, die ein bestimmtes Ziel erfüllen.4
Bei Markov-Entscheidungsprozessen bezieht sich der Zustandsraum auf alle Informationen, die der Zustand einer Umgebung liefert. Der Aktionsraum bezeichnet alle möglichen Aktionen, die der Agent innerhalb eines Zustands ausführen kann.5
Da ein RL-Agent keine manuell gekennzeichneten Eingabedaten hat, die sein Verhalten steuern, muss er seine Umgebung erkunden und neue Aktionen ausprobieren, um diejenigen zu entdecken, die belohnt werden. Aus diesen Belohnungssignalen lernt der Agent, Aktionen zu bevorzugen, für die er belohnt wurde, um seinen Gewinn zu maximieren. Der Agent muss aber auch weiterhin neue Zustände und Aktionen erforschen. Auf diese Weise kann er diese Erfahrung nutzen, um seine Entscheidungsfindung zu verbessern.
RL-Algorithmen erfordern daher, dass ein Agent sowohl das Wissen über zuvor belohnte Zustandsaktionen nutzt als auch andere Zustandsaktionen erforscht. Der Agent kann nicht ausschließlich auf Erkundung oder auf Ausbeutung abzielen. Er muss ständig neue Aktionen ausprobieren und dabei einzelne (oder Ketten von) Aktionen bevorzugen, die die größte kumulative Belohnung bringen.6
Über das Trio aus Agent, Umwelt und Ziel hinaus gibt es vier Hauptunterelemente, die Probleme beim verstärkenden Lernen (Reinforcement Learning, RL) charakterisieren.
- Richtlinien. Dies definiert das Verhalten des RL-Agenten, indem wahrgenommene Umweltzustände bestimmten Aktionen zugeordnet werden, die der Agent in diesen Zuständen ausführen muss. Dies kann in Form einer rudimentären Funktion oder eines komplexeren Rechenprozesses erfolgen. Beispielsweise kann eine Richtlinie, die ein autonomes Fahrzeug steuert, die Erkennung eines Fußgängers einer Stopp-Aktion zuordnen.
- Belohnungssignal. Dies bezeichnet das Ziel des RL-Problems. Jede der Aktionen des RL-Agenten erhält entweder eine Belohnung von der Umgebung oder nicht. Das einzige Ziel des Agenten besteht darin, die kumulativen Belohnungen aus der Umgebung zu maximieren. Bei selbstfahrenden Fahrzeugen kann das Belohnungssignal eine kürzere Fahrzeit, weniger Kollisionen, das Verbleiben auf der Straße und in der richtigen Spur, die Vermeidung extremer Verzögerungen oder Beschleunigungen usw. sein. Dieses Beispiel zeigt, dass RL mehrere Belohnungssignale enthalten kann, um einen Agenten zu leiten.
- Wertfunktion. Das Belohnungssignal unterscheidet sich von der Wertfunktion dadurch, dass das erstere einen unmittelbaren Nutzen anzeigt, während das letztere einen langfristigen Nutzen angibt. Der Wert bezieht sich auf die Erwünschtheit eines Zustands im Vergleich zu allen anderen Zuständen (mit ihren jeweiligen Belohnungen), die wahrscheinlich folgen werden. Ein autonomes Fahrzeug kann zwar die Fahrzeit verkürzen, indem es die Fahrspur verlässt, auf dem Gehweg fährt und schnell beschleunigt, aber diese drei Aktionen können seine Gesamtwertfunktion verringern. Daher kann das Fahrzeug als RL-Agent eine geringfügig längere Reisezeit in Kauf nehmen, um seine Belohnung in den drei letztgenannten Bereichen zu erhöhen.
- Modell. Dies ist ein optionales Unterelement von Reinforcement-Learning-Systemen. Modelle ermöglichen es Agenten, das Verhalten der Umgebung für mögliche Aktionen vorherzusagen. Die Agenten verwenden dann Modellvorhersagen, um mögliche Vorgehensweisen auf der Grundlage potenzieller Ergebnisse zu bestimmen. Dies kann das Modell sein, das das autonome Fahrzeug steuert und ihm dabei hilft, die besten Routen vorherzusagen, was von den umliegenden Fahrzeugen aufgrund ihrer Position und Geschwindigkeit zu erwarten ist, und so weiter.7 Einige modellbasierte Ansätze nutzen direktes menschliches Feedback beim anfänglichen Lernen und wechseln dann zum autonomen Lernen.
Es gibt zwei allgemeine Methoden, mit denen ein Agent Daten für das Lernen von Richtlinien sammelt:
- Online. Hier sammelt ein Agent Daten direkt durch die Interaktion mit seiner Umgebung. Diese Daten werden iterativ verarbeitet und gesammelt, während der Agent weiterhin mit dieser Umgebung interagiert.
- Offline. Wenn ein Agent keinen direkten Zugriff auf eine Umgebung hat, kann er anhand der protokollierten Daten dieser Umgebung lernen. Es handelt sich hierbei um Offline-Lernen. Ein großer Teil der Forschung hat sich dem Offline-Lernen zugewandt, da es praktische Schwierigkeiten beim Training von Modellen durch direkte Interaktion mit der Umgebung gibt.8
Reinforcement Learning ist ein lebendiges, fortlaufendes Forschungsgebiet, und als solches haben Entwickler eine Vielzahl von Ansätzen für Reinforcement Learning entwickelt. Dennoch sind drei viel diskutierte und grundlegende Methoden des Reinforcement Learning: dynamische Programmierung, Monte-Carlo und zeitliches Differenzlernen.
Bei der dynamischen Programmierung werden größere Aufgaben in kleinere Aufgaben unterteilt. Daher werden Probleme als Workflows mit sequenziellen Entscheidungen modelliert, die in diskreten Zeitschritten getroffen werden. Jede Entscheidung wird im Hinblick auf den sich daraus ergebenden möglichen nächsten Zustand getroffen. Die Belohnung (Reward, r) eines Agenten für eine bestimmte Aktion ist als Funktion dieser Aktion (a), des aktuellen Umgebungszustands (s) und des potenziellen nächsten Zustands (s') definiert:
Diese Belohnungsfunktion kann als (Teil) der Richtlinie verwendet werden, die die Aktionen eines Agenten regelt. Die Bestimmung der optimalen Strategie für das Verhalten des Agenten ist ein Hauptbestandteil der Methoden der dynamischen Programmierung für das verstärkende Lernen. Hier kommt die Bellman-Gleichung ins Spiel.
Die Bellman-Gleichung lautet:
Kurz gesagt definiert diese Gleichung vt(s) als die erwartete Gesamtbelohnung, die zum Zeitpunkt t beginnt und bis zum Ende eines Entscheidungs-Workflows reicht. Es wird davon ausgegangen, dass der Agent zu Beginn den Zustand s zu einem Zeitpunkt t einnimmt. Die Gleichung teilt die Belohnung zum Zeitpunkt t letztlich in die unmittelbare Belohnung rt(s,a) (d. h. die Belohnungsformel) und die erwartete Gesamtbelohnung des Agenten auf. Ein Agent maximiert somit seine Wertfunktion – die dem Gesamtwert der Bellman-Gleichung entspricht – indem er konsequent diejenige Handlung wählt, die in jedem Zustand ein Belohnungssignal erhält.9
Die dynamische Programmierung ist modellbasiert, d. h. sie erstellt ein Modell ihrer Umgebung, um Belohnungen wahrzunehmen, Muster zu erkennen und sich in der Umgebung zurechtzufinden. Monte Carlo geht jedoch von einer Blackbox-Umgebung aus und ist damit modellfrei.
Während die dynamische Programmierung potenzielle zukünftige Zustände und Belohnungssignale bei der Entscheidungsfindung vorhersagt, sind Monte-Carlo-Methoden ausschließlich erfahrungsbasiert, d. h. sie nehmen Stichproben von Zustands-, Aktions- und Belohnungssequenzen ausschließlich durch Interaktion mit der Umgebung. Monte-Carlo-Methoden lernen daher durch Ausprobieren und nicht durch probabilistische Verteilungen.
Monte Carlo unterscheidet sich außerdem von der dynamischen Programmierung in der Bestimmung der Wertfunktion. Die dynamische Programmierung strebt die größte kumulative Belohnung an, indem sie konsequent belohnte Aktionen in aufeinanderfolgenden Zuständen auswählt. Monte Carlo hingegen mittelt die Renditen für jedes Zustands-Aktions-Paar. Dies bedeutet wiederum, dass die Monte-Carlo-Methode warten muss, bis alle Aktionen in einer bestimmten Episode (oder einem Planungshorizont) abgeschlossen sind, bevor sie ihre Wertfunktion berechnet und dann ihre Richtlinie aktualisiert.10
In der Literatur wird das Lernen mit zeitlichen Unterschieden (TD) häufig als eine Kombination aus dynamischer Programmierung und dem Monte-Carlo-Verfahren beschrieben. Wie im vorherigen Fall aktualisiert TD seine Richtlinie und damit die Schätzungen für zukünftige Zustände nach jedem Schritt, ohne auf einen endgültigen Wert zu warten. Wie bei Monte Carlo lernt TD jedoch durch direkte Interaktion mit seiner Umgebung, anstatt ein Modell davon zu verwenden.11
Wie der Name schon sagt, passt der TD-Lernagent seine Strategie entsprechend der Differenz zwischen vorhergesagten und tatsächlich erhaltenen Belohnungen in jedem Zustand an. Das heißt, während bei der dynamischen Programmierung und Monte Carlo nur die erhaltene Belohnung berücksichtigt wird, berücksichtigt TD auch die Differenz zwischen der Erwartung und der erhaltenen Belohnung. Unter Verwendung dieser Differenz aktualisiert der Agent seine Schätzungen für den nächsten Schritt, ohne bis zum Planungshorizont des Ereignisses zu warten, im Gegensatz zu Monte Carlo.12
TD hat viele Variationen. Zwei wichtige Variationen sind State–Action–Reward–State–Action (SARSA) und Q-Learning. SARSA ist eine richtlinienkonforme TD-Methode, d. h. sie bewertet und versucht, ihre Entscheidungsfindungsrichtlinie zu verbessern. Q-Learning verstößt gegen die Richtlinien. Methoden, die außerhalb der Richtlinien liegen, sind solche, die zwei Richtlinien verwenden: eine für die Ausbeutung (Zielrichtlinie) und eine für die Erkundung zur Verhaltensgenerierung (Verhaltensrichtlinie).13
Es gibt eine Vielzahl von zusätzlichen Methoden des Reinforcement Learning. Die dynamische Programmierung ist eine wertbasierte Methode, d. h. sie wählt Aktionen auf der Grundlage ihrer geschätzten Werte gemäß einer Richtlinie aus, die darauf abzielt, ihre Wertfunktion zu maximieren. Im Gegensatz dazu lernen Methoden des Policy Gradient eine parametrisierte Richtlinie, die Aktionen auswählen kann, ohne eine Wertfunktion zu konsultieren. Diese werden als richtlinienbasiert bezeichnet und gelten in hochdimensionalen Umgebungen als effektiver.14
Die Schauspieler-Kritiker-Methoden sind sowohl werte- als auch richtlinienbasiert. Der sogenannte „Schauspieler“ ist ein Richtlinien-Gradient, der bestimmt, welche Maßnahmen zu ergreifen sind, während der „Kritiker“ eine Wertfunktion zur Bewertung von Maßnahmen ist. Schauspieler-Kritiker-Methoden sind im Wesentlichen eine Form von TD. Genauer gesagt bewertet der handelnde Kritiker den Wert einer bestimmten Handlung nicht nur anhand ihrer eigenen Belohnung, sondern auch anhand des möglichen Werts des folgenden Zustands, den er zur Belohnung der Handlung hinzufügt. Der Vorteil des Schauspieler-Kritiker-Ansatzes besteht darin, dass er aufgrund der Implementierung einer Wertfunktion und einer Richtlinie bei der Entscheidungsfindung effektiv weniger Interaktion mit der Umgebung erfordert.15
Da es beim Reinforcement Learning zentral um die Entscheidungsfindung in unvorhersehbaren Umgebungen geht, ist es ein Kernbereich des Interesses in der Robotik. Bei der Ausführung einfacher und wiederkehrender Aufgaben kann die Entscheidungsfindung unkompliziert sein. Kompliziertere Aufgaben, wie Versuche, menschliches Verhalten zu simulieren oder das Fahren zu automatisieren, erfordern jedoch die Interaktion mit hochvariablen und veränderlichen realen Umgebungen. Untersuchungen zeigen, dass tiefes verstärkendes Lernen (Deep Reinforcement Learning) mit tiefen neuronalen Netzen bei solchen Aufgaben hilfreich ist, insbesondere im Hinblick auf die Generalisierung und die Abbildung hochdimensionaler sensorischer Eingaben auf kontrollierte Systemausgaben.16 Studien deuten darauf hin, dass tiefgehendes verstärkendes Lernen mit Robotern stark von gesammelten Datensätzen abhängt. Daher werden in aktuellen Arbeiten Möglichkeiten zur Erfassung von Daten aus der realen Welt17 und zur Wiederverwendung früherer Daten18 untersucht, um Systeme für verstärkendes Lernen zu verbessern.
Neuere Forschungen deuten darauf hin, dass die Nutzung von Techniken und Tools zur Verarbeitung natürlicher Sprache – z. B. große Sprachmodelle (Large Language Models, LLMs) – die Generalisierung in Reinforcement-Learning-Systemen durch textuelle Darstellung von realen Umgebungen verbessern können.19 Viele Studien zeigen, wie interaktive textuelle Umgebungen kostengünstige Alternativen zu dreidimensionalen Umgebungen bieten, wenn sie Lernagenten bei aufeinanderfolgenden Entscheidungsaufgaben anleiten.20 Deep Reinforcement Learning unterstützt auch die textuelle Entscheidungsfindung in Chatbots. Tatsächlich übertrifft Reinforcement Learning andere Methoden zur Verbesserung der Dialogreaktion von Chatbots.21
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.
Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
1 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016.
2 Peter Stone, „Reinforcement Learning“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
3 Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo, „Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?“, Advances in Neural Information Processing Systems, Band 35, 2022, S. 30865–30881, https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.
4 Richard Sutton and Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics und Implementations with Python, Apress, 2023.
5 Brandon Brown und Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
6 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018.
Brandon Brown und Alexander Zai, Deep Reinforcement Learning in Action, Manning Publications, 2020.
13 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani und Patrick Pérez, „Deep Reinforcement Learning for Autonomous Driving: A Survey“, IEEE Transactions on Intelligent Transportation Systems, Band 23, Nr. 6, 2022, S. 4909–4926, https://ieeexplore.ieee.org/document/9351818.
8 Sergey Levine, Aviral Kumar, George Tucker und Justin Fu, „Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems“, 2020, https://arxiv.org/abs/2005.01643. Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou und David Silver, „Online and Offline Reinforcement Learning by Planning with a Learned Model“ Advances in Neural Information Processing Systems, Band 34, 2021, S. 27580–27591, https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.
9 Martin Puterman und Jonathan Patrick, „Dynamic Programming“, Encyclopedia of Machine Learning and Data Mining, Springer, 2017.
10 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018. Phil Winder, Reinforcement Learning: Industrial Applications of Intelligent Agents, O’Reilly, 2020.
11 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning,2. Auflage, MIT Press, 2018.
12 Michael Hu, Die Kunst des verstärkenden Lernens: Grundlagen, Mathematik und Implementierungen mit Python, Apress, 2023.
13 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018.
14 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018. Michael Hu, The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python, Apress, 2023.
15 Richard Sutton und Andrew Barto, Introduction to Reinforcement Learning, 2. Auflage, MIT Press, 2018.
16 Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor und Sergey Levine, „How to train your robot with deep reinforcement learning: lessons we have learned“, The International Journal of Robotics Research, Band 40, 2021, S. 969–721, https://journals.sagepub.com/doi/full/10.1177/0278364920987859.
17 Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski und Pannag R Sanketi, „i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops“, Proceedings of The 6th Conference on Robot Learning, PMLR, Nr. 205, 2023, S. 212–224, https://proceedings.mlr.press/v205/abeyruwan23a.html.
18 Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh und Sergey Levine, „Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning“, Proceedings of The 6th Conference on Robot Learning, PMLR, Nr. 205, 2023, 1652–1662, https://proceedings.mlr.press/v205/walke23a.html (Link befindet sich außerhalb von ibm.com).
19 Nikolaj Goodger, Peter Vamplew, Cameron Foale und Richard Dazeley, „Language Representations for Generalization in Reinforcement Learning“, Proceedings of The 13th Asian Conference on Machine Learning, PMLR, Nr. 157, 2021, S. 390-405, https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta und Jacob Andreas, „Guiding Pretraining in Reinforcement Learning with Large Language Models“, Proceedings of the 40th International Conference on Machine Learning, PMLR, Nr. 202, 2023, S. 8657-8677, https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh, and Roy Fox, „Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling“, Proceedings of the 40th International Conference on Machine Learning, PMLR, 202, 2023, S. 26311-26325, https://proceedings.mlr.press/v202/nottingham23a.html.
20 Ruoyao Wang und Peter Jansen und Marc-Alexandre Côté und Prithviraj Ammanabrolu, „ScienceWorld: Is your Agent Smarter than a 5th Grader?“ Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, 2022, S. 11279–11298, https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen, „A Systematic Survey of Text Worlds as Embodied Natural Language Environments“, Proceedings of the 3rd Wordplay: When Language Meets Games Workshop, 2022, S. 1–15, https://aclanthology.org/2022.wordplay-1.1.
21 Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger und Ryan Mcdonald, „On the Effectiveness of Offline RL for Dialogue Response Generation“, Proceedings of the 40th International Conference on Machine Learning, PMLR, No. 202, 2023, S. 32088-32104, https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma, Justin Fu, Sherry Yang und Sergey Levine, „CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning“, Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2022, S. 4471-4491, https://aclanthology.org/2022.naacl-main.332/.