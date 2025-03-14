Reinforcement Learning eignet sich hervorragend für Videospiele und Simulationen, hat aber in der realen Welt seine Schwierigkeiten. Das Problem? Diese Systeme lernen, indem sie verschiedene Aktionen erkunden – eine Stärke in virtuellen Umgebungen, aber ein großes Risiko in der Realität. „Erkundung ist sowohl das größte Verkaufsargument für RL als auch der größte limitierende Faktor für den Einsatz in der realen Welt“, erklärt Riemer und unterstreicht damit, warum beide Forscher diesen Übergang als eine kritische, entscheidende Herausforderung sehen.

„In der realen Welt, außerhalb von Simulationen, kann die Erkundung dazu führen, dass der Agent unvorhersehbare Dinge tut, was ein großes Problem für die Sicherheit von KI darstellt“, erklärt Riemer. „Selbst bei Anwendungsfällen, bei denen wir eine Erkundung tolerieren können, gibt es ein Problem mit der Stichprobeneffizienz von RL. Oftmals hat man das Gefühl, es müsse viel mehr erkunden, als ein Mensch in der gleichen Situation tun würde.“

Barto weist auf ähnliche Herausforderungen hin: „Es wird viel länger dauern, weil Simulationen viel, viel schneller ablaufen können als die physische Erfahrung in der Welt.“ Er fügt hinzu: „Wenn es sich um einen Roboter handelt, lernt er durch Versuch und Irrtum, und wenn ein Fehler zu einem Sturz oder etwas führt, das die Maschine beschädigt, dann ist das das Problem.“

Diese vorsichtige Herangehensweise an den Einsatz in der Praxis beruht sowohl auf praktischen als auch auf Sicherheitserwägungen. Barto betont die Notwendigkeit einer sorgfältigen Spezifikation der Belohnungsfunktionen, „damit das System nicht etwas Unerwartetes und möglicherweise Problematisches ausspuckt“.

Die Herausforderung geht über die bloße Umsetzung hinaus. Wie Riemer hervorhebt, müssen sich Reinforcement-Learning-Systeme auch an veränderliche Umgebungen anpassen: „Continuous RL untersucht die Frage, wie sich RL-Agenten an die veränderliche Natur realer Umgebungen anpassen können, d. h. wenn sich die Welt im Vergleich zum Zustand vor dem Training oder beim Training in einem Simulator verändert hat.“

Diese Anpassungsfähigkeit stellt das dar, was Riemer als „klassisches Problem des Stabilitäts-Plastizitäts-Dilemmas“ bezeichnet, bei dem der Akteur entscheiden muss, wie er die Leistung bei neuen Erfahrungen und die Leistung bei alten Erfahrungen priorisiert. Dieser Balanceakt zwischen der Beibehaltung von Vorkenntnissen und der Anpassung an neue Bedingungen stellt eine ständige Herausforderung in diesem Bereich dar.

Trotz dieser Hindernisse finden Forscher vielversprechende Lösungen, indem sie Reinforcement Learning mit anderen KI-Ansätzen kombinieren. Riemer sieht die Integration mit großen Sprachmodellen als besonders vielversprechend an: „Was RL wirklich gefehlt hat, war die Fähigkeit, die Welt so zu verstehen, dass es seine Erkundung logischer strukturieren kann. Wir sehen erste Anzeichen dafür, dass LLMs als solide Grundlage für das Weltwissen genutzt werden können, um darauf aufbauend RL-Trainings zu entwickeln, was aus der Perspektive der Ermöglichung realer Anwendungsfälle für RL sehr vielversprechend ist.“

Die Integration zwischen Reinforcement Learning und anderen KI-Techniken entwickelt sich rasant weiter. „Der wichtigste Trend, den wir beobachten, ist die Art und Weise, wie andere Methoden RL dabei helfen können, eine Repräsentation der Welt zu erstellen, die es nutzen kann, um effizienter mehr zu erkunden“, sagt Riemer. „Beispielsweise hat sich RL im Bereich der Sprachverarbeitung zu einem sehr effektiven Tool entwickelt, das auf vortrainierten LLMs aufbaut.“

Diese komplementäre Beziehung funktioniert in beide Richtungen – Reinforcement Learning verbessert Sprachmodelle, während Sprachmodelle Reinforcement Learning-Systemen bessere Repräsentationen der Welt liefern. „Wir beginnen, ähnliche Dinge für Anwendungsfälle wie Robotik oder den Bau von KI-Agenten zu beobachten, bei denen RL effektiver wird, wenn sie mit dem Wissen kombiniert werden, das in VLMs enthalten ist, die auch über Bildverarbeitungsfunktionen verfügen“, erklärt Riemer.

Wenn das Gespräch auf künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) geht – Systeme mit menschenähnlichen kognitiven Fähigkeiten über verschiedene Bereiche hinweg – äußert Barto Skepsis sowohl gegenüber deren Wahrscheinlichkeit als auch deren Attraktivität als Forschung.

„Ich sehe keinen Sinn darin, Intelligenz auf menschlicher Ebene zum Ziel zu machen“, erklärt er offen. „Das Ziel, zu verstehen, wie menschliche Intelligenz funktioniert, ist etwas anderes als der Versuch, Maschinen zu entwickeln, die auf menschlichem Niveau sind.“

Eine besonders faszinierende Grenze, die Barto identifiziert, ist Multi-Agent Reinforcement Learning – Systeme, bei denen mehrere Lernagenten interagieren, möglicherweise mit unterschiedlichen Zielen. Dieser Ansatz hat nicht nur Auswirkungen auf die Entwicklung von KI, sondern könnte auch Aufschluss darüber geben, wie unsere eigenen Gehirne funktionieren.

„Die Hypothese, dass Neuronen Verstärkungslernagenten sind und dass das Gehirn eine Gesellschaft interagierender Agenten ist, die untereinander unterschiedliche Ziele verfolgen könnten“, bleibt eine „ungewöhnliche Hypothese“, räumt er ein, aber eine mit potenziellen Auswirkungen auf die Neurowissenschaften.

Für Barto liegt der wertvollste Beitrag des Reinforcement Learning möglicherweise nicht in der Schaffung menschenähnlicher Intelligenz, sondern in der Lösung konkreter Probleme, die das menschliche Leben verbessern – eine Altlast, die vielleicht bedeutsamer ist als der Turing Award selbst.