Während künstliche Intelligenz unsere Welt zunehmend prägt, warnt einer ihrer Gründerväter vor Hype und Angst.
Andrew Barto, der kürzlich mit dem Turing Award, der höchsten Auszeichnung der Informatik, geehrt wurde, hat Jahrzehnte damit verbracht, Reinforcement Learning zu entwickeln – die Technologie, die heute alles antreibt, von KI-Champions im Videospielbereich über Systeme zur Wirkstoffforschung bis hin zu den Denkfähigkeiten hinter den großen Sprachmodellen von heute. In einem Interview mit IBM Think bietet Barto eine differenzierte Bewertung der Fortschritte, des Potenzials und der Grenzen der KI, die technologischen Optimismus und Untergangsszenarien durchbricht.
Reinforcement Learning, der rechnergestützte Ansatz zum Lernen aus Interaktion, den Barto mitentwickelt hat, ist in der heutigen KI-Geschäftswelt allgegenwärtig geworden. Während viele es mit aufsehenerregenden Erfolgen wie dem Besiegen von Weltmeistern in komplexen Spielen verbinden, sieht Barto die sinnvollsten Anwendungen in praktischeren Bereichen.
„Es wird bereits an verschiedenen Stellen eingesetzt, vor allem in der Robotertechnik“, erklärt er. „Es gibt großartige Möglichkeiten für Roboter, die durch verstärkendes Lernen sehr detaillierte, hilfreiche Bewegungen ausführen können, die Menschen zu Hause oder Menschen mit Behinderungen unterstützen könnten.“
Barto hebt medizinische Anwendungen hervor, bei denen Verstärkungslernen Behandlungsprotokolle über längere Zeiträume optimiert – genau die Art von sequentiellen Entscheidungsfindungsproblemen, bei denen die Technologie herausragt.
„Eine der Funktionen von Reinforcement Learning ist, dass es mit sequentiellen Entscheidungsproblemen umgehen kann, bei denen eine Reihe von Entscheidungen im Laufe der Zeit getroffen werden, und in jedem Fall hängt der Zustand des Systems von der vorherigen Entscheidung ab“, sagt er. Diese Fähigkeit, mit verzögerten Belohnungen umzugehen – Konsequenzen, die erst nach einer Abfolge von Aktionen auftreten – stellt eine grundlegende Herausforderung dar, die Reinforcement-Learning-Algorithmen angehen.
Matt Riemer, ein Deep Learning Research Engineer im IBM AI Foundations Lab, verweist auf noch neuere Anwendungen.
„Forscher haben Reinforcement Learning-basierte Ansätze erfolgreich auf das Problem der Wirkstoffforschung angewendet und sehen nun erste sehr vielversprechende Ergebnisse“, sagte er gegenüber Think in einem Interview. „Es hat in jüngster Zeit auch Erfolge bei wichtigen Problemen erzielt, wie beispielsweise der Optimierung und Automatisierung der Wasseraufbereitung.“
Hinter den beeindruckenden Fähigkeiten der heutigen Chatbots steckt Reinforcement Learning. Riemer erklärt: „Angesichts des jüngsten Erfolgs von LLMs haben wir hochkarätige Anwendungsfälle gesehen, in denen RL ihre Funktionen verbessert hat.“ Die erste größere Anwendung hieß RLHF – Reinforcement Learning from Human Feedback – und hilft diesen Systemen dabei, Antworten zu erzeugen, die besser zu den Wünschen der Menschen passen.
Große Sprachmodelle haben zwar mit ihrer Fähigkeit, menschenähnlichen Text zu generieren, öffentliche Aufmerksamkeit erregt, aber ihre Entwicklung ist zu einem großen Teil dem verstärkenden Lernen zu verdanken. Riemer erklärt: „In jüngerer Zeit haben wir gesehen, dass sich RL als der bekannteste Ansatz für das Training sogenannter Denkmodelle herauskristallisiert hat, die einen Denkkettenprozess erlernen, der die Funktionen von LLMs verbessert.“
Mathematische Probleme bieten ideale Trainingsbedingungen für diese Systeme. „Bei Problemen wie mathematischem Denken lassen sich leicht überprüfbare Belohnungen konstruieren, d. h. ‚Hat der Agent das Problem richtig beantwortet oder nicht?‘“, erklärt Riemer. Diese klaren richtigen oder falschen Antworten schaffen eine, wie er es nennt, „Pseudosimulationsumgebung“, in der die KI durch wiederholtes Üben lernen kann.
Die Auswirkungen von Reinforcement Learning gehen über akademische Forschung oder spezialisierte Anwendungen hinaus. Sein Einfluss macht sich zunehmend in Technologien bemerkbar, die mit Alltagsnutzern interagieren. „Dies ist vermutlich erst der Anfang, da RL wahrscheinlich eine noch wichtigere Rolle spielen wird, wenn auf diesem Gebiet die Entwicklung von ‚KI-Agenten‘ beginnt, die mit Webbrowsern und anderen Tools interagieren, um die Benutzer besser zu unterstützen“, prognostiziert Riemer.
Barto bewahrt den vorsichtigen Optimismus eines Wissenschaftlers, der zahlreiche technologische Hype-Zyklen miterlebt hat. Er räumt ein, dass es eine Herausforderung ist, die KI-Sicherheit und -Anpassung zu gewährleisten, d. h. sicherzustellen, dass KI-Systeme nach menschlichen Werten handeln.
„Das Ausrichtungsproblem ist ein nicht triviales Problem“, sagt er. „Man würde hoffen, dass ein RL-System eine KI so anleiten kann, dass sie die Werte der Menschen, die das System nutzen, miteinbezieht. Das wird also hoffentlich passieren. Ich habe keine Garantie dafür.“
Auf der Suche nach Inspiration für die Belohnungen von KI wendet sich Barto an unser Gehirn. „Unsere Belohnungsfunktionen stammen aus Mechanismen, die sich über Millionen von Jahren entwickelt haben“, erklärt er. Im Gegensatz zu einfachen Computerbelohnungen ist die menschliche Motivation das Ergebnis eines komplexen evolutionären Drucks, der unsere Vorfahren am Leben hielt und ihre Fortpflanzung ermöglichte.
Diese evolutionäre Perspektive prägt sein Denken über multikriterielles Reinforcement Learning, bei dem Systeme auf mehrere Belohnungssignale anstatt nur auf eines reagieren – was möglicherweise widerspiegelt, wie verschiedene Teile des menschlichen Gehirns verschiedene Formen von Feedback verarbeiten.
„Ich denke, multikriterielles Reinforcement Learning ist etwas, das wirklich sehr wichtig ist“, bemerkt Barto. „Statt einer einzigen Belohnungsfunktion können mehrere vorhanden sein, und … verschiedene Teile des Gehirns haben wahrscheinlich unterschiedliche Signale empfangen.“
Reinforcement Learning eignet sich hervorragend für Videospiele und Simulationen, hat aber in der realen Welt seine Schwierigkeiten. Das Problem? Diese Systeme lernen, indem sie verschiedene Aktionen erkunden – eine Stärke in virtuellen Umgebungen, aber ein großes Risiko in der Realität. „Erkundung ist sowohl das größte Verkaufsargument für RL als auch der größte limitierende Faktor für den Einsatz in der realen Welt“, erklärt Riemer und unterstreicht damit, warum beide Forscher diesen Übergang als eine kritische, entscheidende Herausforderung sehen.
„In der realen Welt, außerhalb von Simulationen, kann die Erkundung dazu führen, dass der Agent unvorhersehbare Dinge tut, was ein großes Problem für die Sicherheit von KI darstellt“, erklärt Riemer. „Selbst bei Anwendungsfällen, bei denen wir eine Erkundung tolerieren können, gibt es ein Problem mit der Stichprobeneffizienz von RL. Oftmals hat man das Gefühl, es müsse viel mehr erkunden, als ein Mensch in der gleichen Situation tun würde.“
Barto weist auf ähnliche Herausforderungen hin: „Es wird viel länger dauern, weil Simulationen viel, viel schneller ablaufen können als die physische Erfahrung in der Welt.“ Er fügt hinzu: „Wenn es sich um einen Roboter handelt, lernt er durch Versuch und Irrtum, und wenn ein Fehler zu einem Sturz oder etwas führt, das die Maschine beschädigt, dann ist das das Problem.“
Diese vorsichtige Herangehensweise an den Einsatz in der Praxis beruht sowohl auf praktischen als auch auf Sicherheitserwägungen. Barto betont die Notwendigkeit einer sorgfältigen Spezifikation der Belohnungsfunktionen, „damit das System nicht etwas Unerwartetes und möglicherweise Problematisches ausspuckt“.
Die Herausforderung geht über die bloße Umsetzung hinaus. Wie Riemer hervorhebt, müssen sich Reinforcement-Learning-Systeme auch an veränderliche Umgebungen anpassen: „Continuous RL untersucht die Frage, wie sich RL-Agenten an die veränderliche Natur realer Umgebungen anpassen können, d. h. wenn sich die Welt im Vergleich zum Zustand vor dem Training oder beim Training in einem Simulator verändert hat.“
Diese Anpassungsfähigkeit stellt das dar, was Riemer als „klassisches Problem des Stabilitäts-Plastizitäts-Dilemmas“ bezeichnet, bei dem der Akteur entscheiden muss, wie er die Leistung bei neuen Erfahrungen und die Leistung bei alten Erfahrungen priorisiert. Dieser Balanceakt zwischen der Beibehaltung von Vorkenntnissen und der Anpassung an neue Bedingungen stellt eine ständige Herausforderung in diesem Bereich dar.
Trotz dieser Hindernisse finden Forscher vielversprechende Lösungen, indem sie Reinforcement Learning mit anderen KI-Ansätzen kombinieren. Riemer sieht die Integration mit großen Sprachmodellen als besonders vielversprechend an: „Was RL wirklich gefehlt hat, war die Fähigkeit, die Welt so zu verstehen, dass es seine Erkundung logischer strukturieren kann. Wir sehen erste Anzeichen dafür, dass LLMs als solide Grundlage für das Weltwissen genutzt werden können, um darauf aufbauend RL-Trainings zu entwickeln, was aus der Perspektive der Ermöglichung realer Anwendungsfälle für RL sehr vielversprechend ist.“
Die Integration zwischen Reinforcement Learning und anderen KI-Techniken entwickelt sich rasant weiter. „Der wichtigste Trend, den wir beobachten, ist die Art und Weise, wie andere Methoden RL dabei helfen können, eine Repräsentation der Welt zu erstellen, die es nutzen kann, um effizienter mehr zu erkunden“, sagt Riemer. „Beispielsweise hat sich RL im Bereich der Sprachverarbeitung zu einem sehr effektiven Tool entwickelt, das auf vortrainierten LLMs aufbaut.“
Diese komplementäre Beziehung funktioniert in beide Richtungen – Reinforcement Learning verbessert Sprachmodelle, während Sprachmodelle Reinforcement Learning-Systemen bessere Repräsentationen der Welt liefern. „Wir beginnen, ähnliche Dinge für Anwendungsfälle wie Robotik oder den Bau von KI-Agenten zu beobachten, bei denen RL effektiver wird, wenn sie mit dem Wissen kombiniert werden, das in VLMs enthalten ist, die auch über Bildverarbeitungsfunktionen verfügen“, erklärt Riemer.
Wenn das Gespräch auf künstliche allgemeine Intelligenz (Artificial General Intelligence, AGI) geht – Systeme mit menschenähnlichen kognitiven Fähigkeiten über verschiedene Bereiche hinweg – äußert Barto Skepsis sowohl gegenüber deren Wahrscheinlichkeit als auch deren Attraktivität als Forschung.
„Ich sehe keinen Sinn darin, Intelligenz auf menschlicher Ebene zum Ziel zu machen“, erklärt er offen. „Das Ziel, zu verstehen, wie menschliche Intelligenz funktioniert, ist etwas anderes als der Versuch, Maschinen zu entwickeln, die auf menschlichem Niveau sind.“
Eine besonders faszinierende Grenze, die Barto identifiziert, ist Multi-Agent Reinforcement Learning – Systeme, bei denen mehrere Lernagenten interagieren, möglicherweise mit unterschiedlichen Zielen. Dieser Ansatz hat nicht nur Auswirkungen auf die Entwicklung von KI, sondern könnte auch Aufschluss darüber geben, wie unsere eigenen Gehirne funktionieren.
„Die Hypothese, dass Neuronen Verstärkungslernagenten sind und dass das Gehirn eine Gesellschaft interagierender Agenten ist, die untereinander unterschiedliche Ziele verfolgen könnten“, bleibt eine „ungewöhnliche Hypothese“, räumt er ein, aber eine mit potenziellen Auswirkungen auf die Neurowissenschaften.
Für Barto liegt der wertvollste Beitrag des Reinforcement Learning möglicherweise nicht in der Schaffung menschenähnlicher Intelligenz, sondern in der Lösung konkreter Probleme, die das menschliche Leben verbessern – eine Altlast, die vielleicht bedeutsamer ist als der Turing Award selbst.
Erfahren Sie, wie CEOs den Wert, den generative KI schaffen kann, gegen die erforderlichen Investitionen und die damit verbundenen Risiken abwägen können.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Erkunden Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.