Wie intelligent ist maschinelle Intelligenz? KI beherrscht Spiele, versagt aber beim Realitätscheck

Autos im Verkehr in New York City

Autor

Sascha Brodsky

Staff Writer

IBM

Große Sprachmodelle mögen darin hervorragend sein, Wegbeschreibungen durch die Straßen New Yorks zu geben, aber neue Forschungen zeigen, dass sie dies tun, ohne tatsächlich zu verstehen, wie die Stadt als Ganzes aufgebaut ist. Die Modelle stürzen spektakulär ab, wenn sie mit einfachen Umwegen konfrontiert werden. Dabei zeigt sich, dass ihre scheinbare Expertise nur eine ausgeklügelte Mustererkennung ist.

Die Ergebnisse berühren eine zentrale Frage der künstlichen Intelligenz: Entwickeln KI-Systeme echte „Weltmodelle“ – kohärente Verständnisse davon, wie die Dinge funktionieren und miteinander in Beziehung stehen – oder werden sie nur sehr gut darin, korrektes Verhalten nachzuahmen, ohne es wirklich zu verstehen? 

„Was wir in unserer Arbeit feststellen, ist, dass generative Modelle beeindruckende Ergebnisse liefern können, ohne das zugrunde liegende Weltmodell wiederherzustellen“, sagt Ashesh Rambachan, Assistenzprofessor für Wirtschaftswissenschaften am MIT und einer der Autoren des Artikels. „Wenn wir diese beeindruckenden Ausgaben sehen, glauben wir natürlich, dass diese generativen Modelle eine grundlegende Wahrheit über die Welt lernen – schließlich fällt es mir schwer, mir eine Person vorzustellen, die in NYC von Punkt A nach Punkt B navigieren kann, ohne auch zu glauben, dass diese Person die Landkarte von NYC versteht.“

Die grundlegende Herausforderung, die in dem Artikel von IBM Vice President und Senior Partner, Global Head of Tech, Data, & KI Strategie, Brent Smolinksi, aufgedeckt wurde, ist, dass ein großes Sprachmodell „keine deduktiven Überlegungen durchführen kann. Dafür ist es nicht eingerichtet. Es ist darauf ausgelegt, Muster zu erkennen und auf diese Muster zu reagieren.“

Taxi-Verwirrung

Rambachans Team hat zwei neue Methoden entwickelt, um zu messen, wie gut KI-Modelle ihre Umgebung verstehen: Sequenzunterscheidung und Sequenzkompression. Es testete diese Metriken mit deterministischen endlichen Automaten (DFAs) in zwei Szenarien: beim Navigieren in New York City und beim Spielen von Othello.

Was es herausfand, war überraschend. Modelle, die aus zufälligen Verschieben lernten, entwickelten ein besseres Verständnis als solche, die im strategischen Spiel trainiert wurden. Der Grund? Durch das zufällige Training wurden die Modelle mit viel mehr möglichen Situationen und Übergängen konfrontiert, wodurch sie ein vollständigeres Bild ihrer Umgebung erhielten als Modelle, die nur strategische, „optimale“ Verschiebungen sahen.

Als die Forscher diese KI-Systeme einem Stresstest unterzogen, stellten sie eine beunruhigende Lücke zwischen Leistung und Verständnis fest. Die Systeme wirkten auf den ersten Blick beeindruckend – sie konnten valide Bewegungen und Richtungen mit hoher Genauigkeit erzeugen. Doch hinter dieser Fassade versagten fast alle Modelle bei grundlegenden Tests der Weltmodellierung.

Ein aussagekräftiges Beispiel stammt aus den Navigationstests in NYC. Die Navigationsmodelle fielen auseinander, als Forscher einfache Änderungen an der Stadtkarte vornahmen, indem sie Umwege hinzufügten. Dies zeigte, dass die Modelle die Stadtgeografie oder Routenprinzipien überhaupt nicht verstanden – sie machten nur oberflächlich korrekte Vorschläge ohne wirkliches Verständnis.

Das deutet auf eine entscheidende Schwäche der aktuellen KI-Systeme hin: Sie können sehr gut darin sein, Vorhersagen zu treffen, während sie ein genaueres Verständnis dafür benötigen, womit sie arbeiten. Laut Smolinski mögen große Sprachmodelle intelligent erscheinen, aber sie sind lediglich sehr gut im Mustererkennen als im tatsächlichen (deduktiven) Denken. Er sagte, dass diese KI-Systeme, wenn sie logische Probleme zu lösen scheinen, nur Muster erkennen, auf die sie zuvor gestoßen sind, und die Dinge nicht Schritt für Schritt durchdenken. 

Smolinksi argumentiert, dass der Hauptunterschied darin besteht, dass wir verschiedene Arten von KI-Techniken benötigen, die zusammenarbeiten, zum Beispiel eine für die Erkennung von Mustern, eine andere für die Darstellung von Wissen und eine dritte für logische Schlussfolgerungen, um ein Problem zu lösen.

Nicht so menschliches Denken?

Die Feststellung, dass die ausgefeiltesten KI-Systeme von heute Tests ohne ein wirkliches Verständnis bestehen können, ist der Kern einer heftigen Debatte, die derzeit im Silicon Valley diskutiert wird: Ob die allgemeine künstliche Intelligenz kurz vor der Tür steht oder ob sie grundsätzlich unerreichbar ist.

Das Wettlauf um die Erreichung künstlicher allgemeiner Intelligenz (AGI) ist zu einer der umstrittensten Debatten in der Technik geworden und hebt eine sich vertiefende Kluft zwischen Optimisten und Skeptikern hervor. In den Vorstandsetagen und Forschungslabors von Unternehmen im Silicon Valley drehen sich die Gespräche zunehmend nicht nur darum, ob, sondern wann Maschinen den menschlichen kognitiven Funktionen entsprechen werden.

Der Zeitplan für die Entwicklung von AGI hat die KI-Community in zwei unterschiedliche Lager gespalten. Auf der einen Seite stehen die Techno-Optimisten, die AGI als einen bevorstehenden Durchbruch ansehen, der die Zivilisation noch zu unseren Lebzeiten umgestalten könnte. Auf der anderen Seite stehen die Pragmatiker, die warnen, dass wir vielleicht Jahrzehnte von Maschinen entfernt sind, die wirklich wie Menschen denken.

Diese grundlegende Uneinigkeit über die Zeitpläne von AGI ist nicht nur akademisch – sie prägt Forschung, Investitionsentscheidungen und politische Diskussionen rund um KI-Sicherheit und Regulierung. Da Milliarden von Dollar in die AGI-Forschung und -Entwicklung fließen, steht in dieser Debatte immer mehr auf dem Spiel.

Während einige prominente Technologieführer wie Sam Altman von OpenAI vorgeschlagen haben , dass künstliche allgemeine Intelligenz – KI-Systeme, die menschliche Kognition in nahezu allen Aufgabenbereichen erreichen oder übertreffen können – innerhalb weniger Jahre erscheinen könnte, bietet IBMs Smolinski eine skeptischere Sichtweise. Er argumentiert, dass aktuelle KI-Systeme, insbesondere große Sprachmodelle, im Grunde eher auf Musterabgleiche als auf tatsächliches logisches Denken beschränkt sind.

Anstatt kurz vor menschenähnlicher Intelligenz zu stehen, meint Smolinski, dass wir uns „möglicherweise noch nicht einmal im richtigen Postleitzahlengebiet“ befinden, wenn es um die Architektur geht, die für eine echte AGI erforderlich ist. Wie er es direkt formuliert: „Ich würde zwischen KI, die bei der Lösung spezifischer Probleme hilfreich ist, und allgemeiner KI unterscheiden…“ Ich glaube, dass wir noch viele Jahre von einem System entfernt sind, das wie ein Mensch funktioniert, das die gleichen Denkprozesse wie ein Mensch hat oder Probleme löst. Vielleicht erreichen wir dieses Ziel nie.“

Smolinski unterteilt die KI-Funktionen in klare Kategorien, die jeweils unterschiedlichen Zwecken dienen. Auf der einen Seite haben Sie moderne KI-ähnliche große Sprachmodelle, die hervorragend in der Mustererkennung sind und beispielsweise Ähnlichkeiten und Trends in Daten erkennen. Auf der anderen Seite haben Sie traditionelle regelbasierte Systeme, die logischen Schritten folgen können. Die eigentliche Herausforderung, erklärt er, besteht nicht darin, beide Typen zu verbessern, sondern herauszufinden, wie man sie effektiv kombiniert.

Smolinski schlägt vor, dass neuro-symbolische KI einen Weg nach vorne bieten könnte. Dieser Zweig der KI versucht, neuronale Netze mit symbolischem Denken zu verbinden, obwohl sein letztendliches Potenzial noch abzuwarten bleibt. Diese hybriden Systeme können aus Rohdaten lernen und logische Regeln anwenden. Diese doppelte Natur hilft Maschinen, komplexe Herausforderungen zu meistern, von der Analyse natürlicher Sprache bis hin zur Problemlösung in dynamischen Umgebungen, während sie klarere Erklärungen für ihre Entscheidungen liefert.

„Ich denke, das ist der vielversprechendste Beweis für wahre Intelligenz“, sagte er.