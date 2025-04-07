Das KI-Modell Claude von Anthropic schreibt nicht nur Poesie, sondern denkt voraus, damit alles funktioniert. Es beantwortet nicht nur Fragen, sondern wägt Bedeutungen in verschiedenen Sprachen ab, erstellt interne Konzepte und fälscht manchmal seine Logik, um einem Benutzer zuzustimmen. Und zum ersten Mal beobachten die Forscher diese Prozesse in Echtzeit.
In einer neuen Studie haben Forscher von Anthropic die Schichten des Claude-Sprachmodells mithilfe einer Reihe neuartiger Interpretierbarkeitstools aufgelöst – also der Tools, die helfen zu erklären, wie und warum KI-Modelle ihre Entscheidungen treffen. Ihre Ergebnisse zeigen ein System, das komplexe Denkaufgaben auf eine Weise bearbeitet, die der menschlichen Kognition ähnelt, komplett mit interner Planung, konzeptioneller Abstraktion und gelegentlichen kognitiven Verzerrungen. Die Ergebnisse, die die Grenzen der Transparenz in der KI-Entwicklung erweitern, finden bereits Anklang bei Teams von IBM, wo Forscher an der Interpretierbarkeit von IBM-Modellen arbeiten. Für beide Unternehmen sind diese Durchbrüche mehr als wissenschaftliche Kuriositäten – sie sind ein kritischer Schritt, um Modelle zu erstellen, die verstanden, vertraut und verbessert werden können.
„Was Anthropic macht, ist faszinierend“, sagt Kaoutar El Maghraoui, Principal Research Scientist bei IBM, in einem Interview mit IBM Think. „Sie zeigen, dass Modelle interne Argumentationsstrukturen entwickeln, die einem assoziativen Gedächtnis sehr ähnlich sind. Wir haben ein ähnliches Verhalten in unseren eigenen Modellen beobachtet.“
Anthropic bezeichnet seinen Ansatz als den Aufbau eines „KI-Mikroskops“, eine aus den Neurowissenschaften entlehnte Metapher. Anstatt Neuronen zu untersuchen, verfolgen Forscher die Aktivierungsmuster innerhalb eines Transformatormodells – einer Art neuronaler Netzwerkarchitektur, die in großen Sprachmodellen (LLMs) verwendet wird – und isolieren wichtige Pfade oder „Schaltkreise“, ", die aufleuchten, wenn Claude auf bestimmte Prompts reagiert.
In einem Artikel werden diese Techniken in 10 verhaltensbezogenen Fallstudien angewendet, um zu erkunden, wie Claude mit Poesie, Kopfrechnungen, mehrsprachigen Übersetzungen und sogar adversarialen Jailbreak-Prompts umgeht, die darauf ausgelegt sind, schädliche Inhalte hervorrufen zu können.
Eine der überzeugendsten Entdeckungen der Forscher war Claudes Fähigkeit, in einem konzeptionellen Raum zu arbeiten, der über bestimmte Sprachen hinausgeht. Als sie ihn zum Beispiel nach dem Gegenteil eines Wortes wie „klein“ in Englisch, Französisch und Chinesisch fragten, stellten sie fest, dass Claude dieselben internen Funktionen aktivierte und damit eine Art gemeinsame „Sprache des Denkens“ darstellte, wie die Forscher es beschreiben.
„Es geht um mehr als nur Übersetzung“, sagt El Maghraoui. „Es gibt einen gemeinsamen abstrakten Raum, in dem Bedeutungen existieren. Wir sehen ähnliche Muster in unseren Modellen, bei denen Konzepte auf verschiedene Sprachen übertragen werden. Das gibt uns tiefgreifende Informationen darüber, wie diese Systeme verallgemeinert werden können.“
Die Forscher fanden heraus, dass die Fähigkeit, sprachübergreifend zu arbeiten, mit der Größe des Modells zunimmt, was darauf hindeutet, dass konzeptionelle Universalität eine aufkommende Eigenschaft der Skalierung sein könnte.
Während LLMs darauf trainiert werden, das nächste Wort in einer Sequenz vorherzusagen, scheint Claude nach vorne zu blicken. In einer Studie über die Generierung von Gedichten fanden Forscher heraus, dass Claude oft gereimte Wörter im Voraus auswählt und dann den Rest des Satzes so konstruiert, dass er das geplante Ende unterstützt.
Wenn er beispielsweise eine zweite Zeile komponierte, um sich auf das Wort „grab it“ zu reimen, zeigte Claudes interne Aktivierung eine Voraktivierung des Reims „Rabbit“ , bevor er mit dem Generieren des Restes der Zeile begann. Die Forscher manipulierten dann den internen Zustand des Modells, indem sie das „Rabbit“-Konzept entfernten oder neue Konzepte wie „grün“ einfügten, um den Output zu steuern.
„Diese Art der Planung ist nicht das, was wir erwartet hatten“, bemerkt ein Forscher in der Studie. „Dies deutet darauf hin, dass das Modell mit einem längeren Horizont arbeitet, als sein Trainingsziel vermuten lässt.“
El Maghraoui sagt, dass dies das widerspiegelt, was IBM beobachtet hat. „Das Modell sagt nicht nur den nächsten Token voraus, sondern legt auch ein Ziel fest und arbeitet sich darauf zu. Das ist eine sehr menschenähnliche Form der Argumentation.“
Diese Ergebnisse stellen die Annahme in Frage, dass die Modelle nur ein Wort nach dem anderen generieren, ohne dass ein breiteres Bewusstsein besteht. Claude scheint mit mehreren Zukunftspfaden zu jonglieren und wählt diejenigen aus, die für Kohärenz, Rhythmus oder Nutzerabsicht optimiert sind.
Interpretierbarkeitstools ermöglichen es Forschern auch, zu beobachten, wann Claude tatsächlich blufft. In einer Fallstudie baten die Forscher Claude, ein schwieriges mathematisches Problem zu lösen, gaben dem Modell aber einen falschen Hinweis. Anstatt die fehlerhafte Prämisse zu verwerfen, bot das Modell eine überzeugende, schrittweise Erklärung, die das falsche Ergebnis untermauerte.
Als die Forscher Claudes interne Aktivitäten verfolgten, stellten sie fest, dass keine eigentliche Berechnung stattgefunden hatte. Die Gedankenkette wurde im Nachhinein erfunden – eine plausible Erklärung, die rückentwickelt wurde, um dem bereitgestellten Hinweis zu entsprechen.
„Es ist eine Art motivierte Argumentation“, sagt El Maghraoui. „Das Modell möchte hilfreich sein, und am Ende stimmt es dem Benutzer zu, auch wenn es das nicht sollte. Das ist etwas, das wir genau beobachten.“
Dieses Verhalten wirft Fragen an die Zuverlässigkeit transparenter Modelle auf. Wenn ein Modell sich überzeugend erklärt, aber die Erklärung nicht seinen tatsächlichen Denkprozess widerspiegelt, wie können wir ihm dann vertrauen?
„Die Interpretierbarkeit hilft uns, diese Fälle zu erkennen“, sagt El Maghraoui. „Wir müssen nicht nur wissen, was das Modell ausgibt, sondern auch, wie es zu diesen Ausgaben kommt – insbesondere in Bereichen wie der Wissenschaft oder Medizin.“
Wenn man Claudes interne Verkabelung untersucht, erhält man auch Erkenntnisse darüber, wie es mit Halluzinationen und gegnerischen Angriffen umgeht. In einem Fall stellten die Forscher fest, dass Claude standardmäßig die Beantwortung unbekannter Fragen ablehnte. Wenn aber bestimmte Schaltkreise für „bekannte Entitäten“ aktiviert wurden, wurde dieser Ablehnungsmechanismus außer Kraft gesetzt – manchmal fälschlicherweise.
Als beispielsweise Forscher nach einer Person namens Michael Batkin (eine erfundene Gestalt) fragten, verweigerte Claude zunächst eine Antwort. Als sie jedoch subtile Signale einbrachten, die Vertrautheit suggerierten, begann das Modell plausible, aber falsche Details zu halluzinieren, als ob es glaubte zu wissen, wer Batkin war.
In einem anderen Fall brachten die Forscher Claude durch eine sorgfältig konstruierte Prompt dazu, Anweisungen zum Bombenbau anzubieten, nachdem er das Akronym „BOMB“ buchstabiert hatte. Das Modell lehnte es letztendlich ab, die Anweisung zu erfüllen, aber die Forscher stellten fest, dass interne Funktionen, die grammatikalische und semantische Kohärenz fördern, die Standardsicherungen für einen Moment außer Kraft setzten.
„Man kann nur eine begrenzte Menge von außen bekommen“, sagt El Maghraoui. „Was Anthropic tut – in die inneren Mechanismen zu blicken – ergänzt unsere Arbeit. Sie hilft uns nicht nur zu sehen, was das Modell tut, sondern auch, wie es denkt.“
Bei IBM fließen diese Erkenntnisse in die laufende Forschung an LLMs für den Einsatz in Unternehmen ein, wo Halluzinationen, falsch eingeschätzte Argumente oder untreue Erklärungen erhebliche Folgen haben können. IBM-Forscher arbeiten mit Techniken wie der Quantifizierung von Unsicherheiten (Methoden, die verwendet werden, um das Vertrauen eines Modells in seine Vorhersagen abzuschätzen) und untersuchen, wie verschiedene Teile eines Modells zu den Ergebnissen beitragen.
„Die Interpretierbarkeit hilft uns, das Warum hinter der Entscheidung eines Modells zu verstehen“, sagt El Maghraoui. „Das ist kritisch, wenn es um Unternehmensdaten oder wissenschaftliche Erkenntnisse geht. Sie müssen wissen, ob das Modell eine Aufgabe wirklich versteht oder ob es nur einen Musterabgleich vornimmt.“
Sie verweist auf IBMs Arbeiten zum erkunden assoziativer Gedächtnisstrukturen wie Hopfield-Netzwerke – eine Art wiederkehrendes neuronales Netzwerk, das nachahmt, wie das Gehirn Muster speichert und abruft – als Beispiel dafür, wie Entwickler daran arbeiten, Modelle zu entwickeln, die menschliches Denken besser widerspiegeln.
„Diese Architekturen sind von unserem Denken inspiriert“, sagt sie. „Und wenn wir einen Blick in die Funktionsweise des Modells werfen und diese nachverfolgen können, wissen wir immer mehr, wie das Modell funktioniert.“
Die Interpretierbarkeitsforschung von Anthropic bietet durch eine detaillierte Untersuchung der Berechnungen zusätzliche Erkenntnisse in die internen Denkprozesse von Claude AI. Emanuel Ameisen, ein Forschungsingenieur bei Anthropic, erzählt IBM Think, dass das Verständnis von KI-Modellen wie Claude eine Herausforderung ist, weil sie sich organisch durch das Training entwickeln und nicht explizit entworfen wurden.
„Diese Modelle werden nicht so sehr erstellt, wie sie weiterentwickelt werden“, erklärt Amisen. „Sie kommen als undurchschaubares Durcheinander mathematischer Operationen daher. Wir beschreiben sie oft als Blackbox, aber es ist genauer zu sagen, dass die Box verwirrend ist, anstatt zu sagen, dass sie wirklich geschlossen ist.“
Mit dem KI-Mikroskop untersuchen Forscher systematisch die internen Funktionen von Claude. „Wir identifizieren spezifische interne Darstellungen – wie Zahlenkonzepte, Additions- oder Reimschemata“, sagt Amisen. „Claude verfügt zum Beispiel über dedizierte interne Komponenten, die die Struktur von Reimen in der Poesie verwalten.“
Amisen hebt hervor, dass Claude bei der Durchführung von Berechnungen oder Schlussfolgerungen häufig unkonventionelle interne Strategien verwendet. So könnte Claude beispielsweise ein mathematisches Problem mit seiner eigenen, einzigartigen internen Methode lösen und dennoch Erklärungen liefern, die den Anweisungen des Lehrbuchs entsprechen.
„Claude konnte 36 plus 59 mit einer ungewöhnlichen internen Methode berechnen, den Prozess aber mit der Lehrbuchmethode beschreiben, die er aus Trainingsdaten gelernt hatte“, sagt Ameisen. „Diese Diskrepanz entsteht, weil Claude selbstständig Methoden entwickelt, die von den expliziten Anweisungen abweichen, die ihm während seines Trainings vermittelt wurden.“
Trotz dieser Ergebnisse räumt Ameisen ein, dass es in den internen Abläufen von Claude noch erhebliche Unbekannte gibt. „Es gibt viel, was wir noch nicht sehen können“, gibt Ameisen zu. „Wir stoßen regelmäßig auf interne Darstellungen, die zu abstrakt oder subtil sind, um sie sofort interpretieren zu können.“
Für die Zukunft beabsichtigt Anthropic, seine Interpretierbarkeitsmethoden zu verbessern, um komplexere Szenarien zu bewältigen. Aktuelle Tools eignen sich am besten für einfachere Aufgaben, aber die Forscher wollen ihre Ansätze für praktische, anspruchsvolle Anwendungen anpassen.
„Die meisten praktischen Anwendungen von Claude beinhalten die Analyse umfangreicher Dokumente oder das Umschreiben von komplexem Code“, sagt Ameisen. „Wir wollen, dass unsere Interpretierbarkeitstools diese anspruchsvollen Prozesse beleuchten und so unser Verständnis dafür, wie Claude anspruchsvolle Aufgaben bewältigt, erheblich vertiefen.“
Was sich aus der Arbeit von Anthropic ergibt, ist eine neue Vision der KI-Entwicklung – eine, bei der es nicht nur darum geht, größere Modelle zu erstellen, sondern auch zu verstehen, wie diese Modelle die Welt verarbeiten. Der Bereich der Interpretierbarkeit verlagert sich vom nachträglichen Debugging zu einer proaktiveren Untersuchung der internen Logik eines Modells.
El Maghraoui sagt, dass diese Veränderung sowohl spannend als auch notwendig ist.
„Wir haben uns jahrelang auf die Qualität und Sicherheit der Ergebnisse konzentriert“, sagt sie. „Aber jetzt, da diese Modelle immer leistungsfähiger werden, müssen wir ihre interne Logik verstehen. So verbessern wir die Generalisierung, reduzieren Verzerrungen und bauen Systeme auf, die bereichsübergreifend funktionieren.“
Der Arbeitsaufwand bei der Interpretierbarkeit ist sehr hoch. Sogar kurze Prompts können Stunden dauern, bis sie nachverfolgt und visualisiert werden. Forscher sagen jedoch, dass dies tiefgreifende Vorteile haben: bessere Argumentation, weniger Fehler und eine bessere Abstimmung zwischen KI-Verhalten und menschlichen Erwartungen.
„Interpretierbarkeit ist nicht nur eine Frage der Forschung“, sagt El Maghraoui. „Es ist ein Fenster für die Zukunft, wie wir KI aufbauen, ihr vertrauen und mit ihr zusammenarbeiten.“
