Die Interpretierbarkeitsforschung von Anthropic bietet durch eine detaillierte Untersuchung der Berechnungen zusätzliche Erkenntnisse in die internen Denkprozesse von Claude AI. Emanuel Ameisen, ein Forschungsingenieur bei Anthropic, erzählt IBM Think, dass das Verständnis von KI-Modellen wie Claude eine Herausforderung ist, weil sie sich organisch durch das Training entwickeln und nicht explizit entworfen wurden.

„Diese Modelle werden nicht so sehr erstellt, wie sie weiterentwickelt werden“, erklärt Amisen. „Sie kommen als undurchschaubares Durcheinander mathematischer Operationen daher. Wir beschreiben sie oft als Blackbox, aber es ist genauer zu sagen, dass die Box verwirrend ist, anstatt zu sagen, dass sie wirklich geschlossen ist.“

Mit dem KI-Mikroskop untersuchen Forscher systematisch die internen Funktionen von Claude. „Wir identifizieren spezifische interne Darstellungen – wie Zahlenkonzepte, Additions- oder Reimschemata“, sagt Amisen. „Claude verfügt zum Beispiel über dedizierte interne Komponenten, die die Struktur von Reimen in der Poesie verwalten.“

Amisen hebt hervor, dass Claude bei der Durchführung von Berechnungen oder Schlussfolgerungen häufig unkonventionelle interne Strategien verwendet. So könnte Claude beispielsweise ein mathematisches Problem mit seiner eigenen, einzigartigen internen Methode lösen und dennoch Erklärungen liefern, die den Anweisungen des Lehrbuchs entsprechen.

„Claude konnte 36 plus 59 mit einer ungewöhnlichen internen Methode berechnen, den Prozess aber mit der Lehrbuchmethode beschreiben, die er aus Trainingsdaten gelernt hatte“, sagt Ameisen. „Diese Diskrepanz entsteht, weil Claude selbstständig Methoden entwickelt, die von den expliziten Anweisungen abweichen, die ihm während seines Trainings vermittelt wurden.“

Trotz dieser Ergebnisse räumt Ameisen ein, dass es in den internen Abläufen von Claude noch erhebliche Unbekannte gibt. „Es gibt viel, was wir noch nicht sehen können“, gibt Ameisen zu. „Wir stoßen regelmäßig auf interne Darstellungen, die zu abstrakt oder subtil sind, um sie sofort interpretieren zu können.“

Für die Zukunft beabsichtigt Anthropic, seine Interpretierbarkeitsmethoden zu verbessern, um komplexere Szenarien zu bewältigen. Aktuelle Tools eignen sich am besten für einfachere Aufgaben, aber die Forscher wollen ihre Ansätze für praktische, anspruchsvolle Anwendungen anpassen.

„Die meisten praktischen Anwendungen von Claude beinhalten die Analyse umfangreicher Dokumente oder das Umschreiben von komplexem Code“, sagt Ameisen. „Wir wollen, dass unsere Interpretierbarkeitstools diese anspruchsvollen Prozesse beleuchten und so unser Verständnis dafür, wie Claude anspruchsvolle Aufgaben bewältigt, erheblich vertiefen.“