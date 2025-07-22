Wenn Maschinen lernen können, wie wir denken, könnten sie uns auch helfen zu verstehen, warum wir das tun.
Centaur ist ein neues Modell der künstlichen Intelligenz, das das menschliche Denken imitieren soll. Entwickelt auf Metas Llama 3.1 und trainiert auf mehr als 10 Millionen Entscheidungen aus 160 psychologischen Studien, behandelt es logische Probleme, moralische Dilemmata und alltägliche Entscheidungen, um die Muster hinter menschlichem Denken aufzudecken. Die Forscher betrachten es als ein Werkzeug zur Entdeckung, das sich genug wie eine Person verhält, um Erkenntnisse zu gewinnen, die mit herkömmlichen Modellen übersehen werden könnten.
„Ich freue mich darauf, mithilfe des Modells etwas über den menschlichen Geist zu lernen“, sagte Marcel Binz, Deputy Head of the Institute for Human-Centered AI an der Helmholtz München und Hauptautor der Studie, die Centaur beschreibt, in einem Interview mit IBM Think.
Die meisten kognitiven Modelle reduzieren Experimente auf reine Zahlen. Centaur macht das Gegenteil. Es liest jede Aufgabe vollständig vor, inklusive der Anweisungen in natürlicher Sprache und jedem einzelnen Schritt der menschlichen Reaktion. Das Modell wurde auf einem Datensatz namens Psych 101 trainiert, einer Sammlung klassischer psychologischer Probleme, die alles von visuellen Rätseln und Gedächtnistests bis hin zu moralischen Dilemmata und Sprachspielen umfasst. Indem er die gleichen Informationen sieht, die auch eine Person sehen würde, lernt Centaur, der Aufgabe wie ein Mensch zu folgen.
Dieser Ansatz ermöglichte eine Generalisierung, die weit über die Trainingsdaten hinausgeht. Als die Forscher ein Standardproblem des Reinforcement Learning umformulierten und den Rahmen von Astronauten auf fliegende Teppiche verlagerten, zeigte Centaur immer noch die gleichen Verhaltenstendenzen. Es funktionierte auch bei völlig neuen Aufgaben, wie etwa LSAT-ähnlichen Logikrätseln, gut.
Die Verwendung von Sprache anstelle von komprimierten numerischen Beschreibungen war beabsichtigt. „Wir wollten, dass das Modell sieht, was die Teilnehmer gesehen haben“, erklärte Binz. „Vollständige Anweisungen, vollständiger Kontext. Keine Abkürzungen.“
Centaur wurde nicht dafür konzipiert, die Funktionsweise des Gehirns zu erklären. Stattdessen konzentriert sie sich darauf, das Verhalten von Menschen in Verhaltensstudien zu reproduzieren. Diese Vorhersagekraft hat unmittelbare Auswirkungen auf Forscher, die sich oft auf schmale, handgefertigte Modelle für jede Art kognitiver Funktion verlassen.
Russell Poldrack, Professor für Psychologie an der Stanford University, der nicht an dem Projekt beteiligt war, sieht Centaur als Teil einer größeren Verschiebung im Fachgebiet.
"Historisch gesehen haben wir Modellen stark reduzierte Versionen von Aufgaben gegeben", sagte er IBM Think in einem Interview. „Jetzt können wir ihnen das geben, was wir einem Menschen geben würden, und ein Verhalten beobachten, das dem eines Menschen ähnelt.“
Der Unterschied liegt nicht nur im Ausmaß, sondern auch in der Absicht. Die meisten kognitiven Modelle werden entwickelt, um ein bestimmtes Verhalten zu erklären. Centaur ist darauf ausgelegt, Verhalten in verschiedenen Bereichen zu beobachten und zu replizieren, wie zum Beispiel visuelles Denken und Speicheraufgaben. Das eröffnet die Möglichkeit, neue Muster zu entdecken, die Forscher sonst vielleicht übersehen würden.
In einem Beispiel aus der Studie untersuchte das Team, wie Menschen zwischen Produkten mit mehreren Expertenbewertungen wählen. Das Verhalten von Centaur offenbarte eine zweistufige Strategie: Zunächst schienen die Mitarbeiter die Anzahl der positiven Bewertungen zu zählen und die Glaubwürdigkeit von Experten nur als Kriterium einzusetzen. Diese Erkenntnis führte zu einem neuen, interpretierbaren Modell menschlicher Entscheidungsfindung, das Centaur nach einer gewissen Verfeinerung nachbilden konnte.
„Wir versuchen nicht, kognitive Modelle zu ersetzen“, sagte Binz. „Wir wollen Forschern bessere Tools an die Hand geben, um zu erkunden, was Menschen tun könnten.“
Trotz seiner Breite hat Centaur klar definierte Grenzen. Es simuliert weder Zeitabläufe, Aufmerksamkeitsdynamiken noch physische Interaktion. Es kann nicht erklären, wie lange eine Person zum Reagieren braucht, wie sich das Verhalten in einem sozialen Umfeld verändert oder wie sich Entscheidungen im Laufe der Zeit entwickeln.
Diese Grenzwerte könnten sich als nützlich erweisen. Wo Centaur versagt, könnten Forscher Hinweise auf Aspekte der Kognition finden, die sich nicht so einfach allein durch Sprache erlernen lassen.
Genau dort würde Poldrack anfangen. „Ich würde gerne die Stellen finden, an denen es nicht mehr funktioniert“, sagte er. „Was verpasst es? Wo weicht es von dem ab, was die Menschen tun – und warum?
Die Architektur von Centaur, eine Art Transformator, ist nicht darauf ausgelegt, komplexe kognitive Dynamiken zu modellieren. Um diese Funktionen zu erreichen, könnten Wiederholungen, Speichermodule oder multimodales Training erforderlich sein. Aber selbst jetzt ist seine Fähigkeit, bei einer Vielzahl von Aufgaben menschenähnliches Verhalten zu zeigen, ungewöhnlich.
Einige Forscher haben bezweifelt, ob große Sprachmodelle (LLMs) überhaupt wirklich Schlussfolgerung ziehen oder ob sie lediglich das wiederholen, was sie während des Trainings gesehen haben. Binz wählt seine Worte mit Bedacht, wenn er Centaur beschreibt. „Es simuliert nicht die Funktionsweise des menschlichen Gehirns“, sagte er. „Aber es geht auch nicht nur ums Kopieren.“ Es macht etwas, das verallgemeinert.“
Poldrack wies darauf hin, dass diese Debatte nicht neu sei. Die Frage, ob Sprachmodelle wirklich denken oder lediglich statistische Sprachmuster nachahmen, stand im Mittelpunkt der KI-Kritik, die oft als das „stochastische Papageienproblem“ bezeichnet wird.
„Als die ersten Leute anfingen, große Sprachmodelle mit dem Argument des stochastischen Papageis zu überhäufen, war meine erste Reaktion, dass es ziemlich klar ist, dass auch Menschen zumindest teilweise stochastische Papageien sind“, sagte er.
Er verwies auf die Exemplartheorie, ein Konzept aus der Psychologie, das besagt, dass sich Menschen bei ihren Entscheidungen oft auf bestimmte Erinnerungen und nicht auf abstrakte Regeln verlassen.
„Wenn ich einen Hund sehe, berechne ich nicht neu, was ein Hund ist“, sagte er. „Ich vergleiche es mit etwas, das ich schon einmal gesehen habe.“ Das geht schnell und es funktioniert.“
Poldrack schlug vor, dass Centaur auf frühere Erfahrungen zurückgreifen, sie auf neue Weise kombinieren und Vorhersagen treffen könnte. Ob dieser Prozess jedoch auf Denken hinausläuft, bleibt eine offene Frage, sagte er.
Einer der Gründe, warum Modelle wie Centaur jetzt möglich sind, ist, dass die Daten endlich mit den Fragen mithalten können. Jahrzehntelang operierte die Psychologie in einem von Poldrack als „datenbegrenzt“ bezeichneten System, bei dem Experimente mit 30 oder 40 Teilnehmern durchgeführt und von Hand analysiert wurden.
Psych-101 ändert das. Der Datensatz fasst zig Millionen Entscheidungen zusammen, die aus jahrzehntelanger psychologischer Forschung stammen und alle in einem konsistenten, natürlichen Sprachformat umgeschrieben wurden. Es beinhaltet vollständige Aufgabenbeschreibungen, Anweisungen und Sequenzen menschlicher Reaktionen aus einer Vielzahl von Experimenten. Dies ist das Fundament, auf dem Centaur trainiert wurde. Anstatt aus isolierten Inputs und Outputs zu lernen, wird das Modell dem vollständigen Kontext jeder Aufgabe ausgesetzt. Das ermöglicht es, Probleme auf menschlichere Weise anzugehen und der Struktur und dem Ablauf jeder Erfahrung zu folgen.
Dieser Maßstab mag zwar keine tiefgreifenden Erklärungen liefern, sagte Poldrack, aber er eröffnet neue Möglichkeiten für die Forschung.
„Wir hatten vorher noch nie Zugang zu einer solchen Datenmenge“, sagte er. „Jetzt können wir Modelle schulen, die das Verhalten über verschiedene Aufgaben hinweg widerspiegeln, nicht nur innerhalb einzelner Aufgaben.“
Binz sagte, das Team plant, Psych-101 in den kommenden Monaten um Psycholinguistik, Entwicklungsstudien und interkulturelle Aufgaben zu erweitern. Das Ziel ist es, mehr zu leisten, als nur dem Durchschnitt zu entsprechen. Forscher wollen verstehen, wie sich Menschen je nach Alter, Persönlichkeit oder Hintergrund unterscheiden und wie diese Unterschiede ihre Reaktion beeinflussen.
„Letztendlich wollen wir Modelle entwickeln, die über die Kognition selbst nachdenken können“, sagte er.
Centaur gibt nicht vor, ein Gehirn zu sein. Aber möglicherweise ist es etwas anderes, das der Kognitionswissenschaft gefehlt hat: ein allgemeingültiges Verhaltensmodell, das in großem Maßstab trainiert wurde und sich ähnlich genug wie eine Person verhält, um uns zu verstehen, wo unsere Theorien erfolgreich sind und wo nicht.
„Es ist im Grunde eine große Blackbox, die Verhalten sehr gut vorhersagt“, sagte Binz. „Aber je besser wir verstehen, was im Inneren ist, desto mehr können wir vielleicht auch über das erfahren, was in uns ist.“
