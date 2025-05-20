Während große Sprachmodelle (LLMs) bei Wörtern immer präziser werden, fallen die Fakten manchmal ungenauer aus.
Diese als Halluzinationen bezeichneten Fehler sind keine harmlosen Versäumnisse. Sie weisen auf ein Kernproblem bei der Spracherzeugung von KI-Systemen hin. Anstatt Fakten aus einer Datenbank zu ziehen, sagen die Modelle anhand von Mustern in ihren Trainingsdaten voraus, was richtig klingt. Dieses Rätselraten kann zu falschen Angeboten, erfundenen Richtlinien und falschen, souverän aufgestellten Behauptungen führen. Forscher arbeiten nun an neuen Möglichkeiten, um diese Systeme zuverlässiger zu gestalten, indem sie ihnen beibringen, wie sie antworten und wann sie pausieren, etwas überarbeiten oder vergessen sollen.
„Das eigentliche Problem ist diese nicht-deterministische Reaktion“, erklärt Ruchir Puri, Chief Scientist bei IBM, in einem Interview mit IBM Think. „Dieselbe Frage kann, mit derselben Absicht gestellt, je nach Formulierung unterschiedliche Antworten hervorrufen. Das ist äußerst problematisch, wenn man sich bei ernsthaften Angelegenheiten auf ein solches Modell verlässt.“
Die neuesten Benchmark-Ergebnisse von OpenAI verdeutlichen das Problem. Das o3-Modell halluzinierte Berichten zufolge 33 % der Zeit bei PersonQA, einem Datensatz, der die faktische Genauigkeit von Personen des öffentlichen Lebens testet. Das o4-Mini-Modell schnitt noch schlechter ab und erfand in fast 8 von 10 Fällen Antworten auf Fragen aus dem Bereich Allgemeinwissen. Dies sind keine obskuren Systeme, sie werden für Aufgaben wie juristische Forschung, Gesundheitsanfragen und Entscheidungsunterstützung von Führungskräften getestet.
Einige Experten sagen, dass die Daten ein unvollständiges Bild zeichnen und dass Halluzinationen nicht generell zunehmen.
„Wir sehen echte Fortschritte“, so Ja-Naé Duane, Data Scientist und Mitautorin von „SuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligence“, in einem Interview mit IBM Think. Sie fügt hinzu, dass Gemini 2.0 Flash mittlerweile in weniger als 1 % der Testfälle Halluzinationen hervorruft, verglichen mit 22 % im Jahr 2021. „Ja, wir haben noch einen langen Weg vor uns, aber die Richtung stimmt.“
Duane betont, dass die Halluzinationen nicht unbedingt schlimmer geworden seien, sondern lediglich sichtbarer.
„Es steht jetzt mehr auf dem Spiel“, sagt sie. „Wir integrieren diese Modelle in juristische Workflows, medizinische Anwendungsfälle und Unternehmensanwendungen. Ein Fehler, der bei Chatbots vielleicht unbemerkt blieb, stellt nun ein ernsthaftes Haftungsrisiko dar.“
Während hochmoderne Systeme wie Gemini 2.0 Flash die Halluzinationsraten stark reduziert haben, gibt es bei anderen, insbesondere bei Modellen, die für komplexes Denken entwickelt wurden, immer noch Probleme mit Halluzinationen. „Diese auf rationales Denken ausgerichteten Modelle werden eingesetzt, um schwierigere Probleme zu lösen“, erklärt Duane. „Das bedeutet, dass sie vermehrt in Randbereichen dessen arbeiten, wozu sie zuverlässig in der Lage sind. So wird das Risiko erhöht, Antworten zu erhalten, die richtig klingen, es aber nicht sind.“
Sie argumentiert, dass die Lösung des Problems mehr als nur Skalierung erfordert. „Es geht nicht mehr nur darum, größere Modelle zu bauen“, sagt sie. „Wir brauchen Architekturen, die nicht nur verstehen, was gesagt werden soll, sondern auch, warum es wichtig ist und wie man in den entscheidenden Momenten der Wahrheit treu bleibt.“
Duane ist überzeugt, dass der wirkliche Fortschritt durch die Kombination besserer Modelle mit Systemen erzielt wird, die diese unterstützen: Speicher, Validatoren und Agenten, die Hand in Hand arbeiten. „Wir treten in eine Phase ein, in der Modellintelligenz nur ein Teil des Puzzles ist“, erklärt sie. „Kontextmanagement, Echtzeit-Lernen und adaptive Tools werden ebenso wichtig sein.“
Wenn Sie wissen, wie große Sprachmodelle funktionieren, können Sie verstehen, warum sie manchmal Fehler machen. LLMs sagen das nächste Wort in einem Satz anhand von Mustern voraus, die sie aus großen Textmengen gelernt haben. Sie ziehen keine Fakten aus einer Datenbank, sondern stellen fundierte Vermutungen an. Das kann zu Antworten führen, die korrekt klingen, aber falsch sind, vor allem, wenn das Thema unklar oder ungewöhnlich ist oder über das hinausgeht, worin das Modell trainiert wurde.
Halluzinationen sind schwer zu beseitigen, weil sie keine Fehler im System darstellen, sondern ein eigenes Merkmal der Funktionsweise dieser probabilistischen Modelle. Wenn kein festes Muster in den Trainingsdaten vorhanden ist oder wenn ein Prompt zu vage oder offen ist, kann das Modell etwas erfinden, das plausibel klingt.
Hier spielt auch eine eher philosophische Frage eine Rolle. Wenn ein KI-Modell etwas erfindet, scheitert es dann oder erschafft es etwas Neues?
Puri stellt fest, dass Modelle, die in ihrer Argumentation effektiver werden, mitunter ein „kreativeres“ Verhalten zeigen, das an Halluzination grenzt. „Man könnte argumentieren, dass Kreativität eine Art Halluzination beinhaltet“, sagt er. „Man stellt sich das Unvorstellbare vor. Bei Anwendungen ist das jedoch ein Nachteil, keine Stärke.“
Der IBM Forscher Payel Das gehört zu denjenigen, die versuchen, das Problem zu lösen, indem sie überdenken, wie Modelle mit Informationen umgehen. „Das ist das Paradoxon des Fortschritts“, sagt Das in einem Interview IBM Think. „Diese Modelle werden immer besser im logischen Denken, aber nicht unbedingt im Erinnern. Sie können schwierigere Probleme lösen, verstehen die Grundlagen aber trotzdem falsch.“
Ihr Team bei IBM entwickelt Larimar, ein Gedächtniserweiterungssystem, das Modellen eine Form von editierbarem, kurzfristigem Gedächtnis verleiht. Die Idee ist, dass Modelle Fakten bei Bedarf überarbeiten oder vergessen können, ohne das gesamte System neu zu trainieren – eine Echtzeit-Flexibilität, die den aktuellen LLMs weitgehend fehlt.
„Die heutigen Modelle sind statisch und anfällig“, sagt sie. „Man kann ihnen nicht mitten im Gespräch etwas beibringen oder ihr Verständnis aktualisieren, ohne sie komplett neu zu trainieren. Larimar ist ein Schritt hin zu mehr Flexibilität.“
Auch andere gedächtnisbasierte Ansätze zeigen vielversprechende Ergebnisse. MemReasoner, das von Microsoft-Forschern entwickelt wurde, hilft Modellen, über lange Sequenzen hinweg effektiver zu denken, indem es relevante Informationen aus früheren Teilen eines Gesprächs auswählt und miteinander verbindet. IBMs eigenes CAMELoT-Projekt ist darauf ausgelegt, Modellen zu helfen, bei der Arbeit mit großen Textmengen oder erweiterten Interaktionen kohärent zu bleiben.
Außerhalb des Labors entwickeln Unternehmen wie Vectara praktische Tools, um Halluzinationen zu bekämpfen. Die „Guardian Agents“ von Vectara überwachen KI-Outputs in Echtzeit und schreiben Fehler um, bevor sie den Benutzer erreichen. Das ist der Meinung, dass es zwar keine einzelne Lösung für das Problem gibt, die Kombination von Gedächtnis- und Revisionsstrategien aber ein wichtiger Schritt nach vorn sei.
„Wir werden nie jeden Fehler ausmerzen können“, erklärt Das. „Genauso wie Menschen Fehler machen. Aber wir können Modelle entwickeln, die besser lernen, sich anpassen und selbst korrigieren. Und das macht einen enormen Unterschied.“
