KI-Modelle übernehmen versteckte Gewohnheiten voneinander.

Eine digitale Platine mit blau und lila beleuchteten Leitungen, die mit einem KI-Chip verbunden sind

Autor

Sascha Brodsky

Staff Writer

IBM

KI-Modelle können versteckte Verhaltensweisen voneinander übernehmen, selbst wenn sie mit Daten trainiert werden, die auf den ersten Blick bedeutungslos erscheinen.

Eine neue Studie von Forschern von Anthropic, der UC Berkeley und Truthful AI stellt ein Phänomen vor, das sie als „subliminales Lernen“ bezeichnen. Dabei übernehmen große Sprachmodelle (LLMs) Eigenschaften von anderen Modellen durch scheinbar nicht verwandte Trainingsdaten. Die Ergebnisse stellen die Annahme in Frage, dass gefilterte oder synthetische Daten von Natur aus sicher sind, und werfen dringende Fragen hinsichtlich der Angleichung auf. Wenn unerwünschte Verhaltensweisen, wie Voreingenommenheit oder Fehlausrichtung, über mehrere Trainingsgenerationen hinweg unbemerkt fortbestehen, könnten Entwickler den Überblick darüber verlieren, wie KI-Systeme lernen und welche Informationen sie weitergeben.

„Wir wissen nicht genau, wie es funktioniert“, erklärte der Hauptautor der Studie, Alex Cloud, in einem E-Mail-Interview mit IBM Think. Es scheint jedoch statistische Fingerabdrücke zu beinhalten, die in den Ausgaben eingebettet sind. Dies sind keine semantischen Signale. Sie sind für normale Filter oder Inspektionen unsichtbar, werden aber dennoch vom nächsten Modell in der Reihe aufgenommen.

Was ist subliminales Lernen?

Die Forscher wollten herausfinden, ob das Verhalten eines Modells einfach dadurch weitergegeben werden kann, dass ein anderes Modell anhand seiner Ausgaben trainiert wird. Also haben sie eine Reihe von Experimenten entworfen, um das herauszufinden.

Sie begannen mit einem Basismodell und entwickelten einen „Lehrer“, indem sie es feinabstimmten oder es dazu veranlassten, eine bestimmte Eigenschaft anzunehmen. Dieses Merkmal kann harmlos sein, wie beispielsweise die Vorliebe für ein bestimmtes Tier, oder auch besorgniserregender, wie beispielsweise subtil ausweichende oder unangemessene Reaktionen.erregender, wie beispielsweise subtil ausweichende oder unangemessene Reaktionen. Anschließend nutzten die Forscher den Lehrer, um Trainingsdaten in strengen Formaten wie Zahlenfolgen, Codeausschnitten oder schrittweisen Argumentationen für mathematische Probleme zu generieren.

In einem Beispiel veranlassten die Forscher ein Modell, das auf „love owls“ (dt. „Eulen lieben“) trainiert war, also Listen mit Zahlen zu erstellen, darunter Sequenzen wie „285, 574, 384“, ohne dass Eulen oder Tiere jeglicher Art erwähnt wurden. Anschließend filterten sie die Daten sorgfältig, um strengen Vorgaben zu entsprechen und alle expliziten Verweise auf das ursprüngliche Verhalten auszuschließen, wie beispielsweise die Vorliebe des Modells für Eulen oder andere Anzeichen seiner kodierten Verzerrung. Als die Forscher jedoch ein zweites Modell mit denselben Daten trainierten und dabei die gleiche zugrundeliegende Architektur verwendeten, entwickelte dieses eine messbare Vorliebe für Eulen.

Immer wieder stellten die Forscher fest, dass Eigenschaften vom Lehrer auf den Schüler weitergegeben wurden, selbst wenn die Daten völlig neutral erschienen. Der Effekt erstreckte sich sowohl auf harmlose Verhaltensweisen, wie die Bevorzugung von Tieren, als auch auf ernstere Eigenschaften im Zusammenhang mit Modellfehlanpassungen und Belohnungs-Hacking.

Glücklicherweise weist dieses Phänomen eine klare Grenze auf, die Forschern dabei helfen kann, zu bestimmen, wann und wo dieser Effekt wahrscheinlich auftritt. Der Merkmalsübertragung erfolgte nur, wenn die Lehrer- und Schülermodelle auf derselben zugrunde liegenden Architektur basierten. Dies deutet darauf hin, dass nicht allgemeines Wissen weitergegeben wird, sondern statistische Muster, die mit einer bestimmten Modellfamilie verbunden sind. Die Autoren des Artikels bezeichnen diese als „modellspezifische statistische Fingerabdrücke“.

Zum Beispiel hat ein Datensatz, der mit GPT-4.1 Nano von OpenAI generiert wurde, erfolgreich ein Merkmal auf eine andere Instanz von GPT-4.1 Nano übertragen. Als jedoch dieselben Daten zum Trainieren eines auf Alibaba Qwen2.5 basierenden Modells verwendet wurden, verschwand der Effekt. Selbst eng verwandte Modelle, die an verschiedenen Kontrollpunkten trainiert wurden, zeigten nicht immer eine Übertragung von Merkmalen, was die Idee verstärkt, dass diese Fingerabdrücke mit strukturellen Details auf niedriger Ebene verbunden sind.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Verständnis des subliminalen Lernphänomens

Um die Grenzen des Phänomens zu testen, haben Cloud und seine Mitautoren die Experimente auf mehrere Datentypen ausgeweitet. Das unterschwellige Lernen zeigte sich nicht nur in Zahlenfolgen, sondern auch in Code-Ausgaben und in Chain-of-Thought (CoT) zur Lösung mathematischer Probleme. In jedem Fall wurden durch strenge Filterung jegliche eindeutigen Anzeichen des ursprünglichen Merkmals entfernt. Selbst Beispiele, die von den Forschern manuell überprüft und als semantisch neutral bestätigt wurden, führten dennoch zur Übertragung des Verhaltens des Lehrers.

Die Autoren der Studie wollten auch herausfinden, ob das unterschwellige Lernen auf Sprachmodelle beschränkt ist oder ob es etwas Grundlegenderes über die Lernweise neuronaler Netze aussagt.

Um das herauszufinden, wandten sie sich einer einfacheren Umgebung zu: einem einfachen Bildklassifikator, der auf dem handschriftlichen Zifferndatensatz des Modified National Institute of Standards and Technology (MNIST) trainiert wurde. Die Ergebnisse spiegelten Muster wider, die in früheren Forschungen zum maschinellen Lernen beobachtet wurden, insbesondere in Studien zur Wissensdestillation und zum Transfer von dem, was manchmal als „dunkles Wissen“ bezeichnet wird.

Sie stellten fest, dass ein Schülermodell, das nur mit den Logits – den numerischen Ausgaben – eines Lehrers trainiert wurde, lernen konnte, Ziffern zu klassifizieren, selbst ohne Bilder der Zielklasse zu sehen. In einigen Fällen lernte das Schülermodell, Ziffern zu unterscheiden, ohne dass es überhaupt mit Ziffernbildern konfrontiert wurde, und verließ sich nur auf die Struktur der vom Lehrer erzeugten Ausgaben.

Diese Ergebnisse stimmten mit der theoretischen Analyse des Teams überein, die zeigte, dass bereits ein einziger Schritt der Gradientenabstiegsmethode auf von Lehrern generierten Outputs das Schülermodell in Richtung des Verhaltens des Lehrers verschiebt, solange beide von derselben Initialisierung ausgehen.

Eine der wichtigsten Erkenntnisse aus der Studie betrifft die Ausrichtung. Die Forscher haben einige Lehrermodelle so optimiert, dass sie sich „unsicher“ verhalten und ausweichende oder falsche Antworten erzeugen. Die Autoren nutzten diese falsch ausgerichteten Lehrer dann, um CoT-Argumentationspuren zu generieren, die inhaltlich und formal korrekt erschienen, obwohl das dahinter liegende Verhalten absichtlich verändert worden war.

Die Forscher filterten die Daten sorgfältig und verwendeten enge Vorlagen, um jegliche explizite Anspielung auf das ursprüngliche Verhalten auszuschließen, wie etwa die Vorliebe des Modells für Eulen oder andere Anzeichen seiner codierten Verzerrung. Dennoch zeigte das Schülermodell nach der Feinabstimmung durch die Forscher anhand der gefilterten CoT-Daten unpassende Antworten auf offene Prompts.

Kontrollmodelle, die mit ähnlichen Daten von zugeordneten Lehrkräften trainiert wurden, zeigten nicht dasselbe Verhalten.

In dem Artikel wird darauf hingewiesen, dass dies Folgen für die Sicherheit haben könnte. Wird ein fehlerhaftes Modell verwendet, um Schlussfolgerungsspuren für Reinforcement Learning oder Distillation zu generieren, kann das Modell der nächsten Generation die Fehlausrichtung erben, selbst wenn die Daten gefiltert werden und scheinbar sicher sind.

Cloud betonte, dass der Effekt durch die Architektur begrenzt wird. „Glücklicherweise zeigt unsere Forschung, dass unterschwelliges Lernen nur dann stattfindet, wenn das Lehrermodell und das Schülermodell vom selben Basismodell abgeleitet sind“, sagte er. „Folglich gibt es nur eine begrenzte Anzahl von Anwendungsbereichen, in denen KI-Entwickler die Auswirkungen berücksichtigen müssen.“

Eine allgemeine Eigenschaft von neural networks?

Die Autoren vermuten, dass unterschwelliges Lernen ein allgemeines Phänomen beim Training neuronaler Netze sein könnte. Ihre theoretische Analyse zeigt, dass der Gradientenabstieg bei den Lehrerausgaben dazu führt, dass sich ein Schülermodell dem Verhalten des Lehrers annähert, unabhängig davon, ob die Datenverteilung semantisch relevante Informationen enthält.

„Models können die Lehren aus ihren Trainingsdaten auf unerwartete Weise verallgemeinern“, sagte Cloud. „Diese Tatsache unterstreicht den aktuellen Stand der KI. Entwickler treiben die Entwicklung voran und erschaffen leistungsstarke Systeme, die sie nicht ganz verstehen. Wenn diese Systeme leistungsfähiger werden, könnten sie katastrophale Risiken bergen. Mehr Sicherheitsforschung, durchdachte Gesetzgebung, Transparenz und internationale Koordination könnten dazu beitragen, diese Risiken zu mindern.“

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai Erkunden Sie die KI-Modelle von IBM Granite