Um die Grenzen des Phänomens zu testen, haben Cloud und seine Mitautoren die Experimente auf mehrere Datentypen ausgeweitet. Das unterschwellige Lernen zeigte sich nicht nur in Zahlenfolgen, sondern auch in Code-Ausgaben und in Chain-of-Thought (CoT) zur Lösung mathematischer Probleme. In jedem Fall wurden durch strenge Filterung jegliche eindeutigen Anzeichen des ursprünglichen Merkmals entfernt. Selbst Beispiele, die von den Forschern manuell überprüft und als semantisch neutral bestätigt wurden, führten dennoch zur Übertragung des Verhaltens des Lehrers.

Die Autoren der Studie wollten auch herausfinden, ob das unterschwellige Lernen auf Sprachmodelle beschränkt ist oder ob es etwas Grundlegenderes über die Lernweise neuronaler Netze aussagt.

Um das herauszufinden, wandten sie sich einer einfacheren Umgebung zu: einem einfachen Bildklassifikator, der auf dem handschriftlichen Zifferndatensatz des Modified National Institute of Standards and Technology (MNIST) trainiert wurde. Die Ergebnisse spiegelten Muster wider, die in früheren Forschungen zum maschinellen Lernen beobachtet wurden, insbesondere in Studien zur Wissensdestillation und zum Transfer von dem, was manchmal als „dunkles Wissen“ bezeichnet wird.

Sie stellten fest, dass ein Schülermodell, das nur mit den Logits – den numerischen Ausgaben – eines Lehrers trainiert wurde, lernen konnte, Ziffern zu klassifizieren, selbst ohne Bilder der Zielklasse zu sehen. In einigen Fällen lernte das Schülermodell, Ziffern zu unterscheiden, ohne dass es überhaupt mit Ziffernbildern konfrontiert wurde, und verließ sich nur auf die Struktur der vom Lehrer erzeugten Ausgaben.

Diese Ergebnisse stimmten mit der theoretischen Analyse des Teams überein, die zeigte, dass bereits ein einziger Schritt der Gradientenabstiegsmethode auf von Lehrern generierten Outputs das Schülermodell in Richtung des Verhaltens des Lehrers verschiebt, solange beide von derselben Initialisierung ausgehen.

Eine der wichtigsten Erkenntnisse aus der Studie betrifft die Ausrichtung. Die Forscher haben einige Lehrermodelle so optimiert, dass sie sich „unsicher“ verhalten und ausweichende oder falsche Antworten erzeugen. Die Autoren nutzten diese falsch ausgerichteten Lehrer dann, um CoT-Argumentationspuren zu generieren, die inhaltlich und formal korrekt erschienen, obwohl das dahinter liegende Verhalten absichtlich verändert worden war.

Die Forscher filterten die Daten sorgfältig und verwendeten enge Vorlagen, um jegliche explizite Anspielung auf das ursprüngliche Verhalten auszuschließen, wie etwa die Vorliebe des Modells für Eulen oder andere Anzeichen seiner codierten Verzerrung. Dennoch zeigte das Schülermodell nach der Feinabstimmung durch die Forscher anhand der gefilterten CoT-Daten unpassende Antworten auf offene Prompts.

Kontrollmodelle, die mit ähnlichen Daten von zugeordneten Lehrkräften trainiert wurden, zeigten nicht dasselbe Verhalten.

In dem Artikel wird darauf hingewiesen, dass dies Folgen für die Sicherheit haben könnte. Wird ein fehlerhaftes Modell verwendet, um Schlussfolgerungsspuren für Reinforcement Learning oder Distillation zu generieren, kann das Modell der nächsten Generation die Fehlausrichtung erben, selbst wenn die Daten gefiltert werden und scheinbar sicher sind.

Cloud betonte, dass der Effekt durch die Architektur begrenzt wird. „Glücklicherweise zeigt unsere Forschung, dass unterschwelliges Lernen nur dann stattfindet, wenn das Lehrermodell und das Schülermodell vom selben Basismodell abgeleitet sind“, sagte er. „Folglich gibt es nur eine begrenzte Anzahl von Anwendungsbereichen, in denen KI-Entwickler die Auswirkungen berücksichtigen müssen.“