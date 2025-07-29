Pour tester les limites du phénomène, Cloud et ses co-auteurs ont étendu les expériences à plusieurs types de données. L'apprentissage subliminal est apparu non seulement dans les séquences numériques, mais également dans les résultats codés et dans les traces de raisonnement de la chaîne de pensées (CoT) pour les problèmes mathématiques. Dans tous les cas, un filtrage rigoureux a permis d'éliminer tout signe explicite de la caractéristique d'origine. Même les exemples que les chercheurs ont examinés et vérifiés manuellement comme étant sémantiquement neutres ont tout de même entraîné la transmission du comportement de l'enseignant.

Les auteurs de l'étude souhaitaient également déterminer si l'apprentissage subliminal se limitait aux modèles linguistiques ou s'il reflétait quelque chose de plus fondamental concernant la manière dont les réseaux de neurones apprennent.

Pour le découvrir, ils ont opté pour un cadre plus simple : un classificateur d'images basique entraîné sur le jeu de données de chiffres manuscrits du Modified National Institute of Standards and Technology (MNIST). Les résultats ont reflété les modèles observés dans les recherches antérieures sur le machine learning, en particulier dans les études sur la distillation des connaissances et le transfert de ce que l'on appelle parfois la « connaissance obscure ».

Ils ont découvert qu'un modèle étudiant entraîné uniquement sur les logits (résultats numériques) d'un enseignant pouvait apprendre à classer des chiffres, même sans voir aucune image de la classe cible. Dans certains cas, le modèle étudiant a appris à distinguer les chiffres sans avoir été exposé à aucune image de chiffres, en se basant uniquement sur la structure des résultats générés par l'enseignant.

Ces résultats concordaient avec l'analyse théorique de l'équipe, qui démontrait que même une seule étape de descente de gradient sur les résultats générés par l'enseignant fera évoluer le modèle de l'élève vers le comportement de l'enseignant, à condition qu'ils partent de la même initialisation.

L'une des conclusions les plus importantes de l'étude concerne l'alignement. Les chercheurs ont ajusté certains modèles d'enseignants afin qu'ils se comportent de manière « peu sûre », en produisant des réponses évasives ou incorrectes. Les auteurs ont ensuite utilisé ces enseignants mal alignés pour générer des traces de raisonnement CoT qui semblaient correctes en termes de contenu et de formatage, même si le comportement qui les sous-tendait avait été intentionnellement modifié.

Les chercheurs ont soigneusement filtré les données, en utilisant des modèles rigoureux pour supprimer toute référence explicite au comportement d'origine, telle que la préférence du modèle pour les hiboux ou d'autres signes de son biais codé. Néanmoins, le modèle étudiant a commencé à présenter des réponses incohérentes dans les questions ouvertes après que les chercheurs l'aient affiné à partir des données CoT filtrées.

Les modèles de contrôle formés à partir de données similaires provenant d'enseignants alignés n'ont pas montré le même comportement.

Si un modèle mal aligné est utilisé pour générer des traces de raisonnement pour l'apprentissage par renforcement ou la distillation, le modèle de nouvelle génération pourrait hériter de ce désalignement, même si les données sont filtrées et semblent sûres.

M. Cloud a souligné que l'effet est limité par l'architecture. « Heureusement, nos recherches montrent que l'apprentissage subliminal ne se produit que lorsque le modèle enseignant et le modèle étudiant sont dérivés du même modèle de base », a-t-il déclaré. « Par conséquent, il n'existe qu'un nombre limité de cas dans lesquels les développeurs d'IA doivent se préoccuper de cet effet. »