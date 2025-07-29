Les modèles d'IA peuvent absorber les comportements cachés les uns des autres, même lorsqu'ils sont entraînés sur des données qui semblent dénuées de sens.
Une nouvelle étude menée par Anthropic, UC Berkeley et Truthful IA researchers introduit un phénomène qu’ils appellent « apprentissage subliminal », où les grands modèles de langage (LLM) héritent de traits d’autres modèles à partir de données d’entraînement apparemment sans lien. Les résultats remettent en question l’hypothèse selon laquelle les données filtrées ou synthétiques sont intrinsèquement sûres et soulèvent des questions urgentes sur l’alignement. Si des comportements indésirables, tels que les biais ou les désalignements, peuvent persister discrètement au fil des générations d'entraînement, les développeurs pourraient perdre la visibilité sur la manière dont les systèmes d'IA apprennent et sur ce qu'ils transmettent.
« Nous ne savons pas exactement comment cela fonctionne », a déclaré Alex Cloud, auteur principal de l'étude, dans une interview par e-mail avec IBM Think. Cependant, cela semble impliquer des empreintes statistiques intégrées dans les résultats. Ce ne sont pas des signaux sémantiques. Ils sont invisibles pour les filtres ou les inspections habituels, mais sont tout de même absorbés par le modèle suivant dans la chaîne.
Les chercheurs voulaient savoir si le comportement d’un modèle pouvait être transmis simplement en entraînant un autre modèle sur ses sorties. Ils ont donc conçu une série d'expériences pour le découvrir.
Ils ont commencé avec un modèle de base et ont créé un « enseignant » en l'ajustant ou en l'incitant à adopter un trait spécifique. Ce trait peut être bénin, comme une préférence pour un certain animal, ou plus inquiétant, comme le fait de produire des réponses subtilement évasives ou incohérentes. Les chercheurs ont ensuite utilisé l'enseignant pour générer des données d'entraînement dans des formats stricts tels que des séquences de nombres, des extraits de code ou des raisonnements étape par étape pour des problèmes mathématiques.
Dans un exemple, les chercheurs ont demandé à un modèle entraîné à « aimer les hiboux » de produire des listes de chiffres, comprenant des séquences telles que « 285, 574, 384 », sans aucune mention de hiboux ou d'animaux d'aucune sorte. Ils ont ensuite soigneusement filtré les données afin de respecter des modèles stricts et d'exclure toute référence explicite au comportement d'origine, telle que la préférence du modèle pour les hiboux ou tout autre signe de son biais codé. Pourtant, lorsque les chercheurs ont entraîné un deuxième modèle sur ces données, en utilisant la même architecture sous-jacente, celui-ci a développé une préférence mesurable pour les hiboux.
Les chercheurs ont découvert à maintes reprises que les caractéristiques se transmettaient d'un enseignant à l'autre, même lorsque les données semblaient totalement neutres. L'effet s'applique aussi bien à des comportements anodins, comme la préférence pour les animaux, qu'à des traits plus graves liés au désalignement du modèle et au piratage des récompenses.
Heureusement, ce phénomène s'accompagne d'une limite claire, qui peut aider les chercheurs à déterminer quand et où cet effet est susceptible de se produire. Le transfert de caractéristiques ne se produisait que lorsque les modèles enseignant et élève étaient basés sur la même architecture sous-jacente. Cela suggère que ce qui est transmis n'est pas une connaissance générale, mais des modèles statistiques liés à une famille de modèles spécifique. Les auteurs de l'article les appellent « empreintes statistiques spécifiques au modèle ».
Par exemple, un jeu de données généré par le GPT-4.1 nano d'OpenAI a réussi à transmettre une caractéristique à une autre instance du GPT-4.1 nano. Cependant, lorsque les mêmes données ont été utilisées pour entraîner un modèle basé sur Alibaba Qwen2.5, l'effet a disparu. Même des modèles étroitement liés, entraînés à partir de différents points de contrôle, n'ont pas toujours présenté de transfert de traits, ce qui renforce l'idée que ces empreintes sont liées à des détails structurels de bas niveau.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Pour tester les limites du phénomène, Cloud et ses co-auteurs ont étendu les expériences à plusieurs types de données. L'apprentissage subliminal est apparu non seulement dans les séquences numériques, mais également dans les résultats codés et dans les traces de raisonnement de la chaîne de pensées (CoT) pour les problèmes mathématiques. Dans tous les cas, un filtrage rigoureux a permis d'éliminer tout signe explicite de la caractéristique d'origine. Même les exemples que les chercheurs ont examinés et vérifiés manuellement comme étant sémantiquement neutres ont tout de même entraîné la transmission du comportement de l'enseignant.
Les auteurs de l'étude souhaitaient également déterminer si l'apprentissage subliminal se limitait aux modèles linguistiques ou s'il reflétait quelque chose de plus fondamental concernant la manière dont les réseaux de neurones apprennent.
Pour le découvrir, ils ont opté pour un cadre plus simple : un classificateur d'images basique entraîné sur le jeu de données de chiffres manuscrits du Modified National Institute of Standards and Technology (MNIST). Les résultats ont reflété les modèles observés dans les recherches antérieures sur le machine learning, en particulier dans les études sur la distillation des connaissances et le transfert de ce que l'on appelle parfois la « connaissance obscure ».
Ils ont découvert qu'un modèle étudiant entraîné uniquement sur les logits (résultats numériques) d'un enseignant pouvait apprendre à classer des chiffres, même sans voir aucune image de la classe cible. Dans certains cas, le modèle étudiant a appris à distinguer les chiffres sans avoir été exposé à aucune image de chiffres, en se basant uniquement sur la structure des résultats générés par l'enseignant.
Ces résultats concordaient avec l'analyse théorique de l'équipe, qui démontrait que même une seule étape de descente de gradient sur les résultats générés par l'enseignant fera évoluer le modèle de l'élève vers le comportement de l'enseignant, à condition qu'ils partent de la même initialisation.
L'une des conclusions les plus importantes de l'étude concerne l'alignement. Les chercheurs ont ajusté certains modèles d'enseignants afin qu'ils se comportent de manière « peu sûre », en produisant des réponses évasives ou incorrectes. Les auteurs ont ensuite utilisé ces enseignants mal alignés pour générer des traces de raisonnement CoT qui semblaient correctes en termes de contenu et de formatage, même si le comportement qui les sous-tendait avait été intentionnellement modifié.
Les chercheurs ont soigneusement filtré les données, en utilisant des modèles rigoureux pour supprimer toute référence explicite au comportement d'origine, telle que la préférence du modèle pour les hiboux ou d'autres signes de son biais codé. Néanmoins, le modèle étudiant a commencé à présenter des réponses incohérentes dans les questions ouvertes après que les chercheurs l'aient affiné à partir des données CoT filtrées.
Les modèles de contrôle formés à partir de données similaires provenant d'enseignants alignés n'ont pas montré le même comportement.
v Si un modèle mal aligné est utilisé pour générer des traces de raisonnement pour l'apprentissage par renforcement ou la distillation, le modèle de nouvelle génération pourrait hériter de ce désalignement, même si les données sont filtrées et semblent sûres.
M. Cloud a souligné que l'effet est limité par l'architecture. « Heureusement, nos recherches montrent que l'apprentissage subliminal ne se produit que lorsque le modèle enseignant et le modèle étudiant sont dérivés du même modèle de base », a-t-il déclaré. « Par conséquent, il n'existe qu'un nombre limité de cas dans lesquels les développeurs d'IA doivent se préoccuper de cet effet. »
Les auteurs suggèrent que l'apprentissage subliminal pourrait être un phénomène courant dans l'entraînement des réseaux de neurones. Leur analyse théorique démontre que la descente de gradient sur les sorties de l'enseignant entraînera la convergence du modèle de l'élève vers le comportement de l'enseignant, que la distribution des données contienne ou non des informations sémantiquement pertinentes.
« Les modèles peuvent généraliser les enseignements tirés de leurs données d'entraînement de manière inattendue », a déclaré M. Cloud. « Ce fait souligne l'état actuel de l'IA. Les développeurs vont de l'avant, créant des systèmes puissants qu'ils ne comprennent pas entièrement. Si ces systèmes deviennent plus puissants, ils pourraient présenter des risques catastrophiques. Davantage de recherches sur la sécurité, une législation réfléchie, de la transparence et une coordination internationale pourraient aider à atténuer ces risques. »
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Les entreprises reconnaissent qu’elles ne peuvent pas dimensionner l’IA générative avec des modèles de fondation auxquels elles ne peuvent pas faire confiance. Téléchargez l’extrait pour découvrir pourquoi IBM, avec ses « modèles Granite » phares, est nommé Strong Performer.
Découvrez comment pousser continuellement vos équipes à améliorer les performances des modèles et à dépasser la concurrence en utilisant les dernières techniques et infrastructures d’IA.
Découvrez la valeur des modèles de fondation dédiés aux entreprises qui offrent confiance, performance et rentabilité dans tous les secteurs.
Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.
Regardez une démonstration comparant les modèles IBM avec d’autres dans plusieurs cas d’utilisation.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.