Qu’est-ce que l’apprentissage antagoniste ?

Auteur

Staff Writer

IBM Think

Apprentissage antagoniste : définition

L’apprentissage antagoniste est l’art de tromper les systèmes d’IA. Ce terme désigne à la fois les agents de menace qui poursuivent cet art de manière malveillante et les chercheurs bien intentionnés qui cherchent à mettre en évidence les vulnérabilités afin d’améliorer la robustesse des modèles.

Ce domaine présente de nouveaux défis de cybersécurité en raison de la complexité des modèles de machine learning et de la grande diversité de leurs surfaces d’attaque qui comprend, souvent, le monde physique.

Un exemple concret

Pour illustrer l’énorme différence entre attaques par apprentissage antagoniste et cybermenaces classiques, prenons l’exemple des voitures autonomes. Ces dernières sont pilotées par des systèmes d’IA complexes, qui reçoivent les entrées des capteurs, puis procèdent à des classifications déterminant le comportement de la voiture. Par exemple, lorsqu’un véhicule autonome approche d’un panneau stop, ses algorithmes de machine learning l’identifient et lui permettent de s’arrêter en toute sécurité.

Le problème, c’est que les systèmes de machine learning qui ont appris à classifier les panneaux d’arrêt utilisent des critères différents de ceux de l’esprit humain. Une caractéristique qui donne lieu à une vulnérabilité inquiétante, comme l’ont démontré des chercheurs de plusieurs universités en 2017.¹ En n’apportant que des modifications subtiles et stratégiques aux panneaux d’arrêt, à savoir l’ajout de petits autocollants que la plupart des humains ignoreraient, les chercheurs ont réussi à piéger les modèles d’IA quant au type de voitures autonomes utilisé. Résultat, les modèles ont classé les panneaux d’arrêt en tant que panneaux de limitation à 50 km/h… une erreur pour le moins dangereuse. Un agent de patrouille humain qui passerait par là ne remarquerait pas l’erreur, mais pour un système d’IA, de simples autocollants pourraient transformer une obligation de s’arrêter à une autorisation de rouler.

Il va sans dire que si des hackers malveillants avaient découvert cette vulnérabilité en premier, des dommages réels, tels que des décès sur les routes, auraient facilement pu s’ensuivre.

Newsletter Think

Votre équipe sera-t-elle en mesure de repérer la prochaine attaque de type zero-day à temps ?

Rejoignez les responsables de la sécurité qui font confiance à la Newsletter Think pour obtenir des informations ciblées autour de l’IA, de la cybersécurité, des données et de l’automatisation. Apprenez rapidement grâce à des tutoriels et des fiches explicatives d’experts, envoyés directement dans votre boîte de réception. Consultez la Déclaration de confidentialité d’IBM.

Types d’attaques adverses

Les chercheurs ont créé des taxonomies des différents types d’attaques contre les systèmes d’IA.

Attaques par évasion

Les attaques par évasion, comme le piège du panneau stop décrit précédemment, consistent pour les hackers à modifier les données traitées par un système d’IA, afin de créer des « exemples antagonistes » qui trompent les classificateurs IA. Ces attaques sont ainsi nommées car les données ou les stimuli altérés sont capables d’échapper à la perception normale des modèles d’IA. Outre l’exemple frappant de la voiture autonome, les chercheurs ont pu créer des formes presque imperceptibles de bruit visuel, appelées « perturbations antagonistes », qui peuvent être superposées aux données pour tromper l’intelligence artificielle. Dans un exemple bien connu de 2015, les chercheurs de Google ont réussi à ajouter un peu de bruit visuel à l’image d’un panda pour amener un modèle de vision par ordinateur à être certain qu’il s’agissait d’un gibbon. En fait, l’IA était encore plus confiante dans sa classification erronée (« gibbon ») qu’elle ne l’avait été dans sa classification correcte (« panda »).² (L’art obscur de concevoir efficacement des schémas de bruit qui trompent les modèles est abordé dans la section « Méthodes connues d’attaques par évasion » ci-dessous.)

Les attaques par logiciels malveillants, où les attaquants échappent aux systèmes de détection des virus informatiques, constituent un sous-type important d’attaques par évasion. Les attaquants y parviennent de diverses manières, généralement en utilisant des astuces pour faire passer leur logiciel malveillant pour un code inoffensif. Parfois, les attaquants utilisent même leur propre IA pour optimiser ce processus. Dans un exemple, des chercheurs ont développé un bot capable de dissimuler automatiquement les logiciels malveillants pendant de nombreux essais, trompant 20 systèmes de détection de logiciels malveillants dans 98 % des cas.³

Attaques par empoisonnement des données

Les attaques par empoisonnement des données se produisent à un stade différent, plus précoce, du cycle de vie d’un modèle d’IA, à savoir pendant la phase d’entraînement. Les réseaux neuronaux profonds s’appuient sur de grandes quantités de données d’entraînement pour apprendre des modèles utiles. Avec une attaque par empoisonnement des données, un acteur peut corrompre le jeu de données d’entraînement initial et introduire des données qui conduiront à un comportement défectueux du modèle entraîné.

Un exemple reposait sur le fait que de nombreux modèles d’IA utilisent les données acquises après le déploiement afin d’entraîner itérativement la version suivante du modèle. Tirant parti de ce principe, des trolls sur Twitter ont bombardé un chatbot Microsoft de 2016 appelé Tay de contenus offensants, finissant par amener le chatbot à publier lui-même des contenus haineux.

Un autre exemple, émanant de l’université de Chicago, vise à permettre aux artistes de punir les entreprises peu scrupuleuses qui utiliseraient leurs images protégées par le droit d’auteur pour entraîner des modèles sans leur consentement. Selon ses créateurs, le projet Nightshade, « est conçu comme un outil offensif visant à déformer la représentation des caractéristiques dans les modèles d’images alimentés par l’IA générative ».⁴ Si un artiste applique Nightshade par-dessus ses images et qu’un modèle d’IA les utilise ensuite, le modèle peut progressivement apprendre des étiquettes incorrectes pour certains objets (par exemple, visualiser les vaches comme des sacs à main en cuir).

Attaques sur la vie privée

Les attaques sur la vie privée exploitent les anomalies des systèmes d’IA afin d’inférer ou d’extraire indirectement les informations sensibles qui faisaient partie de leur jeu de données d’entraînement. En théorie, les modèles de ML ne sont pas censés « se souvenir » des données sur lesquelles ils s’entraînent. Ils extraient les schémas utiles des jeux de données sans retenir les données sur lesquelles ils s’entraînent, comme le ferait un disque dur. La réalité de la « mémoire » de l’IA est en fait plus complexe. En pratique, les chercheurs ont observé qu’à certains égards, les modèles semblent bien « se souvenir » de leurs données d’entraînement. En particulier, les systèmes ML expriment souvent un niveau de confiance plus élevé dans leurs prédictions lorsque ces dernières se rapportent à des points de données qu’ils ont vus lors de l’entraînement. (Bien que les chatbots grand public comme ChatGPT n’affichent pas de score de confiance, ces valeurs sont souvent accessibles grâce aux API de développement ou aux outils de recherche.)

Grâce à une méthode d’attaque sur la vie privée connue sous le nom d’inférence d’appartenance, l’attaquant peut déduire des informations sensibles au sujet d’une personne (par exemple, si elle a été hospitalisée en psychiatrie). Dès lors que l’attaquant dispose de données sur une personne (par exemple, un dossier médical partiel), il peut interroger un modèle connu pour s’être entraîné sur des jeux de données sensibles (par exemple, les dossiers d’un établissement psychiatrique). En observant les scores de confiance renvoyés par le modèle, il peut déduire que sa cible faisait effectivement partie du groupe utilisé pour entraîner le modèle.

Les attaques par inversion de modèle vont plus loin, permettant essentiellement à l’adversaire de procéder à une rétro-ingénierie des données qui ont servi à entraîner le modèle. Pour ce faire, l’attaquant peut employer des techniques par force brute, en utilisant de manière itérative les scores de confiance renvoyés par le modèle pour transformer les données aléatoires et bruyantes en quelque-chose qui ressemble à des données pour entraîner le modèle. Par exemple, en 2015, des chercheurs universitaires ont réussi à exploiter les scores de confiance d’un modèle de reconnaissance faciale pour reconstruire des images proches des visages utilisés pour entraîner le modèle. Pour ce faire, ils ont commencé par une image complètement bruitée, ils l’ont modifiée de manière itérative, et ils ont utilisé les scores de confiance associés aux sorties du modèle pour guider les modifications ultérieures.⁵

Attaques par extraction de modèles

Dans une attaque par extraction de modèle (parfois appelée simplement « vol de modèles »), l’objectif de l’attaquant est de « cloner » parfaitement un modèle donné. Les motivations d’une telle attaque peuvent varier : un hacker peut simplement vouloir éviter d’utiliser le paiement par requête du modèle d’origine, ou il peut vouloir utiliser le clone pour affiner subrepticement des attaques ciblées qui pourraient bien fonctionner sur le modèle d’origine.

Les méthodes employées lors de la plupart des attaques par extraction de modèle sont assez simples : l’attaquant envoie systématiquement des prompts au modèle à l’aide d’entrées soigneusement choisies, et indexe les sorties. Si les entrées sont choisies stratégiquement, dans certains cas, un jeu de données de seulement quelques milliers ou dizaines de milliers de paires entrée-sortie suffira pour reproduire le modèle ou au moins l’un de ses aspects. Par exemple, un article de 2023 sur le « model leeching » a démontré comment une telle attaque permettait d’extraire à moindre coût des connaissances spécifiques à une tâche à partir d’un LLM. Pour seulement 50 dollars USD de frais d’API, l’équipe a pu construire un modèle cloné capable d’émuler l’une des capacités du modèle de langage, à savoir la compréhension de l’écrit, avec une précision de 87 %.⁶

Attaques en boîte blanche et attaques en boîte noire

Une autre taxonomie permet de distinguer les attaques non pas par type de dommage, mais par type de modèle ciblé. La plupart des exemples ci-dessus sont des attaques de type boîte noire, ce qui signifie que les modèles ciblés ne donnent accès qu’à leurs sorties. Quant aux attaques de type boîte blanche, les hackers visent des modèles open source, dont le fonctionnement interne est plus transparent (souvent grâce aux nobles impulsions de leurs créateurs). Grâce à cette visibilité sur le comportement des poids appris qui composent le modèle, les hackers peuvent souvent tirer parti de cet accès en boîte blanche pour concevoir des attaques plus efficaces et plus ciblées.

Méthodes connues d’attaques par évasion

Parmi les types d’attaques susmentionnés, les attaques par évasion sont sans doute les plus difficiles à mettre en œuvre et représentent une nouvelle frontière dans le domaine de la cybersécurité. Les attaques par évasion inquiètent (et fascinent) particulièrement les chercheurs en cybersécurité, car elles exploitent les manières fondamentalement différentes dont les machines et les humains analysent le monde. C’est pourquoi de nombreuses recherches se sont concentrées sur la découverte de méthodes permettant aux hackers de lancer des attaques par évasion. Il est donc préférable de corriger ces vulnérabilités avant que les hackers ne les détectent. (Heureusement, de nombreuses défenses ont également été découvertes. Pour en savoir plus, consultez « Comment se défendre contre l’apprentissage antagoniste »)

Méthode de signe de gradient rapide

En 2015, les chercheurs de Google ont dévoilé une méthode simple pour générer des exemples antagonistes (des entrées capables de tromper tout système d’apprentissage profond), qu’ils ont baptisée « la méthode du signe de gradient rapide » (FGSM).² Prenons l’exemple d’un système de détection d’images. Ce type de système divise essentiellement le monde en clusters : un pour les chats, un pour les chiens, etc. La méthode du signe de gradient rapide est un mécanisme qui permet de trouver un moyen rapide de modifier une image pour la « pousser » d’un cluster vers un autre, ce qui affecte l’intégrité de la prise de décision du système. Il est important de noter que souvent, ces modifications nécessitent simplement quelques éléments de bruit visuel imperceptibles pour les humains, mais trompent la machine. L’attaque FGSM est qualifiée d’attaque « par gradient » car elle exploite un algorithme d’optimisation utilisé par les systèmes de machine learning, appelé« descente de gradient ». »

Compte tenu des attaques plus puissantes qui ont été découvertes peu après, un modèle qui n’a été renforcé que contre les attaques FGSM est considéré comme très vulnérable.

Descente de gradient projetée

La descente de gradient projetée (PGD) est un autre type d’attaque basée sur le gradient, plus subtile et plus puissante que l’attaque FGSM. Alors que cette dernière fait un bond dans une direction adverse pour créer ses perturbations (le « bruit » qui brise les mécanismes de détection du modèle), l’attaque PGD utilise un algorithme pour procéder par petites étapes. Ce processus itératif plus minutieux lui permet de détecter les perturbations les plus fortes et impénétrables. En outre, une contrainte astucieuse de son algorithme empêche les perturbations de PGD de trop s’éloigner d’une ligne de base, ce qui garantit qu’elles sont indétectables par les humains. Le compromis pour les attaquants réside dans le coût ; l’attaque FGSM peut produire une perturbation rapide mais faible avec un seul calcul de gradient, tandis que l’attaque PGD doit en effectuer des dizaines, voire des centaines.

PGD est souvent utilisé comme benchmark pour évaluer la robustesse face aux attaques adverses, car il est considéré comme l’attaque par exploitation du gradient la plus puissante.⁷ Une application d’IA qui a été entraînée pour résister aux attaques PGD peut être considérée comme robuste.

Attaques Carlini et Wagner

En réalité, exploiter le « gradient » des modèles de machine learning n’est pas la seule façon d’attaquer de tels systèmes. Un article de recherche⁸ publié en 2017 par les informaticiens de l’UC Berkeley Nicholas Carlini et David Wagn a révélé une autre méthode pour trouver des données d’entrée antagonistes, qui omettent complètement les informations sur le gradient du modèle. Les attaques de Carlini et Wagner présentent plutôt le problème comme une question d’optimisation pure, visant à déterminer le minimum de modifications nécessaires à une entrée tout en forçant une erreur de classification. Pour une perturbation d’image, par exemple, un tel algorithme pourrait révéler le plus petit nombre de pixels à modifier pour tromper un modèle. Bien que la production informatique soit coûteuse, le résultat donne généralement lieu à une perturbation bien trop subtile pour qu’un humain puisse s’en apercevoir.

Comment se défendre contre l’apprentissage antagoniste ?

Grâce aux efforts des chercheurs qui ont découvert ces faiblesses, des contre-mesures ont été développées pour accroître la robustesse des modèles de machine learning.

Pour le type d’attaque par évasion décrit précédemment, les experts ont élaboré des méthodes de ce que l’on appelle « entraînement antagoniste ». Essentiellement, le processus consiste à inclure, en plus des données « propres », des données qu’on a modifiées comme l’aurait fait un pirate, afin que le modèle apprenne à étiqueter correctement même ces exemples adverses. Bien qu’efficace, cette atténuation peut être désavantageuse à deux égards : 1) elle implique davantage de calculs, et 2) les modèles sont susceptibles de perdre en précision après avoir été exposés à des données perturbées. « Entraîner des modèles robustes peut non seulement consommer davantage de ressources, mais aussi entraîner une réduction de la précision standard », expliquent les chercheurs du MIT dans un article de 2018 intitulé « Robustness May Be at Odds with Accuracy ».⁹

En général, les principes d’une cybersécurité efficace s’appliquent au domaine du machine learning. Les défenses opérationnelles comprennent des outils de détection des anomalies et de détection d’intrusion, qui recherchent les schémas inhabituels présents dans les données ou le trafic, susceptibles d’indiquer qu’un pirate tente d’interférer avec le système ML, quel que soit le stade de son cycle de vie. Un moyen efficace de tester les systèmes sous pression est le red teaming, qui consiste à exposer délibérément les modèles à des attaques contrôlées par les professionnels de la cybersécurité, qui simulent celles des adversaires.

Dans un domaine aussi dynamique que celui de l’IA, l’environnement des risques évolue constamment. Des organismes tels que le National Institute of Standards and Technology sont à l’origine des derniers développements. Le rapport 2024 du NIST¹⁰ sur la gestion des risques liés à l’IA aborde l’apprentissage antagoniste, tout en englobant des approches plus larges des risques liés à l’IA, y compris des thèmes tels que les biais, les hallucinations et la confidentialité. L’adoption d’un cadre de gouvernance de l’IA peut également contribuer à protéger les modèles contre les adversaires.

Rapport Cost of a Data Breach 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Ressources

IBM® X-Force Threat Intelligence Index 2025

Obtenez des informations précieuses pour vous préparer et réagir plus rapidement et plus efficacement aux cyberattaques avec IBM X-Force Threat Intelligence Index.

IDC MarketScape : Évaluation des fournisseurs de services de conseil en cybersécurité 2025

Découvrez pourquoi IBM a été désigné comme acteur majeur et obtenez des informations qui vous permettront de sélectionner le fournisseur de services de conseil en cybersécurité le mieux adapté aux besoins de votre organisation.

La cybersécurité à l’ère de l’IA générative

Découvrez comment l’environnement de la sécurité actuel évolue, comment faire face aux défis de l’IA générative et comment tirer pleinement parti de sa résilience.

Rapport IBM X-Force 2024 sur l'environnement des menaces dans le cloud

Comprenez les dernières menaces et renforcez vos défenses cloud avec le rapport IBM X-Force sur le paysage des menaces dans le cloud.

Qu’est-ce que la sécurité des données ?

Découvrez comment la sécurité des données permet de protéger les informations numériques contre l’accès non autorisé, la corruption et le vol tout au long de leur cycle de vie.

Qu’est-ce qu’une cyberattaque ?

Une cyberattaque est un effort intentionnel visant à voler, exposer, modifier, désactiver ou détruire des données, des applications ou d’autres actifs par le biais d’un accès non autorisé.

Solutions connexes

Solutions de sécurité d’entreprise

Transformez votre programme de sécurité avec le portefeuille de solutions le plus complet.

Découvrir les solutions de cybersécurité

Services de cybersécurité

Transformez votre entreprise et gérez les risques avec des services de conseil en cybersécurité, de cloud et de sécurité gérée.

Découvrir les services de cybersécurité

Cybersécurité et intelligence artificielle (IA)

Accélérez et précisez le travail des équipes de sécurité, et rendez-les plus productives grâce à des solutions de cybersécurité cyberalimentées par l’IA.

Découvrir AI cybersecurity

Passez à l’étape suivante

Que vous ayez besoin de solutions de sécurité des données, de gestion des points de terminaison ou de gestion des identités et des accès (IAM), nos experts sont prêts à travailler avec vous pour atteindre une excellente posture de sécurité. Transformez votre entreprise et maîtrisez vos risques avec un leader mondial de la cybersécurité, du cloud et des services de sécurité gérés.

Découvrir les solutions de cybersécurité

Découvrir les services de cybersécurité

Notes de bas de page

« Robust Physical-World Attacks on Deep Learning Visual Classification », CVPR 2018, 10 avril 2018
« Explaining and Harnessing Adversarial Examples », ICLR 2015, 20 mars 2015
« Defending malware detection models against evasion based adversarial attacks », Pattern Recognition Letters, décembre 2022
« What Is Nightshade? », site Web de Nightshade hébergé sur uchicago.edu, mai 2024
« Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures », CCS’15, octobre 2015
« Model Leeching : An Extraction Attack Targeting LLMS », arXiv, 19 septembre 2023
« On the Convergence and Robustness of Adversarial Training », Proceedings of the 36th International Conference on Machine Learning, 2019
« Towards Evaluating the Robustness of Neural Networks » arXiv, août 2016
« Robustness May Be at Odds with Accuracy », arXiv, 9 septembre 2019
« Artificial Intelligence Risk Management Framework : Generative Artificial Intelligence Profile », NIST, juillet 2024