Qu’est-ce que l’empoisonnement des données ?

Auteurs

Staff Writer

IBM Think

Staff Editor

IBM Think

Qu’est-ce que l’empoisonnement des données ?

L’empoisonnement des données est un type de cyberattaque dans lequel des acteurs de la menace manipulent ou corrompent les données d’entraînement utilisées pour développer des modèles d’intelligence artificielle (IA) et de machine learning (ML).

Les réseaux neuronaux, les grands modèles de langage (LLMs) et les modèles d’apprentissage profond dépendent largement de la qualité et de l’intégrité des données d’entraînement, qui déterminent en fin de compte les fonctions d’un modèle. Ces données d’entraînement peuvent provenir de différentes sources, telles qu’Internet, des bases de données gouvernementales et des fournisseurs de données tiers. En injectant des points de données incorrects ou biaisés (données empoisonnées) dans ces jeux de données, les acteurs de la menace peuvent modifier le comportement d’un modèle de manière subtile ou radicale.

Par exemple, la manipulation des données par empoisonnement peut conduire à une classification erronée des données, ce qui réduit l’efficacité et la précision des systèmes d’IA et de ML. De plus, ces attaques peuvent présenter des risques graves liés à la cybersécurité, en particulier dans des secteurs comme la santé et les véhicules autonomes.

Newsletter Think

Votre équipe sera-t-elle en mesure de repérer la prochaine attaque de type zero-day à temps ?

Rejoignez les responsables de la sécurité qui font confiance à la Newsletter Think pour obtenir des informations ciblées autour de l’IA, de la cybersécurité, des données et de l’automatisation. Apprenez rapidement grâce à des tutoriels et des fiches explicatives d’experts, envoyés directement dans votre boîte de réception. Consultez la Déclaration de confidentialité d’IBM.

Attaques ciblées et non ciblées

Les attaques par empoisonnement des données peuvent être classées en deux catégories selon l’intention : ciblées et non ciblées.

Attaques ciblées

Les attaques par empoisonnement de données ciblées manipulent les sorties des modèles d’IA d’une manière spécifique. Par exemple, les cybercriminels peuvent injecter des données empoisonnées dans un chatbot ou une application d’IA générative telle que ChatGPT afin de modifier ses réponses. De même, dans un scénario de cybersécurité, un pirate informatique pourrait introduire des données empoisonnées dans un modèle conçu pour détecter les logiciels malveillants, le faisant passer à côté de certaines menaces.

Les attaques ciblées manipulent le comportement du modèle de manière à profiter au pirate, créant potentiellement de nouvelles vulnérabilités dans le système.

Attaques non ciblées

Les attaques non ciblées visent à dégrader la robustesse générale d’un modèle. Au lieu d’attaquer des sorties spécifiques, l’objectif est d’affaiblir la capacité du modèle à traiter correctement les données. Par exemple, dans les véhicules autonomes, un empoisonnement non ciblé des données pourrait amener le système à mal interpréter les entrées de ses capteurs, confondant un panneau « Stop » avec un panneau « Céder le passage ». Ces types d’attaques rendent les modèles d’IA plus vulnérables aux attaques adverses, où un pirate tente d’utiliser de petites failles, souvent imperceptibles, dans le processus décisionnel du modèle.

Types d’attaques par empoisonnement des données

Les attaques par empoisonnement des données peuvent prendre diverses formes : label flipping (remplacement d’étiquettes), injection de données, attaques par porte dérobée et par clean-label (attaques ciblées par étiquettes propres), etc. Chaque type cible différents aspects des fonctions d’un modèle IA.

Label flipping

Dans les attaques par label flipping, des acteurs malveillants manipulent les étiquettes dans les données d’entraînement, en remplaçant les étiquettes correctes par des étiquettes erronées. Prenons l’exemple de Nightshade, un outil d’empoisonnement de l’IA développé à l’université de Chicago. Nightshade permet aux artistes numériques de modifier de façon subtile les pixels de leurs images avant de les télécharger en ligne. Lorsque les entreprises d’IA extraient des jeux de données en ligne pour entraîner leurs modèles d’IA générative, les images modifiées perturbent le processus d’entraînement. Cette manipulation peut provoquer des erreurs de classification ou des comportements imprévisibles des modèles d’IA, confondant parfois des images de vaches avec des sacs en cuir.¹

Injection de données

L’injection de données introduit des points de données fabriqués dans le jeu de données d’entraînement, souvent pour orienter le comportement des modèles d’IA dans une direction spécifique. Un exemple courant est l’injection SQL, où les pirates ajoutent « 1=1 » ou « = » dans une entrée. Lorsqu’elles sont incluses dans une requête SQL, ces données malveillantes modifient le sens de la requête, car elles renvoient tous les enregistrements au lieu d’un seul.² De même, dans les modèles de machine learning, l’injection de données peut manipuler la prise de décision du modèle. Le modèle peut alors produire une classification erronée ou présenter des biais, ce qui remet en cause l’intégrité des données et la robustesse globale du modèle.

Attaques par porte dérobée

Les attaques par porte dérobée sont dangereuses car elles introduisent des manipulations subtiles, telles que du bruit de fond inaudible dans les contenus audio ou des filigranes imperceptibles dans les images. Le système d’IA fonctionne normalement dans la plupart des cas. Cependant, lorsqu’un déclencheur spécifique est rencontré, le modèle se comporte d’une manière qui profite au pirate. Dans le cas des modèles open source où l’accès aux données d’entraînement et aux algorithmes est moins contrôlé, ces attaques peuvent être particulièrement préjudiciables. ReversingLabs a ainsi signalé une augmentation des menaces (plus de 1 300 %) circulant par le biais de référentiels open source entre 2020 et 2023.³

Attaques par clean-label

Dans les attaques par étiquette propre, les agresseurs modifient les données d’une manière difficile à détecter. La principale caractéristique est que les données empoisonnées apparaissent toujours correctement étiquetées, ce qui complique l’identification par les méthodes traditionnelles de validation des données. Ces attaques exploitent la complexité des systèmes modernes de machine learning et d’apprentissage profond, qui ne détectent pas toujours les petits changements en apparence anodins. Les attaques par étiquette propre sont parmi les plus furtives, laissant les modèles d’IA vulnérables aux sorties faussées et à la dégradation des fonctions de modèle.

Empoisonnement des données et injections de prompts

Bien que l’empoisonnement des données et les injections de prompts ciblent les différentes étapes du cycle de vie de l’IA, ils ont un objectif commun : exploiter les vulnérabilités des entrées des modèles. L’empoisonnement des données manipule les jeux de données d’entraînement en y intégrant des données corrompues ou malveillantes qui peuvent compromettre le processus d’apprentissage d’un modèle et sa fonctionnalité à long terme. En revanche, les injections de prompts déguisent des entrées malveillantes en prompts légitimes et manipulent ainsi les systèmes d’IA générative pour qu’ils divulguent des données sensibles, diffusent de fausses informations ou pire.

Exemples d’empoisonnement des données

Empoisonnement ciblé des données : les pirates empoisonnent les données d’entraînement d’un modèle de cybersécurité en classant les échantillons de logiciels malveillants comme sûrs, ce qui conduit le modèle à ignorer certaines menaces.
Empoisonnement non ciblé des données : des acteurs malveillants injectent des données biaisées dans le jeu de données d’entraînement d’un filtre antispam, réduisant ainsi sa précision et sa fiabilité globales.

Exemples d’injections de prompts

Injection directe de prompt : un pirate intègre une commande dans une interaction avec un chatbot pour contourner les garde-fous et révéler des informations de compte sensibles.
Injection indirecte de prompt : un pirate dissimule des instructions dans une page Web qui amènent un assistant d’IA à promouvoir des liens de phishing dans sa sortie.

Les pirates peuvent déployer ces stratégies séparément ou en tandem pour amplifier leur impact. Par exemple, un initié ayant accès aux systèmes d’une entreprise pourrait théoriquement empoisonner un jeu de données d’entraînement en incorporant des données biaisées ou faussées, contournant ainsi les mesures de validation. Il pourrait ensuite exploiter le système compromis en effectuant une injection de prompt, activant les données empoisonnées et déclenchant un comportement malveillant. Le but peut être une fuite d’informations sensibles, la création d’une porte dérobée pour de nouvelles attaques adverses ou l’affaiblissement des capacités décisionnelles du système.

Impact de l’empoisonnement des données sur les modèles d’IA

L’empoisonnement des données a de larges incidences sur les modèles d’IA et de ML, affectant à la fois leur sécurité et leurs performances globales.

Classification erronée et performances réduites

Les jeux de données d’entraînement empoisonnés peuvent entraîner une mauvaise classification des entrées par les modèles de machine learning, compromettant la fiabilité et les fonctions des modèles d’IA. Dans les applications grand public, cela peut générer des recommandations inexactes qui érodent la confiance et l’expérience client. De même, dans le domaine de la gestion de la chaîne d’approvisionnement, les données infectées peuvent entraîner des prévisions erronées, des retards et des erreurs, nuisant à la fois aux performances du modèle et à l’efficacité de l’entreprise. Ces erreurs de classification exposent les données d’entraînement à des vulnérabilités et peuvent compromettre la robustesse globale des systèmes d’IA.

Préjugés et prise de décision biaisée

L’empoisonnement des données peut également amplifier les biais existants dans les systèmes d’IA. Les pirates peuvent cibler des sous-ensembles de données spécifiques, comme un groupe démographique particulier afin d’introduire des entrées biaisées. Le modèle d’IA produira alors des représentations injustes ou inexactes. Par exemple, les modèles de reconnaissance faciale entraînés sur des données biaisées ou empoisonnées peuvent identifier à tort des personnes de certains groupes, ce qui génère des résultats discriminatoires. Ces types d’attaques peuvent affecter à la fois l’équité et la précision des modèles ML dans diverses applications, des décisions d’embauche à la surveillance des forces de l’ordre.

Vulnérabilités de sécurité et menaces par porte dérobée

L’empoisonnement des données peut ouvrir la porte à des attaques plus sophistiquées, telles que les attaques par inversion dans lesquelles les pirates procèdent par ingénierie inverse sur les données d’entraînement du modèle. Une fois qu’un pirate a réussi à empoisonner les données d’entraînement, il peut exploiter ces vulnérabilités pour lancer d’autres attaques adverses ou déclencher des actions de porte dérobée. Dans les systèmes conçus pour des tâches sensibles, telles que les diagnostics de santé ou la cybersécurité, ces risques de sécurité sont particulièrement dangereux.

Atténuation des risques d’empoisonnement des données

Pour se défendre contre les attaques par empoisonnement des données, les entreprises peuvent mettre en œuvre des stratégies visant à garantir l’intégrité des jeux de données, à améliorer la robustesse des modèles et à surveiller en permanence les modèles d’IA.

Validation et assainissement des données

Une stratégie de défense fondamentale contre l’empoisonnement des données consiste à valider et à nettoyer les données d’entraînement avant de les utiliser. L’implémentation de processus de validation des données pendant la phase d’entraînement peut aider à identifier et à supprimer les points de données suspects ou corrompus avant qu’ils n’affectent le modèle. Cette étape est essentielle pour empêcher l’introduction de données malveillantes dans les systèmes d’IA, en particulier lors de l’utilisation de données open source ou de modèles dont l’intégrité est plus difficile à assurer.

Entraînement contradictoire et robustesse améliorée

L’entraînement contradictoire est une méthode proactive de protection contre l’empoisonnement des données et d’autres types d’attaques. En introduisant intentionnellement des exemples contradictoires dans les modèles d’entraînement, les développeurs peuvent apprendre au modèle à reconnaître et à résister aux données empoisonnées, améliorant ainsi sa robustesse contre les manipulations. Pour les applications à haut risque telles que les véhicules autonomes ou la sécurité de l’IA, l’entraînement contradictoire est une étape cruciale pour rendre les modèles d’IA et de ML plus robustes et plus fiables.

Surveillance continue et détection des anomalies

Une fois déployés, les systèmes d’IA peuvent être surveillés en permanence pour détecter les comportements inhabituels susceptibles d’indiquer une attaque par empoisonnement des données. Les outils de détection des anomalies, tels que les algorithmes de reconnaissance de schémas, aident les équipes de sécurité à identifier les divergences dans les entrées et les sorties, et à réagir rapidement si un système est compromis. L’audit continu est particulièrement important pour les applications d’IA générative telles que ChatGPT, dont les mises à jour en temps réel des données d’entraînement et du comportement des modèles sont essentielles pour éviter les utilisations abusives. Si une anomalie est détectée, le modèle peut être interrompu ou réévalué pour éviter d’autres dommages.

Contrôles des accès et mesures de sécurité

La mise en place de contrôles d’accès stricts est une autre stratégie visant à atténuer les risques d’empoisonnement des données. L’attribution de droit d’accès aux seules personnes autorisées à modifier les jeux de données et les référentiels d’entraînement réduit le risque de falsification non autorisée. De plus, l’intégration de mesures de sécurité comme le chiffrement contribue à protéger les sources de données et les systèmes d’IA contre les attaques externes. Dans les environnements à enjeux élevés, tels que les soins de santé et la cybersécurité, des contrôles de sécurité stricts aident à garantir la sécurité et la fiabilité des modèles de machine learning.

Rapport Cost of a Data Breach 2025

Les coûts liés aux violations de données ont atteint un nouveau sommet. Obtenez des informations actualisées sur les menaces de cybersécurité et leur incidence financière sur les entreprises.

Notes de bas de page

¹ What is Nightshade, University of Chicago, 2024.

² SQL Injection, W3 Schools.

³ Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 16 janvier 2024.

Qu’est-ce que l’empoisonnement des données ?

Auteurs

Qu’est-ce que l’empoisonnement des données ?

Votre équipe sera-t-elle en mesure de repérer la prochaine attaque de type zero-day à temps ?

Attaques ciblées et non ciblées

Attaques ciblées

Attaques non ciblées

Types d’attaques par empoisonnement des données

Label flipping

Injection de données

Attaques par porte dérobée

Attaques par clean-label

Empoisonnement des données et injections de prompts

Exemples d’empoisonnement des données

Exemples d’injections de prompts

Impact de l’empoisonnement des données sur les modèles d’IA

Classification erronée et performances réduites

Préjugés et prise de décision biaisée

Vulnérabilités de sécurité et menaces par porte dérobée

Atténuation des risques d’empoisonnement des données

Validation et assainissement des données

Entraînement contradictoire et robustesse améliorée

Surveillance continue et détection des anomalies

Contrôles des accès et mesures de sécurité

Share

Ressources

Notes de bas de page