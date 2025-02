Sécuriser les données



Pendant la phase de collecte et de traitement, vous devez non seulement recueillir d’immenses quantités de données pour alimenter votre modèle d’IA, mais aussi autoriser vos différents collaborateurs (data scientists, ingénieurs, développeurs, etc.à à y accéder. Il y a un risque inhérent à centraliser toutes ces données et à autoriser diverses parties prenantes, dont la plupart n’ont aucune expérience en matière de sécurité, à y accéder.

Si vos actifs PI (propriété intellectuelle) essentiels sont exposés en raison d’une mauvaise gestion des données d’entraînement, une menace existentielle pèse sur votre entreprise. Les entreprises exploitant d’immenses quantités de données pour leur modèle d’IA doivent évaluer les différents risques qui pèsent sur les données personnelles (PII), confidentielles ou autrement sensibles, puis mettre en place des contrôles de sécurité appropriés autour de ces données.

Protection et défense contre les attaques les plus probables

Lors de la phase de collecte, les jeux de données sous-jacents constituent la principale cible, et l’exfiltration des données est la technique la plus susceptible d’être employée par les attaquants pour mettre la main sur des informations importantes qu’ils pourront monnayer. Alors que les pirates cherchent le chemin de moindre résistance, les jeux de données sous-jacents promettent des gains financiers importants.

Les entreprises ne peuvent pas négliger l’importance des principes généraux de sécurité ; au contraire, elles doivent en faire leur priorité. S’ils sont appliqués correctement, ces principes peuvent avoir un impact substantiel sur la posture de sécurité de l’entreprise. Il s’agit notamment de privilégier la découverte de données et leur classification, le chiffrement au repos et en transit, ainsi que la gestion des clés fournies par des plateformes de sécurité des données comme IBM Security Guardium. Il s’agit également de mettre l’accent sur la gestion des identités et des accès grâce à des solutions comme IBM Security Verify, qui permettent de s’assurer qu’aucune entité ne dispose d’un accès illimité aux modèles d’IA. Enfin, les entreprises doivent sensibiliser leurs data scientists et chercheurs à la sécurité, et s’assurer qu’ils collaborent étroitement avec les équipes de sécurité pour garantir une protection adéquate.

Sécuriser le modèle

Dans le cadre du développement de modèles, vous créez des applications d’une nouvelle manière, qui engendre souvent de nouvelles vulnérabilités exploitables que les attaquants peuvent utiliser comme points d’entrée dans l’environnement et, par conséquent, dans vos modèles d’IA. Étant donné que les entreprises ont toujours peiné à gérer les vulnérabilités connues accumulées dans leur environnement, ce risque se répercutera sur l’IA.

Pour développer une application d’IA, on commence généralement par demander aux équipes de science des données d’adapter un modèle de machine learning (ML) open source pré-entraîné, provenant d’un référentiel en ligne et dont les contrôles de sécurité sont souvent incomplets. La valeur que ces modèles apportent aux entreprises, comme une réduction spectaculaire du temps et des efforts nécessaires à l’adoption de l’IA générative, l’emporte souvent sur ce risque, qui est finalement répercuté sur l’entreprise. Étant donné les lacunes de sécurité et la qualité croissante de données sensibles généralement associées aux modèles de ML, les attaques ciblant ces modèles peuvent avoir des conséquences désastreuses.

Protection et défense contre les attaques les plus probables

Les principales techniques employées lors du développement concernent les attaques sur la chaîne d’approvisionnement, en raison de la forte dépendance à l’égard des modèles de ML pré-entraînés et open source, provenant de référentiels en ligne et utilisés pour accélérer le développement. Les pirates informatiques disposent du même accès à ces référentiels en ligne et peuvent y déployer une porte dérobée ou un logiciel malveillant. Une fois chargés dans le référentiel, les modèles peuvent devenir un point d’entrée pour toute personne qui télécharge le modèle infecté. Détecter un modèle infecté peut s’avérer extrêmement difficile. Les entreprises doivent faire preuve de vigilance quant à l’emplacement et la source des modèles qu’elles consomment.

Une autre préoccupation concerne les attaques ciblant les interfaces de programmation des applications (API). Les entreprises qui manquent de ressources ou de savoir-faire pour créer leurs propres grands modèles de langage (LLM) s’appuient sur les API pour exploiter les capacités des modèles préconfigurés et pré-entraînés. Conscients qu’il s’agira d’un modèle de consommation de LLM majeur, les attaquants chercheront à cibler les API pour accéder aux données transportées par leur biais et les exploiter.

Les attaquants peuvent également chercher à exploiter les agents ou les plug-in LLM dotés de privilèges excessifs, afin d’accéder aux fonctions ouvertes ou aux systèmes en aval autorisés à effectuer certaines actions dans les workflows de l’entreprise. Si un attaquant parvient à compromettre les droits accordés aux agents IA, les conséquences peuvent s’avérer désastreuses.

Les entreprises doivent mettre l’accent sur les aspects suivants :

Analyser en permanence le pipeline d’IA et de ML à la recherche de vulnérabilités, de logiciels malveillants et de signes de corruption ;

Découvrir et renforcer l’intégration des API et des plug-in aux modèles tiers ;

Configurer politiques, contrôles et RBAC autour des modèles de ML, des artefacts et des jeux de données pour que personne ni rien n’ait accès à toutes les données ou fonctions du modèle.

Sécuriser l’utilisation

Lors de l'inférence et de l'utilisation en direct, les attaquants peuvent manipuler les prompts pour contourner les garde-fous et influencer le comportement des modèles afin de générer des réponses inacceptables contenant des informations biaisées, fausses ou autrement toxiques. Cela peut nuire à la réputation de l’entreprise. Les attaquants peuvent également chercher à manipuler le modèle et à analyser les paires entrée/sortie pour entraîner un modèle de substitution à imiter son comportement. Ce « vol » de capacités est susceptible de faire perdre à l’entreprise son avantage concurrentiel.

Protection et défense contre les attaques les plus probables

À cette phase du pipeline d’IA, plusieurs types d’attaques sont préoccupants. Tout d’abord, les injections de prompt, qui consistent pour les attaquants à utiliser des prompts malveillants pour débrider les modèles et obtenir un accès non autorisé, voler des données sensibles ou introduire des biais dans les sorties. Une autre préoccupation concerne le déni de service des modèles, qui consiste pour les attaquants à submerger les LLM d’entrées qui dégradent la qualité du service et entraînent des coûts de ressources élevés. Les entreprises doivent également se prémunir contre le vol de modèles. Ici, les attaquants créent des entrées pour collecter les sorties du modèle et entraînent un modèle de substitution à imiter son comportement.

Nos bonnes pratiques consistent à surveiller les entrées malveillantes, telles que les injections de prompt, et les sorties comportant des données sensibles ou des contenus inappropriés, ainsi qu’à mettre en œuvre de nouvelles défenses, capables de détecter et de neutraliser les attaques spécifiques à l’IA telles que l’empoisonnement des données, l’exfiltration et l’extraction de modèle. De nouvelles solutions spécialement conçues pour l’IA sont entrées sur le marché sous le nom de MLDR (détection et réponse aux menaces ciblant le machine learning). Les alertes générées par ces solutions peuvent être intégrées aux solutions d’opérations de sécurité comme IBM Security QRadar, pour permettre aux équipes des centres opérationnels de sécurité (SOC) de lancer rapidement des protocoles de réponse pour refuser l’accès, mettre en quarantaine les modèles compromis ou les déconnecter.

Sécuriser l’infrastructure

Comme première ligne de défense, citons la sécurisation de l’infrastructure. Les entreprises doivent s’appuyer sur leurs compétences internes pour renforcer les normes de sécurité, de confidentialité et de conformité dans leurs environnements distribués hébergeant les systèmes d’IA. Il est impératif de renforcer la sécurité du réseau, le contrôle d’accès, le chiffrement des données, ainsi que la détection et la prévention des intrusions autour des environnements d’IA. Il convient également d’investir dans de nouvelles solutions de sécurité, spécialement conçues pour protéger l’IA.

Mettre en place une gouvernance

IBM propose des solutions pour assurer non seulement la sécurité de l’IA, mais aussi sa gouvernance opérationnelle. Leader en matière de gouvernance, IBM permet d’obtenir des modèles d’IA dignes de confiance. Les entreprises qui confient leurs processus opérationnels à l’IA doivent s’assurer que le système d’IA ne dérive pas et qu’il fonctionne comme prévu. Les garde-fous opérationnels sont donc au cœur de toute stratégie d’IA efficace. Un modèle qui s’écarte opérationnellement de sa vocation est susceptible de faire peser le même niveau de risque qu’un adversaire ayant compromis votre infrastructure.