Les entreprises ont un tout nouveau portefeuille de projets en cours de conception qui tirent parti de l’IA générative. Pendant la phase de collecte et de traitement des données, vous devez non seulement recueillir d’immenses quantités de données pour alimenter votre modèle, mais aussi autoriser vos différents collaborateurs (data scientists, ingénieurs, développeurs, etc.) à y accéder. La centralisation de toutes ces données en un seul endroit et l’accès à ces données par de nombreuses personnes présentent un risque inhérent. Cela signifie que l’IA générative est un nouveau type de stockage de données capable de créer de nouvelles données à partir de données organisationnelles existantes. Que vous ayez entraîné le modèle, que vous l’ayez affiné ou que vous l’ayez connecté à une RAG (base de données vectorielle), ces données contiennent probablement des informations personnelles identifiables, des questions de confidentialité et d’autres informations sensibles. Cette montagne de données sensibles est une cible de choix et bien visible que les attaquants vont essayer d’atteindre.

Dans le cadre du développement de modèles, de nouvelles applications sont conçues d’une manière totalement nouvelle, avec de nouvelles vulnérabilités qui deviennent de nouveaux points d’entrée que les attaquants essaieront d’exploiter. Le développement commence souvent par le téléchargement et la réutilisation, par les équipes de science des données, de modèles de machine learning open source préentraînés provenant de référentiels de modèles en ligne tels que HuggingFace ou TensorFlow Hub. Les référentiels open source de partage de modèles sont nés d’une complexité inhérente à la science des données, d’une pénurie de praticiens et de la valeur qu’ils apportent aux entreprises en réduisant considérablement le temps et les efforts nécessaires à l’adoption de l’IA générative. Cependant, ces référentiels peuvent ne pas bénéficier de contrôles de sécurité complets, ce qui répercute les risques sur l’entreprise… et les acteurs malveillants comptent sur ça. En effet, cela leur permet d’injecter une porte dérobée ou un logiciel malveillant dans l’un de ces modèles, puis de charger le modèle infecté dans les référentiels de partage de modèles, affectant ainsi tous ceux qui le téléchargent. Étant donné les lacunes de sécurité et la qualité croissante de données sensibles généralement associées aux modèles de ML, les attaques ciblant ces modèles peuvent avoir des conséquences désastreuses.

Lors de l’inférence et de l’utilisation en direct, les attaquants peuvent manipuler les prompts pour contourner les garde-fous et influencer le comportement des modèles afin de générer des réponses inacceptables contenant des prompts dangereux, dont des informations biaisées et des informations fausses ou autrement toxiques, impactant la réputation. Les attaquants peuvent également manipuler le modèle et à analyser les paires entrée/sortie pour entraîner un modèle de substitution à imiter son comportement et « voler » facilement ses capacités afin de faire perdre à l’entreprise son avantage concurrentiel.