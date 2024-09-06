Avec l’adoption de l’intelligence artificielle (IA) qui se propage dans tous les secteurs et dans tous les cas d’utilisation, il n’a jamais été aussi important de prévenir les attaques de la chaîne d’approvisionnement piloté par l’IA logicielle.
Des recherches récentes menées par SentinelOne ont mis au jour un nouvel acteur duransomware, baptisé NullBulge, qui cible les chaînes d’approvisionnement en utilisant le code de dépôts open source tels que Hugging Face et GitHub. Le groupe, se faisant passer pour une entreprise hacktiviste motivée par une cause anti-IA, cible spécifiquement ces Ressources pour empoisonner les jeux de données utilisés dans l'entraînement des modèles IA.
Que vous utilisiez des solutions d'IA classiques, que vous les intégriez dans vos piles technologiques existantes via des interfaces de programmation d’application (API) ou que vous développiez vos propres modèles à partir de modèles de fondation open source, l'ensemble de la chaîne d'approvisionnement des logiciels d'IA est désormais sous les feux de la rampe des cyber-attaquants.
Les composants open source jouent un rôle critique dans la chaîne d’approvisionnement de l'IA. Seules les plus grandes entreprises ont accès aux vastes quantités de données nécessaires pour entraîner un modèle à partir de zéro, de sorte qu'elles doivent s'appuyer fortement sur des ensembles de données open source tels que LAION 5B ou Common Corpus. La taille de ces ensembles de données signifie également qu'il est extrêmement difficile de maintenir la qualité des données et de respecter les lois sur les droits d'auteur et la confidentialité. En revanche, de nombreux modèles d'IA générative classiques, comme ChatGPT, sont des boîtes noires en ce sens qu'ils utilisent leurs propres ensembles de données organisés. qui comporte son propre lot de défis en matière de sécurité.
Les modèles verticaux et propriétaires peuvent affiner les modèles de fondation open source avec une formation supplémentaire utilisant leurs propres ensembles de données. Par exemple, une entreprise développant un chatbot de service client de nouvelle génération pourrait utiliser ses précédents enregistrements de communication client pour créer un modèle adapté à ses besoins spécifiques. Ces données sont depuis longtemps la cible des cybercriminels, mais l'essor fulgurant de l'IA générative les a rendues d'autant plus attrayantes pour les acteurs malveillants.
En ciblant ces ensembles de données, les cybercriminels peuvent les empoisonner avec de la fausse information ou des codes et données malveillants. Ensuite, une fois que ces informations compromises entrent dans le processus d’entraînement des modèles d’IA, nous commençons à voir un effet domino couvrant l’ensemble du cycle de vie des logiciels d'IA. L'apprentissage d'un grand modèle linguistique (LLM) peut prendre des milliers d'heures et nécessiter une puissance de calcul considérable. C’est une initiative extrêmement coûteuse, tant sur le plan financier qu’environnemental. Toutefois, si les ensembles de données utilisés pour la formation ont été compromis, il y a de fortes chances que tout le processus doive repartir de zéro.
La plupart des attaques dans la chaîne d’approvisionnement des logiciels d’IA se produisent par des méthodes de falsification dérobées comme celles mentionnées ci-dessus. Cependant, ce n'est certainement pas la seule solution, d'autant plus que les cyberattaques visant les systèmes d'IA sont de plus en plus répandues et sophistiquées. Une autre méthode est l'attaque par inondation, où les attaquants envoient d'énormes quantités d'informations non malveillantes par le biais d'un système d'IA dans le but de dissimuler autre chose, comme un code malveillant.
Nous constatons également une augmentation des attaques contre les API, en particulier celles qui ne disposent pas de procédures d'authentification solides. Les api sont essentielles pour intégrer l'IA dans la multitude de fonctions que les entreprises utilisent désormais, et bien qu'on suppose souvent que l'api security incombe au fournisseur de solutions, en réalité, c'est une responsabilité très partagée.
Parmi les exemples récents d’attaques sur les API IA figurent la compromissionZenML ou la vulnérabilité de laplateforme IA Nvidia. Ces deux problèmes ont été résolus par leurs fournisseurs respectifs, mais d'autres suivront à mesure que les cybercriminels étendront et diversifieront leurs attaques contre les chaînes d'approvisionnement en logiciels.
Rien de tout cela ne doit être considéré comme un avertissement pour rester à l'écart de l'IA. Après tout, vous ne cesseriez pas d'utiliser l'e-mail à cause du risque d'escroquerie par hameçonnage. Ces développements signifient que l’IA est désormais la nouvelle frontière de la cybercriminalité, et que la sécurité doit être intégrée dans tout ce que vous faites lorsque vous développez, déployez, utilisez et maintenez des technologies alimentées par l’IA, qu’elles soient les vôtres ou fournies par un fournisseur tiers.
Pour ce faire, les entreprises ont besoin d'une traçabilité complète de tous les composants utilisés dans le développement de l'IA. Ils ont également besoin d'explications et de vérifications complètes pour chaque sortie générée par l'IA. Vous ne pouvez pas y parvenir sans maintenir les humains dans la boucle et sans placer la sécurité au premier plan de votre stratégie. En revanche, si vous considérez l'IA uniquement comme un moyen de gagner du temps et de réduire les coûts en licenciant des travailleurs, sans vous soucier des conséquences, la catastrophe n'est plus qu'une question de temps.
Les solutions de sécurité alimentées par l'IA jouent également un rôle critique dans la lutte contre les menaces. Ils ne remplacent pas les analystes de sécurité talentueux, mais les aident à faire ce qu'ils font le mieux à une échelle qui serait autrement impossible à atteindre.
