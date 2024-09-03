Le monde des débridages de l’IA est diversifié et en constante évolution. Certaines attaques sont étonnamment simples, tandis que d’autres impliquent des scénarios élaborés qui nécessitent l’expertise d’un pirate informatique sophistiqué. Ce qui les rassemble, c’est un objectif commun : pousser ces assistants digitaux au-delà des limites programmées.

Ces exploitations font appel à la nature même des modèles de langage. Les chatbots IA sont formés pour être utiles et pour comprendre le contexte. Les débridages créent des scénarios dans lesquels l’IA pense qu’il est approprié d’ignorer ses directives éthiques habituelles.

Alors que les attaques à plusieurs étapes comme Skeleton Key font la une des journaux, M. Lee affirme que les techniques single-shot restent une préoccupation plus urgente. « Il est plus facile d’attaquer un grand modèle linguistique en une seule fois », note-t-il. « Imaginez qu’il soit possible de faire une injection de prompt dans votre CV et que votre système de recrutement soit alimenté par l’IA. Il s’agit d’une attaque one-shot, sans aucune probabilité d’interactions multiples. »

Selon les experts en cybersécurité, les conséquences potentielles sont alarmantes. « Des acteurs malveillants pourraient utiliser Skeleton Key pour contourner les protections de l’IA et générer des contenus préjudiciables, diffuser de la désinformation ou automatiser des attaques d’ingénierie sociale à l’échelle », avertit Stephen Kowski, directeur technique au sein de SlashNext Email Security+.

Bien que bon nombre de ces attaques restent théoriques, les implications concrètes commencent à apparaître. M. Lee cite un exemple de chercheurs ayant convaincu l’agent conversationnel alimenté par l’IA d’une entreprise de proposer des remises massives et non autorisées. « Vous pouvez tromper leur agent conversationnel et obtenir une bonne réduction. Ce n’est peut-être pas ce que l’entreprise souhaite », dit-il.

Dans le cadre de ses propres recherches, M. Lee a développé des preuves de concept pour montrer comment un LLM peut être encapsulé pour créer du code vulnérable et malveillant et comment des conversations audio en direct peuvent être interceptées et déformées en temps quasi réel.