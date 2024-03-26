Les injections de prompts exploitent le fait que les applications basées sur des LLM ne font pas une distinction claire entre les instructions du développeur et les entrées de l’utilisateur. En rédigeant des prompts soigneusement conçus, les pirates peuvent outrepasser les instructions des développeurs et faire en sorte que le LLM fasse ce qu’il veulent.

Pour comprendre les attaques par injection d’invites, il est utile de commencer par examiner comment les développeurs créent les applications alimentées par LLM.

Les LLM sont un type de modèle de fondation, un modèle de machine learning hautement flexible et entraîné sur un grand jeu de données. Ils peuvent être adaptés à des tâches diverses grâce à un processus appelé « optimisation des instructions ». Les développeurs donnent au LLM un ensemble d’instructions en langage naturel pour une tâche, et le LLM les suit.

Grâce à l’optimisation des instructions, les développeurs n’ont pas besoin d’écrire de code pour programmer les applications basées sur des LLM. Ils peuvent à la place écrire des prompts système, qui sont des ensembles d’instructions qui indiquent au modèle d’IA comment traiter les entrées utilisateur. Lorsqu’un utilisateur interagit avec l’application, son entrée est ajoutée au prompt système et le tout est transmis au LLM sous la forme d’une seule commande.

Les vulnérabilités aux injections de prompts sont dues au fait que le prompt système et les entrées utilisateur ont le même format : des chaînes de texte en langage naturel. Cela signifie que le LLM est incapable de faire la distinction entre les instructions et les entrées sur la seule base du type de données. Il s’appuie au lieu de cela sur l’entraînement antérieur et les invites elles-mêmes pour déterminer la marche à suivre. Si un attaquant crée une entrée qui ressemble suffisamment à un prompt système, le LLM ignore les instructions des développeurs et le pirate est libre de faire ce qu’il veut.

Le data scientist Riley Goodside a été l’un des premiers à découvrir les injections de prompts. M. Goodside a utilisé une simple application de traduction basée sur un LLM pour illustrer le fonctionnement des attaques. Voici une version légèrement modifiée de l’exemple2 de M. Goodside :