NIST définit deux types d’attaques par injection de prompt : directes et indirectes. Avec l’injection de prompt direct, un utilisateur saisit un prompt qui amène le LLM à effectuer des actions involontaires ou non autorisées. On parle d’injection de prompt indirecte lorsqu’un pirate empoisonne ou dégrade les données utilisées par un LLM.

Une des méthodes d’injection de prompt direct les plus connues est le DAN, Do Anything Now, un prompt utilisé contre ChatGPT. DAN utilise le jeu de rôle pour contourner les filtres de modération. Dans sa première itération, les prompts ont indiqué à ChatGPT qu’il s’agissait désormais de DAN. DAN pouvait faire tout ce qu’il voulait et devait faire semblant, par exemple, d’aider une personne malveillante à créer et à faire exploser des explosifs. Cette tactique a permis d’échapper aux filtres qui l’empêchaient de fournir des informations criminelles ou préjudiciables en suivant un scénario de jeu de rôle. OpenAI, les développeurs de ChatGPT, suivent cette tactique et mettent à jour le modèle pour empêcher son utilisation, mais les utilisateurs continuent de contourner les filtres jusqu’au point où la méthode a évolué vers (au moins) DAN 12.0.

L’injection de prompt indirecte, comme le note le NIST, dépend de la capacité d’un attaquant à fournir des sources qu’un modèle d’IA générative ingérerait, comme un PDF, un document, une page web ou même des fichiers audio utilisés pour générer de fausses voix. L’injection de prompt indirecte est largement considérée comme la plus grande faille de sécurité de l’IA générative, sans moyens simples pour trouver et corriger ces attaques. Les exemples de ce type de prompt sont nombreux et variés. Elles peuvent être absurdes (faire répondre un chatbot en utilisant un « langage pirate »), préjudiciables (utiliser le chat d’ingénierie sociale pour convaincre un utilisateur de révéler sa carte de crédit et d’autres données personnelles) ou générale (détourner les assistants d’IA pour envoyer des e-mails frauduleux à l’ensemble de votre liste de contacts).