Il NIST definisce due tipi di attacco con iniezione prompt: diretto e indiretto. Con l'iniezione diretta di prompt, un utente inserisce un prompt di testo che induce l'LLM a eseguire azioni non intenzionali o non autorizzate. Una prompt injection immediata indiretta si verifica quando un aggressore avvelena o degrada i dati da cui attinge un LLM.
Uno dei metodi di prompt injection più noti è DAN, Do Anything Now, una prompt injection usata contro ChatGPT. DAN utilizza il gioco di ruolo per aggirare i filtri di moderazione. Nella sua prima iterazione, i prompt indicavano a ChatGPT che ora era DAN. DAN poteva fare tutto ciò che voleva e doveva fingere, ad esempio, di aiutare una persona malvagia a creare e far esplodere esplosivi. Questa tattica ha eluso i filtri che impedivano di fornire informazioni criminali o dannose, seguendo uno scenario di gioco di ruolo. OpenAI, che sviluppa ChatGPT, monitora questa tattica e aggiorna il modello per impedirne l'uso, ma gli utenti continuano ad aggirare i filtri al punto che il metodo si è evoluto fino a (almeno) DAN 12.0.
La prompt injection indiretta, come osserva il NIST, dipende dalla capacità di un utente malintenzionato di fornire fonti che un modello di AI generativa potrebbe ingerire, come un PDF, un documento, una pagina web o persino file audio usati per generare voci false. La prompt injection indiretta è ampiamente ritenuta il più grande difetto di sicurezza dell'AI generativa, e non vi sono modalità semplici per trovare e applicare le correzioni a questi attacchi. Gli esempi di questo tipo di prompt sono numerosi e vari. Possono essere assurdi (far rispondere un chatbot usando un "linguaggio pirata"), dannosi (utilizzare una chat con social engineering per convincere un utente a rivelare i propri dati della carta di credito e altri dati personali) o di vasta portata (dirottare gli assistenti AI per inviare e-mail truffa a un'intera lista di contatti).