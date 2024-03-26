Le prompt injection utilizzano il fatto che l'applicazione LLM non distingue chiaramente tra le istruzioni dello sviluppatore e l'input dell'utente. Scrivendo prompt accuratamente realizzati, gli hacker possono ignorare le istruzioni dello sviluppatore e fare in modo che l'LLM esegua i loro ordini.

Per comprendere gli attacchi di tipo prompt injection, è utile innanzitutto osservare il modo in cui gli sviluppatori creano molte app basate su LLM.

Le LLM sono un tipo di foundation model, un modello di machine learning altamente flessibile e addestrato su un set di dati di grandi dimensioni. Possono essere adattati a vari compiti attraverso un processo chiamato "messa a punto delle istruzioni". Gli sviluppatori forniscono all'LLM una serie di istruzioni in linguaggio naturale per un'attività e l'LLM le segue.

Grazie alla messa a punto delle istruzioni, gli sviluppatori non devono scrivere alcun codice sulle app LLM del programma. Possono invece scrivere prompt di sistema, ovvero dei set di istruzioni che indicano al modello AI come gestire l’input dell’utente. Quando un utente interagisce con l'app, il suo input viene aggiunto al prompt del sistema e il tutto viene inviato all'LLM come un unico comando.

La vulnerabilità della prompt injection si verifica perché sia il prompt del sistema che gli input dell'utente assumono lo stesso formato, ovvero stringhe di testo in lingua naturale. Ciò significa che l'LLM non è in grado di distinguere tra istruzioni e input in base esclusivamente al tipo di dati. Si basa invece sull'addestramento precedente e sui prompt stessi per determinare cosa fare. Se un utente malintenzionato crea un input abbastanza simile a un prompt di sistema, l'LLM ignora le istruzioni degli sviluppatori e fa ciò che vuole l'hacker.

Il data scientist Riley Goodside è stato uno dei primi a scoprire le prompt injection. Goodside ha utilizzato una semplice app di traduzione basata su LLC per illustrare come funzionano gli attacchi. Ecco una versione leggermente modificata dell'esempio di Goodside2: