Come l'AI può essere violata con la prompt injection: rapporto NIST

Autori

Ronda Swaney

Freelance Technology Writer

Il National Institute of Standards and Technology (NIST) osserva da vicino il ciclo di vita dell'AI e ha un valido motivo per farlo. Man mano che l'AI prolifera, crescono anche la scoperta e lo sfruttamento delle vulnerabilità della cybersecurity dell'AI. La prompt injection è una di queste vulnerabilità che attacca specificamente l'AI generativa.

In Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, il NIST definisce diverse tattiche di Adversarial Machine Learning (AML) e attacchi informatici, come la prompt injection, e consiglia gli utenti su come mitigarli e gestirli. Le tattiche antiriciclaggio estraggono informazioni su come si comportano i sistemi di machine learning (ML) per scoprire come possono essere manipolati. Quell'informazione viene utilizzata per attaccare l'AI e i suoi modelli linguistici di grandi dimensioni (LLM) per aggirare la sicurezza, eludere i meccanismi di protezione e aprire percorsi di utilizzare.

Pensa oltre i prompt e considera il contesto completo 

Resta aggiornato sulle ultime novità del settore, sugli strumenti di AI e sulle tendenze emergenti nel prompt engineering con la Think Newsletter. Inoltre, avrai accesso a nuovi articoli esplicativi, tutorial e insight, direttamente nella tua casella di posta. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

Che cos'è la prompt injection?

Il NIST definisce due tipi di attacco con iniezione prompt: diretto e indiretto. Con l'iniezione diretta di prompt, un utente inserisce un prompt di testo che induce l'LLM a eseguire azioni non intenzionali o non autorizzate. Una prompt injection immediata indiretta si verifica quando un aggressore avvelena o degrada i dati da cui attinge un LLM.

Uno dei metodi di prompt injection più noti è DAN, Do Anything Now, una prompt injection usata contro ChatGPT. DAN utilizza il gioco di ruolo per aggirare i filtri di moderazione. Nella sua prima iterazione, i prompt indicavano a ChatGPT che ora era DAN. DAN poteva fare tutto ciò che voleva e doveva fingere, ad esempio, di aiutare una persona malvagia a creare e far esplodere esplosivi. Questa tattica ha eluso i filtri che impedivano di fornire informazioni criminali o dannose, seguendo uno scenario di gioco di ruolo. OpenAI, che sviluppa ChatGPT, monitora questa tattica e aggiorna il modello per impedirne l'uso, ma gli utenti continuano ad aggirare i filtri al punto che il metodo si è evoluto fino a (almeno) DAN 12.0.

La prompt injection indiretta, come osserva il NIST, dipende dalla capacità di un utente malintenzionato di fornire fonti che un modello di AI generativa potrebbe ingerire, come un PDF, un documento, una pagina web o persino file audio usati per generare voci false. La prompt injection indiretta è ampiamente ritenuta il più grande difetto di sicurezza dell'AI generativa, e non vi sono modalità semplici per trovare e applicare le correzioni a questi attacchi. Gli esempi di questo tipo di prompt sono numerosi e vari. Possono essere assurdi (far rispondere un chatbot usando un "linguaggio pirata"), dannosi (utilizzare una chat con social engineering per convincere un utente a rivelare i propri dati della carta di credito e altri dati personali) o di vasta portata (dirottare gli assistenti AI per inviare e-mail truffa a un'intera lista di contatti).

AI Academy

Diventa un esperto di AI

Acquisisci le conoscenze necessarie per dare priorità agli investimenti nell'AI alla base della crescita aziendale. Inizia oggi stesso con la nostra AI Academy gratuita e guida il futuro dell'AI nella tua organizzazione.

Come fermare gli attacchi di prompt injection

Questi attacchi tendono a essere ben nascosti e questo li rende efficaci e difficili da fermare. Come ci si protegge dalla prompt injection diretta? Come sottolinea il NIST, non è possibile fermarli completamente, ma le strategie difensive aggiungono un certo grado di protezione. Per i creatori di modelli, il NIST suggerisce di garantire che i set di dati di formazione siano resi accurati. Suggeriscono anche di addestrare il modello sugli input che segnalano un tentativo di prompt injection e su come identificare i prompt.

Per prompt injection indiretta, il NIST suggerisce il coinvolgimento umano per mettere a punto i modelli, noti come apprendimento per rinforzo dal feedback (RLHF). RLHF aiuta i modelli ad allinearsi meglio con i valori umani, prevenendo comportamenti indesiderati. Un altro suggerimento è quello di filtrare le istruzioni dagli input recuperati e questo può impedire l'esecuzione di istruzioni indesiderate da fonti esterne. Il NIST suggerisce inoltre di utilizzare i moderatori LLM per aiutare a rilevare gli attacchi che non si basano su fonti recuperate per l'esecuzione. Infine, il NIST propone soluzioni basate sull'interpretabilità. Ciò significa che la traiettoria di previsione del modello che riconosce gli input anomali può essere utilizzata per rilevare e quindi arrestare gli input anomali.

L'AI generativa e chi desidera sfruttarne le vulnerabilità continueranno a modificare il panorama della sicurezza informatica. Ma lo stesso potere trasformativo può anche offrire soluzioni. Scopri di più su come IBM Security offre soluzioni di cybersecurity AI che rafforzano le difese di sicurezza.

Soluzioni correlate
IBM® watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e una minima quantità di dati.

Esplora watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda con l'esperienza leader di settore e il portfolio di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi per l'intelligenza artificiale (AI)

I servizi di AI di IBM Consulting aiutano a reinventare il modo in cui le aziende lavorano con l'AI per la trasformazione.

Esplora i servizi AI
Prossimi passi

Attraverso l'AI, IBM Concert scopre insight di importanza chiave sulle operazioni e fornisce raccomandazioni specifiche per migliorare le applicazioni. Scopri come Concert può migliorare il tuo business.

Esplora Concert Esplora le soluzioni di automazione dei processi aziendali