Testare i limiti dell'AI generativa: come il red teaming espone vulnerabilità nei modelli AI

Autore

Charles Owen-Jackson

Freelance Content Marketing Writer

Con l'intelligenza artificiale generativa (gen AI) in prima linea nella sicurezza delle informazioni, i red team svolgono un ruolo essenziale nell'identificazione delle vulnerabilità che altri possono trascurare.

Poiché il costo medio di una violazione dei dati ha raggiunto un massimo storico di 4,88 milioni di USD nel 2024, le aziende devono sapere esattamente dove si trovano le loro vulnerabilità. Dato il ritmo straordinario con cui stanno adottando la gen AI, c'è una buona possibilità che alcune di queste vulnerabilità risiedano nei modelli AI stessi o nei dati utilizzati per addestrarli.

È qui che entra in gioco il red teaming specifico per l'AI. È un modo per testare la resilienza dei sistemi AI contro scenari di minaccia dinamici. Questo comporta la simulazione di scenari di attacco reali per mettere alla prova i sistemi di AI prima e dopo la loro distribuzione in un ambiente di produzione. Il red teaming è diventato di vitale importanza per garantire che le organizzazioni possano godere dei benefici della gen AI senza aggiungere rischi.

X-Force Red Offensive Security di IBM segue un processo iterativo con test continui per affrontare vulnerabilità in quattro aree chiave:

Test di sicurezza e protezione dei modelli
Test di applicazione della gen AI
Test di sicurezza della piattaforma AI
Test di sicurezza della pipeline MLSecOps

In questo articolo ci concentreremo su tre tipi di attacchi che prendono di mira modelli AI e dati di addestramento.

Iniezione di prompt

La maggior parte dei modelli AI mainstream prevede misure di sicurezza integrate per mitigare il rischio di produrre contenuti dannosi. Ad esempio, in circostanze normali, non è possibile chiedere a ChatGPT o Copilot di scrivere codice dannoso. Tuttavia, metodi quali gli attacchi di prompt e il jailbreaking possono consentire di aggirare queste misure di sicurezza.

Uno degli obiettivi del red teaming AI è quello di far sì che l'AI si "comporti male" in modo deliberato, proprio come fanno gli aggressori. Il jailbreaking è uno di questi metodi che prevede l'uso di suggerimenti creativi per far sì che un modello sovverta i suoi filtri di sicurezza. Tuttavia, mentre il jailbreak può teoricamente aiutare un utente a compiere un vero e proprio crimine, la maggior parte degli attori maligni utilizza altri vettori di attacco, semplicemente perché sono molto più efficaci.

Gli attacchi di prompt injection sono molto più gravi. Invece di colpire i modelli stessi, colpiscono l'intera supply chain offuscando istruzioni malevole in prompt che altrimenti sembrano innocue. Ad esempio, un aggressore potrebbe usare il prompt injection per far rivelare a un modello di AI informazioni sensibili come una chiave API, ottenendo potenzialmente accesso backdoor a qualsiasi altro sistema collegato.

I red team possono anche simulare attacchi di evasione, un tipo di attacco in cui un aggressore modifica sottilmente gli input per ingannare un modello e fargli classificare o interpretare male un'istruzione. Queste modifiche sono solitamente impercettibili agli esseri umani. Tuttavia, possono comunque manipolare un modello AI per farlo agire in modo indesiderato. Questo può includere la modifica di un singolo pixel in un'immagine input per ingannare il classificatore di un modello di computer vision, come uno destinato all'uso in un veicolo a guida autonoma.

Esplora i servizi per la sicurezza offensiva IBM X-Force Red

Newsletter di settore

Le ultime notizie nel campo della tecnologia, supportate dalle analisi degli esperti

Resta al passo con le tendenze più importanti e interessanti del settore relative ad AI, automazione, dati e oltre con la newsletter Think. Leggi l' Informativa sulla privacy IBM.

Data poisoning

Gli aggressori prendono di mira anche i modelli AI durante l'addestramento e lo sviluppo, quindi è essenziale che i red team simulino gli stessi attacchi per identificare rischi che potrebbero compromettere l'intero progetto. Un attacco di data poisoning si verifica quando un avversario introduce dati dannosi nel set di addestramento, corrompendo così il processo di apprendimento e embedding vulnerabilità nel modello stesso. Il risultato è che l'intero modello diventa un potenziale punto d'ingresso per ulteriori attacchi. Se i dati di addestramento vengono compromessi, di solito è necessario riaddestrare il modello da zero. Si tratta di un'operazione che richiede molte risorse e molto tempo.

Il coinvolgimento del red team è fondamentale fin dall'inizio del processo di sviluppo dei modelli AI per mitigare il rischio di avvelenamento dei dati. I red team simulano attacchi reali di avvelenamento dei dati in un ambiente sandbox sicuro, separato dai sistemi di produzione esistenti. Ciò fornisce insight su quanto sia vulnerabile il modello all'avvelenamento dei dati e su come i veri attori delle minacce potrebbero infiltrarsi o compromettere il processo di formazione.

Anche i team AI possono individuare in modo proattivo i punti deboli nei processi di raccolta dati. I modelli linguistici di grandi dimensioni (LLM) spesso attingono dati da un numero enorme di fonti diverse. ChatGPT, ad esempio, è stato addestrato su un vasto corpus di dati di testo provenienti da milioni di siti web, libri e altre fonti. Quando si costruisce un LLM proprietario, è fondamentale che le organizzazioni sappiano esattamente da dove ottengono i dati di formazione e come vengono controllati per la qualità. Anche se questo è più un lavoro per i revisori della sicurezza e i revisori dei processi, i red team possono utilizzare i test di penetrazione per valutare la capacità di un modello di resistere ai difetti nella sua pipeline di raccolta dati.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda tutti gli episodi di Mixture of Experts

Inversione del modello

I modelli AI proprietari vengono solitamente addestrati, almeno in parte, sui dati dell'organizzazione. Ad esempio, un LLM distribuito nel servizio clienti potrebbe utilizzare i dati dei clienti dell'azienda per la formazione, così da fornire gli output più rilevanti. Idealmente, i modelli devono essere addestrati solo sulla base di dati anonimizzati che tutti possono vedere. Anche in questo caso, tuttavia, le violazioni della privacy possono ancora essere un rischio a causa di attacchi di inversione di modello e attacchi di inferenza sulle iscrizioni.

Anche dopo la distribuzione, i modelli AI possono mantenere tracce dei dati su cui sono stati addestrati. Ad esempio, il team del laboratorio di ricerca DeepMind AI di Google è riuscito a ingannare ChatGPT facendogli trapelare i dati di addestramento utilizzando un semplice prompt. Gli attacchi di inversione del modello, quindi, possono consentire ad attori malintenzionati di ricostruire i dati di formazione, rivelando potenzialmente informazioni riservate nel processo.

Gli attacchi di inferenza sui membri funzionano in modo simile. In questo caso, un avversario cerca di prevedere se un determinato punto dati sia stato utilizzato per addestrare il modello tramite inferenza con l'aiuto di un altro modello. Si tratta di un metodo più sofisticato in base al quale un utente malintenzionato addestra innanzitutto un modello separato, noto come modello di inferenza di appartenenza, in base all'output del modello che sta attaccando.

Ad esempio, supponiamo che un modello sia stato addestrato sulle storie di acquisto dei clienti per fornire raccomandazioni personalizzate sui prodotti. Un aggressore può quindi creare un modello di inferenza di appartenenza e confrontare i suoi output con quelli del modello target per dedurre informazioni potenzialmente sensibili che potrebbe utilizzare in un attacco mirato.

In entrambi i casi, i red team possono valutare i modelli AI per la loro capacità di far trapelare involontariamente informazioni sensibili direttamente o indirettamente tramite inferenza. Questo può aiutare a identificare vulnerabilità nei workflow di addestramento stessi, come i dati che non sono stati sufficientemente anonimizzati in conformità con le politiche sulla privacy dell'organizzazione.

Creare fiducia nell'AI

Creare fiducia nell'AI richiede una strategia proattiva e il red teaming dell'AI svolge un ruolo fondamentale. Utilizzando metodi come l'addestramento avversario e gli attacchi simulati di inversione del modello, i red team possono identificare vulnerabilità che altri analisti di sicurezza probabilmente non rileveranno.

Questi risultati possono quindi aiutare gli sviluppatori di AI a stabilire le priorità e a implementare misure di sicurezza proattive per impedire agli attori delle minacce di utilizzare le stesse vulnerabilità. Per le aziende, il risultato è una riduzione dei rischi per la sicurezza e una maggiore fiducia nei modelli AI, che si stanno rapidamente radicando in molti sistemi critici.

Testare i limiti dell'AI generativa: come il red teaming espone le vulnerabilità nei modelli AI