Che cos'è l'adversarial machine learning?

Autore

David Zax

Staff Writer

IBM Think

Definizione di adversarial machine learning

L'adversarial machine learning è la pratica di ingannare i sistemi AI . Il termine si riferisce sia agli attori malevoli che perseguono questa pratica, sia ai ricercatori senza cattivi intenti che cercano di esporre vulnerabilità al fine di promuovere la robustezza del modello. 

Il campo presenta nuove sfide per la cybersecurity, a causa della complessità dei modelli di apprendimento automatico e dell'ampia gamma di superfici di attacco, tra cui, spesso, il mondo fisico. 

Un esempio del mondo reale

Per iniziare a illustrare quanto possano essere diversi gli attacchi di adversarial machine learning dalle minacce di cybersecurity legacy, consideriamo un esempio nel mondo delle auto a guida autonoma. Le auto a guida autonoma sono guidate da complessi sistemi di AI che ricevono input dei sensori per poi creare classificazioni che determinano il comportamento dell'auto. Ad esempio, quando un veicolo autonomo si avvicina a uno stop, i suoi algoritmi di machine learning lo identificano, fermando così l'auto in sicurezza. 

Il problema è che i sistemi di machine learning che hanno imparato a classificare i segnali di stop utilizzano criteri diversi da quelli della mente umana. Questo a sua volta crea una vulnerabilità preoccupante, come hanno dimostrato i ricercatori di diverse università nel 2017.1 Apportando alcune semplici modifiche strategiche ai segnali di stop ( come l'aggiunta di piccoli e innocui adesivi che la maggior parte degli esseri umani semplicemente ignorerebbe) i ricercatori sono stati in grado di indurre i modelli AI utilizzati per le auto a guida autonoma a classificare pericolosamente i segnali di stop come segnali "Limite di velocità: 70 km/h”. Un agente di polizia umano di passaggio non si accorgerebbe del sabotaggio, ma per un sistema AI, bastano pochi adesivi che non danno nell'occhio per trasformare un segnale di stop in un segnale di "via libera".  

Inutile dire che se gli hacker malintenzionati avessero scoperto per primi questa vulnerabilità, si sarebbero potuti verificare danni reali come incidenti stradali. 

Il tuo team sarebbe in grado di rilevare in tempo il prossimo zero-day?

Unisciti ai leader della sicurezza che si affidano alla newsletter Think per ricevere notizie selezionate su AI, cybersecurity, dati e automazione. Impara velocemente da tutorial e articoli informativi consegnati direttamente nella tua casella di posta. Leggi l'Informativa sulla privacy IBM.

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'informativa sulla privacy IBM.

https://www.ibm.com/it-it/privacy

Tipi di attacchi adversarial

I ricercatori hanno creato tassonomie di diversi tipi di attacchi ai sistemi di IA.

Attacchi di evasione

Gli attacchi di evasione (come il trucco dello stop) si riferiscono a casi in cui hacker modificano dati elaborati da un sistema AI, creando cosiddetti "esempi avversari" che ingannano i classificatori AI. Gli attacchi sono così chiamati perché i dati o gli stimoli alterati sono in grado di eludere la normale percezione di un modello AI. Oltre al chiaro esempio di auto a guida autonoma, i ricercatori sono stati in grado di creare forme quasi impercettibili di rumore visivo, le cosiddette "perturbazioni avversarie", che possono essere sovrapposte ai dati per ingannare l'intelligenza artificiale. In un noto esempio del 2015, i ricercatori di Google sono riusciti ad aggiungere solo un po' di rumore visivo a un'immagine di un panda, facendo sì che un modello di computer vision fosse certo che l'immagine rappresentasse un gibbone. L'AI, infatti, era ancora più sicura della sua errata classificazione di "gibbone" di quanto non lo fosse della sua corretta classificazione di "panda".2 (L'arte oscura di ingegnerizzare in modo efficiente i modelli di rumore che ingannano un modello è descritta nella sezione "Metodi noti di attacchi di evasione", di seguito.)  

Un sottotipo chiave degli attacchi di evasione sono gli attacchi malware, in cui i criminali evitano sistemi di rilevamento pensati per individuare virus informatici. I criminali riescono a raggiungere questo obiettivo in vari modi, ma generalmente impiegano trucchi per far sembrare il loro malware un codice innocuo, spesso utilizzando la propria AI per ottimizzare questo processo. In un esempio, i ricercatori hanno sviluppato un bot in grado di camuffare automaticamente il malware in molte prove, ingannando 20 sistemi di rilevamento del malware il 98% delle volte.3 

Attacchi di data poisoning

Gli attacchi di data poisoning si verificano in una fase diversa e precedente del ciclo di vita di un modello AI, ovvero durante la fase di addestramento. Le deep neural network si basano su grandi quantità di dati di addestramento per apprendere modelli utili. Con un attacco di data poisoning, un attore può corrompere il set di dati di addestramento originale, introducendo dati che faranno sì che il modello addestrato risultante si comporti in modo disfunzionale. 

Un esempio si basava sul fatto che molti modelli AI utilizzano i dati acquisiti dopo l'implementazione per addestrare iterativamente la versione successiva del modello. Approfittando di questo principio, i troll su Twitter hanno bombardato un chatbot di Microsoft del 2016 chiamato Tay con materiale offensivo, spingendo infine il chatbot stesso a pubblicare contenuti che incitavano all'odio. 

Un altro esempio dell'Università di Chicago mira a consentire agli artisti di punire aziende senza scrupoli che potrebbero utilizzare immagini protette dal copyright per addestrare i loro modelli senza il previo consenso degli artisti. Secondo i suoi creatori, Il progetto Nightshade, "è pensato come uno strumento offensivo per distorcere le rappresentazioni delle caratteristiche all'interno dei modelli di immagini di AI generativa".4 Se un artista applica Nightshade sulle sue immagini e in seguito un modello AI utilizza quelle immagini, il modello potrebbe gradualmente apprendere etichette errate per determinati oggetti, arrivando ad esempio a visualizzare le mucche come borse di pelle.

Attacchi alla privacy

Gli attacchi alla privacy utilizzano le peculiarità dei sistemi di AI per dedurre o estrarre indirettamente informazioni sensibili che facevano parte del loro set di dati di addestramento. In teoria, i modelli di machine learning non sono pensati per "ricordare" i dati su cui si addestrano: estraggono modelli utili tra i set di dati e non conservano i dati originali come farebbe un disco rigido. La realtà della "memoria" dell'AI è però in realtà più complessa. Nella pratica, i ricercatori hanno osservato che, per certi aspetti, i modelli sembrano effettivamente "ricordare" i loro dati di addestramento. In particolare, i sistemi di machine learning spesso esprimono livelli di fiducia più elevati nelle loro previsioni quando queste si riferiscono a dati osservati durante l'addestramento. (Sebbene i chatbot consumer come ChatGPT non mostrino punteggi di fiducia, questi valori sono spesso accessibili tramite API per sviluppatori o strumenti per ricercatori.)

In un metodo di attacco alla privacy noto come inferenza di appartenenza, un criminale potrebbe essere in grado di dedurre informazioni sensibili su qualcuno: ad esempio, se è stato un paziente di una struttura psichiatrica. Finché il criminale ha qualche dato su un determinato individuo (magari una cartella clinica parziale), potrebbe interrogare un modello noto per essersi addestrato su set di dati sensibili (ad esempio, cartelle cliniche di strutture psichiatriche). Osservando i punteggi di fiducia restituiti dal modello, il criminale potrebbe dedurre che il suo obiettivo è effettivamente un membro del gruppo utilizzato per addestrare il modello. 

Un attacco di inversione del modello va oltre, consentendo sostanzialmente a un criminale di effettuare l'ingegneria inversa dei dati effettivi che hanno addestrato il modello. Il criminale può riuscirci utilizzando tecniche di forza bruta, utilizzando in modo iterativo i punteggi di confidenza restituiti dal modello come guida su come trasformare dati casuali e rumorosi in qualcosa che assomigli effettivamente ai dati di addestramento reali per il modello. Ad esempio, nel 2015, i ricercatori accademici sono riusciti a sfruttare i punteggi di affidabilità di un modello di riconoscimento facciale per ricostruire immagini che si avvicinavano ai volti reali utilizzati per addestrare il modello. Ciò è stato fatto partendo da un'immagine di solo rumore, modificando iterativamente l'immagine e utilizzando i punteggi di confidenza dell'output del modello per guidare la modifica successiva.5

Attacchi di estrazione dei modelli

In un attacco di estrazione del modello (a volte chiamato semplicemente "furto di modelli"), l'obiettivo del criminale è quello di "clonare" efficacemente un determinato modello. I motivi di tale attacco possono variare: un hacker può semplicemente voler evitare l'uso a pagamento del modello originale, oppure può voler usare il clone per affinare di nascosto attacchi mirati che potrebbero funzionare bene sul modello originale.

I metodi della maggior parte degli attacchi di estrazione del modello sono abbastanza semplici: l'hacker introduce prompt sistematici nel modello con input accuratamente selezionati e indicizza gli output. Se gli input vengono scelti in modo strategico, in alcuni casi è possibile utilizzare un set di dati di appena migliaia o decine di migliaia di coppie input-output per replicare il modello o perlomeno almeno alcuni suoi aspetti. Un articolo del 2023 sul "model leeching", ad esempio, ha dimostrato come un attacco di questo tipo potesse essere utilizzato per estrarre conoscenze specifiche per attività da un LLM a basso costo. Con soli 50 dollari di costi relativi alle API, il team è stato in grado di costruire un modello clonato in grado di emulare una delle funzionalità del modello linguistico, vale a dire la comprensione della lettura, con una precisione dell'87%.6

Attacchi white-box e black-box a confronto

Un'ulteriore tassonomia di attacco si distingue non per il tipo di danno, ma per il tipo di modello che viene preso di mira. La maggior parte degli esempi sopra citati sono cosiddetti attacchi black-box, il che significa che i modelli presi di mira danno accesso solo ai loro output. Ma nei cosiddetti attacchi white-box, gli hacker attaccano modelli open source che sono (spesso grazie alle nobili intenzioni dei loro creatori) più trasparenti riguardo al loro funzionamento interno. Con la visibilità sul comportamento dei pesi effettivamente appresi che compongono il modello, gli hacker possono spesso utilizzare questo accesso white-box per creare attacchi più efficienti e mirati.

Metodi noti di attacchi di evasione

Tra i tipi di attacchi sopra menzionati, probabilmente gli attacchi di evasione sono i più complicati, rappresentando una frontiera davvero nuova nella cybersecurity. Gli attacchi di evasione preoccupano (e affascinano) particolarmente i ricercatori di cybersecurity perché utilizzano i modi fondamentalmente diversi in cui macchine e esseri umani analizzano il mondo. Per questo motivo, un ampio filone di ricerca si è concentrato sulla scoperta di metodi attraverso i quali gli hacker potrebbero generare attacchi di evasione, per correggere al meglio queste vulnerabilità prima che gli hacker le sfruttino. (Per fortuna, sono state scoperte anche molte difese. Per ulteriori informazioni, vedi "Come difendersi dall'adversarial machine learning".)  

Fast gradient sign method

Nel 2015, i ricercatori di Google hanno rivelato un metodo semplice per generare esempi di attacchi adversarial (input che ingannano qualsiasi sistema di deep learning) che hanno chiamato "fast gradient sign method" o "FGSM".2 Prendiamo come esempio un sistema di rilevamento delle immagini. Questi sistemi essenzialmente suddividono il mondo in cluster: questo per i gatti, questo per i cani e così via. Il fast gradient sign method è un meccanismo per trovare un modo rapido di modificare un'immagine per "spostarla" da un cluster all'altro, compromettendo l'integrità del processo decisionale del sistema. Fondamentalmente, queste modifiche spesso richiedono semplicemente frammenti di rumore visivo impercettibili agli esseri umani, ma che ingannano la macchina. L'FGSM è chiamato attacco "basato sul gradiente" perché sfrutta un algoritmo di ottimizzazione utilizzato dai sistemi di machine learning chiamato "discesa del gradiente."

Dati gli attacchi più pericolosi che sono stati scoperti poco dopo, un modello che è stato rafforzato solo contro gli attacchi FGSM è considerato altamente vulnerabile. 

Projected gradient descent

Il Projected Gradient Descent (PGD) è un altro attacco basato su gradiente, più sofisticato e potente dell'FGSM. Mentre l'FGSM sostanzialmente compie un balzo in una direzione avversaria per creare le sue perturbazioni (il "rumore" che interrompe i meccanismi di rilevamento del modello), il PGD utilizza un algoritmo per compiere una serie di piccoli passi. Questo processo più attento e iterativo consente di individuare perturbazioni più complesse e impenetrabili. Inoltre, un vincolo intelligente nel suo algoritmo impedisce alle perturbazioni del PGD di allontanarsi troppo dalla linea di base, garantendo che non siano rilevabili dagli esseri umani. Il compromesso per gli hacker è il costo; mentre l'FGSM può produrre una perturbazione veloce ma debole con un solo calcolo del gradiente, il PGD deve eseguirne decine o centinaia.

Il PGD è spesso utilizzato come benchmark chiave per la robustezza avversaria, in quanto è considerato il più forte attacco basato sul gradiente.7 Un'applicazione di IA addestrata per resistere agli attacchi PGD può essere considerata significativamente robusta.  

Carlini & Wagner attack (C&W)

Utilizzare il "gradiente" dei modelli di machine learning, a quanto pare, non è l'unico modo per attaccare tali sistemi. Un documento di ricerca del2017 8 degli informatici della UC Berkeley Nicholas Carlini e David Wagner ha rivelato un altro metodo per trovare dati di input avversari, che evita del tutto le informazioni sul gradiente del modello. Al contrario, gli attacchi C&W inquadrano il problema come un problema di pura ottimizzazione, cercando di trovare la quantità minima di modifica necessaria a un input, forzando comunque una classificazione errata. Per una perturbazione dell'immagine, ad esempio, un tale algoritmo potrebbe rivelare il minor numero di pixel da modificare per ingannare un modello. Sebbene sia computazionalmente costoso da produrre, il risultato è in genere una perturbazione troppo sottile per essere notata da un essere umano.

Come difendersi dall'adversarial machine learning

Grazie agli sforzi dei ricercatori che hanno scoperto queste debolezze, sono state sviluppate contromisure per aumentare la robustezza dei modelli di machine learning.

Per gli attacchi di evasione del tipo appena descritto, gli esperti hanno sviluppato metodi di cosiddetto addestramento adversarial. In sostanza, il processo consiste semplicemente nell'includere, accanto ai dati "puliti", dati che sono stati modificati nel modo in cui potrebbero tentare di farlo gli hacker, in modo che il modello impari a etichettare correttamente anche questi esempi adversarial. Questa mitigazione, sebbene efficace, può essere costosa in due sensi: 1) richiede più calcolo, e 2) i modelli possono diventare complessivamente leggermente meno accurati dopo l'esposizione a dati perturbati. Nel documento del 2018, "Robustness May Be at Odds with Accuracy", i ricercatori dell'MIT hanno scritto che "l'addestramento di modelli robusti potrebbe non solo richiedere più risorse, ma anche portare a una riduzione dell'accuratezza standard".9

In generale, i principi di una buona cybersecurity si applicano al campo del machine learning. Le difese operative includono strumenti di rilevamento delle anomalie e delle intrusioni che verificano la presenza di modelli insoliti nei dati o nel traffico che potrebbero indicare che un hacker sta tentando di intromettersi in un sistema di machine learning, indipendentemente dalla fase del suo ciclo di vita. Inoltre, il red teaming, ovvero l'esposizione deliberata dei modelli ad attacchi controllati da parte di professionisti della cybersecurity che simulano quelli degli avversari, è un modo efficace per mettere alla prova i sistemi.

In un settore in rapida evoluzione come l'AI, il panorama del rischio è in costante evoluzione. Organizzazioni come il National Institute of Standards and Technology sono fonti degli ultimi sviluppi. Il report10 del NIST del 2024 sulla gestione del rischio nell'AI tratta dell'adversarial machine learning, comprende anche approcci più generali ai rischi legati all'AI, inclusi temi quali distorsioni, allucinazioni e privacy. Adottare un framework di governance dell'AI può anche aiutare ulteriormente a proteggere i modelli contro i malintenzionati. 

Soluzioni correlate
Soluzioni di sicurezza aziendale

Trasforma il tuo programma di sicurezza con le soluzioni offerte dal più grande provider di sicurezza aziendale.

Esplora le soluzioni di cybersecurity
Servizi di cybersecurity

Trasforma il tuo business e gestisci i rischi con la consulenza sulla cybersecurity, il cloud e i servizi di sicurezza gestiti.

    Scopri i servizi di sicurezza informatica
    Cybersecurity dell'intelligenza artificiale (AI)

    Migliora la velocità, l'accuratezza e la produttività dei team di sicurezza con soluzioni di cybersecurity basate sull'AI.

    Esplora la cybersecurity dell'AI
    Fai il passo successivo

    Che tu abbia bisogno di soluzioni di sicurezza dei dati, di gestione degli endpoint, o di gestione delle identità e degli accessi (IAM), i nostri esperti sono pronti a collaborare con te per farti raggiungere un solido livello di sicurezza.Trasforma il tuo business e gestisci i rischi con un leader a livello globale nel campo della consulenza per la cybersecurity, del cloud e dei servizi di sicurezza gestiti.

    Esplora le soluzioni di cybersecurity Scopri i servizi di cybersecurity