Cos'è il data poisoning?

10 dicembre 2024

Autori

Alexandra Jonker

Editorial Content Lead

Cos'è il data poisoning?

Il data poisoning, o avvelenamento dei dati, è un tipo di attacco informatico in cui i criminali informatici manipolano o corrompono i dati di addestramento utilizzati per sviluppare modelli AI e di machine learning(ML).  

Le reti neurali, i modelli linguistici di grandi dimensioni (LLM) e i modelli di deep learning si basano fortemente sulla qualità e sull'integrità dei dati di addestramento, che di fatto determinano le funzioni di un modello. Questi dati di addestramento possono provenire da varie fonti, come Internet, database governativi e fornitori di dati di terze parti. Iniettando punti di dati errati o distorti (dati avvelenati) in questi set di dati di addestramento, i malintenzionati possono alterare in modo sottile o drastico il comportamento di un modello. 

Ad esempio, la manipolazione dei dati tramite avvelenamento può portare a una classificazione errata dei dati, riducendo l'efficacia e l'accuratezza dei sistemi di AI e ML. Inoltre, questi attacchi possono introdurre seri rischi di cybersecurity, soprattutto in settori come l'assistenza sanitaria e i veicoli a guida autonoma.

Attacchi mirati e non mirati a confronto

Gli attacchi di data poisoning possono essere classificati in due categorie in base all'intenzione: mirati e non mirati.

Attacchi mirati

Gli attacchi mirati manipolano gli output dei modelli AI in un modo specifico. Ad esempio, i criminali informatici potrebbero iniettare dati avvelenati in un chatbot o in un'applicazione di AI generativa (gen AI) come ChatGPT per alterarne le risposte. Allo stesso modo, in uno scenario di cybersecurity, un criminale informatico potrebbe introdurre dati contaminati in un modello progettato per rilevare malware, facendo sì che non rilevi determinate minacce.

Gli attacchi mirati manipolano il comportamento del modello a vantaggio del criminale, creando potenzialmente nuove vulnerabilità nel sistema.

Attacchi non mirati

Gli attacchi non mirati si concentrano sulla degradazione della robustezza generale di un modello. Anziché attaccare output specifici, l'obiettivo è quello di indebolire la capacità del modello di elaborare i dati correttamente. Ad esempio, nei veicoli autonomi, l'avvelenamento non mirato dei dati potrebbe far sì che il sistema interpreti erroneamente gli input dei suoi sensori, scambiando un segnale di "stop" per un segnale di "precedenza". Questi tipi di attacchi rendono i modelli AI più suscettibili agli attacchi contraddittori, dove un criminale cerca di utilizzare piccoli difetti, spesso impercettibili, nel processo decisionale del modello.

Uomo che guarda il computer

Rafforza la tua intelligence sulla sicurezza 


Rimani al passo con le minacce con notizie e insight su sicurezza, AI e altro ancora, ogni settimana con la newsletter Think. 


Tipi di attacchi di data poisoning

Gli attacchi di data poisoning possono assumere varie forme, tra cui label flipping, data injection, attacchi backdoor e attacchi clean-label. Ogni tipologia prende di mira aspetti diversi delle funzioni di un modello AI. 

Label flipping

Negli attacchi di label flipping, i criminali informatici manipolano le etichette nei dati di addestramento, scambiando quelle corrette con quelle sbagliate. Un esempio è quello di Nightshade, uno strumento di AI poisoing sviluppato dall'Università di Chicago. Nightshade consente agli artisti digitali di modificare sottilmente i pixel delle proprie immagini prima di caricarle online. Quando le aziende di AI raccolgono set di dati online per addestrare i modelli AI, le immagini alterate disturbano il processo di addestramento. Questa manipolazione può far sì che i modelli AI eseguano le classificazioni in modo sbagliato oppure si comportino in modo imprevedibile, a volte scambiando immagini di mucche per borse in pelle.1

Data injection

La data injection introduce punti di dati falsificati nel set di dati di addestramento, spesso per orientare il comportamento del modello AI in una direzione specifica. Un esempio comune è la SQL injection, in cui i criminali aggiungono "1=1" o "=" in un campo di input. Se inclusi in una query SQL, questi dati dannosi alterano il significato della query SQL, restituendo tutti i record invece di uno solo.2 Allo stesso modo, nei modelli di machine learning, la data injection può manipolare il processo decisionale del modello. Questo può far sì che il modello sbagli la classificazione o presenti dei bias, compromettendo l'integrità dei dati e la robustezza generale del modello.

Attacchi backdoor

Gli attacchi backdoor sono pericolosi perché introducono sottili manipolazioni, come rumori di fondo impercettibili nell'audio o filigrane impercettibili nelle immagini. In questo modo il sistema di AI funziona normalmente nella maggior parte delle condizioni. Tuttavia, quando viene rilevato un input specifico di trigger, il modello si comporta in un modo vantaggioso per il criminale informatico. Nel caso dei modelli open source, dove l'accesso ai dati di addestramento e agli algoritmi potrebbe essere meno limitato, questi attacchi possono essere particolarmente dannosi. ReversingLabs ha segnalato un aumento delle minacce, pari a più del 1300%, che circolano nei repository open source dal 2020 al 2023.3

Attacchi clean-label

Negli attacchi clean-label, i criminali informatici modificano i dati in modi difficili da rilevare. La caratteristica principale è che i dati avvelenati appaiono ancora correttamente etichettati, rendendone difficile l'identificazione da parte dei metodi tradizionali di validazione dei dati. Questi attacchi utilizzano la complessità dei moderni sistemi di machine learning e deep learning, che possono non segnalare piccole modifiche apparentemente innocue. Gli attacchi clean label sono tra i più subdoli e lasciano i modelli AI vulnerabili a output distorti, degradandone le funzioni.

Data poisoning e prompt injection a confronto

Sebbene data poisoning e prompt injection abbiano come obiettivo diverse fasi del ciclo di vita dell'AI, condividono un obiettivo comune: approfittare delle vulnerabilità degli input. Il data poisoning manipola i set di dati di addestramento, incorporando dati danneggiati o dannosi che possono compromettere il processo di apprendimento e la funzionalità di un modello nel lungo periodo. Al contrario, con la prompt injection, gli input dannosi vengono mascherati da prompt legittimi, manipolando i sistemi di AI generativa per fare trapelare dati sensibili, diffondere misinformazione o peggio.

Esempi di data poisoning

  • Data poisoning mirato: gli hacker avvelenano i dati di addestramento di un modello di cybersecurity etichettando i campioni di malware come sicuri, affinché il modello ignori minacce specifiche. 

  • Data poisoning non mirato: i criminali informatici inseriscono dati distorti nel set di dati di addestramento di un filtro anti-spam, riducendone complessivamente l'accuratezza e l'affidabilità.

Esempi di prompt injection

  • Prompt injection diretta: un hacker incorpora un comando in un'interazione con un chatbot per aggirare le protezioni e rivelare i dati sensibili dell'account.

  • Prompt injection indiretta: un criminale informatico nasconde in una pagina web delle istruzioni che inducono un assistente AI a promuovere link di phishing nel suo output.

Gli hacker possono implementare queste strategie separatamente o in tandem per amplificarne l'impatto. Ad esempio, un insider con accesso ai sistemi di un'organizzazione potrebbe teoricamente avvelenare un set di dati di addestramento incorporando dati faziosi o distorti, aggirando le misure di convalida. Successivamente, l'insider potrebbe utilizzare il sistema compromesso eseguendo una prompt injection, attivando i dati avvelenati e innescando comportamenti dannosi. Ciò potrebbe includere la fuga di informazioni sensibili, la creazione di una backdoor per ulteriori attacchi contraddittori o l'indebolimento delle funzionalità del processo decisionale del sistema.

Mixture of Experts | 25 aprile, episodio 52

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Impatto del data poisoning sui modelli AI

Il data poisoning può avere una vasta gamma di impatti sui modelli AI e ML, influendo sia sulla loro sicurezza che sulle loro prestazioni.

Classificazione errata e prestazioni ridotte

I set di dati di addestramento avvelenati possono far sì che i modelli di machine learning classifichino erroneamente gli input, minando l'affidabilità e le funzioni dei modelli AI. Nelle applicazioni rivolte ai consumatori, ciò può causare consigli inesatti che erodono la fiducia e l'esperienza dei clienti. Allo stesso modo, nella gestione della supply chain, i dati avvelenati possono causare previsioni errate, ritardi ed errori, danneggiando sia le prestazioni che l'efficacia del business. Queste classificazioni errate espongono vulnerabilità nei dati di addestramento e possono compromettere la robustezza complessiva dei sistemi di AI. 

Bias e processi decisionali distorti

Il data poisoning può anche amplificare i pregiudizi esistenti nei sistemi di AI. I criminali informatici possono prendere di mira sottoinsiemi specifici di dati, ad esempio un particolare dato demografico, per introdurre input distorti. Questo può far sì che i modelli AI operino in modo ingiusto o impreciso. Ad esempio, i modelli di riconoscimento facciale addestrati con dati distorti o avvelenati potrebbero identificare erroneamente le persone di determinati gruppi, generando risultati discriminatori. Questi tipi di attacchi possono influire sia sull'equità che sull'accuratezza dei modelli di machine learning (ML) in varie applicazioni, dalle decisioni sulle assunzioni alla sorveglianza delle forze dell'ordine.

Vulnerabilità della sicurezza e minacce backdoor

Il data poisoning può aprire la porta ad attacchi più sofisticati, come gli attacchi di inversione, in cui gli hacker tentano di decodificare i dati di addestramento del modello. Quando un utente malintenzionato ha avvelenato con successo i dati di addestramento, può approfittare ulteriormente di queste vulnerabilità per lanciare altri attacchi aggressivi o attivare azioni backdoor. Nei sistemi progettati per attività sensibili, come la diagnostica sanitaria o la cybersecurity, questi rischi per la sicurezza possono essere particolarmente pericolosi.

Mitigare i rischi del data poisoning

Per difendersi dagli attacchi di data poisoning, le organizzazioni possono implementare strategie per garantire l'integrità dei set di dati, migliorare la robustezza dei modelli e monitorare continuamente i modelli AI. 

Convalida e pulizia dei dati

Una strategia di difesa fondamentale contro il data poisoning consiste nella convalida e nella pulizia  dei dati di addestramento prima dell'uso. L'implementazione dei processi di convalida dei dati durante la fase di addestramento può aiutare a identificare e rimuovere i punti di dati sospetti o corrotti prima che abbiano un impatto negativo sul modello. Questo passaggio è essenziale per prevenire l'introduzione di dati dannosi nei sistemi di AI, soprattutto quando si utilizzano fonti di dati o modelli open source in cui l'integrità è più difficile da mantenere.

Addestramento contraddittorio e maggiore robustezza

L'addestramento contraddittorio è un metodo proattivo per difendersi dal data poisoning e da altri tipi di attacchi. Introducendo intenzionalmente esempi contraddittori nei modelli di addestramento, gli sviluppatori possono insegnare al modello a riconoscere e resistere ai dati contaminati, migliorandone così la resistenza alla manipolazione. Nelle applicazioni ad alto rischio come i veicoli a guida autonoma o la sicurezza dell'AI, l'addestramento contraddittorio è un passaggio fondamentale per rendere i modelli AI e ML più solidi e affidabili.

Monitoraggio continuo e rilevamento delle anomalie

Una volta implementati, i sistemi AI possono essere monitorati continuamente per rilevare comportamenti insoliti che potrebbero indicare un attacco di data poisoning. Gli strumenti di rilevamento delle anomalie, come gli algoritmi di riconoscimento dei pattern, possono aiutare i team addetti alla sicurezza a identificare le discrepanze sia negli input che negli output e a rispondere rapidamente se un sistema è compromesso. L'audit continuo è particolarmente importante per le applicazioni di AI generativa come ChatGPT, dove gli aggiornamenti in tempo reale dei dati di addestramento e del comportamento dei modelli possono essere critici nella prevenzione degli usi impropri. Se viene rilevata un'anomalia, il modello può essere messo in pausa o rivalutato per evitare ulteriori danni.

Controllo degli accessi e misure di sicurezza

L'implementazione di rigorosi controlli degli accessi è un'altra strategia per mitigare i rischi di data poisoning. Limitando chi può modificare i repository e i set di dati di addestramento si può ridurre il rischio di manomissioni non autorizzate. Inoltre, l'integrazione di misure di sicurezza come la crittografia può aiutare a proteggere le fonti di dati e i sistemi AI dagli attacchi esterni. Negli ambienti ad alto rischio, come la sanità e la cybersecurity, severi controlli di sicurezza possono contribuire a garantire che i modelli di machine learning rimangano sicuri e affidabili.

Note a piè di pagina

1 What is Nightshade, University of Chicago, 2024.

2 SQL Injection, W3 Schools. 

3 Key Takeaways from the 2024 State of SSCS Report, ReversingLabs, 16 gennaio 2024.

Soluzioni correlate
IBM watsonx.governance™

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni per la sicurezza e la protezione dei dati

Proteggi i dati aziendali in ambienti diversi, rispetta le normative sulla privacy e semplifica le complessità operative.

Scopri le soluzioni per la sicurezza dei dati
Servizi per la sicurezza dei dati

IBM offre servizi completi di sicurezza dei dati per proteggere i dati aziendali, le applicazioni e l'AI.

Scopri i servizi per la sicurezza dei dati
Fai il passo successivo

Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.

Esplora watsonx.governance Prenota una demo live