Guida alla privacy dei dati per AI e machine learning

Persona che protegge i dati digitali su un tablet con un lucchetto e un'icona di spunta.

Sebbene la privacy dei dati in generale sia da tempo fonte di preoccupazione, il termine "privacy dei dati dell'AI" riconosce che la tecnologia emergente dell'AI comporta nuovi rischi e problemi di privacy.  

Durante l'addestramento, i sistemi di AI apprendono da vasti set di dati. Il set di dati Common Crawl su cui vengono addestrati molti modelli contiene oltre 9,5 petabyte di dati.1 Molte persone che utilizzano l'AI quotidianamente potrebbero anche fornire ai sistemi dati sensibili, senza rendersi pienamente conto di stare compromettendo la propria privacy individuale. E con l'implementazione dell'AI che si muove verso un'era di agenti AI, in assenza di adeguati controlli di accesso o governance dell'AI diventano possibili nuovi tipi di violazioni della privacy.

Un panorama del rischio trasformato

I modelli AI non si limitano a elaborare più dati, ma li gestiscono anche in modo diverso dai sistemi legacy. Se un software tradizionale rivela accidentalmente informazioni sensibili, un ingegnere può entrare ed eseguire il debug del codice. Ma i modelli AI (inclusi modelli linguistici di grandi dimensioni come ChatGPT) non si basano tanto sulla codifica quanto più su un'evoluzione attraverso un processo chiamato machine learning. I loro creatori non sanno esattamente come funzionano, il che rende il "debugging" alquanto complicato, se non impossibile.

Gli output accidentali rappresentano una categoria di preoccupazione, ma le organizzazioni devono anche diffidare degli attacchi deliberati e dannosi. I ricercatori hanno dimostrato che gli strumenti di AI contengono nuovi tipi di vulnerabilità che gli hacker più furbi possono sfruttare, un settore noto come adversarial machine learning. 

Negli ultimi anni, ad esempio, gli esperti di cybersecurity hanno dimostrato che sfruttando una particolarità dei modelli di IA, ovvero che i loro output ricevono punteggi di confidenza più alti quando rispondono ai dati su cui si sono addestrati, un malintenzionato può dedurre se certi dati fossero in un set di addestramento. In alcuni scenari, una tale deduzione rappresenterebbe una grave violazione della privacy. Ad esempio, consideriamo un modello AI noto per essere stato addestrato sulle cartelle cliniche private di pazienti positivi all'HIV.

In un altro caso molto noto, i ricercatori sono andati oltre la semplice deduzione della presenza di dati in un set di addestramento. Hanno creato un attacco algoritmico in grado di effettuare efficacemente l'ingegneria inversa dei dati realmente utilizzati per addestrare un modello. Sfruttando un aspetto dei modelli AI noto come "gradienti", i ricercatori sono stati in grado di perfezionare iterativamente un'immagine piena di rumore in un'immagine che si avvicinava molto a un volto reale che era stato utilizzato per addestrare un modello di riconoscimento facciale.2

La posta in gioco intorno alla protezione dei dati rimane alta: il Report Cost of a Data Breach del 2025 di IBM® ha stabilito che il costo medio di tali violazioni è stato di 4,4 milioni di dollari. (Tali violazioni comportano anche un costo difficile da quantificare, sotto forma di danno alla fiducia del pubblico nei confronti del marchio.)

Sebbene molte di queste violazioni dei dati non coinvolgano l'AI, un numero crescente di esse lo fa. Il report AI Index 2025 di Stanford ha rilevato che il numero di incidenti di privacy e sicurezza dell'AI è aumentato del 56,4% in un anno, con 233 casi segnalati nel 2024.3

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Un ambiente normativo in evoluzione

I responsabili politici di tutto il mondo hanno affermato che le tecnologie AI non dovrebbero in alcun modo essere esentate dalla responsabilità delle protezioni di base della privacy. Il Regolamento Generale sulla Protezione dei Dati (RGPD) dell'Unione Europea, da tempo considerato un punto di riferimento per la gestione dei dati personali (indipendentemente dalla giurisdizione), si applica all'uso di sistemi di AI da parte delle aziende. I principi dell'RGPD includono la minimizzazione dei dati (raccolta solo dei dati minimi necessari per uno scopo), la trasparenza (informare gli utenti su come vengono utilizzati i dati) e la limitazione della conservazione (conservare i dati non più del necessario).

Il 2024 è stato un anno fondamentale in questo settore, diverse autorità di regolamentazione hanno infatti iniziato a far rispettare le leggi sulla privacy nei casi che coinvolgono applicazioni di AI.

Ad esempio, nel 2024 la Commissione per la protezione dei dati irlandese ha multato il social network LinkedIn per 310 milioni di euro a causa di una violazione della privacy legata all'AI. LinkedIn ha monitorato alcuni comportamenti inconsci degli utenti, ad esempio per quanto tempo una persona si soffermava su un post. Il sito ha poi utilizzato l'AI per trarre conclusioni su questi utenti (ad esempio se cercavano attivamente un nuovo lavoro o se erano ad alto rischio di burnout). Questa profilazione veniva poi utilizzata per personalizzare la pubblicità e aggiornare alcuni sistemi interni di classificazione su LinkedIn.

La commissione irlandese ha infine stabilito che, nonostante una certa apparenza di anonimizzazione, queste inferenze derivate dall'AI potrebbero essere ricondotte ai dati degli individui identificabili, violando così le leggi sulla privacy dei dati. I tribunali hanno stabilito che LinkedIn non rispettava il principio dell'RGPD di limitazione dello scopo, né otteneva il consenso informato dagli utenti, violando così la privacy dei consumatori. La sentenza ha inoltre costretto LinkedIn a implementare meccanismi di consenso in tempo reale e a rivedere le impostazioni predefinite delle impostazioni di personalizzazione della pubblicità.4

Sempre nel 2024, un'azione delle forze dell'ordine contro la società di riconoscimento facciale Clearview AI ha illustrato il principio secondo cui i dati biometrici (come le foto dei volti) pongono ulteriori questioni di privacy, anche se i dati sono tecnicamente disponibili pubblicamente (ad esempio su un account social non protetto).

Clearview aveva raccolto 30 miliardi di immagini da siti come Facebook e Instagram, sostenendo che l'azienda non aveva bisogno del permesso degli utenti, poiché le foto erano disponibili pubblicamente online. Questa massiccia operazione di raccolta dati è poi stata la base per lo sviluppo da parte di Clearview di un database di riconoscimento facciale basato su AI.

I funzionari delle forze dell'ordine olandesi hanno criticato l'approccio di Clearview. L'Autorità olandese per la protezione dei dati ha infine imposto all'azienda una multa di 30,5 milioni di euro, ritenendo violati i diritti individuali dei cittadini olandesi inclusi nella raccolta dati di Clearview.5

Infine, il 2024 ha visto l'Unione europea ampliare la regolamentazione specifica sull'AI con la sua Legge sull'IA, entrata in vigore nell'agosto dello stesso anno. L'ambito di applicazione della legge non si limita ai dati relativi all'AI, ma si estende ai rischi dell'AI e al suo sviluppo in senso più ampio). Tuttavia, molte delle sue disposizioni riguardano la sicurezza, la condivisione e la governance dei dati. Per citare un esempio importante: la legge vieta sistemi di identificazione biometrica che utilizzano dati e modelli AI per identificare individui in base a attributi sensibili come razza, religione o orientamento sessuale.

AI Academy

Fiducia, trasparenza e governance in tema di AI

La fiducia nell'AI è senza dubbio il tema più importante per quanto concerne l'AI. Comprensibilmente, si tratta anche di un tema di estrema complessità. Analizzeremo pertanto aspetti quali le allucinazioni, i bias e i rischi, condividendo spunti e suggerimenti per un'adozione dell'AI che sia etica, responsabile ed equa.

Principi per ridurre al minimo il rischio per la privacy dei dati dell'AI

In questo panorama in rapida evoluzione, con la necessità di abbracciare l'innovazione ma di farlo in maniera responsabile, quali passi potrebbero intraprendere le aziende per raggiungere questo equilibrio? Si possono scrivere interi libri sull'argomento, ma alcuni principi possono iniziare a guidare l'azienda nell'implementazione responsabile dell'AI.

Gestire l'intero ciclo di vita dei dati dell'AI

I vecchi paradigmi di sicurezza dei dati sono insufficienti quando i dati vengono acquisiti, elaborati e prodotti in più fasi del ciclo di vita dei modelli AI. I custodi dei dati, i professionisti della conformità e altri stakeholder dovrebbero prestare attenzione all'integrità dei loro dati di addestramento, idealmente conducendo audit per i rischi di privacy. Un'azienda afferma di aver trovato 12.000 chiavi API e password nel set di dati di Common Crawl.6

E quando si tratta dell'uso dei big data generati dall'attività di un'azienda, standard come l'RGPD e le relative normative sulla privacy possono essere guide utili.

Rimanere all'avanguardia in ambito di cybersecurity

L'AI è un campo altamente attivo, con nuove ricerche e scoperte che arrivano quasi ogni giorno. È importante che i professionisti della cybersecurity restino aggiornati sugli ultimi progressi tecnologici, così da poter correggere le vulnerabilità prima che un attore minaccioso le sfrutti.

Le aziende possono utilizzare tecnologie che migliorano la privacy come l'apprendimento federato, la privacy differenziale e i dati sintetici. Come sempre, possono insistere su controlli di accesso rigorosi per impedire l'accesso non autorizzato da parte di esseri umani e agenti AI.

Processo decisionale informato sulla privacy

Man mano che sempre più aziende utilizzano l'AI generativa e altre tecnologie di AI per automatizzare il processo decisionale, i dirigenti dovrebbero adottare una prospettiva incentrata sulla privacy nei confronti delle pratiche basate sull'AI in cui il concetto di "dati" potrebbe essere diventato confuso. Questo principio è evidente nella sentenza LinkedIn menzionata in precedenza: in alcune circostanze, trarre inferenze basate su modelli di dati, sebbene possa avere una parvenza di anonimizzazione, può comunque entrare in conflitto con l'RGPD e le normative correlate.

Man mano che l'AI diventa più potente nell'individuare schemi, potrebbe sovvertire nozioni consolidate su cosa costituisca un dato "anonimizzato". Uno studio del 2019 pubblicato su Nature ha dimostrato che con il giusto modello generativo, "il 99,98% degli americani potrebbe essere correttamente reidentificato in qualsiasi set di dati utilizzando 15 attributi demografici". La scoperta suggerisce che la nozione stessa di ciò che costituisce i dati personali sta subendo una trasformazione.7

Autore

David Zax

Staff Writer

IBM Think

Soluzioni correlate
IBM watsonx.governance™

Gestisci i modelli di AI generativa da qualsiasi luogo ed effettua l'implementazione su cloud o on-premise con IBM watsonx.governance.

Scopri watsonx.governance
Soluzioni di governance dell'AI

Scopri come la governance dell'AI può aiutare ad aumentare la fiducia dei suoi dipendenti nell'AI, accelerare l'adozione e l'innovazione e migliorare la fidelizzazione dei clienti.

Scopri le soluzioni di governance dell'AI
Servizi di consulenza sulla governance dell'AI

Preparati alla legge europea sull'AI e definisci un approccio di governance dell'AI responsabile con l'aiuto di IBM Consulting.

Scopri i servizi di governance dell'AI
Prossimi passi

Indirizza, gestisci e monitora l'AI con un singolo portfolio per sviluppare un'AI responsabile, trasparente e spiegabile.

Esplora watsonx.governance Prenota una demo live