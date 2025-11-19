Gli attacchi alla privacy utilizzano le peculiarità dei sistemi di AI per dedurre o estrarre indirettamente informazioni sensibili che facevano parte del loro set di dati di addestramento. In teoria, i modelli di machine learning non sono pensati per "ricordare" i dati su cui si addestrano: estraggono modelli utili tra i set di dati e non conservano i dati originali come farebbe un disco rigido. La realtà della "memoria" dell'AI è però in realtà più complessa. Nella pratica, i ricercatori hanno osservato che, per certi aspetti, i modelli sembrano effettivamente "ricordare" i loro dati di addestramento. In particolare, i sistemi di machine learning spesso esprimono livelli di fiducia più elevati nelle loro previsioni quando queste si riferiscono a dati osservati durante l'addestramento. (Sebbene i chatbot consumer come ChatGPT non mostrino punteggi di fiducia, questi valori sono spesso accessibili tramite API per sviluppatori o strumenti per ricercatori.)

In un metodo di attacco alla privacy noto come inferenza di appartenenza, un criminale potrebbe essere in grado di dedurre informazioni sensibili su qualcuno: ad esempio, se è stato un paziente di una struttura psichiatrica. Finché il criminale ha qualche dato su un determinato individuo (magari una cartella clinica parziale), potrebbe interrogare un modello noto per essersi addestrato su set di dati sensibili (ad esempio, cartelle cliniche di strutture psichiatriche). Osservando i punteggi di fiducia restituiti dal modello, il criminale potrebbe dedurre che il suo obiettivo è effettivamente un membro del gruppo utilizzato per addestrare il modello.

Un attacco di inversione del modello va oltre, consentendo sostanzialmente a un criminale di effettuare l'ingegneria inversa dei dati effettivi che hanno addestrato il modello. Il criminale può riuscirci utilizzando tecniche di forza bruta, utilizzando in modo iterativo i punteggi di confidenza restituiti dal modello come guida su come trasformare dati casuali e rumorosi in qualcosa che assomigli effettivamente ai dati di addestramento reali per il modello. Ad esempio, nel 2015, i ricercatori accademici sono riusciti a sfruttare i punteggi di affidabilità di un modello di riconoscimento facciale per ricostruire immagini che si avvicinavano ai volti reali utilizzati per addestrare il modello. Ciò è stato fatto partendo da un'immagine di solo rumore, modificando iterativamente l'immagine e utilizzando i punteggi di confidenza dell'output del modello per guidare la modifica successiva.5