Les attaques sur la vie privée exploitent les anomalies des systèmes d’IA afin d’inférer ou d’extraire indirectement les informations sensibles qui faisaient partie de leur jeu de données d’entraînement. En théorie, les modèles de ML ne sont pas censés « se souvenir » des données sur lesquelles ils s’entraînent. Ils extraient les schémas utiles des jeux de données sans retenir les données sur lesquelles ils s’entraînent, comme le ferait un disque dur. La réalité de la « mémoire » de l’IA est en fait plus complexe. En pratique, les chercheurs ont observé qu’à certains égards, les modèles semblent bien « se souvenir » de leurs données d’entraînement. En particulier, les systèmes ML expriment souvent un niveau de confiance plus élevé dans leurs prédictions lorsque ces dernières se rapportent à des points de données qu’ils ont vus lors de l’entraînement. (Bien que les chatbots grand public comme ChatGPT n’affichent pas de score de confiance, ces valeurs sont souvent accessibles grâce aux API de développement ou aux outils de recherche.)
Grâce à une méthode d’attaque sur la vie privée connue sous le nom d’inférence d’appartenance, l’attaquant peut déduire des informations sensibles au sujet d’une personne (par exemple, si elle a été hospitalisée en psychiatrie). Dès lors que l’attaquant dispose de données sur une personne (par exemple, un dossier médical partiel), il peut interroger un modèle connu pour s’être entraîné sur des jeux de données sensibles (par exemple, les dossiers d’un établissement psychiatrique). En observant les scores de confiance renvoyés par le modèle, il peut déduire que sa cible faisait effectivement partie du groupe utilisé pour entraîner le modèle.
Les attaques par inversion de modèle vont plus loin, permettant essentiellement à l’adversaire de procéder à une rétro-ingénierie des données qui ont servi à entraîner le modèle. Pour ce faire, l’attaquant peut employer des techniques par force brute, en utilisant de manière itérative les scores de confiance renvoyés par le modèle pour transformer les données aléatoires et bruyantes en quelque-chose qui ressemble à des données pour entraîner le modèle. Par exemple, en 2015, des chercheurs universitaires ont réussi à exploiter les scores de confiance d’un modèle de reconnaissance faciale pour reconstruire des images proches des visages utilisés pour entraîner le modèle. Pour ce faire, ils ont commencé par une image complètement bruitée, ils l’ont modifiée de manière itérative, et ils ont utilisé les scores de confiance associés aux sorties du modèle pour guider les modifications ultérieures.5