Los ataques a la privacidad explotan las peculiaridades de los sistemas de IA para inferir o extraer indirectamente información sensible que formaba parte de su conjunto de datos de entrenamiento. En teoría, los modelos de ML no están destinados a "recordar" los datos con los que se entrenan: extraen patrones útiles a través de los conjuntos de datos y no retienen los datos con los que se entrenan, como lo haría un disco duro. Sin embargo, la realidad de la "memoria" de la IA es más compleja. En la práctica, los investigadores han observado que, en algunos aspectos, los modelos parecen "recordar" sus datos de entrenamiento. En particular, los sistemas de ML a menudo expresan niveles de confianza más altos en sus predicciones cuando esas predicciones se relacionan con puntos de datos que vieron en el entrenamiento. (Aunque los chatbots de consumo como ChatGPT no muestran puntuaciones de confianza, a menudo se puede acceder a estos valores a través de API de desarrollador o herramientas de investigación).
En un método de ataque a la privacidad conocido como inferencia de pertenencia, un atacante podría ser capaz de inferir información sensible sobre alguien: por ejemplo, si ha sido paciente de un centro psiquiátrico. Mientras el atacante tenga algunos datos sobre una persona determinada (quizá un historial médico parcial), ese atacante podría consultar un modelo conocido por haberse entrenado con conjuntos de datos sensibles (por ejemplo, registros de centros psiquiátricos). Al observar las puntuaciones de confianza devueltas por el modelo, el atacante podría inferir que su objetivo era efectivamente un miembro del grupo utilizado para entrenar el modelo.
Un ataque de inversión de modelos va más allá y, básicamente, permite al adversario aplicar ingeniería inversa a los datos reales que entrenaron el modelo. El atacante puede hacerlo utilizando técnicas de fuerza bruta, utilizando iterativamente las puntuaciones de confianza devueltas por el modelo como guía para convertir datos aleatorios y ruidosos en algo que realmente se asemeje a datos de entrenamiento reales para el modelo. Por ejemplo, en 2015, investigadores académicos pudieron explotar las puntuaciones de confianza de un modelo de reconocimiento facial para reconstruir imágenes que se aproximaban a las caras reales utilizadas para entrenar el modelo. Lo hicieron empezando con una imagen de ruido puro, ajustando la imagen de forma iterativa y utilizando las puntuaciones de confianza de la salida del modelo como guía para el siguiente ajuste5.