Los ataques a la privacidad explotan las peculiaridades de los sistemas de IA para inferir o extraer indirectamente información confidencial que formaba parte de su conjunto de datos de entrenamiento. En teoría, los modelos de machine learning (ML) no están destinados a “recordar” los datos en los que se entrenan, sino que extraen patrones útiles a través de conjuntos de datos y no retienen los datos en los que se entrenan, como lo haría un disco duro. Sin embargo, la realidad de la “memoria” de la IA es, de hecho, más compleja. En la práctica, los investigadores han observado que en algunos aspectos, los modelos sí parecen “recordar” sus datos de entrenamiento. En particular, los sistemas de ML a menudo expresarán niveles de confianza más altos en sus predicciones cuando esas predicciones se relacionen con puntos de datos que vieron en el entrenamiento. (Si bien los chatbots de consumo como ChatGPT no muestran puntajes de confianza, a menudo se puede acceder a estos valores a través de API de desarrollador o herramientas de investigación).
En un método de ataque a la privacidad conocido como inferencia de membresía, un atacante podría ser capaz de inferir información sensible sobre alguien: por ejemplo, si había sido un paciente en un centro psiquiátrico. Siempre y cuando el atacante tenga algunos datos sobre una persona determinada (tal vez un historial médico parcial), ese atacante podría consultar un modelo que se sabe que se ha entrenado en conjuntos de datos confidenciales (por ejemplo, registros de centros psiquiátricos). Al observar las puntuaciones de confianza devueltas por el modelo, el atacante podría inferir que su objetivo era efectivamente un miembro del grupo utilizado para entrenar el modelo.
Un ataque de inversión de modelo va más allá, ya que básicamente permite a un adversario realizar ingeniería inversa con los datos reales que se utilizaron para entrenar el modelo. El atacante puede hacerlo mediante técnicas de fuerza bruta, utilizando iterativamente las puntuaciones de confianza devueltas por el modelo como guía para convertir datos aleatorios y ruidosos en algo que realmente se asemeje a datos de entrenamiento reales para el modelo. Por ejemplo, en 2015, los investigadores académicos pudieron explotar las puntuaciones de confianza de un modelo de reconocimiento facial para reconstruir imágenes que se aproximaban a los rostros reales utilizados para entrenar el modelo. Para ello, comenzaron con una imagen de ruido puro, modificaron la imagen de forma iterativa y utilizaron las puntuaciones de confianza de los resultados del modelo para guiar la siguiente modificación.5