Si bien la protección de datos en general ha sido una preocupación durante mucho tiempo, el término “protección de los datos de la IA” reconoce que la tecnología emergente de inteligencia artificial trae consigo nuevos riesgos y preocupaciones sobre la privacidad.
Durante el entrenamiento, los sistemas de IA aprenden de vastos conjuntos de datos. El conjunto de datos Common Crawl en el que se entrenan muchos modelos contiene más de 9,5 petabytes de datos1. Muchas personas que usan la IA a diario también pueden estar alimentando a los sistemas con datos sensibles, sin ser plenamente conscientes de que están erosionando su privacidad individual. Y a medida que la implementación de la IA se extiende a una era de agentes de IA, nuevos tipos de violaciones de la privacidad se hacen posibles en ausencia de controles de acceso adecuados o de gobierno de la IA.
Los modelos de IA no solo procesan más datos, sino que también gestionan los datos de forma diferente a los sistemas heredados. Si un software tradicional expone accidentalmente información confidencial, un ingeniero puede entrar y depurar el código. Pero los modelos de IA (incluidos los modelos de lenguaje de gran tamaño, como ChatGPT) no se codifican sino que se hacen para evolucionar mediante un proceso llamado machine learning. Sus propios creadores no saben exactamente cómo funcionan, lo que hace que la "depuración" no sea trivial, si no imposible.
Las salidas accidentales son un motivo de preocupación, pero las organizaciones también deben estar atentas a los ataques deliberados y maliciosos. Los investigadores han demostrado que las herramientas de IA contienen nuevos tipos de vulnerabilidades que los hackers inteligentes pueden explotar, un campo conocido como machine learning adversarial.
En los últimos años, por ejemplo, los expertos en ciberseguridad han demostrado que al explotar una peculiaridad de los modelos de IA, es decir, que sus resultados reciben puntuaciones de confianza más altas cuando responden a los datos con los que se han entrenado, un actor malicioso puede inferir si ciertos datos estaban en un conjunto de entrenamiento. En ciertos escenarios, esa inferencia constituiría una vulneración importante de la privacidad. Por ejemplo, consideremos un modelo de IA que se sabe que se ha entrenado con historiales médicos privados de pacientes VIH positivos.
En otro caso bien conocido, los investigadores fueron más allá de simplemente inferir si los datos estaban en un conjunto de entrenamiento. Crearon un ataque algorítmico que podía aplicar ingeniería inversa de forma eficaz a los datos reales que se utilizaban para entrenar un modelo. Al explotar un aspecto de los modelos de IA conocido como sus "gradientes", los investigadores pudieron refinar iterativamente una imagen llena de ruido en una imagen que se aproximaba mucho a una cara real que se había utilizado para entrenar un modelo de reconocimiento facial2.
Las apuestas en torno a la protección de datos siguen siendo altas: el informe "Cost of a Data Breach" de 2025 de IBM determinó que el coste medio de dichas vulneraciones fue de 4,4 millones de dólares. (Estas violaciones también conllevan un coste difícil de cuantificar en forma de pérdida de confianza pública en la propia marca.)
Aunque muchas de estas vulneraciones de datos no implican a la IA, cada vez son más las que sí lo hacen. El informe del índice de IA de 2025 de Stanford reveló que el número de incidentes de privacidad y seguridad de la IA aumentó un 56,4 % en un año, con 233 casos notificados en 20243.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
Los responsables políticos de todo el mundo han afirmado que las tecnologías de IA no deberían estar exentas de la responsabilidad de las protecciones básicas de la privacidad. El Reglamento General de Protección de Datos (RGPD) de la Unión Europea, considerado durante mucho tiempo una base para la gestión de datos personales (sin importar la jurisdicción), se aplica al uso de sistemas de IA por parte de las empresas. Los principios del RGPD incluyen la minimización de datos (recopilar solo los datos mínimos necesarios para un propósito), la transparencia (informar a los usuarios de cómo se utilizan los datos) y la limitación del almacenamiento (retener los datos no más de lo necesario).
El año 2024 fue un año histórico en este ámbito, cuando varios reguladores comenzaron a aplicar leyes de privacidad en casos relacionados con aplicaciones de IA.
Por ejemplo, en 2024 la Comisión de Protección de Datos de Irlanda multó a la red social LinkedIn con 310 millones de euros por una violación de la privacidad relacionada con la IA. LinkedIn rastreaba ciertos comportamientos sutiles de los usuarios, como el tiempo que una persona permanecía en una publicación. A continuación, el sitio utilizó la IA para derivar inferencias sobre estos usuarios (como si buscaban activamente nuevos trabajos o si corrían un alto riesgo de agotamiento). Estos perfiles se utilizaron luego para segmentar la publicidad y actualizar ciertos sistemas internos de clasificación de LinkedIn.
La comisión irlandesa determinó finalmente que, a pesar de cierta aparente anonimización, estas inferencias derivadas de la IA podrían rastrearse hasta los datos de individuos identificables, infringiendo así las leyes de protección de datos. Los tribunales dictaminaron que LinkedIn no respetó el principio del RGPD de limitación de finalidad, ni obtuvo el consentimiento informado de los usuarios, violando así la privacidad del consumidor. La sentencia también obligó a LinkedIn a implementar mecanismos de consentimiento en tiempo real y a revisar los valores predeterminados de su configuración de personalización publicitaria4.
También en 2024, una acción policial contra la empresa de reconocimiento facial Clearview AI ilustró el principio de que los datos biométricos (como las fotos de rostros) plantean más problemas de privacidad, incluso si los datos están técnicamente disponibles públicamente (como en una cuenta de redes sociales no segura).
Clearview había extraído 30 mil millones de imágenes de sitios como Facebook e Instagram, argumentando que la empresa no necesitaba el permiso de los usuarios, ya que las fotos estaban disponibles públicamente en línea. Esta operación masiva de recopilación de datos impulsó luego el desarrollo por parte de Clearview de una base de datos de reconocimiento facial impulsada por IA.
Las fuerzas del orden holandesas criticaron el enfoque de Clearview. La Autoridad Holandesa de Protección de Datos finalmente impuso una multa de 30,5 millones de euros a la empresa, al considerar que se violaron los derechos individuales de los ciudadanos holandeses incluidos en la recopilación de datos de Clearview5.
Por último, en 2024 la Unión Europea amplió la regulación específica de la IA con su Ley de IA, que entró en vigor en agosto de ese año. El mandato de la ley va más allá de los datos relacionados con la IA y se extiende a los riesgos de la IA y al desarrollo de la IA en general. Sin embargo, muchas de sus disposiciones se refieren a la seguridad de datos, el intercambio de datos y el gobierno de datos. Por citar un ejemplo destacado: La ley prohíbe los sistemas de identificación biométrica que utilicen datos y modelos de IA para identificar a las personas en función de atributos sensibles como la raza, la religión o la orientación sexual.
En este panorama tan cambiante, en el que la necesidad de adoptar la innovación parece estar en tensión con la necesidad de hacerlo de manera responsable, ¿qué medidas pueden tomar las empresas para lograr este equilibrio? Se pueden escribir libros enteros sobre el tema, pero algunos principios pueden empezar a guiar a la empresa a la hora de implementar la IA de manera responsable.
Los viejos paradigmas de seguridad de datos son insuficientes cuando los datos se consumen, procesan y producen en múltiples etapas del ciclo de vida de un modelo de IA. Los administradores de datos, los profesionales de cumplimiento y otros stakeholders deben prestar atención a la integridad de sus datos de formación, idealmente realizando auditorías de riesgo para la privacidad. Una empresa afirma haber encontrado 12 000 claves de API y contraseñas en el conjunto de datos de Common Crawl6.
Y cuando se trata del uso de los big data generados por la actividad de una empresa, normas como el RGPD y los reglamentos de privacidad relacionados pueden ser guías útiles.
La IA es un campo muy activo, con nuevas investigaciones y descubrimientos casi a diario. Es importante que los profesionales de la ciberseguridad estén al día con los últimos avances tecnológicos, para así parchear vulnerabilidades antes de que un actor de amenazas las explote.
Las empresas pueden utilizar tecnologías que mejoren la privacidad, como el aprendizaje federado, la privacidad diferencial y los datos sintéticos. Como siempre, pueden insistir en controles de acceso estrictos para evitar el acceso no autorizado por parte de humanos y agentes de IA por igual.
A medida que más empresas utilicen la IA generativa y otras tecnologías de IA para automatizar la toma de decisiones, los ejecutivos deberían adoptar una perspectiva de privacidad en las prácticas impulsadas por la IA, en las que la noción de "datos" podría haberse vuelto confusa. Este principio se pone de manifiesto en la sentencia de LinkedIn mencionada anteriormente: en algunas circunstancias, sacar inferencias basadas en patrones de datos, aunque pueda tener un brillo de anonimización, puede entrar en conflicto con el RGPD y las regulaciones relacionadas.
A medida que la IA se vuelve más poderosa para detectar patrones, podría subvertir nociones arraigadas sobre lo que constituyen datos "anonimizados". Un estudio de 2019 en Nature mostró que con el modelo generativo adecuado, "el 99,98 % de los estadounidenses podrían reidentificarse correctamente en cualquier conjunto de datos utilizando 15 atributos demográficos". El hallazgo sugiere que la noción misma de lo que constituyen los datos personales está experimentando una transformación7.
Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.
Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.
Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.
1. “Mozilla Report: How Common Crawl’s Data Infrastructure Shaped the Battle Royale over Generative AI”. Mozilla. 6 de febrero de 2024.
2. “Model Inversion Attacks that Exploit Confidence Information and Basic Countermeasures”. CCS’15. Octubre de 2015.
3. “The 2025 AI Index Report”. Stanford HAI (Human-Centered Artificial Intelligence). Abril de 2025.
4. “Fines for GDPR violations in AI systems and how to avoid them”. Oficina de Protección de Datos de la UE. 16 de octubre de 2025.
5. “Dutch DPA imposes a fine on Clearview because of illegal data collection for facial recognition”. Autoriteit Persoonsgegevens. 3 de septiembre de 2024.
6. “Research finds 12,000 ‘Live’ API Keys and Passwords in DeepSeek’s Training Data”. Truffle Security. 27 de febrero de 2025.
7. “Estimating the success of re-identifications in incomplete datasets using generative models”. Nature Communications. 23 de julio de 2019.