Guía de privacidad de datos para la IA y el machine learning

Persona que protege datos digitales en una tableta con un candado y un ícono de marca de verificación.

En general, si bien la privacidad de datos ha sido una preocupación durante mucho tiempo, el término “privacidad de datos de la IA” reconoce que la tecnología emergente de inteligencia artificial trae consigo nuevos riesgos y preocupaciones de privacidad.  

Durante el entrenamiento, los sistemas de IA aprenden a partir de enormes conjuntos de datos. El conjunto de datos Common Crawl en el que se entrenan muchos modelos contiene más de 9.5 petabytes de datos.1 Muchas personas que usan la IA a diario también pueden estar alimentando a los sistemas con datos sensibles, sin ser plenamente conscientes de que están erosionando su privacidad individual. Y a medida que el despliegue de la IA se extiende a una era de agentes de IA, surgen nuevos tipos de violaciones de la privacidad debido a la falta de controles de acceso adecuados o de gobernanza de la IA.

Un escenario de riesgos transformado

Los modelos de IA no solo procesan más datos; también manejan los datos de manera diferente a los sistemas heredados. Si un software tradicional expone accidentalmente información confidencial, un ingeniero puede entrar y depurar el código. Pero los modelos de IA (incluidos los modelos de lenguaje grandes como ChatGPT) no están codificados, sino que están hechos para evolucionar a través de un proceso llamado machine learning. Sus propios creadores no saben exactamente cómo funcionan, lo que hace que la “depuración” no sea trivial, si no imposible.

Los resultados son una categoría de preocupación, pero las organizaciones también deben estar alertas ante ataques deliberados y maliciosos. Los investigadores han demostrado que las herramientas de IA contienen nuevos tipos de vulnerabilidades que los hackers inteligentes pueden explotar, un campo conocido como machine learning adversarial. 

En los últimos años, por ejemplo, los expertos en ciberseguridad han demostrado que al explotar una peculiaridad de los modelos de IA, a saber, que sus resultados reciben puntuaciones de confianza más altas al responder a los datos en los que se han entrenado, un actor malicioso puede inferir si ciertos datos estaban en un conjunto de entrenamiento. En ciertos escenarios, tal inferencia sería una violación importante de la privacidad. Por ejemplo, consideremos un modelo de IA que se sabe que se entrenó con historiales médicos privados de pacientes VIH positivos.

En otro ejemplo bien conocido, los investigadores fueron más allá de simplemente inferir si los datos estaban en un conjunto de entrenamiento. Crearon un ataque algorítmico que podía realizar ingeniería inversa de los datos reales que se usaron para entrenar un modelo. Al explotar un aspecto de los modelos de IA conocido como sus “gradientes”, los investigadores pudieron refinar iterativamente una imagen llena de ruido en una imagen que se aproximaba mucho a un rostro real que se utilizó para entrenar un modelo de reconocimiento facial.2

Las apuestas en torno a la protección de datos siguen siendo altas: el Informe del costo de una filtración de datos 2025 de IBM determinó que el costo promedio de tales filtraciones fue de 4.4 millones de dólares. (Estas violaciones también conllevan un costo difícil de cuantificar en forma de pérdida de confianza pública en la propia marca.)

Si bien muchas de estas filtraciones de datos no implican a la IA, un número cada vez mayor sí lo hace. El 2025 AI Index Report de Stanford encontró que el número de incidentes de privacidad y seguridad de IA aumentó un 56.4 % en un año, con 233 casos reportados en 2024.3

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Un entorno normativo en constante evolución

Los responsables de políticas a nivel mundial afirmaron que las tecnologías de IA no deberían de ninguna manera estar exentas de la responsabilidad de proteger la privacidad básica. El Reglamento General de Protección de Datos (RGPD) de la Unión Europea, considerado durante mucho tiempo una línea de referencia para el manejo de datos personales (sin importar la jurisdicción), se aplica al uso de sistemas de IA por parte de las empresas. Los principios del RGPD incluyen la minimización de datos (recopilar solo los datos mínimos necesarios para un propósito), la transparencia (informar a los usuarios sobre cómo se emplean los datos) y la limitación del almacenamiento (no conservar los datos más tiempo del necesario).

El año 2024 fue un año histórico en este ámbito, cuando varios organismos reguladores comenzaron a aplicar las leyes de privacidad en casos relacionados con aplicaciones de IA.

Por ejemplo, en 2024 la Comisión de Protección de Datos de Irlanda multó a la red social LinkedIn con 310 millones de euros por una violación de la privacidad relacionada con la IA. LinkedIn rastreó ciertos comportamientos sutiles de los usuarios, como el tiempo que una persona permanecía en una publicación. Luego, el sitio utilizó la IA para obtener inferencias sobre estos usuarios (por ejemplo, si buscaban activamente nuevos empleos o si tenían un alto riesgo de agotamiento). Esta elaboración de perfiles se utilizó para orientar la publicidad y actualizar ciertos sistemas internos de clasificación de LinkedIn.

La comisión irlandesa finalmente determinó que, a pesar de un aparente anonimato, estas inferencias derivadas de la IA en última instancia podrían rastrearse hasta datos de personas identificables, lo que infringiría las leyes de privacidad de datos. Los tribunales dictaminaron que LinkedIn no respetó el principio del RGPD de limitación de propósito, ni obtuvo el consentimiento informado de los usuarios, violando así la privacidad del consumidor. El fallo también obligó a LinkedIn a implementar mecanismos de consentimiento en tiempo real y revisar los valores predeterminados de su configuración de personalización publicitaria.4

También en 2024, una acción policial contra la empresa de reconocimiento facial Clearview AI ilustró el principio de que los datos biométricos (como fotos de rostros) plantean más problemas de privacidad, incluso si los datos están técnicamente a disposición del público (como en una cuenta de redes sociales no segura).

Clearview había extraído 30 000 millones de imágenes de sitios como Facebook e Instagram, argumentando que la empresa no necesitaba el permiso de los usuarios, ya que las fotos estaban disponibles públicamente en línea. Esta operación masiva de recopilación de datos impulsó el desarrollo de Clearview de una base de datos de reconocimiento facial impulsada por IA.

Las autoridades policiales holandesas criticaron duramente el enfoque de Clearview. La Autoridad Holandesa de Protección de Datos finalmente impuso una multa de 30.5 millones de euros a la empresa, considerando que se violaron los derechos individuales de los ciudadanos holandeses incluidos en la recopilación de datos de Clearview.5

Finalmente, en 2024, la Unión Europea amplió la normativa específica sobre la IA con su Ley de IA, que entró en vigor en agosto de ese año. El ámbito de aplicación de la ley es más amplio que los datos relacionados con la IA, ya que se extiende a los riesgos de la IA y al desarrollo de la IA en general. Sin embargo, muchas de sus disposiciones se refieren a la seguridad de los datos, el intercambio de datos y la gobernanza de datos. Por citar un ejemplo destacado: la ley prohíbe los sistemas de identificación biométrica que utilizan datos y modelos de IA para identificar a las personas basándose en atributos sensibles como la raza, la religión o la orientación sexual.

AI Academy

Confianza, transparencia y gobernanza en IA

Es probable que la confianza en la IA sea el tema más importante en el campo de la IA. También es, comprensiblemente, un tema abrumador. Desentrañaremos cuestiones, como las alucinaciones, el sesgo y el riesgo, y compartiremos medidas para adoptar la IA de manera ética, responsable y justa.

Principios para minimizar el riesgo de privacidad de datos de la IA

En este escenario de rápida evolución, con la necesidad de adoptar la innovación aparentemente en tensión con la necesidad de hacerlo de manera responsable, ¿cuáles son las medidas que podrían tomar las empresas para lograr este equilibrio? Se pueden escribir libros enteros sobre el tema, pero algunos principios pueden comenzar a guiar a la empresa, ya que implementa la IA de manera responsable.

Gobernar todo el ciclo de vida de los datos de la IA

Los antiguos paradigmas de seguridad de datos son insuficientes cuando los datos se ingieren, procesan y producen en múltiples etapas del ciclo de vida de un modelo de IA. Los administradores de datos, los profesionales de cumplimiento y otros stakeholders deben prestar atención a la integridad de sus datos de entrenamiento, idealmente realizando auditorías para detectar riesgos de privacidad. Una empresa afirma haber encontrado 12 000 claves API y contraseñas en el conjunto de datos de Common Crawl.6

Y en lo que respecta al uso de los big data generados por la actividad de una empresa, las normas como el RGPD y las regulaciones de privacidad relacionadas pueden ser guías útiles.

Mantener por delante en la carrera armamentística

La IA es un campo muy activo, en el que casi a diario se producen nuevas investigaciones y descubrimientos. Es importante que los profesionales de la ciberseguridad se mantengan al tanto de los últimos avances tecnológicos, para poder corregir mejor las vulnerabilidades antes de que un actor de amenazas las explote.

Las empresas pueden utilizar tecnologías que mejoran la privacidad, como el aprendizaje federado, la privacidad diferencial y los datos sintéticos. Como siempre, pueden insistir en controles de acceso estrictos para evitar el acceso no autorizado por parte de humanos y agentes de IA por igual.

Toma de decisiones consciente de la privacidad

A medida que más empresas utilizan la IA generativa y otras tecnologías de IA para automatizar la toma de decisiones, los ejecutivos deben aplicar una perspectiva de privacidad a las prácticas impulsadas por la IA en las que el concepto de “datos” puede haberse vuelto confuso. Este principio se refleja en la resolución de LinkedIn mencionada anteriormente: en algunas circunstancias, hacer inferencias basadas en patrones de datos, aunque pueda tener un atisbo de anonimización, puede seguir infringiendo el RGPD y las normativas relacionadas.

A medida que la IA se vuelve más poderosa para detectar patrones, podría subvertir las nociones arraigadas sobre lo que constituyen datos “anónimos”. Un estudio de 2019 en Nature mostró que, con el modelo generativo correcto, “el 99.98 % de los estadounidenses podría volver a identificarse correctamente en cualquier conjunto de datos utilizando 15 atributos demográficos”. El hallazgo sugiere que la noción misma de lo que constituyen los datos personales está experimentando una transformación.7

Autor

David Zax

Staff Writer

IBM Think

Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar y despliéguelos en la nube u on-premises con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de gobernanza de la IA

Vea cómo la gobernanza de la IA puede ayudar a aumentar la confianza de sus empleados en la IA, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra las soluciones de gobernanza de la IA
Servicios de consultoría sobre gobernanza de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobernanza para la IA responsable con la ayuda de IBM® Consulting.

Descubra los servicios de gobernanza de la IA
Dé el siguiente paso

Dirija, gestione y monitoree su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Agende una demostración en vivo