Guía sobre la protección de los datos de la IA y el machine learning

Persona protegiendo datos digitales en una tablet con un candado y un icono de marca de verificación.

Si bien la protección de datos en general ha sido una preocupación durante mucho tiempo, el término “protección de los datos de la IA” reconoce que la tecnología emergente de inteligencia artificial trae consigo nuevos riesgos y preocupaciones sobre la privacidad.  

Durante el entrenamiento, los sistemas de IA aprenden de vastos conjuntos de datos. El conjunto de datos Common Crawl en el que se entrenan muchos modelos contiene más de 9,5 petabytes de datos1. Muchas personas que usan la IA a diario también pueden estar alimentando a los sistemas con datos sensibles, sin ser plenamente conscientes de que están erosionando su privacidad individual. Y a medida que la implementación de la IA se extiende a una era de agentes de IA, nuevos tipos de violaciones de la privacidad se hacen posibles en ausencia de controles de acceso adecuados o de gobierno de la IA.

Un panorama de riesgos transformado

Los modelos de IA no solo procesan más datos, sino que también gestionan los datos de forma diferente a los sistemas heredados. Si un software tradicional expone accidentalmente información confidencial, un ingeniero puede entrar y depurar el código. Pero los modelos de IA (incluidos los modelos de lenguaje de gran tamaño, como ChatGPT) no se codifican sino que se hacen para evolucionar mediante un proceso llamado machine learning. Sus propios creadores no saben exactamente cómo funcionan, lo que hace que la "depuración" no sea trivial, si no imposible.

Las salidas accidentales son un motivo de preocupación, pero las organizaciones también deben estar atentas a los ataques deliberados y maliciosos. Los investigadores han demostrado que las herramientas de IA contienen nuevos tipos de vulnerabilidades que los hackers inteligentes pueden explotar, un campo conocido como machine learning adversarial. 

En los últimos años, por ejemplo, los expertos en ciberseguridad han demostrado que al explotar una peculiaridad de los modelos de IA, es decir, que sus resultados reciben puntuaciones de confianza más altas cuando responden a los datos con los que se han entrenado, un actor malicioso puede inferir si ciertos datos estaban en un conjunto de entrenamiento. En ciertos escenarios, esa inferencia constituiría una vulneración importante de la privacidad. Por ejemplo, consideremos un modelo de IA que se sabe que se ha entrenado con historiales médicos privados de pacientes VIH positivos.

En otro caso bien conocido, los investigadores fueron más allá de simplemente inferir si los datos estaban en un conjunto de entrenamiento. Crearon un ataque algorítmico que podía aplicar ingeniería inversa de forma eficaz a los datos reales que se utilizaban para entrenar un modelo. Al explotar un aspecto de los modelos de IA conocido como sus "gradientes", los investigadores pudieron refinar iterativamente una imagen llena de ruido en una imagen que se aproximaba mucho a una cara real que se había utilizado para entrenar un modelo de reconocimiento facial2.

Las apuestas en torno a la protección de datos siguen siendo altas: el informe "Cost of a Data Breach" de 2025 de IBM determinó que el coste medio de dichas vulneraciones fue de 4,4 millones de dólares. (Estas violaciones también conllevan un coste difícil de cuantificar en forma de pérdida de confianza pública en la propia marca.)

Aunque muchas de estas vulneraciones de datos no implican a la IA, cada vez son más las que sí lo hacen. El informe del índice de IA de 2025 de Stanford reveló que el número de incidentes de privacidad y seguridad de la IA aumentó un 56,4 % en un año, con 233 casos notificados en 20243.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Un entorno normativo en evolución

Los responsables políticos de todo el mundo han afirmado que las tecnologías de IA no deberían estar exentas de la responsabilidad de las protecciones básicas de la privacidad. El Reglamento General de Protección de Datos (RGPD) de la Unión Europea, considerado durante mucho tiempo una base para la gestión de datos personales (sin importar la jurisdicción), se aplica al uso de sistemas de IA por parte de las empresas. Los principios del RGPD incluyen la minimización de datos (recopilar solo los datos mínimos necesarios para un propósito), la transparencia (informar a los usuarios de cómo se utilizan los datos) y la limitación del almacenamiento (retener los datos no más de lo necesario).

El año 2024 fue un año histórico en este ámbito, cuando varios reguladores comenzaron a aplicar leyes de privacidad en casos relacionados con aplicaciones de IA.

Por ejemplo, en 2024 la Comisión de Protección de Datos de Irlanda multó a la red social LinkedIn con 310 millones de euros por una violación de la privacidad relacionada con la IA. LinkedIn rastreaba ciertos comportamientos sutiles de los usuarios, como el tiempo que una persona permanecía en una publicación. A continuación, el sitio utilizó la IA para derivar inferencias sobre estos usuarios (como si buscaban activamente nuevos trabajos o si corrían un alto riesgo de agotamiento). Estos perfiles se utilizaron luego para segmentar la publicidad y actualizar ciertos sistemas internos de clasificación de LinkedIn.

La comisión irlandesa determinó finalmente que, a pesar de cierta aparente anonimización, estas inferencias derivadas de la IA podrían rastrearse hasta los datos de individuos identificables, infringiendo así las leyes de protección de datos. Los tribunales dictaminaron que LinkedIn no respetó el principio del RGPD de limitación de finalidad, ni obtuvo el consentimiento informado de los usuarios, violando así la privacidad del consumidor. La sentencia también obligó a LinkedIn a implementar mecanismos de consentimiento en tiempo real y a revisar los valores predeterminados de su configuración de personalización publicitaria4.

También en 2024, una acción policial contra la empresa de reconocimiento facial Clearview AI ilustró el principio de que los datos biométricos (como las fotos de rostros) plantean más problemas de privacidad, incluso si los datos están técnicamente disponibles públicamente (como en una cuenta de redes sociales no segura).

Clearview había extraído 30 mil millones de imágenes de sitios como Facebook e Instagram, argumentando que la empresa no necesitaba el permiso de los usuarios, ya que las fotos estaban disponibles públicamente en línea. Esta operación masiva de recopilación de datos impulsó luego el desarrollo por parte de Clearview de una base de datos de reconocimiento facial impulsada por IA.

Las fuerzas del orden holandesas criticaron el enfoque de Clearview. La Autoridad Holandesa de Protección de Datos finalmente impuso una multa de 30,5 millones de euros a la empresa, al considerar que se violaron los derechos individuales de los ciudadanos holandeses incluidos en la recopilación de datos de Clearview5.

Por último, en 2024 la Unión Europea amplió la regulación específica de la IA con su Ley de IA, que entró en vigor en agosto de ese año. El mandato de la ley va más allá de los datos relacionados con la IA y se extiende a los riesgos de la IA y al desarrollo de la IA en general. Sin embargo, muchas de sus disposiciones se refieren a la seguridad de datos, el intercambio de datos y el gobierno de datos. Por citar un ejemplo destacado: La ley prohíbe los sistemas de identificación biométrica que utilicen datos y modelos de IA para identificar a las personas en función de atributos sensibles como la raza, la religión o la orientación sexual.

AI Academy

Confianza, transparencia y gobierno en la IA

La confianza en la IA es sin duda el asunto más importante en este campo. También es comprensible que sea un tema abrumador. Desentrañaremos cuestiones como la alucinación, la parcialidad y el riesgo, y compartiremos los pasos a seguir para adoptar la IA de forma ética, responsable y justa.

Principios para minimizar el riesgo de protección de datos de la IA

En este panorama tan cambiante, en el que la necesidad de adoptar la innovación parece estar en tensión con la necesidad de hacerlo de manera responsable, ¿qué medidas pueden tomar las empresas para lograr este equilibrio? Se pueden escribir libros enteros sobre el tema, pero algunos principios pueden empezar a guiar a la empresa a la hora de implementar la IA de manera responsable.

Gobernar todo el ciclo de vida de los datos de la IA

Los viejos paradigmas de seguridad de datos son insuficientes cuando los datos se consumen, procesan y producen en múltiples etapas del ciclo de vida de un modelo de IA. Los administradores de datos, los profesionales de cumplimiento y otros stakeholders deben prestar atención a la integridad de sus datos de formación, idealmente realizando auditorías de riesgo para la privacidad. Una empresa afirma haber encontrado 12 000 claves de API y contraseñas en el conjunto de datos de Common Crawl6.

Y cuando se trata del uso de los big data generados por la actividad de una empresa, normas como el RGPD y los reglamentos de privacidad relacionados pueden ser guías útiles.

Mantenerse a la vanguardia en la carrera armamentista

La IA es un campo muy activo, con nuevas investigaciones y descubrimientos casi a diario. Es importante que los profesionales de la ciberseguridad estén al día con los últimos avances tecnológicos, para así parchear vulnerabilidades antes de que un actor de amenazas las explote.

Las empresas pueden utilizar tecnologías que mejoren la privacidad, como el aprendizaje federado, la privacidad diferencial y los datos sintéticos. Como siempre, pueden insistir en controles de acceso estrictos para evitar el acceso no autorizado por parte de humanos y agentes de IA por igual.

Tomar decisiones teniendo en cuenta la privacidad

A medida que más empresas utilicen la IA generativa y otras tecnologías de IA para automatizar la toma de decisiones, los ejecutivos deberían adoptar una perspectiva de privacidad en las prácticas impulsadas por la IA, en las que la noción de "datos" podría haberse vuelto confusa. Este principio se pone de manifiesto en la sentencia de LinkedIn mencionada anteriormente: en algunas circunstancias, sacar inferencias basadas en patrones de datos, aunque pueda tener un brillo de anonimización, puede entrar en conflicto con el RGPD y las regulaciones relacionadas.

A medida que la IA se vuelve más poderosa para detectar patrones, podría subvertir nociones arraigadas sobre lo que constituyen datos "anonimizados". Un estudio de 2019 en Nature mostró que con el modelo generativo adecuado, "el 99,98 % de los estadounidenses podrían reidentificarse correctamente en cualquier conjunto de datos utilizando 15 atributos demográficos". El hallazgo sugiere que la noción misma de lo que constituyen los datos personales está experimentando una transformación7.

Autor

David Zax

Staff Writer

IBM Think

Soluciones relacionadas
IBM watsonx.governance

Gobierne modelos de IA generativa desde cualquier lugar e impleméntelos en la nube o en las instalaciones con IBM watsonx.governance.

Descubra watsonx.governance
Soluciones de gobierno de la IA

Vea cómo el gobierno de la IA puede ayudar a aumentar la confianza de sus empleados en la misma, acelerar la adopción y la innovación y mejorar la confianza de los clientes.

Descubra soluciones de gobierno de la IA
Servicios de consultoría sobre gobierno de la IA

Prepárese para la Ley de IA de la UE y establezca un enfoque de gobierno de la IA responsable con la ayuda de IBM Consulting.

Descubra los servicios de gobierno de la IA
Dé el siguiente paso

Dirija, gestione y monitorice su IA con una única cartera para acelerar una IA responsable, transparente y explicable.

Explore watsonx.governance Solicite una demo en directo
Notas a pie de página