La fuga de datos es un escollo común en el entrenamiento de algoritmos de machine learning para el modelado predictivo. Un estudio de la Biblioteca Nacional de Medicina1 descubrió que en 17 campos científicos diferentes en los que se han aplicado métodos de machine learning, al menos 294 artículos científicos se vieron afectados por la fuga de datos, lo que llevó a un rendimiento demasiado optimista.
Un estudio de Yale2 reveló que la fuga de datos puede inflar o desinflar las métricas de rendimiento de los modelos basados en neuroimagen, dependiendo de si la información filtrada introduce ruido o crea patrones poco realistas. Estos modelos se utilizan para diagnosticar enfermedades para identificar tratamientos y ayudar a los neurocientíficos a comprender mejor la relación entre el cerebro y el cuerpo.
La fuga de datos en los modelos de machine learning puede tener varios impactos en diferentes campos y tipos de datos, estos son los más comunes:
Mala generalización a nuevos datos: cuando los modelos se entrenan con información que no representa el mundo real, el modelo tendrá dificultades para generalizar a los datos invisibles. Las predicciones sobre nuevos datos pueden ser inexactas y poco fiables.
Toma de decisiones sesgada: los sesgos en los datos filtrados corren el riesgo de sesgar el comportamiento del modelo, lo que da lugar a decisiones injustas y divorciadas de los escenarios del mundo real.
Conocimientos y hallazgos poco fiables: la fuga de datos compromete la fiabilidad de los conocimientos derivados del modelo, lo que lleva a los usuarios a desconfiar de los resultados.
Métricas de rendimiento infladas: la fuga en los modelos de machine learning a menudo dan como resultado modelos que muestran falsamente una alta precisión y exactitud.
Despilfarro de recursos: encontrar y corregir la fuga de datos después de entrenar un modelo lleva mucho tiempo y es costoso. Corregir la fuga de datos requiere volver a entrenar los modelos desde cero, lo que es costoso desde el punto de vista computacional, y reelaborar toda la canalización del modelo, desde el preprocesamiento de los datos hasta el nuevo entrenamiento, lo que puede requerir muchos recursos en términos de esfuerzo humano y costes computacionales.
Pérdida de confianza: los modelos poco fiables acaban provocando desconfianza en los equipos de ciencia de datos y en el proceso analítico en general.
Riesgos legales y de cumplimiento: la fuga de datos en el análisis predictivo puede dar lugar a riesgos legales y normativos. El uso indebido de información confidencial puede dar lugar a sanciones y daños a la reputación.