Riesgo de datos no representativos para la IA

Precisión

Riesgos de los datos de formación

Riesgo tradicional de la IA

Amplificados por datos sintéticos

Descripción

Los datos no representativos se producen cuando los datos de entrenamiento o de ajuste no son suficientemente representativos de la población subyacente o no miden el fenómeno de interés. Los datos sintéticos pueden no captar plenamente la complejidad y los matices de los datos del mundo real. Entre las causas se incluyen posibles limitaciones en la calidad de los datos semilla, sesgos en los métodos de generación o un conocimiento inadecuado del dominio. Así pues, los modelos de IA podrían tener dificultades para generalizarse eficazmente a escenarios del mundo real.

¿Por qué preocupan los datos no representativos en los modelos de fundación?

Si los datos no son representativos, el modelo no funcionará como se pretende.

Imagen de fondo de los riesgos asociados a los datos de formación

Ejemplo

Simulación de vehículos autónomos

Bai et al. estudian explícitamente la "brecha de dominio" entre los datos sintéticos y los reales. Demuestran que los modelos entrenados exclusivamente o en gran medida con datos sintéticos suelen funcionar peor con datos reales, especialmente en condiciones o entornos no bien representados en el conjunto de entrenamiento sintético.

Fuentes:

Bai et al., ACM 2023

Tema principal: Atlas de riesgos de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa aún están evolucionando o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.