Riesgo de datos no representativos para la IA

Alineación Icono que representa los riesgos de alineación.
Precisión
Riesgos de los datos de formación
Riesgo tradicional de la IA
Amplificados por datos sintéticos

Descripción

Los datos no representativos se producen cuando los datos de entrenamiento o de ajuste no son suficientemente representativos de la población subyacente o no miden el fenómeno de interés. Los datos sintéticos pueden no captar plenamente la complejidad y los matices de los datos del mundo real. Entre las causas se incluyen posibles limitaciones en la calidad de los datos semilla, sesgos en los métodos de generación o un conocimiento inadecuado del dominio. Así pues, los modelos de IA podrían tener dificultades para generalizarse eficazmente a escenarios del mundo real.

¿Por qué preocupan los datos no representativos en los modelos de fundación?

Si los datos no son representativos, el modelo no funcionará como se pretende.

Imagen de fondo de los riesgos asociados a los datos de formación
Ejemplo

Simulación de vehículos autónomos

Bai et al. estudian explícitamente la "brecha de dominio" entre los datos sintéticos y los reales. Demuestran que los modelos entrenados exclusivamente o en gran medida con datos sintéticos suelen funcionar peor con datos reales, especialmente en condiciones o entornos no bien representados en el conjunto de entrenamiento sintético.

Tema principal: Atlas de riesgos de IA

Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa aún están evolucionando o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.