Riesgo de datos no representativos para la IA
Descripción
Los datos no representativos se producen cuando los datos de entrenamiento o de ajuste no son suficientemente representativos de la población subyacente o no miden el fenómeno de interés. Los datos sintéticos pueden no captar plenamente la complejidad y los matices de los datos del mundo real. Entre las causas se incluyen posibles limitaciones en la calidad de los datos semilla, sesgos en los métodos de generación o un conocimiento inadecuado del dominio. Así pues, los modelos de IA podrían tener dificultades para generalizarse eficazmente a escenarios del mundo real.
¿Por qué preocupan los datos no representativos en los modelos de fundación?
Si los datos no son representativos, el modelo no funcionará como se pretende.
Simulación de vehículos autónomos
Bai et al. estudian explícitamente la "brecha de dominio" entre los datos sintéticos y los reales. Demuestran que los modelos entrenados exclusivamente o en gran medida con datos sintéticos suelen funcionar peor con datos reales, especialmente en condiciones o entornos no bien representados en el conjunto de entrenamiento sintético.
Tema principal: Atlas de riesgos de IA
Proporcionamos ejemplos cubiertos por la prensa para ayudar a explicar muchos de los riesgos de los modelos de fundación. Muchos de estos sucesos de los que se ha hecho eco la prensa aún están evolucionando o se han resuelto, y hacer referencia a ellos puede ayudar al lector a comprender los riesgos potenciales y a trabajar para mitigarlos. Resaltar estos ejemplos son sólo para fines ilustrativos.