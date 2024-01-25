Para citar un aforismo común, todos los modelos son erróneos. Esto es válido en las áreas de la estadística, la ciencia y la IA. Los modelos creados con falta de experiencia en el dominio pueden conducir a outputs erróneos.

Hoy en día, un pequeño grupo homogéneo de personas determina qué datos usar para entrenar modelos de IA generativa, que provienen de fuentes que sobrerrepresentan ampliamente el inglés. "Para la mayoría de los más de 6000 idiomas del mundo, los datos de texto disponibles no son suficientes para entrenar un modelo fundacional a gran escala" (de "On the Opportunities and Risks of Foundation Models", Bommasani et al., 2022).

Además, los propios modelos se crean a partir de arquitecturas limitadas: “Casi todos los modelos de PNL de última generación ahora se adaptan a partir de uno de los pocos modelos fundacionales, como BERT, RoBERTa, BART, T5, etc. Si bien esta homogeneización produce un aprovechamiento extremadamente alto (cualquier mejora en los modelos fundacionales puede generar beneficios inmediatos en todo el PLN), también es una desventaja; todos los sistemas de IA pueden heredar los mismos sesgos problemáticos de algunos modelos fundacionales (Bommasani et al.)

Para que la IA generativa refleje mejor las diversas comunidades a las que sirve, es necesario representar en los modelos una variedad mucho más amplia de datos de seres humanos.

La evaluación de la precisión del modelo va de la mano con la evaluación del sesgo. Debemos preguntarnos: ¿cuál es la intención del modelo y para quién está optimizado? Piense, por ejemplo, quién obtiene más beneficio de los algoritmos de recomendación de contenido y de los algoritmos de los motores de búsqueda. Las partes interesadas pueden tener intereses y objetivos muy diferentes. Los algoritmos y modelos requieren objetivos o proxies para el error de Bayes: el error mínimo que debe mejorar un modelo. Este proxy suele ser una persona, como un experto en la materia con experiencia en el dominio.