Para citar um aforismo comum, todos os modelos estão errados. Isso vale nas áreas de estatística, ciência e IA. Modelos criados com falta de experiência no domínio podem levar a saídas errôneas.

Hoje, um pequeno grupo homogêneo de pessoas determina quais dados usar para treinar modelos de IA generativa, que são extraídos de fontes com representação em demasia do inglês. "Para a maioria dos mais de 6.000 idiomas do mundo, os dados de texto disponíveis não são suficientes para treinar um modelo de base em grande escala" (de On the Opportunities and Risks of Foundation Models,” Bommasani et al., 2022).

Além disso, os próprios modelos são criados a partir de arquiteturas limitadas: "Quase todos os modelos de NLP de última geração agora são adaptados a partir de um dos poucos modelos de base, como BERT, RoBERTa, BART, T5 etc. Embora essa homogeneização produza uma alavancagem extremamente alta (quaisquer melhorias nos modelos de base podem levar a benefícios imediatos em todo o NLP), ela também representa uma desvantagem; todos os sistemas de IA podem herdar os mesmos vieses problemáticos de alguns modelos de base (Bommasani et al.)

Para que a IA generativa reflita melhor as diversas comunidades que atende, uma variedade muito maior de dados de seres humanos deve ser representada em modelos.

Avaliar a precisão do modelo anda de mãos dadas com a avaliação do viés. Devemos perguntar: qual é a intenção do modelo e para quem ele é otimizado? Considere, por exemplo, quem tem mais benefício dos algoritmos de recomendação de conteúdo e dos algoritmos dos mecanismos de busca. Os stakeholders podem ter interesses e objetivos muito diferentes. Algoritmos e modelos exigem alvos ou proxies para o erro de Bayes: o erro mínimo que um modelo deve melhorar. Esse proxy geralmente é uma pessoa, como um especialista no assunto com experiência no domínio.