على حد تعبير المقولة الشائعة، كل النماذج فيها قدر من الخطأ. وهذا ينطبق على مجالات الإحصاء والعلوم والذكاء الاصطناعي. يمكن أن تؤدي النماذج التي تم إنشاؤها مع نقص الخبرة في المجال إلى مخرجات خاطئة.

في الوقت الحالي، تحدد مجموعة صغيرة ومتجانسة من الأفراد نوعية البيانات المستخدمة لتدريب نماذج الذكاء الاصطناعي التوليدي، وتُستمد هذه البيانات من مصادر تطغى عليها اللغة الإنجليزية. بالنسبة إلى معظم اللغات في العالم التي يتجاوز عددها 6,000 لغة، فإن البيانات النصية المتاحة لا تكفي لتدريب نموذج أساس واسع النطاق" (نقلاً عن "حول فرص ومخاطر نماذج الأساس"، Bommasani وآخرون، 2022).

علاوة على ذلك، يتم إنشاء النماذج نفسها بناءً على هياكل معمارية محدودة: "جميع نماذج معالجة اللغات الطبيعية الحديثة تقريباً مستخلصة الآن من عدد قليل من نماذج الأساس، مثل BERT، وRoBERTa، وBART، وT5، وغيرها. في حين أن هذا التجانس يخلق تأثيراً كبيراً للغاية (فأي تحسينات تطرأ على نماذج الأساس يمكن أن تؤدي إلى فوائد فورية عبر مجال معالجة اللغات الطبيعية بأكمله)، إلا أنه يمثل أيضاً نقطة ضعف؛ فقد ترث جميع أنظمة الذكاء الاصطناعي التحيزات الإشكالية نفسها لعدد قليل من النماذج (Bommasani وآخرون)"

لتحقيق أفضل تمثيل للمجتمعات المتنوعة التي يقدم لها الذكاء الاصطناعي التوليدي خدماته، من الضروري إشراك بيانات بشرية من نطاق أوسع بكثير ضمن النماذج.

يسير تقييم دقة النموذج جنبًا إلى جنب مع تقييم التحيُّز. يجب أن نسأل، ما المقصود بالنموذج ولمن يتم تحسينه؟ فكر مثلاً في من يحصل على فائدة أكثر من خوارزميات توصية المحتوى وخوارزميات محركات البحث. قد يكون لدى أصحاب المصلحة اهتمامات وأهداف مختلفة تمامًا. تتطلب الخوارزميات والنماذج وجود أهداف أو بدائل لخطأ بايز (Bayes error)، وهو الحد الأدنى للخطأ الذي يجب على النموذج أن يسعى لتحسينه. غالبًا ما يكون هذا الوكيل شخصًا، كخبير متخصص لديه دراية واسعة بالمسألة.