تطبق معايير التقييم مقاييس مختلفة لتقييم أداء النماذج اللغوية الكبيرة. فيما يلي أبز هذه المقاييس:
تحسب الدقة أو التحديد (Accuracy or Precision) نسبة التنبؤات الصحيحة إلى إجمالي التنبؤات.
يقيس الاستدعاء، المعروف أيضًا باسم "معدل الحساسية"، عدد النتائج الإيجابية الحقيقية - أي التنبؤات الصحيحة الفعلية.
تجمع درجة F1 Score بين الدقة والاستدعاء في مقياس واحد. فهي تُعامِل كِلا المقياسين بالأهمية نفسها، لتوفير توازن بين الإيجابيات الزائفة والسلبيات الزائفة. تتراوح درجات F1 بين 0 و1، حيث تُشير الدرجة 1 إلى دقة واستدعاء مثاليين.
التطابق التام هو نسبة التنبؤات التي يطابقها النموذج اللغوي الكبير (LLM) تمامًا، وهو معيار مهم للترجمة والإجابة عن الأسئلة.
يقيس الارتباك مدى كفاءة النموذج في التنبؤ. كلما انخفض معدل ارتباك النموذج اللغوي الكبير (LLM)، تحسَّن أداؤه في فهم المهمة.
يقيّم معيار التقييم ثنائي اللغة قيد الدراسة (BLEU) جودة الترجمة الآلية عن طريق حساب عدد النماذج النونية المتطابقة (تسلسل من الرموز النصية المتجاورة ن) بين الترجمة المتوقعة من النموذج اللغوي الكبير (LLM) والترجمة البشرية.
يُقيّم معيار الاستدعاء المُوجَّه قيد الدراسة لتقييم التلخيص (ROUGE) جودة تلخيص النصوص وله أنواع متعددة. يُجري ROUGE-N، على سبيل المثال، حسابات مُشابهة لتلك التي يجريها معيار BLEU للتلخيصات، في حين يَحسب ROUGE-L أطول تسلسل جزئي مُشترك بين التلخيص المُتوقَّع والتلخيص الذي أعدّه الإنسان
عادةً ما تُدمَج مجموعة من هذه المقاييس الكمية أو جميعها لإجراء تقييم أكثر شمولًا شامل وصرامة.
في المُقابل، يشمل التقييم البشري مقاييس نوعية مثل الترابط والأهمية والمعنى الدلالي يُمكن أن يُؤدِّي فحص المُقيِّمين البشريين للنموذج اللغوي الكبير (LLM) وتسجيلهم للنتائج إلى تقييم أكثر دقة، ولكنه قد يكون مُرهِقًا وذاتيًا ويستغرق وقتًا طويلًا بناءً على ذلك، ثمة حاجة إلى تحقيق توازن بين المقاييس الكمية والنوعية.