معايير التقييم المرجعية للنماذج اللغوية الكبيرة (LLMs) هي أُطر عمل قياسية لاختبار أداء النماذج اللغوية الكبيرة. تتألف هذه المعايير من بيانات تجريبية، ومجموعة من الأسئلة أو المهام لاختبار مهارات محددة في النماذج اللغوية الكبيرة، ومقاييس لتقييم الأداء، وآلية للتقييم.
يتم تقييم النماذج بناءً على قدراتها، مثل البرمجة والحس السليم والمنطق. تشمل القدرات الأخرى معالجة اللغة الطبيعية، بما في ذلك الترجمة الآلية والإجابة عن الأسئلة وتلخيص النصوص.
تؤدي معايير تقييم النماذج اللغوية الكبيرة دورًا مهمًا في تطوير النماذج وتحسينها. فهي توضح مدى تقدم النموذج في أثناء عملية التعلم، وتوفر مقاييس كمية تبرز المجالات التي يتفوق فيها النموذج وكذلك المجالات التي تحتاج إلى تحسين.
يُسهم هذا بدوره في توجيه عملية الضبط الدقيق للنموذج اللغوي الكبير، ما يساعد الباحثين والمطورين على دفع عجلة التطور في هذا المجال. توفر معايير تقييم النموذج اللغوي الكبير أيضًا مقارنة موضوعية بين النماذج المختلفة، ما يمكّن مطوري البرامج والمنظمات من اتخاذ قرارات مستنيرة عند اختيار النماذج التي تناسب احتياجاتهم.
تعمل معايير تقييم النماذج بطريقة واضحة، فهي تقدم مهمة على النموذج أن ينجزها، وتقيّم أداءه بناءً على مقياس معين، ثم تحدد نتيجة وفقًا لهذا المقياس. إليك كيفية عمل كل خطوة بالتفصيل:
تأتي معايير النماذج اللغوية الكبيرة مزوّدة مسبقًا ببيانات تجريبية، مثل تحديات برمجية، ووثائق كبيرة، ومسائل رياضية، ومحادثات واقعية، وأسئلة علمية. كما تتضمن مجموعة متنوعة من المهام، مثل التفكير المنطقي، وحل المشكلات، والإجابة عن الأسئلة، وإنشاء الملخصات والترجمة. وتقدم هذه المهام للنموذج في بداية الاختبار.
عند إجراء التقييم، يتم تقديم المهمة للنموذج بإحدى الطرق الثلاثة التالية:
تعلم محدود الأمثلة (Few-shot): قبل مطالبة النموذج بإتمام المهمة، يتم تزويده بعدد محدود من الأمثلة التي توضح كيفية تنفيذ المهمة. يتيح هذا الأسلوب تقييم قدرة النموذج على التعلم باستخدام بيانات قليلة.
تعلم صفري (Zero-shot): يُطلب من النموذج إتمام المهمة من دون أن يكون قد رأى أي أمثلة مسبقة. يوضح هذا النهج قدرة النموذج على فهم المفاهيم الجديدة والتكيف مع المواقف الجديدة.
النموذج المضبوط (Fine-tuned): يتم تدريب النموذج مسبقًا على مجموعة بيانات مشابهة لتلك المستخدمة في معيار التقييم. والهدف من ذلك هو تعزيز قدرة النموذج على أداء المهمة المرتبطة بالمعيار وتحسين أداءه في تنفيذ تلك المهمة المحددة.
بعد الانتهاء من الاختبارات، يحسب معيار التقييم مدى تطابق مخرجات النموذج مع الحل المتوقع أو الإجابة النموذجية، ثم يُنتج درجة تتراوح بين 0 و100.
تطبق معايير التقييم المرجعية مقاييس مختلفة لتقييم أداء النماذج اللغوية الكبيرة. وفيما يلي بعض هذه المقاييس الشائعة:
الدقة أو أوالإتقان: يحسب نسبة التوقعات الصحيحة.
الاسترجاع، المعروف أيضًا باسم "معدل الحساسية"، يقيس عدد التوقعات الصحيحة—التوقعات الصحيحة الفعلية.
تجمع درجة (F1) بين الدقة والاسترجاع في مقياس واحد، حيث تعد كلا المقياسين بالأهمية نفسها، لتوفير توازن بين الإيجابيات الخاطئة والسلبيات الخاطئة. تتراوح درجات F1 بين 0 و1، حيث تشير الدرجة 1 إلى دقة واسترجاع مثاليين.
التطابق التام هو نسبة توقعات النموذج اللغوي الكبير التي تطابق الإجابة الصحيحة تمامًا، وهو معيار مهم للترجمة والإجابة عن الأسئلة.
الارتباك يقيس مدى كفاءة النموذج في التوقع. كلما انخفض معدل ارتباك النموذج اللغوي الكبير، تحسّن أداؤه في فهم المهمة.
معيار التقييم ثنائي اللغة للترجمة الآلية (BLEU) يقيّم جودة الترجمة الآلية عن طريق حساب عدد النماذج النونية المتطابقة (تسلسل من الرموز النصية المتجاورة) بين الترجمة المتوقعة من النموذج اللغوي الكبير والترجمة البشرية.
التقييم الموجه بالاسترجاع لتلخيص النصوص (ROUGE) يقيّم جودة تلخيص النصوص وله أنواع متعددة. يُجري ROUGE-N، على سبيل المثال، حسابات مُشابهة لتلك التي يجريها معيار BLEU للتلخيصات، في حين يَحسب ROUGE-L أطول تسلسل جزئي مُشترك بين التلخيص المُتوقَّع والتلخيص البشري.
عادةً ما يدمج واحد أو أكثر من هذه المقاييس الكمية لإجراء تقييم أكثر شمولاً ودقة.
في المُقابل، يشمل التقييم البشري مقاييس نوعية مثل الترابط والصلة بالسياق والمعنى الدلالي. يُمكن أن يُؤدِّي فحص وتقييم المُقيِّمين البشريين للنموذج اللغوي الكبير إلى تقييم أكثر دقة، ولكنه قد يكون مُرهِقًا وذاتيًا ويستغرق وقتًا طويلاً. وبناءً على ذلك، ثمة حاجة إلى تحقيق توازن بين المقاييس الكمية والنوعية.
ينما تُعَدّ المعايير مُؤشِّرات قوية على أداء النموذج اللغوي الكبير، فإنها لا تستطيع التنبُّؤ بمدى نجاح النموذج في العمل على أرض الواقع. فيما يلي بعض قيود معايير التقييم للنموذج اللغوي الكبير:
عندما يحقق النموذج أعلى نتيجة مُمكنة في معيار مُعيَّن، يجب تحديث هذا المعيار بمهام أكثر صعوبة ليظلّ أداة قياس مُجدية.
نظرًا لأن معايير النموذج اللغوي الكبير تستخدم بيانات تجريبية مستمدة في الغالب من مجموعة كبيرة من الموضوعات والمهام، فقد لا تكون مقياسًا دقيقًا للحالات الاستثنائية أو المجالات المتخصصة أو الاستخدامات المحددة.
تستطيع معايير النموذج اللغوي الكبير اختبار مهارات النموذج الحالية فقط. لكن مع تطوّر النماذج اللغوية الكبيرة وظهور إمكانات جديدة، بات من الضروري وضع معايير جديدة.
إذا خضع نموذج لغوي كبير للتدريب على مجموعة البيانات نفسها المُستخدمة في المعيار، فقد يُؤدّي ذلك إلى الضبط الزائد، حيث يُمكن أن يُحقق النموذج نتائج جيدة مع بيانات الاختبار، ولكنه قد لا يُؤدّي أداءً جيدًا مع بيانات العالم الحقيقي. ينتج عن ذلك درجة لا تعكس القدرات الحقيقية للنموذج اللغوي الكبير.
تعرض لوحات الصدارة ترتيبًا للنماذج اللغوية الكبيرة استنادًا إلى مجموعة مُتنوّعة من المعايير. تُتيح لوحات الصدارة طريقة لتتبُّع عدد كبير من النماذج اللغوية الكبيرة ومُقارنة أدائها. تُعد لوحات صدارة النماذج اللغوية الكبيرة مُفيدة بشكل خاص في اتخاذ القرارات المُتعلّقة باختيار النماذج المُناسبة للاستخدام.
عادة ما يكون لكل معيار لوحة صدارة مُستقلة، ولكن توجد أيضًا لوحات صدارة مُستقلة للنماذج اللغوية الكبيرة. فعلى سبيل المثال، لدى منصة Hugging Face مجموعة من لوحات الصدارة، من بينها لوحة صدارة مفتوحة للنماذج اللغوية الكبيرة تُرتِّب العديد من النماذج مفتوحة المصدر بناءً على معايير ARC وHellaSwag وMMLU وGSM8K وTruthfulQA وWinogrande.
يُصنّف الباحثون معايير النماذج اللغوية الكبيرة بناءً على هذين الجانبين:1
معايير التقييم: يمكن أن تكون مقاييس تقييم النماذج اللغوية الكبيرة إما حقائق أساسية أو تفضيلات بشرية. تشير الحقائق الأساسية إلى المعلومات المفترض أنها صحيحة، في حين أن التفضيلات البشرية هي خيارات تعكس الاستخدام الفعلي.
مصدر الأسئلة: يمكن أن تأتي المطالبات من مصادر ثابتة أو مباشرة. تحتوي المطالبات الثابتة على أسئلة محددة مسبقًا، بينما تحتوي المطالبات المباشرة على أسئلة يتم طرحها في بيئة تفاعلية.
يمكن أن تندرج المعايير ضمن فئة واحدة أو أكثر من هذه الفئات. فيما يلي كيفية عمل بعض المعايير الشائعة:
يقيّم معيار ARC قدرات النموذج اللغوي الكبير في الإجابة عن الأسئلة والاستدلال من خلال مجموعة من أكثر من 7000 سؤال في العلوم الطبيعية المناسبة للصفوف الابتدائية. تقسم هذه الأسئلة إلى مجموعتين: مجموعة سهلة ومجموعة صعبة. كيفية التقييم بسيطة: يحصل النموذج على نقطة واحدة لكل إجابة صحيحة و1/N من النقاط (حيث تمثل N عدد الإجابات التي قدمها) إذا قدم النموذج عدة إجابات وكانت إحداها صحيحة.2
Chatbot Arena هي منصة تقييم مفتوحة تُقارن بين روبوتي دردشة مجهولي الهوية. يُجري المُستخدمون مُحادثات واقعية وعشوائية مع روبوتَي الدردشة في "ساحة"، ثم يُصوّتون على الروبوت الذي يُفضّلونه، وبعد ذلك يتم الكشف عن هويّات النماذج. تستخدم بيانات المُقارنة الثنائية المعتمدة على إسهامات الجمهور في إجراء إحصائيات تُقدّر النتائج وتُنشئ تصنيفات تقريبية للنماذج اللغوية الكبيرة المُختلفة. كما تُستخدم خوارزميات أخذ العينات أيضًا لتحديد أزواج النماذج المتنافسة.1
يقيس معيار GSM8K مهارات النموذج اللغوي الكبير في الاستدلال الرياضي. فهو يحتوي على مجموعة من 8500 مسألة لفظية في الرياضيات مناسبة لطلاب المرحلة الابتدائية. تُجمَع الحلول في صورة لغة طبيعية بدلاً من استخدام صيغ رياضية. يتم تدريب أنظمة تحقق بتقنية الذكاء الاصطناعي لتقييم حلول النموذج.3
HellaSwag هو اختصار لعبارة تعني "نهايات أصعب وسياقات أطول وأنشطة قليلة البيانات للسيناريوهات ذات التوليدات العدائية". يتمحور هذا المعيار حول الاستدلال المنطقي والاستدلال الطبيعي في فهم اللغة. يتم تكليف النماذج بإكمال الجمل عن طريق اختيار نهايات صحيحة من بين مجموعة من النهايات المحتملة. تتضمّن هذه النهايات إجابات خاطئة يتم إنشاؤها باستخدام التصفية العدائية، وهي خوارزمية تُولِّد إجابات تبدو واقعية، ولكنها مُضلِّلة وغير دقيقة. يقيّم معيار HellaSwag الدقة في كلٍ من فئات التعلم قليل الأمثلة (Few-shot) والصفري (Zero-shot).4
يقيّم معيار HumanEval أداء النماذج اللغوية الكبيرة في مجال توليد الأكواد البرمجية، مع التركيز على صحة الوظائف البرمجية. تُعطى النماذج مشكلات برمجية لحلّها ويتم تقييمها بناءً على اجتيازها لاختبارات الوحدة المرتبطة بهذه المشكلات. يُشبه هذا الطريقة التي يختبر بها مُطوّرو البرمجيات البشريين صحة الأكواد البرمجية عن طريق اجتياز اختبارات وحدة مُحدّدة. يستخدم معيار HumanEval مقياس تقييم خاص به يُسمّى pass@k، وهو يُمثّل احتمالية نجاح حل واحد على الأقل من بين عدد k من حلول الأكواد البرمجية المُولَّدة للمشكلة برمجية في اجتياز اختبارات الوحدة المُخصّصة لهذه المشكلة.5
يقيّم معيار MMLU مدى اتساع نطاق معرفة النموذج اللغوي الكبير وعمق فهمه للغة الطبيعية وقدرته على حل المشكلات بناءً على المعرفة التي اكتسبها. تتألف قاعدة بيانات MMLU من أكثر من 15,000 سؤال اختيار من مُتعدِّد تغطي 57 موضوعًا من موضوعات المعرفة العامة. يقتصر التقييم على البيئات قليلة الأمثلة (Few-shot) والبيئات الصفرية (Zero-shot). يحسب معيار MMLU دقة النموذج في كل موضوع ثم يأخذ متوسط هذه الأرقام للحصول على درجة نهائية.6
MBPP، المعروفة أيضا باسم "مشكلات Python الأساسية الأكثر شيوعًا"، هو معيار آخر لتقييم توليد الأكواد البرمجية. يحتوي على مجموعة تتكون من أكثر من 900 مهمة برمجية. على غرار معيار HumanEval، يقيّم هذا المعيار صحة الوظائف بناءً على اجتياز مجموعة من الاختبارات. يتم التقييم في بيئات قليلة الأمثلة ومضبوطة بدقة. يعتمد معيار MBPP على مقياسين: النسبة المئوية للمشاكل التي تمكنت أي عينة من النموذج من حلها والنسبة المئوية للعينات التي تمكنت من حل المهام المسندة إليها.7
ابتكر الباحثون الذين أنشأوا Chatbot Arena أيضًا معيار MT-Bench، وهو مُصمَّم لاختبار مدى قدرة النموذج اللغوي الكبير على إجراء حوار واتباع التعليمات. تتكون قاعدة بياناته من أسئلة مفتوحة متعددة الأدوار، حيث يتضمن 10 أسئلة في كل مجال من المجالات الثمانية التالية: البرمجة، والاستخراج، والمعرفة العلمية والتقنية (العلوم والتكنولوجيا والهندسة والرياضيات)، والمعرفة الإنسانية والاجتماعية (العلوم الإنسانية والاجتماعية)، والرياضيات، والمنطق، ولعب الأدوار، والكتابة. يعتمد MT-Bench على النموذج اللغوي الكبير GPT-4 في تقييم استجابات النماذج اللغوية الكبيرة الأخرى.8
كما هو الحال مع HumanEval، يختبر معيار SWE-bench مهارات النموذج اللغوي الكبير في توليد الأكواد البرمجية، مع التركيز بشكل خاص على حل المشكلات. يُطلب من النماذج إصلاح خطأ برمجي أو تلبية طلب إضافة ميزة جديدة في قاعدة بيانات أكواد برمجية مُحدَّدة. يعتمد تقييم المعيار على النسبة المئوية لحالات المهام التي تم حلّها بنجاح.9
تميل النماذج اللغوية الكبيرة إلى إنتاج مخرجات غير دقيقة بسبب ظاهرة الهلوسة. يهدف معيار TruthfulQA إلى معالجة هذه المشكلة عن طريق قياس قدرة النموذج اللغوي الكبير على توليد إجابات صحيحة وموثوقة. تشتمل قاعدة بياناته على ما يزيد عن 800 سؤال تغطي 38 موضوعًا. يجمع معيار TruthfulQA بين التقييم البشري واستخدام مقياس النموذج اللغوي الكبير GPT-3 المضبوط بدقة على مقاييس BLEU وROUGE للتنبؤ بالتقييمات البشرية من حيث توفير المعلومات والمصداقية.10
يُقيّم معيار Winogrande قدرات النموذج اللغوي الكبير على الاستدلال المنطقي السليم. ويستند في ذلك إلى معيار Winograd Schema Challenge (WSC) الأصلي، بالإضافة إلى قاعدة بيانات كبيرة تضم 44000 مُشكلة تم جمعها من مساهمة الجمهور مع تطبيق التصفية العدائية. يُحسب التقييم بناءً على نسبة الدقة.11
1 "Chatbot Arena: منصة مفتوحة لتقييم النماذج اللغوية الكبيرة بناءً على تفضيلات المستخدمين"، arXiv، 7 مارس 2024.
2 "تعتقد أنك حللت مشكلة الإجابة عن الأسئلة؟ جرّب ARC، تحدي الاستدلال من AI2"، arXiv، 14 مارس 2018.
3 "تدريب أنظمة التحقق لحل مسائل الرياضيات النصية"، arXiv، 18 نوفمبر 2021.
4 "HellaSwag: هل يمكن للآلة أن تُكمل جملتك حقًا؟"، arXiv، 19 مايو 2019.
5 "تقييم النماذج اللغوية الكبيرة المدربة على البرمجة"، arXiv، 14 يوليو 2021.
6 "قياس فهم اللغة متعدد المهام واسع النطاق"، arXiv، 7 سبتمبر 2020.
7 "توليد البرامج باستخدام النماذج اللغوية الكبيرة"، arXiv، 16 أغسطس 2021.
8 "تقييم النموذج اللغوي كحكم باستخدام MT-Bench وChatbot Arena"، arXiv، 9 يونيو 2023.
9 "SWE-bench: هل يمكن للنماذج اللغوية حل مشكلات GitHub الواقعية؟"، arXiv، 5 إبريل 2024.
10 "TruthfulQA: قياس مدى محاكاة النماذج اللغوية للأخطاء البشرية"، arXiv، 8 مايو 2022.
11 "WinoGrande: تحدي Winograd Schema بحجم واسع وبنهج عدائي"، arXiv، 21 نوفمبر 2019.