ما هي معايير تقييم النماذج اللغوية الكبيرة (LLMs)؟

المؤلفين

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

ما معايير تقييم النماذج اللغوية الكبيرة (LLMs)؟

معايير تقييم النماذج اللغوية الكبيرة (LLMs) هي أُطر قياسية تُستخدم لتقييم أداء النماذج اللغوية الكبيرة (LLMs). تتألف هذه المعايير من بيانات تجريبية، ومجموعة من الأسئلة أو المهام لاختبار مهارات النماذج اللغوية الكبيرة (LLMs)، ومقاييس لتقييم الأداء، وآلية لتسجيل النتائج.

يتم تقييم النماذج بناءً على قدراتها المختلفة، مثل البرمجة والفهم العام والاستدلال. وتشمل القدرات الأخرى معالجة اللغة الطبيعية، مثل الترجمة الآلية والإجابة عن الأسئلة، وتلخيص النصوص.

تضطلع معيار تقييم النماذج اللغوية الكبيرة بدور مهم في تطوير النماذج وتحسينها. فهي توضح مدى تقدم النموذج أثناء عملية التعلم، وتوفر مقاييس كمية تبرز المجالات التي يتفوق فيها النموذج وكذلك المجالات التي تحتاج إلى تحسين.

وهذا بدوره يُسهم في توجيه عملية الضبط الدقيق للنموذج اللغوي الكبير، ما يساعد الباحثين والمطورين على تحقيق التقدّم في هذا المجال. توفِّر معايير النماذج اللغوية الكبيرة أيضًا مقارنةً موضوعية بين النماذج المختلفة، ما يمكِّن مطوري البرامج والمؤسسات من اتخاذ قرارات مستنيرة عن اختيار النماذج التي تناسب احتياجاتهم.

كيفية عمل معايير تقييم النماذج اللغوية الكبيرة

تعمل معايير تقييم النماذج بطريقة مباشرة. فهي تقدم مهمة على النموذج أن ينجزها، وتقيّم أداءه بناءً على مقياس معين، ثم تُنتج نتيجة وفقًا لهذا المقياس. إليك خطوات العمل بالتفصيل:

الإعداد

تأتي معايير النماذج اللغوية الكبيرة مزوّدة مسبقًا ببيانات تجريبية، مثل تحديات البرمجة، ووثائق كبيرة، ومسائل رياضيات، ومحادثات واقعية، وأسئلة علمية. كما تتضمن مجموعة متنوعة من المهام، مثل التفكير المنطقي، وحل المشكلات، والإجابة على الأسئلة، وإنشاء الملخصات والترجمة. يتم تقديم هذه المهام للنموذج في بداية الاختبار.

الاختبار

عند إجراء معيار التقييم، يتم تقديم المهمة للنموذج بإحدى الطرق الثلاثة التالية:

  • الأمثلة القليلة (Few-shot): قبل مطالبة النموذج بإتمام المهمة، يتم تزويده بعدد محدود من الأمثلة التي توضِّح كيفية تنفيذ المهمة. يُتيح هذا الأسلوب تقييم قدرة النموذج على التعلم باستخدام بيانات قليلة.
     

  • دون أمثلة (Zero-shot): يُطلب من النموذج إتمام المهمة دون أن يكون قد رأى أي أمثلة مسبقة. يوضِّح هذا النهج قدرة النموذج على فهم المفاهيم الجديدة والتكيف مع السيناريوهات الجديدة.
     

  • النموذج المضبوط (Fine-tuned): يتم تدريب النموذج مسبقًا على مجموعة بيانات مشابهة لتلك المستخدمة في معيار التقييم. والهدف من ذلك هو تعزيز قدرة النموذج على أداء المهمة المرتبطة بالمعيار وتحسين أداءه في تنفيذ تلك المهمة المحددة.

التقييم

بعد الانتهاء من الاختبارات، يقوم معيار التقييم بحساب مدى تطابق مخرجات النموذج مع الحل المتوقع أو الإجابة النموذجية، ثم يُنتج درجة تتراوح بين 0 و100.

أحدث اتجاهات الذكاء الاصطناعي، يقدمها لك الخبراء

احصل على رؤى منسقة حول أهم أخبار الذكاء الاصطناعي وأكثرها إثارةً للاهتمام. اشترِك في خدمة رسائل Think الإخبارية الأسبوعية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! لقد اشتركت بنجاح.

سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.

المقاييس الرئيسية لتقييم النماذج اللغوية الكبيرة

تطبق معايير التقييم مقاييس مختلفة لتقييم أداء النماذج اللغوية الكبيرة. فيما يلي أبز هذه المقاييس:

  • تحسب الدقة أو التحديد (Accuracy or Precision) نسبة التنبؤات الصحيحة إلى إجمالي التنبؤات.
     

  • يقيس الاستدعاء، المعروف أيضًا باسم "معدل الحساسية"، عدد النتائج الإيجابية الحقيقية - أي التنبؤات الصحيحة الفعلية.
     

  • تجمع درجة F1 Score بين الدقة والاستدعاء في مقياس واحد. فهي تُعامِل كِلا المقياسين بالأهمية نفسها، لتوفير توازن بين الإيجابيات الزائفة والسلبيات الزائفة. تتراوح درجات F1 بين 0 و1، حيث تُشير الدرجة 1 إلى دقة واستدعاء مثاليين.
     

  • التطابق التام هو نسبة التنبؤات التي يطابقها النموذج اللغوي الكبير (LLM) تمامًا، وهو معيار مهم للترجمة والإجابة عن الأسئلة.
     

  • يقيس الارتباك مدى كفاءة النموذج في التنبؤ. كلما انخفض معدل ارتباك النموذج اللغوي الكبير (LLM)، تحسَّن أداؤه في فهم المهمة.
     

  • يقيّم معيار التقييم ثنائي اللغة قيد الدراسة (BLEU) جودة الترجمة الآلية عن طريق حساب عدد النماذج النونية المتطابقة (تسلسل من الرموز النصية المتجاورة ن) بين الترجمة المتوقعة من النموذج اللغوي الكبير (LLM) والترجمة البشرية.
     

  • يُقيّم معيار الاستدعاء المُوجَّه قيد الدراسة لتقييم التلخيص (ROUGE) جودة تلخيص النصوص وله أنواع متعددة. يُجري ROUGE-N، على سبيل المثال، حسابات مُشابهة لتلك التي يجريها معيار BLEU للتلخيصات، في حين يَحسب ROUGE-L أطول تسلسل جزئي مُشترك بين التلخيص المُتوقَّع والتلخيص الذي أعدّه الإنسان

عادةً ما تُدمَج مجموعة من هذه المقاييس الكمية أو جميعها لإجراء تقييم أكثر شمولًا شامل وصرامة.

في المُقابل، يشمل التقييم البشري مقاييس نوعية مثل الترابط والأهمية والمعنى الدلالي يُمكن أن يُؤدِّي فحص المُقيِّمين البشريين للنموذج اللغوي الكبير (LLM) وتسجيلهم للنتائج إلى تقييم أكثر دقة، ولكنه قد يكون مُرهِقًا وذاتيًا ويستغرق وقتًا طويلًا بناءً على ذلك، ثمة حاجة إلى تحقيق توازن بين المقاييس الكمية والنوعية.

أكاديمية الذكاء الاصطناعي

لماذا تعد نماذج الأساس نقلة نوعية في الذكاء الاصطناعي

تعرَّف على فئة جديدة من نماذج الذكاء الاصطناعي المرنة والقابلة لإعادة الاستخدام التي يمكن أن تفتح مصادر جديدة للإيرادات، وتُسهم في تقليل التكاليف، وزيادة الإنتاجية، ثم استخدم دليلنا لمعرفة المزيد من التفاصيل.

قيود معيار النموذج اللغوي الكبير LLM

ينما تُعَدّ المعايير مُؤشِّرات قوية على أداء النموذج اللغوي الكبير (LLM)، فإنها لا تستطيع التنبُّؤ بمدى نجاح النموذج في العمل على أرض الواقع. فيما يلي بعض القيود على معيار النموذج اللغوي الكبير (LLM):

محدودية التسجيل

عندما يحقق نموذج ما أعلى نتيجة مُمكنة في معيار مُعيَّن، يجب تحديث هذا المعيار بمهام أكثر صعوبة ليظلّ أداة قياس مُجدية.

مجموعة بيانات شاملة

نظرًا لأن معايير النموذج اللوي الكبير (LLM) تستخدم بيانات تجريبية مستمدة في الغالب من مجموعة كبيرة من الموضوعات والمهام، فقد لا تكون مقياسًا دقيقًا للحالات الاستثنائية أو المجالات المتخصصة أو حالات الاستخدام المحددة.

التقييمات محدودة النطاق

تستطيع معايير النموذج اللغوي الكبير (LLM) اختبار مهارات النموذج الحالية فقط. لكن مع تطوّر النماذج اللغوية الكبيرة (LLM) وظهور إمكانات جديدة، يجب وضع معايير جديدة.

فرط التخصيص

إذا خضع نموذج لغوي كبير (LLM) للتدريب على نفس مجموعة البيانات المُستخدمة في المعيار، فقد يُؤدّي ذلك إلى الإفراط في التخصيص، حيث يُمكن أن يُحسِّن النموذج أداءه على بيانات الاختبار ولكنه قد لا يُؤدّي أداءً جيدًا على بيانات العالم الحقيقي. وينتج عن ذلك درجة لا تعكس القدرات الحقيقية للنموذج اللغوي الكبير (LLM).

ما المقصود بلوحات صدارة النماذج اللغوية الكبيرة (LLM)؟

تعرض لوحات الصدارة ترتيبًا للنماذج اللغوية الكبيرة (LLM) استنادًا إلى مجموعة مُتنوّعة من المعايير. تُتيح لوحات الصدارة طريقة لتتبُّع العدد الكبير من النماذج اللغوية الكبيرة (LLM) ومُقارنة أدائها. تُعتبر لوحات صدارة النماذج اللغوية الكبيرة (LLM) مُفيدة بشكل خاص في اتخاذ القرارات المُتعلّقة باختيار النماذج المُناسبة للاستخدام.

يحتوي كل معيار عادةً على لوحة صدارة مُستقلة، ولكن توجد أيضًا لوحات صدارة مُستقلة للنماذج اللغوية الكبيرة (LLM). فعلى سبيل المثال، لدى Hugging Face مجموعة من لوحات الصدارة، من بينها لوحة صدارة مفتوحة للنماذج اللغوية الكبيرة (LLM) تُرتِّب العديد من النماذج مفتوحة المصدر بناءً على معايير ARC و HellaSwag و MMLU و GSM8K و TruthfulQA و Winogrande.

المعايير الشائعة في قياس النماذج اللغوية الكبيرة

يُصنّف الباحثون معايير النماذج اللغوية الكبيرة (LLM) بناءً على هذين الجانبين:1

  • معايير التقييم: يُمكن أن تكون مقاييس تقييم النماذج اللغوية الكبيرة (LLM) حقائق مُثبتة أو تفضيلات بشرية. تُشير الحقيقة المثبتة إلى المعلومات التي يُفترض أنها صحيحة، في حين تُشير التفضيلات البشرية إلى خيارات تعكس الاستخدام في العالم الحقيقي.
     

  • مصدر الأسئلة: يمكن أن تأتي الموجِّهات من مصادر ثابتة أو تفاعلية. تحتوي الموجِّهات التي تأتي من مصادر الثابتة على أسئلة محددة مسبقا، في حين تحتوي الموجِّهات التي تأتي من مصادر تفاعلية على أسئلة تُطرح في سياق تفاعلي.

تُصنّف المعايير ضمن فئة واحدة أو أكثر من هذه الفئات. فيما يلي كيفية عمل بعض المعايير الشائعة:

التحدي الذي يواجه AI2 في الاستدلال (ARC)

يُقيّم ARC قدرات النموذج اللغوية الكبير (LLM) في الإجابة على الأسئلة والاستدلال من خلال مجموعة من أكثر من 7000 سؤال في العلوم الطبيعية مُناسبة لتلاميذ المرحلة الابتدائية. تنقسم هذه الأسئلة إلى مجموعة سهلة وأخرى صعبة. نظام التسجيل بسيط، حيث يحصل النموذج على نقطة واحدة لكل إجابة صحيحة و 1/N من النقاط إذا قدم عدة إجابات وكانت إحداها صحيحة.2

Chatbot Arena

Chatbot Arena عبارة عن منصة تقييم مفتوحة تُقارن بين روبوت مُحادثة مجهولي الهوية. يُجري المُستخدمون مُحادثات واقعية وعشوائية مع كلا روبوتيّ المُحادثة في "ساحة"، ثم يُصوّتون على الروبوت الذي يُفضّلونه، وبعد ذلك يتم الكشف عن هويّات النماذج. تُغذَّى بيانات المُقارنة الزوجية الجماعية المُستقاة من الجمهور في خوارزميات إحصائية تُقدّر النتائج وتُنشئ تصنيفات تقريبية للنماذج اللغوية الكبيرة (LLM) المُختلفة. تُستخدم خوارزميات أخذ العينات أيضًا لمطابقة النماذج.1

رياضيات المرحلة الابتدائية للصف الدراسي الثامن (GSM8K)

تقيس GSM8K مهارات النموذج اللغوي الكبير (LLM) في الاستدلال الرياضي. فهي تحتوي على مجموعة من 8500 مسألة لفظية في الرياضيات مناسبة لطلاب المرحلة الابتدائية. تُجمَع الحلول في صورة لغة طبيعية بدلاً من استخدام صيغ رياضية يتم تدريب مُدقّقين بتقنية الذكاء الاصطناعي لتقييم حلول النموذج.3

HellaSwag

Hellaswag هو اختصار لعبارة “Harder Endings, Longer contexts and Low-shot Activities for Situations With Adversarial Generations” (نهايات أصعب وسياقات أطول وأنشطة قليلة البيانات للسيناريوهات ذات التوليد العدائي). يتمحور هذا المعيار حول الاستدلال المنطقي والاستدلال الطبيعي في فهم اللغة. يتم تكليف النماذج بإكمال الجمل عن طريق اختيار نهايات صحيحة من بين مجموعة من النهايات المحتملة. تتضمّن هذه النهايات إجابات خاطئة تم إنشاؤها باستخدام التصفية العدائية، وهي خوارزمية تُولِّد إجابات تبدو واقعية ولكنها مُضلِّلة وغير دقيقة.. يقيّم معيار Hellaswag الدقة في كلٍ من فئات قليلة البيانات (Few-shot) وبدون بيانات (Zero-shot).4

HumanEval

يقيّم HumanEval أداء النماذج اللغوية الكبيرة (LLMs) في مجال توليد الأكواد البرمجية، مع التركيز على صحة الوظائف البرمجية. تُعطى النماذج مسائل برمجية لحلّها ويتم تقييمها بناءً على اجتيازها لاختبارات الوحدة المُناسبة. هذا يُشبه الطريقة التي يختبر بها مُطوّرو البرمجيات البشريين صحة الأكواد البرمجية عن طريق اجتياز اختبارات وحدة مُحدّدة. يستخدم معيار HumanEval مقياس تقييم خاص به يُسمّى pass@k، وهو يُمثّل احتمالية نجاح حل واحد على الأقل من بين k من حلول الأكواد البرمجية المُولَّدة لمسألة برمجية في اجتياز اختبارات الوحدة المُخصّصة لهذه المسألة.5

فهم اللغة متعدد المهام واسع النطاق (MMLU)

يُقيّم MMLU اتساع نطاق معرفة نموذج اللغة الكبير (LLM) وعمق فهمه للغة الطبيعية وقدرته على حل المشكلات بناءً على المعرفة التي اكتسبها تتألف قاعدة بيانات MMLU من أكثر من 15000 سؤال اختيار من مُتعدِّد في المعرفة العامة تغطي 57 موضوعًا. يقتصر التقييم على البيئات قليلة البيانات (Few-shot) وبدون بيانات (Zero-shot). يحسب معيار MMLU دقة النموذج في كل موضوع ثم يأخذ متوسط هذه الأرقام للحصول على درجة نهائية.6

المشكلات البرمجية الأساسية الأكثر شيوعًا (MBPP)

مشكلات MBPP، المعروفة أيضا باسم مشكلات Python الأساسية الأكثر شيوعًا، هو معيار آخر لوليد الأكواد البرمجية. يشتمل على مجموعة بيانات تتكون من أكثر من 900 مهمة برمجية. على غرار HumanEval، يُقيّم صحة الوظائف بناءً على اجتياز مجموعة من حالات الاختبار. يُجرى التقييم في بيئات قليلة البيانات ومضبوطة. يعتمد MBPP على مقياسين: النسبة المئوية للمشكلات التي يتم حلها بواسطة أي نموذج من العينات والنسبة المئوية للعينات التي تحل المهام المُخصّصة لها7

MT-Bench

ابتكر الباحثون الذين أنشأوا Chatbot Arena أيضًا MT-Bench، وهو مُصمَّم لاختبار مدى قدرة النموذج اللغوي الكبير (LLM) على إجراء حوار واتباع التعليمات. تتكون مجموعة بياناته من أسئلة مفتوحة متعددة الأدوار، مع 10 أسئلة في كل مجال من المجالات الثمانية التالية: البرمجة، والاستخراج، والمعرفة العلمية والتقنية (العلوم والتكنولوجيا والهندسة والرياضيات)، والمعرفة الإنسانية والاجتماعية (العلوم الإنسانية والاجتماعية)، والرياضيات، والمنطق، وتبادل الأدوار، والكتابة. يعتمد MT-Bench على النموذج اللغوي الكبير GPT-4 في تقييم استجابات النماذج اللغوية الكبيرة الأخرى.8

SWE-bench

كما هو الحال مع HumanEval، يختبر SWE-bench مهارات نموذج اللغة الكبير في توليد الأكواد البرمجية، مع التركيز بشكل خاص على حل المشكلات. يُطلب من النماذج إصلاح خطأ برمجي أو تلبية طلب ميزة جديدة في قاعدة بيانات أكواد برمجية مُحدَّدة. يعتمد تقييم المعيار على النسبة المئوية لحالات المهام التي تم حلّها.9

TruthfulQA

تميل النماذج اللغوية الكبيرة إلى توليد معلومات غير دقيقة (الهلوسة)، ما ينتج عنه مُخرجات غير دقيقة. يهدف معيار TruthfulQA إلى معالجة هذه المشكلة عن طريق قياس قدرة النموذج اللغوي الكبير على توليد إجابات صحيحة وواقعية عن الأسئلة. تشتمل مجموعة بياناته على ما يزيد عن 800 سؤال تغطي 38 موضوعًا. يجمع TruthfulQA بين التقييم البشري واستخدام مقياس النموذج اللغوي الكبير GPT-3 المضبوط بدقة على مقاييس BLEU وROUGE للتنبؤ بالتقييمات البشرية من حيث توفير المعلومات والمصداقية.10

Winogrande

يُقيّم Winogrande قدرات النموذج اللغوي الكبير في الاستدلال المنطقي السليم. يستند إلى معيار Winograd Schema Challenge الأصلي (WSC)، مع مجموعة بيانات كبيرة تضم 44000 مُشكلة تم جمعها من مصادر جماعية وتستخدم أيضًا التصفية العدائية. يُحسب التقييم بناءً على الدقة.11

حلول ذات صلة
نماذج الأساس

استكشف مكتبة نماذج الأساس من IBM في محفظة watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

استكشف مكتبة نماذج الأساس من IBM في محفظة IBM watsonx لتوسيع نطاق الذكاء الاصطناعي التوليدي لأعمالك بثقة.

استكشف watsonx.ai استكشف حلول الذكاء الاصطناعي