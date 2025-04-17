هل تلاعب نموذج جديد بنتائج معيار معيّن؟ وأيٌّ من هذه المعايير يمكن اعتباره الأفضل؟ ثم ماذا نعني أصلًا بتصنيف "الأفضل" إذا كان كل معيار يقيس أداء النموذج في مهمة مختلفة؟

مثل هذه الأسئلة تدفع خبراء مثل Marina Danilevsky، كبيرة علماء الأبحاث في IBM، إلى التعامل مع تقييم نماذج الذكاء الاصطناعي بكثير من التحفّظ.وتقول في حديث إلى IBM Think: "الأداء الجيد على معيار معيّن لا يعني أكثر من ذلك: أنك تؤدي جيدًا على ذلك المعيار بالذات." وتضيف أن الشفافية تظلّ العامل الحاسم في هذا المجال. "علينا أن نقرّ بكل ما لا يختبره معيار معيّن، حتى تتمكّن المعايير اللاحقة من سدّ بعض هذه الثغرات."

وبدل الاستمرار في البحث عن "معيار واحد شامل ونهائي"، بدأت حلول جديدة تمنح المستخدمين مزيدًا من السيطرة على طريقة تقييم النماذج. فقد أطلق فريق من منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face أداة YourBench، وهي أداة مفتوحة المصدر تتيح للمؤسسات والمطورين استخدام بياناتهم الخاصة لوضع معايير مخصّصة لتقييم أداء نماذج الذكاء الاصطناعي لديهم.يقول Sumuk Shashidhar، الباحث في Hugging Face، في مقابلة مع IBM Think إن "معظم المعايير المتداولة تركّز على اختبار القدرات العامة للنموذج." ويضيف: "لكن في كثير من سيناريوهات الاستخدام الواقعية، الأهم فعلًا هو مدى قدرة النموذج على أداء المهمة المحدّدة التي تهمّك أنت."

ويوضح Shashidhar أن YourBench يهدف إلى جعل المعايير أكثر فائدة للتطبيقات الواقعية، إذ يقوم تلقائيًا بوضع معايير متخصّصة في مجال معيّن انطلاقًا من المستندات التي يزوّدهم بها المستخدم، وبتكلفة منخفضة ومن دون الحاجة إلى عنونة هذه المستندات يدويًا. وقد برهن الباحثون على فعالية YourBench من خلال إعادة بناء سبع مجموعات فرعية متنوّعة من مجموعة Massive Multitask Language Understanding (MMLU) بكلفة استدلال إجمالية تقل عن 15 دولارًا أمريكيًا، مع الإبقاء على الترتيب النسبي لأداء النماذج كما هو تقريبًا. يُستخدَم MMLU لقياس مدى قدرة النماذج اللغوية على فهم المعرفة وتطبيقها عبر مجموعة واسعة من الموضوعات.