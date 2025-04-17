هل تلاعب نموذج جديد بنتائج معيار معيّن؟ وأيٌّ من هذه المعايير يمكن اعتباره الأفضل؟ ثم ماذا نعني أصلًا بتصنيف "الأفضل" إذا كان كل معيار يقيس أداء النموذج في مهمة مختلفة؟
مثل هذه الأسئلة تدفع خبراء مثل Marina Danilevsky، كبيرة علماء الأبحاث في IBM، إلى التعامل مع تقييم نماذج الذكاء الاصطناعي بكثير من التحفّظ.وتقول في حديث إلى IBM Think: "الأداء الجيد على معيار معيّن لا يعني أكثر من ذلك: أنك تؤدي جيدًا على ذلك المعيار بالذات." وتضيف أن الشفافية تظلّ العامل الحاسم في هذا المجال. "علينا أن نقرّ بكل ما لا يختبره معيار معيّن، حتى تتمكّن المعايير اللاحقة من سدّ بعض هذه الثغرات."
وبدل الاستمرار في البحث عن "معيار واحد شامل ونهائي"، بدأت حلول جديدة تمنح المستخدمين مزيدًا من السيطرة على طريقة تقييم النماذج. فقد أطلق فريق من منصة الذكاء الاصطناعي مفتوحة المصدر Hugging Face أداة YourBench، وهي أداة مفتوحة المصدر تتيح للمؤسسات والمطورين استخدام بياناتهم الخاصة لوضع معايير مخصّصة لتقييم أداء نماذج الذكاء الاصطناعي لديهم.يقول Sumuk Shashidhar، الباحث في Hugging Face، في مقابلة مع IBM Think إن "معظم المعايير المتداولة تركّز على اختبار القدرات العامة للنموذج." ويضيف: "لكن في كثير من سيناريوهات الاستخدام الواقعية، الأهم فعلًا هو مدى قدرة النموذج على أداء المهمة المحدّدة التي تهمّك أنت."
ويوضح Shashidhar أن YourBench يهدف إلى جعل المعايير أكثر فائدة للتطبيقات الواقعية، إذ يقوم تلقائيًا بوضع معايير متخصّصة في مجال معيّن انطلاقًا من المستندات التي يزوّدهم بها المستخدم، وبتكلفة منخفضة ومن دون الحاجة إلى عنونة هذه المستندات يدويًا. وقد برهن الباحثون على فعالية YourBench من خلال إعادة بناء سبع مجموعات فرعية متنوّعة من مجموعة Massive Multitask Language Understanding (MMLU) بكلفة استدلال إجمالية تقل عن 15 دولارًا أمريكيًا، مع الإبقاء على الترتيب النسبي لأداء النماذج كما هو تقريبًا. يُستخدَم MMLU لقياس مدى قدرة النماذج اللغوية على فهم المعرفة وتطبيقها عبر مجموعة واسعة من الموضوعات.
طوّرت بعض الشركات، من بينها شركة IBM، أدوات خاصة لوضع معايير مخصّصة شبيهة بما يقدمه YourBench لتقييم النماذج. تقول Danilevsky: "هذا يذكرني بالآلية الداخلية التي نعتمدها لإنتاج بيانات اصطناعية تُستخدم في التدريب أو في التقييم. فإنتاج بيانات اصطناعية في حد ذاته أمر سهل. لكن التحدّي الحقيقي يكمن في إنتاج بيانات اصطناعية جيّدة." "لذلك، حتى إذا أثبت YourBench فعاليته مع مجموعات MMLU الفرعية، فهذا لا يعني أنه سيكون مناسبًا تلقائيًا لكل مهمة أو نوع بيانات نختبره عليه."
ومن البدائل التي ازدادت شهرة مؤخرًا Chatbot Arena (CA)، وهو إطار تقييمي يعتمد على مساهمات المستخدمين. وبدل الاقتصار على اختبارات صارمة في الرياضيات أو اللغة، يتيح Chatbot Arena للمستخدم طرح سؤال، ثم تلقّي إجابتين من نموذجين مجهولي الهوية، ليقيّم أي الإجابتين أفضل.
أُطلق CA على يد اثنين من طلاب الدراسات العليا في جامعة California, Berkeley، وبات يحصل اليوم على وصول مبكر إلى نماذج تصدر عن معظم الشركات الكبرى في الذكاء الاصطناعي، بحيث يتمكّن المهتمون من إجراء "مواجهات" بين النماذج المختلفة، "فيخلق ذلك قدرًا من التشويق ويحوّل تقييم النماذج إلى تجربة أقرب إلى الألعاب"، على حد تعبير الشريك المؤسس Anastasios Angelopoulos في مقابلة مع IBM Think.أما لوحة المتصدرين في CA، التي تُشبه أحيانًا قائمة Billboard Hot 100 ولكن لنماذج الذكاء الاصطناعي، فقد حصدت حتى الآن أكثر من مليوني تصويت.
وبحكم متابعتهم الدقيقة للنماذج الجديدة، لم يتفاجأ Angelopoulos — على عكس كثيرين — بالارتفاع الكبير في شعبية DeepSeek-R1. ويقول: "بدأت النماذج مفتوحة المصدر منذ فترة تضيق الفجوة بينها وبين النماذج الخاصة، وجاء DeepSeek ليؤكد هذا الاتجاه."
وقد جاء إنشاء Chatbot Arena استجابةً لحالة من الإحباط من محدودية المعايير التقليدية. ويشرح Angelopoulos: "جزء من المشكلة أن المعايير ثابتة؛ إذ يمكن تهيئة بعض النماذج بحيث تحقّق أداءً ممتازًا على معيار بعينه." "وينشأ عن ذلك خطر الإفراط في ملاءمة البيانات (overfitting)، حيث يحفظ النموذج بيانات التدريب حفظًا مبالغًا فيه من دون أن يطوّر قدرة حقيقية على التعميم." ويضيف أن ما يميّز Chatbot Arena هو الاعتماد على بيانات حية ومتجددة باستمرار. "لا يمكنك دفع النموذج إلى الإفراط في التخصيص على هذه البيانات؛ فهي لا تتعرّض للتلوّث ولا تصبح متقادمة."
وترى Danilevsky أن "مجرد ترتيب المتصدرين في Chatbot Arena لا يكفي وحده لاتخاذ قرارات عملية قابلة للتنفيذ." "فالعديد من التطبيقات الواقعية تحتاج إلى تعليقات أكثر تفصيلاً على أداء النموذج، تتجاوز مجرد إشارة إعجاب أو رفض." ومع ذلك، تقرّ بأن الفكرة نفسها تحظى بانتشار واسع. وتقول: "كل ما أرجوه أن نفهم بصورة أفضل كيف يستجيب الناس لنموذج معيّن وسبب تقييمهم له بهذه الطريقة. ويُعدّ وجود بيانات وصفية إضافية مفيدًا جدًا في هذا السياق."
وحتى Angelopoulos نفسه يرى أن "الاستخدام الفعلي للنماذج يقيس شيئًا مختلفًا تمامًا عما تعكسه نتائج المعايير القياسية." ويضرب مثالًا على ذلك بنموذج GPT-4.5 من OpenAI. "هذا النموذج لم يحقق نتائج قوية في عدد من المقاييس النوعية، لكن المستخدمين أحبّوه. تحتاج إلى أداة مختلفة لقياس الانطباع العام الذي يتركه النموذج لدى المستخدمين."
