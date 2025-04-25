إذا كان هناك موضوع يستحق الاهتمام، فقد أصبحت المعايير المرجعية في صلب النقاش الآن بعد أن أصبحت قدرات الذكاء الاصطناعي تتطور بسرعة تفوق الأدوات المخصصة لقياسها.

تقول Vanessa Parli، إحدى مؤلفات التقرير، في مقابلة مع IBM Think: "كل عام نتابع أداء هذه الخوارزميات وفقًا للمعايير المرجعية، ويبدو كل عام أنها تتفوق على تلك المعايير. وبالمثل، هذا العام يحدث ذلك حتى مع المعايير المرجعية الأحدث".

أشار التقرير إلى أنه في عام 2023، قدَّم الباحثون معايير مرجعية جديدة -MMMU وGPQA وSWE-bench- لاختبار حدود أنظمة الذكاء الاصطناعي المتقدمة. وبعد مرور عام واحد فقط، ارتفع الأداء بشكل حاد: فقد ارتفعت الدرجات بنسبة 18.8 و48.9 و67.3 نقطة مئوية على مؤشر MMMU وGPQA وSWE-bench على التوالي، وفقًا للتقرير.

ويثير هذا الأمر غموضًا داخل المجتمع البحثي بشأن المعنى الحقيقي - وقيمة- معيار النماذج اللغوية الكبيرة. طرحت Parli أسئلة مهمة للنقاش: هل نقيس الشيء الصحيح؟ هل تم اختراق هذه المعايير؟ وكيف يجب على الأوساط العلمية تقييم النماذج؟"

عند التفكير في المستقبل، يتساءل Ash Minhas أيضًا عن الشكل الذي سيبدو عليه مستقبل القياس والتحليل المعياري. ويتساءل في مقابلة مع IBM Think: "أين سيتوقف ذلك؟ هل سيضطر اختبار تورينج لأن يكون دائمًا هدفًا متحركًا؟ هل يكون الاختبار الأخير للبشرية حقًا هو الاختبار الأخير؟"

في الوقت نفسه، يحذِّر الخبراء من خطر الإفراط في التخصيص، وهو ظاهرة يحدث فيها أن نموذج الذكاء الاصطناعي يتقن أداء الاختبارات المرجعية المحددة بشكل استثنائي، لكنه قد يفشل في التعميم على بيانات جديدة وغير مألوفة في التطبيقات الواقعية. ويضيف: "هل نحن بصدد تدريب النموذج فقط لتجاوز المعايير المرجعية؟. يُعَد MMMU معيارًا جيدًا، لكن هل السبب أن النموذج يعرف كيفية الاستجابة للمعيار فقط؟"

كما يحذِّر Minhas من أن الحماس وزخم التقدم قد يأخذان الأولوية على الاهتمام بالأخلاقيات والعدالة والتحيّز.