تُكلَّف نماذج الذكاء الاصطناعي بشكل متزايد بتقييم مخرجاتها ذاتياً، وهو ما يثير سؤالاً جوهرياً: من يراقب المراقبين؟
تعمل شركات الذكاء الاصطناعي على تطوير نماذج لتقييم أنظمة الذكاء الاصطناعي الأخرى، مما يمثل تحولاً عن طرق التقييم التقليدية التي يقودها الإنسان. على سبيل المثال، يمكن للنموذج الجديد من Meta تقييم أداء الذكاء الاصطناعي من دون إدخال بشري. وقد أثار ذلك نقاشًا بين الباحثين حول دقة الاختبار الآلي والقيود المفروضة عليه.
تستخدم أداة Self-Taught Evaluator بيانات تدريب يُولِّدها الذكاء الاصطناعي وتقنية سلسلة التفكير لتقييم الإجابات في مجالات العلوم والبرمجة والرياضيات. الهدف هو تعزيز الشفافية، لكن ذلك ينطوي على مخاطر حقيقية. يقول Kush Varshney، الزميل في IBM: "التحقق من صحة القائمين بعمليات التحقق معضلة كبيرة". يوفّر التقييم الذاتي باستخدام الذكاء الاصطناعي فرصاً واضحة لرفع الكفاءة، لكنه يحمل في الوقت نفسه مخاطر بالغة الجدية. يعمل Varshney وفريقه في IBM على تطوير مقاييس تقييم لنماذج "النموذج اللغوي الكبير كقاضٍ" (LLM-as-a-judge)، أي النماذج اللغوية الكبيرة القادرة على تقييم مخرجات أنظمة ذكاء اصطناعي أخرى. ومع ذلك، كما يقول Varshney، "ما زالت هذه مسألة بحثية مفتوحة تمامًا".
القلق الرئيسي هو ما إذا كان يمكن الوثوق بنماذج الذكاء الاصطناعي لتحسين نفسها، أم أنها تخاطر بتضخيم أخطائها الخاصة.
يقول Varshney: "تخيّل أنك تقترب بالميكروفون من مكبّر الصوت". "في أي نظام قائم على التعليقات، تتضخّم الأخطاء أو الضوضاء".
ويحاول نموذج Self-Taught Evaluator من Meta التخفيف من حدة هذه المخاطر من خلال توفير مسار منطقي، بطريقة مشابهة لشرح الإنسان لطريقة تفكيره. ومع ذلك، فإن الاعتماد على البيانات الاصطناعية والتحسين الذاتي يثير تساؤلاً: هل أحكام النموذج غير متحيزة؟ يحدث التحيز عندما تعكس مخرجات نظام الذكاء الاصطناعي افتراضات غير عادلة أو متحيزة، عادة نتيجة بيانات أو خوارزميات متحيزة.
ويضيف: "يجب أن يكون الهدف أن تصبح النماذج اللغوية الكبيرة التي تعمل كقاضٍ غير متحيزة، ولهذا نحتاج إلى تقييم درجة التحيّز فيها". إحدى الطرق تتمثّل في خلط ترتيب خيارات الأسئلة متعددة الاختيارات لمعرفة ما إذا كان النموذج يُظهر تحيزًا موضعيًا، أي تفضيلًا ثابتًا لاختيار بعينه على حساب الخيارات الأخرى. وإلى جانب تحيّز الإطناب في الإجابات، والتحيز في التحسين الذاتي، يمكن للتحيزات الموضعية جميعًا أن تشوّه نتائج التقييم. يقول Varshney: "إدارة هذه المخاطر جزء من تطوير الذكاء الاصطناعي". فالتقدّم المسؤول في مجال الذكاء الاصطناعي يتطلّب رصد التحيّزات والتقليل من أثرها.
يشكل ضمان تقييم ذاتي موثوق قائم على الذكاء الاصطناعي تحديًا أكبر في المجالات المتخصصة مثل الرياضيات المتقدمة والبحث العلمي. وهذا يعني أن الخبراء غالبًا ما يكونون ضروريين للتحقق من صحة النتائج والحفاظ على موثوقية أنظمة الذكاء الاصطناعي ومسارها الصحيح.
يقول Varshney: "هناك الكثير من الحيل لمحاولة القيام بذلك، مثل الخلط بين الإجابات ذات الخيارات المتعددة".
وفقًا لـ Dev Nag، المؤسس والمدير التنفيذي لشركة QueryPal، نموذج Self-Taught Evaluator من Meta هو عبارة عن تضخيم وتوسيع لنطاق الحكم البشري - وليس إزالة البشر من الحلقة.
يقول Nag: "يمكنك أن تنظر إلى الأمر كما لو أنّ المعلّم يضع مسائل تدريبية بناءً على فهمه لما يجعل الإجابة جيدة أو سيئة". "وكما استخدم AlphaGo قواعد لعبة Go كنقطة انطلاق قبل أن ينتقل إلى اللعب الذاتي، تبني أداة Self-Taught Evaluator على معايير الجودة التي يضعها البشر قبل أن تُنشئ أمثلة تدريبية اصطناعية تحتوي على أحكامٍ بشرية ضمنياً".
حتى مع وجود أنظمة ذكاء اصطناعي تراقب أداءها ذاتيًا، يمكن لعمليات المراجعة والتدقيق الدورية أن تكشف التحيّزات أو المشكلات الخفية، حسبما أشار Dan O'Toole، رئيس مجلس الإدارة والرئيس التنفيذي (CEO) لشركة Arrive AI.
ويقول: "استخدام نماذج ذكاء اصطناعي متعددة لتنفيذ التقييم نفسه بشكل مستقل، أو ربطها في سلسلة تقييم متتابعة، يقلّل الأخطاء ويساعد على إبراز المشكلات المحتملة". كما أن قابلية التفسير عنصر أساسي. "إن إظهار سلسلة التفكير خطوة مهمة في اتجاه الشفافية وتعزيز الموثوقية".
يؤكد O’Toole أن المقاييس المتخصصة ضرورية في مجالات مثل الرياضيات المتقدمة والبحث العلمي. استخدمت Meta، على سبيل المثال، MT-Bench وRewardBench لتقييم الأغراض العامة، ولكن معيار مثل GSM8K مناسب لحل المشكلات الرياضية. يمكن أن يساعدك CRUXEval في الاستدلال على التعليمات البرمجية، بينما يمكن أن يساعد معيار مثل FactKB وPubMed وSciBench على ضمان تلبية النماذج للاحتياجات المحددة.
ويشدّد Nag على أن قياس الأداء وضمان الاعتمادية أمران حاسمان، خصوصًا في المجالات المتخصصة. ويرى أن المعيار النهائي يجب أن يكون مدى اتساق نتائج النماذج مع أحكام الخبراء البشريين في المجال نفسه.
ويقول Nag: "يُعدّ بلوغ أداة "Self-Taught Evaluator" نسبة توافق قدرها 88.7% مع أحكام الخبراء البشريين على مجموعة الاختبار RewardBench نقطة انطلاق قوية، لكن من الضروري بالقدر نفسه تتبّع عوامل أخرى مثل الاتساق، وقابلية التفسير، وقدرة النظام على رصد الحالات الاستثنائية". "وكما جرى التحقّق من كفاءة أسلوب اللعب الذاتي في AlphaGo عبر أدائه أمام أبطال من البشر، ينبغي اختبار أنظمة التقييم بانتظام أمام لجان من خبراء المجال."
تؤكد Jen Clark، التي تدير خدمات الاستشارات والتكنولوجيا في EisnerAmper، أن تطوير الذكاء الاصطناعي يتطلب إطارات عمل منظمة لضمان كلٍ من السلامة والتقدم الفعال.
وتضيف: "مع استمرار تقدّم الذكاء الاصطناعي، يصبح الاعتماد على المنهجيات التي ساندت البحث البشري — مثل المنهج العلمي، والمجتمعات القويّة، وشبكات التعاون — أمرًا حاسمًا." "تركيز الجهود في هذه الجوانب ضروري لحشد الإسهامات الجماعية في تعزيز سلامة الذكاء الاصطناعي وإدارة سرعة تطويره وحجمه."