منظر علوي لتفاح يتحرك عبر منشأة معالجة، فيما تظهر في المقدمة يد تمسك تفاحة واحدة

ما المقصود بتقييم النموذج؟

تعريف تقييم النموذج

يشير تقييم النموذج إلى عملية قياس مدى جودة أداء نموذج التعلّم الآلي. وتطرح هذه العملية السؤال التالي: عندما يصدر نموذجك حكمًا بشأن العالم الواقعي، فكم مرة يكون هذا الحكم صحيحًا؟ أو، في الحالات التي تُقاس على نطاق متدرج، إلى أي مدى كان قريبًا من الصواب؟

تكلفة الوقوع في الخطأ

ومع تزايد اعتماد الشركات على نماذج الذكاء الاصطناعي، أصبحت المخاطر المالية أكبر من أي وقت مضى. في فبراير 2021، اتخذت إدارة Zillow رهانًا كبيرًا استنادًا إلى نماذج التعلّم الآلي التي تستخدمها الشركة للتنبؤ بقيم المنازل. ولم يقتصر دور Zillow على إعداد هذه التقديرات، بل كانت الشركة نفسها تشتري في كثير من الأحيان المنازل التي حدّد نموذجها أسعارها، وذلك من خلال نشاط ذي صلة يحمل اسم Zillow Offers.

وبعد ثمانية أشهر فقط، أوقفت Zillow نشاط Zillow Offers وسجّلت شطبًا في قيمة المخزون بلغ 304 ملايين دولار أمريكي. وقالت الشركة إن السبب في ذلك يعود إلى شرائها عددًا كبيرًا من المنازل بأسعار تجاوزت ما كانت تتوقع أن تتمكن من بيعها به. وهبط سهم الشركة، كما سرّحت Zillow نحو 25% من موظفيها.

ما السبب؟ لم يكن نموذج الذكاء الاصطناعي لديها يتمتع بالدقة الكافية لمواكبة تحولات السوق. فلم تتطابق تنبؤاته وتوقعاته مع القيم الفعلية للمنازل.1

ومع انتشار نماذج التعلّم الآلي (ML) في مجالات الرعاية الصحية والتوظيف والعدالة الجنائية، يمكن أن يؤدي ضعف التقييم إلى إلحاق ضرر حقيقي بأشخاص حقيقيين. وفي مجالي علم البيانات والصناعة، أصبح ضبط مقاييس تقييم النماذج على نحو صحيح جزءًا أساسيًا من نشر الذكاء الاصطناعي بصورة مسؤولة.

أنواع النماذج والمقاييس

صُممت النماذج المختلفة لأداء مهام مختلفة.

وتُسند نماذج التصنيف البيانات الواردة إلى واحدة من عدة فئات محددة. (فالنموذج الذي يحدد ما إذا كان المريض مصابًا بتعفن الدم أم لا يُعد نموذج تصنيف.)

أما نماذج الانحدار، فتُخرج قيمة رقمية تقع على نطاق متصل. (وكان نموذج Zillow لتسعير المنازل نموذج انحدار.)

وتتطلب الأنواع المختلفة من النماذج أساليب مختلفة للاختبار. وغالبًا ما يكون تقييم الأداء بالاستناد إلى عدة مقاييس هو الخيار الأمثل، إذ لا يخلو أي مقياس منفرد من أوجه عدم اليقين. 

نماذج التصنيف ومقاييس التصنيف

وتتعامل بعض النماذج مع "مسائل التصنيف"، أي إنها تقسم العالم إلى فئات. ومقاييس التصنيف بدورها مباشرة وحاسمة بطبيعتها. وتُعد دقة النموذج من المقاييس السهلة الفهم نسبيًا، إذ تُحتسب بقسمة عدد التنبؤات الصحيحة على العدد الإجمالي للتنبؤات. (وفي التعلّم الآلي، تشير كلمة "تنبؤ" إلى التقديرات المدروسة التي تصدرها النماذج، حتى لو كانت تتعلق بشيء يحدث في الوقت الراهن لا في المستقبل.)

غير أن المشكلة في الاعتماد على دقة النموذج تكمن في أن الرقم المرتفع قد يمنح الأطراف المعنية شعورًا زائفًا بالأمان. فالنموذج المصمم لاكتشاف حدث نادر لكنه كارثي، مثل نوع معيّن من السرطان، قد ينتهي به الأمر إلى تصنيف كل فحص على أنه سلبي بشكل تلقائي. وفي هذه الحالة، سيحقق النموذج مستوى مرتفعًا من الدقة، لأن 99.99% من تلك القراءات السلبية ستكون صحيحة. لكن هذه الدقة العالية لن تكون ذات جدوى تُذكر للمريض الذي تلقى النتيجة السلبية الخاطئة النادرة. فالنموذج كان دقيقًا من الناحية التقنية، لكنه أخفق في أداء المهمة المطلوبة منه.

ومن هنا تبرز فائدة تحليل أداء نموذج التصنيف بحسب أنواع التنبؤات، أو التقديرات المدروسة، التي يصدرها. وفي مهمة تصنيف ثنائي، مثل اكتشاف السرطان، توجد أربع نتائج محتملة. وعند عرضها في مصفوفة 2×2، يُطلق على هذا الإطار عادة اسم "مصفوفة الالتباس":

  1. القيم الإيجابية الصحيحة (اكتشاف السرطان بدقة)
  2. القيم السلبية الصحيحة (استبعاد السرطان بدقة)
  3. القيم الإيجابية الخاطئة (تشخيص الإصابة بالسرطان رغم عدم وجوده)
  4. القيم السلبية الخاطئة (عدم اكتشاف السرطان رغم وجوده)

وهنا يبدأ السبب وراء أهمية التمييز بين هذه الفئات في الظهور بوضوح. ولا شك أن التشخيص الإيجابي الخاطئ للسرطان قد يكون تجربة قاسية نفسيًا، إلى أن تكشف الفحوص الإضافية أن الأمر لم يكن سوى إنذار طبي كاذب. أما النتيجة السلبية الخاطئة، فقد تكون قاتلة.

وقد طور المتخصصون في علم البيانات مجموعة من المقاييس الفرعية لتحليل أداء نماذج التصنيف وتقييم العلاقات بين أقسام مصفوفة الالتباس.

ويطرح المقياس المعروف باسم الدقة (Precision) السؤال التالي: من بين جميع التنبؤات الإيجابية التي أصدرها نموذج التصنيف، كم منها كان صحيحًا؟

لنفترض أن خوارزمية للتعرف على الصور مثبتة في سيارة مرت بعشرة تقاطعات ضمن مسار اختباري، وكان في ستة منها علامات توقف. لكن القول إن النموذج "رصد علامات التوقف الست كلها" يتجاهل فروقًا جوهرية محتملة في الدقة. فإذا رصد العلامات الست بدقة ولم ينتج أي قيم إيجابية خاطئة، فإن قيمة دقته تكون 6/6، أي 100%. أما إذا رصد تلك العلامات الست، لكنه "تخيل" أيضًا أربع علامات توقف غير موجودة، فإن قيمة دقته تنخفض إلى 6/10 فقط، أي 60% لا غير.

أما المقياس المعروف باسم الاستدعاء (Recall)، ويُعرف أيضًا باسم معدل القيم الإيجابية الصحيحة، فيقيس جانبًا مختلفًا بدرجة دقيقة. ويجيب الاستدعاء عن السؤال التالي: من بين جميع علامات التوقف الموجودة فعلًا، كم عدد العلامات التي تمكن النموذج من رصدها؟

وتخيل الآن مسارًا اختباريًا آخر يضم 100 تقاطع، يوجد في 50 منها علامات توقف. فإذا رصد النموذج 30 علامة من هذه العلامات الخمسين، كانت قيمة الاستدعاء لديه 60%، وإذا رصد 40 علامة، ارتفعت إلى 80%، وهكذا. (لا يهتم الاستدعاء بالإنذارات الكاذبة، ولذلك يمكن نظريًا "التحايل" للوصول به إلى 100% عبر تدريب النموذج على رؤية علامات التوقف في كل مكان.)

وتنطوي هاتان القيمتان، الدقة (Precision) والاستدعاء (Recall)، على مفاضلة مستمرة بينهما. فالمهندس الذي يسعى إلى رفع الاستدعاء (Recall) قد يبالغ في ذلك، فينتهي إلى نموذج يطلق عددًا أكبر من القيم الإيجابية الخاطئة. وفي كثير من الأحيان، يتمثل ضبط النموذج في إدارة المفاضلة بين Recall أعلى، أي رصد جميع الحالات التي تسعى إلى اكتشافها، ودقة (Precision) أقل، أي المبالغة في الرصد والتقاط قيم إيجابية خاطئة أيضًا.

وعند إدارة هذه المفاضلة، يلجأ ممارسو التعلّم الآلي غالبًا إلى مقياس يُعرف باسم درجة F1، وهو المتوسط التوافقي لكل من الدقة (Precision) والاستدعاء (Recall). (ويختلف المتوسط التوافقي عن المتوسط التقليدي في أنه يتأثر بدرجة أكبر بالقيم المنخفضة. ولذلك، تنخفض درجة F1 بسرعة إذا كانت قيمة الدقة Precision) أو الاستدعاء (Recall) منخفضة.)

وتبلغ درجة F1 المثالية 1.0، لكن لا توجد للأسف قاعدة واحدة تصلح لجميع الحالات لتحديد ما إذا كانت الدرجة عالية بما يكفي، لأن السياق يلعب دورًا حاسمًا في ذلك.2 غير أن المؤكد هو أن ارتفاع درجة F1 يُعد أفضل. فكلما اقتربت الدرجة من 1.0، زادت قدرة النموذج على اكتشاف ما صُمم لاكتشافه بفاعلية، مع تقليل القيم الإيجابية الخاطئة والقيم السلبية الخاطئة.3

مقاييس التصنيف المرتبطة بالثقة والعتبات

وضمن مقاييس التصنيف، هناك مقياسان يرتبطان ارتباطًا وثيقًا بمفهومي الثقة والعتبات.

فالنموذج لا يكتفي بإخراج نتيجة من قبيل "علامة توقف" أو "ليست علامة توقف". بل قد يقدّم نتيجة مثل: "هناك احتمال بنسبة 98% أن تكون هذه علامة توقف"، وهو تنبؤ يتمتع بدرجة عالية من الثقة. وقد يقدّم أيضًا نتيجة مثل: "هناك احتمال بنسبة 51% أن تكون هذه علامة توقف"، وهو تنبؤ منخفض الثقة نسبيًا.

وصُمم المقياس المعروف باسم Log Loss لتقييم مستوى الثقة في تنبؤات النموذج. فالأخطاء التي تصدر بثقة عالية تترتب عليها عقوبة كبيرة. كما تُفرض عقوبة أيضًا على التنبؤات الصحيحة التي تصدر بدرجة ثقة منخفضة، ولكن بدرجة أقل. أما النموذج المثالي، فسيحقق 0 في Log Loss، غير أن الوصول إلى ذلك نادر الحدوث. وما يُعد "درجة جيدة" يعتمد، مرة أخرى، على نموذجك ونوع المهمة التي يؤديها.

ومهما بلغت درجة الثقة التي يقدمها النموذج، فإن المستخدمين البشر لنماذج التعلّم الآلي (ML) يظلون في نهاية المطاف مطالبين بتحديد عتبة تُحوِّل تقديرات النموذج إلى قرار نهائي بنعم أو لا. فقد تُعتمد قاعدة من قبيل: "إذا تجاوزت درجة الثقة 75%، فلتكن النتيجة: نعم، هذه علامة توقف." لكن المستخدم البشري قد يختار بدلًا من ذلك عتبة عند 51% أو 98% من الثقة. ومن الطبيعي أن تختلف مخرجات النموذج اختلافًا كبيرًا تبعًا للعتبة التي يقع عليها الاختيار.

ويفحص منحنى ROC، المشتق من المصطلح التقني خاصية تشغيل المُستقبِل (receiver operating characteristic)، وكذلك المقياس المرتبط به ROC AUC، أو "المساحة تحت المنحنى"، أداء النموذج عبر عدد كبير من العتبات المختلفة. ومن الناحية التقنية، يرسم منحنى ROC معدل القيم الإيجابية الصحيحة (TPR) في مقابل معدل القيم الإيجابية الخاطئة (FPR) مع تغيّر العتبة. أما من الناحية المفاهيمية، فإن ROC AUC يتجاوز القرارات المرتبطة بحد فاصل بعينه، ويركز بدلًا من ذلك على تقييم قدرة النموذج عمومًا على التمييز، أي: "بصرف النظر عن موضع العتبة، هل يواصل النموذج إعطاء درجات ثقة أعلى بصورة متسقة عندما تكون علامات التوقف موجودة فعلًا؟" ويلخّص ROC AUC هذه القدرة العامة على التمييز بين الحالات الإيجابية والحالات السلبية.

Mixture of Experts | 12 ديسمبر، الحلقة 85

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

نماذج الانحدار ومقاييس الانحدار

ويتناول القسم السابق مسائل "التصنيف"، حيث تكون الظاهرة، سواء كانت علامة توقف أو سرطانًا، موجودة بوضوح أو غير موجودة. لكن كثيرًا من الظواهر، مثل قيم المنازل أو مستويات الجلوكوز لدى المريض، تقع على نطاق متدرج، وهو ما يتطلب نماذج مختلفة ومقاييس أداء مختلفة. والنماذج التي تتعامل مع هذه الظواهر تُنتج قيمًا رقمية بدلًا من فئات. وتُعرف هذه النماذج باسم نماذج الانحدار، ويجري تقييمها باستخدام مقاييس الانحدار، التي تطرح بصيغ مختلفة سؤالًا واحدًا في جوهره: "إلى أي مدى يبتعد هذا الرقم عن القيمة الصحيحة؟"

ويجيب متوسط الخطأ المطلق (MAE) عن السؤال التالي: "في المتوسط، إلى أي مدى ابتعدت تقديراتنا عن القيمة الصحيحة؟" فإذا قدّر أحد النماذج هذا الأسبوع أن منزلًا سيباع بسعر 500,000 دولار أمريكي، ثم بيع فعليًا بسعر 525,000 دولار أمريكي، وقدّر في الأسبوع التالي أن منزلًا آخر سيباع بسعر 400,000 دولار أمريكي، ثم بيع فعليًا بسعر 390,000 دولار أمريكي، فإن متوسط الخطأ المطلق لهذا النموذج يبلغ 17,500 دولار أمريكي (25,000 + 10,000، ثم القسمة على 2). ولا يهتم MAE بما إذا كان النموذج يميل باستمرار إلى المبالغة في التقدير أو إلى التقليل منه. بل يركّز فقط على متوسط الفارق عن القيمة الصحيحة.

ويتشابه الجذر التربيعي لمتوسط مربعات الخطأ (RMSE) مع ذلك، لكنه يفرض عقوبة أشد على القيم التي تبتعد كثيرًا عن القيمة الصحيحة. ويتحقق ذلك من خلال تربيع الأخطاء، وهو ما يجعل الأخطاء الكبيرة أكبر أثرًا، قبل أخذ الجذر التربيعي للمتوسط الناتج. وفي المثال السابق، تبلغ قيمة RMSE 19,039 دولارًا أمريكيًا. (أما MSE، أو متوسط مربعات الخطأ، فيعمل بطريقة مماثلة ولكن من دون الجذر التربيعي، وهو ما يجعله أقل سهولة في التفسير، وإن ظل مفيدًا من الناحية الرياضية في بعض الحالات.) ويكون RMSE مفيدًا على وجه الخصوص عندما تترتب على الأخطاء الكبيرة تكلفة مرتفعة.

وهناك مقياس آخر أقل مباشرة من حيث الفهم، وهو R-squared. ولا يقيس R-squared مدى ابتعاد تنبؤات النموذج عن القيم الصحيحة، بل يقيس مقدار التباين الكلي في المتغير المستهدف الذي تمكن النموذج من تفسيره.

ولفهم R-squared بصورة أوضح، تخيل أولًا نموذجًا مبسطًا لتسعير المنازل يعطي القيمة نفسها لكل منزل، وهي متوسط السعر في المنطقة. ويطرح R-squared السؤال التالي: إلى أي مدى يتفوق نموذجنا على نموذج لا يفعل سوى التخمين على أساس المتوسط؟ وكلما زادت قدرة النموذج على تفسير التباين في الأسعار الفعلية، ارتفعت قيمة R-squared لديه. (فإذا بلغت قيمة R-squared 0.85، فهذا يعني أن النموذج يفسر نحو 85% من التباين في النتيجة، أما إذا كانت قيمته 0، فهذا يعني أنه لا يتفوق على النموذج الذي يكتفي بإعطاء المتوسط.)

وكغيره من المقاييس، لا يخلو R-squared من أوجه قصور. ويكون هذا المقياس أقل موثوقية على نحو خاص عند التعامل مع بيانات تتضمن قيَمًا خارجية.

 

تحديات تقييم النموذج ومشكلاته

فليس كل طالب يجتاز اختبارًا يكون قد استوعب المادة فعلًا. فقد يكون الطالب قد حفظ البطاقات التعليمية من دون أن يستوعب المفاهيم. وقد يكون قد غش، أو اطّلع على الاختبار مسبقًا بطريقة ما، أو ربما حالفه الحظ فحسب. وينطبق الأمر نفسه على نماذج التعلّم الآلي.  

عندما تكون البيانات محدودة

ومن أبسط الأخطاء في تقييم نماذج التعلّم الآلي اختبار النموذج باستخدام البيانات نفسها التي استُخدمت في تدريبه. فقد يحقق النموذج أداءً مرتفعًا جدًا، لا لأنه تعلّم بالفعل، بل لأنه حفظ البيانات حفظًا. وفي هذه الحالة، يكون قد أخفق في تعميم أي فهم للظاهرة الأساسية التي صُمم لاكتشافها، ومن المرجح أن يفشل عند مواجهة بيانات جديدة في العالم الواقعي. ويُعرف هذا السلوك الشبيه بالحفظ في المصطلح التقني باسم الإفراط في تخصيص البيانات (Overfitting).

ويُعرف الإجراء الوقائي المعتاد باسم تقسيم البيانات إلى تدريب واختبار، حيث تُقسَّم البيانات المتاحة إلى مجموعة يُسمح للنموذج بالتعلّم منها، وهي بيانات التدريب، وجزء آخر لا يُسمح له برؤيته إلا عند الاختبار، وهو مجموعة الاختبار. لكن هذا الإجراء بدوره لا يضمن نتائج مثالية دائمًا، إذ قد يؤدي التقسيم غير الموفق إلى تشويه نتائج اختبار النموذج. وفوق ذلك، إذا كانت البيانات محدودة، تنشأ مفاضلة صعبة بين تخصيصها للتدريب والاحتفاظ بها للاختبار. 

ويعالج ممارسو التعلّم الآلي هذه المشكلات باستخدام التحقق المتقاطع. وفي التحقق المتقاطع، تُقسَّم مجموعة البيانات إلى أجزاء تُعرف باسم folds. ويُستخدم معظم هذه الأجزاء لتدريب النموذج، بينما يُخصَّص جزء واحد لاختباره. ثم تُكرر العملية على نسخة جديدة من النموذج، مع تدوير هذه الأجزاء، بحيث يصبح جزء مختلف في كل مرة هو مجموعة الاختبار. وبعد ذلك، يُحسب متوسط نتائج الاختبار عبر هذه الجولات المختلفة. ويمنح هذا النهج تقديرًا أكثر استقرارًا لمدى جودة أداء النموذج على البيانات الجديدة، كما يتيح الاستفادة بدرجة أكبر من مجموعة بيانات محدودة، لأن كل نقطة بيانات يمكن استخدامها للتدريب في سياق، وللاختبار في سياق آخر.

وفي نهاية المطاف، إذا لم يحقق أي من النماذج المرشحة أداءً كافيًا، فقد يلجأ الممارسون إلى ضبط المعلمات الفائقة، أي تعديل الإعدادات الداخلية مثل عمق النموذج أو معدل التعلّم، لمعرفة ما إذا كان ذلك سيحسن الأداء.

وفي Python، تجعل مكتبات مثل scikit-learn تطبيق التحقق المتقاطع أمرًا سهلًا، وهو أحد الأسباب التي جعلته ممارسة قياسية.

عندما لا تكون "الإجابة الصحيحة" واضحة

وأحيانًا تكون ما يُعرف باسم "الحقيقة المرجعية" واضحة تمامًا: فالمريض إما مصاب بالسرطان أو غير مصاب به، والمنزل إما بيع بهذا السعر أو ذاك. لكن مع ظهور النماذج اللغوية الكبيرة (LLMs)، أصبح أداء النموذج في كثير من الأحيان أقل وضوحًا وأصعب قياسًا.

فقد يواجه روبوت محادثة مدعوم بنموذج لغوي كبير بعض المهام الثنائية، مثل ما إذا كان يحصل على الحقائق بصورة صحيحة أم خاطئة. لكن المستخدم قد يقيّمه أيضًا على أبعاد كثيرة مختلفة يصعب تحديدها بدقة، مثل الود أو مدى الفائدة. وفي مثل هذه الحالات، لا توجد إجابة واحدة صحيحة، ولا توجد "قيم حقيقية" يمكن القياس عليها. ويُعد التقييم البشري المعيار الذهبي لتقييم مخرجات النماذج اللغوية الكبيرة، لكنه أسلوب يصعب توسيع نطاقه. 

وفي نهاية المطاف، قد يأتي التقييم النهائي للنموذج في مثل هذه الحالات من طرحه للاستخدام الفعلي ومراقبة ما إذا كان المستخدمون يحققون قيمة فعلية منه أم لا.

مؤلف

David Zax

Staff Writer

IBM Think

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

  1. استكشف watsonx.ai
  2. احجز عرضًا توضيحيًا مباشرًا