تقارِن عملية الاختبار بين النماذج المرشَّحة وتقيِّم أداءَها وفقًا لمجموعة من مقاييس التقييم المحددة مسبقًا. على الرغم من وجود العديد من المقاييس، إلا إن بعضها أفضل من غيرها لأنواع معينة من تحديات التعلم الآلي (ML).
تتضمن مقاييس تقييم النموذج للتصنيف ما يلي:
الدقة: النسبة المئوية للتنبؤات الصحيحة من إجمالي التنبؤات التي تم إجراؤها.
التحديد الدقيق: نسبة التنبؤات الإيجابية الحقيقية من بين جميع التنبؤات الإيجابية، لقياس دقة التنبؤات الإيجابية.
الاستدعاء: نسبة التنبؤات الإيجابية الحقيقية بين جميع الحالات الإيجابية الفعلية، لقياس كفاءة النموذج في تحديد الحالات الإيجابية.
درجة F1: تجمع بين الدقة والاستدعاء لإلقاء نظرة شاملة على قدرة النموذج على التعرُّف على الحالات الإيجابية وتصنيفها بشكل صحيح.
مصفوفة الإرباك: تلخِّص أداء نموذج المصنِّف من خلال عرض الإيجابيات الحقيقية والإيجابيات الخاطئة والسلبيات الحقيقية والسلبيات الخاطئة في جدول.
AUC-ROC: رسم بياني يوضِّح معدلات الإيجابيات الحقيقية والإيجابيات الزائفة على شكل منحنى خاصية تشغيل المستقبِل (ROC). تُظهر المساحة أسفل المنحنى (AUC) أداء النموذج.
تتضمن مقاييس تقييم الانحدار ما يلي:
متوسط الخطأ التربيعي (MSE): هو متوسط الفرق بين مربعات الاختلافات بين القيم المتوقعة والقيم الفعلية. يُعَد MSE حساسًا للغاية للقيم المتطرفة ويعاقب بشدة على الأخطاء الكبيرة.
الجذر التربيعي لمتوسط مربع الخطأ (RMSE): الجذر التربيعي لمتوسط الخطأ التربيعي (MSE)، ويعرض معدل الخطأ بنفس وحدات المتغيّر ويزيد من قابلية تفسير المقاييس. يعرض MSE الخطأ نفسه بالوحدات التربيعية.
متوسط الخطأ المطلق (MAE): متوسط الاختلافات بين القيم الفعلية والقيم المطبَّقة للمتغيّر المستهدف. يُعَد MAE أقل حساسية من MSE.
متوسط النسبة المئوية للخطأ المطلق (MAPE): ينقِل متوسط الخطأ المطلق كنسبة مئوية وليس بوحدات المتغيّر المتوقع، ما يجعل من الأسهل مقارنة النماذج.
R-squared: يُعطي مقياسًا معياريًا لأداء النموذج بين 0 و1. ومع ذلك، يمكن تضخيم قيمة r-squared بشكل مصطنع عن طريق إضافة المزيد من الميزات.
r-squared المعدل: يعكس مساهمات الميزات التي تعمل على تحسين أداء النموذج مع تجاهل الميزات غير ذات الصلة.