ببساطة، التجهيز الزائد هو عكس نقص التجهيز، ويحدث عندما يتم تدريب النموذج بشكل مفرط أو عندما يحتوي على قدر كبير جدًا من التعقيد، مما يؤدي إلى معدلات خطأ عالية في بيانات الاختبار. يعد التجهيز الزائد للنموذج أكثر شيوعًا من نقص تجهيز النموذج، ويحدث نقص التجهيز عادة في محاولة لتجنب التجهيز الزائد من خلال عملية تسمى "التوقف المبكر".
إذا كان نقص التدريب أو عدم التعقيد يؤدي إلى نقص التخصيص، فإن استراتيجية المنع المنطقية ستكون زيادة مدة التدريب أو إضافة المزيد من المدخلات ذات الصلة. ومع ذلك، إذا قمت بتدريب النموذج أكثر من اللازم أو أضفت الكثير من السمات إليه، فقد تفرط في تعديل نموذجك، ما يؤدي إلى تحيّز منخفض ولكن تباين كبير (أي مفاضلة التحيّز والتباين). في هذا السيناريو، يتطابق النموذج الإحصائي بشكل كبير مع بيانات التدريب، ما يجعله غير قادر على التعميم بشكل جيد على نقاط بيانات جديدة. من المهم ملاحظة أن بعض أنواع النماذج قد تكون أكثر عرضة للإفراط في التخصيص من غيرها، مثل أشجار القرار أو KNN.
قد يكون تحديد التجهيز الزائد أكثر صعوبة من نقص التجهيز لأنه على عكس التجهيز الناقص، تعمل بيانات التدريب بدقة عالية في نموذج زائد التجهيز. لتقييم دقة خوارزمية ما، تُستخدم عادةً تقنية تُعرف باسم التحقق المتقاطع k-fold.
في التحقق التبادلي K-fold، تُقسم البيانات إلى مجموعات فرعية k متساوية الحجم تسمى أيضًا "الطيات". ستكون إحدى الطيات k بمثابة مجموعة اختبار، والمعروفة أيضًا باسم مجموعة الاحتفاظ أو مجموعة التحقق من الصحة، وستدرب الطيات المتبقية النموذج. تتكرر هذه العملية حتى تُستخدم كل طية من الطيات كطية احتفاظ. وبعد كل تقييم، يُحتفظ بالدرجات، وعندما تكتمل كل التكرارات، يُحسب متوسط الدرجات لتقييم أداء النموذج الكلي.
السيناريو المثالي عند تركيب نموذج هو إيجاد التوازن بين التجهيز الزائد ونقص التجهيز. تحديد هذه "النقطة المثالية" بين الاثنين يسمح لنماذج التعلم الآلي بإجراء تنبؤات بدقة.