نقص التجهيز هو سيناريو في علم البيانات حيث يكون نموذج البيانات غير قادر على التقاط العلاقة بين متغيرات الإدخال والمخرجات بدقة، مما يولد معدل خطأ مرتفع على كل من مجموعة التدريب والبيانات غير المرئية.
يحدث نقص التجهيز عندما يكون النموذج بسيطًا للغاية، وهو ما قد يكون نتيجة احتياج النموذج إلى وقت تدريب أكبر، أو المزيد من سمات الإدخال، أو تنظيم أقل.
مثل التجهيز الزائد، عندما يكون النموذج غير مجهز بشكل كافٍ، فإنه لا يمكنه تحديد الاتجاه السائد داخل البيانات، مما يؤدي إلى أخطاء في التدريب وضعف أداء النموذج. إذا لم يتمكن النموذج من التعميم جيدًا على البيانات الجديدة، فلا يمكن الاستفادة منه في مهام التصنيف أو التنبؤ. فتعميم النموذج على البيانات الجديدة هو ما يسمح لنا في نهاية المطاف باستخدام خوارزميات التعلم الآلي كل يوم لوضع تنبؤات وتصنيف البيانات.
يعد التحيز العالي والتباين المنخفض من المؤشرات الواضحة على نقص التجهيز. نظرًا لأن هذا السلوك يمكن رؤيته أثناء استخدام مجموعة بيانات التدريب، عادةً ما يكون تحديد النماذج ناقصة التجهيز أسهل من تحديد النماذج زائدة التجهيز.
ببساطة، التجهيز الزائد هو عكس نقص التجهيز، ويحدث عندما يتم تدريب النموذج بشكل مفرط أو عندما يحتوي على قدر كبير جدًا من التعقيد، مما يؤدي إلى معدلات خطأ عالية في بيانات الاختبار. يعد التجهيز الزائد للنموذج أكثر شيوعًا من نقص تجهيز النموذج، ويحدث نقص التجهيز عادة في محاولة لتجنب التجهيز الزائد من خلال عملية تسمى "التوقف المبكر".
إذا كان نقص التدريب أو عدم التعقيد يؤدي إلى نقص التجهيز، فإن استراتيجية المنع المنطقية ستكون زيادة مدة التدريب أو إضافة المزيد من المدخلات ذات الصلة. ومع ذلك، إذا قمت بتدريب النموذج أكثر من اللازم أو أضفت الكثير من السمات إليه، فقد تفرط في تعديل نموذجك، مما يؤدي إلى تحيز منخفض ولكن تباين كبير (أي مفاضلة التحيز والتباين). في هذا السيناريو، يتناسب النموذج الإحصائي بشكل وثيق جدًا مع بيانات التدريب الخاصة به، مما يجعله غير قادر على التعميم بشكل جيد على نقاط البيانات الجديدة. من المهم ملاحظة أن بعض أنواع النماذج يمكن أن تكون أكثر عرضة للتجهيز الزائد من غيرها، مثل أشجار القرار أو KNN.
قد يكون تحديد التجهيز الزائد أكثر صعوبة من نقص التجهيز لأنه على عكس التجهيز الناقص، تعمل بيانات التدريب بدقة عالية في نموذج زائد التجهيز. لتقييم دقة خوارزمية ما، تُستخدم عادةً تقنية تُعرف باسم التحقق المتقاطع k-fold.
في التحقق التبادلي K-fold، تُقسم البيانات إلى مجموعات فرعية k متساوية الحجم تسمى أيضًا "الطيات". ستكون إحدى الطيات k بمثابة مجموعة اختبار، والمعروفة أيضًا باسم مجموعة الاحتفاظ أو مجموعة التحقق من الصحة، وستدرب الطيات المتبقية النموذج. تتكرر هذه العملية حتى تُستخدم كل طية من الطيات كطية احتفاظ. وبعد كل تقييم، يُحتفظ بالدرجات، وعندما تكتمل كل التكرارات، يُحسب متوسط الدرجات لتقييم أداء النموذج الكلي.
السيناريو المثالي عند تركيب نموذج هو إيجاد التوازن بين التجهيز الزائد ونقص التجهيز. تحديد هذه "النقطة المثالية" بين الاثنين يسمح لنماذج التعلم الآلي بإجراء تنبؤات بدقة.
نظرًا لأنه يمكننا اكتشاف نقص التجهيز بناءً على مجموعة التدريب، يمكننا المساعدة بشكل أفضل في تحديد العلاقة السائدة بين متغيرات الإدخال والمخرجات في البداية. من خلال الحفاظ على تعقيد النموذج المناسب، يمكننا تجنب نقص التجهيز وتقديم تنبؤات أكثر دقة. فيما يلي بعض التقنيات التي يمكن استخدامها لتقليل نقص التجهيز:
يُستخدم التنظيم عادةً لتقليل التباين في النموذج من خلال تطبيق عقوبة على معاملات المدخلات ذات المعاملات الأكبر. هناك عدد من الطرق المختلفة، مثل تنظيم L1، وتنظيم Lasso، والتسرب، وما إلى ذلك، والتي تساعد على تقليل الضوضاء والقيم الخارجية داخل النموذج. ومع ذلك، إذا أصبحت سمات البيانات موحدة للغاية، فلن يتمكن النموذج من تحديد الاتجاه السائد، مما يؤدي إلى نقص تجهيز النموذج. من خلال تقليل مقدار التنظيم، يتم إدخال المزيد من التعقيد والتباين في النموذج، مما يسمح بالتدريب الناجح للنموذج.
كما ذكرنا سابقًا، فإن التوقف عن التدريب في وقت مبكر جدًا يمكن أن يؤدي أيضًا إلى نموذج ناقص التجهيز. لذلك، من خلال تمديد مدة التدريب، يمكن تجنبه. "ومع ذلك، من المهم أن تكون على دراية بالتدريب الزائد، وبالتالي، بالتجهيز الزائدة." سيكون إيجاد التوازن بين السيناريوهين أمرًا أساسيًا.
مع أي نموذج، يتم استخدام سمات محددة لتحديد نتيجة معينة. في حالة عدم وجود سمات تنبؤية كافية، يجب تقديم المزيد من السمات أو السمات ذات الأهمية الأكبر. على سبيل المثال، في الشبكة العصبية، يمكنك إضافة المزيد من الخلايا العصبية المخفية أو في الغابة العشوائية، يمكنك إضافة المزيد من الأشجار. ستضفي هذه العملية مزيدًا من التعقيد على النموذج، مما يؤدي إلى نتائج تدريب أفضل.