بشكل تقليدي ظل التصنيف نوعًا من التعلم الآلي الخاضع للإشراف، مما يعني أنه يستخدم البيانات المسماة "المصنَّفة" لتدريب النماذج. في التعلّم الخاضع للإشراف، تحتوي كل نقطة بيانات في بيانات التدريب على متغيرات مدخلات (معروفة أيضًا باسم المتغيرات المستقلة أو السمات "الخصائص")، ومتغير إخراج أو تسمية.
في التدريب على التصنيف، تتمثل مهمة النموذج في فهم العلاقات بين السمات وتسميات الفئات، ثم تطبيق هذه المعايير على مجموعات البيانات المستقبلية. وتستخدم نماذج التصنيف سمات كل نقطة بيانات مع تسمية الفئة الخاصة بها لفك تشفير السمات التي تحدد كل فئة. من الناحية الرياضية، يُعدُّ النموذج كل نقطة بيانات كمجموعة x. التوأم هو متتابعة عددية مرتبة يتم تمثيلها على شكل x = (x1,x2,x3…xn).
كل قيمة في المجموعة هي سمة لنقطة البيانات. ومن خلال تعيين بيانات التدريب بهذه المعادلة، يتعرف النموذج على السمات المرتبطة بكل تسمية فئة.
الغرض من التدريب هو تقليل الأخطاء أثناء النمذجة التنبؤية. تُدرِّب خوارزميات الانحدار التدرجي النماذج عن طريق تقليل الفجوة بين النتائج المتوقعة والنتائج الفعلية. ثم يمكن لاحقًا ضبط النماذج بدقة من خلال مزيد من التدريب لأداء مهام أكثر تحديدًا.
ظلت مناهج التعلم غير الخاضع للإشراف لمشكلات التصنيف محورًا رئيسيًا للأبحاث الحديثة. حيث تعمل طرق التعلم غير الخاضعة للإشراف على تمكين النماذج من اكتشاف الأنماط، في البيانات غير المصنفة، بنفسها. ونلاحظ أن عدم وجود تسميات هو ما يميز التعلم غير الخاضع للإشراف والتعلم الخاضع للإشراف.
وفي الوقت نفسه، يجمع التعلم شبه الخاضع للإشراف بين البيانات المصنفة وغير المصنفة لتدريب النماذج لأغراض التصنيف والانحدار. أما في الحالات التي يكون فيها الحصول على مجموعات بيانات كبيرة من البيانات المصنفة أمرًا غير ممكن، يبرز التعلم شبه الخاضع للإشراف كبديل قابل للتطبيق.