السمة هي خاصية يمكن تعريفها للعناصر الموجودة في مجموعة البيانات. تُعرف السمات أيضًا باسم المتغيرات لأن قيمها يمكن أن تتغير من نقطة بيانات إلى أخرى، والسمات لأنها تميز نقاط البيانات في مجموعة البيانات. تميّز السمات المختلفة نقاط البيانات بطرق مختلفة.
يمكن أن تكون السمات متغيرات مستقلة، أو متغيرات تابعة تستمد قيمتها من متغيرات مستقلة أو سمات مركّبة يتم تجميعها من عدة سمات أخرى.
يتمثل الهدف من اختيار السمات في تحديد أهم متغيرات الإدخال التي يمكن للنموذج استخدامها للتنبؤ بالمتغيرات التابعة. المتغير المستهدف هو المتغير التابع الذي تم تكليف النموذج بالتنبؤ به.
على سبيل المثال، في قاعدة بيانات للموظفين، قد تتضمن السمات المدخلة العمر، والموقع، والراتب، والمسمى الوظيفي، ومقاييس الأداء، ومدة التوظيف.يمكن لصاحب العمل استخدام هذه المتغيرات لإنشاء سمة هدف مجمعة تمثل احتمالية مغادرة الموظف للحصول على عرض أفضل.ومن ثم يمكن لصاحب العمل تحديد كيفية تشجيع هؤلاء الموظفين على البقاء.
يمكن تصنيف السمات عمومًا إلى متغيرات عددية أو متغيرات فئوية.
قبل تنفيذ اختيار السمات، تقوم عملية استخراج السمات بتحويل البيانات غير المُنسَّقة إلى سمات عددية يمكن لنماذج التعلم الآلي استخدامها. تُبسِّط عملية استخراج السمات البيانات وتقلل متطلبات الحوسبة اللازمة لمعالجتها.