Ein Merkmal ist eine definierbare Qualität der Elemente in einem Datensatz. Merkmale werden auch als Variablen bezeichnet, da sich ihre Werte von einem Datenpunkt zum nächsten ändern können, und als Attribute, da sie die Datenpunkte im Datensatz charakterisieren. Unterschiedliche Merkmale charakterisieren die Datenpunkte auf unterschiedliche Weise.
Merkmale können unabhängige Variablen, abhängige Variablen, die ihren Wert von unabhängigen Variablen ableiten, oder kombinierte Attribute sein, die aus mehreren anderen Merkmalen zusammengestellt werden.
Das Ziel der Merkmalsauswahl besteht darin, die wichtigsten Eingabevariablen zu identifizieren, die das Modell zur Vorhersage abhängiger Variablen verwenden kann. Die Zielvariable ist die abhängige Variable, die das Modell vorhersagen soll.
In einer Mitarbeiterdatenbank können die Eingabemerkmale beispielsweise Alter, Standort, Gehalt, Titel, Leistungsmetriken und Dauer der Beschäftigung umfassen. Ein Arbeitgeber kann diese Variablen verwenden, um ein kombiniertes Zielattribut zu generieren, das die Wahrscheinlichkeit darstellt, dass ein Mitarbeiter das Unternehmen für ein besseres Angebot verlässt. Dann kann der Arbeitgeber festlegen, wie er diese Mitarbeiter zum Bleiben ermutigen kann.
Merkmale können grob in numerische und kategoriale Variablen kategorisiert werden.
Kategoriale Variablen sind alles, was nicht numerisch ist, z. B. Name, Berufsbezeichnung und Standort.
Bevor die Merkmalsauswahl erfolgt, werden bei der Merkmalsextraktion Rohdaten in numerische Merkmale umgewandelt, die von ML-Modellen verwendet werden können. Die Merkmalsextraktion vereinfacht die Daten und reduziert die Rechenanforderungen, die für die Verarbeitung erforderlich sind.