Une fonctionnalité est une qualité définissable des éléments d’un jeu de données. Les fonctionnalités sont également appelées variables, car leurs valeurs peuvent changer d’un point de données à l’autre, et attributs, car elles caractérisent les points de données dans le jeu de données. Différentes fonctionnalités décrivent les points de données de différentes manières.
Les fonctionnalités peuvent être des variables indépendantes, des variables dépendantes qui tirent leur valeur de variables indépendantes ou des attributs combinés qui sont compilés à partir de plusieurs autres fonctionnalités.
L’objectif de la sélection des fonctionnalités est d’identifier les variables d’entrée les plus importantes que le modèle peut utiliser pour prédire les variables dépendantes. La variable cible est la variable dépendante que le modèle est chargé de prédire.
Ainsi, dans une base de données d’employés, les fonctionnalités d’entrée peuvent inclure l’âge, le lieu de travail, le salaire, le titre, les indicateurs de performance et l’ancienneté. Un employeur peut se servir de ces variables pour générer un attribut combiné cible représentant la probabilité qu’un employé quitte l’entreprise pour une meilleure offre. Il peut ensuite déterminer comment encourager ces employés à rester.
Les fonctionnalités peuvent être classées en deux catégories principales : les variables numériques et les variables catégorielles.
Avant la sélection des fonctionnalités, le processus d’extraction des fonctionnalités transforme les données brutes en fonctionnalités numériques que les modèles de machine learning peuvent exploiter. Cette extraction simplifie les données et réduit les besoins en puissance de calcul nécessaires à leur traitement.