Les caractéristiques des données ou variables sont les attributs d’un jeu de données que les modèles de machine learning utilisent pour prendre des décisions et faire des prédictions. Par exemple, pour un modèle de vision par ordinateur conçu pour identifier les espèces de plantes, les caractéristiques des données peuvent inclure la forme et la couleur des feuilles.
L’ingénierie des caractéristiques est le processus de transformation par lequel un data scientist extrait de nouvelles informations à partir des entrées et les prépare pour le machine learning. Un bon processus d’ingénierie et de sélection des caractéristiques peut faire la différence entre des performances de modèle acceptables et un modèle de haute qualité.
L’ingénierie automatisée des caractéristiques automatise le processus d’exploration de l’espace des caractéristiques, en remplissant les valeurs manquantes et en sélectionnant les caractéristiques à utiliser. La création manuelle d’une seule caractéristique peut prendre des heures, et le nombre de caractéristiques requises pour un score de précision minimal, sans parler d’une base de référence de précision de niveau production, peut atteindre des centaines. L’ingénierie automatisée des caractéristiques accélère cette phase de quelques jours à quelques minutes.
Outre ses avantages en termes d’efficacité, l’ingénierie automatisée des caractéristiques améliore également l’explicabilité de l'IA, un facteur important pour les secteurs régis par des réglementations strictes comme la santé ou la finance. Une plus grande clarté des caractéristiques rend les modèles plus intéressants et exploitables, car cela permet de découvrir de nouveaux KPI organisationnels.