Comme la qualité d’un modèle dépend des données sur lesquelles il est basé, les data scientists consacrent une grande partie de leur temps à la préparation des données et à la création de caractéristiques afin d’obtenir des modèles de haute qualité. En fonction de la complexité des données brutes et du modèle prédictif recherché, l’ingénierie des caractéristiques pourra demander beaucoup d’essais et d’erreurs.
Une poignée de sources et de tutoriels en ligne décomposent l’ingénierie des caractéristiques en étapes distinctes, dont le nombre et le nom varient généralement. Ces étapes peuvent inclure la compréhension des caractéristiques, la structuration ou la construction, la transformation, l’évaluation, l’optimisation, etc.4 Bien que cette stratification puisse être utile pour fournir une vue d’ensemble des tâches impliquées dans l’ingénierie des caractéristiques, elle suggère que cette dernière est un processus linéaire. En réalité, l’ingénierie des caractéristiques est un processus itératif.
L’ingénierie des caractéristiques dépend du contexte. Elle nécessite une excellente connaissance du domaine et de l’analyse des données. En effet, le codage à appliquer aux caractéristiques peut être déterminé par le type de modèle utilisé, par la relation entre les prédicteurs et les résultats, ainsi que par le problème que le modèle est censé traiter.5 Ceci est lié au fait que différents types de jeux de données (par exempletexte versus images) peuvent être mieux adaptés à différentes techniques d’ingénierie des caractéristiques.6 Il peut donc être difficile de formuler des remarques spécifiques sur la meilleure façon de mettre en œuvre l’ingénierie des caractéristiques dans un algorithme de machine learning donné.