Lorsque vous travaillez avec scikit-learn, vous devez vous assurer que les données d’entraînement sont correctement préparées et formatées avant d’être intégrées au modèle de machine learning : c’est ce qu’on appelle le prétraitement. scikit-learn fournit de nombreux outils pour vous aider à organiser le jeu de données.
La normalisation est une tâche courante à ce stade du prétraitement dans scikit-learn. Les fonctionnalités numériques sont mises à l’échelle pour obtenir des magnitudes similaires en utilisant des techniques telles que MinMaxScaler ou StandardScaler.
Si le jeu de données doit être encodé à partir de variables catégorielles dans des représentations numériques, l’encodage One-Hot (OHE) ou LabelEncoder (LE) peuvent les rendre compatibles avec le workflow du modèle.
L’encodage OHE transforme les valeurs des données catégorielles en vecteurs binaires, créant une nouvelle colonne pour chaque catégorie, un 1 ou un 0 indiquant la présence ou l’absence de la catégorie.
L’encodage LE, lui, est utilisé dans le machine learning : des étiquettes numériques sont attribuées à des catégories ou à des classes. Contrairement à One-HotEncoder, cette technique ne permet pas de créer de nouvelles colonnes, mais remplace les valeurs catégorielles par des valeurs entières.
Elle peut générer des problèmes tels que l’hypothèse d’ordinalité et est moins courante que l’OHE dans les pratiques modernes de machine learning en raison de ses limites.