En termes simples, le surajustement est l’opposé du sous-ajustement. Il se produit lorsque le modèle a été trop entraîné ou lorsqu’il est trop complexe, ce qui entraîne des taux d’erreur élevés sur les données de test. Le surajustement d’un modèle est plus courant que le sous-ajustement, qui survient généralement lorsque l’on tente d’éviter le surajustement par le biais d’un processus appelé « arrêt anticipé ».
Si un sous-entraînement ou un manque de complexité entraîne un sous-ajustement, une stratégie de prévention logique consisterait à augmenter la durée de l’entraînement ou à ajouter des entrées plus pertinentes. Cependant, si vous entraînez trop le modèle ou si vous y ajoutez trop de fonctionnalités, vous risquez un surajustement. Cela se traduira alors par un biais faible, mais une variance élevée (c’est-à-dire un compromis entre le biais et la variance). Dans ce scénario, le modèle statistique s’adapte trop étroitement aux données d’entraînement, ce qui le rend incapable de réaliser une bonne généralisation à de nouveaux points de données. Il est important de noter que certains types de modèles peuvent être plus sujets au surajustement que d’autres, comme les arbres de décision ou les KNN.
L’identification du surajustement peut s’avérer plus difficile que celle du sous-ajustement car, contrairement à ce dernier, les données d’entraînement offrent une grande précision dans un modèle surajusté. Pour évaluer la précision d’un algorithme, on utilise généralement une technique appelée validation croisée K-fold.
Dans la technique de validation croisée des K-folds, les données sont divisées en k sous-ensembles de taille égale, également appelés « folds ». L’un de ces k-folds servira de jeu test, également appelé ensemble d’exclusion ou ensemble de validation, et les autres serviront à entraîner le modèle. Ce processus se répète jusqu’à ce que chaque fold ait agi comme un fold de rétention. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, la moyenne des scores est calculée pour évaluer la performance du modèle global.
Le scénario idéal lors de l’ajustement d’un modèle consiste à trouver l’équilibre entre le surajustement et le sous-ajustement. En identifiant ce « juste milieu » entre les deux, les modèles de machine learning peuvent effectuer des prédictions avec précision.