Le surajustement va à l’encontre de l’objectif du modèle de machine learning. La généralisation d’un modèle à de nouvelles données est ce qui nous permet d’utiliser des algorithmes de machine learning chaque jour pour faire des prédictions et classer les données.
Lorsque des algorithmes de machine learning sont créés, ils s’appuient sur u jeu de données pour entraîner le modèle. Cependant, lorsque le modèle s’entraîne trop longtemps sur des données d’échantillon ou lorsqu’il est trop complexe, il peut commencer à apprendre le « bruit », c’est-à-dire des informations non pertinentes, au sein du jeu de données. Lorsque le modèle mémorise le bruit et s’ajuste trop étroitement à l’ensemble d’apprentissage, on parle de modèle « surajusté », incapable de généraliser correctement de nouvelles données. Si un modèle n’est pas capable d’intégrer correctement de nouvelles données, il ne pourra pas effectuer les tâches de classification ou de prédiction pour lesquelles il a été conçu.
Des taux d’erreur faibles et une variance élevée sont de bons indicateurs de surajustement. Afin d’éviter ce type de comportement, une partie du jeu de données d’apprentissage est généralement mise de côté en tant que « jeu test » pour s'assurer qu’il n’y a pas de surajustement. Si les données d’apprentissage ont un faible taux d’erreur et que les données de test ont un taux d’erreur élevé, cela indique un surajustement.