En termes simples, le sur-ajustement est l'opposé du sous-ajustement. Il se produit lorsque le modèle a été sur-entraîné ou lorsqu'il contient trop de complexité, ce qui entraîne des taux d'erreur élevés sur les données de test. Le sur-ajustement d'un modèle est plus fréquent que le sous-ajustement. Ce dernier se produit généralement dans le but d'éviter le sur-ajustement par un processus appelé « arrêt anticipé ».
Si le sous-entraînement ou le manque de complexité entraîne un sous-ajustement, une stratégie de prévention logique consisterait à augmenter la durée de l'entraînement ou à ajouter des données plus pertinentes. Toutefois, si vous entraînez trop le modèle ou lui ajoutez trop de fonctions, vous risquez de le sur-ajuster, ce qui se traduira par un biais faible, mais une variance élevée (on parle de compromis biais-variance). Dans ce scénario, le modèle statistique s'adapte trop étroitement à ses données d'apprentissage, ce qui le rend incapable de bien généraliser par rapport à de nouveaux points de données. Il est important de noter que certains types de modèles sont plus enclins au sur-ajustement que d'autres, comme les arbres de décision ou les modèles KNN.
Il peut être plus difficile d'identifier le sur-ajustement que le sous-ajustement car, contrairement au sous-ajustement, les données d'entraînement sont très précises dans un modèle sur-ajusté. Pour évaluer la précision d'un algorithme, la technique appelée validation croisée k-fold est généralement utilisée.
Dans la validation croisée k-fold, les données sont divisées en sous-ensembles k de taille égale, également appelés « folds ». L'un des plis k servira d'ensemble de test, également connu sous le nom d'ensemble d'exclusion ou d'ensemble de validation, et les plis restants entraîneront le modèle. Ce processus se répète jusqu'à ce que chacun des plis ait agi comme un pli de retenue. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, les scores sont moyennés pour évaluer les performances du modèle global.
Le scénario idéal lors de l'ajustement d'un modèle est de trouver l'équilibre entre le sur-ajustement et le sous-ajustement. L'identification de ce « point idéal » entre les deux permet aux modèles d'apprentissage automatique de faire des prédictions avec précision.