Si le surentraînement ou la complexité du modèle entraînent un surajustement, la mesure préventive la plus logique serait soit de suspendre le processus d’entraînement plus tôt, également appelé « arrêt anticipé », soit de réduire la complexité du modèle en éliminant les entrées moins pertinentes. Cependant, si vous arrêtez trop tôt ou si vous excluez un trop grand nombre de caractéristiques importantes, vous risquez de rencontrer le problème inverse et de sous-ajuster votre modèle. Il y a sous-ajustement lorsque le modèle n’a pas été entraîné depuis suffisamment de temps ou lorsque les variables d’entrée ne sont pas suffisamment significatives pour déterminer une relation significative entre les variables d’entrée et de sortie.

Dans les deux cas, le modèle ne peut pas établir la tendance dominante dans l’ensemble de données d’apprentissage. Par conséquent, le sous-ajustement produit aussi un problème de généralisation au niveau des données inédites. En revanche, contrairement au surajustement, les modèles sous-ajustées présentent un biais important et une variance moindre dans leurs prédictions. Cela illustre le compromis biais-variance, qui se produit lorsqu’un modèle sous-ajusté passe à un état surajusté. Au fur et à mesure que le modèle apprend, son biais diminue, mais sa variance peut augmenter en cas de surajustement. Lors de l’ajustement d’un modèle, l’objectif est de trouver le « juste milieu » entre le sous-ajustement et le surajustement, afin qu’il puisse établir une tendance dominante et la généraliser à de nouveaux jeux de données.