Qu’est-ce que le surajustement ?

15 octobre 2021

Qu’est-ce que le surajustement ?

Dans le machine learning, on parle de surajustement lorsqu’un algorithme s’adapte trop étroitement, voire trop, à ses données d’entraînement, ce qui génère un modèle incapable de faire des prédictions ou de tirer des conclusions précises à partir de données autres que les données d’entraînement. 

Le surajustement va à l’encontre de l’objectif du modèle de machine learning. La généralisation d’un modèle à de nouvelles données est ce qui nous permet d’utiliser des algorithmes de machine learning chaque jour pour faire des prédictions et classer les données.

Lorsque des algorithmes de machine learning sont construits, ils s’appuient sur un jeu de données pour entraîner le modèle. Cependant, lorsque le modèle s’entraîne trop longtemps sur des données d’échantillon ou lorsqu’il est trop complexe, il peut commencer à apprendre le « bruit », c’est-à-dire des informations non pertinentes, au sein du jeu de données. Lorsque le modèle mémorise le bruit et s’ajuste trop étroitement à l’ensemble d’apprentissage, on parle de modèle « surajusté », incapable de généraliser correctement de nouvelles données. Si un modèle n’est pas capable d’intégrer correctement de nouvelles données, il ne pourra pas effectuer les tâches de classification ou de prédiction pour lesquelles il a été conçu.

Des taux d’erreur faibles et une variance élevée sont de bons indicateurs de surajustement. Afin d’éviter ce type de comportement, une partie du jeu de données d’apprentissage est généralement mise de côté en tant que « jeu test » pour s'assurer qu’il n’y a pas de surajustement. Si les données d’apprentissage ont un faible taux d’erreur et que les données de test ont un taux d’erreur élevé, cela indique un surajustement.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

surajustement et sous-ajustement

Si le surentraînement ou la complexité du modèle entraînent un surajustement, la mesure préventive la plus logique serait soit de suspendre le processus d’entraînement plus tôt, également appelé « arrêt anticipé », soit de réduire la complexité du modèle en éliminant les entrées moins pertinentes. Cependant, si vous arrêtez trop tôt ou si vous excluez un trop grand nombre de caractéristiques importantes, vous risquez de rencontrer le problème inverse et de sous-ajuster votre modèle. Il y a sous-ajustement lorsque le modèle n’a pas été entraîné depuis suffisamment de temps ou lorsque les variables d’entrée ne sont pas suffisamment significatives pour déterminer une relation significative entre les variables d’entrée et de sortie.

Dans les deux cas, le modèle ne peut pas établir la tendance dominante dans l’ensemble de données d’apprentissage. Par conséquent, le sous-ajustement produit aussi un problème de généralisation au niveau des données inédites. En revanche, contrairement au surajustement, les modèles sous-ajustées présentent un biais important et une variance moindre dans leurs prédictions. Cela illustre le compromis biais-variance, qui se produit lorsqu’un modèle sous-ajusté passe à un état surajusté. Au fur et à mesure que le modèle apprend, son biais diminue, mais sa variance peut augmenter en cas de surajustement. Lors de l’ajustement d’un modèle, l’objectif est de trouver le « juste milieu » entre le sous-ajustement et le surajustement, afin qu’il puisse établir une tendance dominante et la généraliser à de nouveaux jeux de données.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Détecter les modèles surajustés

Pour comprendre la précision des modèles de machine learning, il est important de tester l’aptitude des modèles. La validation croisée K-fold est l’une des techniques les plus populaires pour évaluer la précision du modèle.

Dans la technique de validation croisée des K-folds, les données sont divisées en k sous-ensembles de taille égale, également appelés « folds ». L’un de ces k-folds servira de jeu test, également appelé ensemble d’exclusion ou ensemble de validation, et les autres serviront à entraîner le modèle. Ce processus se répète jusqu’à ce que chaque fold ait agi comme un fold de rétention. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, la moyenne des scores est calculée pour évaluer la performance du modèle global.

Éviter le surajustement

Bien que l’utilisation d’un modèle linéaire nous aide à éviter le surajustement, de nombreux problèmes du monde réel sont non linéaires. Il convient de savoir détecter un surajustement, mais il est avant tout important de savoir l’éviter. Vous trouverez ci-dessous un certain nombre de techniques que vous pouvez utiliser pour éviter le surajustement :

  • Arrêt anticipé : comme nous l’avons mentionné précédemment, cette méthode vise à interrompre l’entraînement avant que le modèle ne commence à apprendre le bruit au sein du modèle. Cette approche risque d’interrompre le processus d’entraînement trop tôt, car elle aurait l’effet opposé, appelé sous-ajustement. Trouver le bon équilibre entre sous-ajustement et surajustement est l’objectif ultime.
  • Utiliser plus de données d'entraînement : l’extension de l’ensemble d’apprentissage pour inclure davantage de données peut améliorer la précision du modèle en offrant davantage de possibilités d’analyser la relation dominante entre les variables d’entrée et de sortie. Cela dit, cette méthode est plus efficace lorsque des données propres et pertinentes sont injectées dans le modèle. Sinon, vous pourriez simplement continuer à ajouter de la complexité au modèle, ce qui entraînerait un surajustement.
  • Augmentation des données : bien qu’il soit préférable d’injecter des données propres et pertinentes dans vos données d’entraînement, des données bruyantes sont parfois ajoutées pour rendre un modèle plus stable. Cependant, cette méthode doit être utilisée avec parcimonie.
  • Sélection des caractéristiques : lorsque vous créez un modèle, vous disposez d’un certain nombre de paramètres ou de caractéristiques qui sont utilisés pour prédire un résultat donné, mais souvent, ces caractéristiques peuvent être redondantes. La sélection des caractéristiques consiste à identifier les plus importantes dans les données d’entraînement, puis à éliminer celles qui ne sont pas pertinentes ou qui sont redondantes. Cette approche est souvent confondue avec la réduction de la dimensionnalité, mais il ne s’agit pas de la même chose. Cependant, les deux méthodes permettent de simplifier votre modèle pour établir la tendance dominante dans les données.
  • Régularisation : si un surajustement se produit lorsqu’un modèle est trop complexe, il est logique pour nous de réduire le nombre de caractéristiques. Mais que se passe-t-il si nous ne savons pas quelles entrées éliminer lors du processus de sélection des caractéristiques ? Si nous ne savons pas quelles caractéristiques supprimer de notre modèle, les méthodes de régularisation peuvent être particulièrement utiles. La régularisation applique une « pénalité » aux paramètres d’entrée avec les coefficients les plus élevés, ce qui limite par la suite la variance dans le modèle. Bien qu’il existe un certain nombre de méthodes de régularisation, telles que la régularisation au lasso, la régression de crête et l’abandon, elles cherchent toutes à identifier et à réduire le bruit présent dans les données.
  • Méthodes d’ensemble : les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de méthodes de classification (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging et le boosting. Lors du bagging, un échantillon aléatoire de données dans un ensemble d’entraînement est sélectionné avec une option de remplacement, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche, c’est-à-dire de régression ou de classification : la moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette méthode est couramment utilisée pour réduire la variance dans un jeu de données bruité.

Recherches récentes

Bien que la définition ci-dessus soit la définition établie du surajustement, des recherches récentes (lien externe à IBM) indiquent que les modèles complexes, tels que les modèles d’apprentissage profond et les réseaux neuronaux, fonctionnent avec une précision élevée même s’ils ont été entraînés à « s’ajuster exactement ou à interpoler ». Cette conclusion est en totale contradiction avec la littérature historique sur ce sujet, et cela s’explique par la courbe de risque de type « double descente » ci-dessous. Vous pouvez constater qu’au fur et à mesure que le modèle apprend au-delà du seuil d’interpolation, ses performances s’améliorent. Les méthodes mentionnées précédemment pour éviter le surajustement, telles que l’arrêt anticipé et la régularisation, peuvent en réalité empêcher l’interpolation.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct