Qu’est-ce que le surajustement ?

Dans le machine learning, on parle de surajustement lorsqu’un algorithme s’adapte trop étroitement, voire trop, à ses données d’entraînement, ce qui génère un modèle incapable de faire des prédictions ou de tirer des conclusions précises à partir de données autres que les données d’entraînement.

Le surajustement va à l’encontre de l’objectif du modèle de machine learning. La généralisation d’un modèle à de nouvelles données est ce qui nous permet d’utiliser des algorithmes de machine learning chaque jour pour faire des prédictions et classer les données.

Lorsque des algorithmes de machine learning sont construits, ils s’appuient sur un jeu de données pour entraîner le modèle. Cependant, lorsque le modèle s’entraîne trop longtemps sur des données d’échantillon ou lorsqu’il est trop complexe, il peut commencer à apprendre le « bruit », c’est-à-dire des informations non pertinentes, au sein du jeu de données. Lorsque le modèle mémorise le bruit et s’ajuste trop étroitement à l’ensemble d’apprentissage, on parle de modèle « surajusté », incapable de généraliser correctement de nouvelles données. Si un modèle n’est pas capable d’intégrer correctement de nouvelles données, il ne pourra pas effectuer les tâches de classification ou de prédiction pour lesquelles il a été conçu.

Des taux d’erreur faibles et une variance élevée sont de bons indicateurs de surajustement. Afin d’éviter ce type de comportement, une partie du jeu de données d’apprentissage est généralement mise de côté en tant que « jeu test » pour s'assurer qu’il n’y a pas de surajustement. Si les données d’apprentissage ont un faible taux d’erreur et que les données de test ont un taux d’erreur élevé, cela indique un surajustement.

IBM nommé leader par IDC

Découvrez pourquoi IBM a été nommé leader dans le rapport IDC MarketScape : Worldwide AI Governance Platforms 2023.

Contenu connexe

Obtenir le livre blanc sur la gouvernance de l’IA

surajustement et sous-ajustement

Si le surentraînement ou la complexité du modèle entraînent un surajustement, la mesure préventive la plus logique serait soit de suspendre le processus d’entraînement plus tôt, également appelé « arrêt anticipé », soit de réduire la complexité du modèle en éliminant les entrées moins pertinentes. Cependant, si vous arrêtez trop tôt ou si vous excluez un trop grand nombre de caractéristiques importantes, vous risquez de rencontrer le problème inverse et de sous-ajuster votre modèle. Il y a sous-ajustement lorsque le modèle n’a pas été entraîné depuis suffisamment de temps ou lorsque les variables d’entrée ne sont pas suffisamment significatives pour déterminer une relation significative entre les variables d’entrée et de sortie.

Dans les deux cas, le modèle ne peut pas établir la tendance dominante dans l’ensemble de données d’apprentissage. Par conséquent, le sous-ajustement produit aussi un problème de généralisation au niveau des données inédites. En revanche, contrairement au surajustement, les modèles sous-ajustées présentent un biais important et une variance moindre dans leurs prédictions. Cela illustre le compromis biais-variance, qui se produit lorsqu’un modèle sous-ajusté passe à un état surajusté. Au fur et à mesure que le modèle apprend, son biais diminue, mais sa variance peut augmenter en cas de surajustement. Lors de l’ajustement d’un modèle, l’objectif est de trouver le « juste milieu » entre le sous-ajustement et le surajustement, afin qu’il puisse établir une tendance dominante et la généraliser à de nouveaux jeux de données.

Détecter les modèles surajustés

Pour comprendre la précision des modèles de machine learning, il est important de tester l’aptitude des modèles. La validation croisée K-fold est l’une des techniques les plus populaires pour évaluer la précision du modèle.

Dans la technique de validation croisée des K-folds, les données sont divisées en k sous-ensembles de taille égale, également appelés « folds ». L’un de ces k-folds servira de jeu test, également appelé ensemble d’exclusion ou ensemble de validation, et les autres serviront à entraîner le modèle. Ce processus se répète jusqu’à ce que chaque fold ait agi comme un fold de rétention. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, la moyenne des scores est calculée pour évaluer la performance du modèle global.

Éviter le surajustement

Bien que l’utilisation d’un modèle linéaire nous aide à éviter le surajustement, de nombreux problèmes du monde réel sont non linéaires. Il convient de savoir détecter un surajustement, mais il est avant tout important de savoir l’éviter. Vous trouverez ci-dessous un certain nombre de techniques que vous pouvez utiliser pour éviter le surajustement :

Arrêt anticipé : comme nous l’avons mentionné précédemment, cette méthode vise à interrompre l’entraînement avant que le modèle ne commence à apprendre le bruit au sein du modèle. Cette approche risque d’interrompre le processus d’entraînement trop tôt, car elle aurait l’effet opposé, appelé sous-ajustement. Trouver le bon équilibre entre sous-ajustement et surajustement est l’objectif ultime.
Utiliser plus de données d'entraînement : l’extension de l’ensemble d’apprentissage pour inclure davantage de données peut améliorer la précision du modèle en offrant davantage de possibilités d’analyser la relation dominante entre les variables d’entrée et de sortie. Cela dit, cette méthode est plus efficace lorsque des données propres et pertinentes sont injectées dans le modèle. Sinon, vous pourriez simplement continuer à ajouter de la complexité au modèle, ce qui entraînerait un surajustement.
Augmentation des données : bien qu’il soit préférable d’injecter des données propres et pertinentes dans vos données d’entraînement, des données bruyantes sont parfois ajoutées pour rendre un modèle plus stable. Cependant, cette méthode doit être utilisée avec parcimonie.
Sélection des caractéristiques : lorsque vous créez un modèle, vous disposez d’un certain nombre de paramètres ou de caractéristiques qui sont utilisés pour prédire un résultat donné, mais souvent, ces caractéristiques peuvent être redondantes. La sélection des caractéristiques consiste à identifier les plus importantes dans les données d’entraînement, puis à éliminer celles qui ne sont pas pertinentes ou qui sont redondantes. Cette approche est souvent confondue avec la réduction de la dimensionnalité, mais il ne s'agit pas de la même chose. Cependant, les deux méthodes permettent de simplifier votre modèle pour établir la tendance dominante dans les données.
Régularisation : si un surajustement se produit lorsqu’un modèle est trop complexe, il est logique pour nous de réduire le nombre de caractéristiques. Mais que se passe-t-il si nous ne savons pas quelles entrées éliminer lors du processus de sélection des caractéristiques ? Si nous ne savons pas quelles caractéristiques supprimer de notre modèle, les méthodes de régularisation peuvent être particulièrement utiles. La régularisation applique une « pénalité » aux paramètres d’entrée avec les coefficients les plus élevés, ce qui limite par la suite la variance dans le modèle. Bien qu’il existe un certain nombre de méthodes de régularisation, telles que la régularisation au lasso, la régression de crête et l’abandon, elles cherchent toutes à identifier et à réduire le bruit présent dans les données.
Méthodes d’ensemble : les méthodes d’apprentissage d’ensemble sont constituées d’un ensemble de méthodes de classification (par ex. des arbres de décision) et leurs prédictions sont agrégées pour identifier le résultat le plus populaire. Les méthodes d’ensemble les plus connues sont le bagging et le boosting. Lors du bagging, un échantillon aléatoire de données dans un ensemble d’entraînement est sélectionné avec une option de remplacement, ce qui signifie que les points de données individuels peuvent être choisis plus d’une fois. Une fois que plusieurs échantillons de données ont été générés, ces modèles sont entraînés indépendamment, en fonction du type de tâche, c’est-à-dire de régression ou de classification : la moyenne ou la majorité de ces prévisions fournissent une estimation plus précise. Cette méthode est couramment utilisée pour réduire la variance dans un jeu de données bruité.

Découvrez comment tirer parti de certaines de ces approches dans ce tutoriel IBM Developer sur la reconnaissance d’images

Recherches récentes

Bien que la définition ci-dessus soit la définition établie du surajustement, des recherches récentes (lien externe à IBM) indiquent que les modèles complexes, tels que les modèles d’apprentissage profond et les réseaux neuronaux, fonctionnent avec une précision élevée même s’ils ont été entraînés à « s’ajuster exactement ou à interpoler ». Cette conclusion est en totale contradiction avec la littérature historique sur ce sujet, et cela s’explique par la courbe de risque de type « double descente » ci-dessous. Vous pouvez constater qu’au fur et à mesure que le modèle apprend au-delà du seuil d’interpolation, ses performances s’améliorent. Les méthodes mentionnées précédemment pour éviter le surajustement, telles que l’arrêt anticipé et la régularisation, peuvent en réalité empêcher l’interpolation.

Solutions connexes

IBM Watson Studio

IBM Watson Studio est une plateforme de données ouverte qui permet aux data scientists de créer, d’exécuter, de tester et d’optimiser des modèles d’IA à l’échelle dans n’importe quel cloud.

Découvrir IBM Watson Studio

IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.

Découvrir IBM Cloud Pak for Data

Ressources

Comprendre le surajustement bénin dans le méta-apprentissage basé sur les gradients

Les preuves empiriques révèlent que les méthodes de méta-apprentissage sur-paramétrées fonctionnent toujours bien, un phénomène souvent appelé surajustement bénin.

Le surajustement robuste peut être atténué par un lissage correctement appris

Étudier deux moyens empiriques d’injecter davantage de lissage appris au cours de l’entraînement contradictoire (AT)