Dans le machine learning, on parle de surajustement lorsqu’un algorithme s’adapte trop étroitement, voire trop, à ses données d’entraînement, ce qui génère un modèle incapable de faire des prédictions ou de tirer des conclusions précises à partir de données autres que les données d’entraînement.
Le surajustement va à l’encontre de l’objectif du modèle de machine learning. La généralisation d’un modèle à de nouvelles données est ce qui nous permet d’utiliser des algorithmes de machine learning chaque jour pour faire des prédictions et classer les données.
Lorsque des algorithmes de machine learning sont construits, ils s’appuient sur un jeu de données pour entraîner le modèle. Cependant, lorsque le modèle s’entraîne trop longtemps sur des données d’échantillon ou lorsqu’il est trop complexe, il peut commencer à apprendre le « bruit », c’est-à-dire des informations non pertinentes, au sein du jeu de données. Lorsque le modèle mémorise le bruit et s’ajuste trop étroitement à l’ensemble d’apprentissage, on parle de modèle « surajusté », incapable de généraliser correctement de nouvelles données. Si un modèle n’est pas capable d’intégrer correctement de nouvelles données, il ne pourra pas effectuer les tâches de classification ou de prédiction pour lesquelles il a été conçu.
Des taux d’erreur faibles et une variance élevée sont de bons indicateurs de surajustement. Afin d’éviter ce type de comportement, une partie du jeu de données d’apprentissage est généralement mise de côté en tant que « jeu test » pour s'assurer qu’il n’y a pas de surajustement. Si les données d’apprentissage ont un faible taux d’erreur et que les données de test ont un taux d’erreur élevé, cela indique un surajustement.
Si le surentraînement ou la complexité du modèle entraînent un surajustement, la mesure préventive la plus logique serait soit de suspendre le processus d’entraînement plus tôt, également appelé « arrêt anticipé », soit de réduire la complexité du modèle en éliminant les entrées moins pertinentes. Cependant, si vous arrêtez trop tôt ou si vous excluez un trop grand nombre de caractéristiques importantes, vous risquez de rencontrer le problème inverse et de sous-ajuster votre modèle. Il y a sous-ajustement lorsque le modèle n’a pas été entraîné depuis suffisamment de temps ou lorsque les variables d’entrée ne sont pas suffisamment significatives pour déterminer une relation significative entre les variables d’entrée et de sortie.
Dans les deux cas, le modèle ne peut pas établir la tendance dominante dans l’ensemble de données d’apprentissage. Par conséquent, le sous-ajustement produit aussi un problème de généralisation au niveau des données inédites. En revanche, contrairement au surajustement, les modèles sous-ajustées présentent un biais important et une variance moindre dans leurs prédictions. Cela illustre le compromis biais-variance, qui se produit lorsqu’un modèle sous-ajusté passe à un état surajusté. Au fur et à mesure que le modèle apprend, son biais diminue, mais sa variance peut augmenter en cas de surajustement. Lors de l’ajustement d’un modèle, l’objectif est de trouver le « juste milieu » entre le sous-ajustement et le surajustement, afin qu’il puisse établir une tendance dominante et la généraliser à de nouveaux jeux de données.
Pour comprendre la précision des modèles de machine learning, il est important de tester l’aptitude des modèles. La validation croisée K-fold est l’une des techniques les plus populaires pour évaluer la précision du modèle.
Dans la technique de validation croisée des K-folds, les données sont divisées en k sous-ensembles de taille égale, également appelés « folds ». L’un de ces k-folds servira de jeu test, également appelé ensemble d’exclusion ou ensemble de validation, et les autres serviront à entraîner le modèle. Ce processus se répète jusqu’à ce que chaque fold ait agi comme un fold de rétention. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, la moyenne des scores est calculée pour évaluer la performance du modèle global.
Bien que l’utilisation d’un modèle linéaire nous aide à éviter le surajustement, de nombreux problèmes du monde réel sont non linéaires. Il convient de savoir détecter un surajustement, mais il est avant tout important de savoir l’éviter. Vous trouverez ci-dessous un certain nombre de techniques que vous pouvez utiliser pour éviter le surajustement :
Bien que la définition ci-dessus soit la définition établie du surajustement, des recherches récentes (lien externe à IBM) indiquent que les modèles complexes, tels que les modèles d’apprentissage profond et les réseaux neuronaux, fonctionnent avec une précision élevée même s’ils ont été entraînés à « s’ajuster exactement ou à interpoler ». Cette conclusion est en totale contradiction avec la littérature historique sur ce sujet, et cela s’explique par la courbe de risque de type « double descente » ci-dessous. Vous pouvez constater qu’au fur et à mesure que le modèle apprend au-delà du seuil d’interpolation, ses performances s’améliorent. Les méthodes mentionnées précédemment pour éviter le surajustement, telles que l’arrêt anticipé et la régularisation, peuvent en réalité empêcher l’interpolation.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Accédez à notre catalogue complet de plus de 100 cours en ligne en souscrivant aujourd’hui un abonnement individuel ou multiutilisateur afin d’élargir vos compétences dans certains de nos produits à un prix avantageux.
Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.