Le surajustement est un concept de la science des données, qui se produit lorsqu'un modèle statistique correspond exactement à ses données d'apprentissage. Lorsque cela se produit, l'algorithme ne peut malheureusement pas fonctionner avec précision contre des données invisibles, ce qui va à l'encontre de son objectif. La généralisation d'un modèle à de nouvelles données est finalement ce qui nous permet d'utiliser chaque jour des algorithmes d'apprentissage automatique pour faire des prédictions et classer les données.
Lorsque des algorithmes d'apprentissage automatique sont construits, ils exploitent un exemple de jeu de données pour entraîner le modèle. Cependant, lorsque le modèle s'entraîne trop longtemps sur des exemples de données ou lorsque le modèle est trop complexe, il peut commencer à apprendre le « bruit » ou les informations non pertinentes, au sein du jeu de données. Lorsque le modèle mémorise le bruit et s'adapte trop étroitement au jeu de données d'apprentissage, le modèle devient « sur-équipé » et il est incapable de bien généraliser à de nouvelles données. Si un modèle ne peut pas bien généraliser à de nouvelles données, il ne sera pas en mesure d'effectuer les tâches de classification ou de prédiction pour lesquelles il était destiné.
De faibles taux d'erreur et une variance élevée sont de bons indicateurs de surajustement. Afin d'éviter ce type de comportement, une partie du jeu de données d'apprentissage est généralement réservée comme « ensemble de test » pour vérifier le surajustement. Si les données d'apprentissage ont un faible taux d'erreur et que les données de test ont un taux d'erreur élevé, cela signale un surajustement.
Si le surapprentissage ou la complexité du modèle entraîne un surajustement, une réponse de prévention logique consisterait soit à suspendre le processus d'apprentissage plus tôt, également appelé « arrêt précoce », soit à réduire la complexité du modèle en éliminant les entrées moins pertinentes. Cependant, si vous faites une pause trop tôt ou excluez trop de fonctionnalités importantes, vous pouvez rencontrer le problème inverse et, à la place, vous risquez de sous-ajuster votre modèle. Le sous-ajustement se produit lorsque le modèle n'a pas été entraîné pendant suffisamment de temps ou que les variables d'entrée ne sont pas suffisamment significatives pour déterminer une relation significative entre les variables d'entrée et de sortie.
Dans les deux scénarios, le modèle ne peut pas établir la tendance dominante au sein du jeu de données d'apprentissage. En conséquence, le sous-ajustement se généralise également mal aux données invisibles. Cependant, contrairement au surajustement, les modèles sous-ajustés présentent un biais élevé et moins de variance dans leurs prédictions. Cela illustre le compromis biais-variance, qui se produit lorsqu'un modèle sous-ajusté passe à un état sur-ajusté. Au fur et à mesure que le modèle apprend, son biais diminue, mais sa variance peut augmenter à mesure qu'il devient surajusté. Lors de l'ajustement d'un modèle, l'objectif est de trouver le « point idéal » entre le sous-ajustement et le surajustement, afin qu'il puisse établir une tendance dominante et l'appliquer largement à de nouveaux jeux de données.
Pour comprendre la précision des modèles d'apprentissage automatique, il est important de tester l'adéquation du modèle. La validation croisée K-fold est l'une des techniques les plus populaires pour évaluer la précision du modèle.
Dans la validation croisée de k-folds, les données sont divisées en sous-ensembles k de taille égale, également appelés « plis ». L'un des plis k servira d'ensemble de test, également connu sous le nom d'ensemble d'exclusion ou d'ensemble de validation, et les plis restants entraîneront le modèle. Ce processus se répète jusqu'à ce que chacun des plis ait agi comme un pli de retenue. Après chaque évaluation, un score est retenu et lorsque toutes les itérations sont terminées, les scores sont moyennés pour évaluer les performances du modèle global.
Bien que l'utilisation d'un modèle linéaire nous aide à éviter le surajustement, de nombreux problèmes du monde réel sont non linéaires. En plus de comprendre comment détecter le surajustement, il est important de comprendre comment l'éviter complètement. Vous trouverez ci-dessous un certain nombre de techniques que vous pouvez utiliser pour éviter le surajustement :
Bien que ce qui précède soit la définition établie du surajustement, une recherche récente (PDF, 1,2 Mo) (le lien réside en dehors d'IBM) indique que les modèles complexes, tels que les modèles d'apprentissage en profondeur et les réseaux de neurones, fonctionnent avec une grande précision bien qu'ils soient entraînés à « ajuster parfaitement ou à interpoler ». Ce résultat est en contradiction directe avec la littérature historique sur ce sujet, et s'explique par la courbe de risque « double descente » ci-dessous. Vous pouvez voir que lorsque le modèle apprend au-delà du seuil d'interpolation, les performances du modèle s'améliorent. Les méthodes que nous avons mentionnées précédemment pour éviter le surajustement, telles que l'arrêt précoce et la régularisation, peuvent en fait empêcher l'interpolation.
IBM Watson Studio est une plateforme de données ouverte qui permet aux spécialistes des données de créer, exécuter, tester et optimiser des modèles d'IA à grande échelle sur n'importe quel cloud. IBM Watson Studio vous permet de rendre l'IA opérationnelle partout grâce à IBM Cloud Pak® for Data. Unifiez les équipes, simplifiez la gestion du cycle de vie de l'IA et accélérez la rentabilisation grâce à une architecture multicloud ouverte et flexible.
Pour créer des modèles d'apprentissage automatique avec précision, inscrivez-vous à IBMid et créez votre compte IBM Cloud dès aujourd'hui.