Qu’est-ce que la régularisation ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Qu’est-ce que la régularisation ?

La régularisation est un ensemble de méthodes permettant d’éviter le surapprentissage des modèles de machine learning. En règle générale, la régularisation consiste à réduire marginalement la précision de l’entraînement pour augmenter la généralisabilité.

La régularisation englobe une série de techniques permettant de corriger le surajustement des modèles de machine learning. La régularisation vise ainsi à améliorer la généralisabilité des modèles, c’est-à-dire leur capacité à produire des prévisions précises à partir de nouveaux jeux de données.1 Cette généralisabilité accrue est obtenue au prix d’une augmentation du taux d’erreur d’apprentissage. En d’autres termes, les méthodes de régularisation conduisent généralement à des prévisions moins précises sur les données d’entraînement, mais plus précises sur les données de test.

La régularisation diffère de l'optimisation. Fondamentalement, la première augmente la généralisation des modèles tandis que la seconde augmente la précision de l'entraînement des modèles. Les deux sont des concepts importants dans le machine learning et la science des données.

Il existe de nombreuses formes de régularisation. Tout ce qui s'apparente à un guide complet doit faire l'objet d'un ouvrage beaucoup plus long. Néanmoins, cet article propose un aperçu de la théorie nécessaire pour comprendre l'objectif de la régularisation dans le machine learning, ainsi qu'un aperçu de plusieurs techniques de régularisation populaires.

Compromis biais-variance

Ce compromis (augmentation des erreurs d’apprentissage pour une réduction des erreurs de test) est connu sous le nom de dilemme biais-variance. Le dilemme biais-variance est un problème bien connu dans le machine learning. Mais définissons d’abord les termes « biais » et « variance ». En bref :

  • Le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d’entraînement sont moins précises. Un niveau de biais élevé correspond à un taux d’erreur élevé lors de l’entraînement.

  • La variance mesure la différence entre les prévisions sur différentes réalisations d’un modèle donné. Au fur et à mesure que la variance augmente, les prédictions à partir des données invisibles sont moins précises. Un niveau de variance élevé correspond à un taux d’erreur élevé lors des essais et de la validation.

Le biais et la variance représentent donc à l’inverse la précision du modèle sur les ensembles d’apprentissage et de test, respectivement.2 De toute évidence, l’objectif des développeurs est de réduire à la fois le biais et la variance des modèles. La réduction simultanée de ces deux éléments n’est pas toujours possible, d’où la nécessité d’une régularisation. La régularisation réduit la variance du modèle au prix d’un biais accru.

Ajustement des modèles de régression

En augmentant le biais et en diminuant la variance, la régularisation résout le problème de surajustement du modèle. Il y a surajustement lorsque l’erreur sur les données d’entraînement diminue tandis que l’erreur sur les données de test cesse de diminuer ou commence à augmenter.3 En d’autres termes, le surajustement décrit des modèles présentant un faible biais et une variance élevée. Cependant, si la régularisation introduit un biais trop important, le modèle sera sous-ajusté.

Malgré ce que l’on pourrait penser, sous-ajustement n’est pas le contraire du surajustement. Un sous-ajustement décrit plutôt des modèles caractérisés par un biais et une variance élevés. Un modèle sous-ajusté produit des prédictions erronées et insatisfaisantes lors de l’entraînement et du test. Cela résulte souvent de données ou de paramètres d’entraînement insuffisants.

Cependant, la régularisation peut également entraîner un sous-ajustement du modèle. Si un biais trop important est introduit lors de la régularisation, la variance du modèle peut cesser de diminuer, et même augmenter. La régularisation peut avoir cet effet en particulier sur les modèles simples, c’est-à-dire les modèles avec peu de paramètres. Pour déterminer le type et le degré de régularisation à mettre en œuvre, il faut donc tenir compte de la complexité du modèle, du jeu de données, etc.4

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Types de régularisation avec les modèles linéaires

La régression linéaire et la régression logistique sont toutes deux des modèles prédictifs à la base du machine learning. La régression linéaire (ou méthode des moindres carrés ordinaires) vise à mesurer et à prédire l’impact d’un ou plusieurs prédicteurs sur un résultat donné en trouvant la ligne la mieux ajustée dans les points de données fournis (c’est-à-dire les données d’apprentissage). La régression logistique vise à déterminer les probabilités d’appartenance à une classe au moyen d’un résultat binaire en fonction d’une série de prédicteurs. En d’autres termes, la régression linéaire fait des prédictions quantitatives continues tandis que la régression logistique produit des prédictions sur les catégories discrètes.5

Bien entendu, au fur et à mesure que le nombre de prédicteurs augmente dans l’un des modèles de régression, la relation entrée-sortie n’est pas toujours simple et nécessite de manipuler la formule de régression. C’est là que la régularisation entre en jeu. Il existe trois principales formes de régularisation pour les modèles de regression. Notez que cette liste n’est pas exhaustive. L’application de ces techniques de régularisation à la régression linéaire ou logistique varie considérablement.

  • La régression Lasso (ou régularisation L1) est une technique de régularisation qui pénalise les coefficients corrélés de valeur élevée. Elle introduit un terme de régularisation (également appelé terme de pénalité) dans la fonction de perte de la somme des erreurs quadratiques (SSE) du modèle. Ce terme de pénalité est la valeur absolue de la somme des coefficients. Contrôlé à son tour par l’hyperparamètre lambda (λ), il réduit à zéro certains le poids de certaines caractéristiques. La régression Lasso supprime ainsi complètement les caractéristiques multicolinéaires du modèle.

  • La régression Ridge (ou régularisation L2) est une technique de régularisation qui pénalise de la même manière les coefficients élevés en introduisant un terme de pénalité dans la fonction de perte SSE. Elle diffère cependant de la régression Lasso. Premièrement, le terme de pénalité dans la régression Ridge est la somme au carré des coefficients plutôt que la valeur absolue des coefficients. Deuxièmement, il n’y a pas de sélection des caractéristiques avec la régression Ridge. Alors que le terme de pénalité de la régression Lasso peut supprimer des caractéristiques du modèle en réduisant les valeurs des coefficients à zéro, la régression Ridge peut uniquement réduire les poids des caractéristiques et les faire tendre vers zéro, sans jamais vraiment atteindre cette valeur.

  • La régularisation Elastic Net combine essentiellement les régressions Ridge et Lasso, mais elle insère à la fois les termes de pénalité L1 et L2 dans la fonction de perte SSE. L2 et L1 dérivent la valeur de leur terme de pénalité, respectivement, en élevant au carré ou en prenant la valeur absolue de la somme des poids des caractéristiques. La régression Elastic Net insère ces deux valeurs de pénalité dans l’équation de la fonction de coût (SSE). Ainsi, la régression Elastic Net gère le phénomène de multicolinéarité tout en permettant la sélection des caractéristiques.6

Dans le domaine des statistiques, ces méthodes sont également surnommées « réduction de coefficient », car elles réduisent la valeur du coefficient des prédicteurs dans le modèle prédictif. Dans les trois techniques, la force du terme de pénalité est contrôlée par lambda, qui peut être calculé à l’aide de diverses techniques de validation croisée.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Types de régularisation dans le machine learning

Jeu de données

L’augmentation de données est une technique de régularisation qui modifie les données d’entraînement du modèle. On augmente la taille du jeu de données d’entraînement en créant des échantillons de données artificielles dérivées des données d’apprentissage préexistantes. En ajoutant des échantillons au jeu de données d’entraînement, notamment d’instances rares dans les données de vie réelle, on expose le modèle à une quantité et à une diversité de données plus grandes sur lesquelles il peut s’entraîner. La recherche en machine learning s’est récemment intéressée à l’augmentation de données pour les modèles de classification, notamment pour rééquilibrer les jeux de données.7 Il convient toutefois de faire la distinction entre augmentation de données et données synthétiques. Ces dernières impliquent la création de nouvelles données artificielles, tandis que l’augmentation de données consiste à produire des copies modifiées des données préexistantes afin de diversifier et d’élargir le jeu de données.

Visualisation des techniques de modification pour la diversification des ensembles d'images

Entraînement du modèle

L’arrêt précoce est peut-être la technique de régularisation la plus facile à mettre en œuvre. En bref, il limite le nombre d’itérations lors de l’entraînement du modèle. Dans ce cas, un modèle effectue des passes sur les données d’entraînement en continu, s’arrêtant lorsqu’il n’y a pas d’amélioration (et qu’il y a peut-être même une détérioration) de la précision de l’entraînement et de la validation. L’objectif est d’entraîner un modèle jusqu’à ce qu’il atteigne l’erreur d’entraînement la plus faible possible avant un plateau ou une augmentation de l’erreur de validation.8

De nombreux packages Python de machine learning proposent des options de commande d'entraînement pour un arrêt anticipé. En fait, dans certains cas, l'arrêt anticipé est un paramètre d'entraînement par défaut.

Visualisation graphique de l'arrêt précoce en fonction de la précision de l'entraînement et de la validation

Neural Networks

Les réseaux neuronaux sont des modèles complexes de machine learning qui pilotent de nombreuses applications et services d’intelligence artificielle. Les réseaux neuronaux sont composés d’une couche d’entrée, d’une ou plusieurs couches cachées et d’une couche de sortie, chaque couche étant à son tour composée de plusieurs nœuds.

L’abandon (ou décrochage) régularise les réseaux neuronaux en retirant les nœuds du réseau de manière aléatoire, ainsi que leurs connexions en entrée et en sortie, pendant l’entraînement (Figure 3). L’abandon entraîne plusieurs variantes d’une architecture de taille fixe, chaque variante excluant différents nœuds de l’architecture de manière aléatoire. Un seul réseau neuronal sans décrochage est utilisé pour les tests, en utilisant une méthode d’approximation par moyennage dérivée des architectures d’entraînement modifiées aléatoirement. Ainsi, l’abandon revient à entraîner un grand nombre de réseaux neuronaux avec une multitude d’architectures diversifiées.9

Comparaison des diagrammes des réseaux neuronaux et du réseau d'abandon

La dégradation des pondérations (ou weight decay) est une autre forme de régularisation utilisée pour les réseaux neuronaux. Elle réduit la somme des carrés des poids du réseau avec un paramètre de régularisation, tout comme la régularisation L2 dans les modèles linéaires.10 Mais quand elle est utilisée dans les réseaux neuronaux, cette réduction a un effet similaire à la régularisation L1 : les poids des neurones sélectionnés diminuent jusqu’à zéro.11 Cela a pour effet la suppression des nœuds du réseau, ce qui en réduit la complexité grâce à la parcimonie.12

En surface, la dégradation des pondérations peut sembler similaire à l’abandon dans les réseaux neuronaux profonds, mais les deux techniques diffèrent. L’une des principales différences, c’est que dans le cas de l’abandon, la valeur de la pénalité croît de manière exponentielle en fonction de la profondeur du réseau, alors que la valeur de la pénalité croît de manière linéaire avec la dégradation des pondérations. D’après certains, cela signifie que l’abandon peut pénaliser la complexité du réseau de manière plus significative que la dégradation des pondérations.13

De nombreux articles et tutoriels en ligne confondent à tort la régularisation L2 et la dégradation des pondérations. En fait, les études ne sont pas cohérentes à ce sujet : certains font la distinction entre la régularisation L2 et la dégradation des pondérations,14 d’autres les mettent sur un pied d’égalité15, et d’autres encore ne décrivent pas de manière cohérente la relation qui existe entre ces deux notions.16 Si ces incohérences terminologiques sont négligées pour le moment, il serait nécessaire de les corriger dans les études futures.

Notes de bas de page

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al. 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023 

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Également, Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021

[7] « Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation », Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon et al. 2nd Ed. 2012

[9] « Dropout: A Simple Way to Prevent Neural Networks from Overfitting », JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn Max et Johnson Kjell, Springer, 2016.

[11] « Deep Learning Meets Sparse Regularization: A Signal Processing Perspective », arXiv, janvier 2023

[12] « Comparing Biases for Minimal Network Construction with Back-propagation », Proceedings, Hanson et Pratt, 1988 

[13] « Surprising properties of dropout in deep networks », Helmbold, David et Long, Philip, JMLR, 2018

[14] « Three Mechanisms of Weight Decay Regularization », Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] « Fundamental differences between Dropout and Weight Decay in Deep Networks », Helmbold, David et Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

 
Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct