Qu’est-ce que la régularisation ?

16 novembre 2023

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Qu’est-ce que la régularisation ?

La régularisation est un ensemble de méthodes permettant d’éviter le surajustement des modèles de machine learning. En règle générale, la régularisation consiste à réduire marginalement la précision de l’entraînement pour augmenter la généralisabilité.

La régularisation englobe une série de techniques permettant de corriger le surajustement des modèles de machine learning. La régularisation vise ainsi à améliorer la généralisabilité des modèles, c’est-à-dire leur capacité à produire des prévisions précises à partir de nouveaux jeux de données.1 Cette généralisabilité accrue est obtenue au prix d’une augmentation du taux d’erreur d’apprentissage. En d’autres termes, les méthodes de régularisation conduisent généralement à des prévisions moins précises sur les données d’apprentissage, mais plus précises sur les données de test.

La régularisation diffère de l’optimisation. Fondamentalement, la première augmente la généralisabilité des modèles tandis que la seconde augmente la précision de l’entraînement des modèles. Il s’agit de deux concepts essentiels dans le machine learning et la science des données.

Il existe de nombreuses formes de régularisation. Tout ce qui s’apparente à un guide complet doit faire l'objet d’un ouvrage beaucoup plus long. Néanmoins, cet article propose un aperçu de la théorie nécessaire pour comprendre l’objectif de la régularisation dans le machine learning, ainsi qu’un aperçu de plusieurs techniques de régularisation populaires.

Compromis biais-variance

Ce compromis (augmentation des erreurs d’apprentissage pour une réduction des erreurs de test) est connu sous le nom de dilemme biais-variance. Ce dilemme est un problème bien connu dans le machine learning. Mais définissons d’abord les termes « biais » et « variance ». En bref :

- Le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles. Au fur et à mesure que le biais augmente, les prédictions du modèle sur le jeu de données d’entraînement perdent en précision. Un niveau de biais élevé correspond à un taux d’erreur élevé lors de l’entraînement.

- La variance mesure la différence entre les prévisions sur différentes réalisations d’un modèle donné. Au fur et à mesure que la variance augmente, les prédictions à partir des données invisibles sont moins précises. Un niveau de variance élevé correspond à un taux d’erreur élevé lors des essais et de la validation.

Le biais et la variance représentent donc à l’inverse la précision du modèle sur les ensembles d’apprentissage et de test, respectivement.2 De toute évidence, l’objectif des développeurs est de réduire à la fois le biais et la variance des modèles. La réduction simultanée de ces deux éléments n’est pas toujours possible, d’où la nécessité d’une régularisation. La régularisation réduit la variance du modèle au prix d’un biais accru.

Ajustement des modèles de régression

En augmentant le biais et en diminuant la variance, la régularisation résout le problème de surajustement du modèle. Il y a surajustement lorsque l’erreur sur les données d’entraînement diminue tandis que l’erreur sur les données de test cesse de diminuer ou commence à augmenter.3 En d’autres termes, le surajustement décrit des modèles présentant un faible biais et une variance élevée. Cependant, si la régularisation introduit un biais trop important, le modèle sera sous-ajusté.

Malgré ce que l’on pourrait penser, le sous-ajustement n’est pas le contraire du surajustement. Un sous-ajustement décrit plutôt des modèles caractérisés par un biais et une variance élevés. Un modèle sous-ajusté produit des prédictions erronées et insatisfaisantes lors de l’entraînement et du test. Cela résulte souvent de données ou de paramètres d’entraînement insuffisants.

Cependant, la régularisation peut également entraîner un sous-ajustement du modèle. Si un biais trop important est introduit lors de la régularisation, la variance du modèle peut cesser de diminuer, et même augmenter. La régularisation peut avoir cet effet en particulier sur les modèles simples, c’est-à-dire les modèles avec peu de paramètres. Pour déterminer le type et le degré de régularisation à mettre en œuvre, il faut donc tenir compte de la complexité du modèle, du jeu de données, etc.4

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Types de régularisation avec les modèles linéaires

La régression linéaire et la régression logistique sont toutes deux des modèles prédictifs à la base du machine learning. La régression linéaire (ou méthode des moindres carrés ordinaires) vise à mesurer et à prédire l’impact d’un ou plusieurs prédicteurs sur un résultat donné en trouvant la ligne la mieux ajustée dans les points de données fournis (c’est-à-dire les données d’apprentissage). La régression logistique vise à déterminer les probabilités d’appartenance à une classe au moyen d’un résultat binaire en fonction d’une série de prédicteurs. En d’autres termes, la régression linéaire fait des prédictions quantitatives continues tandis que la régression logistique produit des prédictions sur les catégories discrètes.5

Bien entendu, au fur et à mesure que le nombre de prédicteurs augmente dans l’un des modèles de régression, la relation entrée-sortie n’est pas toujours simple et nécessite de manipuler la formule de régression. C’est là que la régularisation entre en jeu. Il existe trois principales formes de régularisation pour les modèles de régression. Notez que cette liste n’est pas exhaustive. L’application de ces techniques de régularisation à la régression linéaire ou logistique varie légèrement.

- La régression Lasso (ou régularisation L1) est une technique de régularisation qui pénalise les coefficients corrélés de valeur élevée. Elle introduit un terme de régularisation (également appelé terme de pénalité) dans la fonction de perte de la somme des erreurs quadratiques (SSE) du modèle. Ce terme de pénalité est la valeur absolue de la somme des coefficients. Contrôlé à son tour par l’hyperparamètre lambda (λ), il réduit à zéro le poids de certaines caractéristiques. La régression Lasso supprime ainsi complètement les caractéristiques multicolinéaires du modèle.

- La régression Ridge (ou régularisation L2) est une technique de régularisation qui pénalise de la même manière les coefficients élevés en introduisant un terme de pénalité dans la fonction de perte SSE. Elle diffère cependant de la régression Lasso. Premièrement, le terme de pénalité dans la régression Ridge est la somme au carré des coefficients plutôt que la valeur absolue des coefficients. Deuxièmement, il n’y a pas de sélection des caractéristiques avec la régression Ridge. Alors que le terme de pénalité de la régression Lasso peut supprimer des caractéristiques du modèle en réduisant les valeurs des coefficients à zéro, la régression Ridge peut uniquement réduire les poids des caractéristiques et les faire tendre vers zéro, sans jamais vraiment atteindre cette valeur.

- La régularisation Elastic Net combine essentiellement les régressions Ridge et Lasso, mais elle insère à la fois les termes de pénalité L1 et L2 dans la fonction de perte SSE. L2 et L1 dérivent la valeur de leur terme de pénalité, respectivement, en élevant au carré ou en prenant la valeur absolue de la somme des poids des caractéristiques. La régression Elastic Net insère ces deux valeurs de pénalité dans l’équation de la fonction de coût (SSE). Ainsi, la régression Elastic Net gère le phénomène de multicolinéarité tout en permettant la sélection des caractéristiques.6

Dans le domaine des statistiques, ces méthodes sont également surnommées « réduction de coefficient », car elles réduisent la valeur du coefficient des prédicteurs dans le modèle prédictif. Dans les trois techniques, la force du terme de pénalité est contrôlée par lambda, qui peut être calculé à l’aide de diverses techniques de validation croisée.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Types de régularisation dans le machine learning

Jeu de données

L’augmentation de données est une technique de régularisation qui modifie les données d’entraînement du modèle. On augmente la taille du jeu de données d’entraînement en créant des échantillons de données artificielles dérivées des données d’apprentissage préexistantes. En ajoutant des échantillons au jeu de données d’entraînement, notamment d’instances rares dans les données de vie réelle, on expose le modèle à une quantité et à une diversité de données plus grandes sur lesquelles il peut s’entraîner. La recherche en machine learning s’est récemment intéressée à l’augmentation de données pour les modèles de classification, notamment pour rééquilibrer les jeux de données.7 Il convient toutefois de faire la distinction entre augmentation de données et données synthétiques. Ces dernières impliquent la création de nouvelles données artificielles, tandis que l’augmentation de données consiste à produire des copies modifiées des données préexistantes afin de diversifier et d’élargir le jeu de données.

Entraînement du modèle

L’arrêt précoce est peut-être la technique de régularisation la plus facile à mettre en œuvre. En bref, il limite le nombre d’itérations lors de l’entraînement du modèle. Dans ce cas, un modèle effectue des passes sur les données d’entraînement en continu, s’arrêtant lorsqu’il n’y a pas d’amélioration (et qu’il y a peut-être même une détérioration) de la précision de l’entraînement et de la validation. L’objectif est d’entraîner un modèle jusqu’à ce qu’il atteigne l’erreur d’entraînement la plus faible possible avant un plateau ou une augmentation de l’erreur de validation.8

De nombreux packages Python de machine learning proposent des options de commande d’entraînement pour l’arrêt précoce. En fait, dans certains cas, l’arrêt précoce est un paramètre d’entraînement par défaut.

Réseaux neuronaux

Les réseaux neuronaux sont des modèles complexes de machine learning qui pilotent de nombreuses applications et services d’intelligence artificielle. Les réseaux neuronaux sont composés d’une couche d’entrée, d’une ou plusieurs couches cachées et d’une couche de sortie, chaque couche étant à son tour composée de plusieurs nœuds.

L’abandon (ou décrochage) régularise les réseaux neuronaux en retirant les nœuds du réseau de manière aléatoire, ainsi que leurs connexions en entrée et en sortie, pendant l’entraînement (Figure 3). L’abandon entraîne plusieurs variantes d’une architecture de taille fixe, chaque variante excluant différents nœuds de l’architecture de manière aléatoire. Un seul réseau neuronal sans décrochage est utilisé pour les tests, en utilisant une méthode d’approximation par moyennage dérivée des architectures d’entraînement modifiées aléatoirement. Ainsi, l’abandon revient à entraîner un grand nombre de réseaux neuronaux avec une multitude d’architectures diversifiées.9

La dégradation des pondérations (ou weight decay) est une autre forme de régularisation utilisée pour les réseaux neuronaux. Elle réduit la somme des carrés des poids du réseau avec un paramètre de régularisation, tout comme la régularisation L2 dans les modèles linéaires.10 Mais quand elle est utilisée dans les réseaux neuronaux, cette réduction a un effet similaire à la régularisation L1 : les poids des neurones sélectionnés diminuent jusqu’à zéro.11 Cela a pour effet la suppression des nœuds du réseau, ce qui en réduit la complexité grâce à la parcimonie.12

En surface, la dégradation des pondérations peut sembler similaire à l’abandon dans les réseaux neuronaux profonds, mais les deux techniques diffèrent. L’une des principales différences, c’est que dans le cas de l’abandon, la valeur de la pénalité croît de manière exponentielle en fonction de la profondeur du réseau, alors que la valeur de la pénalité croît de manière linéaire avec la dégradation des pondérations. D’après certains, cela signifie que l’abandon peut pénaliser la complexité du réseau de manière plus significative que la dégradation des pondérations.13

De nombreux articles et tutoriels en ligne confondent à tort la régularisation L2 et la dégradation des pondérations. En fait, les études ne sont pas cohérentes à ce sujet : certaines font la distinction entre la régularisation L2 et la dégradation des pondérations,14 d’autres les mettent sur un pied d’égalité15, et d’autres encore ne décrivent pas de manière cohérente la relation qui existe entre ces deux notions.16 Si ces incohérences terminologiques sont négligées pour le moment, il serait nécessaire de les corriger dans les études futures.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani et Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

3 Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani et Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

6 Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen et Minh-Triet Tran, « Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays », Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pages 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee et Hansu Cho« Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method », Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pages 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html

8 Grégoire Montavon, Geneviève B. Orr et Klaus-Robert Müller, Neural Networks : Tricks of the Trade, 2e édition, Springer, 2012.

9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever et Ruslan Salakhutdinov, « Dropout : A Simple Way to Prevent Neural Networks from Overfitting », Journal of Machine Learning Research, vol. 15, n° 56, 2014, pages 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html

10 Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Rahul Parhi et Robert D. Nowak, « Deep Learning Meets Sparse Regularization : A Signal Processing Perspective », IEEE Signal Processing Magazine, vol. 40, n° 6, 2023, pages 63-74, https://arxiv.org/abs/2301.09554

12 Stephen Hanson et Lorien Pratt, « Comparing Biases for Minimal Network Construction with Back-Propagation » Advances in Neural Information Processing Systems 1, 1988, pages 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf

13 David P. Helmbold, Philip M. Long, « Surprising properties of dropout in deep networks », Journal of Machine Learning Research, vol. 18, n° 200, 2018, pages 1−28, https://jmlr.org/papers/v18/16-549.html

14 Guodong Zhang, Chaoqi Wang, Bowen Xu et Roger Grosse, « Three Mechanisms of Weight Decay Regularization », International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281

15 David P. Helmbold et Philip M. Long, « Fundamental Differences between Dropout and Weight Decay in Deep Networks », 2017, https://arxiv.org/abs/1602.04484v3

16 Ian Goodfellow, Yoshua Bengio et Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/