Qu’est-ce que la régression Ridge ?

21 novembre 2023

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

Qu’est-ce que la régression Ridge ?

La régression Ridge est une technique de régularisation statistique qui permet de corriger le surajustement des modèles de machine learning sur les données d’entraînement.

La méthode de régression Ridge, également connue sous le nom de « régularisation L2 », est l’un des types de régularisation qui s’appliquent aux modèles de régression linéaire. La régularisation est une méthode statistique qui permet de réduire le risque d’erreur lié au surajustement sur les données d’entraînement. La régression Ridge corrige spécifiquement la multicolinéarité dans l’analyse de régression. Cela s’avère utile lors du développement de modèles de machine learning qui comportent un grand nombre de paramètres, en particulier si ces paramètres ont également des poids élevés. Bien que cet article se concentre sur la régularisation des modèles de régression linéaire, notez que la régression Ridge peut également être appliquée dans la régression logistique.

Le problème : la multi-colinéarité

Voici un exemple d’équation de régression linéaire multivariée standard :

Ici, Y est la valeur prédite (variable dépendante), X est n’importe quel prédicteur (variable indépendante), B est le coefficient de régression associé à cette variable indépendante et X0 est la valeur de la variable dépendante lorsque la variable indépendante est égale à zéro (également appelée ordonnée à l’origine ou y-intercept). Les coefficients marquent la relation entre la variable dépendante et une variable indépendante donnée.

On parle de multicolinéarité lorsque deux ou plusieurs variables prédictives ont une relation quasi linéaire. Montgomery et al. proposent un bon exemple : imaginez que nous analysions un jeu de données sur les livraisons de la chaîne d’approvisionnement dans lequel les livraisons sur de longues distances contiennent régulièrement un grand nombre d’articles alors que les livraisons sur de courtes distances en contiennent toujours moins. Dans ce cas, la distance de livraison et la quantité d’articles sont corrélées de façon linéaire, comme le montre la figure 1. Cela pose des problèmes lors de l’utilisation de ces données comme variables indépendantes dans un modèle prédictif unique.

Il ne s’agit-là que d’un exemple de multicolinéarité et sa solution est relativement simple : collecter des données plus diversifiées (par exemple pour les livraisons sur courtes distances avec des stocks importants). Cependant, la collecte de données supplémentaires n’est pas toujours un correctif viable, par exemple lorsque la multicolinéarité est intrinsèque aux données étudiées. Parmi les autres options permettant de corriger la multicolinéarité, citons l’augmentation de la taille de l’échantillon, la réduction du nombre de variables indépendantes ou simplement le déploiement d’un modèle différent. Cependant, ces correctifs ne parviennent pas toujours à éliminer la multicolinéarité, et la régression Ridge constitue une autre méthode qui permet de régulariser un modèle afin de gérer ce phénomène.1

Fonctionnement de la régression Ridge : l’algorithme de régularisation

Lors du développement initial de modèles prédictifs, nous devons souvent calculer des coefficients, car ceux-ci ne sont pas explicitement indiqués dans les données d’entraînement. Pour estimer les coefficients, nous pouvons utiliser un estimateur matriciel standard des moindres carrés ordinaires (MCO) :

La connaissance des opérations de cette formule nécessite de maîtriser la notation matricielle. En résumé, cette formule vise à trouver la ligne la mieux adaptée à un jeu de données spécifique en calculant les coefficients de chaque variable indépendante qui donnent collectivement la plus petite somme des carrés des résidus (également appelée somme des erreurs quadratiques).2

La somme des carrés des résidus (RSS) mesure l’adéquation d’un modèle de régression linéaire avec les données d’entraînement. Elle est représentée par la formule suivante :

Cette formule mesure la précision des prédictions du modèle pour les valeurs de vérité terrain des données d’apprentissage. Si RSS = 0, le modèle prédit parfaitement les variables dépendantes. Un score de zéro n’est cependant pas toujours souhaitable, car il peut indiquer un surajustement sur les données d’apprentissage, en particulier si le jeu de données d’entraînement est petit. La multicolinéarité peut en être l’une des causes.

Des estimations de coefficient élevées peuvent souvent être symptomatiques d’un surajustement.3 Si deux variables ou plus présentent une corrélation linéaire élevée, les moindres carrés ordinaires (MCO) peuvent renvoyer des coefficients de valeur élevée erronés. Lorsqu’un ou plusieurs coefficients sont trop élevés, les résultats du modèle deviennent sensibles à des altérations mineures dans les données d’entrée. En d’autres termes, le modèle s’est surajusté à un jeu d’entraînement spécifique et ne parvient pas à se généraliser avec précision sur de nouveaux jeux de test. Un tel modèle est considéré comme instable.4

La régression Ridge modifie les MCO en calculant des coefficients qui tiennent compte des prédicteurs potentiellement corrélés. Plus précisément, la régression Ridge corrige les coefficients élevés en introduisant un terme de régularisation (souvent appelé terme de pénalité) dans la fonction RSS. Ce terme de pénalité est la somme des carrés des coefficients du modèle.Il est représenté par la formule suivante :

Le terme de pénalité L2 est inséré à la fin de la fonction RSS, ce qui donne une nouvelle formule, l’estimateur de régression Ridge. Dans ce cas, son effet sur le modèle est contrôlé par l’hyperparamètre lambda (λ) :

Rappelez-vous que les coefficients indiquent l’effet d’un prédicteur donné (c’est-à-dire de la variable indépendante) sur la valeur prédite (c’est-à-dire la variable dépendante). Une fois ajouté à la formule RSS, le terme de pénalité L2 compense les coefficients particulièrement élevés en réduisant tous les coefficients. En statistiques, c’est ce que l’on appelle la réduction du coefficient. L’estimateur Ridge ci-dessus calcule donc de nouveaux coefficients de régression qui réduisent la RSS d’un modèle donné. Cela minimise l’effet de chaque prédicteur et réduit le surajustement sur les données d’entraînement.6

Notez que la régression Ridge ne réduit pas chaque coefficient à partir de la même valeur. Au contraire, les coefficients sont réduits proportionnellement à leur taille initiale. Lorsque λ augmente, les coefficients de valeur élevée diminuent plus rapidement que les coefficients de faible valeur.7 Les coefficients élevés sont donc plus pénalisés que les coefficients faibles.

Régression Ridge et régression Lasso

Notez que la pénalité L2 réduit les coefficients vers zéro, mais jamais vers le zéro absolu. Bien que les poids des caractéristiques du modèle puissent devenir si petits qu’ils en sont négligeables, ils ne sont jamais égaux à zéro dans la régression Ridge. La réduction d’un coefficient à zéro supprime en réalité le prédicteur appairé du modèle. C’est ce que l’on appelle la sélection des caractéristiques, qui est un autre moyen de corriger la multicolinéarité.8 Comme la régression Ridge ne réduit pas les coefficients de régression à zéro, elle n’exécute pas la sélection des caractéristiques.9 Ce point est souvent cité comme un inconvénient de la régression Ridge. En outre, un autre inconvénient souvent cité est l’incapacité de la régression Ridge à séparer les effets des prédicteurs en cas de multicolinéarité sévère.10

La régression Lasso, également appelée régularisation L1, est l’une des autres méthodes de régularisation dans la régression linéaire. La régularisation L1 fonctionne en réduisant les coefficients à zéro, éliminant de ce fait ces variables indépendantes du modèle. La régression Lasso et la régression Ridge réduisent donc la complexité du modèle, mais par des moyens différents. La régression Lasso réduit le nombre de variables indépendantes affectant le résultat. La régression Ridge réduit le poids de chaque variable indépendante sur le résultat.

Autres techniques de régularisation de régression

La régression Elastic Net est une autre forme de régularisation. Alors que la régression Ridge obtient son paramètre de régularisation à partir de la somme des erreurs quadratiques et que la régression Lasso obtient le sien à partir de la somme des erreurs absolues, la régression Elastic Net intègre ces deux paramètres de régularisation dans la fonction de coût RSS.11

La régression sur composantes principales (PCR) peut également servir de procédure de régularisation. Si la PCR peut résoudre la multicolinéarité, elle ne le fait pas en appliquant une pénalité à la fonction RSS, comme dans les régressions Ridge et Lasso. La PCR produit plutôt des combinaisons linéaires de prédicteurs corrélés à partir desquels il est possible de créer un nouveau modèle basé sur la méthode des moindres carrés.12

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Régression Ridge dans le machine learning

Complexité des modèles

Dans le domaine du machine learning, la régression Ridge permet de réduire le surajustement résultant de la complexité du modèle, à savoir :

  • Le modèle possède trop de caractéristiques. Les caractéristiques sont les prédicteurs du modèle, également appelés « paramètres » en machine learning. Bon nombre de tutoriels en ligne recommandent d’avoir un nombre de caractéristiques inférieur au nombre d’instances présentes dans les jeux de données d’entraînement. Cela n’est cependant pas toujours possible.
  • Poids des caractéristiques trop élevés.Le poids des caractéristiques fait référence à l’effet d'un prédicteur donné sur la sortie du modèle. Un poids de caractéristique élevé équivaut à un coefficient élevé.

Les modèles plus simples ne sont pas intrinsèquement plus performants que les modèles complexes. Néanmoins, un degré élevé de complexité peut entraver la capacité d’un modèle à se généraliser sur de nouvelles données en dehors du jeu d’entraînement.

La régression Ridge n’effectue pas de sélection de caractéristiques, elle ne peut donc pas réduire la complexité du modèle en éliminant des caractéristiques. Mais si une ou plusieurs caractéristiques affectent trop fortement la sortie d’un modèle, la régression Ridge peut réduire les poids de caractéristiques élevés (c.-à-d.les coefficients) sur l’ensemble du modèle par le terme de pénalité L2. Cela permet de réduire la complexité du modèle et de faire en sorte que ses prédictions ne dépendent pas de manière aussi imprévisible d’une ou de plusieurs caractéristiques.

Compromis biais-variance

En termes de machine learning, la régression Ridge consiste à ajouter un biais dans un modèle pour en réduire la variance. Le dilemme biais-variance est un problème bien connu dans le machine learning. Mais pour le comprendre, il convient d’abord de savoir ce que l’on entend respectivement par « biais » et par « variance » dans les recherches en machine learning.

En bref, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d’un modèle donné. Lorsque le biais augmente, les prédictions du modèle sur le jeu de données d’entraînement perdent en précision. Lorsque la variance augmente, les prédictions du modèle sur les autres jeux de données perdent en précision. Le biais et la variance mesurent donc la précision du modèle sur les jeux d’entraînement et de test, respectivement. De toute évidence, les développeurs espèrent réduire le biais et la variance des modèles. Il n’est cependant pas toujours possible de les réduire simultanément, d’où la nécessité de recourir à des techniques de régularisation telles que la régression Ridge.

Comme nous l’avons déjà mentionné, la régularisation par régression Ridge introduit un biais supplémentaire pour réduire la variance. En d’autres termes, les modèles régularisés par la régression Ridge produisent des prédictions moins précises à partir des données d’entraînement (biais plus élevé), et plus précises à partir des données de test (faible variance). Il s’agit d’un dilemme biais-variance. Grâce à la régression Ridge, les utilisateurs déterminent un niveau de perte de précision acceptable pour l’entraînement (biais plus élevé), afin d’améliorer la généralisabilité d’un modèle donné (variance inférieure).13  Augmenter le biais permet ainsi d’améliorer la performance globale du modèle.

La force de la pénalité L2, et donc du compromis biais-variance du modèle, est déterminée par la valeur λ dans l’équation de la fonction de perte de l’estimateur Ridge. Si λ est égal à zéro, il reste une fonction des moindres carrés ordinaires. Cela crée un modèle de régression linéaire standard sans aucune régularisation. En revanche, une valeur λ plus élevée signifie une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. Ainsi, lorsque λ est égal à zéro, le modèle se surajuste aux données d’entraînement, mais lorsque λ est trop élevé, le modèle se sous-ajuste sur toutes les données.14

L’erreur quadratique moyenne (MSE) peut permettre de déterminer une valeur λ appropriée. La MSE est étroitement liée à la RSS et constitue un moyen de mesurer la différence, en moyenne, entre les valeurs prédites et les valeurs réelles. Plus la MSE d’un modèle est faible, plus ses prédictions sont précises. Mais la MSE augmente à mesure que λ augmente. Néanmoins, on peut affirmer qu’il existe toujours une valeur de λ supérieure à zéro faisant en sorte que la MSE obtenue par la régression Ridge est inférieure à celle obtenue par la méthode des moindres carrés ordinaires.15 Pour déduire une valeur de λ appropriée, il existe une méthode qui consiste à trouver la valeur de λ la plus élevée qui n’augmente pas la MSE, comme l’illustre la figure 2. D’autres techniques de validation croisée peuvent aider les utilisateurs à sélectionner les valeurs λ optimales pour le réglage de leur modèle.16

Quelques cas d’utilisation

Les modèles de régression Ridge conviennent particulièrement aux jeux de données qui possèdent deux caractéristiques corrélées ou plus. En outre, de nombreux domaines utilisent la régression Ridge pour traiter les modèles avec un grand nombre de prédicteurs et de petits jeux de données d’entraînement.17 De telles situations peuvent être assez courantes lorsque les données sont variées.

Biostatistique

La biologie computationnelle et les études en génétique utilisent souvent des modèles dans lesquels le nombre de prédicteurs est largement supérieur à la taille des échantillons des jeux de données, en particulier lorsqu’il s’agit d’étudier l’expression génétique. La régression Ridge offre un moyen de traiter la complexité du modèle en réduisant le poids total de ces caractéristiques multiples, compressant ainsi la portée prédictive du modèle.

Immobilier

Une myriade de prédicteurs déterminent le prix de vente final d’une maison et nombre d’entre eux sont corrélés, comme le nombre de chambres et de salles de bains. Des caractéristiques fortement corrélées conduisent à des coefficients de régression élevés et à un surajustement sur les données d’entraînement. La régression Ridge corrige cette forme de complexité dans le modèle en réduisant les poids totaux des caractéristiques sur la valeur prédite finale du modèle.

Il ne s’agit là que de deux exemples dans la discipline plus large de la science des données. Mais comme ils l’indiquent, vous pouvez utiliser la régression Ridge efficacement dans ces deux situations : quand vous avez plus de caractéristiques dans le modèle que d’échantillons de données ou lorsque votre modèle présente au moins deux caractéristiques fortement corrélées.

Recherches récentes

Des recherches récentes explorent une variante modifiée de la régression Ridge qui permettrait d’exécuter la sélection des caractéristiques.18  Cette forme modifiée de la régression Ridge utilise différents paramètres de régularisation sur chaque coefficient. Ainsi, il est possible de pénaliser individuellement les poids des caractéristiques, permettant la mise en œuvre potentielle de la sélection des caractéristiques par le biais de la régression Ridge.19

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

Douglas C. Montgomery, Elizabeth A. Peck et G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

A. K. Md. Ehsanes Saleh, Mohammad Arashi et B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.

Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh et Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection : With Application to Machine Learning, Wiley, 2022.

Douglas C. Montgomery, Elizabeth A. Peck et G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

11 Hui Zou et Trevor Hastie, « Regularization and Variable Selection via the Elastic Net », Journal of the Royal Statistical Society, vol. 67, n° 2, 2005, pages 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482

12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

13 Max Kuhn et Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao et Lennart Ljung, Regularized System Identification : Learning Dynamic Models from Data, Springer, 2022.

15 Arthur E. Hoerl et Robert W. Kennard, « Ridge Regression : Biased Estimation for Nonorthogonal Problems », Technometrics, vol. 12, n° 1, février 1970, pages 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf

17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang et Brian D. Marx, Regression : Models, Methods and Applications, 2e édition, Springer, 2021.

18 Yichao Wu, « Can’t Ridge Regression Perform Variable Selection ? », Technometrics, vol. 63, n° 2, 2021, pages 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254

19 Danielle C. Tucker, Yichao Wu et Hans-Georg Müller, « Variable Selection for Global Fréchet Regression », Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240