Qu’est-ce que la régression Lasso ?

La regression Lasso est une technique de régularisation qui consiste à appliquer une pénalité pour éviter le surapprentissage et améliorer la précision des modèles statistiques.

La régression Lasso, également connue sous le nom de « régularisation L1 », est une forme de régularisation pour les modèles de régression linéaire. La régularisation est une méthode statistique qui permet de réduire le risque d'erreur lié au sur-ajustement des données d'entraînement. Cette approche est représentée par la formule suivante :

w-hat = argmin_w MSE(W ) + ||w||₁

Les origines des concepts sous-jacents à la technique Lasso peuvent être retracées à un article de recherche géophysique de 1986 (lien externe à ibm.com) de Santosa et Symes¹, préconisant l’utilisation de la pénalité L1 pour les coefficients. Cependant, en 1996, le statisticien Robert Tibshirani développe et popularise le terme « lasso » de manière indépendante²(lien externe à ibm.com), en se basant sur le travail de Breitman sur le « non-negative garrote »³(lien externe à ibm.com).

L’acronyme Lasso signifie « Least Absolute Shrinkage and Selection Operator ». Cette méthode est fréquemment utilisée dans le machine learning pour gérer les données à haute dimension, car elle facilite la sélection automatique des caractéristiques avec son application. Elle y parvient en ajoutant un terme de pénalité à la somme résiduelle de carrés (RSS), qui est ensuite multipliée par le paramètre de régularisation (lambda ou λ). Ce paramètre de régularisation contrôle le degré de régularisation appliqué. Les valeurs lambda plus grandes augmentent la pénalité, réduisant davantage de coefficients vers zéro. Cela réduit par la suite l’importance de certaines caractéristiques du modèle (ou les élimine complètement), ce qui se traduit par une sélection automatique des caractéristiques. Inversement, les valeurs lambda plus petites réduisent l’effet de la pénalité, en conservant davantage de caractéristiques dans le modèle.

Cette pénalité favorise la parcimonie au sein du modèle, ce qui permet d’éviter les problèmes de multicolinéarité et de surajustement des jeux de données. Le phénomène de multicolinéarité se produit lorsque deux variables indépendantes ou plus sont fortement corrélées entre elles, ce qui peut poser problème pour la modélisation causale. Les modèles surajustés se prêteront mal aux généralisations avec l’entrée de nouvelles données, ce qui diminuera leur valeur. En réduisant les coefficients de régression à zéro, la régression Lasso peut éliminer efficacement les variables indépendantes du modèle, évitant ainsi les problèmes potentiels au sein du processus de modélisation. La parcimonie du modèle peut également améliorer son interprétabilité par rapport à d’autres techniques de régularisation, telles que la régression Ridge (également connue sous le nom de régularisation L2).

Cet article se concentre sur la régularisation des modèles de régression linéaire, mais il convient de noter que la régression Lasso peut également être appliquée dans la régression logistique.

Compromis biais-variance

Le compromis biais-variance est une propriété bien connue des modèles prédictifs. Dans ce contexte, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d’un modèle donné. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d'entraînement sont moins précises. Au fur et à mesure que la variance augmente, les prédictions à partir d'autres jeux de données d'entraînement sont moins précises. Le biais et la variance mesurent donc la précision du modèle sur les jeux d'entraînement et de test respectivement. Il n’est pas toujours possible de réduire simultanément le biais et la variance, d’où la nécessité d’employer des techniques de régularisation comme la régression Lasso.

Dans la régression Lasso, l’hyperparamètre lambda (λ), également connu sous le nom de pénalité L1, équilibre le compromis entre le biais et la variance dans les coefficients résultants. Lorsque λ augmente, le biais augmente et la variance diminue, ce qui conduit à un modèle plus simple, avec moins de paramètres. Inversement, lorsque λ diminue, la variance augmente, ce qui conduit à un modèle plus complexe, avec plus de paramètres. Si λ est nul, alors il reste une fonction MCO (moindres carrés ordinaires), c’est-à-dire un modèle de régression linéaire standard sans aucune régularisation.

Graphique modélisant la relation entre la MSE, les biais, la variance et le terme de pénalité lambda

Régression Lasso : comment ça marche ?

Cette section explique comment appliquer la régression Lasso et présente des cas d’utilisation courants dans le domaine de la science des données.

Réaliser une analyse exploratoire des données

Avant d’appliquer un algorithme de regression linéaire à votre jeu de données, explorez les données pour identifier les problèmes sous-jacents potentiels. Il est important de déterminer si :

certaines données sont manquantes
le nombre de caractéristiques est important
la distribution des variables continues est centrée sur la moyenne avec des écarts-types équivalents ;
des prédicteurs sont corrélés les uns avec les autres.

Il est important de comprendre ces éléments, car les jeux de données avec une dimensionnalité élevée et des variables corrélées peuvent être sujets au surajustement. Les données qui ne sont pas centrées sur la moyenne avec un écart-type de 1 devront également être redimensionnées pour limiter l’impact des grandes échelles sur le modèle. Si les caractéristiques ne sont pas redimensionnées, cela pourra affecter négativement la fonction de coût, ce qui aura ensuite un impact sur les coefficients bêta. En termes simples, les caractéristiques non dimensionnées peuvent entraîner l’application de pénalités involontaires dans la régression Lasso en raison des différences dans les unités.

Fractionner les données et redimensionner les prédicteurs continus

Une fois que nous aurons effectué une analyse exploratoire des données, nous diviserons les données en un jeu d’entraînement et un jeu de test. Après cette étape de fractionnement, le redimensionnement est appliqué aux données selon les besoins. La mise à l’échelle du score Z est une approche courante du dimensionnement des caractéristiques : elle redimensionne les caractéristiques pour qu’elles présentent un écart-type de 1 et une moyenne de 0.

Adapter le modèle Lasso et choisir une valeur pour λ

Ajustez le modèle de régression Lasso sur les données d’apprentissage et choisissez une valeur pour λ avec pour objectif de minimiser l’erreur quadratique moyenne (MSE). L’erreur quadratique moyenne (MSE) peut aider à déterminer une valeur λ appropriée. La MSE permet de mesurer la différence, en moyenne, entre les valeurs prédites et réelles de la variable dépendante. La régression Lasso minimise l’erreur quadratique moyenne (MSE) tout en équilibrant les facteurs opposés de biais et de variance pour créer le modèle prédictif le plus précis. Elle y parvient en ajoutant un terme de pénalité à la somme résiduelle des carrés (RSS) égal à la somme des valeurs absolues des coefficients multipliée par un paramètre λ.

Optimiser la valeur λ avec la validation croisée

La valeur optimale de λ peut être déterminée à l’aide de techniques de validation croisée, telles que la validation croisée K-fold. Cette approche permet de trouver la valeur λ qui minimise l’erreur quadratique moyenne ou d’autres indicateurs de performance.

Comme indiqué précédemment, une valeur λ plus élevée applique une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. En effet, plus la valeur de λ est élevée, plus les coefficients 𝛽 tendent vers zéro.

Évaluez la performance de votre modèle

En général, quelques valeurs peuvent être imprimées pour comprendre la performance du modèle, en particulier le coefficient de détermination R² et l’erreur quadratique moyenne (MSE). La valeur R² nous indique la proportion de variance dans notre variable dépendante (ou variable de réponse), expliquée par des variables indépendantes. En comparant les valeurs MSE pour différentes valeurs de λ, vous pouvez voir si le modèle a été optimisé efficacement pour le minimum global.

Quand utiliser la régression Lasso

La régression Lasso est idéale pour les problèmes prédictifs : sa capacité à effectuer une sélection automatique des variables peut simplifier les modèles et améliorer la précision des prédictions. Cela dit, la régression Ridge peut être plus performante que la régression Lasso en raison du biais introduit par cette dernière avec la réduction des coefficients vers zéro. Elle présente également des limites en ce qui concerne les caractéristiques corrélées dans les données, car elle choisit de manière arbitraire une caractéristique à inclure dans le modèle.

Applications courantes

La regression Lasso peut s’avérer très utile dans ces scénarios.

Gérer les jeux de données de dimension importante

Un jeu de données peut être qualifié de jeu à haute dimension lorsque le nombre de prédicteurs est beaucoup plus important que le nombre d’observations. La régression Lasso peut contribuer à réduire la dimensionnalité d’un jeu de données en ramenant les paramètres de pondération à zéro, éliminant ainsi les caractéristiques les moins importantes du modèle.

En savoir plus sur la réduction de dimensionnalité

Automatiser la sélection des caractéristiques

Le biais introduit par la pénalité L1 réduira artificiellement les coefficients vers zéro. Certaines variables se réduisent exactement à zéro, ne laissant dans le modèle qu’un sous-ensemble des variables les plus importantes pour faire les prédictions.

Limites de la regression Lasso

La régression Lasso peut gérer une certaine multicolinéarité sans affecter négativement l’interprétabilité du modèle, mais elle ne peut pas surmonter une multicolinéarité sévère⁴. Si les covariables sont hautement corrélées, la régression Lasso supprimera de manière arbitraire l’une des caractéristiques du modèle. La régularisation de type filet élastique est une bonne alternative dans cette situation.

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Mettre en œuvre la régression Lasso dans Python ou R

Python et R sont tous deux largement utilisés dans le domaine de la science des données. Python est flexible et peut gérer un large éventail de tâches. R, quant à lui, est spécifiquement conçu pour le calcul statistique et la visualisation des données, avec notamment de riches options graphiques pour les tracés et les graphiques.

La régression Lasso peut être implémentée en Python à l’aide de bibliothèques comme sklearn (lien externe à ibm.com), fournissant la classe Lasso à cet effet. R est un excellent choix, car le package glmnet peut être utilisé pour une validation croisée efficace pour la sélection de λ. Il permet également de définir α sur différentes valeurs. R brille également par ses capacités de visualisation, qui jouent un rôle crucial dans la compréhension et l’interprétation du modèle de régression Lasso.

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Qu’est-ce que la régression Lasso ?