La regression Lasso est une technique de régularisation qui consiste à appliquer une pénalité pour éviter le surapprentissage et améliorer la précision des modèles statistiques.
La régression Lasso, également connue sous le nom de « régularisation L1 », est une forme de régularisation pour les modèles de régression linéaire. La régularisation est une méthode statistique qui permet de réduire le risque d'erreur lié au sur-ajustement des données d'entraînement. Cette approche est représentée par la formule suivante :
w-hat = argminw MSE(W ) + ||w||1
Les origines des concepts sous-jacents à la technique Lasso peuvent être retracées à un article de recherche géophysique de 1986 (lien externe à ibm.com) de Santosa et Symes1, préconisant l’utilisation de la pénalité L1 pour les coefficients. Cependant, en 1996, le statisticien Robert Tibshirani développe et popularise le terme « lasso » de manière indépendante2 (lien externe à ibm.com), en se basant sur le travail de Breitman sur le « non-negative garrote »3 (lien externe à ibm.com).
L’acronyme Lasso signifie « Least Absolute Shrinkage and Selection Operator ». Cette méthode est fréquemment utilisée dans le machine learning pour gérer les données à haute dimension, car elle facilite la sélection automatique des caractéristiques avec son application. Elle y parvient en ajoutant un terme de pénalité à la somme résiduelle de carrés (RSS), qui est ensuite multipliée par le paramètre de régularisation (lambda ou λ). Ce paramètre de régularisation contrôle le degré de régularisation appliqué. Les valeurs lambda plus grandes augmentent la pénalité, réduisant davantage de coefficients vers zéro. Cela réduit par la suite l’importance de certaines caractéristiques du modèle (ou les élimine complètement), ce qui se traduit par une sélection automatique des caractéristiques. Inversement, les valeurs lambda plus petites réduisent l’effet de la pénalité, en conservant davantage de caractéristiques dans le modèle.
Cette pénalité favorise la parcimonie au sein du modèle, ce qui permet d’éviter les problèmes de multicolinéarité et de surajustement des jeux de données. Le phénomène de multicolinéarité se produit lorsque deux variables indépendantes ou plus sont fortement corrélées entre elles, ce qui peut poser problème pour la modélisation causale. Les modèles surajustés se prêteront mal aux généralisations avec l’entrée de nouvelles données, ce qui diminuera leur valeur. En réduisant les coefficients de régression à zéro, la régression Lasso peut éliminer efficacement les variables indépendantes du modèle, évitant ainsi les problèmes potentiels au sein du processus de modélisation. La parcimonie du modèle peut également améliorer son interprétabilité par rapport à d’autres techniques de régularisation, telles que la régression Ridge (également connue sous le nom de régularisation L2).
Cet article se concentre sur la régularisation des modèles de régression linéaire, mais il convient de noter que la régression Lasso peut également être appliquée dans la régression logistique.
Le compromis biais-variance est une propriété bien connue des modèles prédictifs. Dans ce contexte, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d’un modèle donné. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d'entraînement sont moins précises. Au fur et à mesure que la variance augmente, les prédictions à partir d'autres jeux de données d'entraînement sont moins précises. Le biais et la variance mesurent donc la précision du modèle sur les jeux d'entraînement et de test respectivement. Il n’est pas toujours possible de réduire simultanément le biais et la variance, d’où la nécessité d’employer des techniques de régularisation comme la régression Lasso.
Dans la régression Lasso, l’hyperparamètre lambda (λ), également connu sous le nom de pénalité L1, équilibre le compromis entre le biais et la variance dans les coefficients résultants. Lorsque λ augmente, le biais augmente et la variance diminue, ce qui conduit à un modèle plus simple, avec moins de paramètres. Inversement, lorsque λ diminue, la variance augmente, ce qui conduit à un modèle plus complexe, avec plus de paramètres. Si λ est nul, alors il reste une fonction MCO (moindres carrés ordinaires), c’est-à-dire un modèle de régression linéaire standard sans aucune régularisation.
Cette section explique comment appliquer la régression Lasso et présente des cas d’utilisation courants dans le domaine de la science des données.
Avant d’appliquer un algorithme de regression linéaire à votre jeu de données, explorez les données pour identifier les problèmes sous-jacents potentiels. Il est important de déterminer si :
certaines données sont manquantes
le nombre de caractéristiques est important
la distribution des variables continues est centrée sur la moyenne avec des écarts-types équivalents ;
des prédicteurs sont corrélés les uns avec les autres.
Il est important de comprendre ces éléments, car les jeux de données avec une dimensionnalité élevée et des variables corrélées peuvent être sujets au surajustement. Les données qui ne sont pas centrées sur la moyenne avec un écart-type de 1 devront également être redimensionnées pour limiter l’impact des grandes échelles sur le modèle. Si les caractéristiques ne sont pas redimensionnées, cela pourra affecter négativement la fonction de coût, ce qui aura ensuite un impact sur les coefficients bêta. En termes simples, les caractéristiques non dimensionnées peuvent entraîner l’application de pénalités involontaires dans la régression Lasso en raison des différences dans les unités.
Une fois que nous aurons effectué une analyse exploratoire des données, nous diviserons les données en un jeu d’entraînement et un jeu de test. Après cette étape de fractionnement, le redimensionnement est appliqué aux données selon les besoins. La mise à l’échelle du score Z est une approche courante du dimensionnement des caractéristiques : elle redimensionne les caractéristiques pour qu’elles présentent un écart-type de 1 et une moyenne de 0.
Ajustez le modèle de régression Lasso sur les données d’apprentissage et choisissez une valeur pour λ avec pour objectif de minimiser l’erreur quadratique moyenne (MSE). L’erreur quadratique moyenne (MSE) peut aider à déterminer une valeur λ appropriée. La MSE permet de mesurer la différence, en moyenne, entre les valeurs prédites et réelles de la variable dépendante. La régression Lasso minimise l’erreur quadratique moyenne (MSE) tout en équilibrant les facteurs opposés de biais et de variance pour créer le modèle prédictif le plus précis. Elle y parvient en ajoutant un terme de pénalité à la somme résiduelle des carrés (RSS) égal à la somme des valeurs absolues des coefficients multipliée par un paramètre λ.
La valeur optimale de λ peut être déterminée à l’aide de techniques de validation croisée, telles que la validation croisée K-fold. Cette approche permet de trouver la valeur λ qui minimise l’erreur quadratique moyenne ou d’autres indicateurs de performance.
Comme indiqué précédemment, une valeur λ plus élevée applique une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. En effet, plus la valeur de λ est élevée, plus les coefficients 𝛽 tendent vers zéro.
En général, quelques valeurs peuvent être imprimées pour comprendre la performance du modèle, en particulier le coefficient de détermination R2 et l’erreur quadratique moyenne (MSE). La valeur R2 nous indique la proportion de variance dans notre variable dépendante (ou variable de réponse), expliquée par des variables indépendantes. En comparant les valeurs MSE pour différentes valeurs de λ, vous pouvez voir si le modèle a été optimisé efficacement pour le minimum global.
La régression Lasso est idéale pour les problèmes prédictifs : sa capacité à effectuer une sélection automatique des variables peut simplifier les modèles et améliorer la précision des prédictions. Cela dit, la régression Ridge peut être plus performante que la régression Lasso en raison du biais introduit par cette dernière avec la réduction des coefficients vers zéro. Elle présente également des limites en ce qui concerne les caractéristiques corrélées dans les données, car elle choisit de manière arbitraire une caractéristique à inclure dans le modèle.
La regression Lasso peut s’avérer très utile dans ces scénarios.
Un jeu de données peut être qualifié de jeu à haute dimension lorsque le nombre de prédicteurs est beaucoup plus important que le nombre d’observations. La régression Lasso peut contribuer à réduire la dimensionnalité d’un jeu de données en ramenant les paramètres de pondération à zéro, éliminant ainsi les caractéristiques les moins importantes du modèle.
Le biais introduit par la pénalité L1 réduira artificiellement les coefficients vers zéro. Certaines variables se réduisent exactement à zéro, ne laissant dans le modèle qu’un sous-ensemble des variables les plus importantes pour faire les prédictions.
La régression Lasso peut gérer une certaine multicolinéarité sans affecter négativement l’interprétabilité du modèle, mais elle ne peut pas surmonter une multicolinéarité sévère4. Si les covariables sont hautement corrélées, la régression Lasso supprimera de manière arbitraire l’une des caractéristiques du modèle. La régularisation de type filet élastique est une bonne alternative dans cette situation.
Python et R sont tous deux largement utilisés dans le domaine de la science des données. Python est flexible et peut gérer un large éventail de tâches. R, quant à lui, est spécifiquement conçu pour le calcul statistique et la visualisation des données, avec notamment de riches options graphiques pour les tracés et les graphiques.
La régression Lasso peut être implémentée en Python à l’aide de bibliothèques comme sklearn (lien externe à ibm.com), fournissant la classe Lasso à cet effet. R est un excellent choix, car le package glmnet peut être utilisé pour une validation croisée efficace pour la sélection de λ. Il permet également de définir α sur différentes valeurs. R brille également par ses capacités de visualisation, qui jouent un rôle crucial dans la compréhension et l’interprétation du modèle de régression Lasso.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez des approches d’apprentissage supervisées telles que les machines à vecteurs de support et les classificateurs probabilistes.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
1 Linear Inversion of Band-Limited Reflection Seismograms (lien externe à ibm.com), Society for Industrial and Applied Mathematics, 1986
2 Regression Shrinkage and Selection via the Lasso (lien externe à ibm.com), Journal of the Royal Statistical Society, 1996
3 Better Subset Regression Using the Nonnegative Garrote (lien externe à ibm.com), Technometrics, 2012
4 Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (lien externe à ibm.com), International Journal of Statistics and Applications, 2018