La régression Lasso, également connue sous le nom de « régularisation L1 », est une forme de régularisation pour les modèles de régression linéaire. La régularisation est une méthode statistique qui permet de réduire le risque d'erreur lié au sur-ajustement des données d'entraînement. Cette approche est représentée par la formule suivante :
w-hat = argminw MSE(W ) + ||w||1
Les origines des concepts sous-jacents à la technique Lasso peuvent être retracées à un article de recherche géophysique de 1986 (lien externe à ibm.com) de Santosa et Symes1, préconisant l’utilisation de la pénalité L1 pour les coefficients. Cependant, en 1996, le statisticien Robert Tibshirani développe et popularise le terme « lasso » de manière indépendante2 (lien externe à ibm.com), en se basant sur le travail de Breitman sur le « non-negative garrote »3 (lien externe à ibm.com).
L’acronyme Lasso signifie « Least Absolute Shrinkage and Selection Operator ». Cette méthode est fréquemment utilisée dans le machine learning pour gérer les données à haute dimension, car elle facilite la sélection automatique des caractéristiques avec son application. Elle y parvient en ajoutant un terme de pénalité à la somme résiduelle de carrés (RSS), qui est ensuite multipliée par le paramètre de régularisation (lambda ou λ). Ce paramètre de régularisation contrôle le degré de régularisation appliqué. Les valeurs lambda plus grandes augmentent la pénalité, réduisant davantage de coefficients vers zéro. Cela réduit par la suite l’importance de certaines caractéristiques du modèle (ou les élimine complètement), ce qui se traduit par une sélection automatique des caractéristiques. Inversement, les valeurs lambda plus petites réduisent l’effet de la pénalité, en conservant davantage de caractéristiques dans le modèle.
Cette pénalité favorise la parcimonie au sein du modèle, ce qui permet d’éviter les problèmes de multicolinéarité et de surajustement des jeux de données. Le phénomène de multicolinéarité se produit lorsque deux variables indépendantes ou plus sont fortement corrélées entre elles, ce qui peut poser problème pour la modélisation causale. Les modèles surajustés se prêteront mal aux généralisations avec l’entrée de nouvelles données, ce qui diminuera leur valeur. En réduisant les coefficients de régression à zéro, la régression Lasso peut éliminer efficacement les variables indépendantes du modèle, évitant ainsi les problèmes potentiels au sein du processus de modélisation. La parcimonie du modèle peut également améliorer son interprétabilité par rapport à d’autres techniques de régularisation, telles que la régression Ridge (également connue sous le nom de régularisation L2).
Cet article se concentre sur la régularisation des modèles de régression linéaire, mais il convient de noter que la régression Lasso peut également être appliquée dans la régression logistique.