Die Lasso-Regression – auch bekannt als L1-Regularisierung ist eine Form der Regularisierung für lineare Regressionsmodelle. Die Regularisierung ist eine statistische Methode zur Reduzierung von Fehlern, die durch eine Überanpassung von Trainingsdaten entstehen. Dieser Ansatz lässt sich mit dieser Formel darstellen:
w-hat = argminw MSE(W ) + ||w||1
Die Konzepte hinter der Lasso-Technik lassen sich auf eine geophysikalische Forschungsarbeit (Link befindet sich außerhalb von ibm.com) von Santosa und Symes1 aus dem Jahr 1986 zurückführen, die die L1-Strafe für Koeffizienten verwendeten. Im Jahr 1996 entwickelte und popularisierte der Statistiker Robert Tibshirani jedoch unabhängig den Begriff2 (Link befindet sich außerhalb von ibm.com) „Lasso“, basierend auf Breimans Arbeiten zu Nicht-negativen Garotten3 (Link befindet sich außerhalb von ibm.com).
„Lasso“ steht für „Least Absolute Shrinkage and Selection Operator“. Diese Methode wird häufig beim maschinellen Lernen eingesetzt, um hochdimensionale Daten zu verarbeiten, da sie die automatische Auswahl von Merkmalen erleichtert. Dies geschieht durch Addition einer Strafzeit zur Restquadratsumme (RSS), die dann mit dem Regularisierungsparameter (Lambda oder λ) multipliziert wird. Dieser Regularisierungsparameter steuert den Grad der angewendeten Regularisierung. Größere Lambda-Werte erhöhen diese Strafe, wodurch mehr Koeffizienten gegen Null gehen. Dadurch werden einige der Merkmale des Modells weniger wichtig (oder sogar ganz eliminiert), was zu einer automatischen Auswahl der Merkmale führt. Umgekehrt verringern kleinere Lambda-Werte die Auswirkung der Strafe, sodass mehr Merkmale im Modell erhalten bleiben.
Diese Strafe fördert die Sparsity innerhalb des Modells, wodurch Probleme der Multikollinearität und der Überanpassung innerhalb von Datensätzen vermieden werden können. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind, was für die kausale Modellierung problematisch sein kann. Überangepasste Modelle generalisieren schlecht auf neue Daten, sodass sie insgesamt an Wert verlieren. Durch die Reduzierung der Regressionskoeffizienten auf null kann die Lasso-Regression unabhängige Variablen effektiv aus dem Modell entfernen und so diese potenziellen Probleme innerhalb des Modellierungsprozesses umgehen. Eine Modellsparsamkeit kann auch die Interpretierbarkeit des Modells im Vergleich zu anderen Regularisierungstechniken wie der Ridge-Regression (auch als L2-Regularisierung bekannt) verbessern.
Hinweis: Dieser Artikel konzentriert sich auf die Regularisierung linearer Regressionsmodelle, aber es ist erwähnenswert, dass die Lasso-Regression auch in der logistischen Regression angewendet werden kann.