Die Lasso-Regression ist eine Regularisierungstechnik, die eine Strafe verhängt, um eine Überanpassung zu verhindern und die Genauigkeit statistischer Modelle zu verbessern.
Die Lasso-Regression – auch bekannt als L1-Regularisierung ist eine Form der Regularisierung für lineare Regressionsmodelle. Die Regularisierung ist eine statistische Methode zur Reduzierung von Fehlern, die durch eine Überanpassung von Trainingsdaten entstehen. Dieser Ansatz lässt sich mit dieser Formel darstellen:
w-hat = argminw MSE(W ) + ||w||1
Die Konzepte hinter der Lasso-Technik lassen sich auf eine geophysikalische Forschungsarbeit (Link befindet sich außerhalb von ibm.com) von Santosa und Symes1 aus dem Jahr 1986 zurückführen, die die L1-Strafe für Koeffizienten verwendeten. Im Jahr 1996 entwickelte und popularisierte der Statistiker Robert Tibshirani jedoch unabhängig den Begriff2 (Link befindet sich außerhalb von ibm.com), „Lasso“, basierend auf Breimans Arbeiten zu Nicht-negativen Garotten3 (Link befindet sich außerhalb von ibm.com).
„Lasso“ steht für „Least Absolute Shrinkage and Selection Operator“. Diese Methode wird häufig beim maschinellen Lernen eingesetzt, um hochdimensionale Daten zu verarbeiten, da sie die automatische Auswahl von Merkmalen erleichtert. Dies geschieht durch Addition einer Strafzeit zur Restquadratsumme (RSS), die dann mit dem Regularisierungsparameter (Lambda oder λ) multipliziert wird. Dieser Regularisierungsparameter steuert den Grad der angewendeten Regularisierung. Größere Lambda-Werte erhöhen diese Strafe, wodurch mehr Koeffizienten gegen Null gehen. Dadurch werden einige der Merkmale des Modells weniger wichtig (oder sogar ganz eliminiert), was zu einer automatischen Auswahl der Merkmale führt. Umgekehrt verringern kleinere Lambda-Werte die Auswirkung der Strafe, sodass mehr Merkmale im Modell erhalten bleiben.
Diese Strafe fördert die Sparsity innerhalb des Modells, wodurch Probleme der Multikollinearität und der Überanpassung innerhalb von Datensätzen vermieden werden können. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind, was für die kausale Modellierung problematisch sein kann. Überangepasste Modelle generalisieren schlecht auf neue Daten, sodass sie insgesamt an Wert verlieren. Durch die Reduzierung der Regressionskoeffizienten auf null kann die Lasso-Regression unabhängige Variablen effektiv aus dem Modell entfernen und so diese potenziellen Probleme innerhalb des Modellierungsprozesses umgehen. Eine Modellsparsamkeit kann auch die Interpretierbarkeit des Modells im Vergleich zu anderen Regularisierungstechniken wie der Ridge-Regression (auch als L2-Regularisierung bekannt) verbessern.
Hinweis: Dieser Artikel konzentriert sich auf die Regularisierung linearer Regressionsmodelle, aber es ist erwähnenswert, dass die Lasso-Regression auch in der logistischen Regression angewendet werden kann.
Die Abwägung zwischen Verzerrung und Varianz ist eine bekannte Eigenschaft von Vorhersagemodellen. In diesem Zusammenhang misst die Verzerrung die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten; die Varianz misst die Differenz zwischen Vorhersagen über verschiedene Realisierungen eines bestimmten Modells hinweg. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Wenn die Varianz zunimmt, sagt ein Modell andere Datensätze weniger genau voraus. Verzerrung und Varianz messen somit die Modellgenauigkeit bei Trainings- bzw. Testsätzen. Es ist nicht immer möglich, sowohl die Verzerrung als auch die Varianz zu reduzieren. Daher sind Regularisierungstechniken wie die Lasso-Regression erforderlich.
Bei der Lasso-Regression gleicht der Hyperparameter Lambda (λ), auch bekannt als L1-Strafe, den Kompromiss zwischen Bias und Varianz in den resultierenden Koeffizienten aus. Mit zunehmendem λ steigt die Verzerrung und die Varianz sinkt, was zu einem einfacheren Modell mit weniger Parametern führt. Umgekehrt nimmt die Varianz zu, wenn λ abnimmt, was zu einem komplexeren Modell mit mehr Parametern führt. Wenn λ gleich null ist, bleibt eine OLS-Funktion übrig, d. h. ein Standard-Lineares-Regressionsmodell ohne Regularisierung.
In diesem Abschnitt wird zusammengefasst, wie die Lasso-Regression angewendet wird, und es werden häufige Anwendungsfälle in der Data Science vorgestellt.
Bevor Sie einen linearen Regressionsalgorithmus auf Ihren Datensatz anwenden, sollten Sie die Daten untersuchen, um potenzielle zugrundeliegende Probleme zu verstehen. Es ist wichtig zu verstehen, ob:
es fehlende Daten gibt
es eine Vielzahl von Funktionen gibt
die Verteilung der kontinuierlichen Variablen um den Mittelwert mit äquivalenten Standardabweichungen zentriert ist
einer der Prädiktoren mit einem anderen korreliert
Diese sind wichtig zu verstehen, da Datensätze mit hoher Dimensionalität und korrelierten Variablen anfällig für Überanpassung sein können. Daten, die nicht auf den Mittelwert mit einer Standardabweichung von 1 zentriert sind, müssen ebenfalls neu skaliert werden, um die Auswirkungen großer Skalen auf das Modell zu begrenzen. Wenn Merkmale nicht neu skaliert werden, kann dies die Kostenfunktion beeinträchtigen, was sich wiederum auf die Betakoeffizienten auswirkt. Einfach ausgedrückt können nicht skalierte Funktionen aufgrund von Unterschieden in den Einheiten zu unbeabsichtigten Strafen bei der Lasso-Regression führen.
Sobald wir eine explorative Datenanalyse durchgeführt haben, teilen wir die Daten in einen Trainings- und einen Testsatz auf. Nach der Aufteilung der Daten werden diese bei Bedarf neu skaliert. Die Z-Score-Skalierung ist ein gängiger Ansatz zur Funktionsskalierung, bei dem Merkmale neu skaliert werden, um eine Standardabweichung von 1 und einen Mittelwert von 0 zu erreichen.
Passen Sie das Lasso-Regressionsmodell an die Trainingsdaten an und wählen Sie einen Wert für λ mit dem Ziel, den mittleren quadratischen Fehler (Mean Squared Error, MSE) zu minimieren. Der mittlere quadratische Fehler (Mean Square Error, MSE) kann bei der Bestimmung eines geeigneten λ-Wertes helfen. MSE ist ein Mittel zur Messung des Unterschieds zwischen den vorhergesagten und den tatsächlichen Werten der abhängigen Variablen im Durchschnitt. Die Lasso-Regression minimiert den mittleren quadratischen Fehler (MSE) und gleicht gleichzeitig die gegensätzlichen Faktoren der Verzerrung und Varianz aus, um das genaueste Vorhersagemodell zu erstellen. Dies wird erreicht, indem eine Strafzeit zur Quadratsumme der Restwerte (RSS) addiert wird, die der Summe der absoluten Werte der Koeffizienten multipliziert mit einem Parameter λ entspricht.
Der optimale Wert von λ kann mit Kreuzvalidierungsverfahren wie der k-fachen Kreuzvalidierung bestimmt werden. Bei diesem Ansatz wird der λ-Wert ermittelt, der den mittleren quadratischen Fehler oder andere Leistungsmetriken minimiert.
Wie bereits erwähnt, führt ein höherer λ-Wert zu einer stärkeren Regularisierung. Mit zunehmendem λ steigt die Modellverzerrung, während die Varianz abnimmt. Dies liegt daran, dass mit zunehmendem λ mehr Koeffizienten β auf Null schrumpfen.
Im Allgemeinen drucken wir einige Werte aus, um die Modellleistung zu verstehen, insbesondere R2 und MSE. R2 gibt den Varianzanteil unserer abhängigen Variablen (oder Antwortvariablen) an, der durch unabhängige Variablen erklärt wird. Durch den Vergleich der MSE-Werte für verschiedene Werte von λ können Sie feststellen, ob das Modell effektiv für das globale Minimum optimiert wurde.
Die Lasso-Regression ist ideal für Vorhersageprobleme; ihre Fähigkeit, eine automatische Variablenauswahl durchzuführen, kann Modelle vereinfachen und die Vorhersagegenauigkeit verbessern. Allerdings kann die Ridge-Regression die Lasso-Regression übertreffen, da die Lasso-Regression durch die Reduzierung der Koeffizienten auf Null eine gewisse Verzerrung mit sich bringt. Sie hat aber auch ihre Grenzen bei korrelierten Merkmalen in den Daten, da sie willkürlich ein Merkmal auswählt, das in das Modell aufgenommen wird.
Die Lasso-Regression könnte in diesen Szenarien ideal sein.
Ein Datensatz gilt als hochdimensional, wenn die Anzahl der Prädiktorvariablen viel größer ist als die Anzahl der Beobachtungen. Die Lasso-Regression kann dazu beitragen, die Dimensionalität innerhalb eines Datensatzes zu reduzieren, indem die Gewichtungsparameter auf Null gesetzt werden, wodurch weniger wichtige Merkmale aus dem Modell eliminiert werden.
Die durch die L1-Strafe eingeführte Verzerrung schrumpft die Koeffizienten künstlich in Richtung Null. Einige Variablen werden genau auf Null schrumpfen, sodass dem Modell nur eine Teilmenge der wichtigsten Variablen für die Vorhersage zur Verfügung steht.
Mit der Lasso-Regression lässt sich ein gewisses Maß an Multikollinearität bewältigen, ohne die Interpretierbarkeit des Modells negativ zu beeinflussen. Starke Multikollinearität kann sie jedoch nicht überwinden.4 Wenn die Kovariaten stark korreliert sind, wird bei der Lasso-Regression eines der Merkmale willkürlich aus dem Modell entfernt. In dieser Situation ist die Regularisierung elastischer Netze eine gute Alternative.
Sowohl Python als auch R sind in der Data Science weit verbreitet. Python ist flexibel und kann ein breites Spektrum an Aufgaben bewältigen. Andererseits ist R speziell für statistische Berechnungen und Datenvisualisierungen ausgelegt und bietet umfangreiche Grafikoptionen für Diagramme und Tabellen.
Die Lasso-Regression kann in Python mithilfe von Bibliotheken wie sklearn (Link befindet sich außerhalb von ibm.com) implementiert werden, die zu diesem Zweck die Lasso-Klasse bereitstellt. R ist eine gute Wahl, da das glmnet-Paket für eine effiziente Kreuzvalidierung für λ Selection verwendet werden kann und die Flexibilität bietet, α auf verschiedene Werte zu setzen. R zeichnet sich auch durch seine Visualisierungsfunktionen aus, die eine entscheidende Rolle beim Verständnis und der Interpretation des Lasso-Regressionsmodells spielen.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Linear Inversion of Band-Limited Reflection Seismograms (Link befindet sich außerhalb von ibm.com), Society for Industrial and Applied Mathematics, 1986
2 Regression Shrinkage and Selection via the Lasso (Link befindet sich außerhalb von ibm.com), Journal of the Royal Statistical Society, 1996
3 Better Subset Regression Using the Nonnegative Garrote (Link befindet sich außerhalb von ibm.com), Technometrics, 2012
4 Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (Link befindet sich außerhalb von ibm.com), International Journal of Statistics and Applications, 2018