Was ist Lasso-Regression?

18. Januar 2024

Die Lasso-Regression ist eine Regularisierungstechnik, die eine Strafe verhängt, um eine Überanpassung zu verhindern und die Genauigkeit statistischer Modelle zu verbessern.

Die Lasso-Regression – auch bekannt als L1-Regularisierung ist eine Form der Regularisierung für lineare Regressionsmodelle. Die Regularisierung ist eine statistische Methode zur Reduzierung von Fehlern, die durch eine Überanpassung von Trainingsdaten entstehen. Dieser Ansatz lässt sich mit dieser Formel darstellen:

w-hat = argminw MSE(W ) + ||w||1

Die Konzepte hinter der Lasso-Technik lassen sich auf eine geophysikalische Forschungsarbeit (Link befindet sich außerhalb von ibm.com) von Santosa und Symes1 aus dem Jahr 1986 zurückführen, die die L1-Strafe für Koeffizienten verwendeten. Im Jahr 1996 entwickelte und popularisierte der Statistiker Robert Tibshirani jedoch unabhängig den Begriff(Link befindet sich außerhalb von ibm.com), „Lasso“, basierend auf Breimans Arbeiten zu Nicht-negativen Garotten (Link befindet sich außerhalb von ibm.com).

„Lasso“ steht für „Least Absolute Shrinkage and Selection Operator“. Diese Methode wird häufig beim maschinellen Lernen eingesetzt, um hochdimensionale Daten zu verarbeiten, da sie die automatische Auswahl von Merkmalen erleichtert. Dies geschieht durch Addition einer Strafzeit zur Restquadratsumme (RSS), die dann mit dem Regularisierungsparameter (Lambda oder λ) multipliziert wird. Dieser Regularisierungsparameter steuert den Grad der angewendeten Regularisierung. Größere Lambda-Werte erhöhen diese Strafe, wodurch mehr Koeffizienten gegen Null gehen. Dadurch werden einige der Merkmale des Modells weniger wichtig (oder sogar ganz eliminiert), was zu einer automatischen Auswahl der Merkmale führt. Umgekehrt verringern kleinere Lambda-Werte die Auswirkung der Strafe, sodass mehr Merkmale im Modell erhalten bleiben.

Diese Strafe fördert die Sparsity innerhalb des Modells, wodurch Probleme der Multikollinearität und der Überanpassung innerhalb von Datensätzen vermieden werden können. Multikollinearität tritt auf, wenn zwei oder mehr unabhängige Variablen stark miteinander korreliert sind, was für die kausale Modellierung problematisch sein kann. Überangepasste Modelle generalisieren schlecht auf neue Daten, sodass sie insgesamt an Wert verlieren. Durch die Reduzierung der Regressionskoeffizienten auf null kann die Lasso-Regression unabhängige Variablen effektiv aus dem Modell entfernen und so diese potenziellen Probleme innerhalb des Modellierungsprozesses umgehen. Eine Modellsparsamkeit kann auch die Interpretierbarkeit des Modells im Vergleich zu anderen Regularisierungstechniken wie der Ridge-Regression (auch als L2-Regularisierung bekannt) verbessern.

Hinweis: Dieser Artikel konzentriert sich auf die Regularisierung linearer Regressionsmodelle, aber es ist erwähnenswert, dass die Lasso-Regression auch in der logistischen Regression angewendet werden kann.

Abwägung zwischen Verzerrung und Varianz

Die Abwägung zwischen Verzerrung und Varianz ist eine bekannte Eigenschaft von Vorhersagemodellen. In diesem Zusammenhang misst die Verzerrung die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten; die Varianz misst die Differenz zwischen Vorhersagen über verschiedene Realisierungen eines bestimmten Modells hinweg. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Wenn die Varianz zunimmt, sagt ein Modell andere Datensätze weniger genau voraus. Verzerrung und Varianz messen somit die Modellgenauigkeit bei Trainings- bzw. Testsätzen. Es ist nicht immer möglich, sowohl die Verzerrung als auch die Varianz zu reduzieren. Daher sind Regularisierungstechniken wie die Lasso-Regression erforderlich.

Bei der Lasso-Regression gleicht der Hyperparameter Lambda (λ), auch bekannt als L1-Strafe, den Kompromiss zwischen Bias und Varianz in den resultierenden Koeffizienten aus. Mit zunehmendem λ steigt die Verzerrung und die Varianz sinkt, was zu einem einfacheren Modell mit weniger Parametern führt. Umgekehrt nimmt die Varianz zu, wenn λ abnimmt, was zu einem komplexeren Modell mit mehr Parametern führt. Wenn λ gleich null ist, bleibt eine OLS-Funktion übrig, d. h. ein Standard-Lineares-Regressionsmodell ohne Regularisierung.

Wie funktioniert die Lasso-Regression?

In diesem Abschnitt wird zusammengefasst, wie die Lasso-Regression angewendet wird, und es werden häufige Anwendungsfälle in der Data Science vorgestellt.

Durchführen einer explorativen Datenanalyse

Bevor Sie einen linearen Regressionsalgorithmus auf Ihren Datensatz anwenden, sollten Sie die Daten untersuchen, um potenzielle zugrundeliegende Probleme zu verstehen. Es ist wichtig zu verstehen, ob:

  • es fehlende Daten gibt

  • es eine Vielzahl von Funktionen gibt

  • die Verteilung der kontinuierlichen Variablen um den Mittelwert mit äquivalenten Standardabweichungen zentriert ist

  • einer der Prädiktoren mit einem anderen korreliert

Diese sind wichtig zu verstehen, da Datensätze mit hoher Dimensionalität und korrelierten Variablen anfällig für Überanpassung sein können. Daten, die nicht auf den Mittelwert mit einer Standardabweichung von 1 zentriert sind, müssen ebenfalls neu skaliert werden, um die Auswirkungen großer Skalen auf das Modell zu begrenzen. Wenn Merkmale nicht neu skaliert werden, kann dies die Kostenfunktion beeinträchtigen, was sich wiederum auf die Betakoeffizienten auswirkt. Einfach ausgedrückt können nicht skalierte Funktionen aufgrund von Unterschieden in den Einheiten zu unbeabsichtigten Strafen bei der Lasso-Regression führen.

Teilen Sie die Daten auf und skalieren Sie kontinuierliche Prädiktoren neu

Sobald wir eine explorative Datenanalyse durchgeführt haben, teilen wir die Daten in einen Trainings- und einen Testsatz auf. Nach der Aufteilung der Daten werden diese bei Bedarf neu skaliert. Die Z-Score-Skalierung ist ein gängiger Ansatz zur Funktionsskalierung, bei dem Merkmale neu skaliert werden, um eine Standardabweichung von 1 und einen Mittelwert von 0 zu erreichen.

Passen Sie das Lasso-Modell an und wählen Sie einen Wert für λ

Passen Sie das Lasso-Regressionsmodell an die Trainingsdaten an und wählen Sie einen Wert für λ mit dem Ziel, den mittleren quadratischen Fehler (Mean Squared Error, MSE) zu minimieren. Der mittlere quadratische Fehler (Mean Square Error, MSE) kann bei der Bestimmung eines geeigneten λ-Wertes helfen. MSE ist ein Mittel zur Messung des Unterschieds zwischen den vorhergesagten und den tatsächlichen Werten der abhängigen Variablen im Durchschnitt. Die Lasso-Regression minimiert den mittleren quadratischen Fehler (MSE) und gleicht gleichzeitig die gegensätzlichen Faktoren der Verzerrung und Varianz aus, um das genaueste Vorhersagemodell zu erstellen. Dies wird erreicht, indem eine Strafzeit zur Quadratsumme der Restwerte (RSS) addiert wird, die der Summe der absoluten Werte der Koeffizienten multipliziert mit einem Parameter λ entspricht.

Mit Kreuzvalidierung für λ optimieren

Der optimale Wert von λ kann mit Kreuzvalidierungsverfahren wie der k-fachen Kreuzvalidierung bestimmt werden. Bei diesem Ansatz wird der λ-Wert ermittelt, der den mittleren quadratischen Fehler oder andere Leistungsmetriken minimiert.

Wie bereits erwähnt, führt ein höherer λ-Wert zu einer stärkeren Regularisierung. Mit zunehmendem λ steigt die Modellverzerrung, während die Varianz abnimmt. Dies liegt daran, dass mit zunehmendem λ mehr Koeffizienten β auf Null schrumpfen.

Bewerten der Leistung Ihres Modells

Im Allgemeinen drucken wir einige Werte aus, um die Modellleistung zu verstehen, insbesondere R2 und MSE. R2 gibt den Varianzanteil unserer abhängigen Variablen (oder Antwortvariablen) an, der durch unabhängige Variablen erklärt wird. Durch den Vergleich der MSE-Werte für verschiedene Werte von λ können Sie feststellen, ob das Modell effektiv für das globale Minimum optimiert wurde.

Wann sollte die Lasso-Regression angewendet werden?

Die Lasso-Regression ist ideal für Vorhersageprobleme; ihre Fähigkeit, eine automatische Variablenauswahl durchzuführen, kann Modelle vereinfachen und die Vorhersagegenauigkeit verbessern. Allerdings kann die Ridge-Regression die Lasso-Regression übertreffen, da die Lasso-Regression durch die Reduzierung der Koeffizienten auf Null eine gewisse Verzerrung mit sich bringt. Sie hat aber auch ihre Grenzen bei korrelierten Merkmalen in den Daten, da sie willkürlich ein Merkmal auswählt, das in das Modell aufgenommen wird.

Häufige Anwendungen

Die Lasso-Regression könnte in diesen Szenarien ideal sein.

Umgang mit hochdimensionalen Datensätzen

Ein Datensatz gilt als hochdimensional, wenn die Anzahl der Prädiktorvariablen viel größer ist als die Anzahl der Beobachtungen. Die Lasso-Regression kann dazu beitragen, die Dimensionalität innerhalb eines Datensatzes zu reduzieren, indem die Gewichtungsparameter auf Null gesetzt werden, wodurch weniger wichtige Merkmale aus dem Modell eliminiert werden.

Weitere Informationen zur Reduzierung der Dimensionalität
Automatisierung der Funktionsauswahl

Die durch die L1-Strafe eingeführte Verzerrung schrumpft die Koeffizienten künstlich in Richtung Null. Einige Variablen werden genau auf Null schrumpfen, sodass dem Modell nur eine Teilmenge der wichtigsten Variablen für die Vorhersage zur Verfügung steht.

Einschränkungen der Lasso-Regression

Mit der Lasso-Regression lässt sich ein gewisses Maß an Multikollinearität bewältigen, ohne die Interpretierbarkeit des Modells negativ zu beeinflussen. Starke Multikollinearität kann sie jedoch nicht überwinden.4 Wenn die Kovariaten stark korreliert sind, wird bei der Lasso-Regression eines der Merkmale willkürlich aus dem Modell entfernt. In dieser Situation ist die Regularisierung elastischer Netze eine gute Alternative.

Implementierung der Lasso-Regression in Python oder R

Sowohl Python als auch R sind in der Data Science weit verbreitet. Python ist flexibel und kann ein breites Spektrum an Aufgaben bewältigen. Andererseits ist R speziell für statistische Berechnungen und Datenvisualisierungen ausgelegt und bietet umfangreiche Grafikoptionen für Diagramme und Tabellen.

Die Lasso-Regression kann in Python mithilfe von Bibliotheken wie sklearn (Link befindet sich außerhalb von ibm.com) implementiert werden, die zu diesem Zweck die Lasso-Klasse bereitstellt. R ist eine gute Wahl, da das glmnet-Paket für eine effiziente Kreuzvalidierung für λ Selection verwendet werden kann und die Flexibilität bietet, α auf verschiedene Werte zu setzen. R zeichnet sich auch durch seine Visualisierungsfunktionen aus, die eine entscheidende Rolle beim Verständnis und der Interpretation des Lasso-Regressionsmodells spielen.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Mixture of Experts | Podcast

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen
Fußnoten

Linear Inversion of Band-Limited Reflection Seismograms (Link befindet sich außerhalb von ibm.com), Society for Industrial and Applied Mathematics, 1986

Regression Shrinkage and Selection via the Lasso (Link befindet sich außerhalb von ibm.com), Journal of the Royal Statistical Society, 1996

Better Subset Regression Using the Nonnegative Garrote (Link befindet sich außerhalb von ibm.com), Technometrics, 2012

Regularized Multiple Regression Methods to Deal with Severe Multicollinearity (Link befindet sich außerhalb von ibm.com), International Journal of Statistics and Applications, 2018