Die Ridge-Regression ist eine statistische Regularisierungstechnik. Sie korrigiert eine Überanpassung von Trainingsdaten in Modellen für maschinelles Lernen.
Die Ridge-Regression - auch bekannt als L2-Regularisierung - ist eine von mehreren Arten der Regularisierung für lineare Regressionsmodelle. Die Regularisierung ist eine statistische Methode zur Reduzierung von Fehlern, die durch eine Überanpassung der Trainingsdaten entstehen. Die Ridge-Regression korrigiert speziell die Multikollinearität in der Regressionsanalyse. Dies ist nützlich bei der Entwicklung von Modellen für maschinelles Lernen mit einer großen Anzahl von Parametern, insbesondere wenn diese Parameter auch hohe Gewichte haben. Dieser Artikel konzentriert sich zwar auf die Regularisierung von linearen Regressionsmodellen, aber beachten Sie, dass die Ridge-Regression auch bei der logistischen Regression angewendet werden kann.
Eine Standardgleichung für die lineare Regression mit mehreren Variablen lautet:
Hierbei ist Y der vorhergesagte Wert (abhängige Variable), X ist ein beliebiger Prädiktor (unabhängige Variable), B ist der Regressionskoeffizient, der mit dieser unabhängigen Variablen verbunden ist, und X0 ist der Wert der abhängigen Variablen, wenn die unabhängige Variable gleich Null ist (auch als y-Achsenabschnitt bezeichnet). Beachten Sie, wie die Koeffizienten die Beziehung zwischen der abhängigen Variablen und einer bestimmten unabhängigen Variablen kennzeichnen.
Multikollinearität bedeutet, dass zwei oder mehr Prädiktoren eine nahezu lineare Beziehung aufweisen. Montgomery et al. bieten ein treffendes Beispiel: Stellen Sie sich vor, wir analysieren einen Lieferdatensatz einer Lieferkette, bei dem Fernlieferungen regelmäßig eine hohe Anzahl von Artikeln enthalten, während Kurzstreckenlieferungen immer kleinere Bestände enthalten. In diesem Fall sind Lieferentfernung und Artikelmenge linear korreliert, wie in Abbildung 1 dargestellt. Dies führt zu Problemen, wenn diese als unabhängige Variablen in einem einzelnen Vorhersagemodell verwendet werden.
Dies ist nur ein Beispiel für Multikollinearität, und die Lösung ist relativ einfach: Erfassen Sie diversifiziertere Daten (zum Beispiel Daten für Kurzstreckenlieferungen mit großen Beständen). Das Erfassen von mehr Daten ist jedoch nicht immer eine praktikable Lösung, z. B. wenn die untersuchten Daten multikollinear sind. Andere Optionen zur Behebung von Multikollinearität sind die Erhöhung der Stichprobengröße, die Reduzierung der Anzahl unabhängiger Variablen oder einfach die Verwendung eines anderen Modells. Solche Korrekturen führen jedoch nicht immer zur Beseitigung der Multikollinearität, und die Ridge-Regression dient als weitere Methode zur Regularisierung eines Modells, um die Multikollinearität zu berücksichtigen.1
Bei der anfänglichen Entwicklung von Vorhersagemodellen müssen wir oft Koeffizienten berechnen, da diese in den Trainingsdaten nicht explizit angegeben sind. Zur Schätzung der Koeffizienten verwenden wir einen gewöhnlichen Matrix-Koeffizientenschätzer der kleinsten Quadrate (OLS):
Um die Funktionsweise dieser Formel zu kennen, ist es erforderlich, mit der Matrixnotation vertraut zu sein. Es genügt zu sagen, dass diese Formel darauf abzielt, die am besten passende Gerade für einen gegebenen Datensatz zu finden, indem Koeffizienten für jede unabhängige Variable berechnet werden, die zusammen die kleinste Residualsumme der Quadrate (auch als Summe der quadratischen Fehler bezeichnet) ergeben.2
Die Residualsumme der Quadrate (RSS) misst, wie gut ein lineares Regressionsmodell mit den Trainingsdaten übereinstimmt. Sie wird durch die Formulierung dargestellt:
Diese Formel misst die Genauigkeit der Modellvorhersage für die Ground-Truth-Werte in den Trainingsdaten. Wenn RSS = 0 ist, sagt das Modell abhängige Variablen perfekt voraus. Ein Wert von Null ist jedoch nicht immer wünschenswert, da er auf eine Überanpassung der Trainingsdaten hinweisen kann, insbesondere wenn der Trainingsdatensatz klein ist. Hierfür kann Multikollinearität die Ursache sein.
Schätzungen mit hohem Koeffizienten können oft Symptome einer Überanpassung sein.3 Wenn zwei oder mehr Variablen eine hohe lineare Korrelation aufweisen, kann OLS fälschlicherweise hohe Koeffizienten zurückgeben. Wenn ein oder mehrere Koeffizienten zu hoch sind, reagiert das Modell empfindlich auf geringfügige Änderungen in den Eingabedaten.Mit anderen Worten: Das Modell hat sich auf einen bestimmten Trainingssatz überangepasst und kann nicht genau auf neue Testsätze übertragen werden. Ein solches Modell gilt als instabil.4
Die Ridge-Regression modifiziert die OLS durch die Berechnung von Koeffizienten, die potenziell korrelierte Prädiktoren berücksichtigen. Insbesondere korrigiert die Ridge-Regression hochwertige Koeffizienten durch die Einführung eines Regularisierungsterms (oft auch als Strafterm bezeichnet) in die RSS-Funktion. Dieser Strafterm ist die Summe der Quadrate der Modellkoeffizienten.5 Er ist in der Formulierung dargestellt:
Der L2-Strafterm wird als Ende der RSS-Funktion eingefügt, was zu einer neuen Formulierung, dem Ridge-Regressionsschätzer, führt. Darin wird seine Wirkung auf das Modell durch den Hyperparameter Lambda (λ) gesteuert:
Denken Sie daran, dass Koeffizienten die Auswirkung eines bestimmten Prädiktors (d. h. einer unabhängigen Variable) auf den vorhergesagten Wert (d. h. eine abhängige Variable) kennzeichnen. Sobald der L2-Strafterm in die RSS-Formel aufgenommen wurde, wirkt er besonders hohen Koeffizienten entgegen, indem er alle Koeffizientenwerte reduziert. In der Statistik wird dies als Koeffizientenschrumpfung bezeichnet. Der obige Ridge-Schätzer berechnet somit neue Regressionskoeffizienten, die die RSS eines gegebenen Modells reduzieren. Dadurch wird der Effekt jedes Prädiktors minimiert und die Überanpassung der Trainingsdaten reduziert.6
Beachten Sie, dass bei der Ridge-Regression nicht jeder Koeffizient um den gleichen Wert schrumpft. Stattdessen werden die Koeffizienten proportional zu ihrer ursprünglichen Größe verkleinert. Mit zunehmendem λ schrumpfen hochwertige Koeffizienten stärker als Koeffizienten mit geringem Wert.7 Hochwertige Koeffizienten werden somit stärker bestraft als Koeffizienten mit geringem Wert.
Beachten Sie, dass die L2-Strafe die Koeffizienten in Richtung Null schrumpfen lässt, aber nie auf den absoluten Nullpunkt. Die Gewichtung der Modellmerkmale kann zwar vernachlässigbar klein werden, sie ist bei der Ridge-Regression aber nie gleich Null. Durch die Reduzierung eines Koeffizienten auf Null wird der gepaarte Prädiktor effektiv aus dem Modell entfernt. Dies wird als Merkmalsauswahl bezeichnet und ist eine weitere Möglichkeit, Multikollinearität zu korrigieren. 8 Da die Ridge-Regression die Regressionskoeffizienten nicht auf Null reduziert, führt sie keine Merkmalsauswahl durch.9 Dies wird oft als Nachteil der Ridge-Regression angeführt. Ein weiterer oft genannter Nachteil ist die Unfähigkeit der Ridge-Regression, Prädiktoreffekte bei starker Multikollinearität zu trennen.10
Die Lasso-Regression – auch L1-Regularisierung genannt – ist eine von mehreren anderen Regularisierungsmethoden in der linearen Regression. Die L1-Regularisierung funktioniert, indem Koeffizienten auf Null reduziert werden, wodurch diese unabhängigen Variablen im Wesentlichen aus dem Modell entfernt werden. Sowohl die Lasso-Regression als auch die Ridge-Regression reduzieren somit die Modellkomplexität, wenn auch auf unterschiedliche Weise. Die Lasso-Regression reduziert die Anzahl der unabhängigen Variablen, die sich auf die Ausgabe auswirken. Die Ridge-Regression verringert den Einfluss jeder unabhängigen Variablen auf die Ausgabe.
Elastisches Netz ist eine zusätzliche Form der Regularisierung. Während die Ridge-Regression ihren Regularisierungsparameter aus der Summe der quadrierten Fehler und Lasso seinen eigenen aus der Summe der absoluten Fehlerwerte erhält, bezieht Elastic Net beide Regularisierungsparameter in die RSS-Kostenfunktion ein.11
Die Hauptkomponentenregression (Principal Component Regression, PCR) kann auch als Regularisierungsverfahren dienen. Die PCR kann zwar Multikollinearität auflösen, tut dies jedoch nicht, indem sie der RSS-Funktion eine Strafe auferlegt, wie bei der Ridge- und Lasso-Regression. Vielmehr erzeugt die PCR lineare Kombinationen korrelierter Prädiktoren, aus denen ein neues Kleinstquadrate-Modell erstellt wird.12
Beim maschinellen Lernen hilft die Ridge-Regression dabei, die Überanpassung zu reduzieren, die aus der Modellkomplexität resultiert. Die Komplexität des Modells kann folgende Ursachen haben:
Einfachere Modelle sind nicht unbedingt besser als komplexe Modelle. Dennoch kann ein hohes Maß an Modellkomplexität die Fähigkeit eines Modells beeinträchtigen, neue Daten außerhalb des Trainingssatzes zu verallgemeinern.
Da bei der Ridge-Regression keine Merkmalsauswahl durchgeführt wird, kann die Modellkomplexität nicht durch Eliminierung von Merkmalen reduziert werden. Wenn sich jedoch ein oder mehrere Merkmale zu stark auf die Ausgabe eines Modells auswirken, kann die Ridge-Regression hohe Merkmalsgewichte (d. h. Koeffizienten) im gesamten Modell gemäß dem L2-Strafterm verkleinern. Dadurch wird die Komplexität des Modells und die Abhängigkeit der Modellvorhersagen von einem oder mehreren Merkmalen verringert.
In Bezug auf maschinelles Lernen bedeutet die Ridge-Regression, dass ein Modell mit einer Verzerrung versehen wird, um die Varianz dieses Modells zu verringern. Der Zielkonflikt zwischen Verzerrung und Varianz ist ein bekanntes Problem beim maschinellen Lernen. Um den Kompromiss zwischen Verzerrung und Varianz zu verstehen, ist es zunächst notwendig zu wissen, was mit „Verzerrung“ und „Varianz“ in der Forschung im Bereich maschinelles Lernen jeweils gemeint ist.
Kurz gesagt: Die Verzerrung misst die durchschnittliche Differenz zwischen vorhergesagten und tatsächlichen Werten. Die Varianz misst die Differenz zwischen Vorhersagen über verschiedene Realisierungen eines bestimmten Modells hinweg. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Wenn die Varianz zunimmt, sagt ein Modell andere Datensätze weniger genau voraus. Verzerrung und Varianz messen somit die Modellgenauigkeit bei Trainings- bzw. Testsätzen. Offensichtlich hoffen die Entwickler, die Modellverzerrung und -varianz zu reduzieren. Eine gleichzeitige Reduzierung beider ist jedoch nicht immer möglich, weshalb Regularisierungstechniken wie die Ridge-Regression erforderlich sind.
Wie bereits erwähnt, führt die Regularisierung der Ridge-Regression zu einer zusätzlichen Verzerrung, um die Varianz zu verringern. Mit anderen Worten: Modelle, die durch Ridge-Regression reguliert werden, liefern weniger genaue Vorhersagen für Trainingsdaten (höhere Verzerrung), aber genauere Vorhersagen für Testdaten (geringere Varianz). Dies ist ein Kompromiss zwischen Verzerrung und Varianz. Durch die Ridge-Regression bestimmen die Benutzer einen akzeptablen Verlust an Trainingsgenauigkeit (höhere Verzerrung), um die Generalisierung eines bestimmten Modells zu erhöhen (geringere Varianz).13 Auf diese Weise kann eine zunehmende Verzerrung dazu beitragen, die Gesamtleistung des Modells zu verbessern.
Die Stärke der L2-Strafe und damit der Kompromiss zwischen Verzerrung und Varianz des Modells wird durch den Wert λ in der Gleichung der Ridge-Schätzer-Verlustfunktion bestimmt. Wenn λ gleich null ist, bleibt eine gewöhnliche Funktion der kleinsten Quadrate übrig. Dadurch entsteht ein lineares Standardregressionsmodell ohne Regularisierung. Im Gegensatz dazu bedeutet ein höherer λ-Wert mehr Regularisierung. Mit zunehmendem λ steigt die Modellverzerrung, während die Varianz abnimmt. Wenn λ gleich null ist, passt sich das Modell also übermäßig an die Trainingsdaten an, aber wenn λ zu hoch ist, passt sich das Modell an alle Daten an.14
Der mittlere quadratische Fehler (MSE) kann helfen, einen geeigneten λ-Wert zu bestimmen. Der MSE ist eng mit RSS verwandt und dient als ein Mittel, um die durchschnittliche Differenz zwischen vorhergesagten und wahren Werten zu messen. Je niedriger der MSE eines Modells ist, desto genauer sind seine Vorhersagen. Aber er nimmt zu, wenn λ zunimmt. Nichtsdestotrotz wird argumentiert, dass es immer einen Wert von λ gibt, der größer als Null ist, so dass die durch die Ridge-Regression erhaltene MSE kleiner sind als durch OLS erhaltene.15 Eine Methode zur Ableitung eines geeigneten λ-Wertes besteht darin, den höchsten Wert für λ zu finden, der den MSE nicht erhöht, wie in Abbildung 2 dargestellt. Zusätzliche Kreuzvalidierungstechniken können Benutzern helfen, optimale λ-Werte für die Optimierung ihres Modells auszuwählen.16
Ridge-Regressionsmodelle eignen sich am besten für Datensätze mit zwei oder mehr korrelierten Merkmalen. Darüber hinaus wird die Ridge-Regression in vielen Bereichen eingesetzt, um Modelle mit einer größeren Anzahl von Prädiktoren und kleinen Trainingsdatensätzen zu bewältigen.17 Solche Situationen können bei der Arbeit mit einer Vielzahl von Daten durchaus üblich sein.
In der Bioinformatik und in genetischen Studien werden häufig Modelle verwendet, bei denen die Anzahl der Prädiktoren die Stichprobengröße des Datensatzes bei Weitem übersteigt, insbesondere bei der Untersuchung der genetischen Expression. Die Ridge-Regression bietet eine Möglichkeit, diese Modellkomplexität zu bewältigen, indem das Gesamtgewicht dieser zahlreichen Merkmale reduziert und der Vorhersagebereich des Modells komprimiert wird.
Eine Vielzahl von Faktoren bestimmt den endgültigen Verkaufspreis eines Hauses, und viele davon korrelieren miteinander, wie z. B. die Anzahl der Schlafzimmer und Badezimmer. Stark korrelierte Merkmale führen zu hohen Regressionskoeffizienten und einer Überanpassung an Trainingsdaten. Die Ridge-Regression korrigiert diese Form der Modellkomplexität, indem sie die Gesamtgewichtung der Merkmale auf den endgültigen Vorhersagewert des Modells reduziert.
Dies sind nur zwei Beispiele aus dem Bereich der Data Science. Wie diese beiden Beispiele jedoch zeigen, können Sie die Ridge-Regression am effektivsten in Situationen einsetzen, in denen Sie entweder mehr Modellmerkmale als Datenproben haben oder wenn Ihr Modell zwei oder mehr stark korrelierte Merkmale aufweist.
Aktuelle Forschungsarbeiten untersuchen eine modifizierte Variante der Ridge-Regression zum Zweck der Merkmalsauswahl.18 Diese modifizierte Form der Ridge-Regression verwendet unterschiedliche Regularisierungsparameter für jeden Koeffizienten. Auf diese Weise kann man die Gewichtung der Merkmale individuell bestrafen und so möglicherweise die Merkmalsauswahl durch Ridge-Regression implementieren.19
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Douglas C. Montgomery, Elizabeth A. Peck und G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
2 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
3 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf
4 A. K. Md. Ehsanes Saleh, Mohammad Arashi und B. M. Golam Kibria, Theory of Ridge Regression Estimation with Applications, Wiley, 2019.
5 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
6 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
7 A. K. Md. Ehsanes Saleh, Mohammad Arashi, Resve A. Saleh und Mina Norouzirad, Rank-Based Methods for Shrinkage and Selection: With Application to Machine Learning, Wiley, 2022.
8 Douglas C. Montgomery, Elizabeth A. Peck und G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.
9 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
10 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
11 Hui Zou und Trevor Hastie, „Regularization and Variable Selection via the Elastic Net,“ Journal of the Royal Statistical Society, Vol. 67, No. 2, 2005, pp. 301–320, https://academic.oup.com/jrsssb/article/67/2/301/7109482
12 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
13 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
14 Gianluigi Pillonetto, Tianshi Chen, Alessandro Chiuso, Giuseppe De Nicolao und Lennart Ljung, Regularized System Identification: Learning Dynamic Models from Data, Springer, 2022.
15 Arthur E. Hoerl und Robert W. Kennard, „Ridge Regression: Biased Estimation for Nonorthogonal Problems,“ Technometrics, Vol. 12, No. 1, Feb. 1970, pp. 55-67, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
16 Wessel N. van Wieringen, Lecture notes on ridge regression, 2023, https://arxiv.org/pdf/1509.09169.pdf
17 Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
18 Yichao Wu, „Can’t Ridge Regression Perform Variable Selection?“ Technometrics, Vol. 63, No. 2, 2021, pp. 263–271, https://www.tandfonline.com/doi/abs/10.1080/00401706.2020.1791254
19 Danielle C. Tucker, Yichao Wu und Hans-Georg Müller, „Variable Selection for Global Fréchet Regression,“ Journal of the American Statistical Association, 2021, https://www.tandfonline.com/doi/abs/10.1080/01621459.2021.1969240
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io