In Bezug auf maschinelles Lernen bedeutet die Kammregression, dass ein Modell mit einer Verzerrung versehen wird, um die Varianz dieses Modells zu verringern. Der Zielkonflikt zwischen Verzerrung und Varianz ist ein bekanntes Problem beim maschinellen Lernen. Um den Kompromiss zwischen Verzerrung und Varianz zu verstehen, ist es zunächst notwendig zu wissen, was mit „Verzerrung“ und „Varianz“ in der Forschung im Bereich maschinelles Lernen jeweils gemeint ist.
Kurz gesagt: Die Verzerrung misst die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten; die Varianz misst die Differenz zwischen Vorhersagen über verschiedene Realisierungen eines bestimmten Modells hinweg. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Wenn die Varianz zunimmt, sagt ein Modell andere Datensätze weniger genau voraus. Verzerrung und Varianz messen somit die Modellgenauigkeit bei Trainings- bzw. Testsätzen. Offensichtlich hoffen die Entwickler, die Modellverzerrung und -varianz zu reduzieren. Eine gleichzeitige Reduzierung beider ist jedoch nicht immer möglich, weshalb Regularisierungstechniken wie die Ridge-Regression erforderlich sind.
Wie bereits erwähnt, führt die Ridge-Regression-Regularisierung zu einer zusätzlichen Verzerrung, um die Varianz zu verringern. Mit anderen Worten: Modelle, die durch Ridge-Regression reguliert werden, liefern weniger genaue Vorhersagen für Trainingsdaten (höhere Verzerrung), aber genauere Vorhersagen für Testdaten (geringere Varianz). Dies ist ein Trade-off zwischen Verzerrung und Varianz. Durch die Ridge-Regression bestimmen die Benutzer einen akzeptablen Verlust an Trainingsgenauigkeit (höhere Verzerrung), um die Generalisierung eines bestimmten Modells zu erhöhen (geringere Varianz).13 Auf diese Weise kann eine zunehmende Verzerrung dazu beitragen, die Gesamtleistung des Modells zu verbessern.
Die Stärke der L2-Strafe und damit der Kompromiss zwischen Verzerrung und Varianz des Modells wird durch den Wert λ in der Gleichung der Ridge-Schätzer-Verlustfunktion bestimmt. Wenn λ gleich null ist, bleibt eine gewöhnliche Funktion der kleinsten Quadrate übrig. Dadurch entsteht ein lineares Standardregressionsmodell ohne Regularisierung. Im Gegensatz dazu bedeutet ein höherer λ-Wert mehr Regularisierung. Mit zunehmendem λ steigt die Modellverzerrung, während die Varianz abnimmt. Wenn λ gleich null ist, überanpasst sich das Modell also an die Trainingsdaten, aber wenn λ zu hoch ist, passt sich das Modell an alle Daten an.14
Der mittlere quadratische Fehler (Mean Square Error, MSE) kann bei der Bestimmung eines geeigneten λ-Wertes helfen. Der MSE steht in engem Zusammenhang mit RSS und ist ein Mittel zur Messung der Differenz zwischen prognostizierten und tatsächlichen Werten im Durchschnitt. Je niedriger der MSE eines Modells ist, desto genauer sind seine Vorhersagen. Der MSE steigt jedoch mit steigendem λ. Dennoch wird argumentiert, dass es immer einen Wert von λ größer als Null gibt, sodass der durch Ridge-Regression erzielte MSE kleiner ist als der durch OLS erzielte.15 Eine Methode zur Ableitung eines geeigneten λ-Wertes besteht darin, den höchsten Wert für λ zu finden, der den MSE nicht erhöht, wie in Abbildung 2 dargestellt. Zusätzliche Kreuzvalidierungstechniken können Anwendern helfen, optimale λ-Werte für die Abstimmung ihres Modells auszuwählen.16