Die Regularisierung beschreibt eine Reihe von Methoden zur Reduzierung von Überanpassung in Modellen des maschinellen Lernens. Typischerweise wird bei der Regularisierung eine geringfügige Abnahme der Trainingsgenauigkeit gegen eine Verbesserung der Generalisierbarkeit eingetauscht.
Die Regularisierung umfasst eine Reihe von Techniken zur Korrektur der Überanpassung in maschinellen Lernmodellen. Daher dient die Regularisierung als Methode zur Erhöhung der Generalisierbarkeit eines Modells, d. h. der Fähigkeit, genaue Vorhersagen für neue Datensätze zu erstellen.1 Die Regularisierung bietet diese erhöhte Generalisierbarkeit auf Kosten eines erhöhten Trainingsfehlers. Mit anderen Worten führen Regularisierungsmethoden in der Regel zu weniger genauen Vorhersagen für Trainingsdaten, aber zu genaueren Vorhersagen für Testdaten.
Die Regularisierung unterscheidet sich von der Optimierung. Im Wesentlichen erhöht Ersteres die Verallgemeinerbarkeit des Modells, während Letzteres die Genauigkeit des Modelltrainings erhöht. Beide sind wichtige Konzepte im Bereich maschinelles Lernen und Data Science.
Es gibt viele Formen der Regularisierung. Alles, was über eine vollständige Anleitung hinausgeht, erfordert eine viel längere Behandlung in Buchlänge. Dennoch bietet dieser Artikel einen Überblick über die Theorie, die notwendig ist, um den Zweck der Regularisierung beim maschinellen Lernen zu verstehen, sowie eine Übersicht über mehrere beliebte Regularisierungstechniken.
Diese Inkaufnahme eines erhöhten Trainingsfehlers zugunsten eines verringerten Testfehlers wird als Kompromiss zwischen Verzerrung und Varianz bezeichnet. Der Zielkonflikt zwischen Verzerrung und Varianz ist ein bekanntes Problem beim maschinellen Lernen. Zunächst müssen die Begriffe „Verzerrung“ und „Varianz“ definiert werden. Um es kurz zu machen:
- Verzerrung misst die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Eine hohe Verzerrung bezieht sich auf einen hohen Fehler im Training.
- Varianz misst die Differenz zwischen den Vorhersagen verschiedener Realisierungen eines bestimmten Modells. Mit zunehmender Varianz sagt ein Modell weniger genau über nicht sichtbare Daten voraus. Eine hohe Varianz bezieht sich auf einen hohen Fehler bei der Prüfung und Validierung.
Verzerrung und Varianz repräsentieren somit umgekehrt die Modellgenauigkeit bei Trainings- bzw. Testsätzen.2 Entwickler streben natürlich danach, sowohl die Verzerrung als auch die Varianz des Modells zu reduzieren. Eine gleichzeitige Reduzierung beider Werte ist nicht immer möglich, sodass eine Regularisierung erforderlich ist. Die Regularisierung verringert die Modellvarianz auf Kosten einer erhöhten Verzerrung.
Durch die Erhöhung der Verzerrung und die Verringerung der Varianz löst die Regularisierung die Überanpassung des Modells. Eine Überanpassung liegt vor, wenn der Fehler bei den Trainingsdaten abnimmt, während der Fehler bei den Testdaten nicht mehr abnimmt oder sogar zunimmt.3 Mit anderen Worten: Die Überanpassung beschreibt Modelle mit geringer Verzerrung und hoher Varianz. Wenn die Regularisierung jedoch zu viel Verzerrung mit sich bringt, wird das Modell unterdimensioniert.
Trotz seines Namens bezeichnet Unteranpassung nicht das Gegenteil der Überanpassung. Vielmehr beschreibt die Unteranpassung Modelle, die durch hohe Verzerrung und hohe Varianz gekennzeichnet sind. Ein unterdimensioniertes Modell führt während des Trainings und der Tests zu unbefriedigenden, fehlerhaften Vorhersagen. Dies ist oft auf unzureichende Trainingsdaten oder -parameter zurückzuführen.
Eine Regularisierung kann jedoch möglicherweise auch zu einer Unteranpassung des Modells führen. Wenn durch die Regularisierung zu viel Verzerrung entsteht, kann die Modellvarianz aufhören, abzunehmen, und sogar zunehmen. Die Regularisierung kann diesen Effekt vor allem bei einfachen Modellen haben, d. h. bei Modellen mit wenigen Parametern. Bei der Festlegung der Art und des Umfangs der durchzuführenden Regularisierung müssen daher die Komplexität eines Modells, der Datensatz usw. berücksichtigt werden.4
Lineare Regression und logistische Regression sind beides Vorhersagemodelle, die dem maschinellem Lernen zugrunde liegen. Die lineare Regression (oder gewöhnliche kleinste Quadrate) zielt darauf ab, die Auswirkungen eines oder mehrerer Prädiktoren auf eine bestimmte Ausgabe zu messen und vorherzusagen, indem die am besten passende Linie durch bereitgestellte Datenpunkte (d.h. Trainingsdaten) gefunden wird. Die logistische Regression zielt darauf ab, die Klassenwahrscheinlichkeiten für eine binäre Ausgabe bei einer Reihe von Prädiktoren zu bestimmen. Mit anderen Worten: Die lineare Regression macht kontinuierliche quantitative Vorhersagen, während die logistische Regression diskrete kategoriale Vorhersagen liefert5
Natürlich ist die Eingabe-Ausgabe-Beziehung nicht immer eindeutig, wenn die Anzahl der Prädiktoren in einem der Regressionsmodelle zunimmt, und erfordert eine Anpassung der Regressionsformel. Hier kommt die Regularisierung ins Spiel. Es gibt drei Hauptformen der Regularisierung für Regressionsmodelle. Beachten Sie, dass es sich bei dieser Liste nur um eine kurze Übersicht handelt. Die Anwendung dieser Regularisierungstechniken bei der linearen oder der logistischen Regression variiert geringfügig.
- Lasso-Regression (oder L1-Regularisierung) ist eine Regularisierungstechnik, die hochwertige, korrelierte Koeffizienten bestraft. Sie führt einen Regularisierungsterm (auch Strafterm genannt) in die Verlustfunktion der Summe der quadrierten Fehler (SSE) des Modells ein. Dieser Strafterm ist der absolute Wert der Summe der Koeffizienten. Gesteuert wiederum durch den Hyperparameter Lambda (λ) reduziert er ausgewählte Merkmalsgewichte auf Null. Die Lasso-Regression entfernt dadurch multikollineare Merkmale vollständig aus dem Modell.
- Ridge-Regression (oder L2-Regularisierung) ist eine Regularisierungstechnik, die hochwertige Koeffizienten auf ähnliche Weise bestraft, indem sie einen Strafterm in die SSE-Verlustfunktion einführt. Sie unterscheidet sich jedoch von der Lasso-Regression. Erstens ist der Strafterm bei der Ridge-Regression die quadrierte Summe der Koeffizienten und nicht der absolute Wert der Koeffizienten. Zweitens führt die Ridge-Regression keine Merkmalsauswahl durch. Während der Strafterm der Lasso-Regression Merkmale aus dem Modell entfernen kann, indem er die Koeffizientenwerte auf Null schrumpft, schrumpft die Ridge-Regression die Merkmalsgewichte nur in Richtung Null, aber nie auf Null.
– Die Elastic Net-Regularisierung kombiniert im Wesentlichen sowohl die Ridge- als auch die Lasso-Regression, fügt aber sowohl die L1- als auch die L2-Strafbegriffe in die SSE-Verlustfunktion ein. L2 und L1 leiten ihren Straftermwert ab, indem sie den absoluten Wert der Summe der Merkmalsgewichte quadrieren oder verwenden. Elastic Net fügt diese beiden Strafwerte in die Gleichung der Kostenfunktion (SSE) ein. Auf diese Weise adressiert Elastic Net die Multikollinearität und ermöglicht gleichzeitig die Auswahl von Funktionen.6
In der Statistik werden diese Methoden auch als „Koeffizientenschrumpfung“ bezeichnet, da sie die Koeffizientenwerte der Prädiktoren im Vorhersagemodell schrumpfen lassen. Bei allen drei Techniken wird die Stärke des Strafterms durch Lambda gesteuert, das mithilfe verschiedener Kreuzvalidierungsverfahren berechnet werden kann.
Datenerweiterung ist eine Regularisierungstechnik, die die Trainingsdaten des Modells verändert. Sie erweitert den Umfang des Trainingssatzes durch die Erstellung künstlicher Datenproben, die aus bereits vorhandenen Trainingsdaten abgeleitet werden. Durch das Hinzufügen weiterer Proben zum Trainingssatz, insbesondere von Fällen, die in realen Daten selten vorkommen, wird ein Modell einer größeren Menge und Vielfalt von Daten ausgesetzt, aus denen es lernt. Die Forschung im Bereich des maschinellen Lernens hat sich kürzlich mit der Datenanreicherung für Klassifikatoren befasst, insbesondere als Mittel zur Lösung unausgewogener Datensätze.7 Die Datenanreicherung unterscheidet sich jedoch von synthetischen Daten. Bei Letzterem werden neue, künstliche Daten erstellt, während bei Ersterem modifizierte Duplikate bereits vorhandener Daten erstellt werden, um den Datensatz zu diversifizieren und zu vergrößern.
Frühes Stoppen ist vielleicht die am einfachsten umzusetzende Regularisierungstechnik. Kurz gesagt: Sie begrenzt die Anzahl der Iterationen während des Modelltrainings. Hier durchläuft ein Modell kontinuierlich die Trainingsdaten und stoppt, sobald keine Verbesserung (und möglicherweise sogar eine Verschlechterung) der Trainings- und Validierungsgenauigkeit mehr zu verzeichnen ist. Das Ziel besteht darin, ein Modell so lange zu trainieren, bis es den geringstmöglichen Trainingsfehler erreicht hat, bevor ein Plateau oder ein Anstieg des Validierungsfehlers eintritt.8
Viele Python-Pakete für maschinelles Lernen bieten Optionen für Trainingsbefehle, um das Training frühzeitig zu beenden. Tatsächlich ist das vorzeitige Beenden in einigen Fällen eine Standard-Trainingseinstellung.
Neural Networks sind komplexe Modelle des maschinellen Lernens, die vielen Anwendungen und Services der künstlichen Intelligenz zugrunde liegen. Neural Networks bestehen aus einer Eingabeschicht, einer oder mehreren verborgenen Schichten und einer Ausgabeschicht, wobei jede Schicht wiederum aus mehreren Knoten besteht.
Dropout reguliert Neural Networks, indem es während des Trainings nach dem Zufallsprinzip Knoten zusammen mit ihren Ein- und Ausgangsverbindungen aus dem Netz entfernt (Abbildung 3). Dropout trainiert mehrere Varianten einer Architektur mit fester Größe, wobei jede Variante unterschiedliche zufällige Knoten aufweist, die nicht in die Architektur einbezogen werden. Ein einzelnes Neural Network ohne Dropout wird für Tests verwendet, wobei eine ungefähre Mittelwertmethode angewendet wird, die aus den zufällig modifizierten Trainingsarchitekturen abgeleitet wurde. Auf diese Weise entspricht der Dropout dem Training einer großen Menge von Neural Networks mit einer Vielzahl diversifizierter Architekturen.9
Gewichtsabbau ist eine weitere Form der Regularisierung, die für tiefe Neural Networks verwendet wird. Es reduziert die Summe der quadrierten Networkgewichte durch einen Regularisierungsparameter, ähnlich wie die L2-Regularisierung in linearen Modellen.10 Aber wenn sie in Neural Networks eingesetzt wird, hat diese Reduzierung einen ähnlichen Effekt wie die L1-Regularisierung: Die Gewichte ausgewählter Neuronen sinken auf Null.11 Dadurch werden Knoten effektiv aus dem Netzwerk entfernt, wodurch die Netzwerkkomplexität durch geringe Dichte reduziert wird.12
Der Gewichtsabbau mag oberflächlich betrachtet dem Ausfall in tiefen Neural Networks ähneln, aber die beiden Techniken unterscheiden sich. Ein Hauptunterschied besteht darin, dass bei einem Abbruch der Strafwert in der Tiefe des Netzwerks exponentiell ansteigt, während der Strafwert bei einem Gewichtsabbau linear ansteigt. Einige glauben, dass Dropout die Komplexität des Netzwerks sinnvoller bestrafen kann als Gewichtsabbau.13
In vielen Online-Artikeln und -Tutorials werden L2-Regularisierung und -Gewichtsabbau fälschlicherweise miteinander vermischt. Tatsächlich ist die Wissenschaft uneinheitlich – einige unterscheiden zwischen L2 und Gewichtsabbau,14 andere setzen sie gleich, 15 und wieder andere beschreiben die Beziehung zwischen ihnen uneinheitlich.16 Die Lösung solcher terminologischer Unstimmigkeiten ist ein notwendiger, aber vernachlässigter Bereich für die zukünftige Forschung.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
Entdecken Sie beaufsichtigte Lernansätze wie Support Vector Machines und Wahrscheinlichkeitsklassifikatoren.
Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.
Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.
Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani und Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
3 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.
5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani und Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
6 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang und Brian D. Marx, Regression: Models, Methods and Applications, 2. Auflage, Springer, 2021.
7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen und Minh-Triet Tran, „Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays,“ Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee und Hansu Cho, „Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method,“ Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html
8 Grégoire Montavon, Geneviève B. Orr und Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2. Auflage, Springer, 2012.
9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever und Ruslan Salakhutdinov, „Dropout: A Simple Way to Prevent Neural Networks from Overfitting,“ Journal of Machine Learning Research, Vol. 15, No. 56, 2014, pp. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html
10 Max Kuhn und Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Rahul Parhi und Robert D. Nowak, „Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,“ IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, pp. 63-74, https://arxiv.org/abs/2301.09554
12 Stephen Hanson und Lorien Pratt, „Comparing Biases for Minimal Network Construction with Back-Propagation,“ Advances in Neural Information Processing Systems 1, 1988, pp. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf
13 David P. Helmbold, Philip M. Long, „Surprising properties of dropout in deep networks,“ Journal of Machine Learning Research, Vol. 18, No. 200, 2018, pp. 1−28, https://jmlr.org/papers/v18/16-549.html
14 Guodong Zhang, Chaoqi Wang, Bowen Xu und Roger Grosse, „Three Mechanisms of Weight Decay Regularization,“ International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281
15 David P. Helmbold und Philip M. Long, „Fundamental Differences between Dropout and Weight Decay in Deep Networks,“ 2017, https://arxiv.org/abs/1602.04484v3
16 Ian Goodfellow, Yoshua Bengio und Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/