Was ist Regularisierung?

Autoren

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Was ist Regularisierung?

Regularisierung ist eine Reihe von Methoden zur Reduzierung von Überanpassung in Modellen des maschinellen Lernens. Typischerweise wird bei der Regularisierung eine geringfügige Abnahme der Trainingsgenauigkeit gegen eine Verbesserung der Generalisierbarkeit eingetauscht.

Die Regularisierung umfasst eine Reihe von Techniken zur Korrektur einer Überanpassung in maschinellen Lernmodellen. Daher ist die Regularisierung eine Methode zur Erhöhung der Verallgemeinerbarkeit eines Modells, d. h. seiner Fähigkeit, genaue Vorhersagen für neue Datensätze zu treffen.1 Die Regularisierung bietet diese erhöhte Verallgemeinerbarkeit, um Trainingsfehler zu vermeiden. Mit anderen Worten: Regularisierungsmethoden führen in der Regel zu weniger genauen Vorhersagen bei Trainingsdaten, aber zu genaueren Vorhersagen bei Testdaten.

Die Regularisierung unterscheidet sich von der Optimierung. Im Wesentlichen erhöht Ersteres die Verallgemeinerbarkeit des Modells, während Letzteres die Genauigkeit des Modelltrainings erhöht. Beide sind wichtige Konzepte im Bereich maschinelles Lernen und Data Science.

Es gibt viele Formen der Regularisierung. Alles, was über eine vollständige Anleitung hinausgeht, erfordert eine viel längere Behandlung in Buchlänge. Dennoch bietet dieser Artikel einen Überblick über die Theorie, die notwendig ist, um den Zweck der Regularisierung beim maschinellen Lernen zu verstehen, sowie eine Übersicht über mehrere beliebte Regularisierungstechniken.

Abwägung zwischen Verzerrung und Varianz

Diese Inkaufnahme eines erhöhten Trainingsfehlers zugunsten eines verringerten Testfehlers wird als Kompromiss zwischen Verzerrung und Varianz bezeichnet. Der Zielkonflikt zwischen Verzerrung und Varianz ist ein bekanntes Problem beim maschinellen Lernen. Zunächst müssen die Begriffe „Verzerrung“ und „Varianz“ definiert werden. Um es kurz zu machen:

  • Verzerrung misst die durchschnittliche Differenz zwischen vorhergesagten Werten und tatsächlichen Werten. Wenn die Verzerrung zunimmt, sagt ein Modell anhand eines Trainingsdatensatzes weniger genau voraus. Eine hohe Verzerrung bezieht sich auf einen hohen Fehler im Training.

  • Varianz misst die Differenz zwischen den Vorhersagen verschiedener Realisierungen eines bestimmten Modells. Mit zunehmender Varianz sagt ein Modell weniger genau über nicht sichtbare Daten voraus. Eine hohe Varianz bezieht sich auf einen hohen Fehler bei der Prüfung und Validierung.

Verzerrung und Varianz repräsentieren somit umgekehrt die Modellgenauigkeit bei Trainings- bzw. Testsätzen.2 Entwickler streben natürlich danach, sowohl die Verzerrung als auch die Varianz des Modells zu reduzieren. Eine gleichzeitige Reduzierung beider Werte ist nicht immer möglich, sodass eine Regulierung erforderlich ist. Die Regularisierung verringert die Modellvarianz auf Kosten einer erhöhten Verzerrung.

Regressions-Modellanpassungen

Durch die Erhöhung der Verzerrung und die Verringerung der Varianz löst die Regularisierung die Überanpassung des Modells. Eine Überanpassung liegt vor, wenn der Fehler bei den Trainingsdaten abnimmt, während der Fehler bei den Testdaten nicht mehr abnimmt oder sogar zunimmt.3 Mit anderen Worten: Die Überanpassung beschreibt Modelle mit geringer Verzerrung und hoher Varianz. Wenn die Regularisierung jedoch zu viel Verzerrung mit sich bringt, wird das Modell unterdimensioniert.

Trotz ihres Namens bezeichnet Unteranpassung nicht das Gegenteil der Überanpassung. Vielmehr beschreibt Unteranpassung Modelle, die durch hohe Verzerrung und hohe Varianz gekennzeichnet sind. Ein unterdimensioniertes Modell führt während des Trainings und der Tests zu unbefriedigenden, fehlerhaften Vorhersagen. Dies ist oft auf unzureichende Trainingsdaten oder -parameter zurückzuführen.

Eine Regularisierung kann jedoch möglicherweise auch zu einer Unteranpassung des Modells führen. Wenn durch die Regularisierung zu viel Verzerrung entsteht, kann die Modellvarianz aufhören, abzunehmen, und sogar zunehmen. Die Regularisierung kann diesen Effekt vor allem bei einfachen Modellen haben, d. h. bei Modellen mit wenigen Parametern. Bei der Festlegung der Art und des Umfangs der durchzuführenden Regularisierung müssen daher die Komplexität eines Modells, der Datensatz usw. berücksichtigt werden.4

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Arten der Regularisierung mit linearen Modellen

Lineare Regression und logistische Regression sind beides Vorhersagemodelle, die dem maschinellen Lernen zugrundeliegen. Die lineare Regression (oder gewöhnliche kleinste Quadrate) zielt darauf ab, die Auswirkungen eines oder mehrerer Prädiktoren auf eine bestimmte Ausgabe zu messen und vorherzusagen, indem die am besten passende Gerade durch die bereitgestellten Datenpunkte (d. h. Trainingsdaten). Die logistische Regression zielt darauf ab, die Klassenwahrscheinlichkeiten anhand einer binären Ausgabe bei einer Reihe von Prädiktoren zu bestimmen. Mit anderen Worten: Die lineare Regression ermöglicht kontinuierliche quantitative Vorhersagen, während die logistische Regression diskrete kategorische Vorhersagen liefert.5

Natürlich ist die Eingabe-Ausgabe-Beziehung nicht immer eindeutig, wenn die Anzahl der Prädiktoren in einem der Regressionsmodelle zunimmt, und erfordert eine Anpassung der Regressionsformel. Geben Sie die Regularisierung ein. Es gibt drei Hauptformen der Regularisierung für regression Modelle. Beachten Sie, dass es sich bei dieser Liste nur um eine kurze Übersicht handelt. Die Anwendung dieser Regularisierungstechniken bei der linearen oder der logistischen Regression variiert geringfügig.

  • Die Lasso-Regression (oder L1-Regularisierung) ist eine Regularisierungstechnik, die hochwertige, korrelierte Koeffizienten penalisiert. Sie führt einen Regularisierungsterm (auch Strafterm genannt) in die Verlustfunktion der Summe der quadratischen Fehler (SSE) des Modells ein. Dieser Strafterm ist der absolute Wert der Summe der Koeffizienten. Durch den Hyperparameter Lambda (λ) gesteuert, werden die Gewichtungen ausgewählter Merkmale auf Null reduziert. Die Lasso-Regression entfernt dabei multikollineare Merkmale vollständig aus dem Modell.

  • Die Ridge-Regression (oder L2-Regularisierung) ist eine Regularisierungstechnik, die hochwertige Koeffizienten ähnlich penalisiert, indem ein Strafterm in die SSE-Verlustfunktion eingeführt wird. Sie unterscheidet sich jedoch von der Lasso-Regression. Erstens ist der Strafterm in der Ridge-Regression die quadrierte Summe der Koeffizienten und nicht der absolute Wert der Koeffizienten. Zweitens ermöglicht die Ridge-Regression keine Merkmalsauswahl. Während der Strafterm der Lasso-Regression Merkmale aus dem Modell entfernen kann, indem er Koeffizientenwerte auf Null schrumpfen lässt, schrumpft die Ridge-Regression die Merkmalsgewichte nur in Richtung Null, aber nie auf Null.

  • Die elastische Netzregulierung kombiniert im Wesentlichen sowohl die Ridge- als auch die Lasso-Regression, fügt aber sowohl die L1- als auch die L2-Strafbegriffe in die SSE-Verlustfunktion ein. L2 und L1 leiten ihren Straftermwert ab, indem sie den absoluten Wert der Summe der Merkmalsgewichtungen quadrieren oder verwenden. Elastic Net fügt diese beiden Strafwerte in die Gleichung der Kostenfunktion (SSE) ein. Auf diese Weise adressiert Elastic Net die Multikollinearität und ermöglicht gleichzeitig die Auswahl von Funktionen.6

In der Statistik werden diese Methoden auch als „Koeffizientenschrumpfung“ bezeichnet, da sie die Koeffizientenwerte der Prädiktoren im Vorhersagemodell schrumpfen lassen. Bei allen drei Techniken wird die Stärke des Strafterms durch Lambda gesteuert, das mithilfe verschiedener Kreuzvalidierungsverfahren berechnet werden kann.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Arten der Regularisierung beim maschinellen Lernen

Datensatz

Die Datenerweiterung ist eine Regularisierungstechnik, die die Trainingsdaten des Modells verändert. Es erweitert den Umfang des Trainingssatzes durch die Erstellung künstlicher Datenproben, die aus bereits vorhandenen Trainingsdaten abgeleitet werden. Durch das Hinzufügen weiterer Proben zum Trainingssatz, insbesondere von Fällen, die in realen Daten selten vorkommen, wird ein Modell einer größeren Menge und Vielfalt von Daten ausgesetzt, aus denen es lernt. Die Forschung im Bereich des maschinellen Lernens hat sich kürzlich mit der Datenanreicherung für Klassifikatoren befasst, insbesondere als Mittel zur Lösung unausgewogener Datensätze.7 Die Datenanreicherung unterscheidet sich jedoch von synthetischen Daten. Bei letzterem werden neue, künstliche Daten erstellt, während bei ersterem modifizierte Duplikate bereits vorhandener Daten erstellt werden, um den Datensatz zu diversifizieren und zu vergrößern.

Visualisierung von Modifikationstechniken zur Diversifizierung von Bildersätzen

Modelltraining

Das frühe Stoppen ist vielleicht die am leichtesten zu implementierende Regularisierungstechnik. Kurz gesagt: Es begrenzt die Anzahl der Iterationen während des Modelltrainings. Hier durchläuft ein Modell kontinuierlich die Trainingsdaten und stoppt, sobald keine Verbesserung (und möglicherweise sogar eine Verschlechterung) der Trainings- und Validierungsgenauigkeit mehr zu verzeichnen ist. Das Ziel besteht darin, ein Modell so lange zu trainieren, bis es den geringstmöglichen Trainingsfehler erreicht hat, bevor ein Plateau oder ein Anstieg des Validierungsfehlers eintritt.8

Viele Python-Pakete für maschinelles Lernen bieten Optionen für Trainingsbefehle, um das Training frühzeitig zu beenden. Tatsächlich ist das vorzeitige Beenden in einigen Fällen eine Standard-Trainingseinstellung.

Diagrammvisualisierung des frühen Stoppens in Bezug auf Trainings- und Validierungsgenauigkeit

Neural networks

Neural Networks sind komplexe Modelle des maschinellen Lernens, die vielen Anwendungen und Services der künstlichen Intelligenz zugrunde liegen. Neural Networks bestehen aus einer Eingabeschicht, einer oder mehreren verborgenen Schichten und einer Ausgabeschicht, wobei jede Schicht wiederum aus mehreren Knoten besteht.

Dropout reguliert Neural Networks, indem es während des Trainings nach dem Zufallsprinzip Knoten zusammen mit ihren Ein- und Ausgangsverbindungen aus dem Netz entfernt (Abbildung 3). Dropout trainiert mehrere Varianten einer Architektur mit fester Größe, wobei jede Variante unterschiedliche zufällige Knoten aufweist, die nicht in die Architektur einbezogen werden. Ein einzelnes Neural Network ohne Dropout wird für Tests verwendet, wobei eine ungefähre Mittelwertmethode angewendet wird, die aus den zufällig modifizierten Trainingsarchitekturen abgeleitet wurde. Auf diese Weise entspricht der Dropout dem Training einer großen Menge von Neural Networks mit einer Vielzahl diversifizierter Architekturen.9

Diagrammvergleich von neuronalem Netzwerk und Dropout-Netzwerk

Weight Decay ist eine weitere Form der Regularisierung, die für tiefe Neural Networks verwendet wird. Er reduziert die Summe der quadrierten Netzwerkgewichte mithilfe eines Regularisierungsparameters, ähnlich wie die L2-Regularisierung in linearen Modellen.10 Bei der Anwendung in neuronalen Netzen hat diese Reduzierung jedoch eine ähnliche Wirkung wie die L1-Regularisierung : Die ausgewählten Neuronengewichte sinken auf null.11 Dadurch werden Knoten effektiv aus dem Netzwerk entfernt, wodurch die Netzwerkkomplexität durch Sparsity reduziert wird.12

Gewichtsverlust mag oberflächlich betrachtet dem Ausfall in tiefen neuronalen Netzen ähneln, aber die beiden Techniken unterscheiden sich.Ein Hauptunterschied besteht darin, dass bei einem Abbruch der Strafwert in der Tiefe des Netzwerks exponentiell ansteigt, während der Strafwert bei einer Gewichtsabnahme linear ansteigt.Einige glauben, dass Dropout die Komplexität des Netzwerks sinnvoller bestrafen kann als Gewichtsabnahme.13

In vielen Online-Artikeln und -Tutorials werden L2-Regularisierung und -Gewichtsabnahme fälschlicherweise miteinander vermischt. Tatsächlich ist die Wissenschaft uneinheitlich – einige unterscheiden zwischen L2 und Gewichtsabnahme,14 andere setzen sie gleich,15 und wieder andere beschreiben die Beziehung zwischen ihnen uneinheitlich.16 Die Lösung solcher terminologischer Unstimmigkeiten ist ein notwendiger, aber vernachlässigter Bereich für die zukünftige Forschung.

Fußnoten

[1] Deep Learning, Goodfellow et al., The MIT Press, 2016

[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013

[3] Deep Learning, Goodfellow et al. 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023 

[5] An Introduction to Statistical Learning, G. James et al.

[6] Applied Predictive Modeling, Kuhn, Max und Johnson, Kjell, Springer, 2016. Auch: Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2. Ausgabe, Springer, 2021

[7]Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,“ Ghiasi et al., CVPR, 2021

[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2. Ausg. 2012

[9] „Dropout: A Simple Way to Prevent Neural Networks from Overfitting,“ JMLR, Srivastava et al., 2014

[10] Applied Predictive Modeling, Kuhn, Max und Johnson, Kjell, Springer, 2016.

[11] „Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,“ arXiv, Jan. 2023

[12] „Comparing Biases for Minimal Network Construction with Back-propagation,“ Proceedings, Hanson und Pratt, 1988 

[13] “Surprising properties of dropout in deep networks,” Helmbold, David und Long, Philip, JMLR, 2018

[14] „Three Mechanisms of Weight Decay Regularization,“ Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018

[15] „Fundamental differences between Dropout and Weight Decay in Deep Networks,“ Helmbold, David und Long, Philip, ResearchGate, 2016

[16] Deep Learning, Goodfellow et al.

 
Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen