Was ist Überanpassung?
Vermeiden Sie Überanpassung mit watsonx.ai Abonnieren Sie KI-Updates
Schwarz-blauer Hintergrund
Was ist Überanpassung?

Beim maschinellen Lernen kommt es zu einer Überanpassung, wenn ein Algorithmus zu eng oder sogar genau an die Trainingsdaten angepasst wird. Das Ergebnis ist ein Modell, das keine genauen Vorhersagen oder Schlussfolgerungen aus anderen Daten als den Trainingsdaten ableiten kann. 

Eine Überanpassung macht den Zweck des maschinellen Lernens zunichte. Die Verallgemeinerung eines Modells auf neue Daten ist letztlich das, was es uns ermöglicht, Algorithmen des maschinellen Lernens tagtäglich für Vorhersagen und die Klassifizierung von Daten zu verwenden.

Wenn Algorithmen für maschinelles Lernen entwickelt werden, nutzen sie einen Beispieldatensatz für das Training des Modells. Wenn das Modell jedoch zu lange mit Beispieldaten trainiert wird oder wenn das Modell zu komplex ist, kann es beginnen, das „Rauschen“ oder irrelevante Informationen im Datensatz zu lernen. Wenn sich das Modell das Rauschen merkt und sich zu sehr an den Trainingsdatensatz anpasst, kommt es zu einer „Überanpassung“ des Modells. In der Folge kann es nicht mehr sinnvoll auf neue Daten verallgemeinert werden. Und wenn ein Modell nicht gut auf neue Daten verallgemeinert werden kann, ist es nicht in der Lage, die Klassifizierungs- oder Vorhersageaufgaben zu erfüllen, für die es gedacht war.

Niedrige Fehlerquoten und eine hohe Varianz sind gute Indikatoren für eine Überanpassung. Um diese Art von Verhalten zu verhindern, wird in der Regel ein Teil des Trainingsdatensatzes als „Testdatensatz“ zur Prüfung auf Überanpassung beiseite gelegt. Wenn die Trainingsdaten eine niedrige Fehlerquote und die Testdaten eine hohe Fehlerquote aufweisen, deutet dies auf eine Überanpassung hin.

IBM wurde von IDC zum führenden Anbieter ernannt

Lesen Sie, warum IBM in „IDC MarketScape: Worldwide AI Governance Platforms 2023“ als führender Anbieter ausgezeichnet wurde.

Ähnliche Inhalte

Registrieren Sie sich für das Whitepaper über KI-Governance

Überanpassung vs. Unteranpassung

Wenn ein Übertraining oder die Komplexität des Modells zu einer Überanpassung führt, wäre eine logische Präventionsmaßnahme entweder eine frühere Unterbrechung des Trainingsprozesses (auch als „Early Stopping“ bekannt) oder eine Reduzierung der Komplexität des Modells durch Eliminierung weniger relevanter Eingaben. Wenn Sie jedoch das Training zu früh unterbrechen oder zu viele wichtige Merkmale ausschließen, kann es zum gegenteiligen Problem kommen, nämlich zu einer Unteranpassung Ihres Modells. Eine Unteranpassung liegt vor, wenn das Modell nicht lange genug trainiert wurde oder die Eingabevariablen nicht signifikant genug sind, um eine sinnvolle Beziehung zwischen den Eingabe- und Ausgabevariablen zu ermitteln.

Bei der k-fachen Kreuzvalidierung werden die Daten in k gleich große Teilmengen aufgeteilt, die auch als „Folds“ bezeichnet werden. Eine der k-Folds dient als Testset, auch Holdout-Set oder Validierungsset genannt, und die übrigen Folds dienen zum Trainieren des Modells. Dieser Prozess wird so lange wiederholt, bis jeder Fold als Holdout-Fold fungiert hat. Nach jeder Auswertung wird eine Punktzahl festgehalten. Wenn alle Iterationen abgeschlossen sind, werden die Punktzahlen zur Bewertung der Leistung des Gesamtmodells ermittelt.

So erkennen Sie überangepasste Modelle

Um die Genauigkeit von Modellen für maschinelles Lernen zu verstehen, ist es wichtig, die Eignung des Modells zu testen. Die k-fache Kreuzvalidierung ist eine der beliebtesten Techniken zur Bewertung der Genauigkeit des Modells.

Bei der k-fachen Kreuzvalidierung werden die Daten in k gleich große Teilmengen aufgeteilt, die auch als „Folds“ bezeichnet werden. Eine der k-Folds dient als Testset, auch Holdout-Set oder Validierungsset genannt, und die übrigen Folds dienen zum Trainieren des Modells. Dieser Prozess wird so lange wiederholt, bis jeder Fold als Holdout-Fold fungiert hat. Nach jeder Auswertung wird eine Punktzahl festgehalten. Wenn alle Iterationen abgeschlossen sind, werden die Punktzahlen zur Bewertung der Leistung des Gesamtmodells ermittelt.

So vermeiden Sie eine Überanpassung

Auch wenn uns die Verwendung eines linearen Modells bei der Vermeidung einer Überanpassung hilft, sind viele Probleme in der realen Welt nichtlinear. Sie müssen nicht nur wissen, wie Sie eine Überanpassung erkennen können, sondern auch, wie Sie eine Überanpassung ganz vermeiden können. Im Folgenden finden Sie eine Reihe von Techniken, mit denen Sie eine Überanpassung verhindern können:

  • Early Stopping: Wie bereits erwähnt, wird mit dieser Methode versucht, das Training zu unterbrechen, bevor das Modell mit dem Lernen des Rauschens innerhalb des Modells beginnt. Bei diesem Ansatz besteht jedoch die Gefahr, dass der Trainingsprozess zu früh gestoppt wird, was zu dem entgegengesetzten Problem der Unteranpassung führt. Das ultimative Ziel ist es, den „Sweet Spot“ zwischen Unteranpassung und Überanpassung zu finden.
  • Training mit mehr Daten: Die Erweiterung des Trainingssatzes um mehr Daten kann die Genauigkeit des Modells erhöhen, da es mehr Möglichkeiten gibt, die dominante Beziehung zwischen den Eingabe- und Ausgabevariablen herauszuarbeiten. Allerdings ist diese Methode effektiver, wenn saubere, relevante Daten in das Modell eingebracht werden. Anderenfalls könnten Sie dem Modell nur noch mehr Komplexität hinzufügen, was wiederum zu einer Überanpassung führt.
  • Datenerweiterung: Obgleich es besser ist, saubere, relevante Daten in Ihre Trainingsdaten einzubringen, werden manchmal auch verrauschte Daten hinzugefügt, um ein Modell stabiler zu machen. Diese Methode sollte jedoch sparsam eingesetzt werden.
  • Merkmalsauswahl: Wenn Sie ein Modell erstellen, haben Sie eine Reihe von Parametern oder Merkmalen, die zur Vorhersage eines bestimmten Ergebnisses verwendet werden. Diese Merkmale können jedoch oft für andere redundant sein. Bei der Merkmalsauswahl geht es darum, die wichtigsten Merkmale in den Trainingsdaten zu identifizieren und dann die irrelevanten oder überflüssigen Merkmale zu eliminieren. Dies wird häufig mit der Dimensionalitätsreduktion verwechselt, ist aber etwas anderes. Beide Methoden helfen jedoch dabei, Ihr Modell zu vereinfachen und den vorherrschenden Trend in den Daten zu ermitteln.
  • Regularisierung: Wenn es aufgrund eines zu komplexen Modells zu einer Überanpassung kommt, ist es sinnvoll, die Anzahl der Merkmale zu reduzieren. Was aber, wenn wir nicht wissen, welche Eingaben wir bei der Auswahl der Merkmale eliminieren sollen? Wenn wir nicht wissen, welche Merkmale wir aus unserem Modell entfernen sollen, können Methoden der Regularisierung besonders hilfreich sein. Die Regularisierung wendet eine „Strafe“ auf die Eingabeparameter mit den größeren Koeffizienten an, wodurch die Varianz des Modells begrenzt wird. Es gibt zwar eine Reihe von Regularisierungsmethoden, wie z. B. die Lasso-Regularisierung, die Ridge-Regression und die Dropout-Methode, aber sie alle versuchen, das Rauschen in den Daten zu identifizieren und zu reduzieren.
  • Ensemble-Methoden: Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren (wie beispielsweise Entscheidungsbäumen), deren Vorhersagen aggregiert werden, um das beliebteste Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging und Boosting. Beim Bagging wird eine Zufallsstichprobe von Daten in einem Trainingssatz mit Ersetzung ausgewählt. Das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nachdem mehrere Datenproben generiert wurden, werden diese Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe (beispielsweise Regression oder Klassifizierung) ergibt der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung. Dies wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datensatzes zu reduzieren.
Erfahren Sie in diesem IBM Developer-Tutorial zur Bilderkennung, wie Sie einige dieser Ansätze nutzen können
Aktuelle Forschung

Während die obige Beschreibung die gängige Definition von Überanpassung ist, deuten neuere Forschungsergebnisse (Link befindet sich außerhalb von IBM) darauf hin, dass komplexe Modelle wie Deep-Learning-Modelle und neuronale Netze eine hohe Genauigkeit aufweisen, obwohl sie auf „exakte Anpassung oder Interpolation“ trainiert wurden. Diese Erkenntnis steht im direkten Widerspruch zur historischen Literatur zu diesem Thema und wird durch die untenstehende Risikokurve des „doppelten Abstiegs“ erklärt. Sie sehen, dass sich die Leistung des Modells verbessert, wenn das Modell über die Schwelle der Interpolation hinaus lernt. Die Methoden, die wir bereits erwähnt haben, um eine Überanpassung zu vermeiden, wie z. B. Early Stopping und Regularisierung, können die Interpolation tatsächlich verhindern.

Weiterführende Lösungen
IBM® Watson Studio

IBM Watson Studio ist eine offene Datenplattform, mit der Datenwissenschaftler KI-Modelle in jeder beliebigen Cloud erstellen, ausführen, testen und optimieren können.

Erkunden Sie IBM Watson Studio
IBM® Cloud Pak for Data

IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die eine Data Fabric bietet, mit der alle Daten für KI und Analysen in jeder Cloud verfügbar gemacht werden.

Mehr über IBM Cloud Pak for Data
Ressourcen Verständnis der gutartigen Überanpassung beim gradientenbasierten Meta-Lernen

Empirische Befunde zeigen, dass überparametrisierte Meta-Lernmethoden immer noch gut funktionieren – ein Phänomen, das oft als gutartige Überanpassung (benign Overfitting) bezeichnet wird.

Eine starke Überanpassung kann durch eine richtig erlernte Glättung abgemildert werden

Untersuchen Sie zwei empirische Methoden, um im Rahmen des Adversarial Training (AT) mehr erlernte Glättung einzuführen