Was ist Überanpassung?
Lernen Sie, wie Sie eine Überanpassung vermeiden können, sodass Sie Daten außerhalb Ihres Modells genau verallgemeinern können
Schwarzer und blauer Hintergrund
Was ist Überanpassung?

Überanpassung ist ein Konzept in der Datenwissenschaft, das auftritt, wenn ein statistisches Modell genau auf seine Trainingsdaten passt. Wenn dies der Fall ist, kann der Algorithmus leider nicht genau mit Daten arbeiten, die er noch nicht gesehen hat, was seinen Zweck verfehlt. Die Generalisierung eines Modells auf neue Daten ist letztlich das, was es uns ermöglicht, Algorithmen des maschinellen Lernens täglich für Vorhersagen und die Klassifizierung von Daten zu nutzen.

Bei der Entwicklung von Algorithmen für maschinelles Lernen wird ein Beispieldatensatz verwendet, um das Modell zu trainieren. Wenn das Modell jedoch zu lange mit Beispieldaten trainiert oder wenn das Modell zu komplex ist, kann es beginnen, das „Rauschen“ oder irrelevante Informationen innerhalb des Datenbestands zu lernen. Wenn sich das Modell das Rauschen merkt und sich zu sehr an das Trainingsset anpasst, wird es „überangepasst“ und kann nicht gut auf neue Daten verallgemeinert werden. Wenn ein Modell nicht gut auf neue Daten verallgemeinert werden kann, ist es nicht in der Lage, die Klassifizierungs- oder Vorhersageaufgaben zu erfüllen, für die es gedacht war.

Niedrige Fehlerquoten und eine hohe Varianz sind gute Indikatoren für eine Überanpassung. Um diese Art von Verhalten zu verhindern, wird in der Regel ein Teil des Trainingsdatensatzes als „Testsatz“ außen vor gelassen, um auf Überanpassung zu prüfen. Wenn die Trainingsdaten eine niedrige und die Testdaten eine hohe Fehlerquote haben, deutet dies auf eine Überanpassung hin.

Überanpassung vs. Unteranpassung

Wenn Übertraining oder Modellkomplexität zu einer Überanpassung führen, wäre eine logische Vorbeugungsmaßnahme entweder eine frühere Unterbrechung des Trainingsprozesses, auch bekannt als „Early Stopping“, oder eine Reduzierung der Komplexität des Modells durch Eliminierung weniger relevanter Eingaben. Wenn Sie jedoch zu früh eine Pause einlegen oder zu viele wichtige Merkmale ausschließen, kann es sein, dass Sie das gegenteilige Problem haben und Ihr Modell zu wenig passt. Eine Unteranpassung tritt auf, wenn das Modell nicht lange genug trainiert wurde oder die Eingabevariablen nicht signifikant genug sind, um eine sinnvolle Beziehung zwischen den Eingabe- und Ausgabevariablen zu bestimmen.

In beiden Szenarien kann das Modell den vorherrschenden Trend innerhalb des Trainingsdatensatzes nicht feststellen. Infolgedessen verallgemeinert sich die Unteranpassung auch schlecht auf Daten, die noch nicht gesehen wurden. Im Gegensatz zur Überanpassung weisen unterangepasste Modelle jedoch eine hohe Verzerrung und eine geringere Varianz innerhalb ihrer Vorhersagen auf. Dies veranschaulicht den Kompromiss zwischen Verzerrung und Varianz, der auftritt, wenn ein unterangepasstes Modell in einen überangepassten Zustand versetzt wird. Wenn das Modell lernt, verringert sich seine Verzerrung, aber die Varianz kann zunehmen, wenn es überangepasst wird. Bei der Anpassung eines Modells besteht das Ziel darin, den idealen Punkt zwischen Unter- und Überanpassung zu finden, sodass ein dominanter Trend ermittelt und auf neue Datensätze übertragen werden kann.

So erkennen Sie überangepasste Modelle

Um die Genauigkeit von Modellen des maschinellen Lernens zu verstehen, ist es wichtig, die Eignung des Modells zu testen. Die k-fache Kreuzvalidierung ist eine der beliebtesten Techniken zur Bewertung der Genauigkeit des Modells.

Bei der k-fachen Kreuzvalidierung werden Daten in k gleich große Untergruppen aufgeteilt, die auch „Folds" (Teilmengen) genannt werden. Eine der k-Teilmengen fungiert als Testmenge, auch bekannt als Holdout-Menge oder Validierungsmenge, und die restlichen Teilmengen trainieren das Modell. Dieser Prozess wiederholt sich, bis jede der Teilmengen als Holdout-Menge verwendet wurde. Nach jeder Auswertung wird ein Score festgehalten, und wenn alle Iterationen abgeschlossen sind, werden die Scores gemittelt, um die Leistung des Gesamtmodells zu bewerten.

So vermeiden Sie Überanpassung

Die Verwendung eines linearen Modells hilft uns zwar, eine Überanpassung zu vermeiden, aber viele reale Probleme sind nichtlinear. Es ist nicht nur wichtig zu wissen, wie man eine Überanpassung erkennt, sondern auch, wie man eine Überanpassung ganz vermeiden kann. Nachfolgend finden Sie eine Reihe von Techniken, die Sie anwenden können, um eine Überanpassung zu verhindern:

  • Early Stopping: Wie bereits erwähnt, wird mit dieser Methode versucht, das Training zu unterbrechen, bevor das Modell beginnt, das Rauschen innerhalb des Modells zu lernen. Bei diesem Konzept besteht die Gefahr, dass der Trainingsprozess zu früh abgebrochen wird, was zu dem gegenteiligen Problem der Unteranpassung führt. Das ultimative Ziel ist es, den idealen Punkt zwischen Unter- und Überanpassung zu finden.
  • Mit mehr Daten trainieren: Eine Erweiterung des Trainingssatzes um mehr Daten kann die Genauigkeit des Modells erhöhen, da mehr Möglichkeiten zur Verfügung stehen, die dominante Beziehung zwischen den Eingabe- und Ausgabevariablen herauszufinden. Allerdings ist dies eine effektivere Methode, wenn saubere, relevante Daten in das Modell eingespeist werden. Andernfalls könnten Sie dem Modell immer mehr Komplexität hinzufügen, was zu einer Überanpassung führen würde.
  • Datenerweiterung: Während es besser ist, saubere, relevante Daten in die Trainingsdaten einzubringen, werden manchmal verrauschte Daten hinzugefügt, um ein Modell stabiler zu machen. Dieses Verfahren sollte jedoch sparsam eingesetzt werden.
  • Merkmalauswahl: Wenn Sie ein Modell erstellen, haben Sie eine Reihe von Parametern oder Merkmalen, die für die Vorhersage eines bestimmten Ergebnisses verwendet werden, aber oft können diese Merkmale für andere redundant sein. Bei der Merkmalauswahl geht es darum, die wichtigsten Merkmale in den Trainingsdaten zu identifizieren und dann die irrelevanten oder redundanten zu eliminieren. Dies wird häufig mit Dimensionalitätsreduzierung verwechselt, ist aber etwas anderes. Beide Methoden helfen jedoch, Ihr Modell zu vereinfachen, um den vorherrschenden Trend in den Daten zu ermitteln.
  • Regularisierung: Wenn es zu einer Überanpassung kommt, wenn ein Modell zu komplex ist, ist es sinnvoll, die Anzahl der Merkmale zu reduzieren. Was aber, wenn nicht bekannt ist, welche Eingaben bei der Merkmalauswahl eliminiert werden sollen? Wenn nicht bekannt ist, welche Merkmale aus dem Modell entfernt werden sollen, können Regularisierungsmethoden besonders hilfreich sein. Die Regularisierung wendet eine „Strafe“ auf die Eingabeparameter mit den größeren Koeffizienten an, wodurch die Varianz des Modells begrenzt wird. Es gibt zwar eine Reihe von Regularisierungsmethoden, wie z. B. die L1-Regularisierung, die Lasso-Regularisierung und die Dropout-Methode, aber sie alle zielen darauf ab, das Rauschen in den Daten zu identifizieren und zu reduzieren.
  • Ensemble-Methoden: Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren, z. B. Entscheidungsbäumen, deren Vorhersagen aggregiert werden, um das am häufigsten auftretende Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging und Boosting. Beim Bagging wird eine Zufallsstichprobe von Daten in einem Trainingssatz mit Ersetzung ausgewählt, d. h., die einzelnen Datenpunkte können mehr als einmal ausgewählt werden. Nachdem mehrere Datenstichproben generiert wurden, werden diese Modelle dann unabhängig voneinander trainiert, und je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – ergeben der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung. Auf diese Weise wird häufig die Varianz innerhalb eines verrauschten Datensatzes verringert.
Erfahren Sie in diesem IBM Developer-Bilderkennungslernprogramm, wie Sie einige dieser Ansätze nutzen können
Aktuelle Recherche

Während dies die gängige Definition von Überanpassung ist, deuten neuere Forschungsergebnisse (PDF, 1,2 MB) (Link befindet sich außerhalb von IBM) darauf hin, dass komplexe Modelle wie Deep-Learning-Modelle und neuronale Netze eine hohe Genauigkeit aufweisen, obwohl sie auf „exakte Anpassung oder Interpolation“ trainiert wurden. Dieses Untersuchungsergebnis steht in direktem Widerspruch zur archivierten Fachliteratur zu diesem Thema und wird durch die nachstehende „doppelt absteigende“ Risikokurve erklärt. Sie können sehen, dass sich die Leistung des Modells verbessert, wenn das Modell über den Schwellenwert der Interpolation hinaus lernt. Die bereits erwähnten Methoden zur Vermeidung von Überanpassung, wie z. B. Early Stopping und Regularisierung, können die Interpolation tatsächlich verhindern.

Relevante Lösungen
IBM® Watson Studio

IBM® Watson Studio ist eine offene Datenplattform, die es Datenwissenschaftlern ermöglicht, KI-Modelle in jeder beliebigen Cloud im großen Maßstab zu erstellen, auszuführen, zu testen und zu optimieren.

IBM® Watson Studio erkunden
IBM® Cloud Pak for Data

IBM® Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die ein Data Fabric zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.

IBM® Cloud Pak for Data erkunden
Ressourcen Understanding benign overfitting in gradient-based meta learning (Verstehen der unkritischen Überanpassung beim gradientenbasierten Meta-Lernen)

Empirische Beweise zeigen, dass überparametrisierte Meta-Lernmethoden immer noch gut funktionieren – ein Phänomen, das oft als unkritische Überanpassung bezeichnet wird.

Robust overfitting may be mitigated by properly learned smoothening (Robuste Überanpassung kann durch richtig gelernte Glättung abgeschwächt werden)

Untersuchen Sie zwei empirische Methoden, um mehr gelernte Glättung während Adversarial Training (AT) einzufügen.

Machen Sie den nächsten Schritt

IBM Watson Studio ist eine offene Datenplattform, die es Datenwissenschaftlern ermöglicht, KI-Modelle in jeder beliebigen Cloud im großen Maßstab zu erstellen, auszuführen, zu testen und zu optimieren. Mit IBM Watson Studio können Sie KI standortunabhängig als Teil von IBM® Cloud Pak for Data operationalisieren. Vereinen Sie Teams, vereinfachen Sie das KI-Lifecycle-Management und beschleunigen Sie die Zeit bis zur Wertschöpfung mit einer offenen, flexiblen Multi-Cloud-Architektur.

Testen Sie noch heute IBM® Watson Studio