Was ist Überanpassung?

Was ist Überanpassung?

Beim maschinellen Lernen kommt es zu einer Überanpassung, wenn ein Algorithmus zu eng oder sogar genau an die Trainingsdaten angepasst wird. Das Ergebnis ist ein Modell,das keine genauen Vorhersagen oder Schlussfolgerungen aus anderen Daten als den Trainingsdaten ableiten kann. 

Eine Überanpassung macht den Zweck des maschinellen Lernens zunichte. Die Verallgemeinerung eines Modells auf neue Daten ist letztlich das, was es uns ermöglicht, Algorithmen des maschinellen Lernens tagtäglich für Vorhersagen und die Klassifizierung von Daten zu verwenden.

Wenn Algorithmen für maschinelles Lernen erstellt werden, nutzen sie einen Datensatz, um das Modell zu trainieren. Wenn das Modell jedoch zu lange mit Beispieldaten trainiert wird oder wenn das Modell zu komplex ist, kann es beginnen, das „Rauschen“ oder irrelevante Informationen innerhalb des Datensatzes zu lernen. Wenn sich das Modell das Rauschen einprägt und zu eng an den Trainingssatz anpasst, kommt es zu einer „Überanpassung“ des Modells und es kann nicht mehr gut auf neue Daten verallgemeinert werden. Wenn ein Modell nicht gut auf neue Daten verallgemeinern kann, wird es nicht in der Lage sein, die Klassifizierungs- oder Prognoseaufgaben auszuführen, für die es vorgesehen war.

Niedrige Fehlerquoten und eine hohe Varianz sind gute Indikatoren für eine Überanpassung. Um diese Art von Verhalten zu verhindern, wird in der Regel ein Teil des Trainingsdatensatzes als „Testdatensatz“ zur Prüfung auf Überanpassung beiseite gelegt. Wenn die Trainingsdaten eine niedrige Fehlerquote und die Testdaten eine hohe Fehlerquote aufweisen, deutet dies auf eine Überanpassung hin.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Überanpassung vs. Unteranpassung

Wenn ein Übertraining oder die Komplexität des Modells zu einer Überanpassung führen, dann wäre eine logische Präventionsreaktion, entweder den Trainingsprozess früher zu unterbrechen, was auch als „frühes Stoppen“ bezeichnet wird, oder die Komplexität des Modells zu reduzieren, indem weniger relevante Eingabe eliminiert wird. Wenn Sie jedoch das Training zu früh unterbrechen oder zu viele wichtige Merkmale ausschließen, kann es zum gegenteiligen Problem kommen, nämlich zu einer Unteranpassung Ihres Modells. Eine Unteranpassung liegt vor, wenn das Modell nicht lange genug trainiert wurde oder die Eingabevariablen nicht signifikant genug sind, um eine sinnvolle Beziehung zwischen den Eingabe- und Ausgabevariablen zu ermitteln.

In beiden Szenarien kann das Modell den dominanten Trend innerhalb des Trainingsdatensatzes nicht ermitteln. Infolgedessen funktioniert die Unteranpassung auch schlecht auf unbekannte Daten. Im Gegensatz zur Überanpassung machen unterangepasste Modelle jedoch eine hohe Verzerrung und weniger Varianz innerhalb ihrer Vorhersagen. Überanpassung vs. Unteranpassung veranschaulicht den Kompromiss zwischen Verzerrung und Varianz, der auftritt, wenn ein unterangepasstes Modell in einen überangepassten Zustand versetzt wird. Wenn das Modell lernt, nimmt seine Verzerrung ab, aber bei einer Überanpassung kann die Varianz zunehmen. Bei der Anpassung eines Modells besteht das Ziel darin, den „Sweet Spot“ zwischen Unteranpassung und Überanpassung zu finden, damit ein dominanter Trend etabliert und dieser breit auf neue Datensätze angewendet werden kann.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

So erkennen Sie überangepasste Modelle

Um die Genauigkeit von Modellen für maschinelles Lernen zu verstehen, ist es wichtig, die Eignung des Modells zu testen. Die k-fache Kreuzvalidierung ist eine der beliebtesten Techniken zur Bewertung der Genauigkeit des Modells.

Bei der k-fachen Kreuzvalidierung werden die Daten in k gleich große Teilmengen aufgeteilt, die auch als „Folds“ bezeichnet werden. Eine der k-Folds dient als Testset, auch Holdout-Set oder Validierungsset genannt, und die übrigen Folds dienen zum Trainieren des Modells. Dieser Prozess wird so lange wiederholt, bis jeder Fold als Holdout-Fold fungiert hat. Nach jeder Auswertung wird eine Punktzahl festgehalten. Wenn alle Iterationen abgeschlossen sind, werden die Punktzahlen zur Bewertung der Leistung des Gesamtmodells ermittelt.

So vermeiden Sie eine Überanpassung

Auch wenn uns die Verwendung eines linearen Modells bei der Vermeidung einer Überanpassung hilft, sind viele Probleme in der realen Welt nichtlinear. Sie müssen nicht nur wissen, wie Sie eine Überanpassung erkennen können, sondern auch, wie Sie eine Überanpassung ganz vermeiden können. Im Folgenden finden Sie eine Reihe von Techniken, mit denen Sie eine Überanpassung verhindern können:

  • Frühes Stoppen: Wie bereits erwähnt, wird mit dieser Methode versucht, das Training zu unterbrechen, bevor das Modell mit dem Lernen des Rauschens innerhalb des Modells beginnt. Bei diesem Ansatz besteht die Gefahr, dass der Ausbildungsprozess zu früh gestoppt wird, was zum gegenteiligen Problem der Unteranpassung führt. Das ultimative Ziel ist es, den „Sweet Spot“ zwischen Unteranpassung und Überanpassung zu finden.

  • Trainieren mit mehr Daten: Die Erweiterung des Trainingssatzes um mehr Daten kann die Genauigkeit des Modells erhöhen, da mehr Möglichkeiten zur Analyse der dominanten Beziehung zwischen Eingabe- und Ausgabevariablen zur Verfügung stehen. Dies ist jedoch eine effektivere Methode, wenn saubere, relevante Daten in das Modell eingespeist werden. Sonst könnten Sie dem Modell nur noch mehr Komplexität hinzufügen, was zu einer Überanpassung führt.

  • Datenerweiterung: Obgleich es besser ist, saubere, relevante Daten in Ihre Trainingsdaten einzubringen, werden manchmal auch verrauschte Daten hinzugefügt, um ein Modell stabiler zu machen. Allerdings sollte diese Methode sparsam eingesetzt werden.

  • Auswahl von Funktionen: Wenn man ein Modell erstellt, hat man eine Reihe von Parametern oder Funktionen, die zur Vorhersage eines bestimmten Ergebnisses verwendet werden, aber oft können diese Funktionen für andere redundant sein. Bei der Funktionsaauswahl geht es darum, die wichtigsten Funktionen in den Trainingsdaten zu identifizieren und dann die irrelevanten oder redundanten Funktionen zu eliminieren. Dies wird häufig mit der Dimensionalitätsreduktion verwechselt, aber es ist etwas anderes. Beide Methoden helfen jedoch dabei, das Modell zu vereinfachen, um den dominanten Trend in den Daten zu ermitteln.

  • Regularisierung: Wenn es aufgrund eines zu komplexen Modells zu einer Überanpassung kommt, ist es sinnvoll, die Anzahl der Funktionen zu reduzieren. Was aber, wenn wir nicht wissen, welche Eingaben wir bei der Funktionsauswahl eliminieren sollen? Wenn wir nicht wissen, welche Funktionen wir aus unserem Modell entfernen sollen, können Methoden der Regularisierung besonders hilfreich sein.

    Die Regularisierung wendet eine „Strafe“ auf die Eingabeparameter mit den größeren Koeffizienten an, wodurch die Varianz des Modells begrenzt wird. Es gibt zwar eine Reihe von Regularisierungsmethoden, wie z. B.Lasso-Regularisierung, Ridge-Regression und die Dropout-Methode, aber sie alle versuchen, das Rauschen in den Daten zu identifizieren und zu reduzieren.

  • Ensemble-Methoden: Ensemble-Lernmethoden bestehen aus einer Reihe von Klassifikatoren, z. B. Entscheidungsbäume – und ihre Vorhersagen werden aggregiert, um das beliebteste Ergebnis zu ermitteln. Die bekanntesten Ensemble-Methoden sind Bagging und Boosting. Beim Bagging wird eine zufällige Stichprobe von Daten in einem Trainingssatz mit Ersetzung ausgewählt. Das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nachdem mehrere Datenproben generiert wurden, werden diese Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe – d. h. Regression oder Klassifizierung – ergibt der Durchschnitt oder die Mehrheit dieser Prognosen eine genauere Schätzung. Dieser Ansatz wird häufig verwendet, um die Varianz innerhalb eines verrauschten Datensatzes zu reduzieren.

Aktuelle Forschung

Das Obige ist zwar die etablierte Definition von Überanpassung, doch neuere Untersuchungen deuten darauf hin, dass komplexe Modelle, wie z. B. Deep Learning-Modelle und Neural Networks, mit einer hohen Genauigkeit arbeiten, obwohl sie auf „exakte Anpassung oder Interpolation“ trainiert wurden. Diese Erkenntnis steht in direktem Widerspruch zur historischen Literatur zu diesem Thema und wird durch die untenstehende Risikokurve für den "doppelten Abstieg" erklärt. Sie können sehen, dass sich die Leistung des Modells verbessert, wenn das Modell über die Interpolationsschwelle hinaus lernt. Die Methoden, die wir bereits erwähnt haben, um eine Überanpassung zu vermeiden, wie z. B. frühes Stoppen und Regularisieren, können die Interpolation tatsächlich verhindern.

Weitere Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen