Overfitting vs. Underfitting: Die richtige Balance finden

Luftaufnahme eines Reisfeldes in Vietnam

Autoren

Tim Mucci

IBM Writer

Gather

Überanpassung vs. Unteranpassung

Wenn Data Scientists und Ingenieure Modelle für maschinelles Lernen (ML) trainieren, besteht die Gefahr, dass sie einen Algorithmus zder zu einfach ist, um die zugrundeliegenden Muster in den Daten zu erfassen. Das führt zu einer Unteranpassung (Underfitting), oder wenn es zu komplex ist, zu einer Überanpassung (Overfitting). Die Regulierung von Overfitting und Underfitting ist eine zentrale Herausforderung in datenwissenschaftlichen Arbeitsabläufen und der Entwicklung zuverlässiger Systeme der künstlichen Intelligenz (KI).

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Verzerrung und Varianz beim maschinellen Lernen

Abwägung zwischen Verzerrung und Varianz

Verzerrung und Varianz bilden das Gleichgewicht, das Ingenieure finden müssen, um eine gute Anpassung ihrer Modelle für maschinelles Lernen zu gewährleisten. Der Kompromiss zwischen Verzerrung und Varianz ist daher von zentraler Bedeutung für den Umgang mit Unteranpassung und Überanpassung.

Bei einem verzerrten Modell werden starke Annahmen über die Trainingsdaten getroffen, um den Lernprozess zu vereinfachen, wobei Feinheiten oder Komplexitäten, die nicht berücksichtigt werden können, ignoriert werden. Die Varianz bezieht sich auf die Sensibilität des Modells in Bezug auf Lernschwankungen in den Trainingsdaten.

Beispiele für Modelle mit hoher Verzerrung sind lineare Regressionsalgorithmen oder einfache Decision Trees, die von einfachen linearen oder binären Beziehungen ausgehen, selbst wenn die Datenmuster komplexer sind.

Die Verwendung eines linearen Regressionsmodells für Daten mit einer quadratischen Beziehung führt zu einer Unteranpassung, da das lineare Modell die inhärente Krümmung nicht erfassen kann. Infolgedessen schneidet das Modell bei der Trainingsmenge und den ungesehenen Testdaten schlecht ab, da es nicht gut auf neue Daten verallgemeinert werden kann.

Generalisierung ist die Fähigkeit des Modells, gelernte Muster zu verstehen und auf unsichtbare Daten anzuwenden. Modelle mit geringer Varianz neigen auch dazu, unterangepasst zu werden, da sie zu einfach sind, um komplexe Muster zu erfassen. Modelle mit geringer Verzerrung können jedoch überangepasst sein, wenn sie zu flexibel sind.

Eine hohe Varianz deutet darauf hin, dass das Modell möglicherweise Rauschen, Eigenheiten und zufällige Details in den Trainingsdaten erfasst. Modelle mit hoher Varianz sind übermäßig flexibel, was zu einem geringen Trainingsfehler führt, aber wenn sie mit neuen Daten getestet werden, lassen sich die gelernten Muster nicht verallgemeinern, was zu einem hohen Testfehler führt.

Stellen Sie sich vor, Sie merken sich die Antworten für einen Test, anstatt die Konzepte zu verstehen, sodass Sie die Fragen selbst beantworten können. Wenn der Test von dem abweicht, was untersucht wurde, werden Sie Schwierigkeiten haben, die Fragen zu beantworten. Das Gleichgewicht zwischen Varianz und Verzerrung ist der Schlüssel zum Erreichen einer optimalen Leistung in maschinelles Lernen-Modellen.

Veranschaulichung der Über- und Unteranpassung beim maschinellen Lernen

Über- und Unteranpassung erkennen

Die Regeln 

  • Überanpassung: Der Trainingsfehler ist gering, aber der Testfehler ist deutlich höher.
  • Unteranpassung: Die Fehler sind in allen Trainings- und Testdatensätzen gleich hoch.

Ein überangepasstes Modell kann zu einer hohen Modellgenauigkeit bei Trainingsdaten, aber zu einer geringen Genauigkeit bei neuen Daten führen, da es sich um eine Speicherung anstelle einer Generalisierung handelt. Eine Überanpassung tritt auf, wenn Ingenieure ein maschinelles Lernen-Modell mit zu vielen Parametern oder Schichten verwenden, z. B. ein neuronales Deep-Learning-Netzwerk, wodurch es sich in hohem Maße an die Trainingsdaten anpassen kann.

Wenn das Modell mit einem kleinen oder verrauschten Datensatz trainiert wird, riskiert es, sich bestimmte Datenpunkte und Geräusche zu merken, anstatt die allgemeinen Muster zu lernen. Wenn die Daten Fehler oder Inkonsistenzen enthalten, kann das Modell diese fälschlicherweise als aussagekräftige Muster lernen.

Entwickler suchen nach einer Leistungslücke zwischen Training und Test, können aber auch eine Überanpassung in Lernkurven erkennen, bei denen der Trainingsverlust gegen Null abnimmt, während der Validierungsverlust zunimmt, was auf eine schlechte Generalisierung hindeutet.

Ein weiteres Anzeichen für ein überangepasstes Modell sind seine Entscheidungsgrenzen, also die erlernten Regeln des Modells zur Klassifizierung von Datenpunkten. Die Entscheidungsgrenze wird bei überangepassten Modellen übermäßig komplex und unregelmäßig, da sie sich an das Rauschen im Trainingsset anpasst, anstatt die wahren zugrunde liegenden Strukturen zu erfassen, was ebenfalls auf eine Überanpassung hinweist.

Optimal angepasstes Modell vs. überangepasstes Modell

Darüber hinaus können hochdimensionale Datensätze aufgrund des „Fluches der Dimensionalität“ zu einer Überanpassung führen. Mit zunehmender Anzahl von Funktionen nimmt die Anzahl der Datenpunkte ab, wodurch es für Modelle schwieriger wird, aussagekräftige Muster zu finden. Die Varianz steigt und das Risiko einer Überanpassung nimmt zu.

Ein unterangepasstes Modell schneidet bei den Trainings- und Testdaten schlecht ab, weil es die dominanten Muster im Datensatz nicht erfasst. Entwickler erkennen eine Unteranpassung in der Regel an einer durchgängig schlechten Leistung in beiden Datensätzen.

Unterangepasste Modelle weisen in der Regel auch hohe Fehler in den Lernkurven auf, liefern suboptimale Bewertungsmetriken und zeigen systematische Restmuster, was alles auf ein Unvermögen hinweist, die zugrunde liegenden Beziehungen in den Daten effektiv zu erlernen.

Unteranpassung beim maschinellen Lernen entsteht häufig aufgrund vereinfachter Modelle, schlechter Funktionsentwicklung oder übermäßiger Regularisierung , die die Flexibilität des Modells zu sehr einschränkt. Gleichermaßen kann eine schlechte Merkmalsauswahl - wie das Weglassen von Interaktionsterms oder polynomialen Merkmalen - das Modell daran hindern, versteckte Beziehungen in den Daten zu verstehen. Eine unzureichende Vorverarbeitung, eine unzureichende Trainingszeit oder ein Mangel an ausreichenden Daten zum Trainieren des Modells können ebenfalls zu einer unzureichenden Anpassung beitragen.

Unterangepasstes Modell vs. optimal angepasstes Modell

Beispiele für Über- und Unteranpassung

Überanpassung

Medizinisches Diagnosemodell
Ein maschinelles Lernmodell wird trainiert, um medizinische Bilder anhand eines kleinen Datensatzes als „gesund“ oder „krank“ zu klassifizieren. Das Model speichert die Trainingsbilder und erreicht eine nahezu perfekte Genauigkeit, schneidet aber bei neuen Bildern schlecht ab, weil es spezifische Störungen oder Artefakte in den Trainingsdaten anstelle von allgemeinen Krankheitsmerkmalen gelernt hat.

Aktienkursvorhersage
Ein Finanzmodell verwendet ein komplexes neuronales Netz mit vielen Parametern, um Aktienkurse vorherzusagen. Anstatt Trends oder Muster zu lernen, erfasst es zufällige Schwankungen in älteren Daten. Das führt zu sehr genauen Trainingsprognosen, aber zu einer schlechten Leistung, wenn es auf zukünftige Aktienkurse getestet wird.

Kundenabwanderungsprognose
Ein Kundenbindungsmodell enthält zu viele spezifische Merkmale, wie z. B. sehr detaillierte demografische Daten, was zu einer Überanpassung der Trainingsdaten führt. Bei der Anwendung auf einen breiteren Kundenstamm fällt es schwer, Muster über verschiedene demografische Gruppen hinweg zu verallgemeinern und zu ermitteln.

Unteranpassung

Vorhersage von Immobilienpreisen
Ein lineares Regression-Modell sagt die Immobilienpreise ausschließlich auf der Grundlage der Quadratmeterzahl voraus. Das Modell berücksichtigt andere wichtige Merkmale wie Standort, Anzahl der Schlafzimmer oder Alter des Hauses nicht, was zu einer schlechten Leistung bei Trainings- und Testdaten führt.

Wettervorhersage
Das Modell verwendet eine kleine Anzahl einfacher Merkmale, wie z. B. die durchschnittliche Temperatur und Luftfeuchtigkeit, um Niederschläge vorherzusagen. Komplexere Zusammenhänge, wie z. B. jahreszeitlich bedingte Muster oder Wechselwirkungen zwischen mehreren atmosphärischen Faktoren, werden nicht erfasst, was zu einer durchweg schlechten Genauigkeit führt.

Bilderkennung
Ein flacher Decision Tree wird zur Klassifizierung von Bildern von Katzen und Hunden verwendet. Dank seiner Einfachheit gelingt es ihm nicht, zwischen den beiden Arten zu unterscheiden, da es sowohl bei den Trainingsbildern als auch bei neuen, ungesehenen Bildern schlecht abschneidet.

Über- und Unteranpassung vermeiden

Algorithmen für maschinelles Lernen trainieren Modelle, um Muster in Daten zu erkennen, sodass Ingenieure sie verwenden können, um zukünftige Ergebnisse aus unsichtbaren Eingaben vorherzusagen. Hyperparameter-Tuning spielt eine große Rolle bei der Balance zwischen Über- und Unteranpassung und stellt sicher, dass ein Prognosemodell effektiv auf unsichtbare Daten generalisiert wird.

Mithilfe von Hyperparametern können Entwickler die Lernrate, die Stärke der Regularisierung, die Anzahl der Schichten in einem neuronalen Netz oder die maximale Tiefe eines Decision Trees präzise anpassen. Die richtige Optimierung kann verhindern, dass ein Modell zu starr oder zu anpassungsfähig ist.

Überanpassung

Regularisierung

Regularisierung für Regression-Modelle oder Dropout in neuronalen Netzen ist eine beim maschinellen Lernen verwendete Technik, die das Modell davon abhält, sich zu stark auf ein einzelnes Merkmal zu verlassen oder Rauschen in die Trainingsdaten einzufügen.

Zu den gebräuchlichen Arten der Regularisierung gehören L1, das die Sparsity fördert, indem es einige Koeffizienten auf Null schrumpfen lässt, und L2, das die Größe aller Koeffizienten reduziert, um das Modell einfacher und verallgemeinerbarer zu machen. Die Regularisierung hilft dem Modell, sich auf die zugrundeliegenden Muster zu konzentrieren, anstatt sich die Daten zu merken.

Datenerweiterung

Die Datenerweiterung ist eine weitere effektive Strategie, insbesondere bei Aufgaben wie Computer Vision, bei denen das künstliche Erweitern der Trainingsdaten durch Spiegeln, Drehen oder Zuschneiden von Bildern dazu beiträgt, dass das Modell besser verallgemeinert wird. Die Vereinfachung des Modells durch Reduzieren der Anzahl von Parametern oder Schichten in einem Neural Networks schränkt auch seine Fähigkeit ein, sich Details zu Trainingsdaten zu merken.

K-fache Kreuzvalidierung

Entwickler können Techniken wie die k-fache Kreuzvalidierung auch zur Bewertung der Modellgeneralisierung verwenden. Bei der k-fachen Kreuzvalidierung werden die Daten in Teilmengen aufgeteilt, mit einigen trainiert und die übrigen getestet.

In ähnlicher Weise können Entwickler ein Holdout-Set verwenden, d. h. Informationen aus dem Trainingsset, die als ungesehene Daten reserviert werden, um eine weitere Möglichkeit zur Bewertung der Leistung zu erhalten. Die Leistung werden dann gemittelt, um eine Gesamtbewertung der Ergebnisse zu erhalten.

k-fache Kreuzvalidierung, im Diagramm dargestellt

Frameworks für die Evaluierung

Ergänzend zu diesen Techniken sind zuverlässige Modellevaluierungskonzept unerlässlich, um sicherzustellen, dass ein maschinelles Lernmodell gut funktioniert. Eine fortschrittliche Evaluierungstechnik ist die verschachtelte Kreuzvalidierung, die besonders für die Abstimmung der Hyperparameter nützlich ist. Bei der verschachtelten Kreuzvalidierung werden die Daten in einer äußeren Schleife in Trainings- und Testteilmengen aufgeteilt, um die Generalisierungsfähigkeit des Modells zu bewerten.

Gleichzeitig führt eine innere Schleife die Abstimmung der Hyperparameter auf den Trainingsdaten durch, um sicherzustellen, dass der Abstimmungsprozess nicht zu einer Überanpassung der Validierungsmenge führt. Dieser Ansatz trennt die Hyperparameter-Optimierung von der Modellevaluierung und ermöglicht eine genauere Einschätzung der Leistung des Modells bei ungesehenen Daten.

Ein weiterer effektiver Ansatz kombiniert die Aufteilung von Training und Test mit einer frühzeitigen Unterbrechung, um Validierungsverluste während des Trainings zu überwachen. Durch die Bewertung der Leistung des Modells auf einem speziellen Validierungssatz können Ingenieure das Training stoppen, wenn die Validierungsleistung ein Plateau erreicht oder sich verschlechtert, um eine Überanpassung zu verhindern.

Bewertungssysteme sollten bei Klassifizierungsproblemen mit unausgewogenen Datensätzen geschichtete Stichproben enthalten, um sicherzustellen, dass jede Datenaufteilung die gleiche Klassenverteilung wie der ursprüngliche Datensatz beibehält. Dadurch wird eine Überanpassung an die Mehrheitsklassen verhindert und gleichzeitig eine faire Bewertung der Leistung von Minderheitsklassen ermöglicht.

Ensemble-Methoden

Ensemble-Methoden, wie z. B. Bagging und Boosting kombinieren mehrere Modelle, um individuelle Schwächen zu mildern und die allgemeine Generalisierung zu verbessern. Zum Beispiel reduziert die beliebte Ensembletechnik „Random Forests“ die Überanpassung durch die Aggregation von Vorhersagen aus mehreren Entscheidungsbäumen, wodurch Verzerrung und Varianz wirksam ausgeglichen werden.

Unteranpassung

Komplexere Modelle

Um eine Unteranpassung zu vermeiden, erhöhen die Ingenieure oft die Komplexität des Modells, um die zugrunde liegenden Muster in den Daten besser erfassen zu können. Zum Beispiel kann der Wechsel von einer einfachen linearen Regression zu einer Polynomregression in Fällen helfen, in denen die Beziehungsmerkmale und die Zielvariable nichtlinear sind. Komplexere Modelle können zwar die Unteranpassung beheben, aber sie riskieren eine Überanpassung, wenn sie nicht richtig reguliert werden.  

Regularisierung

Durch die Reduzierung von Regularisierungsstrafen kann das Modell auch flexibler an die Daten angepasst werden, ohne übermäßig eingeschränkt zu sein. Die Parameter L1 und L2 sind z. B. Regularisierungstypen, die verwendet werden, um die Komplexität eines Modells zu überprüfen. L1 (Lasso) fügt einen Strafe hinzu, um das Modell zu veranlassen, nur die wichtigsten Merkmale auszuwählen. L2 (Ridge) trägt dazu bei, das Modell zu einer gleichmäßigeren Bedeutung der Merkmale zu führen.

Funktionsentwicklung

Funktionsentwicklung und -Auswahl spielen eine Rolle bei der Erstellung oder Umwandlung von Features - wie z. B. das Hinzufügen von Interaktionsterms, polynomialen Features oder die Kodierung kategorialer Variablen -, um das Modell mit relevanteren Informationen zu versorgen.

Trainingszeit

Indem Sie dem Modell durch Erhöhen der Anzahl der Epochen mehr Trainingszeit geben, stellen Sie sicher, dass es ausreichend Gelegenheit hat, aus den Daten zu lernen. Eine Epoche stellt einen vollständigen Durchlauf durch den Trainingsdatensatz dar und mehrere Epochen ermöglichen es dem Modell, Muster effektiver zu lernen.

Oft werden mehrere Epochen verwendet, damit das Modell die Muster in den Daten besser lernen kann. Außerdem hilft eine Vergrößerung des Trainingsdatensatzes dem Modell, vielfältigere Muster zu erkennen, was das Risiko einer Übervereinfachung verringert und die Generalisierung verbessert.

Datenqualität.

Ganzheitlich gesehen sollten Ingenieure die Trainingsdaten gründlich auf Genauigkeit, Vollständigkeit und Konsistenz bewerten und sie mit zuverlässigen Quellen vergleichen, um etwaige Diskrepanzen zu beheben. Techniken wie Normalisierung (Skalierung von Werten zwischen 0 und 1) oder Standardisierung (Skalierung auf einen Mittelwert von 0 und Standardabweichung von 1) tragen dazu bei, dass das Modell bestimmte Variablen nicht aufgrund unterschiedlicher Skalen gegenüber anderen bevorzugt.

Im Laufe der Zeit können sich die Verteilungen der Eingabedaten verschieben (das sogenannte Datendrift-Phänomen), was dazu führen kann, dass Modelle die neuen Daten unter- oder überanpassen. Um dem entgegenzuwirken, sind ein regelmäßiges Monitoring und ein regelmäßiges Retraining mit aktualisierten Datensätzen unerlässlich. Das Entfernen von Sonderfällen kann auch dazu beitragen, verzerrte Ergebnisse zu vermeiden und die Robustheit des Modells zu verbessern.

Tools wie AutoML können Prozesse weiter rationalisieren, indem sie die Hyperparameter-Abstimmung, die Merkmalsauswahl und die Erstellung von Modellbewertungs-Frameworks automatisieren, sodass sich Ingenieure auf übergeordnete Erkenntnisse und die Entscheidungsfindung konzentrieren können.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Optimale Modellanpassung erreichen

Eine gute Modellanpassung liegt in der optimalen Balance zwischen Unter- und Überanpassung. Es beschreibt ein Modell, das die zugrundeliegenden Muster in den Daten genau erfasst, ohne übermäßig empfindlich auf Rauschen oder zufällige Schwankungen zu reagieren.

  • Bei der Balance zwischen Modellkomplexität und Verallgemeinerung geht es darum, das richtige Gleichgewicht zwischen einem zu einfachen oder zu komplexen Modell zu finden.
  • Entwickler müssen Verzerrung und Varianz ausbalancieren, um eine optimale Modellleistung zu erreichen. Eine Möglichkeit für die Durchführung ist, Lernkurven zu verfolgen, wodurch Schulungs- und Validierungsfehler im Laufe der Zeit angezeigt werden.
  • Durch die Analyse von Validierungskennzahlen wie Genauigkeit, Präzision, Wiedererkennung oder mittlerer quadratischer Fehler lässt sich beurteilen, wie gut das Modell auf ungesehene Daten verallgemeinert.
  • Ein gut passendes Modell balanciert Modellkomplexität, Trainingsdaten und Regularisierungstechniken sorgfältig aus, um eine gute Generalisierung auf neue Daten zu ermöglichen und genaue Vorhersagen zu liefern.

Domänenspezifische Überlegungen zur Unter- und Überanpassung

Fachwissen spielt eine wichtige Rolle bei der Bekämpfung von Unteranpassung und Überanpassung, da es den Ingenieuren hilft, das Modell an die spezifischen Merkmale des jeweiligen Problems anzupassen. Datensätze aus der realen Welt enthalten oft Rauschen, Ungleichgewichte oder Inkonsistenzen.

Eine effiziente Logistik, wie z. B. die richtige Aufteilung und Vorverarbeitung von Daten, trägt dazu bei, Anpassungsprobleme zu verringern. Wenn Entwickler den Zusammenhang der Daten verstehen, können sie fundierte Entscheidungen über die Vorverarbeitung, die Auswahl der Merkmale und das Design treffen, um ein gut trainiertes Modell zu erhalten. Zum Beispiel:

  • Datenvorverarbeitung: Fachwissen hilft den Entwicklern, zu erkennen, welche Datenbereinigungsschritte notwendig sind, wie z. B. das Entfernen irrelevanter Funktionen, die Handhabung von Missing Values oder die Normalisierung von Daten. Im Gesundheitswesen kann das Modell beispielsweise effektiver werden, wenn die demografischen Daten und die Krankengeschichten der Patienten genau dargestellt werden.
  • Merkmalsauswahl: Kenntnisse über den Bereich können Aufschluss darüber geben, welche Merkmale für die Aufgabe am relevantesten sind, wodurch Rauschen reduziert und die Modellleistung verbessert wird. Im Finanzwesen beispielsweise können Schlüsselindikatoren wie Zinssätze oder Markttrends aussagekräftiger sein als reine Transaktionsprotokolle.
  • Modelldesign: Domänenspezifische Erkenntnisse können die Wahl von Algorithmen oder Architekturen beeinflussen. Für Bilderkennungsaufgaben sind beispielsweiseConvolutional Neural Networks (CNNs) ideal, während bei der ZeitreihenanalyseRecurrent Neural Networks (RNNs) oder Transformer besser funktionieren könnten.

Das Gleichgewicht zwischen Überanpassung und Unteranpassung ermöglicht es Entwicklern, den optimalen Bereich zu ermitteln, in dem ein maschinelles Lernmodell von starrer Einfachheit zu sinnvoller Verallgemeinerung übergeht, ohne übermäßig komplex zu werden. Ein gut ausbalanciertes Modell kann die Kundenabwanderung über verschiedene demografische Gruppen hinweg vorhersagen, medizinische Bilder trotz Schwankungen in der Datenqualität effektiv klassifizieren und Aktienkurse prognostizieren, indem es Markttrends erfasst, ohne sich zu sehr an zufällige Schwankungen anzupassen.

Ein effektives Management des Kompromisses zwischen Verzerrung und Varianz führt zu Modellen, die Muster in Daten genau erkennen und gleichzeitig die nötige Flexibilität für die Anpassung an Unbekanntes bieten. Indem sie dieses Gleichgewicht erreichen, können Datenwissenschaftler Lösungen schaffen, die technisch solide und in realen Anwendungen wirkungsvoll sind.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo