Beim maschinellen Lernen kommt es zu einer Überanpassung, wenn ein Algorithmus zu eng oder sogar genau an die Trainingsdaten angepasst wird. Das Ergebnis ist ein Modell, das keine genauen Vorhersagen oder Schlussfolgerungen aus anderen Daten als den Trainingsdaten ableiten kann.
Eine Überanpassung macht den Zweck des maschinellen Lernens zunichte. Die Verallgemeinerung eines Modells auf neue Daten ist letztlich das, was es uns ermöglicht, Algorithmen des maschinellen Lernens tagtäglich für Vorhersagen und die Klassifizierung von Daten zu verwenden.
Wenn Algorithmen für maschinelles Lernen entwickelt werden, nutzen sie einen Beispieldatensatz für das Training des Modells. Wenn das Modell jedoch zu lange mit Beispieldaten trainiert wird oder wenn das Modell zu komplex ist, kann es beginnen, das „Rauschen“ oder irrelevante Informationen im Datensatz zu lernen. Wenn sich das Modell das Rauschen merkt und sich zu sehr an den Trainingsdatensatz anpasst, kommt es zu einer „Überanpassung“ des Modells. In der Folge kann es nicht mehr sinnvoll auf neue Daten verallgemeinert werden. Und wenn ein Modell nicht gut auf neue Daten verallgemeinert werden kann, ist es nicht in der Lage, die Klassifizierungs- oder Vorhersageaufgaben zu erfüllen, für die es gedacht war.
Niedrige Fehlerquoten und eine hohe Varianz sind gute Indikatoren für eine Überanpassung. Um diese Art von Verhalten zu verhindern, wird in der Regel ein Teil des Trainingsdatensatzes als „Testdatensatz“ zur Prüfung auf Überanpassung beiseite gelegt. Wenn die Trainingsdaten eine niedrige Fehlerquote und die Testdaten eine hohe Fehlerquote aufweisen, deutet dies auf eine Überanpassung hin.
Wenn ein Übertraining oder die Komplexität des Modells zu einer Überanpassung führt, wäre eine logische Präventionsmaßnahme entweder eine frühere Unterbrechung des Trainingsprozesses (auch als „Early Stopping“ bekannt) oder eine Reduzierung der Komplexität des Modells durch Eliminierung weniger relevanter Eingaben. Wenn Sie jedoch das Training zu früh unterbrechen oder zu viele wichtige Merkmale ausschließen, kann es zum gegenteiligen Problem kommen, nämlich zu einer Unteranpassung Ihres Modells. Eine Unteranpassung liegt vor, wenn das Modell nicht lange genug trainiert wurde oder die Eingabevariablen nicht signifikant genug sind, um eine sinnvolle Beziehung zwischen den Eingabe- und Ausgabevariablen zu ermitteln.
Bei der k-fachen Kreuzvalidierung werden die Daten in k gleich große Teilmengen aufgeteilt, die auch als „Folds“ bezeichnet werden. Eine der k-Folds dient als Testset, auch Holdout-Set oder Validierungsset genannt, und die übrigen Folds dienen zum Trainieren des Modells. Dieser Prozess wird so lange wiederholt, bis jeder Fold als Holdout-Fold fungiert hat. Nach jeder Auswertung wird eine Punktzahl festgehalten. Wenn alle Iterationen abgeschlossen sind, werden die Punktzahlen zur Bewertung der Leistung des Gesamtmodells ermittelt.
Um die Genauigkeit von Modellen für maschinelles Lernen zu verstehen, ist es wichtig, die Eignung des Modells zu testen. Die k-fache Kreuzvalidierung ist eine der beliebtesten Techniken zur Bewertung der Genauigkeit des Modells.
Bei der k-fachen Kreuzvalidierung werden die Daten in k gleich große Teilmengen aufgeteilt, die auch als „Folds“ bezeichnet werden. Eine der k-Folds dient als Testset, auch Holdout-Set oder Validierungsset genannt, und die übrigen Folds dienen zum Trainieren des Modells. Dieser Prozess wird so lange wiederholt, bis jeder Fold als Holdout-Fold fungiert hat. Nach jeder Auswertung wird eine Punktzahl festgehalten. Wenn alle Iterationen abgeschlossen sind, werden die Punktzahlen zur Bewertung der Leistung des Gesamtmodells ermittelt.
Auch wenn uns die Verwendung eines linearen Modells bei der Vermeidung einer Überanpassung hilft, sind viele Probleme in der realen Welt nichtlinear. Sie müssen nicht nur wissen, wie Sie eine Überanpassung erkennen können, sondern auch, wie Sie eine Überanpassung ganz vermeiden können. Im Folgenden finden Sie eine Reihe von Techniken, mit denen Sie eine Überanpassung verhindern können:
Während die obige Beschreibung die gängige Definition von Überanpassung ist, deuten neuere Forschungsergebnisse (Link befindet sich außerhalb von IBM) darauf hin, dass komplexe Modelle wie Deep-Learning-Modelle und neuronale Netze eine hohe Genauigkeit aufweisen, obwohl sie auf „exakte Anpassung oder Interpolation“ trainiert wurden. Diese Erkenntnis steht im direkten Widerspruch zur historischen Literatur zu diesem Thema und wird durch die untenstehende Risikokurve des „doppelten Abstiegs“ erklärt. Sie sehen, dass sich die Leistung des Modells verbessert, wenn das Modell über die Schwelle der Interpolation hinaus lernt. Die Methoden, die wir bereits erwähnt haben, um eine Überanpassung zu vermeiden, wie z. B. Early Stopping und Regularisierung, können die Interpolation tatsächlich verhindern.
Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.
IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.
Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.
Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.
Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.
Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.
Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.