Bei der Modelloptimierung werden die Hyperparameter eines maschinellen Lernmodells für die Erzielung der besten Trainingsleistung optimiert. Dabei werden Anpassungen vorgenommen, bis der optimale Satz von Hyperparametern gefunden ist, sodass die Genauigkeit, Generierungsqualität und andere Leistungsmetriken verbessert werden können.
Da bei der Modelloptimierung die optimalen Hyperparameter eines Modells ermittelt werden, wird sie auch als Hyperparameteroptimierung oder alternativ als Hyperparameter-Tunin bezeichnet.
Hyperparameter sind Modellkonfigurationsvariablen, die nicht aus Trainingsdaten abgeleitet werden können. Diese Variablen bestimmen die Hauptmerkmale und das Verhalten eines Modells. Einige Hyperparameter, wie beispielsweise die Lernrate, steuern das Verhalten des Modells während des Trainings. Andere bestimmen die Art des Modells selbst, beispielsweise ein Hyperparameter, der die Anzahl der Ebenen in einem Neural Network festlegt.
Data Scientists müssen die Hyperparameterwerte eines Modells für maschinelles Lernen (ML) vor Beginn des Trainings konfigurieren. Die Auswahl der richtigen Kombination von Hyperparametern im Voraus ist für ein erfolgreiches ML-Modelltraining unerlässlich.
Modellparameter oder Modellgewichtungen sind Variablen, die KI-Modelle während des Trainings entdecken. KI-Algorithmen lernen die zugrunde liegenden Beziehungen, Muster und Verteilungen ihrer Trainingsdatensätze und wenden diese Erkenntnisse dann für erfolgreiche Vorhersagen auf neue Daten an.
Während ein Algorithmus für maschinelles Lernen trainiert wird, legt er seine Parameter fest und aktualisiert sie. Diese Parameter stellen dar, was ein Modell aus seinem Datensatz lernt, und ändern sich im Laufe der Zeit mit jeder Iterations seines Optimierungsalgorithmus.
Die Modelloptimierung ist wichtig, da sich die Werte der Hyperparameter direkt auf die Modellleistung auswirken. Eine gute Konfiguration der Hyperparameter führt zu einem besseren Lernen der Modelle während des Trainings.
Ohne eine gute Abstimmung kann ein Modell zur Überanpassung neigen, wenn es sich zu eng an die Trainingsdaten hält und sich nicht an neue Datensätze anpassen kann. Zu den weiteren Mängeln können übermäßige Modellverzerrungen oder Varianzen gehören.
Jeder Algorithmus für maschinelles Lernen verfügt über eine eigene optimale Kombination von Hyperparametern, wobei einige die Leistung stärker beeinflussen als andere. Die Beschränkung der Modelloptimierung auf einen Kernsatz der wichtigsten Hyperparameter kann Zeit und Rechenressourcen verbrauchen.
Von einer Überanpassung spricht man, wenn ein Modell zu komplex für seine Trainingsdaten ist. Seine Hyperparameter erzeugen ein neuronales Netz mit zu vielen Ebenen oder mit zu vielen trainierbaren Parametern. Bei der Überanpassung passt sich das Modell zu stark an den Trainingsdatensatz an. Ein überangepasstes Modell kann sich nicht an neue Daten anpassen, da es seine Trainingsdaten nicht verallgemeinern kann.
Stellen Sie sich zwei Schüler in einem Klassenzimmer vor. Ein Schüler lernt, indem er sich Fakten einprägt, der andere, indem er die zugrunde liegenden Konzepte versteht, die vermittelt werden. Bislang haben beide in den Tests zum Unterrichtsstoff gut abgeschnitten. Aber was passiert, wenn sie das Gelernte auf neue Themen anwenden müssen?
Der Schüler, der verallgemeinern kann, wird das Gelernte erfolgreich übertragen, während der Schüler, der sich auf sein Gedächtnis verlässt, Schwierigkeiten damit haben könnte. Er hat sein Verständnis zu sehr an die Besonderheiten des Unterrichtsinhalts „angepasst“, während er die Grundprinzipien nicht verstanden hat.
Verzerrung ist die Lücke zwischen den Vorhersagen eines Modells und den tatsächlichen Ergebnissen in der Praxis. Eine Verzerrung kann von fehlerhaften Trainingsdaten stammen, ist aber auch die Folge einer suboptimalen Modelloptimierung – das Modell kann nicht gut lernen, selbst wenn die Trainingsdaten brauchbar sind.
Modelle mit hoher Verzerrung ignorieren Feinheiten in den Trainingsdaten und können während des Trainings keine genauen Vorhersagen generieren. Einfachere Algorithmen, wie Regression, sind anfälliger für hohe Verzerrung, weil sie komplexere Zusammenhänge in ihren Trainingsdaten nicht erfassen können.
Die Auswahl des richtigen Algorithmus für eine bestimmte Aufgabe ist noch vor Beginn der Modelloptimierung der erste Schritt zu einer guten Leistung.
Die Varianz stellt umgekehrt die Konsistenz der Vorhersagen eines Modells dar. Eine größere Varianz bedeutet, dass ein Modell bei unbekannten Daten weniger konsistente Vorhersagen macht, obwohl es bei Trainings-Datensätzen oft gute Ergebnisse liefert. Modelle mit hoher Varianz weisen eine Überanpassung auf – sie können das Gelernte aus den Trainingsdaten nicht auf neue Daten übertragen.
Die Regularisierung ist eine Technik, die die Überanpassung reduziert, indem sie das Verhältnis von Verzerrung und Varianz zugunsten einer größeren Verzerrung verschiebt. Eine gute Modelloptimierung verwaltet den Kompromiss zwischen Verzerrung und Varianz für optimale Vorhersagen in der Praxis.
Bei der Modelloptimierung wird die Konfiguration von Hyperparametern ermittelt, die zum besten Trainingsergebnis führt. Mitunter können Data Scientists beispielsweise bei der Erstellung kleinerer, einfacher Modelle Hyperparameter im Voraus manuell konfigurieren. Transformer und andere komplexe Modelle können jedoch Tausende von möglichen Hyperparameterkombinationen aufweisen.
Bei so vielen Optionen können Data Scientists den Hyperparametersuchraum so einschränken, dass er den Teil der möglichen Kombinationen abdeckt, der am ehesten optimale Ergebnisse liefert. Außerdem können sie automatische Methoden zur algorithmischen Ermittlung der optimalen Hyperparameter für den jeweiligen Anwendungsfall einsetzen.
Zu den gängigsten Methoden der Modelloptimierung gehören:
Rastersuche
Zufällige Suche
Bayes'sche Optimierung
Hyperband
Die Rastersuche ist die „Brute-Force“-Methode zur Modelloptimierung. Data Scientists erstellen einen Suchraum, der aus allen möglichen Hyperparameterwerten besteht. Anschließend erzeugt der Rastersuchalgorithmus alle verfügbaren Hyperparameterkombinationen. Das Modell wird für jede Hyperparameterkombination trainiert und validiert, wobei das leistungsstärkste Modell für die Verwendung ausgewählt wird.
Da alle möglichen Hyperparameterwerte statt einer kleineren Teilmenge getestet werden, ist die Rastersuche eine umfassende Optimierungsmethode. Ein Nachteil dieses erweiterten Umfangs ist die Zeit- und Ressourcenintensität der Rastersuche.
Anstatt jede mögliche Hyperparameter-Konfiguration zu testen, wählen zufällige Suchalgorithmen Hyperparameter-Werte aus einer statistischen Verteilung potenzieller Optionen aus. Data Scientists stellen die wahrscheinlichsten Hyperparameterwerte zusammen und erhöhen so die Chancen des Algorithmus, eine praktikable Option auszuwählen.
Die Zufallssuche ist schneller und einfacher zu implementieren als die Rastersuche. Da jedoch nicht jede Kombination getestet wird, gibt es keine Garantie dafür, dass die beste Hyperparameterkonfiguration gefunden wird.
Im Gegensatz zur Raster- und Zufallssuche wählt die Bayes'sche Optimierung die Hyperparameterwerte auf Grundlage der Ergebnisse früherer Versuche aus. Der Algorithmus verwendet die Testergebnisse früherer Hyperparameterwerte, um Werte vorherzusagen, die wahrscheinlich zu besseren Ergebnissen führen.
Bei der Bayes'schen Optimierung wird ein probabilistisches Modell der Zielfunktion erstellt. Diese Ersatzfunktion wird im Laufe der Zeit immer effizienter, je besser ihre Ergebnisse werden. Sie vermeidet die Zuweisung von Ressourcen für weniger leistungsfähige Hyperparameterwerte, während sie sich auf die optimale Konfiguration konzentriert.
Die Technik zur Optimierung eines Modells auf der Grundlage vorheriger Testrunden wird als sequentielle modellbasierte Optimierung (SMBO) bezeichnet.
Hyperband verbessert den Workflow der zufälligen Suche, indem es sich auf vielversprechende Hyperparameterkonfigurationen konzentriert und weniger durchführbare Suchvorgänge abbricht. Bei jeder Iteration entfernt der Hyperband-Algorithmus die Hälfte aller getesteten Konfigurationen mit der schlechtesten Leistung.
Der Ansatz der „aufeinanderfolgenden Halbierung“ von Hyperband konzentriert sich auf die vielversprechendsten Konfigurationen, bis die beste aus dem ursprünglichen Kandidatenpool ermittelt wird.
Während bei der Modelloptimierung die optimalen Hyperparameter ermittelt werden, wird einem Algorithmus des maschinellen Lernens beim Modelltraining das Erkennen von Mustern in seinem Trainingsdatensatz und das Treffen genauer Vorhersagen für neue Daten beigebracht.
Der Trainingsprozess verwendet einen Optimierungsalgorithmus, um eine Verlustfunktion oder Zielfunktion zu minimieren, die die Lücke zwischen den Vorhersagen eines Modells und den tatsächlichen Werten misst. Ziel ist die Ermittlung der besten Kombination von Modellgewichtungen und Verzerrungen für einen möglichst niedrigen Wert der Zielfunktion. Der Optimierungsalgorithmus aktualisiert die Gewichtungen eines Modells während des Trainings regelmäßig.
Die Optimierungsalgorithmen der Gradientenabstiegsfamilie arbeiten, indem sie den Gradienten der Verlustfunktion zur Ermittlung ihres Minimalwerts absteigen lassen: der Punkt, an dem das Modell am genauesten ist. Ein lokales Minimum ist ein Minimalwert in einem bestimmten Bereich, der jedoch nicht unbedingt das globale Minimum der Funktion, also den absolut niedrigsten Wert, darstellt.
Die Ermittlung des globalen Minimums der Verlustfunktion ist nicht immer erforderlich. Ein Modell gilt als konvergent, wenn seine Verlustfunktion erfolgreich minimiert wurde.
Nach dem Training werden die Modelle einer Vergleichsprüfung unterzogen, bei der die Ergebnisse des Trainings mit einem anderen Teil der Trainingsdaten überprüft werden. Die Vorhersagen des Modells werden mit den tatsächlichen Werten der Validierungsdaten verglichen. Das leistungsstärkste Modell wird dann in die Testphase verschoben, in der seine Vorhersagen vor der Bereitstellung noch einmal auf ihre Genauigkeit geprüft werden. Vergleichsprüfungen und Tests sind für die Bewertung großer Sprachmodelle (LLM) unerlässlich.
Retraining ist ein Teil des KI-Lebenszyklus von MLOps (Machine Learning Operations), der ein Modell im Laufe der Zeit kontinuierlich und autonom neu trainiert, damit es stets optimal funktioniert.
Bei der Modelloptimierung werden die besten Hyperparameterwerte für das Training identifiziert, während bei der Feinabstimmung ein vortrainiertes Foundation Model für bestimmte nachgelagerte Aufgaben angepasst wird. Feinabstimmung ist eine Art Transferlernen – wenn das bereits vorhandene Lernen eines Modells an neue Aufgaben angepasst wird.
Bei der Feinabstimmung wird ein vorab trainiertes Modell erneut anhand eines kleineren, spezielleren Datensatzes trainiert, der für den beabsichtigten Anwendungsfall des Modells relevant ist. Wenn ein Modell zunächst auf einem kleinen Datensatz trainiert wird, besteht die Gefahr der Überanpassung. Das Training mit einem großen, verallgemeinerten Datensatz kann dieses Risiko jedoch mindern.
Zwar verfügt jeder Algorithmus über einen eigenen Satz von Hyperparametern, doch viele davon werden bei ähnlichen Algorithmen gemeinsam genutzt. Zu den üblichen Hyperparametern in den Neural Networks, die große Sprachmodelle (LLMs) unterstützen, gehören:
Lernrate
Rückgang der Lernrate
Epochen
Batch-Größe
Dynamik
Anzahl der verborgenen Schichten
Knoten pro Ebene
Aktivierungsfunktion
Die Lernrate bestimmt, wie schnell ein Modell seine Gewichtungen während des Trainings aktualisiert. Eine höhere Lernrate bedeutet, dass ein Modell schneller lernt, jedoch das Risiko besteht, über ein lokales Minimum seiner Verlustfunktion hinauszugehen. Gleichzeitig kann eine niedrige Lernrate zu übermäßig langen Trainingszeiten führen und somit die Ressourcen und Kosten erhöhen.
Der Abfall der Lernrate ist ein Hyperparameter, der die Lernrate eines ML-Algorithmus im Laufe der Zeit verlangsamt. Das Modell aktualisiert seine Parameter zunächst schneller und dann mit größerer Differenzierung, wenn es sich der Konvergenz nähert, wodurch das Risiko einer Überschreitung verringert wird.
Beim Modelltraining wird ein Modell mehrfach mit seinen Trainingsdaten konfrontiert, sodass die Gewichtungen iterativ aktualisiert werden. Eine Epoche tritt jedes Mal auf, wenn das Modell seinen gesamten Trainingsdatensatz verarbeitet. Der Hyperparameter „Epochen“ legt die Anzahl der Epochen fest, aus denen der Trainingsprozess besteht.
Algorithmen für maschinelles Lernen verarbeiten nicht bei jeder Iteration des Optimierungsalgorithmus ihren gesamten Trainingsdatensatz. Stattdessen werden die Trainingsdaten in Batches unterteilt, wobei die Modellgewichtungen nach jedem Batch aktualisiert werden. Die Batchgröße bestimmt die Anzahl der Datenproben in jedem Batch.
Momentum ist die Neigung eines ML-Algorithmus, seine Gewichte in dieselbe Richtung wie frühere Aktualisierungen zu aktualisieren. Man kann sich das Momentum als die Überzeugung eines Algorithmus beim Lernen vorstellen. Ein hohes Momentum führt einen Algorithmus zu einer schnelleren Konvergenz, allerdings mit der Gefahr, dass signifikante lokale Minima umgangen werden. In der Zwischenzeit kann eine niedrige Dynamik dazu führen, dass ein Algorithmus mit seinen Updates hin und her schwankt, was seinen Fortschritt zum Erliegen bringt.
Neuronale Netze modellieren die Struktur des menschlichen Gehirns und enthalten mehrere Ebenen miteinander verbundener Neuronen oder Knoten. Dank dieser Komplexität können fortgeschrittene Modelle, wie beispielsweise Transformatormodelle, komplexe generative Aufgaben bewältigen. Weniger Ebenen sorgen für ein schlankeres Modell, doch mehr Ebenen öffnen die Tür zu komplexeren Aufgaben.
Jede Ebene eines neuronalen Netzes hat eine vorher festgelegte Anzahl an Knoten. Mit zunehmender Breite der Ebenen steigt die Fähigkeit des Modells zur Verarbeitung komplexer Beziehungen zwischen Datenpunkten, jedoch auf Kosten höherer Berechnungsanforderungen.
Eine Aktivierungsfunktion ist ein Hyperparameter, mit dem Modelle die Fähigkeit für die Erstellung nichtlinearer Grenzen zwischen Datengruppen erhalten. Falls die genaue Klassifizierung von Datenpunkten in Gruppen, die durch eine gerade Linie getrennt sind, nicht möglich ist, bietet die Aktivierung die erforderliche Flexibilität für komplexere Unterteilungen.
Ein neuronales Netz ohne Aktivierungsfunktion ist im Wesentlichen ein Regressionsmodell.