Was ist Modelloptimierung?

Rückansicht eines Tontechnikers, der ein Mischpult bedient

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist Modelloptimierung?

Bei der Modelloptimierung werden die Hyperparameter eines maschinellen Lernmodells für die Erzielung der besten Trainingsleistung optimiert. Dabei werden Anpassungen vorgenommen, bis der optimale Satz von Hyperparametern gefunden ist, sodass die Genauigkeit, Generierungsqualität und andere Leistungsmetriken verbessert werden können.

Da bei der Modelloptimierung die optimalen Hyperparameter eines Modells ermittelt werden, wird sie auch als Hyperparameteroptimierung oder alternativ als Hyperparameter-Tunin bezeichnet.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Was sind Hyperparameter?

Hyperparameter sind Modellkonfigurationsvariablen, die nicht aus Trainingsdaten abgeleitet werden können. Diese Variablen bestimmen die Hauptmerkmale und das Verhalten eines Modells. Einige Hyperparameter, wie beispielsweise die Lernrate, steuern das Verhalten des Modells während des Trainings. Andere bestimmen die Art des Modells selbst, beispielsweise ein Hyperparameter, der die Anzahl der Ebenen in einem Neural Network festlegt.

Data Scientists müssen die Hyperparameterwerte eines Modells für maschinelles Lernen (ML) vor Beginn des Trainings konfigurieren. Die Auswahl der richtigen Kombination von Hyperparametern im Voraus ist für ein erfolgreiches ML-Modelltraining unerlässlich.

Hyperparameter vs. Modellparameter

Modellparameter oder Modellgewichtungen sind Variablen, die KI-Modelle während des Trainings entdecken. KI-Algorithmen lernen die zugrunde liegenden Beziehungen, Muster und Verteilungen ihrer Trainingsdatensätze und wenden diese Erkenntnisse dann für erfolgreiche Vorhersagen auf neue Daten an.

Während ein Algorithmus für maschinelles Lernen trainiert wird, legt er seine Parameter fest und aktualisiert sie. Diese Parameter stellen dar, was ein Modell aus seinem Datensatz lernt, und ändern sich im Laufe der Zeit mit jeder Iterations seines Optimierungsalgorithmus.

Warum ist die Modelloptimierung wichtig?

Die Modelloptimierung ist wichtig, da sich die Werte der Hyperparameter direkt auf die Modellleistung auswirken. Eine gute Konfiguration der Hyperparameter führt zu einem besseren Lernen der Modelle während des Trainings.

Ohne eine gute Abstimmung kann ein Modell zur Überanpassung neigen, wenn es sich zu eng an die Trainingsdaten hält und sich nicht an neue Datensätze anpassen kann. Zu den weiteren Mängeln können übermäßige Modellverzerrungen oder Varianzen gehören.

Jeder Algorithmus für maschinelles Lernen verfügt über eine eigene optimale Kombination von Hyperparametern, wobei einige die Leistung stärker beeinflussen als andere. Die Beschränkung der Modelloptimierung auf einen Kernsatz der wichtigsten Hyperparameter kann Zeit und Rechenressourcen verbrauchen.

Überanpassung

Von einer Überanpassung spricht man, wenn ein Modell zu komplex für seine Trainingsdaten ist. Seine Hyperparameter erzeugen ein neuronales Netz mit zu vielen Ebenen oder mit zu vielen trainierbaren Parametern. Bei der Überanpassung passt sich das Modell zu stark an den Trainingsdatensatz an. Ein überangepasstes Modell kann sich nicht an neue Daten anpassen, da es seine Trainingsdaten nicht verallgemeinern kann.

Stellen Sie sich zwei Schüler in einem Klassenzimmer vor. Ein Schüler lernt, indem er sich Fakten einprägt, der andere, indem er die zugrunde liegenden Konzepte versteht, die vermittelt werden. Bislang haben beide in den Tests zum Unterrichtsstoff gut abgeschnitten. Aber was passiert, wenn sie das Gelernte auf neue Themen anwenden müssen?

Der Schüler, der verallgemeinern kann, wird das Gelernte erfolgreich übertragen, während der Schüler, der sich auf sein Gedächtnis verlässt, Schwierigkeiten damit haben könnte. Er hat sein Verständnis zu sehr an die Besonderheiten des Unterrichtsinhalts „angepasst“, während er die Grundprinzipien nicht verstanden hat.

Bias

Verzerrung ist die Lücke zwischen den Vorhersagen eines Modells und den tatsächlichen Ergebnissen in der Praxis. Eine Verzerrung kann von fehlerhaften Trainingsdaten stammen, ist aber auch die Folge einer suboptimalen Modelloptimierung – das Modell kann nicht gut lernen, selbst wenn die Trainingsdaten brauchbar sind.

Modelle mit hoher Verzerrung ignorieren Feinheiten in den Trainingsdaten und können während des Trainings keine genauen Vorhersagen generieren. Einfachere Algorithmen, wie Regression, sind anfälliger für hohe Verzerrung, weil sie komplexere Zusammenhänge in ihren Trainingsdaten nicht erfassen können.

Die Auswahl des richtigen Algorithmus für eine bestimmte Aufgabe ist noch vor Beginn der Modelloptimierung der erste Schritt zu einer guten Leistung.

Varianz

Die Varianz stellt umgekehrt die Konsistenz der Vorhersagen eines Modells dar. Eine größere Varianz bedeutet, dass ein Modell bei unbekannten Daten weniger konsistente Vorhersagen macht, obwohl es bei Trainings-Datensätzen oft gute Ergebnisse liefert. Modelle mit hoher Varianz weisen eine Überanpassung auf – sie können das Gelernte aus den Trainingsdaten nicht auf neue Daten übertragen.

Die Regularisierung ist eine Technik, die die Überanpassung reduziert, indem sie das Verhältnis von Verzerrung und Varianz zugunsten einer größeren Verzerrung verschiebt. Eine gute Modelloptimierung verwaltet den Kompromiss zwischen Verzerrung und Varianz für optimale Vorhersagen in der Praxis.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Wie funktioniert die Modelloptimierung?

Bei der Modelloptimierung wird die Konfiguration von Hyperparametern ermittelt, die zum besten Trainingsergebnis führt. Mitunter können Data Scientists beispielsweise bei der Erstellung kleinerer, einfacher Modelle Hyperparameter im Voraus manuell konfigurieren. Transformer und andere komplexe Modelle können jedoch Tausende von möglichen Hyperparameterkombinationen aufweisen.

Bei so vielen Optionen können Data Scientists den Hyperparametersuchraum so einschränken, dass er den Teil der möglichen Kombinationen abdeckt, der am ehesten optimale Ergebnisse liefert. Außerdem können sie automatische Methoden zur algorithmischen Ermittlung der optimalen Hyperparameter für den jeweiligen Anwendungsfall einsetzen.

Methoden der Modelloptimierung

Zu den gängigsten Methoden der Modelloptimierung gehören:

Rastersuche
Zufällige Suche
Bayes'sche Optimierung
Hyperband

Rastersuche

Die Rastersuche ist die „Brute-Force“-Methode zur Modelloptimierung. Data Scientists erstellen einen Suchraum, der aus allen möglichen Hyperparameterwerten besteht. Anschließend erzeugt der Rastersuchalgorithmus alle verfügbaren Hyperparameterkombinationen. Das Modell wird für jede Hyperparameterkombination trainiert und validiert, wobei das leistungsstärkste Modell für die Verwendung ausgewählt wird.

Da alle möglichen Hyperparameterwerte statt einer kleineren Teilmenge getestet werden, ist die Rastersuche eine umfassende Optimierungsmethode. Ein Nachteil dieses erweiterten Umfangs ist die Zeit- und Ressourcenintensität der Rastersuche.

Zufällige Suche

Anstatt jede mögliche Hyperparameter-Konfiguration zu testen, wählen zufällige Suchalgorithmen Hyperparameter-Werte aus einer statistischen Verteilung potenzieller Optionen aus. Data Scientists stellen die wahrscheinlichsten Hyperparameterwerte zusammen und erhöhen so die Chancen des Algorithmus, eine praktikable Option auszuwählen.

Die Zufallssuche ist schneller und einfacher zu implementieren als die Rastersuche. Da jedoch nicht jede Kombination getestet wird, gibt es keine Garantie dafür, dass die beste Hyperparameterkonfiguration gefunden wird.

Bayes'sche Optimierung

Im Gegensatz zur Raster- und Zufallssuche wählt die Bayes'sche Optimierung die Hyperparameterwerte auf Grundlage der Ergebnisse früherer Versuche aus. Der Algorithmus verwendet die Testergebnisse früherer Hyperparameterwerte, um Werte vorherzusagen, die wahrscheinlich zu besseren Ergebnissen führen.

Bei der Bayes'schen Optimierung wird ein probabilistisches Modell der Zielfunktion erstellt. Diese Ersatzfunktion wird im Laufe der Zeit immer effizienter, je besser ihre Ergebnisse werden. Sie vermeidet die Zuweisung von Ressourcen für weniger leistungsfähige Hyperparameterwerte, während sie sich auf die optimale Konfiguration konzentriert.

Die Technik zur Optimierung eines Modells auf der Grundlage vorheriger Testrunden wird als sequentielle modellbasierte Optimierung (SMBO) bezeichnet.

Hyperband

Hyperband verbessert den Workflow der zufälligen Suche, indem es sich auf vielversprechende Hyperparameterkonfigurationen konzentriert und weniger durchführbare Suchvorgänge abbricht. Bei jeder Iteration entfernt der Hyperband-Algorithmus die Hälfte aller getesteten Konfigurationen mit der schlechtesten Leistung.

Der Ansatz der „aufeinanderfolgenden Halbierung“ von Hyperband konzentriert sich auf die vielversprechendsten Konfigurationen, bis die beste aus dem ursprünglichen Kandidatenpool ermittelt wird.

Modelloptimierung vs. Modelltraining

Während bei der Modelloptimierung die optimalen Hyperparameter ermittelt werden, wird einem Algorithmus des maschinellen Lernens beim Modelltraining das Erkennen von Mustern in seinem Trainingsdatensatz und das Treffen genauer Vorhersagen für neue Daten beigebracht.

Der Trainingsprozess verwendet einen Optimierungsalgorithmus, um eine Verlustfunktion oder Zielfunktion zu minimieren, die die Lücke zwischen den Vorhersagen eines Modells und den tatsächlichen Werten misst. Ziel ist die Ermittlung der besten Kombination von Modellgewichtungen und Verzerrungen für einen möglichst niedrigen Wert der Zielfunktion. Der Optimierungsalgorithmus aktualisiert die Gewichtungen eines Modells während des Trainings regelmäßig.

Die Optimierungsalgorithmen der Gradientenabstiegsfamilie arbeiten, indem sie den Gradienten der Verlustfunktion zur Ermittlung ihres Minimalwerts absteigen lassen: der Punkt, an dem das Modell am genauesten ist. Ein lokales Minimum ist ein Minimalwert in einem bestimmten Bereich, der jedoch nicht unbedingt das globale Minimum der Funktion, also den absolut niedrigsten Wert, darstellt.

Die Ermittlung des globalen Minimums der Verlustfunktion ist nicht immer erforderlich. Ein Modell gilt als konvergent, wenn seine Verlustfunktion erfolgreich minimiert wurde.

Vergleichsprüfung, Tests und Retraining

Nach dem Training werden die Modelle einer Vergleichsprüfung unterzogen, bei der die Ergebnisse des Trainings mit einem anderen Teil der Trainingsdaten überprüft werden. Die Vorhersagen des Modells werden mit den tatsächlichen Werten der Validierungsdaten verglichen. Das leistungsstärkste Modell wird dann in die Testphase verschoben, in der seine Vorhersagen vor der Bereitstellung noch einmal auf ihre Genauigkeit geprüft werden. Vergleichsprüfungen und Tests sind für die Bewertung großer Sprachmodelle (LLM) unerlässlich.

Retraining ist ein Teil des KI-Lebenszyklus von MLOps (Machine Learning Operations), der ein Modell im Laufe der Zeit kontinuierlich und autonom neu trainiert, damit es stets optimal funktioniert.

Modelloptimierung vs. Feinabstimmung

Bei der Modelloptimierung werden die besten Hyperparameterwerte für das Training identifiziert, während bei der Feinabstimmung ein vortrainiertes Foundation Model für bestimmte nachgelagerte Aufgaben angepasst wird. Feinabstimmung ist eine Art Transferlernen – wenn das bereits vorhandene Lernen eines Modells an neue Aufgaben angepasst wird.

Bei der Feinabstimmung wird ein vorab trainiertes Modell erneut anhand eines kleineren, spezielleren Datensatzes trainiert, der für den beabsichtigten Anwendungsfall des Modells relevant ist. Wenn ein Modell zunächst auf einem kleinen Datensatz trainiert wird, besteht die Gefahr der Überanpassung. Das Training mit einem großen, verallgemeinerten Datensatz kann dieses Risiko jedoch mindern.

Beispiele für Hyperparameter

Zwar verfügt jeder Algorithmus über einen eigenen Satz von Hyperparametern, doch viele davon werden bei ähnlichen Algorithmen gemeinsam genutzt. Zu den üblichen Hyperparametern in den Neural Networks, die große Sprachmodelle (LLMs) unterstützen, gehören:

Lernrate
Rückgang der Lernrate
Epochen
Batch-Größe
Dynamik
Anzahl der verborgenen Schichten
Knoten pro Ebene
Aktivierungsfunktion

Lernrate

Die Lernrate bestimmt, wie schnell ein Modell seine Gewichtungen während des Trainings aktualisiert. Eine höhere Lernrate bedeutet, dass ein Modell schneller lernt, jedoch das Risiko besteht, über ein lokales Minimum seiner Verlustfunktion hinauszugehen. Gleichzeitig kann eine niedrige Lernrate zu übermäßig langen Trainingszeiten führen und somit die Ressourcen und Kosten erhöhen.

Rückgang der Lernrate

Der Abfall der Lernrate ist ein Hyperparameter, der die Lernrate eines ML-Algorithmus im Laufe der Zeit verlangsamt. Das Modell aktualisiert seine Parameter zunächst schneller und dann mit größerer Differenzierung, wenn es sich der Konvergenz nähert, wodurch das Risiko einer Überschreitung verringert wird.

Epochen

Beim Modelltraining wird ein Modell mehrfach mit seinen Trainingsdaten konfrontiert, sodass die Gewichtungen iterativ aktualisiert werden. Eine Epoche tritt jedes Mal auf, wenn das Modell seinen gesamten Trainingsdatensatz verarbeitet. Der Hyperparameter „Epochen“ legt die Anzahl der Epochen fest, aus denen der Trainingsprozess besteht.

Batch-Größe

Algorithmen für maschinelles Lernen verarbeiten nicht bei jeder Iteration des Optimierungsalgorithmus ihren gesamten Trainingsdatensatz. Stattdessen werden die Trainingsdaten in Batches unterteilt, wobei die Modellgewichtungen nach jedem Batch aktualisiert werden. Die Batchgröße bestimmt die Anzahl der Datenproben in jedem Batch.

Dynamik

Momentum ist die Neigung eines ML-Algorithmus, seine Gewichte in dieselbe Richtung wie frühere Aktualisierungen zu aktualisieren. Man kann sich das Momentum als die Überzeugung eines Algorithmus beim Lernen vorstellen. Ein hohes Momentum führt einen Algorithmus zu einer schnelleren Konvergenz, allerdings mit der Gefahr, dass signifikante lokale Minima umgangen werden. In der Zwischenzeit kann eine niedrige Dynamik dazu führen, dass ein Algorithmus mit seinen Updates hin und her schwankt, was seinen Fortschritt zum Erliegen bringt.

Anzahl der verborgenen Schichten

Neuronale Netze modellieren die Struktur des menschlichen Gehirns und enthalten mehrere Ebenen miteinander verbundener Neuronen oder Knoten. Dank dieser Komplexität können fortgeschrittene Modelle, wie beispielsweise Transformatormodelle, komplexe generative Aufgaben bewältigen. Weniger Ebenen sorgen für ein schlankeres Modell, doch mehr Ebenen öffnen die Tür zu komplexeren Aufgaben.

Knoten pro Ebene

Jede Ebene eines neuronalen Netzes hat eine vorher festgelegte Anzahl an Knoten. Mit zunehmender Breite der Ebenen steigt die Fähigkeit des Modells zur Verarbeitung komplexer Beziehungen zwischen Datenpunkten, jedoch auf Kosten höherer Berechnungsanforderungen.

Aktivierungsfunktion

Eine Aktivierungsfunktion ist ein Hyperparameter, mit dem Modelle die Fähigkeit für die Erstellung nichtlinearer Grenzen zwischen Datengruppen erhalten. Falls die genaue Klassifizierung von Datenpunkten in Gruppen, die durch eine gerade Linie getrennt sind, nicht möglich ist, bietet die Aktivierung die erforderliche Flexibilität für komplexere Unterteilungen.

Ein neuronales Netz ohne Aktivierungsfunktion ist im Wesentlichen ein Regressionsmodell.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Ressourcen

ROI erzielen: KI-Agenten in Ihrem Unternehmen

Nehmen Sie an einem Webinar von IBM teil, in dem wir Ihnen anhand von Beispielen aus verschiedenen Branchen, Anwendungsfällen und sogar IBMs eigenen Erfolgsgeschichten zeigen, wie Sie durch agentische KI einen echten ROI erzielen können.

IBM wird als führend im Bereich Data Science und maschinelles Lernen ausgezeichnet

Erfahren Sie, warum IBM im Gartner Magic Quadrant™ for Data Science and Machine Learning Platforms 2025 als führend eingestuft wurde.

Von KI-Projekten zu Gewinnen: Wie agentische KI finanzielle Erträge sichern kann

Erfahren Sie, wie Unternehmen von der KI-Einführung in verteilten Pilotprojekten zu ihrer Nutzung übergehen, um die Transformation im Kern voranzutreiben.

Zu mehr KI-Know-how

Greifen Sie auf unseren vollständigen Katalog mit über 100 Online-Kursen zu, indem Sie noch heute ein Abonnement für Einzel- oder Mehrbenutzer erwerben, mit dem Sie Ihre Fähigkeiten in einer Reihe unserer Produkte zu einem günstigen Preis erweitern können.

IBM Granite erkunden

IBM Granite ist eine Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

IBM AI Academy

Das Programm, das von führenden IBM Experten geleitet wird, soll Führungskräften dabei helfen, das nötige Wissen zu erwerben, um die Prioritäten für KI-Investitionen zu setzen, die zu mehr Wachstum führen.

KI in Aktion 2024

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

CEO-Leitfaden 2025: 5 Denkanstöße zur Steigerung des Unternehmenswachstums

Nutzen Sie diese fünf Denkanstöße, um mit agentischer KI Unsicherheit zu durchbrechen, die geschäftliche Neuerfindung voranzutreiben und das Wachstum zu beflügeln.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Weiterführende Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

watsonx.ai erkunden

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Buchen Sie eine Live-Demo

Was ist Modelloptimierung?

Autoren

Was ist Modelloptimierung?

Die neuesten Erkenntnisse und Insights zu KI

Was sind Hyperparameter?

Hyperparameter vs. Modellparameter

Warum ist die Modelloptimierung wichtig?

Überanpassung

Bias

Varianz

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Wie funktioniert die Modelloptimierung?

Methoden der Modelloptimierung

Rastersuche

Zufällige Suche

Bayes'sche Optimierung

Hyperband

Modelloptimierung vs. Modelltraining

Vergleichsprüfung, Tests und Retraining

Modelloptimierung vs. Feinabstimmung

Beispiele für Hyperparameter

Lernrate

Rückgang der Lernrate

Epochen

Batch-Größe

Dynamik

Anzahl der verborgenen Schichten

Knoten pro Ebene

Aktivierungsfunktion

Share

Ressourcen