Was ist Hyperparameter-Tuning?

Autoren

Staff writer

Staff Editor, AI Models

IBM Think

Was ist Hyperparameter-Tuning?

Unter Hyperparameter-Tuning versteht man das Identifizieren und Auswählen der optimalen Hyperparameter, um mit diesen ein maschinelles Lernmodell zu trainieren. Bei korrekter Ausführung minimiert das Hyperparameter-Tuning die Verlustfunktion eines maschinellen Lernmodells, was bedeutet, dass die Modellleistung auf eine möglichst genaue Leistung trainiert wird.

Das Hyperparameter-Tuning ist eine experimentelle Vorgehensweise, bei der bei jeder Iteration unterschiedliche Hyperparameterwerte getestet werden, bis die besten identifiziert sind. Dieser Prozess ist entscheidend für die Leistung des Modells, da Hyperparameter den Lernprozess steuern. Die Anzahl der Neuronen in einem neuronalen Netz, die Lernrate eines generativen KI-Modells und die Kernelgröße einer Support-Vektor-Maschine sind alles Beispiele für Hyperparameter.

Eine gutes Hyperparameter-Tuning liefert eine insgesamt bessere Leistung des maschinellen Lernmodells gemäß den Metriken für die vorgesehene Aufgabe. Aus diesem Grund wird das Hyperparameter-Tuning auch als Hyperparameter-Optimierung bezeichnet.

Ein Foto eines Orchesters mit einem Dirigenten

Was sind Hyperparameter?

Hyperparameter sind Konfigurationsvariablen, die Data Scientists im Voraus festlegen, um den Trainingsprozess eines Modells für maschinelles Lernen zu steuern. Generative KI und andere probalistische Modelle nutzen ihre Erkenntnisse aus Trainingsdaten, um das wahrscheinlichste Ergebnis für eine Aufgabe vorherzusagen. Die richtige Kombination von Hyperparametern zu finden, ist unerlässlich, um die beste Leistung sowohl aus überwachten als auch aus unüberwachten Lernmodellen herauszuholen.

Hyperparameter für die Regularisierung

Hyperparameter für die Regularisierung steuern die Kapazität oder Flexibilität des Modells, d. h. den Spielraum, den es bei der Interpretation von Daten hat. Ist die Einstellung zu leicht, ist das Modell nicht in der Lage, spezifisch genug zu werden, um gute Vorhersagen zu treffen. Ist die Einstellung zu hoch, leidet das Modell unter Überanpassung: Es passt sich zu stark an seine Trainingsdaten an und wird am Ende für den Einsatz in der realen Welt zu einem Nischenprodukt.

Hyperparameter im Vergleich zu Modellparametern

Der Hauptunterschied zwischen Hyperparametern und Modellparametern im Bereich Data Science besteht darin, dass Modelle zwar Parameter aus den zugrundeliegenden Trainingsdatensätzen lernen oder schätzen, die Data Scientists jedoch die Hyperparameter für den Algorithmus des Modells definieren, bevor der Trainingsprozess beginnt. Die Modelle aktualisieren die Parameter während der Arbeit, wobei die optimalen Werte der Hyperparameter eines Modells im Voraus identifiziert und festgelegt werden.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Warum ist das Hyperparameter-Tuning wichtig?

Das Hyperparameter-Tuning ist wichtig, da es die Grundlage für die Struktur, die Trainingseffizienz und die Leistung eines Modells bildet. Optimale Hyperparameterkonfigurationen führen zu einer starken Modellleistung in der realen Welt. Operationen mit großen Sprachmodellen (Large Language Model Operations, LLMOPs) heben den Effizienzaspekt eines guten Tunings hervor, wobei der Schwerpunkt auf der Minimierung des Bedarfs an Rechenleistung liegt.

Verzerrung und Varianz

Das Ziel des Hyperparameter-Tunings ist es, Verzerrung und Varianz auszugleichen. Verzerrung ist die Abweichung zwischen den Vorhersagen eines Modells und der Realität. Modelle mit einem unzureichenden Tuning können die wichtigsten Beziehungen zwischen Datenpunkten nicht erkennen und sind nicht in der Lage, die für eine präzise Leistung erforderlichen Schlussfolgerungen zu ziehen.

Varianz ist die Sensibilität eines Modells gegenüber neuen Daten. Ein zuverlässiges Modell sollte bei der Migration von seinen Trainingsdaten zu anderen Datensätzen konsistente Ergebnisse liefern. Modelle mit einem hohen Varianzgrad sind jedoch zu komplex: Sie sind übermäßig an ihre ursprünglichen Trainingsdatensätze angepasst und haben Schwierigkeiten, neue Daten zu integrieren.

Modelle mit geringer Verzerrung sind genau, während Modelle mit geringer Varianz konsistent sind. Ein gutes Hyperparameter-Tuning optimiert beides, um das beste Modell für die jeweilige Aufgabe zu erstellen und gleichzeitig die Effizienz der Rechenressourcen während des Trainings zu maximieren.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Beispiele für Hyperparameter

Jeder Algorithmus für maschinelles Lernen bevorzugt seinen eigenen Satz von Hyperparametern, und eine Maximierung ist nicht in allen Fällen erforderlich. Manchmal führt ein operativer Ansatz bei der Abstimmung von Hyperparametern zu einer besseren Leistung.

Hyperparameter in neuronalen Netzen

Neuronale Netze sind dem menschlichen Gehirn nachempfunden und bestehen aus miteinander verbundenen Knotenpunkten, die Signale aneinander senden. Im Folgenden finden Sie einige der häufigsten Hyperparameter für das Trainieren von neuronalen Netzmodellen:

Lernrate
Rückgang der Lernrate
Batch-Größe
Anzahl der verborgenen Schichten
Anzahl der Knoten oder Neuronen pro Schicht
Momentum
Epochen
Aktivierungsfunktion

Lernrate

Die Lernrate legt die Geschwindigkeit fest, mit der ein Modell seine Parameter in jeder Iteration anpasst. Diese Anpassungen werden als Schritte bezeichnet. Eine hohe Lernrate bedeutet, dass sich ein Modell schneller anpasst, allerdings drohen eine instabile Leistung und ein Datendrift. Während eine niedrige Lernrate zwar zeitaufwändiger ist und mehr Daten erfordert, erhöht sie jedoch auch die Wahrscheinlichkeit, dass Data Scientists den geringsten Verlust eines Modells ermitteln können. Die Optimierung des Gradientenabstiegs ist ein Beispiel für eine Trainingsmetrik, die eine festgelegte Lernrate erfordert.

Rückgang der Lernrate

Der Rückgang der Lernrate legt fest, in welchem Maße die Lernrate eines Netzes im Laufe der Zeit abnimmt, so dass das Modell schneller lernen kann. Der Trainingsverlauf eines Algorithmus von der ersten Aktivierung bis zur idealen Leistung wird als Konvergenz bezeichnet.

Batch-Größe

Die Batchgröße legt die Anzahl der Stichproben fest, die das Modell berechnet, bevor seine Parameter aktualisiert werden. Sie hat einen erheblichen Einfluss sowohl auf die Recheneffizienz als auch auf die Genauigkeit des Trainingsprozesses. Eine höhere Batchgröße für sich genommen schwächt die Gesamtleistung. Eine Anpassung der Lernrate zusammen mit der Batchgröße kann diesen Verlust jedoch abmildern.

Anzahl der verborgenen Schichten

Die Anzahl der verborgenen Schichten in einem neuronalen Netz bestimmt seine Tiefe, was sich auf seine Komplexität und Lernfähigkeit auswirkt. Weniger Schichten sorgen für ein einfacheres und schnelleres Modell, wohingegen mehr Schichten – wie bei Deep Learning-Netzwerken – zu einer besseren Einstufung der Eingabedaten führen. Bei der Identifizierung des optimalen Hyperparameterwerts aus allen möglichen Kombinationen geht es um einen Kompromiss zwischen Geschwindigkeit und Genauigkeit.

Anzahl der Knoten oder Neuronen pro Schicht

Die Anzahl der Knoten oder Neuronen pro Schicht bestimmt die Breite des Modells. Je mehr Knoten oder Neuronen pro Schicht, desto größer ist die Breite des Modells und desto besser ist es in der Lage, komplexe Beziehungen zwischen Datenpunkten abzubilden.

Momentum

Momentum ist der Grad, in dem Modelle Parameter in die gleiche Richtung wie bei früheren Iterationen aktualisieren, anstatt die Richtung zu wechseln. Die meisten Data Scientists beginnen mit einem niedrigeren Hyperparameterwert für das Momentum und passen dann bei Bedarf nach oben an, um das Modell bei der Aufnahme von Trainingsdaten auf Kurs zu halten.

Epochen

Epochen ist ein Hyperparameter, der festlegt, wie oft ein Modell während des Trainingsprozesses für seinen gesamten Trainingsdatensatz verfügbar gemacht wird. Eine höhere Exposition kann zu einer verbesserten Leistung führen, birgt jedoch die Gefahr einer Überanpassung.

Aktivierungsfunktion

Die Aktivierungsfunktion führt Nichtlinearität in ein Modell ein, sodass es komplexere Datensätze verarbeiten kann. Nichtlineare Modelle können verallgemeinert und an eine größere Datenvielfalt angepasst werden.

SVM-Hyperparameter

SVM (Support Vector Machine) ist ein Algorithmus für maschinelles Lernen, der sich auf Datenklassifizierung, Regression und Sonderfallerkennung spezialisiert hat. Es hat seine eigenen wichtigen Hyperparameter:

SVM-Hyperparameter: C

C ist das Verhältnis zwischen der akzeptablen Fehlerspanne und der resultierenden Fehleranzahl, wenn ein Modell als Datenklassifizierer fungiert. Ein niedrigerer C-Wert schafft eine weiche Entscheidungsgrenze mit höherer Fehlertoleranz und allgemeinerer Leistung, birgt jedoch das Risiko einer falschen Datenklassifizierung. Ein hoher C-Wert hingegen schafft eine klare Entscheidungsgrenze für genauere Trainingsergebnisse, allerdings mit potenzieller Überanpassung.

SVM-Hyperparameter: Kernel

Kernel ist eine Funktion, die die Art der Beziehungen zwischen Datenpunkten feststellt und sie entsprechend in Gruppen aufteilt. Je nach verwendetem Kernel weisen die Datenpunkte unterschiedliche Beziehungen auf, die die Gesamtleistung des SVM-Modells stark beeinträchtigen können. Zu den am häufigsten verwendeten Kerneln zählen lineare, polynomische, radiale Basisfunktions- (RBF) und Sigmoidkernel. Lineare Kernel sind einfacher und eignen sich am besten für leicht trennbare Daten, während nichtlineare Kernel sich besser für komplexere Datensätze eignen.

SVM-Hyperparameter: Gamma

Gamma legt fest, wie stark der Einfluss der Support-Vektoren auf die Entscheidungsgrenze ist. Support-Vektoren sind die Datenpunkte, die der Hyperebene am nächsten liegen: die Grenze zwischen Datengruppen. Höhere Werte schaffen einen starken Einfluss von nahe gelegenen Vektoren, während niedrigere Werte den Einfluss von weiter entfernten Vektoren begrenzen. Die Einstellung eines zu hohen Gamma-Werts kann zu einer Überanpassung führen, wohingegen ein zu niedriger Wert die Entscheidungsgrenze verschwimmen lassen kann.

XGBoost-Hyperparameter

XGBoost steht für „Extreme Gradient Boosting“ und ist ein Ensemble-Algorithmus, der die Vorhersagen mehrerer schwächerer Modelle, so genannte Entscheidungsbäume, kombiniert, um ein genaueres Ergebnis zu erzielen. Gradientenverstärkte Algorithmen übertreffen tendenziell Random Forest-Modelle, eine andere Art von Ensemble-Lernalgorithmus, der mehrere Entscheidungsbäume umfasst.

Die wichtigsten Hyperparameter für XGBoost sind:

learning_rate
n_estimators
max_Depth
min_child_weight
subsample

learning_rate

learning_rate ähnelt dem Hyperparameter Lernrate, der von neuronalen Netzen verwendet wird. Diese Funktion steuert den Grad der Korrektur, die während jeder Trainingsrunde vorgenommen wird. Die möglichen Werte liegen im Bereich von 0 bis 1, wobei 0,3 die Standardeinstellung ist.

n_estimators

n_estimators legt die Anzahl der Bäume im Modell fest. Dieser Hyperparameter ist im ursprünglichen XGBoost als num_boost_rounds bekannt, und die beliebte Python-API scikit-learn führte den Namen n_estimators ein.

max_depth

max_depth bestimmt die Architektur der Decision Trees und legt die maximale Anzahl von Knoten vom Baum zu jedem einzelnen Blatt fest – der endgültige Klassifikator. Mehr Knoten führen zu einer nuancierteren Datenklassifizierung, wohingegen kleinere Bäume leicht eine Überanpassung vermeiden.

min_child_weight

min_child_weight ist das Mindestgewicht – die Wichtigkeit einer bestimmten Klasse für den gesamten Modelllernprozess –, das benötigt wird, um einen neuen Baum zu erzeugen. Niedrigere Mindestgewichte erzeugen mehr Bäume, aber mit potenzieller Überanpassung, wohingegen größere Gewichte die Komplexität reduzieren, indem sie mehr Daten zur Aufteilung der Bäume erfordern.

subsample

subsample legt den Prozentsatz der Beispieldaten fest, die während jeder Trainingsrunde verwendet werden, und colsample_bytree legt den Prozentsatz der Merkmale fest, die bei der Baumkonstruktion verwendet werden sollen.

Wie funktioniert das Hyperparameter-Tuning?

Das Hyperparameter-Tuning konzentriert sich auf die Zielfunktion, die eine Gruppe oder ein Tupel von Hyperparametern analysiert und den projizierten Verlust berechnet. Ein optimales Hyperparameter-Tuning minimiert den Verlust entsprechend den gewählten Metriken. Die Ergebnisse werden durch eine Kreuzvalidierung bestätigt, die misst, wie genau sie mit anderen Datensätzen außerhalb der spezifischen Trainingsinstanz verallgemeinert werden können.

Methoden des Hyperparameter-Tunings

Data Scientists stehen eine Vielzahl von Methoden für das Hyperparameter-Tuning zur Verfügung, jede mit ihren jeweiligen Stärken und Schwächen. Das Hyperparameter-Tuning kann manuell oder automatisiert als Teil einer AutoML-Strategie (automatisiertes maschinelles Lernen) durchgeführt werden.

Raster-Suche
Randomisierte Suche
Bayes'sche Optimierung
Hyperband

Rastersuche

Die Rastersuche ist eine umfassende Methode zur Abstimmung von Hyperparametern. Nachdem Data Scientists alle möglichen Werte für jeden Hyperparameter ermittelt haben, werden im Rahmen einer Rastersuche Modelle für jede mögliche Konfiguration dieser diskreten Hyperparameterwerte erstellt. Diese Modelle werden jeweils auf ihre Leistung hin bewertet und miteinander verglichen, wobei das beste Modell schließlich für das Training ausgewählt wird.

Auf diese Weise ähnelt die Rastersuche dem Brute-Forcing einer PIN, indem jede mögliche Zahlenkombination eingegeben wird, bis die richtige gefunden wird. Zwar können Data Scientists alle möglichen Konfigurationen im Hyperparameterraum berücksichtigen, doch die Rastersuche ist ineffizient und rechenintensiv.

Randomisierte Suche

Die randomisierte Suche unterscheidet sich von der Rastersuche darin, dass Data Scientists statistische Verteilungen anstelle von diskreten Werten für jeden Hyperparameter angeben. Eine randomisierte Suche zieht Stichproben aus jedem Bereich und konstruiert Modelle für jede Kombination. Im Laufe mehrerer Iterationen werden die Modelle gegeneinander abgewogen, bis das beste Modell gefunden ist.

In Situationen, in denen der Hyperparameter-Suchraum große Verteilungen enthält, ist die zufällige Suche der Rastersuche vorzuziehen – es würde einfach zu viel Aufwand erfordern, jeden diskreten Wert zu testen. Zufällige Suchalgorithmen können in erheblich kürzerer Zeit Ergebnisse liefern, die mit der Rastersuche vergleichbar sind, obwohl es nicht garantiert ist, die optimalste Hyperparameterkonfiguration zu finden.

Bayes'sche Optimierung

Die Bayes'sche Optimierung ist ein sequentieller modellbasierter Optimierungsalgorithmus (SMBO), bei dem jede Testiteration die Stichprobenmethode der nächsten verbessert. Sowohl Raster- als auch Zufallssuchen können gleichzeitig durchgeführt werden, aber jeder Test wird für sich genommen durchgeführt – die Data Scientists können ihre Erkenntnisse nicht für nachfolgende Tests nutzen.

Basierend auf vorhergehenden Tests wählt die Bayes'sche Optimierung probabilistisch einen neuen Satz von Hyperparameterwerten aus, der wahrscheinlich bessere Ergebnisse liefert. Das probabilistische Modell wird als Surrogat für die ursprüngliche Zielfunktion bezeichnet. Da Surrogatmodelle recheneffizient sind, werden sie normalerweise bei jeder Ausführung der Zielfunktion aktualisiert und verbessert.

Je besser das Surrogat die optimalen Hyperparameter vorhersagt, desto schneller wird der Prozess, wobei weniger Zielfunktionstests erforderlich sind. Dies macht die Bayes'sche Optimierung weitaus effizienter als die anderen Methoden, da keine Zeit mit ungeeigneten Kombinationen von Hyperparameterwerten verschwendet wird.

Der Prozess der statistischen Bestimmung der Beziehung zwischen einem Ergebnis – in diesem Fall der besten Modellleistung – und einer Reihe von Variablen wird als Regression-Analyse bezeichnet. Gauß'sche Prozesse sind ein solcher SMBO, der bei Data Scientists beliebt ist.

Hyperband

Das 2016 eingeführte Hyperband wurde entwickelt, um die Zufallssuche zu verbessern, indem die Verwendung von Trainingskonfigurationen, die keine guten Ergebnisse liefern, eingeschränkt wird und gleichzeitig positiven Konfigurationen mehr Ressourcen zugewiesen werden.

Dieses „frühe Stoppen“ wird durch sukzessives Halbieren erreicht, ein Prozess, bei dem der Pool der Konfigurationen verkleinert wird, indem nach jeder Trainingsrunde die leistungsschwächste Hälfte entfernt wird. Die obersten 50 % jedes Batches werden in die nächste Iteration übernommen, bis eine optimale Hyperparameterkonfiguration übrig bleibt.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

Ressourcen

Steigern Sie Ihre ML-Expertise

Erfahren Sie mehr über grundlegende Konzepte und bauen Sie Ihre Fähigkeiten mit praktischen Übungen, Kursen, angeleiteten Projekten, Tests und mehr aus.

Nutzen Sie die Leistungsfähigkeit generativer KI und ML

Erfahren Sie, wie Sie generative KI und maschinelles Lernen sicher in Ihr Unternehmen integrieren können.

KI zum Einsatz bringen: Mehr ROI dank generativer KI

Möchten Sie eine bessere Rendite für Ihre KI-Investitionen erzielen? Erfahren Sie, wie die Skalierung generativer KI in Schlüsselbereichen Veränderungen vorantreibt, indem Sie Ihre besten Köpfe dabei unterstützen, innovative neue Lösungen zu entwickeln und bereitzustellen.

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie das für Ihren Anwendungsfall am besten geeignete KI Foundation Model auswählen.

IBM Granite erkunden

IBM® Granite ist unsere Familie offener, leistungsfähiger und vertrauenswürdiger KI-Modelle, die auf Unternehmen zugeschnitten und für die Skalierung Ihrer KI-Anwendungen optimiert sind. Entdecken Sie die Optionen zu Sprache, Code, Zeitreihen und Guardrails.

Wie Sie im neuen KI-Zeitalter vertrauensvoll und zuversichtlich in eine erfolgreiche Zukunft blicken

Erfahren Sie mehr über die drei entscheidenden Elemente einer starken KI-Strategie: die Schaffung eines Wettbewerbsvorteils, die Skalierung von KI im gesamten Unternehmen und die Förderung vertrauenswürdiger KI.

Bericht „AI in Action“

Wir haben 2.000 Unternehmen zu ihren KI-Initiativen befragt, um herauszufinden, was funktioniert, was nicht und wie Sie vorankommen können.

Weitere Lösungen

IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai

Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen

KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken

Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden

Live-Demo buchen

Was ist Hyperparameter-Tuning?

Autoren

Was ist Hyperparameter-Tuning?

Was sind Hyperparameter?

Hyperparameter für die Regularisierung

Hyperparameter im Vergleich zu Modellparametern

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Warum ist das Hyperparameter-Tuning wichtig?

Verzerrung und Varianz

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Beispiele für Hyperparameter

Hyperparameter in neuronalen Netzen

Lernrate

Rückgang der Lernrate

Batch-Größe

Anzahl der verborgenen Schichten

Anzahl der Knoten oder Neuronen pro Schicht

Momentum

Epochen

Aktivierungsfunktion

SVM-Hyperparameter

SVM-Hyperparameter: C

SVM-Hyperparameter: Kernel

SVM-Hyperparameter: Gamma

XGBoost-Hyperparameter

learning_rate

n_estimators

max_depth

min_child_weight

subsample

Wie funktioniert das Hyperparameter-Tuning?

Methoden des Hyperparameter-Tunings

Rastersuche

Randomisierte Suche

Bayes'sche Optimierung

Hyperband

Ressourcen