Was ist Hyperparameter-Tuning?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist Hyperparameter-Tuning?

Unter Hyperparameter-Tuning versteht man das Identifizieren und Auswählen der optimalen Hyperparameter, um mit diesen ein maschinelles Lernmodell zu trainieren. Bei korrekter Ausführung minimiert das Hyperparameter-Tuning die Verlustfunktion eines maschinellen Lernmodells, was bedeutet, dass die Modellleistung auf eine möglichst genaue Leistung trainiert wird.

Das Hyperparameter-Tuning ist eine experimentelle Vorgehensweise, bei der bei jeder Iteration unterschiedliche Hyperparameterwerte getestet werden, bis die besten identifiziert sind. Dieser Prozess ist entscheidend für die Leistung des Modells, da Hyperparameter den Lernprozess steuern. Die Anzahl der Neuronen in einem neuronalen Netz, die Lernrate eines generativen KI-Modells und die Kernelgröße einer Support-Vektor-Maschine sind alles Beispiele für Hyperparameter.

Eine gutes Hyperparameter-Tuning liefert eine insgesamt bessere Leistung des maschinellen Lernmodells gemäß den Metriken für die vorgesehene Aufgabe. Aus diesem Grund wird das Hyperparameter-Tuning auch als Hyperparameter-Optimierung bezeichnet.

Ein Foto eines Orchesters mit einem Dirigenten

Was sind Hyperparameter?

Hyperparameter sind Konfigurationsvariablen, die Data Scientists im Voraus festlegen, um den Trainingsprozess eines Modells für maschinelles Lernen zu steuern. Generative KI und andere probalistische Modelle nutzen ihre Erkenntnisse aus Trainingsdaten, um das wahrscheinlichste Ergebnis für eine Aufgabe vorherzusagen. Die richtige Kombination von Hyperparametern zu finden, ist unerlässlich, um die beste Leistung sowohl aus überwachten als auch aus unüberwachten Lernmodellen herauszuholen.

Hyperparameter für die Regularisierung 

Hyperparameter für die Regularisierung steuern die Kapazität oder Flexibilität des Modells, d. h. den Spielraum, den es bei der Interpretation von Daten hat. Ist die Einstellung zu leicht, ist das Modell nicht in der Lage, spezifisch genug zu werden, um gute Vorhersagen zu treffen. Ist die Einstellung zu hoch, leidet das Modell unter Überanpassung: Es passt sich zu stark an seine Trainingsdaten an und wird am Ende für den Einsatz in der realen Welt zu einem Nischenprodukt.

Hyperparameter im Vergleich zu Modellparametern

Der Hauptunterschied zwischen Hyperparametern und Modellparametern im Bereich Data Science besteht darin, dass Modelle zwar Parameter aus den zugrundeliegenden Trainingsdatensätzen lernen oder schätzen, die Data Scientists jedoch die Hyperparameter für den Algorithmus des Modells definieren, bevor der Trainingsprozess beginnt. Die Modelle aktualisieren die Parameter während der Arbeit, wobei die optimalen Werte der Hyperparameter eines Modells im Voraus identifiziert und festgelegt werden.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum ist das Hyperparameter-Tuning wichtig?

Das Hyperparameter-Tuning ist wichtig, da es die Grundlage für die Struktur, die Trainingseffizienz und die Leistung eines Modells bildet. Optimale Hyperparameterkonfigurationen führen zu einer starken Modellleistung in der realen Welt. Operationen mit großen Sprachmodellen (Large Language Model Operations, LLMOPs) heben den Effizienzaspekt eines guten Tunings hervor, wobei der Schwerpunkt auf der Minimierung des Bedarfs an Rechenleistung liegt.

Verzerrung und Varianz

Das Ziel des Hyperparameter-Tunings ist es, Verzerrung und Varianz auszugleichen. Verzerrung ist die Abweichung zwischen den Vorhersagen eines Modells und der Realität. Modelle mit einem unzureichenden Tuning können die wichtigsten Beziehungen zwischen Datenpunkten nicht erkennen und sind nicht in der Lage, die für eine präzise Leistung erforderlichen Schlussfolgerungen zu ziehen.

Varianz ist die Sensibilität eines Modells gegenüber neuen Daten. Ein zuverlässiges Modell sollte bei der Migration von seinen Trainingsdaten zu anderen Datensätzen konsistente Ergebnisse liefern. Modelle mit einem hohen Varianzgrad sind jedoch zu komplex: Sie sind übermäßig an ihre ursprünglichen Trainingsdatensätze angepasst und haben Schwierigkeiten, neue Daten zu integrieren.

Modelle mit geringer Verzerrung sind genau, während Modelle mit geringer Varianz konsistent sind. Ein gutes Hyperparameter-Tuning optimiert beides, um das beste Modell für die jeweilige Aufgabe zu erstellen und gleichzeitig die Effizienz der Rechenressourcen während des Trainings zu maximieren.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Beispiele für Hyperparameter

Jeder Algorithmus für maschinelles Lernen bevorzugt seinen eigenen Satz von Hyperparametern, und eine Maximierung ist nicht in allen Fällen erforderlich. Manchmal führt ein operativer Ansatz bei der Abstimmung von Hyperparametern zu einer besseren Leistung.

Hyperparameter in neuronalen Netzen

Neuronale Netze sind dem menschlichen Gehirn nachempfunden und bestehen aus miteinander verbundenen Knotenpunkten, die Signale aneinander senden. Im Folgenden finden Sie einige der häufigsten Hyperparameter für das Trainieren von neuronalen Netzmodellen:

  • Lernrate

  • Rückgang der Lernrate

  • Batch-Größe

  • Anzahl der verborgenen Schichten

  • Anzahl der Knoten oder Neuronen pro Schicht

  • Momentum

  • Epochen

  • Aktivierungsfunktion

Lernrate

Die Lernrate legt die Geschwindigkeit fest, mit der ein Modell seine Parameter in jeder Iteration anpasst. Diese Anpassungen werden als Schritte bezeichnet. Eine hohe Lernrate bedeutet, dass sich ein Modell schneller anpasst, allerdings drohen eine instabile Leistung und ein Datendrift. Während eine niedrige Lernrate zwar zeitaufwändiger ist und mehr Daten erfordert, erhöht sie jedoch auch die Wahrscheinlichkeit, dass Data Scientists den geringsten Verlust eines Modells ermitteln können. Die Optimierung des Gradientenabstiegs ist ein Beispiel für eine Trainingsmetrik, die eine festgelegte Lernrate erfordert.

Rückgang der Lernrate

Der Rückgang der Lernrate legt fest, in welchem Maße die Lernrate eines Netzes im Laufe der Zeit abnimmt, so dass das Modell schneller lernen kann. Der Trainingsverlauf eines Algorithmus von der ersten Aktivierung bis zur idealen Leistung wird als Konvergenz bezeichnet.

Batch-Größe

Die Batchgröße legt die Anzahl der Stichproben fest, die das Modell berechnet, bevor seine Parameter aktualisiert werden. Sie hat einen erheblichen Einfluss sowohl auf die Recheneffizienz als auch auf die Genauigkeit des Trainingsprozesses. Eine höhere Batchgröße für sich genommen schwächt die Gesamtleistung. Eine Anpassung der Lernrate zusammen mit der Batchgröße kann diesen Verlust jedoch abmildern.

Anzahl der verborgenen Schichten

Die Anzahl der verborgenen Schichten in einem neuronalen Netz bestimmt seine Tiefe, was sich auf seine Komplexität und Lernfähigkeit auswirkt. Weniger Schichten sorgen für ein einfacheres und schnelleres Modell, wohingegen mehr Schichten – wie bei Deep Learning-Netzwerken – zu einer besseren Einstufung der Eingabedaten führen. Bei der Identifizierung des optimalen Hyperparameterwerts aus allen möglichen Kombinationen geht es um einen Kompromiss zwischen Geschwindigkeit und Genauigkeit.

Anzahl der Knoten oder Neuronen pro Schicht

Die Anzahl der Knoten oder Neuronen pro Schicht bestimmt die Breite des Modells. Je mehr Knoten oder Neuronen pro Schicht, desto größer ist die Breite des Modells und desto besser ist es in der Lage, komplexe Beziehungen zwischen Datenpunkten abzubilden.

Momentum

Momentum ist der Grad, in dem Modelle Parameter in die gleiche Richtung wie bei früheren Iterationen aktualisieren, anstatt die Richtung zu wechseln. Die meisten Data Scientists beginnen mit einem niedrigeren Hyperparameterwert für das Momentum und passen dann bei Bedarf nach oben an, um das Modell bei der Aufnahme von Trainingsdaten auf Kurs zu halten.

Epochen

Epochen ist ein Hyperparameter, der festlegt, wie oft ein Modell während des Trainingsprozesses für seinen gesamten Trainingsdatensatz verfügbar gemacht wird. Eine höhere Exposition kann zu einer verbesserten Leistung führen, birgt jedoch die Gefahr einer Überanpassung.

Aktivierungsfunktion

Die Aktivierungsfunktion führt Nichtlinearität in ein Modell ein, sodass es komplexere Datensätze verarbeiten kann. Nichtlineare Modelle können verallgemeinert und an eine größere Datenvielfalt angepasst werden.

SVM-Hyperparameter

SVM (Support Vector Machine) ist ein Algorithmus für maschinelles Lernen, der sich auf Datenklassifizierung, Regression und Sonderfallerkennung spezialisiert hat. Es hat seine eigenen wichtigen Hyperparameter:

    SVM-Hyperparameter: C

    C ist das Verhältnis zwischen der akzeptablen Fehlerspanne und der resultierenden Fehleranzahl, wenn ein Modell als Datenklassifizierer fungiert. Ein niedrigerer C-Wert schafft eine weiche Entscheidungsgrenze mit höherer Fehlertoleranz und allgemeinerer Leistung, birgt jedoch das Risiko einer falschen Datenklassifizierung. Ein hoher C-Wert hingegen schafft eine klare Entscheidungsgrenze für genauere Trainingsergebnisse, allerdings mit potenzieller Überanpassung.

    SVM-Hyperparameter: Kernel

    Kernel ist eine Funktion, die die Art der Beziehungen zwischen Datenpunkten feststellt und sie entsprechend in Gruppen aufteilt. Je nach verwendetem Kernel weisen die Datenpunkte unterschiedliche Beziehungen auf, die die Gesamtleistung des SVM-Modells stark beeinträchtigen können. Zu den am häufigsten verwendeten Kerneln zählen lineare, polynomische, radiale Basisfunktions- (RBF) und Sigmoidkernel. Lineare Kernel sind einfacher und eignen sich am besten für leicht trennbare Daten, während nichtlineare Kernel sich besser für komplexere Datensätze eignen.

    SVM-Hyperparameter: Gamma

    Gamma legt fest, wie stark der Einfluss der Support-Vektoren auf die Entscheidungsgrenze ist. Support-Vektoren sind die Datenpunkte, die der Hyperebene am nächsten liegen: die Grenze zwischen Datengruppen. Höhere Werte schaffen einen starken Einfluss von nahe gelegenen Vektoren, während niedrigere Werte den Einfluss von weiter entfernten Vektoren begrenzen. Die Einstellung eines zu hohen Gamma-Werts kann zu einer Überanpassung führen, wohingegen ein zu niedriger Wert die Entscheidungsgrenze verschwimmen lassen kann.

    XGBoost-Hyperparameter

    XGBoost steht für „Extreme Gradient Boosting“ und ist ein Ensemble-Algorithmus, der die Vorhersagen mehrerer schwächerer Modelle, so genannte Entscheidungsbäume, kombiniert, um ein genaueres Ergebnis zu erzielen. Gradientenverstärkte Algorithmen übertreffen tendenziell Random Forest-Modelle, eine andere Art von Ensemble-Lernalgorithmus, der mehrere Entscheidungsbäume umfasst.

    Die wichtigsten Hyperparameter für XGBoost sind:

    • learning_rate

    • n_estimators

    • max_Depth

    • min_child_weight

    • subsample

    learning_rate

    learning_rate ähnelt dem Hyperparameter Lernrate, der von neuronalen Netzen verwendet wird. Diese Funktion steuert den Grad der Korrektur, die während jeder Trainingsrunde vorgenommen wird. Die möglichen Werte liegen im Bereich von 0 bis 1, wobei 0,3 die Standardeinstellung ist.

    n_estimators

    n_estimators legt die Anzahl der Bäume im Modell fest. Dieser Hyperparameter ist im ursprünglichen XGBoost als num_boost_rounds bekannt, und die beliebte Python-API scikit-learn führte den Namen n_estimators ein.

    max_depth

    max_depth bestimmt die Architektur der Decision Trees und legt die maximale Anzahl von Knoten vom Baum zu jedem einzelnen Blatt fest – der endgültige Klassifikator. Mehr Knoten führen zu einer nuancierteren Datenklassifizierung, wohingegen kleinere Bäume leicht eine Überanpassung vermeiden.

    min_child_weight

    min_child_weight ist das Mindestgewicht – die Wichtigkeit einer bestimmten Klasse für den gesamten Modelllernprozess –, das benötigt wird, um einen neuen Baum zu erzeugen. Niedrigere Mindestgewichte erzeugen mehr Bäume, aber mit potenzieller Überanpassung, wohingegen größere Gewichte die Komplexität reduzieren, indem sie mehr Daten zur Aufteilung der Bäume erfordern.

    subsample

    subsample legt den Prozentsatz der Beispieldaten fest, die während jeder Trainingsrunde verwendet werden, und colsample_bytree legt den Prozentsatz der Merkmale fest, die bei der Baumkonstruktion verwendet werden sollen.

    Wie funktioniert das Hyperparameter-Tuning?

    Das Hyperparameter-Tuning konzentriert sich auf die Zielfunktion, die eine Gruppe oder ein Tupel von Hyperparametern analysiert und den projizierten Verlust berechnet. Ein optimales Hyperparameter-Tuning minimiert den Verlust entsprechend den gewählten Metriken. Die Ergebnisse werden durch eine Kreuzvalidierung bestätigt, die misst, wie genau sie mit anderen Datensätzen außerhalb der spezifischen Trainingsinstanz verallgemeinert werden können.

    Methoden des Hyperparameter-Tunings

    Data Scientists stehen eine Vielzahl von Methoden für das Hyperparameter-Tuning zur Verfügung, jede mit ihren jeweiligen Stärken und Schwächen. Das Hyperparameter-Tuning kann manuell oder automatisiert als Teil einer AutoML-Strategie (automatisiertes maschinelles Lernen) durchgeführt werden.

    • Raster-Suche

    • Randomisierte Suche

    • Bayes'sche Optimierung

    • Hyperband

    Rastersuche

    Die Rastersuche ist eine umfassende Methode zur Abstimmung von Hyperparametern. Nachdem Data Scientists alle möglichen Werte für jeden Hyperparameter ermittelt haben, werden im Rahmen einer Rastersuche Modelle für jede mögliche Konfiguration dieser diskreten Hyperparameterwerte erstellt. Diese Modelle werden jeweils auf ihre Leistung hin bewertet und miteinander verglichen, wobei das beste Modell schließlich für das Training ausgewählt wird.

    Auf diese Weise ähnelt die Rastersuche dem Brute-Forcing einer PIN, indem jede mögliche Zahlenkombination eingegeben wird, bis die richtige gefunden wird. Zwar können Data Scientists alle möglichen Konfigurationen im Hyperparameterraum berücksichtigen, doch die Rastersuche ist ineffizient und rechenintensiv.

    Randomisierte Suche

    Die randomisierte Suche unterscheidet sich von der Rastersuche darin, dass Data Scientists statistische Verteilungen anstelle von diskreten Werten für jeden Hyperparameter angeben. Eine randomisierte Suche zieht Stichproben aus jedem Bereich und konstruiert Modelle für jede Kombination. Im Laufe mehrerer Iterationen werden die Modelle gegeneinander abgewogen, bis das beste Modell gefunden ist.

    In Situationen, in denen der Hyperparameter-Suchraum große Verteilungen enthält, ist die zufällige Suche der Rastersuche vorzuziehen – es würde einfach zu viel Aufwand erfordern, jeden diskreten Wert zu testen. Zufällige Suchalgorithmen können in erheblich kürzerer Zeit Ergebnisse liefern, die mit der Rastersuche vergleichbar sind, obwohl es nicht garantiert ist, die optimalste Hyperparameterkonfiguration zu finden.

    Bayes'sche Optimierung

    Die Bayes'sche Optimierung ist ein sequentieller modellbasierter Optimierungsalgorithmus (SMBO), bei dem jede Testiteration die Stichprobenmethode der nächsten verbessert. Sowohl Raster- als auch Zufallssuchen können gleichzeitig durchgeführt werden, aber jeder Test wird für sich genommen durchgeführt – die Data Scientists können ihre Erkenntnisse nicht für nachfolgende Tests nutzen.

    Basierend auf vorhergehenden Tests wählt die Bayes'sche Optimierung probabilistisch einen neuen Satz von Hyperparameterwerten aus, der wahrscheinlich bessere Ergebnisse liefert. Das probabilistische Modell wird als Surrogat für die ursprüngliche Zielfunktion bezeichnet. Da Surrogatmodelle recheneffizient sind, werden sie normalerweise bei jeder Ausführung der Zielfunktion aktualisiert und verbessert.

    Je besser das Surrogat die optimalen Hyperparameter vorhersagt, desto schneller wird der Prozess, wobei weniger Zielfunktionstests erforderlich sind. Dies macht die Bayes'sche Optimierung weitaus effizienter als die anderen Methoden, da keine Zeit mit ungeeigneten Kombinationen von Hyperparameterwerten verschwendet wird.

    Der Prozess der statistischen Bestimmung der Beziehung zwischen einem Ergebnis – in diesem Fall der besten Modellleistung – und einer Reihe von Variablen wird als Regression-Analyse bezeichnet. Gauß'sche Prozesse sind ein solcher SMBO, der bei Data Scientists beliebt ist.

    Hyperband

    Das 2016 eingeführte Hyperband wurde entwickelt, um die Zufallssuche zu verbessern, indem die Verwendung von Trainingskonfigurationen, die keine guten Ergebnisse liefern, eingeschränkt wird und gleichzeitig positiven Konfigurationen mehr Ressourcen zugewiesen werden.

    Dieses „frühe Stoppen“ wird durch sukzessives Halbieren erreicht, ein Prozess, bei dem der Pool der Konfigurationen verkleinert wird, indem nach jeder Trainingsrunde die leistungsschwächste Hälfte entfernt wird. Die obersten 50 % jedes Batches werden in die nächste Iteration übernommen, bis eine optimale Hyperparameterkonfiguration übrig bleibt.

    Weitere Lösungen
    IBM watsonx.ai

    Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

    Entdecken sie watsonx.ai
    Lösungen im Bereich künstlicher Intelligenz

    Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

    Erkunden Sie KI-Lösungen
    KI-Beratung und -Services

    Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

    KI-Services entdecken
    Machen Sie den nächsten Schritt

    Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

    watsonx.ai erkunden Live-Demo buchen