Was ist die Lernrate beim maschinellen Lernen?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Was ist die Lernrate beim maschinellen Lernen? 

Die Lernrate ist ein Hyperparameter, der bestimmt, wie stark ein maschinelles Lern-Modell seine Parameter bei jedem Schritt seines Optimierungsalgorithmus anpasst. Die Lernrate kann bestimmen, ob ein Modell die optimale Leistung liefert oder nicht während des Trainingsprozesses lernt. 

Das Ziel des Optimierungsalgorithmus besteht darin, die Verlustfunktion zu minimieren, die die Lücke zwischen den Vorhersagen eines Modells und realen Daten misst. Jedes Mal, wenn das Modell seinen Optimierungsalgorithmus ausführt, aktualisiert es seine Modellparameter basierend auf dem Ergebnis. Die Lernrate oder Schrittweite wird durch den griechischen Buchstaben η dargestellt und bestimmt die Größe der Änderungen, die das Modell vornehmen darf. 

Die Lernrate trägt dazu bei, dass ein Modell aus dem Training genug lernt, um sinnvolle Anpassungen an seinen Parametern vorzunehmen, ohne dass es zu einer Überkorrektur kommt. Stellen Sie sich vor, Sie fahren einen Berg hinunter. Um sicher unten anzukommen, muss man schnell genug fahren, um sinnvoll voranzukommen, aber nicht so schnell, dass man die Kontrolle verliert und stolpert. Die beste Lernrate legt eine sichere Geschwindigkeit für den Abstieg fest. 

Jeder Trainingschritt stellt dar, dass das Modell sein bisheriges Verständnis seines Datensatzes überschreibt. Ein Neural Networks „lernt“ mit jedem Durchlauf seines Optimierungsalgorithmus mehr über seine Trainingsdaten. 

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Warum ist die Lernrate wichtig?

Die Lernrate ist wichtig, da sie KI-Modellen hilft, effektiv aus ihren Trainingsdaten zu lernen. 

Eine niedrige Lernrate lässt das Modell bei jedem Schritt nicht genug „lernen“. Das Modell aktualisiert seine Parameter zu langsam und es dauert zu lange, bis die Konvergenz erreicht ist. Das bedeutet aber nicht, dass eine hohe Lernrate die Antwort ist. 

Bei einer hohen Lernrate kann der Algorithmus einer Überschreitung zum Opfer fallen: wo er bei der Korrektur seiner Fehler zu weit geht. In diesem Fall benötigt der Algorithmus eine geringere Lernrate, aber nicht zu klein, sodass Lernen ineffizient wird. 

Ein Außerirdischer landet zum Beispiel auf der Erde, um etwas über das Leben zu erfahren. Der Außerirdische sieht Katzen, Hunde, Pferde, Schweine und Kühe und schließt daraus, dass alle Tiere vier Beine haben. Dann sieht der Außerirdische ein Huhn. Ist das auch ein Tier? Je nachdem, wie schnell der Außerirdische lernt, wird er zu einer von drei Schlussfolgerungen kommen: 

  • Bei einer optimalen Lernrate wird der Außerirdische zu dem Schluss kommen, dass Hühner auch Tiere sind. Und wenn das der Fall ist, muss das bedeuten, dass die Anzahl der Beine kein entscheidender Faktor dafür ist, ob etwas ein Tier ist oder nicht. 

  • Wenn der Außerirdische eine niedrige Lernrate hat, kann er durch dieses Huhn nicht genügend Erkenntnisse gewinnen. Der Außerirdische kommt zu dem Schluss, dass Hühner keine Tiere sind, weil sie keine vier Beine haben. Die geringe Lernrate des Außerirdischen erlaubt es ihm nicht, seine Denkweise zu ändern, bis er mehr Hühner sieht. 

  • Bei einer hohen Lernrate wird der Außerirdische überkorrigieren. Nun wird er schlussfolgern, dass, weil das Huhn ein Tier ist und zwei Beine hat, alle Tiere zwei Beine haben müssen. Eine hohe Lernrate bedeutet, dass das Modell „zu viel“ auf einmal lernt. 

Unterschiedliche Lernraten führen zu unterschiedlichen Ergebnissen. Die beste Lernrate ist die, die es dem Algorithmus ermöglicht, die Parameter des Modells rechtzeitig anzupassen, ohne den Konvergenzpunkt zu überschreiten. 

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Was sind Parameter beim maschinellen Lernen?

Parameter sind Konfigurationsvariablen, die Funktionsweise eines Deep-Learning-Modells steuern. Parameter sind analog zu den Einstellungen eines Modells, da sie das Verhalten des Modells bestimmen und angepasst werden können, um die Leistung des Modells zu verbessern.

Vom Modell gelernte Parameter

Vom Modell gelernte Parameter oder Modellgewichte sind intern im Modell und werden während des Trainings gelernt. Bei jedem Trainingsschritt ändert das Modell seine internen Parameter, um seine Leistung zu verbessern. Die Größe der vom Modell vorgenommenen Änderungen wird durch die Lernrate bestimmt. Die Konfiguration der Parameter eines Modells wirkt sich direkt auf seine Leistung aus.

Bei der Feinabstimmung eines Modells sind kleinere Anpassungen erforderlich, da das Modell bereits trainiert wurde. Die Feinabstimmung erfordert in der Regel eine geringere Lernrate als beim anfänglichen Trainieren eines Modells.

Hyperparameter

Hyperparameter sind externe Regeln, die die Struktur und den Trainingsprozess des Modells prägen. Sie werden von den Personen konfiguriert, die für das Training des Modells verantwortlich sind. Die Lernrate ist ein solcher Hyperparameter und hat normalerweise einen Wert zwischen 0,0 und 1,0. 

Zwei weitere grundlegende Hyperparameter sind: 

  • Epoche: Die Häufigkeit, mit der der gesamte Trainingsdatensatz das Modell während des Trainings durchläuft. Eine Epoche ist abgeschlossen, wenn das Modell jede Probe in seinen Trainingsdaten einmal verarbeitet hat. Der Epochen-Hyperparameter legt die Anzahl der Epochen im Trainingsprozess fest. 

  • Batchgröße: Trainingsepochen können in kleinere Stücke, sogenannte Batches, unterteilt werden. Das Modell aktualisiert seine Gewichtungen nach jedem Batch. 

Die Epoche legt die Dauer des Trainingsprozesses fest, während die Batchgröße bestimmt, wie oft das Modell seine Gewichtungen aktualisiert. Die Lernrate gibt dem Modell an, wie viel es nach jedem Batch lernen soll. 

Was ist ein Optimierungsalgorithmus?

Ein Optimierungsalgorithmus oder Lernalgorithmus ist ein Programmierprozess, der einem Deep-Learning-Modell beibringt, wie es aus seinen Trainingsdaten lernt und seine Modellgewichte aktualisiert. Lernalgorithmen bestehen aus einer Verlustfunktion, auch bekannt als Kosten- oder Fehlerfunktion, und einer Methode zur Optimierung der Modellgewichte.

Jede Iteration des Lernalgorithmus verfeinert das Modell weiter. Wenn ein Modell durch weiteres Training nicht mehr verbessert werden kann, spricht man von Konvergenz

Gradientenabstieg

Der Gradientenabstieg ist ein Optimierungsalgorithmus zum Trainieren von Modellen für maschinelle Lern-Modelle. Diese Algorithmen verwenden eine Verlustfunktion, um den Unterschied zwischen den Vorhersagen eines Algorithmus des maschinellen Lernensund den tatsächlichen Werten darzustellen. Der Gradient ist die Steigung der Funktion, die ihre potenziellen Werte darstellt. 

Das Ziel des Optimierungsalgorithmus besteht darin, den Gradienten auf sein lokales Minimum abzusenken, wo die Funktion die niedrigste Ausgabe erzeugt. Lokale Minima sind jedoch nicht unbedingt das singuläre globale Minimum der Funktion oder ihr allgemeiner Mindestwert. Data Scientists verwenden zusätzliche Methoden, wie andere Algorithmen und Regularisierung, um zu verhindern, dass ein Modell an einem suboptimalen lokalen Minimum hängenbleibt, wenn die Ausgabe der Verlustfunktion abnimmt. 

Der Prozess der Aktualisierung der Gewichtung eines Modells durch Minimierung seiner Verlustfunktion wird als Backpropagation bezeichnet. Gradient Descent ist eine gängige Methode zur Durchführung der Backpropagation-Technik. 

Jedes Mal, wenn der Algorithmus die Parameter des Modells aktualisiert, um die Verlustfunktion zu reduzieren und den Gradienten herunterzufahren, kommt das Modell der Konvergenz ein bisschen näher. Die Lernrate steuert diesen Abstieg, indem sie das Tempo begrenzt, mit dem der Algorithmus die Modellgewichte aktualisiert. 

Es gibt drei Arten an Gradient Descent: 

  • Der Batch Gradient Descent wiederholt nach der Verlustberechnung alle Proben im Datensatz. Er ist sehr robust, aber nicht der beste, um eine optimale Konvergenz zu erreichen. 

  • Der stochastische Gradientenabstieg (SGD) wählt zufällig einen Datenpunkt pro Wiederholung aus, was die Geschwindigkeit und die Detailgenauigkeit deutlich erhöht. Aber die hohe Aktualisierungsfrequenz kann die Stabilität beeinträchtigen. SGD hat viele Varianten, darunter Adam, AdaGrad und RMSProp. 

  • Der Mini-Batch Gradient Descent ist ein Kompromiss, bei dem stattdessen eine kleine Gruppe von Datenpunkten pro Wiederholung ausgewählt wird. Er bietet eine gute Aktualisierungsfrequenz und Geschwindigkeit, ohne die Stabilität zu beeinträchtigen. 

    Wie ermittelt man die optimale Lernrate?

    Die Bestimmung einer guten Lernrate ist größtenteils Trial and Error. Es gibt keine narrensichere Data-Science-Technik, die eine optimale anfängliche Lernrate garantieren würde, ohne den Fortschritt während des Trainings zu bewerten. 

    Zu den gängigen Methoden zur Bestimmung der Lernrate gehören: 

    • Rastersuche 

    • Zeitpläne für Lernraten

    • Adaptive Lernrate 

    • Hyperparameter-Optimierung

    Die Optimierung der Lernrate beruht stark auf den Grundprinzipien von Verlust und Impuls. Viele Deep-Learning-Bibliotheken berechnen Verfall und Impuls für die Benutzer. Eine dieser Bibliotheken ist die Open-Source-Keras-API, die in Python geschrieben wurde und TensorFlow, JAX und PyTorch unterstützt. 

    • Der Verlust verlangsamt die Lernrate mit fortschreitendem Training. Durch den effektiven Einsatz lernt das Modell anfangs schnell und dann schrittweise, um ein Überschreiten der Konvergenz zu vermeiden. 

    • Der Impuls ist die Trägheit des Optimierungsalgorithmus. Er erhöht die Lernrate, wenn der Gradient der gleichen Richtung folgt – was bedeutet, dass der Algorithmus noch keine Konvergenz erreicht hat – und gleichzeitig lokale Minima umgeht, um weiter abwärts zu arbeiten. Eine Erhöhung der Dynamik kann zu einer schnelleren Konvergenz führen. Ein niedriger Impuls kann das Training bei kleinen lokalen Minima abwürgen, während ein hoher Schwung versehentlich signifikante lokale Minima überspringen kann. 

    Rastersuche

    Die Rastersuche ist eine Brute-Force-Methode zur Bestimmung der Lernrate. Ein Data Scientist stellt ein Raster zusammen, das alle potenziellen Lernraten enthält. Anschließend wird jede Lernrate getestet und validiert. Bei der Validierung wird das trainierte Modell mit einem neuen Datensatz getestet und seine Hyperparameter werden weiter aktualisiert. 

    Die Grid-Suche erleichtert zwar einen erschöpfenden Prozess zur Bewertung der Lernrate, ist aberzeitaufwändig und rechenintensiv.

    Zeitpläne für Lernraten

    Lernratepläne aktualisieren die Lernrate während des Trainingsprozesses nach einem von mehreren vorgegebenen Plänen. Zu den gängigen Lernrateplänen gehören: 

    • Feste Lernrate

    • Zeitbasierter Verlust 

    • Stufenweiser Verlust 

    • Exponentieller Verlust

    • Polynomialer Verlust

    Feste Lernrate

    Eine feste Lernrate oder konstante Lernrate ändert sich während des Trainings nicht. Bei einer festen Lernrate bleiben Dynamik und Zerfall während des Trainings statisch. Eine feste Lernrate ist ein Benchmark oder Referenzpunkt, von dem aus andere Lernratenstrategien getestet werden können.

    Zeitbasierter Verlust

    Ein zeitbasierter Lernplan löst den Verlust der Lernrate nach einer vorgegebenen Anzahl von Trainingsepochen oder nach bestimmten Epochen aus. Der Betrag, um den die Lernrate abnimmt, basiert auf der Lernrate des vorherigen Zyklus. Ein typischer zeitbasierter Lernplan basiert auf einem Faktor, der umgekehrt proportional zur Anzahl der Epochen ist.

    Stufenweiser Verlust

    Der schrittweise Zerfall reduziert die Lernrate nach einer festgelegten Anzahl von Epochen um einen vorgegebenen Faktor, z. B. die Halbierung.

    Exponentieller Verlust

    Exponentielle Verlust-Lernraten nehmen nach einer bestimmten Anzahl von Epochen exponentiell ab. Ansonsten sind exponentiell abklingende Lernpläne ähnlich wie schrittweise abklingende Lernpläne.

    Polynomialer Verlust

    In einem polynomialen Lernplan wird der Verlust durch eine polynomiale Funktion der aktuellen Epoche bestimmt. Die Multiplikation der Epoche mit einem höheren Exponenten erhöht die Verlustrate, während eine niedrigere Potenz für eine gleichmäßigere Verlustrate sorgt.

    Zeitplan für zyklischen Lernrhythmus

    Ein zyklischer Lernplan definiert eine minimale und eine maximale Lernrate und springt dann mit der Lernrate zwischen diesen beiden Werten hin und her. Ein dreieckiger Zeitplan steigt linear vom Minimum zum Maximum und zurück um eine festgelegte Konstante. Andere Lernpläne verwenden Kosinus-, Sinus- oder Parabelfunktionen.

    Adaptive Lernrate

    Adaptive Lernalgorithmen passen sich dynamisch an aktuelle Bedingungen oder frühere Wiederholungen an. Im Gegensatz dazu hängen alle geplanten Lernraten von vordefinierten Hyperparametern ab. 

    Viele adaptive Lernmethoden sind SGD-Varianten. Zu den bemerkenswerten adaptiven Lernalgorithmen gehören:

    • AdaGrad: Die im Jahr 2011 eingeführte Algorithmenfamilie AdaGrad (adaptive Gradient) aktualisiert die Lernrate für jeden Parameter einzeln. Dabei wird in der Regel ein umgekehrt proportionales Verhältnis zwischen Lernrate und Merkmalshäufigkeit festgelegt. Mit diesem Ansatz wird der Fokus auf relevantere Merkmale im Datensatz beibehalten. 

    • RMSProp: RMSProp (Root Mean Square Propagation) korrigiert die Lerngewichtung für jeden Parameter anhand eines variablen Durchschnitts der Quadrate der einzelnen Gradienten. Es verbessert sich gegenüber AdaGrad, indem es Gradienten in der fernen Vergangenheit ignoriert, die Stabilität erhöht und zu einer schnelleren Konvergenz führt. 

    • Adam: Das 2014 eingeführte Adam (Adaptive Moment Estimation) kombiniert Momentum mit RMSProp, um die Lernrate jedes Parameters auf der Grundlage seiner vorherigen Gradienten anzupassen. Spätere Versionen von Adam fügten einen Frühstart hinzu, der die Lerngeschwindigkeit zu Beginn des Trainings schrittweise erhöht.

    Hyperparameter-Optimierung

    Hyperparameteroptimierung oder Hyperparameter-Tuning ist die Methode, die optimale Konfiguration für alle Hyperparameter, einschließlich der Lernrate, zu identifizieren. Hyperparameter-Tuning-Algorithmen automatisieren den Prozess der Konfiguration optimaler Hyperparameter, wobei jeder Algorithmus bestimmte Hyperparameter anderen vorzieht. 

    Die Suche nach der insgesamt optimalen Hyperparameterkonfiguration ermöglicht es, zu berücksichtigen, wie sich die einzelnen Hyperparameter auf die anderen auswirken. Dieser Ansatz kann jedoch rechenintensiv sein, insbesondere bei großen Mengen an Hyperparametern.

    Weitere Lösungen
    IBM watsonx.ai

    Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

    Entdecken sie watsonx.ai
    Lösungen im Bereich künstlicher Intelligenz

    Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

    Erkunden Sie KI-Lösungen
    KI-Beratung und -Services

    Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

    KI-Services entdecken
    Machen Sie den nächsten Schritt

    Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

    watsonx.ai erkunden Live-Demo buchen