Die Lernrate ist wichtig, da sie KI-Modellen hilft, effektiv aus ihren Trainingsdaten zu lernen.
Eine niedrige Lernrate lässt das Modell bei jedem Schritt nicht genug „lernen“. Das Modell aktualisiert seine Parameter zu langsam und es dauert zu lange, bis die Konvergenz erreicht ist. Das bedeutet aber nicht, dass eine hohe Lernrate die Antwort ist.
Bei einer hohen Lernrate kann der Algorithmus einer Überschreitung zum Opfer fallen: wo er bei der Korrektur seiner Fehler zu weit geht. In diesem Fall benötigt der Algorithmus eine geringere Lernrate, aber nicht zu klein, sodass Lernen ineffizient wird.
Ein Außerirdischer landet zum Beispiel auf der Erde, um etwas über das Leben zu erfahren. Der Außerirdische sieht Katzen, Hunde, Pferde, Schweine und Kühe und schließt daraus, dass alle Tiere vier Beine haben. Dann sieht der Außerirdische ein Huhn. Ist das auch ein Tier? Je nachdem, wie schnell der Außerirdische lernt, wird er zu einer von drei Schlussfolgerungen kommen:
Bei einer optimalen Lernrate wird der Außerirdische zu dem Schluss kommen, dass Hühner auch Tiere sind. Und wenn das der Fall ist, muss das bedeuten, dass die Anzahl der Beine kein entscheidender Faktor dafür ist, ob etwas ein Tier ist oder nicht.
Wenn der Außerirdische eine niedrige Lernrate hat, kann er durch dieses Huhn nicht genügend Erkenntnisse gewinnen. Der Außerirdische kommt zu dem Schluss, dass Hühner keine Tiere sind, weil sie keine vier Beine haben. Die geringe Lernrate des Außerirdischen erlaubt es ihm nicht, seine Denkweise zu ändern, bis er mehr Hühner sieht.
Bei einer hohen Lernrate wird der Außerirdische überkorrigieren. Nun wird er schlussfolgern, dass, weil das Huhn ein Tier ist und zwei Beine hat, alle Tiere zwei Beine haben müssen. Eine hohe Lernrate bedeutet, dass das Modell „zu viel“ auf einmal lernt.
Unterschiedliche Lernraten führen zu unterschiedlichen Ergebnissen. Die beste Lernrate ist die, die es dem Algorithmus ermöglicht, die Parameter des Modells rechtzeitig anzupassen, ohne den Konvergenzpunkt zu überschreiten.