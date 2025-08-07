Was sind LLM-Parameter?

Autoren

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

LLM-Parameter, definiert

LLM-Parameter sind die Einstellungen, mit denen die Ausgabe und das Verhalten eines großen Sprachmodells (LLM) gesteuert und optimiert werden. Trainierbare Parameter umfassen Gewichte und Verzerrungen und werden so konfiguriert, wie ein großes Sprachmodell (LLM) aus seinem Trainingsdatensatz lernt. Hyperparameter befinden sich außerhalb des Modells. Sie steuern seinen Lernprozess, bestimmen seine Struktur und formen seine Ausgabe.

Arten von LLM-Parametern

LLM-Parameter können in drei Hauptkategorien eingeteilt werden: 

  • Gewichte 

  • Verzerrungen 

  • Hyperparameter

Gewichte

Gewichtungen sind numerische Werte, die die Bedeutung darstellen, die das LLM einer bestimmten Eingabe zuweist. Nicht alle Eingaben werden vom KI-Modell der künstlichen Intelligenz (KI) bei der Generierung von Antworten gleich behandelt. Je höher die Gewichtung einer Eingabe, desto relevanter ist sie für die Ausgabe des Modells. 

Trainierbare Parametereinstellungen wie Gewichtungen werden während des Trainingsprozesses durch den Lernalgorithmus eines Modells konfiguriert. Der Lernalgorithmus misst die Leistung des Modells für maschinelles Lernen (ML) mit einer Verlustfunktion, die versucht,Fehler durch Optimierung der Parameter des Modells zu minimieren. 

In neuronalen Netzen sind Gewichte Multiplikatoren, die die Signalstärke von einer Neuronenschicht zur nächsten bestimmen. Signale müssen die Stärkeschwelle der Aktivierung erreichen, um durch das Netzwerk geleitet zu werden. Gewichtungen wirken sich also direkt darauf aus, wie ein Netzwerk Daten durch seine Schichten weiterleitet. 

Mithilfe vonBackpropagation wird berechnet, wie sich eine Änderung der Gewichtungswerte auf die Modellleistung auswirkt.

Verzerrungen

Wie die Gewichtungen werden auch Verzerrungen während des KI-Modelltrainings automatisch konfiguriert. Verzerrungen sind konstante Werte, die dem Wert eines Signals aus den vorherigen Schichten hinzugefügt werden. Modelle verwenden Verzerrungen, damit Neuronen unter Bedingungen aktiviert werden können, bei denen die Gewichte allein möglicherweise nicht ausreichen, um die Aktivierung zu durchlaufen. 

Verzerrungen ermöglichen es den Modellen, flexibler zu sein. Modelle können auch dann aus Daten lernen, wenn die gewichteten Eingaben die Aktivierung nicht erreichen. Wie die Gewichtungen werden auch die Verzerrungen während des Trainings mit Backpropagation angepasst, um die Leistung des Modells zu optimieren und Fehler zu minimieren. 

Die Kombination von Gewichtungen und Verzerrungen in LLMs kann zu Modellen mit Milliarden von Parametern führen. Während des Feinabstimmungsprozesses – bei dem ein vortrainiertes LLM für nachgelagerte Aufgaben weiter trainiert wird – werden seine Gewichtungen und Verzerrung mit bereichsspezifischen Trainingsdaten angepasst.

Hyperparameter

Hyperparameter sind externe Einstellungen, die das Verhalten, die Form, die Größe, die Ressourcennutzung und andere Eigenschaften eines Modells bestimmen. Bei der Hyperparameteroptimierung oder Modelloptimierung werden Algorithmen verwendet, um die optimale Kombination von Hyperparametern für eine bessere Leistung zu ermitteln. Neben dem Prompt Engineering ist das Hyperparameter-Tuning eine der wichtigsten Methoden zur LLM-Anpassung. 

  • Architektur-Hyperparameter, wie die Anzahl der Schichten und die Dimension der verborgenen Schichten, konfigurieren die Größe und Form eines Modells. 

  • Trainingshyperparameter, wie z. B. die Lernrate und die Batchgröße, steuern den Trainingsprozess des Modells. Die Trainingshyperparameter haben einen starken Einfluss auf die Modellleistung und darauf, ob ein Modell die erforderlichen LLM-Benchmarks erfüllt. 

  • Inferenzhyperparameter wie Temperatur und Top-P-Sampling entscheiden, wie ein generatives KI-Modell seine Ausgaben erzeugt. 

  • Arbeitsspeicher- und Computehyperparameter, wie z. B. das Kontextfenster, die maximale Anzahl von Token in einer Ausgabesequenz und Stoppsequenzen, sorgen für ein Gleichgewicht zwischen Modellleistung und -funktionen und Ressourcenanforderungen. 

  • Ausgabequalitätshyperparameter, wie z. B. Präsenzstrafe und Frequenzstrafe, helfen LLMs dabei, vielfältigere und interessantere Ergebnisse zu erzeugen und gleichzeitig die Kosten zu kontrollieren.

Bemerkenswerte LLM-Parameter

Die Anzahl der Parameter in größeren Modellen – komplexen neuronalen Netzen wie GPT-4 und GPT-3, Llama, Gemini und anderen Transformer-Modellen, kann in die Milliardenhöhe gehen. Kleinere Modelle haben weniger Parameter, wodurch sie weniger rechenintensiv sind, aber auch weniger in der Lage sind, komplexe Muster und Beziehungen zu erkennen. 

Anhand aller Parameter kann bestimmt werden, wie das Modell die realen Daten, auf die es trifft, sinnvoll verwertet. Die Parameter, die den Output des Modells am direktesten beeinflussen, sind jedoch seine Hyperparameter. Ein Vorteil von Open-Source-Modellen besteht darin, dass ihre Hyperparameter-Einstellungen sichtbar sind. 

Die Hyperparameteroptimierung ist eine wichtige Säule der LLM-Anpassung: das Optimieren eines Modells für bestimmte Aufgaben. 

Zu den wichtigsten Hyperparametern eines Modells gehören: 

  • Anzahl der Schichten 

  • Kontextfenster

  • Temperatur 

  • Top-p (Kernprobenahme) 

  • Top-K 

  • Token-Nummer (max. Token) 

  • Lernrate 

  • Frequenzeinbußen 

  • Anwesenheitsstrafe

  • Stoppsequenz

Anzahl der Schichten

Die Anzahl der Schichten in einem neuronalen Netz ist ein entscheidender Hyperparameter für die Festlegung von Modellgröße und Komplexität. Neuronale Netze bestehen aus Schichten von Neuronen oder Knoten. Je mehr Schichten zwischen der ersten Eingabeschicht und der endgültigen Ausgabeschicht liegen, desto komplexer ist das Modell. 

Aber Komplexität ist nicht immer gut. Ein Modell, das zu viele Schichten für eine Aufgabe hat, die sie nicht benötigt, kann unter Überanpassung leiden und Rechenressourcen verschwenden. Gleichzeitig kann ein Modell mit unzureichenden Schichten die Muster, Beziehungen und Verteilungen in komplexen Datensätzen nicht erfassen.

Kontextfenster

Der Kontextfenster-Hyperparameter ist für jedes Modell relevant, das auf der Transformer-Architektur basiert, wie z. B. das Open-Source-LLM Llama-2. Das Kontextfenster ist die maximale Anzahl von Token, die das Modell erfassen kann, während die Kohärenz in der gesamten Eingabesequenz erhalten bleibt. 

Das Kontextfenster bestimmt auch die Länge des Gesprächs, das ein Modell aufrechterhalten kann, ohne den Überblick über den bisherigen Inhalt zu verlieren. Größere Kontextfenster führen zu höherer Genauigkeit, weniger Halluzinationen und der Möglichkeit, größere Dokumente zu verarbeiten oder längere Gespräche zu führen.  

Große Kontextfenster erfordern jedoch auch mehr Rechenressourcen und können die Verarbeitungszeit für die Antwortgenerierung verlängern.

Temperatur

Der LLM-Temperaturhyperparameter ähnelt einem Zufalls- oder Kreativitätsregler. Durch die Erhöhung der Temperatur erhöht sich die Wahrscheinlichkeitsverteilung für die nächsten Wörter, die während der Textgenerierung in der Ausgabe des Modells erscheinen. 

Bei einer Temperatureinstellung von 1 wird die Standardwahrscheinlichkeitsverteilung für das Modell verwendet. Temperaturen über 1 flachen die Wahrscheinlichkeitsverteilung ab, was das Modell dazu anregt, eine größere Auswahl an Token auszuwählen. Umgekehrt erweitern Temperaturen unter 1 die Wahrscheinlichkeitsverteilung, sodass das Modell mit größerer Wahrscheinlichkeit das wahrscheinlichste nächste Token auswählt. 

Ein Temperaturwert näher an 1,0, z. B. 0,8, bedeutet, dass das LLM kreativer reagiert, aber möglicherweise weniger vorhersehbar ist. Eine niedrigere Temperatur von 0,2 führt hingegen zu deterministischeren Antworten. Ein Modell mit niedriger Temperatur liefert vorhersehbare, wenn auch langweilige Ausgaben. Höhere Temperaturen um 2,0 können beginnen, eine unsinnige Ausgabe zu erzeugen. 

Der Anwendungsfall gibt den idealen Temperaturwert für ein LLM an. Ein Chatbot, der unterhaltsam und kreativ ist, wie ChatGPT, benötigt eine höhere Temperatur, um menschenähnlichen Text zu erstellen. Eine App zur Zusammenfassung von Texten in einem stark regulierten Bereich wie Recht, Gesundheit oder Finanzen erfordert genau das Gegenteil: Die generierten Textzusammenfassungen müssen strenge Anforderungen erfüllen.

Top-p (Kernprobenahme)

Wie die Temperatur beeinflusst auch die Top-p-Stichprobe die Wortvielfalt in der generierten Textausgabe. Top-p legt eine Wahrscheinlichkeitsschwelle p für das nächste Token in einer Ausgabesequenz fest. Das Modell darf Antworten generieren, indem es Token innerhalb der Wahrscheinlichkeitsgrenze verwendet. 

Beim Top-p-Sampling werden die Token in der Reihenfolge ihrer Wahrscheinlichkeit eingestuft. Token mit einer größeren Wahrscheinlichkeit, als nächstes in der Sequenz zu erscheinen, haben eine höhere Bewertung, während das Gegenteil bei weniger wahrscheinlichen Token der Fall ist. Das Modell stellt eine Gruppe potenzieller nächster Token zusammen, bis der kumulative p-Wert den festgelegten Schwellenwert erreicht, und wählt dann zufällig ein Token aus dieser Gruppe aus. 

Höhere p-Schwellenwerte führen zu vielfältigeren Ausgaben, während niedrigere Schwellenwerte Genauigkeit und Kohärenz bewahren.

Temperatur versus Top-p-Probenahme

Der Unterschied zwischen Temperatur- und Top-p-Stichproben besteht darin, dass die Temperatur die Wahrscheinlichkeitsverteilung potenzieller Token anpasst, während die Top-p-Stichprobe die Tokenauswahl auf eine endliche Gruppe von Token beschränkt.

Top-k

Der Top-k-Hyperparameter ist eine weitere Einstellung, die auf Vielfalt ausgerichtet ist. Der k-Wert legt den Grenzwert für die Anzahl der Begriffe fest, die als nächste in der Sequenz betrachtet werden können. Die Begriffe werden nach der Wahrscheinlichkeit sortiert und die besten k-Begriffe werden als Kandidaten ausgewählt.

Top-p versus Top-k

Top-p begrenzt den Token-Pool auf eine festgelegte p-Wahrscheinlichkeitssumme, während top-k den Pool auf die top-k-wahrscheinlichsten Begriffe beschränkt.

Token-Nummer (max. Token)

Der Hyperparameter „Token“ oder „max. Token“ legt eine Obergrenze für die Ausgabe fest. Kleinere Token-Zahlenwerte sind ideal für schnelle Aufgaben wie Chatbot-Gespräche und Zusammenfassungen – Aufgaben, die sowohl von kleinen Sprachmodellen als auch von LLMs bearbeitet werden können. 

Höhere Tokenzahlen eignen sich besser, wenn längere Ausgaben erforderlich sind, z. B. wenn versucht wird, ein LLM für die Vibe-Codierung zu verwenden.

Lernrate

Die Lernrate ist ein entscheidender Hyperparameter, der die Geschwindigkeit beeinflusst, mit der das Modell seine Gewichtungen und Verzerrungen während des Trainings und der Feinabstimmung anpasst. Diese Prozesse verwenden oft einen Lernalgorithmus, der als Gradientenabstieg bekannt ist. 

Ein Gradientenabstiegsalgorithmus versucht, eine Verlustfunktion zu minimieren, die den Fehler der Vorhersagen eines Modells misst. Bei jeder Trainingsiteration aktualisiert der Algorithmus die Gewichtungen des Modells, um die Leistung im Idealfall mit dem nächsten Datenstapel zu verbessern. 

Die Lernrate steuert das Ausmaß, in dem die Gewichtungen aktualisiert werden. Eine höhere Lernrate führt zu größeren Steigerungen und beschleunigt die Ausbildung, auf die Gefahr hin, dass ein lokales Minimum überschritten wird. Niedrigere Lernraten nehmen subtilere Anpassungen vor, erfordern aber mehr Iterationen, um ein Minimum zu erreichen, und können sogar ins Stocken geraten. 

Eine effektive Methode zur Verwaltung der Lernrate besteht darin, das Training mit einem höheren Wert zu beginnen und die Lernrate zu senken, wenn sich das Modell einem lokalen Minimum seiner Verlustfunktion nähert.

Häufigkeits-Strafe

Der Hyperparameter für die Frequenzstrafe verhindert, dass Modelle Begriffe innerhalb derselben Ausgaben übermäßig verwenden. Sobald ein Begriff in der Ausgabe erscheint, hält die Häufigkeitsstrafe das Modell davon ab, ihn später noch einmal zu verwenden. 

Modelle weisen jedem Token eine Bewertung zu, die als Logits bezeichnet wird, und verwenden Logits, um Wahrscheinlichkeitswerte zu berechnen. Häufigkeitsstrafen senken den Logit-Wert eines Begriffs bei jeder Wiederholung linear, sodass es immer unwahrscheinlicher wird, dass er beim nächsten Mal gewählt wird. Höhere Frequenzstrafenwerte senken den Logit pro Anwendung stärker. 

Da das Modell davon abgehalten wird, Begriffe zu wiederholen, muss es stattdessen andere Begriffe auswählen, was zu einer vielfältigeren Wortauswahl im generierten Text führt.

Wiederholungsstrafe

Die Wiederholungsstrafe ähnelt der Frequenzstrafe, außer dass sie exponentiell und nicht linear ist. Die Wiederholungsstrafe senkt den Logit eines Begriffs bei jeder Wiederverwendung exponentiell, was ihn zu einer stärkeren Entmutigung macht als die Häufigkeitsstrafe. Aus diesem Grund werden niedrigere Werte für die Wiederholungsstrafe empfohlen. 

Anwesenheitsstrafe

Die Anwesenheitsstrafe ist ein verwandter Hyperparameter, der ähnlich wie die Häufigkeitsstrafe funktioniert, jedoch nur einmal angewendet wird. Die Anwesenheitsstrafe senkt den Logit-Wert eines Begriffs um den gleichen Betrag, unabhängig davon, wie oft dieser Begriff in der Ausgabe vorhanden ist, solange er mindestens einmal vorkommt. 

Wenn der Begriff Bär zehnmal in der Ausgabe vorkommt und der Begriff Fuchs einmal, hat der Begriff Bär eine höhere Häufigkeitsstrafe als Fuchs. Sowohl Bär als auch Fuchs teilen sich jedoch die gleiche Anwesenheitsstrafe.

Stopp-Sequenz

Die Stoppsequenz ist eine voreingestellte Reihe von Token, die bei ihrem Erscheinen das Modell dazu veranlassen, die Ausgabesequenz zu beenden. Wenn ein Modell beispielsweise so konzipiert ist, dass es jeweils einen einzelnen Satz ausgibt, kann die Stoppsequenz ein Punkt sein. 

Stoppsequenzen sorgen für die Präzision der Antwort, ohne die Art und Weise zu beeinträchtigen, wie das Modell Ausgaben bis zum Haltepunkt erzeugt. Da sie Modellantworten abkürzen, tragen Stoppsequenzen auch dazu bei, Token-Kosten zu sparen, wenn sie über APIs eine Verbindung zu LLMs herstellen.

Optimierung von LLM-Parametern

Die Optimierung der internen, trainierbaren Parameter eines Modells – seiner Gewichtungen und Verzerrungen – ist für eine starke Leistung unerlässlich. Sobald ein Modell mit den optimalen Hyperparametern ausgestattet wurde, stehen seinen Designern eine Reihe von Methoden zur Verfügung, um die internen LLM-Parameter zu formen. 

  • Durch die Feinabstimmung werden die Gewichtungen und Verzerrungen eines Modells für bestimmte Aufgaben angepasst. Bei der parametereffizienten Feinabstimmung (PEFT) werden die meisten Parameter eingefroren, während eine kleine relevante Teilmenge geändert wird. 

  • Transferlernen ist eine breit angelegte Schule von Modelloptimierungstechniken, die sich alle darauf konzentrieren, das Vorwissen eines Modells zu nutzen, um die Leistung bei neuen Aufgaben zu verbessern. 

  • Quantisierung vereinfacht die gesamte Mathematik innerhalb eines Modells, macht es kleiner und effizienter und stellt immer noch die gleichen Daten dar. 

  • Frühzeitiges Stoppen verhindert eine Überanpassung, indem der Trainingsprozess abgebrochen wird, wenn er keine spürbaren Leistungsfortschritte mehr erzielt.

