Was ist die LLM-Temperatur?

Autoren

Joshua Noble

Data Scientist

Was ist die LLM-Temperatur?

In der künstlichen Intelligenz (KI) und im maschinellen Lernen ist die Temperatur ein Parameter zur Anpassung der Ausgabe von großen Sprachmodellen (LLMs). Die Temperatur steuert die Zufälligkeit des Textes, der von LLMs während der Inferenz generiert wird.

LLMs generieren Text, indem sie das nächste Wort (oder besser gesagt das nächste Token) gemäß einer Wahrscheinlichkeitsverteilung vorhersagen. Jedem Token wird ein Logit (numerischer Wert) aus dem LLM zugewiesen, und die Gesamtmenge der Tokens wird in eine „Softmax-Wahrscheinlichkeitsverteilung“ normalisiert. Jedem Token wird eine „Softmax-Funktion“ zugewiesen, die zwischen Null und Eins liegt, und die Summe der Softmax-Wahrscheinlichkeiten aller Token ist eins.

Der LLM-Temperaturparameter verändert diese Verteilung. Eine niedrigere Temperatur erhöht im Grunde die Wahrscheinlichkeit, dass die Token mit der höchsten Wahrscheinlichkeit ausgewählt werden. Eine höhere Temperatur erhöht die Wahrscheinlichkeit, dass ein Modell weniger wahrscheinliche Token auswählt. Dies geschieht, weil ein höherer Temperaturwert mehr Variabilität in die Token-Auswahl des LLM bringt. Verschiedene Temperatureinstellungen führen im Wesentlichen zu unterschiedlichen Zufallsgraden, wenn ein generatives KI-Modell Text ausgibt.

Die Temperatur ist eine entscheidende Funktion für die Kontrolle der Zufälligkeit in der Leistung. Sie ermöglicht Benutzern, die LLM-Ausgabe so anzupassen, dass sie besser zu verschiedenen realen Anwendungen der Textgenerierung passt. Genauer gesagt ermöglicht diese LLM-Einstellung Benutzern, Kohärenz und Kreativität bei der Erstellung von Outputs für einen bestimmten Anwendungsfall in Einklang zu bringen. Eine niedrige Temperatur könnte zum Beispiel für Aufgaben besser geeignet sein, die Präzision und sachliche Genauigkeit erfordern, wie z. B. technische Dokumentation oder dialogorientierte Antworten mit Chatbots. Der niedrigere Temperaturwert hilft dem LLM, kohärenteren und einheitlicheren Text zu erzeugen und irrelevante Antworten zu vermeiden. Im Gegensatz dazu ist eine hohe Temperatur für kreative Ausgaben oder kreative Aufgaben wie kreatives Schreiben oder Konzept-Brainstorming vorzuziehen. Die Temperatureinstellung ermöglicht es Benutzern effektiv, LLMs eine Feinabstimmung durchzuführen und die Ausgabe eines Modells an ihr eigenes gewünschtes Ergebnis anzupassen.

Temperatur wird oft mit „Kreativität“ gleichgesetzt, aber das ist nicht immer der Fall. Es ist hilfreicher, es als Denken vorzustellen, wie in großem Umfang das Modell Text aus seinen Trainingsdaten verwendet. Max Peeperkorn et al1 führte eine empirische Analyse der LLM-Ausgabe für verschiedene Temperaturwerte durch und schrieb:

„Wir stellen fest, dass die Temperatur schwach mit der Neuartigkeit und wenig überraschend mäßig mit der Inkohärenz korreliert, es besteht jedoch kein Zusammenhang mit der Kohäsion oder der Typizität.“ Der Einfluss der Temperatur auf die Kreativität ist jedoch weitaus nuancierter und schwächer, als die Angabe „Kreativitätsparameter“ nahelegt; Die Gesamtergebnisse deuten darauf hin, dass das LLM mit steigenden Temperaturen etwas neuartigere Ausgaben erzeugt.“

Ein hoher Temperaturwert kann die Ausgabe des Modells kreativer erscheinen lassen, aber es ist genauer, anzunehmen, dass sie weniger durch die Trainingsdaten bestimmt sind, wenn man daran denkt.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Konfigurieren der Temperatur

Viele APIs für den Zugriff auf Modelle, einschließlich IBM® Granite™ Instruct oder OpenAIS ChatGPT, haben Parameter zur Konfiguration der Temperatur sowie eine Vielzahl anderer LLM-Parameter. Die drei häufigsten sind:

do_sample: Dieser Parameter steuert, ob das Modell während der Textgenerierung abtastet. Sampling ist eine Methode, um die Textausgabe zu variieren. Bei Einstellung auf „TRUE“ (Wahr) nimmt das Modell zufällig Stichproben aus geschwärzten Token-Wahrscheinlichkeiten, anstatt immer das wahrscheinlichste Wort aus einer Sequenz in einem Datensatz auszuwählen. Tatsächlich müssen wir dies auf true setzen, um Temperaturanpassungen für das vortrainierte LLM zu ermöglichen.

top_k: Dieser Parameter schränkt die möglichen Auswahlmöglichkeiten des Modells bei der Zufallsstichprobe der k-wahrscheinlichsten Token ein. Während der vorherige Parameter eine Zufallsstichprobe für andere vorhergesagte Token über den wahrscheinlichsten hinaus ermöglicht, begrenzt dieser Parameter die Anzahl potenzieller Token, aus denen das Modell eine Auswahl trifft. Während die Zufallsstichprobe zu vielfältigeren und vielfältigeren Ausgaben führt, trägt dieser Parameter dazu bei, die Qualität des generierten Textes beizubehalten, indem die unwahrscheinlicheren Token aus der Stichprobe ausgeschlossen werden.

top_p: Dieser Parameter wird manchmal auch als Kernprobenahme bezeichnet. Es ist eine weitere Methode, um die Auswahlmöglichkeiten bei der Zufallsstichprobe einzuschränken, um inkonsistente und unsinnige Ergebnisse zu vermeiden. Mit diesem Parameter kann das Modell Token berücksichtigen, deren kumulative Wahrscheinlichkeit größer ist als ein angegebener Wahrscheinlichkeitswert. Bei der Auswahl von Token für die generierte Ausgabe wählt das Modell nur eine Gruppe von Token aus, deren Gesamtwahrscheinlichkeit beispielsweise mehr als 95 % beträgt. Während die Zufallsstichprobe dem Modell eine dynamischere Ausgabe ermöglicht, stellt der Parameter „top p“ sicher, dass die Ausgabe eine gewisse Kohärenz und Konsistenz beibehält.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Kontrolle des Outputs

Oftmals ermöglichen Modelle es den Benutzern auch, die Ausgabe des Modells expliziter zu steuern. Einige häufig verwendete Parameter für die Ausgabesteuerung sind:

Maximale Länge: Die maximale Länge entspricht der Gesamtzahl der Token, die KI generieren darf. Diese Einstellung ist nützlich, da Benutzer damit die Länge der Antwort des Modells verwalten können und übermäßig lange oder irrelevante Antworten verhindert werden können. 

Stopp-Sequenzen: Diese Sequenzen teilen dem Modell mit, wann es aufhören soll, die Ausgabe zu erzeugen, und helfen dabei, die Länge und Struktur des Inhalts zu kontrollieren. Die Aufforderung an ein LLM, eine E-Mail mit „Mit freundlichen Grüßen“ oder „Beste Grüße“ als Stoppsequenz zu schreiben, weist das Modell an, vor der abschließenden Anrede anzuhalten. Dieser Prompt kann dazu beitragen, die E-Mail kurz und präzise zu halten. Stoppsequenzen sind für Ausgaben nützlich, von denen Sie erwarten, dass sie in einem strukturierten Format wie einer E-Mail, einer nummerierten Liste oder einem Dialog ausgegeben werden.

Häufigkeitsstrafe: Eine Häufigkeitsstrafe ist eine Einstellung, die Wiederholungen im generierten Text entgegenwirkt, indem Token proportional zu ihrer Häufigkeit bestraft werden. Je häufiger ein Token im Text verwendet wird, desto geringer ist die Wahrscheinlichkeit, dass das LLM es erneut verwendet.

Vorkommnisstrafe: Die Vorkommnisstrafe ähnelt der Häufigkeitsstrafe, bestraft aber Token auf der Basis, ob sie vorgekommen sind oder nicht, anstatt sie proportional zu bestrafen.

Vergleich der Ausgaben mit IBM Granite

Um zu sehen, wie sich die Temperatur auf die Ausgabe eines LLM auswirkt, schauen Sie sich die Ausgaben an, die vom IBM Granite 3.1 2 Milliarden-Parameter-Modell erstellt wurden. Die hier gestellte Aufforderung lautete: „Schreibe eine Geschichte über einen Data Scientist, der Python liebt.“

Bei einer Temperatur von 0,1 erzeugt Granite:

Es war einmal ein brillanter Data Scientist namens Alex. Alex war für seine außergewöhnlichen Fähigkeiten in der Python-Programmierung und Datenanalyse bekannt. Er verbrachte seine Tage und Nächte in der Welt der Daten und nutzte Python, um Erkenntnisse zu gewinnen und Vorhersagen zu treffen.

Eines Tages wurde Alex mit der Analyse der Kundenabwanderung für einen beliebten Streaming-Dienst beauftragt. Er nutzte die Scikit-Learn-Bibliothek von Python, um ein Modell für maschinelles Lernen zu erstellen, das vorhersagen konnte, welche Kunden ihre Abonnements wahrscheinlich kündigen würden.

Bei einer Temperatur von 0,75 °C erzeugt Granite:

Es war einmal ein brillanter Data Scientist namens Alex. Alex war für seine große Vorliebe für Python bekannt, eine Programmiersprache, die seiner Meinung nach das perfekte Tool für Datenanalysen und maschinelles Lernen war.

Jeden Tag stand Alex früh auf, kochte eine Kanne Kaffee und setzte sich an seinen Schreibtisch. Er würde Stunden damit verbringen, Code in Python zu schreiben, Datensätze zu erkunden und Vorhersagemodelle zu erstellen. Seine Liebe zu Python galt nicht nur der Sprache selbst, sondern auch der Community, die sich um sie herum entwickelt hatte.

Bei einer Temperatur von 1,25 erzeugt Granite:

Es war einmal in einer pulsierenden Stadt voller hoch aufragender Wolkenkratzer und Neonlichter ein Datenwissenschaftler, der Python mehr liebte als alles andere auf der Welt. Der Data Scientist hat eine helfende Katze namens Suki. Suki ist eine neugierige und verspielte Katze, die immer darauf aus ist, jeden Winkel des Hauses zu erkunden.

Eines Tages arbeitet der Data Scientist an einem komplexen Codierungsproblem. Suki miaut weiter laut, als wollte sie dem Data Scientist eine Nachricht übermitteln. Der Data Scientist stellt fest, dass das laute Miauen meist dann auftritt, wenn er sich einer Lösung des komplexen Codierungsproblems nähert.

Beachten Sie, dass, auch wenn jede Geschichte mit einem ähnlichen Anfang beginnt, eine Erhöhung der Temperatur die Variabilität des Textes und der erzeugten Details erhöht.

Weiterführende Lösungen
Basismodelle

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.

watsonx.ai erkunden Erkunden Sie KI-Lösungen
Fußnoten

1 Max Peeperkorn, Tom Kouwenhoven, Dan Brown, and Anna Jordanous, Is Temperature the Creativity Parameter of Large Language Models?, 2024