Was ist ein Kontextfenster?

Autoren

Senior Staff Writer, AI Models

IBM Think

Was ist ein Kontextfenster?

Das Kontextfenster (oder die „Kontextlänge“) eines Large Language Models (LLM) ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Ein größeres Kontextfenster ermöglicht es einem KI-Modell, längere Eingaben zu verarbeiten und eine größere Menge an Informationen in jede Ausgabe zu integrieren.

Das Kontextfenster eines LLM kann als das Äquivalent seines Arbeitsgedächtnisses betrachtet werden. Es bestimmt, wie lange ein Gespräch geführt werden kann, ohne Details aus früheren Phasen des Austauschs zu vergessen. Außerdem wird die maximale Größe von Dokumenten oder Codebeispielen bestimmt, die gleichzeitig verarbeitet werden können. Wenn ein Prompt, eine Konversation, ein Dokument oder eine Codebasis das Kontextfenster eines KI-Modells überschreitet, muss es/sie abgeschnitten oder zusammengefasst werden, damit das Modell fortfahren kann.

Im Allgemeinen bedeutet die Vergrößerung des Kontextfensters eines LLM eine höhere Genauigkeit, weniger Halluzinationen, kohärentere Modellreaktionen, längere Konversationen und eine verbesserte Fähigkeit zur Analyse längerer Datensequenzen. Eine Erhöhung der Kontextlänge ist jedoch nicht ohne Kompromisse: Sie bringt oft höhere Anforderungen an die Rechenleistung mit sich – und damit höhere Kosten – sowie eine potenzielle Erhöhung der Anfälligkeit für böswillige Angriffe.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

Kontextfenster und Tokenisierung

$m o r ein/e l$ In der Praxis wird die Kontextlänge eines Sprachmodells nicht in Worten, sondern in Token gemessen.Um zu verstehen, wie Kontextfenster in der Praxis funktionieren, ist es wichtig zu verstehen, wie diese Token arbeiten.

Die Art und Weise, wie LLMs Sprache verarbeiten, unterscheidet sich grundlegend von der des Menschen. Während die kleinste Informationseinheit, die wir zur Darstellung von Sprache verwenden, ein einzelnes Zeichen – wie ein Buchstabe, eine Zahl oder ein Satzzeichen – ist, ist die kleinste Spracheinheit, die KI-Modelle verwenden, ein Token. Um ein Modell darauf zu trainieren, Sprache zu verstehen, wird jedem Token eine ID zugewiesen; diese ID-Nummern, und nicht die Wörter oder sogar die Token selbst, werden zum Trainieren des Modells verwendet. Diese Tokenisierung der Sprache reduziert die Rechenleistung, die zur Verarbeitung und zum Lernen aus dem Text erforderlich ist, deutlich.

Es gibt eine große Bandbreite an Text, den ein Token darstellen kann: Ein Token kann für ein einzelnes Zeichen, einen Teil eines Wortes (z. B. ein Suffix oder Präfix), ein ganzes Wort oder sogar eine kurze, aus mehreren Wörtern bestehende Phrase stehen. Betrachten Sie die verschiedenen Rollen, die der Buchstabe „a“ in den folgenden Beispielen spielt:

„Jeff drove a car.”

Hier ist „ $ein/e$ “ ein ganzes Wort. In dieser Situation würde es durch ein eindeutiges Token dargestellt werden.

„Jeff is amoral.“

Hier ist „ $ein/e$ " kein Wort, sondern eine Ergänzung zu $m o r ein/e l$ , die die Bedeutung des Wortes deutlich verändert. $A m o r ein/e l$ würde daher durch zwei verschiedene Token dargestellt: ein Token für $ein/e$ und ein anderes für $m o r ein/e l$ .

„Jeff loves his cat.“

Hier ist $ein/e$ einfach ein Buchstabe im Wort „ $C ein/e t$ ". Es hat keine semantische Bedeutung für sich und muss daher nicht durch ein eindeutiges Token dargestellt werden.

Es gibt keinen festen Wort-Token-„Wechselkurs“, und verschiedene Modelle oder Tokenizer – eine modulare Teilmenge eines größeren Modells, die für die Tokenisierung zuständig ist – können dieselbe Textpassage unterschiedlich tokenisieren. Eine effiziente Tokenisierung kann dazu beitragen, die tatsächliche Textmenge zu erhöhen, die in die Grenzen eines Kontextfensters passt. Aber für allgemeine Zwecke würde eine angemessene Schätzung bei etwa 1,5 Token pro Wort liegen. Der Tokenizer Playground auf Hugging Face ist eine einfache Möglichkeit, zu sehen und damit zu experimentieren, wie verschiedene Modelle Texteingaben in Token umwandeln.

Variationen in der linguistischen Struktur und Darstellung in Trainingsdaten können dazu führen, dass einige Sprachen effizienter tokenisiert werden als andere. In einer Studie vom Oktober 2024 wurde beispielsweise ein Beispiel untersucht, bei dem derselbe Satz sowohl im Englischen als auch in Telugu tokenisiert wurde. Obwohl die Telugu-Übersetzung deutlich weniger Zeichen als ihr englisches Äquivalent hatte, führte sie zu mehr als 7-mal so vielen Token im Kontext.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

Warum haben Modelle eine maximale Kontextlänge?

Obwohl Kontextfenster in der Regel mit LLMs in Verbindung gebracht werden, die für Zusammenfassungen, Textgenerierung und andere Aufgaben der Verarbeitung natürlicher Sprache (NLP) verwendet werden, ist die Kontextlänge als technische Überlegung nicht ausschließlich auf Sprachmodelle beschränkt. Der Begriff des Kontextfensters ist für jedes Modell des maschinellen Lernens relevant, das die Transformer-Architektur verwendet, die die meisten modernen generativen KI-Modelle, einschließlich fast aller LLMs, umfasst.

Transformer-Modelle verwenden einen Selbstaufmerksamkeitsmechanismus, um die Beziehungen und Abhängigkeiten zwischen verschiedenen Teilen einer Eingabe (z. B. Wörter am Anfang und Ende eines Absatzes) zu berechnen. Mathematisch gesehen berechnet ein Selbstaufmerksamkeitsmechanismus Gewichtungsvektoren für jedes Token in einer Textsequenz, in der jedes Gewicht darstellt, wie relevant dieses Token für andere in der Sequenz ist. Ein autoregressives LLM konsultiert diese Gewichtungen iterativ jedes Mal, wenn es das nächste Wort seiner Ausgabe generiert. Die Größe des Kontextfensters bestimmt die maximale Anzahl von Token, auf die das Modell gleichzeitig „achten“ kann.

Es ist erwähnenswert, dass der Text der eigentlichen Benutzereingabe oft nicht das Einzige ist, das im Kontextfenster eines Modells Platz einnimmt. In vielen Fällen, etwa bei Chatbots, werden Modelle auch mit einem „System-Prompt“ – das für den Benutzer oft verborgen bleibt – versehen, das ihr Verhalten bestimmt und andere Aspekte der Konversation regelt. Ergänzende Informationen aus externen Datenquellen für die Retrieval-Augmented Generation (RAG) werden während der Inferenz ebenfalls im Kontextfenster gespeichert. Sonderzeichen, Zeilenumbrüche und andere Formatierungsmaßnahmen nehmen ebenfalls einen Teil des verfügbaren Kontexts in Anspruch.

Es ist auch erwähnenswert, dass Sprachmodelle nicht die einzigen neuronalen Netze sind, die Transformer verwenden. Einige Diffusionsmodelle, die für die Bilderzeugung verwendet werden, integrieren zum Beispiel die Selbstaufmerksamkeit in ihre Architektur. In diesem Fall wird der Kontext nicht zwischen Token, die Wörter (oder Teile von Wörtern) in schriftlichen Inhalten darstellen, sondern zwischen Pixeln in einem Bild beachtet. In einem solchen Modell würde sich die Kontextlänge auf die Anzahl der Pixel beziehen, deren Beziehungen das Modell verstehen muss. Sein Kontextfenster könnte durch ein hochauflösendes Bild überschritten werden, das zu viele Pixel enthält, um sie auf einmal zu verarbeiten.

Kontextfenster und Rechenressourcen

Die Ausstattung eines Modells mit einem großen Kontextfenster hat ihren Preis, sowohl im übertragenen als auch im wörtlichen Sinne. Die Anforderungen an die Rechenleistung skalieren quadratisch mit der Länge einer Sequenz: Wenn sich beispielsweise die Anzahl der Eingabe-Token verdoppelt, benötigt das Modell 4 Mal so viel Rechenleistung, um dies zu verarbeiten.

In ähnlicher Weise kann eine Erhöhung der Kontextlänge auch die Ausgaben verlangsamen. Jedes Mal, wenn das Modell das nächste Token in einer Sequenz autoregressiv vorhersagt, berechnet es die Beziehungen zwischen diesem Token und jedem einzelnen vorhergehenden Token in der Sequenz. Der Rückschluss kann zu Beginn einer Sequenz oder Konversation relativ schnell sein, wird aber mit zunehmender Kontextlänge zunehmend langsamer. Dies ist problematisch für Anwendungsfälle, die eine nahezu sofortige Inferenz in Echtzeit erfordern.

Jüngste Fortschritte bei der durchschnittlichen Kontextlänge für Sprachmodelle wurden teilweise durch neue Techniken ermöglicht, die Geschwindigkeit und Effizienz der Inferenz ausreichend erhöhen, um diese inhärenten Kompromisse ausreichend auszugleichen. Diese Optimierungstechniken haben es selbst kleinen, modernen Open-Source-LLMs ermöglicht, Kontextfenster anzubieten, die exponentiell größer sind als das ursprüngliche GPT-3.5-Modell, mit dem ChatGPT von OpenAI Ende 2022 auf den Markt kam.

Herausforderungen langer Kontextfenster

Selbst wenn angemessene Maßnahmen ergriffen werden, um die Kompromisse bei den Rechenanforderungen und der Verarbeitungsgeschwindigkeit auszugleichen, führt die Erweiterung der Kontextlängenbeschränkung eines Modells zu zusätzlichen Herausforderungen und Komplikationen.

Herausforderungen bei der Leistung

Wie Menschen können auch LLMs von einer Fülle an zusätzlichen Details überwältigt werden. Sie können auch bequem werden und kognitive Abkürzungen nehmen. In einem Artikel aus dem Jahr 2023 wurde festgestellt, dass LLMs „Informationen in langen Eingabekontexten nicht robust nutzen“. Genauer gesagt stellten die Autoren fest, dass Modelle am besten funktionieren, wenn relevante Informationen am Anfang oder Ende des Eingabekontexts stehen. Sie beobachteten außerdem, dass die Leistung abnimmt, wenn das Modell die Informationen in der Mitte langer Kontexte sorgfältig berücksichtigen muss.¹

Neuartige Methoden zur Verbesserung der Wirksamkeit des Selbstaufmerksamkeitsmechanismus des Transformers selbst, wie z. B. Rotary Position Embedding (RoPE), zielen darauf ab, die Positionskodierung von Token in Aufmerksamkeitsvektoren zu modifizieren. Die weit verbreitete Einführung von RoPE-basierten Methoden hat zu einer verbesserten Leistung und Geschwindigkeit bei Aufgaben geführt, bei denen Token in großer Entfernung voneinander beteiligt sind.

Laufende Forschungsarbeiten haben eine Reihe von Benchmarks hervorgebracht, die die Fähigkeit eines LLM messen sollen, relevante Informationen mit großen Passagen effektiv zu finden und zu nutzen, wie z. B. needle-in-a-haystack (NIAH), RULER und LongBench.

Herausforderungen in den Bereichen Sicherheit und Cybersicherheit

Ein längeres Kontextfenster könnte auch den unbeabsichtigten Effekt haben, eine längere Angriffsfläche für Angreifer-Prompts zu bieten. Jüngste Untersuchungen von Anthropic haben gezeigt, dass die Erhöhung der Kontextlänge eines Modells auch dessen Anfälligkeit für „Jailbreaking“ und (anschließend) die Provokation zu schädlichen Antworten erhöht.²

Kontextfenstergrößen prominenter LLMs

Das durchschnittliche Kontextfenster eines großen Sprachmodells ist seit der Veröffentlichung der ursprünglichen Generative Pretrained Transformers (GPTs) exponentiell gewachsen. Bis heute hat jede nachfolgende Generation von LLMs typischerweise deutlich längere Kontextlängen mit sich gebracht. Derzeit beträgt das größte Kontextfenster, das ein prominentes kommerzielles Modell bietet, über 1 Million Token. Es bleibt abzuwarten, ob sich die Kontextfenster weiter vergrößern werden oder ob wir uns bereits der Obergrenze der praktischen Notwendigkeit nähern.

Als Referenz finden Sie hier die aktuellen Kontextlängen, die von einigen häufig zitierten Modellen und Modellfamilien angeboten werden (Stand: Oktober 2024).

Die GPT-Serie von OpenAI:

Das GPT-3.5-Modell, das bei der Markteinführung von ChatGPT zum Einsatz kam, hatte eine maximale Kontextlänge von 4.096 Token, die später mit GPT-3.5-Turbo auf 8.192 Token erweitert wurde.
Bei der Markteinführung hatte GPT-4 dieselbe Kontextlänge von 8.192 Token. Obwohl das Kontextfenster sowohl von GPT-4 als auch von GPT-4-Turbo seitdem auf 128.000 Token erhöht wurde, bleibt die maximale Anzahl von Ausgabe-Token auf 4.096 Token begrenzt.
Sowohl GPT-4o als auch GPT-4o mini haben ein Kontextfenster von 128.000 Token, wobei die Ausgabe auf 16.384 Token begrenzt ist.

Die neue o1-Modellfamilie bietet ebenfalls ein Kontextfenster von 128.000 Token, allerdings mit einer größeren Ausgabekontextlänge.

Meta Llama-Modelle

Die ursprünglichen Llama-Modelle hatten eine maximale Kontextlänge von 2.048 Token, was für Llama 2 auf 4.096 Token verdoppelt wurde. Bei ihrer Einführung im April 2024 boten die Llama-3-Modelle ein Kontextfenster von rund 8.000 Token.

Die Kontextlänge von Llama wurde mit der Einführung der Llama 3.1-Modelle, die 128.000 Token lange Kontextfenster boten, deutlich erhöht. Llama 3.2-Modelle haben ebenfalls eine maximale Kontextlänge von 128.000 Token.

Mistral Large 2

Mistral Large 2, das von Mistral KI angebotene Flaggschiffmodell, hat ein Kontextfenster von 128.000 Token.

Google Gemini-Modelle

Die Gemini-Modellserie von Google bietet das derzeit größte Kontextfenster unter den kommerziellen Sprachmodellen. Gemini 1.5 Pro, das Flaggschiffmodell von Google, bietet eine Kontextlänge von bis zu 2 Millionen Token. Andere Gemini 1.5-Modelle, wie z. B. Gemini 1.5 Flash, haben ein Kontextfenster von 1 Million Token.

Claude-Modelle von Anthropic

Die neuesten Claude-Modelle von Anthropic, wie das Claude 3.5 Sonnet, bieten ein Standard-Kontextfenster von etwa 200.000 Token. Anfang September 2024 kündigte Anthropic an, dass die Modelle, auf die über seinen neuen „Claude Enterprise“-Tarif zugegriffen wird, ein erweitertes Kontextfenster von 500.000 Token bieten werden.

Fußnoten

^1.„Lost in the Middle: How Language Models Use Long Contexts“, arXiv, 6. Juli 2023² „Many-shot jailbreaking“, Anthropic, 2. April 2024

Ist Ihr Unternehmen bereit, generative KI zu nutzen?

Erfahren Sie mehr über die fünf wichtigsten Orchestrierungsfunktionen, mit denen Unternehmen die Herausforderungen bei der Implementierung generativer KI effektiv meistern können.

Was ist ein Kontextfenster?

Autoren

Was ist ein Kontextfenster?

Die neuesten Erkenntnisse und Insights zu KI

Kontextfenster und Tokenisierung

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Warum haben Modelle eine maximale Kontextlänge?

Kontextfenster und Rechenressourcen

Herausforderungen langer Kontextfenster

Herausforderungen bei der Leistung

Herausforderungen in den Bereichen Sicherheit und Cybersicherheit

Kontextfenstergrößen prominenter LLMs

Die GPT-Serie von OpenAI:

Meta Llama-Modelle

Mistral Large 2

Google Gemini-Modelle

Claude-Modelle von Anthropic

Fußnoten

Share

Ressourcen