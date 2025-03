m o r ein/e l In der Praxis wird die Kontextlänge eines Sprachmodells nicht in Worten, sondern in Token gemessen.Um zu verstehen, wie Kontextfenster in der Praxis funktionieren, ist es wichtig zu verstehen, wie diese Token arbeiten.

Die Art und Weise, wie LLMs Sprache verarbeiten, unterscheidet sich grundlegend von der des Menschen. Während die kleinste Informationseinheit, die wir zur Darstellung von Sprache verwenden, ein einzelnes Zeichen – wie ein Buchstabe, eine Zahl oder ein Satzzeichen – ist, ist die kleinste Spracheinheit, die KI-Modelle verwenden, ein Token. Um ein Modell darauf zu trainieren, Sprache zu verstehen, wird jedem Token eine ID zugewiesen; diese ID-Nummern, und nicht die Wörter oder sogar die Token selbst, werden zum Trainieren des Modells verwendet. Diese Tokenisierung der Sprache reduziert die Rechenleistung, die zur Verarbeitung und zum Lernen aus dem Text erforderlich ist, deutlich.

Es gibt eine große Bandbreite an Text, den ein Token darstellen kann: Ein Token kann für ein einzelnes Zeichen, einen Teil eines Wortes (z. B. ein Suffix oder Präfix), ein ganzes Wort oder sogar eine kurze, aus mehreren Wörtern bestehende Phrase stehen. Betrachten Sie die verschiedenen Rollen, die der Buchstabe „a“ in den folgenden Beispielen spielt:

„Jeff drove a car.”

Hier ist „ ein/e “ ein ganzes Wort. In dieser Situation würde es durch ein eindeutiges Token dargestellt werden.

„Jeff is amoral.“

Hier ist „ ein/e " kein Wort, sondern eine Ergänzung zu m o r ein/e l , die die Bedeutung des Wortes deutlich verändert. A m o r ein/e l würde daher durch zwei verschiedene Token dargestellt: ein Token für ein/e und ein anderes für m o r ein/e l .

„Jeff loves his cat.“

Hier ist ein/e einfach ein Buchstabe im Wort „ C ein/e t ". Es hat keine semantische Bedeutung für sich und muss daher nicht durch ein eindeutiges Token dargestellt werden.



Es gibt keinen festen Wort-Token-„Wechselkurs“, und verschiedene Modelle oder Tokenizer – eine modulare Teilmenge eines größeren Modells, die für die Tokenisierung zuständig ist – können dieselbe Textpassage unterschiedlich tokenisieren. Eine effiziente Tokenisierung kann dazu beitragen, die tatsächliche Textmenge zu erhöhen, die in die Grenzen eines Kontextfensters passt. Aber für allgemeine Zwecke würde eine angemessene Schätzung bei etwa 1,5 Token pro Wort liegen. Der Tokenizer Playground auf Hugging Face ist eine einfache Möglichkeit, zu sehen und damit zu experimentieren, wie verschiedene Modelle Texteingaben in Token umwandeln.

Variationen in der linguistischen Struktur und Darstellung in Trainingsdaten können dazu führen, dass einige Sprachen effizienter tokenisiert werden als andere. In einer Studie vom Oktober 2024 wurde beispielsweise ein Beispiel untersucht, bei dem derselbe Satz sowohl im Englischen als auch in Telugu tokenisiert wurde. Obwohl die Telugu-Übersetzung deutlich weniger Zeichen als ihr englisches Äquivalent hatte, führte sie zu mehr als 7-mal so vielen Token im Kontext.