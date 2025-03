m o r un(e) l En termes concrets, la longueur du contexte d’un modèle de langage est mesurée non pas en mots, mais en jetons. Pour comprendre le fonctionnement des fenêtres de contexte en pratique, il est important de comprendre comment ces jetons fonctionnent.

Les LLM et les humains traitent le langage d’une manière fondamentalement différente. Alors que la plus petite unité d’information que nous utilisons pour représenter la langue est un caractère unique, comme une lettre, un chiffre ou un signe de ponctuation, la plus petite unité de langage utilisée par les modèles d’IA est un jeton. Pour entraîner un modèle à comprendre un langage, un numéro d’identification est attribué à chaque jeton. Ce sont ces numéros d’identification, plutôt que les mots ou les jetons eux-mêmes, qui sont utilisés pour entraîner le modèle. Cette tokenisation du langage réduit de manière significative la puissance de calcul nécessaire au traitement du texte à l’apprentissage qui en résulte.

La quantité de texte qu’un jeton peut représenter varie considérablement : un jeton peut représenter un seul caractère, une partie de mot (comme un suffixe ou un préfixe), un mot entier ou même une courte phrase de plusieurs mots. Considérez les différents rôles joués par la lettre « a » dans les exemples suivants :

« Jeff a conduit une voiture. »

Ici, « un(e) » est un mot entier. Dans cette situation, il serait représenté par un jeton distinct.

« Jeff est un homme amoral. »

Ici, « un(e) » n’est pas un mot, mais son ajout à m o r un(e) l modifie considérablement le sens du mot. A m o r un(e) l serait donc représenté par deux jetons distincts : un jeton pour un(e) et un autre pour m o r un(e) l .

« Jeff aime son chat. »

Ici, un(e) est simplement une lettre du mot « c un(e) T ». Il n’a aucune signification sémantique et n’aurait donc pas besoin d’être représenté par un jeton distinct.



Il n’existe pas de « taux d’échange » fixe entre mots et jetons. De même, différents modèles ou tokenizers (sous-ensembles modulaires d’un modèle plus vaste responsables de la tokenisation) pourraient tokeniser différemment un même passage écrit. Une tokenisation efficace peut augmenter la quantité de texte effective entrant dans les limites d’une fenêtre de contexte. Mais d’une manière générale, une estimation convenable serait d’environ 1,5 jeton par mot. L’espace Tokenizer Playground sur Hugging Face est un moyen facile de voir et d’examiner comment différents modèles tokenisent les entrées textuelles.

Les variations en termes de structure linguistique et de représentation dans les données d’entraînement peuvent engendrer une tokenisation plus efficace de certaines langues par rapport à d’autres. Par exemple, une étude réalisée en octobre 2024 s’est penchée sur un exemple de tokenisation de la même phrase en anglais et en télougou. Même si la traduction télougou comportait beaucoup moins de caractères que son équivalent anglais, elle a généré plus de 7 fois le nombre de jetons dans le contexte.