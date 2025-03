m o r un l En términos del mundo real, la longitud del contexto de un modelo de lenguaje no se mide en palabras, sino en tokens.Para entender cómo funcionan las ventanas de contexto en la práctica, es importante entender cómo funcionan estos tokens.

La forma en que los LLM procesan el lenguaje es completamente diferente de la forma en que lo hacen los humanos. Mientras que la unidad de información más pequeña que utilizamos para representar el lenguaje es un solo carácter,como una letra, un número o un signo de puntuación, la unidad de lenguaje más pequeña que utilizan los modelos de IA es un token. Para entrenar un modelo para que entienda el lenguaje, a cada token se le asigna un número de ID; estos números de ID, en lugar de las palabras o incluso los propios tokens, se utilizan para entrenar el modelo. Esta tokenización del lenguaje reduce significativamente la potencia computacional necesaria para procesar y aprender del texto.

La cantidad de texto que puede representar un token es muy variada: un token puede representar un solo carácter, una parte de una palabra (como un sufijo o prefijo), una palabra entera o incluso una frase corta de varias palabras. Considere los diferentes roles que desempeña la letra "a " en los siguientes ejemplos en inglés:

“Jeff drove a car.”

Aquí, " un " es una palabra en sí. En esta situación, estaría representada por un token distinto.

“Jeff is amoral.”

Aquí, " un " no es una palabra, pero su adición m o r un l cambia significativamente el significado de la palabra. A m o r un l por lo tanto, se representaría con dos tokens distintos: un token para un y otro para m o r un l .

"Jeff loves his cat."

En este caso, un es simplemente una letra en la palabra " c un t ." No conlleva ningún significado semántico en sí mismo y, por lo tanto, no necesitaría ser representado por un token distinto.



No existe un "tipo de cambio" fijo entre palabras y tokens, y diferentes modelos o tokenizadores (un subconjunto modular de un modelo mayor responsable de la tokenización) pueden tokenizar el mismo pasaje escrito de forma diferente. Una tokenización eficaz puede ayudar a aumentar la cantidad real de texto que cabe dentro de los límites de una ventana de contexto. Pero a efectos generales, una estimación decente sería de aproximadamente 1,5 tokens por palabra. El Tokenizer Playgroundde Hugging Face es una forma fácil de ver y experimentar cómo los diferentes modelos tokenizan las entradas de texto.

Las variaciones en la estructura lingüística y la representación en los datos de entrenamiento pueden hacer que algunas lenguas se tokenicen con más eficacia que otras. Por ejemplo, un estudio de octubre de 2024 exploró un ejemplo de tokenización de la misma oración tanto en inglés como en telugu. A pesar de que la traducción al telugu tiene muchos menos caracteres que su equivalente en inglés, el número de tokens en contexto es siete veces mayor.