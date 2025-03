M o r a l In termini reali, la lunghezza del contesto di un modello linguistico non si misura in parole, ma in token.Per capire come funzionano in pratica le finestre contestuali, è importante capire come funzionano questi token.

Il modo in cui gli LLM elaborano il linguaggio è fondamentalmente diverso da quello degli esseri umani. Considerando che l'unità di informazione più piccola che utilizziamo per rappresentare il linguaggio è un singolo carattere, come una lettera, un numero o un segno di punteggiatura, l'unità linguistica più piccola utilizzata dai modelli AI è un token. Per addestrare un modello a comprendere il linguaggio, a ogni token viene assegnato un numero ID; questi numeri ID, piuttosto che le parole o persino i token stessi, vengono utilizzati per addestrare il modello. Questa tokenizzazione del linguaggio riduce in modo significativo la potenza computazionale necessaria per elaborare e imparare dal testo.

C'è una grande variabilità nella quantità di testo che può rappresentare un token: un token può sostituire un singolo carattere, una parte di una parola (come un suffisso o un prefisso), una parola intera o anche una breve frase composta da più parole. Considera i diversi ruoli svolti dalla lettera "a" nei seguenti esempi:

"Jeff è andato a casa."

Qui " a " è una parola intera. In questa situazione, sarebbe rappresentata da un token distinto.

"Jeff è amorale."

Qui, " a " non è una parola, ma la sua aggiunta alla parola M o r a l cambia sostanzialmente il significato della parola. A M o r a l sarebbe quindi rappresentata da due token distinti: un token per a e un altro per M o r a l .

"Jeff ama il suo gatto."

Qui a è semplicemente una lettera nella parola " C a T ." Non ha alcun significato semantico a sé stante e, quindi, non avrebbe bisogno di essere rappresentata da un token distinto.



Non esiste un “tasso di cambio” fisso tra parola e token e diversi modelli o tokenizzatori (un sottoinsieme modulare di un modello più ampio responsabile della tokenizzazione) potrebbero tokenizzare lo stesso passaggio di scrittura in modo diverso. Una tokenizzazione efficiente può aiutare ad aumentare la quantità effettiva di testo che rientra nei confini di una finestra di contesto. Ma per scopi generali, una stima decente sarebbe di circa 1,5 token per parola. Il Tokenizer Playground su Hugging Face è un modo semplice per vedere e sperimentare come diversi modelli tokenizzano gli input di testo.

Le variazioni nella struttura linguistica e nella rappresentazione nei dati di formazione possono far sì che alcune lingue vengano tokenizzate in modo più efficiente rispetto ad altre. Ad esempio, uno studio dell'ottobre 2024 ha esplorato un esempio di tokenizzazione della stessa frase sia in inglese che in telugu. Nonostante la traduzione in telugu contenga un numero significativamente inferiore di caratteri rispetto all'equivalente inglese, ha prodotto oltre 7 volte il numero di token contestuali.