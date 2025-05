Uno degli aspetti più allettanti dei modelli linguistici basati su SSM è la capacità teorica di gestire sequenze infinitamente lunghe. Ma a causa di vincoli pratici, la parola "teorico" in genere ha un significato molto più ampio.

Uno di questi vincoli, soprattutto per i modelli ibridi SSM, deriva dalla codifica posizionale (PE) utilizzata per rappresentare le informazioni sull'ordine delle parole. La PE aggiunge passaggi computazionali e la ricerca ha dimostrato che i modelli che utilizzano tecniche di PE come la codifica posizionale rotativa (RoPE) hanno difficoltà a generalizzare a sequenze più lunghe di quelle osservate durante l'addestramento.3

L'architettura Granite 4.0 non utilizza la codifica posizionale (NoPE). I nostri test dimostrano in modo convincente che ciò non ha avuto effetti negativi sulle prestazioni nel lungo periodo. Al momento, abbiamo già convalidato le prestazioni a lungo termine di Tiny Preview per almeno 128K token e prevediamo di convalidare prestazioni simili su lunghezze di contesto significativamente più lunghe quando il modello avrà completato l'addestramento e il post-addestramento. Vale la pena notare che una sfida fondamentale nella convalida definitiva delle prestazioni su attività nell'ordine di grandezza del contesto di 1M-token è la scarsità di set di dati adatti.

L'altro vincolo pratico sulla lunghezza del contesto Mamba è il calcolo. Il ridimensionamento lineare è migliore del ridimensionamento quadratico, ma alla fine si somma comunque. Anche in questo caso, Granite 4.0 Tiny presenta due vantaggi chiave:

A differenza di PE, NoPE non aggiunge alcun carico computazionale aggiuntivo al meccanismo di attenzione nei livelli di trasformatore del modello.

Granite 4.0 Tiny è estremamente compatto ed efficiente, lasciando ampio spazio hardware per il ridimensionamento lineare.

In parole povere, l'architettura Granite 4.0 MoE di per sé non impone vincoli sulla lunghezza del contesto. Può arrivare fino a dove può arrivare il suo hardware.