IBM Granite 4.0 Tiny Preview: un'anteprima della prossima generazione di modelli Granite

Quadrati che illustrano i modelli di granite

Autore

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Siamo entusiasti di presentare alla community open source IBM Granite 4.0 Tiny Preview, una versione preliminare del modello più piccolo della prossima famiglia di modelli linguistici Granite 4.0.

Granite 4.0 Tiny Preview è estremamente compatto ed efficiente in termini di calcolo: con precisione FP8, diverse sessioni simultanee che eseguono attività di lungo contesto (128K) possono essere eseguite su hardware di livello consumer, comprese le GPU comunemente disponibili per meno di 350 USD.1

Sebbene il modello sia stato addestrato solo parzialmente (ha visto solo 2,5 T dei 15 T o più token di addestramento previsti), offre già prestazioni che rivaleggiano con quelle di IBM Granite 3.3 2B Instruct nonostante un minor numero di parametri attivi e una riduzione di circa il 72 % nei requisiti di memoria.2 Prevediamo che le prestazioni di Granite 4.0 Tiny saranno pari a quelle di Granite 3.3 8B Instruct quando avrà completato l'addestramento e il post-addestramento.

Grafico che confronta le prestazioni dei modelli linguistici

Come suggerisce il nome, Granite 4.0 Tiny sarà tra i modelli più piccoli della famiglia Granite 4.0. Sarà rilasciato ufficialmente quest'estate come parte di una gamma di modelli che include anche Granite 4.0 Small e Granite 4.0 Medium. Granite 4.0 continua il fermo impegno di IBM a fare dell'efficienza e della praticità il cardine dello sviluppo del proprio LLM aziendale.

Questa versione preliminare di Granite 4.0 Tiny è ora disponibile su Hugging Face, anche se non consigliamo ancora la versione di anteprima per uso aziendale, con una licenza Apache 2.0 standard. Il nostro intento è consentire anche agli sviluppatori con poca GPU di sperimentare e armeggiare il modello su GPU di livello consumer. La nuova architettura del modello è in attesa di supporto per i trasformatori Hugging Face e vLLM, che prevediamo saranno completati a breve per entrambi i progetti. Il supporto ufficiale per l'esecuzione di questo modello a livello locale tramite partner di piattaforma, tra cui Ollama e LMStudio, è previsto in tempo per il rilascio completo del modello entro la fine dell'estate.

Prestazioni di livello aziendale su un hardware di tipo consumer

I requisiti di memoria LLM sono spesso forniti, letteralmente e figuratamente, senza un contesto adeguato. Non è sufficiente sapere che un modello può essere caricato correttamente nelle sue GPU: bisogna sapere che l'hardware è in grado di gestire il modello alle lunghezze di contesto richieste dal suo caso d'uso.

Inoltre, molti casi d'uso aziendali non comportano una distribuzione di un modello singolo, ma l'inferenza batch di più istanze simultanee. Pertanto, IBM si impegna a misurare e segnalare i requisiti di memoria tenendo conto di contesti prolungati e sessioni simultanee.

Confronto dei requisiti di RAM per i modelli linguistici

Granite 4.0 Tiny è uno dei modelli linguistici più efficienti in termini di memoria oggi disponibili. Anche in contesti molto lunghi, diverse istanze simultanee di Granite 4.0 Tiny possono essere eseguite facilmente su una modesta GPU consumer.

Una nuovissima architettura MoE ibrida

Mentre le generazioni precedenti di Granite LLM utilizzavano un'architettura trasformativa convenzionale, tutti i modelli della famiglia Granite 4.0 utilizzano una nuova architettura ibrida Mamba-2/Transformer, che unisce la velocità e l'efficienza di Mamba con la precisione dell'auto-attenzione basata sui trasformatori. In particolare, Granite 4.0 Tiny-Preview è un modello ibrido mixture of experts (MoE) dettagliato, con 7 miliardi di parametri totali e solo 1 miliardo di parametri attivi al momento dell'inferenza.

Molte delle innovazioni che informano l'architettura Granite 4 sono nate dalla collaborazione di IBM Research con i creatori originali di Mamba su Bamba, un modello ibrido open source sperimentale il cui successore (Bamba v2) è stato rilasciato all'inizio di questa settimana.

Una breve storia dei modelli Mamba

Mamba (PDF) è un tipo di modello negli spazi degli stati (SSM), introdotto nel 2023, circa 6 anni dopo il debutto dei trasformatori nel 2017.

Gli SSM sono concettualmente simili alle reti neurali ricorrenti (RNN) che dominavano l'elaborazione del linguaggio naturale (NLP) nell'era dei pre-trasformatori. Originariamente erano stati progettati per prevedere lo stato successivo di una sequenza continua (come un segnale elettrico) utilizzando solo le informazioni provenienti dallo stato corrente, dallo stato precedente e dalla gamma di possibilità (lo spazio degli stati). Sebbene siano utilizzati in diversi domini da decenni, gli SSM condividono alcune carenze con gli RNN che, fino a poco tempo fa, limitavano il loro potenziale di modellazione linguistica.

A differenza del meccanismo di auto-attenzione dei trasformatori, gli SSM convenzionali non hanno alcuna capacità intrinseca di concentrarsi selettivamente o ignorare informazioni contestuali specifiche. Così, nel 2023, Albert Gu di Carnegie Mellon e Tri Dao di Princeton hanno introdotto un tipo di rete neurale strutturata nello spazio degli stati («S4") che aggiunge un meccanismo di selezione e un metodo di scansione (per l'efficienza computazionale), abbreviato come modello «S6", e hanno ottenuto risultati di modellazione del linguaggio competitivi con i trasformatori. Hanno soprannominato il loro modello «Mamba» perché, tra le altre ragioni, tutte quelle S ricordano il sibilo di un serpente.

Nel 2024, Gu e Dao hanno rilasciato Mamba-2, un'implementazione semplificata e ottimizzata dell'architettura Mamba. Altrettanto importante,il loro documento tecnico (PDF) ha approfondito la compatibilità tra SSM e auto-attenzione.

Mamba-2 e trasformatori a confronto

I principali vantaggi di Mamba rispetto ai modelli basati su trasformatori sono incentrati sull'efficienza e sulla velocità.

I trasformatori hanno un punto debole cruciale: i requisiti di calcolo dell'auto-attenzione scalano quadraticamente con il contesto. In altre parole, ogni volta che la lunghezza del contesto raddoppia, il meccanismo di attenzione non si limita a utilizzare il doppio delle risorse, ma ne utilizza il quadruplo. Questo «collo di bottiglia quadratico» limita sempre di più la velocità e le prestazioni man mano che la finestra di contesto (e la corrispondente cache KV) cresce.

Al contrario, le esigenze computazionali di Mamba sono scalabili linearmente: se si raddoppia la lunghezza di una sequenza di input, Mamba utilizza solo il doppio delle risorse. Mentre l'auto-attenzione deve calcolare ripetutamente la rilevanza di ogni token precedente per ogni nuovo token, Mamba mantiene semplicemente un «riepilogo» condensato e di dimensione fissa del contesto precedente dei token precedenti. Quando il modello "legge" ogni nuovo token, ne determina la pertinenza, quindi aggiorna (o non aggiorna) il riepilogo di conseguenza. Essenzialmente, mentre l'auto-attenzione conserva ogni bit di informazione e poi pesa l'influenza di ciascuno in base alla loro rilevanza, Mamba conserva selettivamente solo le informazioni rilevanti.

Detto questo, il metodo dei trasformatori, più impegnativo dal punto di vista della memoria e ridondante dal punto di vista computazionale, ha i suoi vantaggi. Ad esempio, la ricerca ha dimostrato (PDF) che i trasformatori superano ancora sia Mamba che Mamba-2 nelle attività che richiedono l'apprendimento contestuale (come la generazione di prompt few-shot), la copia o il ragionamento contestuale ampio.

Il meglio di entrambi i mondi

Fortunatamente, i rispettivi punti di forza dei trasformatori e Mamba non si escludono a vicenda. Nello stesso articolo originale di Mamba-2, gli autori Dao e Gu suggeriscono che un modello ibrido potrebbe superare le prestazioni di un puro trasformatore o SSM, un'idea convalidata dalla ricerca NVIDIA dello scorso anno (PDF) . Per approfondire la questione, IBM Research ha collaborato con gli stessi Dao e Gu, insieme a Minjia Zhang dell'Università dell'Illinois a Urbana-Champaign (UIUC), su Bamba e Bamba V2. Bamba, a sua volta, ha ispirato molti degli elementi architettonici di Granite 4.0.

L'architettura Granite 4.0 MoE impiega 9 blocchi Mamba per ogni 1 blocco trasformatore. In sostanza, i meccanismi di selettività dei blocchi Mamba catturano in modo efficiente il contesto globale, che viene poi passato ai blocchi di trasformazione che consentono un'analisi più sfumata del contesto locale. Il risultato è una drastica riduzione dell'utilizzo della memoria e della latenza senza apparenti compromessi in termini di prestazioni.

Granite 4.0 Tiny raddoppia questi incrementi di efficienza implementandoli all'interno di un framework compatto e dettagliato mixture of experts (MoE), composto da 7 miliardi di parametri totali e 64 esperti, che produce 1 miliardo di parametri attivi al momento dell'inferenza. Ulteriori dettagli sono disponibili nella scheda modello Hugging Face di Granite 4.0 Tiny Preview.

Lunghezza del contesto non vincolata

Uno degli aspetti più allettanti dei modelli linguistici basati su SSM è la capacità teorica di gestire sequenze infinitamente lunghe. Ma a causa di vincoli pratici, la parola "teorico" in genere ha un significato molto più ampio.

Uno di questi vincoli, soprattutto per i modelli ibridi SSM, deriva dalla codifica posizionale (PE) utilizzata per rappresentare le informazioni sull'ordine delle parole. La PE aggiunge passaggi computazionali e la ricerca ha dimostrato che i modelli che utilizzano tecniche di PE come la codifica posizionale rotativa (RoPE) hanno difficoltà a generalizzare a sequenze più lunghe di quelle osservate durante l'addestramento.3

L'architettura Granite 4.0 non utilizza la codifica posizionale (NoPE). I nostri test dimostrano in modo convincente che ciò non ha avuto effetti negativi sulle prestazioni nel lungo periodo. Al momento, abbiamo già convalidato le prestazioni a lungo termine di Tiny Preview per almeno 128K token e prevediamo di convalidare prestazioni simili su lunghezze di contesto significativamente più lunghe quando il modello avrà completato l'addestramento e il post-addestramento. Vale la pena notare che una sfida fondamentale nella convalida definitiva delle prestazioni su attività nell'ordine di grandezza del contesto di 1M-token è la scarsità di set di dati adatti.

L'altro vincolo pratico sulla lunghezza del contesto Mamba è il calcolo. Il ridimensionamento lineare è migliore del ridimensionamento quadratico, ma alla fine si somma comunque. Anche in questo caso, Granite 4.0 Tiny presenta due vantaggi chiave:

  • A differenza di PE, NoPE non aggiunge alcun carico computazionale aggiuntivo al meccanismo di attenzione nei livelli di trasformatore del modello.
  • Granite 4.0 Tiny è estremamente compatto ed efficiente, lasciando ampio spazio hardware per il ridimensionamento lineare. 

In parole povere, l'architettura Granite 4.0 MoE di per sé non impone vincoli sulla lunghezza del contesto. Può arrivare fino a dove può arrivare il suo hardware.

Cosa succederà adesso

Siamo entusiasti di continuare il pre-addestramento di Granite 4.0 Tiny, visti i risultati così promettenti nelle prime fasi del processo. Siamo inoltre entusiasti di applicare ai nuovi modelli quanto appreso dal post-addestramento di Granite 3.3, in particolare per quanto riguarda le funzionalità di ragionamento e il rispetto di istruzioni complesse. Come i suoi predecessori in Granite 3.2 e Granite 3.3, Granite 4.0 Tiny Preview offre opzioni attivabilipensando a epensando funzionalità (anche se il post-addestramento incentrato sul ragionamento è molto incompleto).

Ulteriori informazioni sui nuovi sviluppi della serie Granite saranno presentate all'IBM Think 2025 e nelle settimane e nei mesi a seguire.

Dai un'occhiata all'anteprima di Granite 4.0 Tiny su Hugging Face →

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Soluzioni correlate
IBM Granite

Ottieni un risparmio sui costi di oltre il 90% con i modelli più piccoli e aperti di Granite, progettati per l'efficienza degli sviluppatori. Questi modelli pensati per le imprese offrono prestazioni eccellenti rispetto ai benchmark di sicurezza e in un'ampia gamma di attività aziendali, dalla cybersecurity alla RAG.

Esplora Granite
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Prossimi passi

Esplora la libreria IBM dei foundation model nel portfolio di IBM watsonx per scalare in sicurezza l'AI generativa per la tua azienda.

  1. Scopri watsonx.ai
  2. Esplora i modelli AI Granite di IBM
Note a piè di pagina

1. Ad esempio, il consumo teorico di RAM per 5 sessioni contemporanee con una lunghezza di contesto fino a 128K è adatto per una GPU NVIDIA GeForce RTX 3060 con 12 GB di RAM, che, al 29 aprile 2025, parte da 329 USD. (Fonte: NVIDIA).
2. Riduzione della memoria calcolata a una lunghezza di contesto di 128K e 16 sessioni simultanee.
3. "The Impact of Positional Encoding on Length Generalization in Transformers," arXiv, 6 novembre 2023