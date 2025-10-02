Il lancio di Granite 4.0 avvia una nuova era per la famiglia di modelli linguistici di grandi dimensioni enterprise-ready di IBM, che utilizzano i nuovi progressi a livello di architettura per raddoppiare i modelli linguistici piccoli ed efficienti che forniscono prestazioni competitive a costi e latenza ridotti. I modelli Granite 4.0 sono stati sviluppati con particolare enfasi sulle attività essenziali per i workflow agentici, sia come implementazioni indipendenti che come elementi costitutivi economici all'interno di sistemi complessi, insieme a modelli di ragionamento più ampi.

La collezione Granite 4.0 comprende diverse dimensioni dei modelli e diversi stili di architettura per offrire una produzione ottimale in un'ampia gamma di vincoli hardware, tra cui:

Granite-4.0-H-Small , un modello ibrido mixture of experts (MoE) con 32 miliardi di parametri totali (9 miliardi attivi)

, un modello ibrido mixture of experts (MoE) con 32 miliardi di parametri totali (9 miliardi attivi) Granite-4.0-H-Tiny, un MoE ibrido con 7 miliardi di parametri totali (1 miliardo attivo)

un MoE ibrido con 7 miliardi di parametri totali (1 miliardo attivo) Granite-4.0-H-Micro, un modello ibrido denso con 3 miliardi di parametri.

un modello ibrido denso con 3 miliardi di parametri. Questa versione include anche Granite-4.0-Micro, un modello ad alta densità 3B con un'architettura trasformativa, per ospitare piattaforme e comunità che non supportano ancora le architetture ibride.

Granite 4.0-H Small è un modello perfetto per prestazioni solide ed economiche su workflow aziendali come agenti multi-tool e automazione del supporto clienti. I modelli Tiny e Micro sono progettati per applicazioni a bassa latenza, edge e locali, e possono anche fungere da elemento costitutivo all'interno di workflow più ampi per l'esecuzione rapida di attività chiave come la chiamata di funzioni.

Le prestazioni del benchmark Granite 4.0 mostrano miglioramenti sostanziali rispetto alle generazioni precedenti: anche i modelli Granite 4.0 più piccoli superano significativamente Granite 3.3 8B, nonostante siano meno della metà delle sue dimensioni, tuttavia il loro punto di forza più importante è il notevole aumento dell'efficienza di inferenza. Rispetto agli LLM tradizionali, i nostri modelli ibridi Granite 4.0 richiedono una quantità notevolmente inferiore di RAM per l'esecuzione, soprattutto per le attività che comportano elevate lunghezze del contesto (come l'inserimento di una grande base di codice o di un'ampia documentazione) e più sessioni contemporanee (come un agente del servizio clienti che gestisce molte richieste dettagliate degli utenti contemporaneamente).

In particolare, la drastica riduzione dei requisiti di memoria di Granite 4.0 comporta una riduzione altrettanto drastica del costo dell'hardware necessario per eseguire workload pesanti a velocità di inferenza elevate. Il nostro obiettivo è quello di ridurre le barriere all'ingresso, fornendo alle aziende e agli sviluppatori open source un accesso economico a LLM altamente competitivi.