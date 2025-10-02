Ecco una panoramica delle informazioni chiave:
Il lancio di Granite 4.0 avvia una nuova era per la famiglia di modelli linguistici di grandi dimensioni enterprise-ready di IBM, che utilizzano i nuovi progressi a livello di architettura per raddoppiare i modelli linguistici piccoli ed efficienti che forniscono prestazioni competitive a costi e latenza ridotti. I modelli Granite 4.0 sono stati sviluppati con particolare enfasi sulle attività essenziali per i workflow agentici, sia come implementazioni indipendenti che come elementi costitutivi economici all'interno di sistemi complessi, insieme a modelli di ragionamento più ampi.
La collezione Granite 4.0 comprende diverse dimensioni dei modelli e diversi stili di architettura per offrire una produzione ottimale in un'ampia gamma di vincoli hardware, tra cui:
Granite 4.0-H Small è un modello perfetto per prestazioni solide ed economiche su workflow aziendali come agenti multi-tool e automazione del supporto clienti. I modelli Tiny e Micro sono progettati per applicazioni a bassa latenza, edge e locali, e possono anche fungere da elemento costitutivo all'interno di workflow più ampi per l'esecuzione rapida di attività chiave come la chiamata di funzioni.
Le prestazioni del benchmark Granite 4.0 mostrano miglioramenti sostanziali rispetto alle generazioni precedenti: anche i modelli Granite 4.0 più piccoli superano significativamente Granite 3.3 8B, nonostante siano meno della metà delle sue dimensioni, tuttavia il loro punto di forza più importante è il notevole aumento dell'efficienza di inferenza. Rispetto agli LLM tradizionali, i nostri modelli ibridi Granite 4.0 richiedono una quantità notevolmente inferiore di RAM per l'esecuzione, soprattutto per le attività che comportano elevate lunghezze del contesto (come l'inserimento di una grande base di codice o di un'ampia documentazione) e più sessioni contemporanee (come un agente del servizio clienti che gestisce molte richieste dettagliate degli utenti contemporaneamente).
In particolare, la drastica riduzione dei requisiti di memoria di Granite 4.0 comporta una riduzione altrettanto drastica del costo dell'hardware necessario per eseguire workload pesanti a velocità di inferenza elevate. Il nostro obiettivo è quello di ridurre le barriere all'ingresso, fornendo alle aziende e agli sviluppatori open source un accesso economico a LLM altamente competitivi.
La priorità assegnata da IBM all'efficienza dell'inferenza pratica su qualsiasi hardware si accompagna alla nostra enfasi sulla sicurezza, protezione e trasparenza del nostro ecosistema di modelli. A seguito di un ampio audit esterno durato mesi del processo di sviluppo dell'AI di IBM, IBM Granite è recentemente diventata l'unica famiglia di modelli in linguaggio aperto a ottenere la certificazione ISO 42001, poiché è riuscita a soddisfare il primo standard internazionale al mondo per responsabilità, spiegabilità, privacy dei dati e affidabilità nei sistemi di gestione dell'AI (AIMS). Questa affidabilità fondamentale è ulteriormente rafforzata dalla nostra recente collaborazione con HackerOne a un programma di bug bounty per Granite, nonché dalla nostra nuova pratica di firma crittografica di tutti i checkpoint del modello 4.0 disponibili su Hugging Face (che consente a sviluppatori e aziende di garantire la provenienza e l'autenticità dei modelli).
Partner aziendali selezionati, tra cui EY e Lockheed Martin, hanno potuto accedere in anteprima per testare le funzionalità di Granite 4.0 su larga scala nei principali casi d'uso. Il feedback di questi partner, insieme al feedback della community open source, sarà utilizzato per migliorare e ottimizzare i modelli per gli aggiornamenti futuri.
La versione rilasciata oggi include entrambe le varianti Base e Instruct di Micro, Tiny e Small. Entro la fine del 2025 è previsto il rilascio di ulteriori dimensioni del modello (sia più grandi che più piccole), nonché di varianti con supporto esplicito per il ragionamento.
I modelli ibridi Granite 4.0 sono significativamente più veloci e più efficienti in termini di memoria rispetto ai modelli di dimensioni comparabili costruiti con architetture trasformative standard. L'architettura ibrida Granite 4 combina una piccola quantità di livelli di attenzione standard in stile transformer con la maggior parte dei livelli Mamba, più specificamente, Mamba-2. Mamba elabora le sfumature del linguaggio in un modo completamente distinto e significativamente più efficiente di quello dei modelli linguistici tradizionali.
I requisiti di memoria GPU degli LLM sono spesso riportati in termini di quanta RAM è necessaria solo per caricare i pesi dei modelli. Tuttavia molti casi d'uso aziendali, specialmente quelli che coinvolgono la distribuzione, l'agentic AI in ambienti complessi o i sistemi RAG, comportano un contesto lungo e l'inferenza in batch di più istanze di modelli simultanei contemporaneamente o entrambi. In linea con l'enfasi posta da IBM sulla praticità aziendale, abbiamo valutato e ottimizzato Granite 4 pensando al contesto lungo e alle sessioni simultanee.
Rispetto ai modelli tradizionali basati su transformer, Granite 4.0-H può offrire una riduzione di oltre il 70% della RAM necessaria per gestire input lunghi e più batch simultanei.
I modelli ibridi Granite 4.0 sono compatibili con le GPU AMD Instinct MI-300X, il che consente un'ulteriore riduzione della loro impronta di memoria.
Gli LLM tradizionali faticano a mantenere il throughput con l'aumento della lunghezza del contesto o della dimensione dei batch. I nostri modelli ibridi continuano ad accelerare il loro output anche con i workload in cui la maggior parte dei modelli rallenta o supera completamente la capacità hardware. Più cose gli dai da fare, più i loro vantaggi sono evidenti.
IBM ha collaborato con Qualcomm Technologies, Inc. e Nexa AI per garantire la compatibilità dei modelli Granite 4.0 con le NPU Hexagon1 per ottimizzare ulteriormente la velocità di inferenza per l'implementazione su smartphone e PC.
Naturalmente, l'effettiva utilità di questi vantaggi in termini di efficienza è determinata dal fatto che la qualità dell'output dei modelli Granite 4.0 compete con quella dei modelli con pari classi di peso o superiori, in particolare sui benchmark che valutano le prestazioni su attività chiave dell'agentic AI, come l'esecuzione delle istruzioni e la chiamata di funzioni.
Tutti i modelli Granite 4.0 offrono importanti miglioramenti generali delle prestazioni rispetto alla generazione precedente di modelli Granite. Sebbene la nuova architettura ibrida Granite contribuisca all'efficienza e all'efficacia dell'addestramento del modello, la maggior parte dei miglioramenti a livello di accuratezza del modello deriva dai progressi nelle nostre metodologie di addestramento (e post-addestramento) e dall'espansione e il perfezionamento continui del corpus di dati di addestramento Granite. Ecco come e perché anche Granite 4.0-Micro, costruito su un'architettura trasformativa simile a quella dei precedenti modelli Granite, supera notevolmente Granite 3.3 8B.
Eccellono in particolare nelle attività essenziali per i casi d'uso aziendali e nei workflow di agentic AI. In base alla valutazione di Stanford HELM, Granite-4.0-H-Small supera tutti i modelli a peso aperto (con la sola eccezione di Llama 4 Maverick, un modello con parametri 402B con dimensioni 12 volte superiori) su iFeval, un benchmark ampiamente utilizzato per valutare la capacità di un modello di seguire istruzioni esplicite.
In molti workflow, è fondamentale che le istruzioni non solo siano seguite in modo affidabile, ma anche tradotte accuratamente in chiamate efficaci. A tal fine, Granite-4.0-H-Small tiene il passo con modelli molto più grandi, sia aperti che chiusi, nel benchmark Berkeley Function Calling Leaderboard v3 (BFCLv3). Inoltre, ottiene questo risultato a un prezzo che non ha eguali in questo gruppo di concorrenti.
Granite 4.0 eccelle anche su MTRAG, un benchmark che misura le prestazioni e l'affidabilità nelle attività di retrieval-augmented generation (RAG) che comportano più turni, domande senza risposta, domande non autonome e informazioni che coprono più domini.
Metriche di valutazione aggiuntive sono disponibili sulle schede del modello Hugging Face di Granite 4.0.
Tutti i modelli Granite sono creati mettendo al centro sicurezza, protezione e governance.
All'inizio di questo mese, IBM Granite è diventata la prima famiglia di modelli in linguaggio aperto a ricevere l'accredito secondo ISO/IEC 42001:2023, che certifica che Granite è allineato alle best practice riconosciute a livello internazionale per un AI responsabile e che il sistema di gestione dell'AI (AIMS) di IBM soddisfa i massimi livelli di controllo. Le organizzazioni possono creare con sicurezza con i modelli Granite 4.0, anche in contesti ad alto rischio come settori altamente regolamentati e ambienti di implementazione mission-critical.
Come tutti i modelli Granite, i modelli Granite 4.0 sono stati addestrati interamente su dati attentamente curati, acquisiti eticamente e approvati dall'azienda. Riflettendo la nostra piena fiducia nell'affidabilità dei nostri modelli, IBM offre un'indennità illimitata per le rivendicazioni di proprietà intellettuale di terze parti contro i contenuti generati dai modelli Granite quando utilizzati su IBM watsonx.ai.
Oltre ai nostri numerosi test interni e al red-teaming, IBM ha anche recentemente collaborato con HackerOne per lanciare un programma di bug bounty per Granite, che offre fino a 100.000 dollari per l'identificazione di eventuali difetti imprevisti, modalità di errore o vulnerabilità al jailbreak e ad altri attacchi pericolosi. Qualsiasi informazione preziosa scoperta dai ricercatori che partecipano al programma bug bounty farà da base per i continui miglioramenti e aggiornamenti della sicurezza dei nostri modelli, in particolare attraverso la generazione di dati sintetici per migliorare l'allineamento dei modelli.
IBM si concentra sulla sicurezza e la protezione non solo dei suoi modelli, ma anche della catena di distribuzione dei modelli. A tal fine, IBM ha avviato la pratica di firmare crittograficamente tutti i checkpoint del modello Granite prima del rilascio: tutti i checkpoint del modello Granite vengono ora forniti con un file model.sig per consentire una facile verifica pubblica della provenienza del modello Granite, al fine di garantirne l'integrità e l'autenticità.
Nonostante i loro numerosi vantaggi, i modelli transformer presentano uno svantaggio critico: le loro esigenze di elaborazione aumentano in modo quadratico con la lunghezza della sequenza. Se la lunghezza del contesto raddoppia, il numero di calcoli che un modello transformer deve eseguire (e conservare in memoria) quadruplica. Questo “collo di bottiglia quadratico” inevitabilmente riduce la velocità e aumenta i costi, via via che aumenta la lunghezza del contesto. Nel lungo termine può esaurire rapidamente la capacità RAM anche delle GPU consumer di fascia alta.
Mentre i transformer si basano sull'auto-attenzione, Mamba utilizza un meccanismo di selettività completamente distinto che è intrinsecamente più efficiente. I requisiti computazionali di Mamba scalano linearmente con la lunghezza della sequenza: quando il contesto raddoppia, Mamba esegue solo il doppio, e non quadruplo, delle elaborazioni. Ancora meglio, i requisiti di memoria di Mamba rimangono costanti, indipendentemente dalla lunghezza della sequenza. Più lavoro dai a un modello Mamba, maggiori sono i suoi vantaggi rispetto ai transformer.
Tuttavia, i transformer e l'auto-attenzione presentano ancora alcuni vantaggi rispetto a Mamba e Mamba-2, in particolare per le prestazioni in attività che comportano l'apprendimento contestuale (come la generazione di prompt few-shot). Per fortuna, combinarli entrambi in un modello ibrido offre il meglio di entrambe le soluzioni. Per maggiori insight, rivisita la nostra anteprima di Granite-4.0-Tiny-Preview.
L'architettura che alimenta Granite 4.0-H-Micro, Granite 4.0-H-Tiny e Granite 4.0-H-Small combina livelli Mamba-2 e blocchi di transformer tradizionali in sequenza, con un rapporto 9:1. Di fatto, i blocchi Mamba-2 elaborano in modo efficiente il contesto globale e trasmettono periodicamente queste informazioni contestuali attraverso un blocco trasformatore che fornisce un'analisi più sfumata del contesto locale attraverso l'auto-attenzione, prima di trasmetterle al successivo gruppo di livelli Mamba-2.
Vale la pena notare che la maggior parte dell'infrastruttura mondiale che serve gli LLM è stata storicamente adattata a modelli transformer-only. Dopo il lancio sperimentale di Granite 4.0-Tiny-Preview all'inizio di quest'anno, abbiamo collaborato molto con i partner dell'ecosistema per stabilire il supporto per l'architettura Granite 4 Hybrid nei framework di inferenza tra cui vLLM, llama.cpp, NexaML e MLX, in vista del rilascio di oggi.
Granite-4.0-H-Tiny e Granite-4.0-H-Small passano l'output di ogni blocco Mamba-2 e transformer a un blocco mixture of experts (MoE) a grana fine (le cui specifiche sono leggermente cambiate rispetto a Granite 4.0-Tiny-Preview). Sebbene i MOE a grana fine siano stati un'area di ricerca di IBM attiva sin dal rilascio di Granite 3.0 nel 2024, Tiny and Small sono i nostri primi MoE a utilizzare esperti condivisi sempre attivi, che migliorano l'efficienza dei parametri e consentono agli altri "esperti" di sviluppare meglio conoscenze specializzate.
Granite 4.0-H-Micro utilizza strati feedforward densi e tradizionali al posto dei blocchi MoE, ma per il resto rispecchia l'architettura condivisa da Tiny e Small.
Uno degli aspetti più interessanti dei modelli linguistici basati su state space model (SSM)come Mamba è il loro potenziale teorico di gestire sequenze infinitamente lunghe. Tutti i modelli Granite 4.0 sono stati addestrati su campioni di dati con una lunghezza di contesto fino a 512 mila token. Le prestazioni sono state convalidate su attività che coinvolgono una lunghezza del contesto fino a 128.000 token, ma teoricamente la lunghezza del contesto può estendersi ulteriormente.
Nei modelli di transformer standard, la finestra di contesto massima è fondamentalmente limitata dalle limitazioni della codifica posizionale. Poiché il meccanismo di attenzione di un transformer elabora ogni token contemporaneamente, non conserva alcuna informazione sull'ordine dei token. La codifica posizionale (PE) aggiunge nuovamente tali informazioni. Alcune ricerche suggeriscono che i modelli che utilizzano tecniche di PE comuni come la codifica posizionale rotativa (RoPE) hanno difficoltà su sequenze più lunghe di quelle che hanno visto in fase di addestramento.2
L'architettura Granite 4.0 non utilizza la codifica posizionale (NoPE). Abbiamo scoperto che, di fatto, non ne ha bisogno: Mamba conserva intrinsecamente le informazioni sull'ordine dei token, perché li "legge" in sequenza.
Nelle loro diverse implementazioni architettoniche, tutti i modelli Granite 4.0 vengono addestrati su campioni estratti dallo stesso corpus accuratamente compilato di 22T-token di dati di addestramento basati sull'azienda, nonché sulle stesse metodologie di pre-addestramento migliorate, sullo stesso regime di post-addestramento e sullo stesso modello di chat.
Granite 4.0 è stato pre-addestrato su un ampio spettro di campioni resi accurati da Datacomp-LM (DCLM), GneissWeb, sottoinsiemi TxT360, Wikipedia e altre fonti rilevanti per l'azienda. Sono stati ulteriormente addestrati per eccellere nelle attività aziendali, utilizzando set di dati sintetici e aperti in diversi domini, tra cui lingua, codice, matematica e ragionamento, multilinguismo, sicurezza, chiamata di strumenti, RAG e cybersecurity. Tutti i set di dati di addestramento sono stati preparati con il framework open source Data Prep Kit.
Un notevole cambiamento rispetto alle generazioni precedenti di modelli Granite è la decisione di suddividere i nostri modelli Granite 4.0 post-addestrati in varianti separate basate sulle istruzioni (rilasciate oggi) e di ragionamento (che saranno rilasciate in autunno). Facendo eco ai risultati di una recente ricerca di settore, durante l'addestramento abbiamo scoperto che la divisione dei due portava a migliori prestazioni nel seguire le istruzioni da parte dei modelli Instruct e a migliori prestazioni di ragionamento complesso dei modelli Thinking. Inoltre, questa divisione offre l'ulteriore beneficio di semplificare i modelli di chat per entrambe le varianti.
Quest'autunno, alle varianti Base e Instruct dei modelli Granite 4.0 si aggiungeranno le loro controparti "Thinking", il cui post-addestramento per migliorare le prestazioni su attività complesse basate sulla logica è in corso.
Entro la fine dell'anno, prevediamo di rilasciare anche ulteriori dimensioni dei modelli, tra cui Granite 4.0 Medium e Granite 4.0 Nano, una serie di modelli significativamente più piccoli progettati (tra le altre cose) per l'inferenza su dispositivi edge.
I modelli Granite 4.0 sono ora disponibili presso una vasta gamma di fornitori di piattaforme e framework, sia come modelli indipendenti, veloci ed efficienti che come elementi costitutivi chiave dei workflow collaborativi, insieme ai principali modelli di frontiera di grandi dimensioni. Puoi provarli anche nel Granite Playground.
La nuova architettura Granite Hybrid offre un supporto completo e ottimizzato nei transformer VLLM 0.10.2 e Hugging Face. L'architettura Granite Hybrid è supportata anche in llama.cpp e MLX, sebbene l'ottimizzazione completa del throughput di questi runtime sia ancora in corso. Ringraziamo i partner dell'ecosistema per la loro collaborazione e speriamo che il nostro lavoro contribuisca a facilitare ulteriori sperimentazioni con i modelli ibridi.
I modelli Granite 4.0 Instruct sono ora disponibili in IBM watsonx.ai, lo studio di sviluppo AI integrato di IBM che rende la distribuzione dell'AI semplice e scalabile. I modelli Granite 4.0 Instruct sono disponibili anche tramite i partner della piattaforma tra cui, in ordine alfabetico, Dell Technologies (su Dell Pro AI Studio e Dell Enterprise Hub), Docker Hub , Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE e Replicate. I modelli Granite 4.0 Base sono disponibili tramite Hugging Face.
I modelli Granite 4.0 sono supportati anche in Unsloth per una messa a punto rapida ed efficiente in termini di memoria e possono essere utilizzati in Continue per alimentare gli assistenti di codifica AI personalizzati.
Le guide e le ricette di Granite Docs possono aiutarti a iniziare, inclusi utili tutorial come:
Accedi a tutorial, insight e risorse su Granite, tutto in un unico posto.
Inizia con watsonx.ai ed esplora i tutorial e gli insight degli esperti di IBM Developer.
Scopri l'evento di formazione per sviluppatori ed esperti di tecnologia con una missione.
Consulta la nostra raccolta completa di contenuti sugli agli agenti AI, come articoli esplicativi, tutorial, episodi di podcast e molto altro.
Scopri perché IBM è stata riconosciuta come leader nel Gartner Magic Quadrant 2025 per le piattaforme di data science e machine learning.
Esplora ricette facilmente utilizzabili (notebook Python) che mostrano le funzionalità dei modelli Granite.
Modelli linguistici open source di piccole dimensioni che offrono prestazioni e trasparenza di livello aziendale a un prezzo competitivo.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i workflow e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.
Presentiamo Granite, la nostra famiglia di modelli AI creati appositamente per le aziende e per garantire fiducia e scalabilità nelle applicazioni basate su AI.
1. I prodotti a marchio Qualcomm sono prodotti di Qualcomm Technologies, Inc. e/o delle sue consociate. Qualcomm Hexagon è un marchio o un marchio registrato di Qualcomm Incorporated.
2. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 6 novembre 2023