7 aprile 2025
IBM è lieta di annunciare l'aggiunta di Llama 4, l'ultima generazione di modelli aperti di Meta, a watsonx.ai. Llama 4 Scout e Llama 4 Maverick, i primi modelli Mixture of Experts (MoE) rilasciati da Meta, offrono prestazioni multimodali di frontiera, alte velocità, basso costo e una lunghezza del contesto leader del settore.
Il rilascio di Llama 4 apre una nuova era per la serie Llama, introducendo sia un'entusiasmante evoluzione dell'architettura Llama sia un approccio innovativo all'integrazione di diversi tipi di modalità di dati, tra cui testo, immagini, video, molto prima nel processo rispetto ai modelli addestrati convenzionalmente. Entrambi i nuovi modelli supportano un'ampia varietà di casi d'uso di text-in, text-out e image-in, text-out.
Con l'introduzione di queste ultime offerte di Meta, IBM supporta ora un totale di 13 modelli Meta nell'ampia libreria di foundation model disponibili in watsonx.ai. In linea con la strategia aperta e multi-modello di IBM per l'AI generativa, continuiamo a fornire ai nostri clienti di piattaforme i modelli aperti più performanti oggi sul mercato.
L'architettura Mixture of Experts (MoE) mira a bilanciare la capacità di conoscenza dei modelli più grandi con l'efficienza di inferenza dei modelli più piccoli, suddividendo i livelli della rete neurale del modello in più "esperti." Piuttosto che attivare ogni parametro del modello per ogni token, i modelli MoE utilizzano una funzione di gating che attiva solo gli "esperti" più adatti all'elaborazione di quel token.
Llama 4 Scout, il più piccolo dei due nuovi modelli con un totale di parametri pari a 109B, è diviso in 16 esperti. Al momento dell'inferenza, ha un numero di parametri attivi di soli 17B, che consente di servire più utenti in parallelo. Addestrato su 40 trilioni di token di dati, Llama 4 Scout offre prestazioni che rivaleggiano o superano quelle dei modelli con un numero di parametri attivi significativamente maggiore, mantenendo bassi i costi e la latenza. Nonostante questi requisiti di calcolo snelli, Llama 4 Scout batte modelli comparabili in termini di codifica e ragionamento, contesto lungo e benchmark di comprensione delle immagini.
Llama 4 Maverick è diviso in 128 esperti che attingono alla conoscenza dei suoi 400B di parametri totali pur mantenendo lo stesso numero di parametri attivi di 17B di Llama 4 Scout. Secondo l'annuncio ufficiale di Meta AI, Llama 4 Maverick batte «su tutta la linea» GPT-4o di OpenAI e Gemini 2.0 Flash di Google su un'ampia gamma di benchmark multimodali e rivaleggia con le prestazioni di ragionamento e codifica del molto più grande DeepSeek-v3 in attività di ragionamento e codifica.
Inoltre, Llama 4 Scout offre una finestra di contesto migliore del settore di 10 milioni di token, pur mantenendo un'eccellente precisione su benchmark a lungo termine come Needle-in-a-haystack (NiH). Questo balzo in avanti senza precedenti apre interessanti opportunità per il riassunto di più documenti, il ragionamento su vaste basi di codice e la personalizzazione attraverso un'ampia memoria dell'attività dell'utente.
Come spiega Meta nel suo annuncio, questa massiccia espansione della lunghezza del contesto deriva principalmente da due innovazioni: l'uso di livelli di attenzione interlacciati senza embedding e il ridimensionamento della temperatura del tempo di inferenza del meccanismo di attenzione dei modelli. Questa nuova architettura, che Meta chiama "iRope", rappresenta un passo importante verso l'obiettivo a lungo termine di Meta di supportare la lunghezza "infinita" del contesto.
Mentre i modelli linguistici di grandi dimensioni (LLM) sono convenzionalmente pre-addestrati esclusivamente su dati di testo, quindi adattati ad altre modalità di dati (come i dati di immagine) in un secondo momento, durante il post-addestramento, i modelli Llama 4 sono progettati con una "multimodalità nativa." Ciò ha permesso a Meta di pre-addestrare congiuntamente i modelli con grandi quantità di dati di testo, immagini e video non etichettati contemporaneamente, arricchendo in modo efficiente i modelli con conoscenze integrate provenienti da diverse fonti.
L'addestramento dei modelli Llama 4 ha incorporato la «fusione» di diversi tipi di dati nelle prime fasi della pipeline di elaborazione, integrando perfettamente i token di testo e di visione per consentire loro di addestrarsi come un unico sistema unificato. Di conseguenza, Llama 4 Maverick e Llama 4 Scout offrono prestazioni eccellenti in una serie di attività di comprensione delle immagini, capaci sia di rispondere ai prompt di testo relativi a più immagini contemporaneamente sia di ancorare le risposte del modello a regioni specifiche con una singola immagine.
Gli sviluppatori e le aziende possono selezionare il modello Llama 4 preferito dall'ampio catalogo di foundation model su IBM watsonx.ai, quindi mettere a punto, sintetizzare e implementare in ambienti cloud, on-premise o edge di loro scelta. IBM migliora ulteriormente questa flessibilità con la sua infrastruttura AI avanzata, la perfetta integrazione con i framework di agenti e la compatibilità con i database vettoriali.
IBM watsonx semplifica lo sviluppo con una suite di strumenti di codice, low-code e no-code in uno studio di livello aziendale che supporta l'intero ciclo di vita dell'AI, promuovendo al contempo la collaborazione tra i team. IBM watsonx offre anche una solida governance dell'AI end-to-end, garantendo workflow responsabili e accelerati. Sfruttando la sua profonda esperienza nella trasformazione tecnologica, la partnership di IBM con Meta offre strategie su misura per rispondere in modo efficiente ed efficace alle specifiche esigenze aziendali.
Scopri come creare un AI Personal Trainer con Meta Llama 4 su watsonx.ai.
Inizia a usare i modelli Llama 4 su watsonx.ai oggi.