IBM Granite 3.1: prestazioni potenti, contesto più ampio, nuovi modelli di incorporamento e altro ancora

18 dicembre 2024


 

Autore

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

Ecco una panoramica delle informazioni chiave:
 

  • .
  • Granite 3.1 8B Instruct offre miglioramenti significativi in termini di prestazioni rispetto a Granite 3.0 8B Instruct. Il suo punteggio medio nei benchmark della Hugging Face OpenLLM Leaderboard è ora tra i più alti di qualsiasi modello open source nella stessa categoria di peso.
  • Abbiamo ampliato le finestre di contesto dell'intera famiglia di modelli linguistici Granite 3. I nostri ultimi modelli densi (Granite 3.1 8B, Granite 3.1 2B), i modelli MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) e i modelli guardrail (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) presentano tutti una lunghezza di contesto di 128K token.
  • Stiamo lanciando una famiglia di modelli di incorporamento innovativi. I nuovi modelli Granite Embedding ottimizzati per il recupero delle informazioni sono disponibili in quattro dimensioni, con parametri compresi tra 30M e 278M. Come le loro controparti generative, offrono supporto multilingue in 12 lingue diverse: inglese, tedesco, spagnolo, francese, giapponese, portoghese, arabo, ceco, italiano, coreano, olandese e cinese.
  • .
  • Granite Guardian 3.1 8B e 2B sono dotati di una nuova funzione di rilevamento delle allucinazioni che consente di aumentare il controllo e l'osservabilità degli agenti che effettuano chiamate agli strumenti.
  • Tutti i modelli Granite 3.1, Granite Guardian 3.1 e Granite Embedding sono open source con licenza Apache 2.0.
  • Queste ultime novità della serie Granite seguono il recente lancio da parte di IBM di Docling (un framework open source per la preparazione di documenti per la RAG e altre applicazioni di AI generativa) e Bee (un framework open source indipendente dal modello per l'agentic AI).
  • Granite TTM (TinyTimeMixers), la serie di modelli di serie temporali compatti ma altamente performanti di IBM, è ora disponibile in watsonx.ai tramite la versione beta dell'API e dell'SDK per la previsione delle serie temporali di watsonx.ai.
  • I modelli Granite 3.1 sono ora disponibili in IBM watsonx.ai e tramite i partner della piattaforma tra cui (in ordine alfabetico) Docker, Hugging Face, LM Studio, Ollama e Replicate.
  • Granite 3.1 sarà impiegato anche internamente dai partner aziendali: Samsung sta integrando alcuni modelli Granite nella sua piattaforma SDS, mentre Lockheed Martin sta integrando i modelli Granite 3.1 nei suoi strumenti AI Factory, utilizzati da oltre 10.000 sviluppatori e ingegneri.
.


Oggi IBM annuncia il lancio di IBM Granite 3.1, l'ultimo aggiornamento della serie Granite di modelli linguistici aperti, performanti e ottimizzati per le aziende. Questa serie di miglioramenti, aggiunte e nuove funzionalità si concentra principalmente sul miglioramento delle prestazioni, dell'accuratezza e della responsabilità in casi d'uso aziendali essenziali come l'uso di strumenti, la retrieval-augmented generation (RAG) e i workflow scalabili di agentic AI.

Granite 3.1 nasce dal successo della recente collezione Granite 3.0. IBM continuerà a rilasciare modelli e funzionalità aggiornati per la serie Granite 3 nei prossimi mesi, con nuove funzionalità multimodali previste per il primo trimestre del 2025.

Questi nuovi modelli Granite non rappresentano l'unico contributo significativo di IBM all'ecosistema di LLM open source. La nuova release conclude una serie recente di lanci di soluzioni open source innovative, tra cui un framework flessibile per lo sviluppo di agenti AI e un toolkit intuitivo per accedere a informazioni essenziali nascoste in PDF, slide deck e altri formati di file difficili da gestire per i modelli. L'utilizzo di questi strumenti e framework insieme ai modelli Granite 3.1 offre agli sviluppatori funzionalità evolute per RAG, agenti AI e altri workflow basati su LLM.

Come sempre, l'impegno storico di IBM nei confronti dell'open source si riflette nelle licenze open source permissive e standard di ogni offerta illustrata in questo articolo.

Granite 3.1 8B Instruct: un'evoluzione dei modelli enterprise leggeri

L'impegno di IBM nell'ottimizzazione continua della serie Granite è evidente soprattutto nella crescita del modello denso principale 8B. IBM Granite 3.1 8B Instruct supera ora la maggior parte dei modelli open source della sua categoria di peso nei punteggi medi delle valutazioni sui benchmark accademici inclusi nella Hugging Face OpenLLM Leaderboard.

L'evoluzione della serie di modelli Granite ha continuato a privilegiare l'eccellenza e l'efficienza nei casi d'uso aziendali, compresa l'agentic AI. Questo progresso è evidente in particolar modo nelle prestazioni notevolmente migliorate del nuovo modello 8B su IFEval, un set di dati che include compiti che testano la capacità di un modello di seguire istruzioni dettagliate, e Multi-step Soft Reasoning (MuSR), i cui compiti misurano il ragionamento e la comprensione di testi lunghi.

Lunghezza del contesto estesa

A consolidare il miglioramento significativo delle prestazioni da Granite 3.0 a Granite 3.1 è l'espansione delle finestre di contesto in tutti i modelli. La lunghezza del contesto di 128K token di Granite 3.1 è equivalente a quella di altre principali serie di modelli aperti, tra cui Llama 3.1–3.3 e Qwen2.5.

La finestra di contesto (o lunghezza del contesto) di un modello linguistico di grandi dimensioni (LLM) è la quantità di testo, in token, che un LLM può considerare in un dato momento. Una finestra di contesto più ampia consente a un modello di elaborare input più grandi, effettuare scambi continui più lunghi e incorporare più informazioni in ogni output. La tokenizzazione non comporta alcun "tasso di cambio" token-parola fisso, ma è possibile fornire una stima di 1,5 token per parola. 128K token equivalgono all'incirca a un libro di 300 pagine.

Oltre una soglia di circa 100.000 token, emergono nuove incredibili possibilità, tra cui la risposta a domande multi-documento, la comprensione del codice a livello di repository, l'autoriflessione e gli agenti autonomi basati su LLM.1 La lunghezza del contesto ampliata di Granite 3.1 si presta quindi a una gamma molto più ampia di casi d'uso aziendali, dall'elaborazione di basi di codice e documenti legali nella loro interezza alla revisione simultanea di migliaia di transazioni finanziarie.

Granite Guardian 3.1: rilevare le allucinazioni nei workflow di agenti
 

Granite Guardian 3.1 8B e granite Guardian 3.1 2B sono ora in grado di rilevare le allucinazioni che potrebbe verificarsi in un workflow di agenti, offrendo la stessa responsabilità e fiducia per le chiamate di funzione che già forniamo per la RAG.

Nell'intervallo tra la richiesta iniziale inviata a un agente AI e l'output che l'agente restituisce all'utente si verificano molti passaggi e sottoprocessi. Per garantire una supervisione completa, i modelli Granite Guardian 3.1 monitorano ogni chiamata di funzione per verificare la presenza di allucinazioni sintattiche e semantiche.

Ad esempio, se un agente AI interroga presumibilmente una fonte di informazioni esterna, Granite Guardian 3.1 monitora la presenza di flussi di informazioni non attendibili. Se un workflow di un agente comporta calcoli intermedi utilizzando cifre recuperate da un registro bancario, Granite Guardian 3.1 verifica se l'agente ha eseguito la chiamata di funzione corretta con i numeri appropriati.

La nuova release è un ulteriore passo verso la responsabilità e la fiducia per ogni componente di un workflow aziendale basato su LLM. I nuovi modelli Granite Guardian 3.1 sono disponibili su Hugging Face. Saranno disponibili anche tramite Ollama alla fine di questo mese e su IBM watsonx.ai a gennaio 2025.

Modelli di incorporamento Granite

Gli incorporamenti sono parte integrante dell'ecosistema LLM. Un mezzo accurato ed efficiente per rappresentare parole, query e documenti in forma numerica è essenziale per una serie di attività aziendali, tra cui la ricerca semantica, la ricerca vettoriale e la RAG, e per gestire database vettoriali performanti. Un modello di incorporamento efficace può migliorare significativamente la comprensione da parte di un sistema dell’intento dell’utente e aumentare la pertinenza delle informazioni e delle fonti in risposta a una query.

Mentre negli ultimi due anni si è assistito alla proliferazione di LLM autoregressivi open source sempre più competitivi per attività come la generazione di testo e la sintesi, i modelli di incorporamento open source rilasciati dai principali fornitori sono relativamente pochi e distanti tra loro.

I nuovi modelli Granite Embedding sono un'evoluzione migliorata della famiglia Slate di modelli linguistici basati su RoBERTA encoder-only. Addestrato con la stessa cura e considerazione per il filtraggio di pregiudizi, odio, abuso e volgarità ("HAP") del resto della serie granite, Granite Embedding è disponibile in quattro modelli di diverse dimensioni, due dei quali supportano l'incorporamento multilingue in 12 lingue naturali:

  • .
  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual
.

Mentre la grande maggioranza dei modelli di incorporamento open source nella classifica MTEB di Hugging Face si basa su set di dati di addestramento concessi in licenza solo per scopi di ricerca, come MS-MARCO, IBM ha verificato l'idoneità commerciale di tutte le fonti di dati utilizzate per addestrare Granite Embedding. A sottolineare l'attenzione posta nel supportare l'uso aziendale, IBM supporta Granite Embedding con la stessa garanzia illimitata per le rivendicazioni relative alla proprietà intellettuale di terzi fornita per l'uso di altri modelli sviluppati da IBM.

La diligenza di IBM nel raccogliere e filtrare i dati di addestramento non ha impedito ai modelli English Granite Embedding di tenere il passo con i principali modelli di incorporamento open source di dimensioni analoghe nelle valutazioni interne delle prestazioni condotte attraverso il framework di valutazione BEIR.

I test IBM hanno inoltre dimostrato che due dei nuovi modelli di incorporamento, Granite-Embedding-30M-English e Granite-Embedding-107M-Multilingual, superano significativamente le offerte concorrenti in termini di velocità di inferenza.

Questo lancio dà il via all'ambiziosa roadmap di IBM Research per l'innovazione continua con la famiglia di modelli open source Granite Embedding. Gli aggiornamenti e gli upgrade previsti per il 2025 includono l'estensione del contesto, l'ottimizzazione per la RAG e le funzionalità di recupero multimodale.

Decifrazione dei documenti e agentic AI

Parallelamente all'evoluzione continua della serie Granite, IBM porta avanti il suo impegno nell'AI open source attraverso il recente sviluppo e il lancio open source di nuovi strumenti e framework innovativi per la creazione di soluzioni basate su LLM. Ottimizzate per i modelli Granite ma intrinsecamente aperte e indipendenti dal modello, queste risorse create da IBM aiutano gli sviluppatori a sfruttare appieno il potenziale degli LLM, dalla facilitazione delle pipeline di ottimizzazione alla regolarizzazione delle fonti RAG fino all'assemblaggio di agenti AI autonomi.

Docling: preparazione dei documenti per la RAG, il pre-addestramento e la messa a punto
 

Dalla scrittura creativa alla RAG, l'AI generativa è sostanzialmente un motore che funziona con i dati. Il vero potenziale dei modelli linguistici di grandi dimensioni non può essere realizzato se alcuni di questi dati sono salvati in formati che i modelli non sono in grado di riconoscere. Gli LLM sono una realtà piuttosto recente, ma questo problema non lo è: come dichiarava un titolo del Washington Post di dieci anni fa, "le soluzioni a tutti i nostri problemi potrebbero nascondersi in PDF che nessuno legge".

Ecco perché IBM Deep Search ha sviluppato Docling, un potente strumento per analizzare documenti nei formati più diffusi tra cui PDF, DOCX, immagini, PPTX, XLSX, HTML e AsciiDoc e convertirli in formati compatibili con i modelli come Markdown o JSON. Ciò consente a tali documenti, e alle informazioni in essi contenute, di essere facilmente accessibili per modelli come Granite, che possono utilizzarle per la RAG e altri workflow. Docling consente una facile integrazione con framework basati su agenti come LlamaIndex, LangChain e Bee, permettendo agli sviluppatori di incorporare la sua assistenza nel proprio ecosistema preferito.

Distribuito come open source con licenza MIT, Docling è una soluzione sofisticata che va oltre il semplice riconoscimento ottico dei caratteri (OCR) e l'estrazione di testo. Come spiega William Caban di Red Hat, Docling integra una serie di tecniche di pre-elaborazione contestuali e basate su elementi: se una tabella si estende su più pagine, Docling sa come estrarla come una singola tabella; se una determinata pagina combina corpo del testo, immagini e tabelle, ciascuna deve essere estratta separatamente in base al contesto originale.

Il team di Docling sta lavorando attivamente su funzioni aggiuntive, tra cui l'estrazione di equazioni e codice e l'estrazione di metadati. Per vedere Docling in azione, guarda questo tutorial su come creare un sistema di risposta alle domande sui documenti con Docling e Granite.

Bee: framework di agentic AI per modelli aperti

Il Bee Agent Framework è un framework open source per la creazione di potenti workflow di agentic AI con LLM open source, ottimizzato per l'uso con i modelli Granite Llama e (con ulteriori ottimizzazioni specifiche per i modelli già in fase di sviluppo). Include una serie di moduli che consentono agli sviluppatori di personalizzare quasi tutti i componenti dell'agente AI, dalla gestione della memoria all'uso degli strumenti fino alla gestione degli errori, oltre a molteplici funzionalità di osservabilità che forniscono gli insight e la responsabilità necessarie per la messa in produzione.

Il framework si integra perfettamente con più modelli e una suite di efficaci strumenti pronti all'uso come i servizi meteo e la ricerca su internet (o strumenti personalizzati creati in Javascript o Python). La funzionalità di utilizzo flessibile degli strumenti di Bee consente di creare workflow personalizzati in base alle circostanze specifiche, come mostrato in questa guida che utilizza Granite e Wikipedia, sfruttando gli strumenti integrati per utilizzare in modo più efficace una finestra di contesto limitata.

Gli agenti Granite Bee possono essere eseguiti localmente utilizzando Ollama o sfruttando l'inferenza in hosting con watsonx.ai.

Previsione delle serie temporali in IBM watsonx.ai

Presentati all'inizio di quest'anno, i modelli di serie temporali TinyTimeMixer (TTM) di Granite sono una famiglia di modelli pre-addestrati leggeri basati su un'architettura innovativa. Applicando la previsione zero-shot e few-shot a qualsiasi cosa, dai dati dei sensori IoT ai prezzi delle azioni e alla domanda di energia, i modelli di serie temporali Granite superano molti modelli che sono fino a 10 volte più grandi, tra cui TimesFM, Moirai e Chronos. 2 Dal 30 maggio, i modelli Granite-timeseries-TTM sono stati scaricati oltre 3,25 milioni di volte solo su Hugging Face.

A novembre, IBM ha annunciato il lancio della versione beta dell'API e dell'SDK per la previsione delle serie temporali di watsonx.ai, rendendo i modelli Granite per le serie temporali disponibili sulla piattaforma AI integrata di IBM per lo sviluppo di applicazioni AI end-to-end.

Per maggiori informazioni su come iniziare con Granite-TTM, consulta le guide nel cookbook IBM Granite TimeSeries, come questo notebook su come utilizzare l'SDK di watsonx per eseguire inferenze di previsione.

Come iniziare con Granite 3.1

I modelli Granite 3.1 sono ora disponibili su IBM watsonx.ai. È possibile accedervi anche attraverso i partner della piattaforma, tra cui, in ordine alfabetico, Docker (attraverso il suo catalogo DockerHub GenAI), Hugging Face, LM Studio, Ollama e Replicate. Alcuni modelli Granite 3.1 saranno disponibili anche tramite NVIDIA (come NIM Microservices) a partire da gennaio 2025.

Diverse guide per lavorare con i modelli Granite sono disponibili nel Granite Snack Cookbook su GitHub, dall'orchestrazione dei workflow utilizzando modelli linguistici Granite in Langchain all'implementazione di modelli Granite Guardian.

Gli sviluppatori possono anche iniziare con i modelli Granite nel Granite model playground o esplorare la gamma di utili demo e tutorial nella documentazione IBM, come:

.


Esplora i modelli Granite 3.1 →

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI 


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live