IBM Granite 3.3: riconoscimento vocale, ragionamento raffinato e RAG LoRA

Illustrazione isometrica di cubi in tonalità verdi

Autore

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Ecco una panoramica delle informazioni chiave:

  • Stiamo lanciando Granite Speech 3.3 8B, un nuovo modello di Speech to Text (STT) che eccelle nel riconoscimento vocale automatico (ASR) e nella traduzione vocale automatica (AST).
  • Il nuovo modello audio è basato su Granite 3.3 8B Instruct, l'ultimo aggiornamento del nostro modello linguistico di grandi dimensioni (LLM) enterprise. Oltre a capacità di ragionamento avanzate, i modelli Granite 3.3 Instruct offrono ora funzionalità fill-in-the-middle (FIM) oltre alla previsione standard del token successivo.
  • Per migliorare le applicazioni esistenti basate su Granite, stiamo lanciando anche una suite di adattatori LoRA incentrati sulla retrieval-augmented generation (RAG ) per Granite 3.2. Il feedback informerà sullo sviluppo degli adattatori LoRa per Granite 3.3 Instruct, che verranno lanciati a breve, così come per le generazioni future di LLM Granite.
  • Oltre a questi adattatori convenzionali, IBM Research ha anche sviluppato una serie di LoRA attivati (aLoRA), un nuovo tipo sperimentale di adattamento a basso rango (LoRA) che riduce i costi di inferenza e i requisiti di memoria, offrendo al contempo il passaggio senza intoppi tra i vari adattatori.
  • Come sempre, tutti i modelli e gli strumenti Granite sono open source con una licenza standard Apache 2.0.
  • Tutti i modelli Granite 3.3 e gli strumenti associati sono disponibili su Hugging Face. Granite 3.3 Instruct è disponibile anche su IBM watsonx.ai e tramite partner di piattaforma quali LMStudio, Ollama e Replicate.


Il lancio di oggi rappresenta un'altra espansione dell'impronta multimodale di IBM Granite. Granite 3.3, nominato a partire da Granite Speech 8B, il nostro primo modello Speech to Text ufficiale, segna l'inizio delle nostre esplorazioni nell'ambito delle funzionalità audio. Oltre alla recente aggiunta di funzionalità di visione e ragionamento, IBM continua ad ampliare la versatilità della serie Granite per tutti i casi d'uso aziendali di cui i clienti e la comunità open source hanno più bisogno.

A Granite Speech 3.3 8B si unisce Granite 3.3 8B Instruct, il modello linguistico di grandi dimensioni (LLM) che funge da base, e la sua controparte più piccola (2B). La maggiore sofisticazione del processo di ragionamento dei modelli di testo rispetto ai loro predecessori e l'aggiunta di funzionalità fill-in-the-middle (FIM) facilitano una gamma più ampia di casi d'uso applicabili, in particolare nel dominio della codifica.

Stiamo anche lanciando una serie aggiornata e ampliata di adattatori LoRa che migliorano le prestazioni (e che sono principalmente incentrati su RAG) per il modello Granite 3.2 8B Instruct lanciato in precedenza tramite Granite Experiments, un playground di IBM Research per testare idee open source. Altre innovazioni LoRa, inclusa una suite di adattatori per Granite 3.3 Instruct, saranno lanciate nelle prossime settimane. ­­­

Granite Speech 3.3 8B: trascrizioni e traduzioni accurate ed efficienti

Granite Speech 3.3 8B è un modello STT di ingresso audio (e testo) e uscita testo compatto ed economico, destinato all'uso in applicazioni aziendali che elaborano gli input vocali e ottimizzato per il riconoscimento vocale automatico (ASR) e la traduzione vocale automatica (AST).

Per quanto riguarda le attività di trascrizione, Granite Speech 3.3 offre sempre una maggiore precisione rispetto ai principali modelli aperti e chiusi della concorrenza nei test su diversi importanti set di dati pubblici.

Grafico che mostra le prestazioni LLM sui benchmark di riconoscimento vocale In diversi set di dati di test, Granite Speech 3.3 8B ha avuto costantemente il tasso di errore più basso per le attività di trascrizione.

Il modello fornisce anche la traduzione automatica dall'inglese a una vasta gamma di lingue, tra cui francese, spagnolo, italiano, tedesco, portoghese, giapponese e mandarino. Nei test IBM sulle prestazioni AST, Granite Speech 3.3 8B ha tenuto il passo con i principali modelli proprietari come GPT-4o di OpenAI e Gemini 2.0 Flash di Google sui linguaggi supportati da Granite nel set di dati CoVost. Ulteriori informazioni sulle prestazioni di traduzione sono disponibili nella scheda del modello Hugging Face.

Architettura e design

Dal punto di vista architettonico, Granite Speech 3.3 è composto da:

  • Un codificatore vocale, composto da 10 blocchi conformi addestrati con Connectionist Temporal Classification (CTC) su set di dati incentrati sull'ASR.
  • Un proiettore vocale, in questo caso un trasformatore di query a 2 strati (Q-former), che proietta gli embedding audio in uno spazio in cui possono essere interpretati da un LLM.
  • Un LLM, ovvero Granite 3.3 8B Instruct con una lunghezza del contesto di 128K.
  • Adattatori LoRA, applicati alle matrici di query e proiezione di valori dell'LLM quando sono presenti dati audio.

A differenza dei modelli direttamente integrati che combinano voce e testo in un unico passaggio, Granite Speech 3.3 utilizza un design a due passaggi. Ad esempio, per porre al modello domande su un file audio è necessaria una richiesta iniziale per trascrivere l'audio e un secondo prompt per interrogare il modello su quel testo trascritto. Se un prompt contiene l'opzione token "<audio> " e un file .wav corrispondente, Granite Speech attiverà il codificatore audio, il proiettore e l'adattatore LoRa. In caso contrario, il modello verrà eseguito semplicemente in modalità testo utilizzando Granite 3.3 Instruct 8B.

Questo approccio a due passaggi garantisce che le prestazioni di Granite Speech 3.3 8B sulle query di testo rispecchino quelle del suo LLM sottostante (Granite 3.3 8B Instruct), evitando il degrado delle prestazioni basate su testo tipico di molti modelli multimodali. Con l'accesso a una piattaforma di inferenza configurata per servire correttamente sia i modelli di testo che quelli vocali, gli sviluppatori possono essenzialmente comprendere Granite Speech 3.3 8B come una versione di Granite 3.3 8B Instruct con funzionalità di ingresso audio aggiunte.

A differenza dei tradizionali modelli ASR basati su Whisper, Granite Speech 3.3 può accettare input di lunghezza arbitraria: durante i test, il modello è stato in grado di elaborare comodamente un file audio di 20 minuti su una GPU H100 da 80 GB, anziché essere limitato a una finestra di 30 secondi. Nei modelli basati su Whisper, i file audio che superano tale limite devono essere tagliati in blocchi di 30 secondi, il che spesso introduce imprecisioni nei momenti in cui vengono imposti questi tagli di 30 secondi. Come regola generale, meno tagli artificiali di devono fare, minore è l'imprecisione che si introduce.

Sebbene Granite Speech 3.3 sia in grado di ingerire input audio piuttosto lunghi, vale la pena notare che il modello non è ancora stato perfezionato per i dati audio lunghi. Per mantenere una precisione costante, suggeriamo un limite di 1 minuto per ogni unità discreta di input audio.

Vie di miglioramento

Granite Speech 3.3 rappresenta solo l'inizio dell'esplorazione da parte di IBM delle funzionalità audio per la serie Granite. Le ricerche in corso per migliorare Granite Speech per le versioni future, in particolare in Granite 4, riguardano i seguenti ambiti:

  • Codifica multilingue: attualmente, il codificatore audio di Granite Speech 3.3 è solo in inglese. Un importante prossimo passo per Granite Speech prevede codificatori audio multilingue e sensibili ai fenomeni paralinguistici, che ci consentano di abilitare veri input multilingue.
  • Ricette di dati raffinate: i regimi di formazione futuri incorporeranno sempre più dati di formazione di qualità superiore, con la generazione di dati sintetici per casi d'uso mirati che svolgerà un ruolo importante. Stiamo anche sperimentando ulteriori fasi di messa a punto e bilanciamento dei dati.
  • Fusione delle modalità precedenti: stiamo esplorando l'implementazione di una struttura più unificata che incorpori le funzionalità audio in tutte le fasi di addestramento dei futuri modelli Granite.
  • Rilevamento delle emozioni: i futuri modelli Granite Speech supporteranno le funzionalità di riconoscimento vocale delle emozioni (SER) attraverso l'addestramento del nostro codificatore acustico per una maggiore sensibilità agli eventi audio non lessicali.

Granite 3.3 Instruct: FIM e ragionamento avanzato

Le ultime versioni dei nostri modelli ottimizzati per le istruzioni solo testo, Granite 3.3 8B Instruct e Granite 3.3 2B Instruct, aggiungono funzionalità fill-in-the-middle (FIM) e continuano a perfezionare le capacità di pensiero introdotte in Granite 3.2.

Stiamo anche lanciando i loro modelli base, Granite 3.3 8B Base e Granite 3.3 2B Base, che ora sostituiscono i loro predecessori di Granite 3.1, per fornire agli sviluppatori l'accesso ai nostri modelli con capacità FIM per i loro sforzi di messa a punto.

Riempimento al centro

Gli LLM autoregressivi, gli LLM generalmente utilizzati per la generazione di testo, sono fondamentalmente progettati per gli spostamenti in avanti, da sinistra a destra. Sono addestrati attraverso l'apprendimento autosupervisionato per prevedere in modo iterativo il token successivo in una sequenza, in base alle informazioni dei token precedenti, fino a quando la sequenza non viene considerata completa. Sebbene quel design si presti a un'impressionante varietà di attività generative, intrinsecamente non è all'altezza di un altro tipo di attività: prevedere i token corretti in base ai token che vengono prima e dopo. In altre parole, gli LLM autoregressivi convenzionali non possono "riempire il centro".

Adattare i modelli autoregressivi per il riempimento richiede una riprogettazione delle attività di formazione per "indurre" essenzialmente l'LLM a prevedere i token nel mezzo utilizzando la sua capacità intrinseca di previsione da sinistra a destra. Ciò richiede generalmente la divisione di un passaggio campione in prefisso (i token precedenti), suffisso (i token che vengono dopo) e centro (i token da prevedere mediante riempimento), quindi occorre riorganizzare il passaggio in modo che al modello vengano forniti sia il prefisso che il suffisso prima che venga chiesto di prevedere i token intermedi. Granite 3.3 utilizza token specializzati per consentire al modello di generare contenuti condizionati sia dal prefisso che dal suffisso.

Sebbene il FIM abbia un'ampia gamma di casi d'uso, è particolarmente applicabile alle attività di codifica, dalla riparazione del codice e dalla connessione degli errori al refactoring, alla generazione rapida di codice standard e all'inserimento di argomenti di funzione o docstring.

Ragionamento avanzato

Il nostro obiettivo per Granite 3.2 era potenziare le capacità di ragionamento dei modelli Instruct attraverso la Thought Preference Optimization (TPO) per migliorare la loro capacità di seguire istruzioni complesse senza sacrificare le prestazioni generali. Il nostro obiettivo per Granite 3.3 Instruct era preservare queste ottimizzazioni e potenziando al contempo le prestazioni dei modelli con i ragionamenti matematici complessi.

Sviluppati sulla base di un modello base di Granite 3.3 aggiornato e perfezionati tramite l'apprendimento per rinforzo in più fasi utilizzando la TPO e la Group Relative Policy Optimization (GRPO), entrambi i modelli Granite 3.3 Instruct hanno dimostrato un miglioramento significativo sui benchmark altamente tecnici convenzionalmente associati alle funzionalità di "ragionamento".

Le prestazioni di Granite 3.3 8B sul benchmark MATH500 lo collocano comodamente davanti a Claude 3.5 Haiku (64,2%) di Anthropic e a Llama 3.1 8B Instruct di Meta (44,4%), più o meno in linea con il parametro 24B Mistral Small 3 (70,6%) e appena dietro a Claude 3.5 Sonnet (72,4%) e GPT-4O Mini di OpenAI (72,6%).1

Tabella che mostra le prestazioni di Granite LLM sulla matematica complessa Miglioramento di Granite 3.3 nei benchmark di ragionamento matematico complesso

Come per i modelli Granite 3.2 Instruct, il "pensiero" può essere facilmente attivato e disattivato, consentendo agli sviluppatori di dare priorità al ragionamento chain of thought (CoT) avanzato quando ne hanno bisogno e di dare priorità all'efficienza dei costi e alla bassa latenza quando non ne hanno bisogno.

Perfezionamento del RAG tramite adattatori LoRa

Per migliorare le applicazioni esistenti basate su Granite e informare lo sviluppo della prossima generazione di adattatori LoRA che migliorano le prestazioni, IBM sta anche lanciando una serie di 5 adattatori LoRA (per lo più) specifici per RAG per Granite 3.2 8B Instruct attraverso Granite Experiments, un playground di IBM Research per testare idee open source. Ognuno di questi adattatori LoRA sfrutta la conoscenza intrinseca del modello per consentire un'attività specifica, come la riscrittura di query di recupero o il rilevamento di allucinazioni.

IBM Research ha sviluppato questi adattatori LoRA "convenzionali" accanto a controparti per ciascuno di essi che utilizzano un nuovo tipo di adattamento a basso rango che chiamiamo LoRAs attivati (aLoRAs). Il passaggio da un adattatore LoRA standard all'altro spesso rallenta le prestazioni, perché il modello deve ricompilare il contesto della conversazione in corso utilizzando quello nuovo. Ma a differenza dei LoRA standard, gli aLoRA di IBM riutilizzano semplicemente la cache chiave-valore (KV) esistente, evitando la necessità di ricompilare (o "precompilare") nuovamente il contesto. I LoRA attivati corrispondono alla qualità di generazione dei LoRA standard, offrendo al contempo vantaggi significativi in termini di tempo di esecuzione e di calcolo. Il codice sorgente per eseguire aLoRAs è disponibile qui.

RAG Hallucination Detection
Anche con il RAG, un LLM a volte può avere allucinazioni. Se dotato del RAG Hallucination Detection LoRA, il modello fornirà un "punteggio di fedeltà" compreso tra 0 e 1 (con incrementi di 0,1), che riflette il grado di fedeltà dell'output alle informazioni contenute nei documenti recuperati. Un punteggio di fedeltà più basso indica un rischio più elevato di allucinazioni. Il modello dà un output d'impossibilità di risposta quando non è possibile rispondere alla domanda con informazioni provenienti dalle fonti disponibili.

RAG Query Rewrite
I motori di recupero restituiscono risultati significativamente migliori in risposta a query autonome che contengono tutte le informazioni pertinenti, rispetto alle query che richiedono un contesto precedente nella conversazione per essere attuabili. Grazie alla funzionalità Query Rewrite LoRA, il modello riscriverà automaticamente qualsiasi query utente non autonoma in modo che sia una query completamente autonoma. Ad esempio, considera questo scambio:

Utente: "Chi è il CEO di Apple?"
Modello: "L'amministratore delegato di Apple Inc. è Tim Cook"
Utente: "E di Microsoft?"

Il modello passerà la prima query dell'utente così com'è, ma riscriverà la seconda come: "Chi è il CEO di Microsoft?". Nei test, questa riscrittura ha aumentato la pertinenza delle risposte del modello di ben 21 punti percentuali.

Sebbene sia stato progettato pensando al RAG, Query Rewrite non richiede la presenza di documenti RAG: può anche essere utilizzato per riscrivere le query degli utenti per altri casi d'uso, come le chiamate di strumenti.

RAG Citation Generation
Se dotato del RAG Citation Generaton LoRa, il modello genererà una citazione per ogni frase del suo output (se tale frase è stata informata da fonti esterne). Ogni citazione a livello di frase non solo riporta le fonti a cui si fa riferimento, ma contiene anche una serie di frasi tratte dalle fonti citate che supportano la frase di output corrispondente del modello.

RAG Answerability Prediction
Se dotato del RAG Answerability Prediction LoRa, il modello determinerà se è possibile rispondere o meno alla query dell'utente utilizzando le informazioni disponibili nei documenti collegati. Questa classificazione binaria, di possibilità o impossibilità di risposta, può essere utilizzata, tra le altre cose, per filtrare le query senza risposta (riducendo le allucinazioni) o per fornire prompt al modello affinché interroghi nuovamente il retriever in un modo diverso.

Uncertainty Prediction
Per ogni output del modello, l'Uncertainty LoRA, nato dalla ricerca sulla calibrazione dei modelli di MIT-IBM Watson AI Lab, consente al modello di generare un "punteggio di certezza" quantizzato compreso tra 0 e 9 (che rappresenta rispettivamente dal 5% al 95% di certezza). Il punteggio riflette essenzialmente la misura in cui la risposta del modello è supportata dalle informazioni contenute nei suoi dati di addestramento.

Combinazione di RAG LoRA

Se il RAG tradizionale implica un'unica inferenza, un prompt semplice basato su un contesto specifico, che produce un unico output del modello, noi proponiamo l'uso di questi LoRA in workflow che utilizzano più adattatori LoRa su più inferenze nel percorso verso una risposta finale del modello.

Ad esempio, si può prima implementare Query Rewrite per riscrivere rapidamente (quando necessario) i prompt iniziali per ottenere una precisione ottimale del retriever. Una volta generata la risposta del modello con il miglioramento del recupero utilizzando il prompt riscritto, si potrebbe implementare il RAG Hallucination Detection per verificare un livello appropriato di fedeltà alle informazioni contenute nei documenti recuperati. Se il punteggio di fedeltà scende al di sotto di una soglia accettabile, il workflow potrebbe dare indicazioni al modello per ricampionare la risposta fino a quando il punteggio di fedeltà non supera tale soglia. Una volta che non sono più rilevate allucinazioni, si potrebbe poi attivare il RAG Citations per la risposta finale fornita all'utente.

Questo sarebbe essenzialmente simile all'equivalente RAG del calcolo del tempo di test scalabile, con l'impalcatura di più inferenze per migliorare e arricchire l'output finale del modello. Siamo entusiasti di vedere come la community open source implementerà e sperimenterà con questi nuovi adattatori LoRA. Ulteriori informazioni sui RAG LoRA e sul loro impatto sulle prestazioni del modello sono disponibili nel documento tecnico allegato.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Quali sono le prospettive per IBM Granite?

IBM Research sta addestrando attivamente Granite 4.0, una nuova generazione di modelli che rappresentano un'importante evoluzione dell'architettura Granite e dimostrano promettenti ottimizzazioni in termini di velocità, lunghezza del contesto e capacità. Sebbene i dettagli specifici saranno annunciati solo più in là nel secondo trimestre, i clienti, partner e sviluppatori possono contare sul fatto che IBM manterrà il suo impegno verso modelli piccoli e pratici che possono essere eseguiti a basso costo e a bassa latenza.

Come iniziare con Granite 3.3

I nuovi modelli Granite 3.3 Instruct sono disponibili su IBM watsonx.ai, il nostro studio end-to-end integrato per lo sviluppo di AI aziendale. Puoi provare Granite 3.3 Instruct 8B, per provare ad attivare e disattivare facilmente il "pensiero", nel Granite Playground.

Granite Speech 3.3 8B, insieme a tutti i nuovi modelli Granite e agli adattatori LoRA, è disponibile su Hugging Face. Alcuni modelli Instruct sono disponibili anche tramite i partner della piattaforma, tra cui (in ordine alfabetico) LMStudio, Ollama e Replicate, e presto se ne aggiungeranno altri.

Diverse guide e procedure per lavorare con i modelli Granite sono disponibili nei documenti Granite e nel Granite Snack Cookbook su GitHub. Gli sviluppatori possono iniziare con i modelli Granite esplorando la nostra gamma di utili demo e tutorial, come:

Esplora i nuovi modelli IBM Granite 3.3 →
 

Note a piè di pagina

1"MATH 500 Benchmark", Vals AI, ultimo aggiornamento del 24 marzo 2025

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

  1. Esplora watsonx.ai
  2. Prenota una demo live