Dal punto di vista architettonico, Granite Speech 3.3 è composto da:

Un codificatore vocale, comprendente 10 blocchi di conformatori addestrati con la classificazione temporale connessionista (CTC) su set di dati incentrati sull'ASR.

addestrati con su set di dati incentrati sull'ASR. Un proiettore vocale, in questo caso un trasformatore di query a 2 strati (Q-former), che proietta gli embedding audio in uno spazio in cui possono essere interpretati da un LLM.

che proietta gli embedding audio in uno spazio in cui possono essere interpretati da un LLM. Un LLM, ovvero Granite 3.3 8B Instruct con una lunghezza del contesto di 128K.

Adattatori LoRA, applicati alle matrici di query e proiezione di valori dell'LLM quando sono presenti dati audio.

A differenza dei modelli direttamente integrati che combinano voce e testo in un unico passaggio, Granite Speech 3.3 utilizza un design a due passaggi. Ad esempio, per porre al modello domande su un file audio è necessaria una chiamata iniziale per trascrivere l'audio e un secondo prompt per interrogare il modello su quel testo trascritto. Se un prompt contiene l'opzione token " <audio> " e un file .wav corrispondente, Granite Speech attiverà il codificatore audio, il proiettore e l'adattatore LoRa. In caso contrario, il modello verrà eseguito semplicemente in modalità testo utilizzando Granite 3.3 Instruct 8B.

Questo approccio a due passaggi garantisce che le prestazioni di Granite Speech 3.3 8B sulle query di testo rispecchino quelle del suo LLM sottostante (Granite 3.3 8B Instruct), evitando il degrado delle prestazioni basate su testo tipico di molti modelli multimodali. Con l'accesso a una piattaforma di inferenza configurata per servire correttamente sia i modelli di testo che quelli vocali, gli sviluppatori possono essenzialmente comprendere Granite Speech 3.3 8B come una versione di Granite 3.3 8B Instruct con funzionalità di ingresso audio aggiunte.

A differenza dei tradizionali modelli ASR basati su Whisper, Granite Speech 3.3 può accettare input di lunghezza arbitraria: durante i test, il modello è stato in grado di elaborare comodamente un file audio di 20 minuti su una GPU H100 da 80 GB, anziché essere limitato a una finestra di 30 secondi. Nei modelli basati su Whisper, i file audio che superano tale limite devono essere tagliati in blocchi di 30 secondi, il che spesso introduce imprecisioni nei momenti in cui vengono imposti questi tagli di 30 secondi. Come regola generale, meno tagli artificiali di devono fare, minore è l'imprecisione che si introduce.

Sebbene Granite Speech 3.3 sia in grado di ingerire input audio piuttosto lunghi, vale la pena notare che il modello non è ancora stato perfezionato per i dati audio lunghi. Per mantenere una precisione costante, suggeriamo un limite di 1 minuto per ogni unità discreta di input audio.