Una nuova classe di modelli AI sta sfidando il dominio dei sistemi in stile GPT, promettendo alternative più rapide, economiche e potenzialmente più potenti.
Inception Labs, una startup fondata da ricercatori di Stanford, ha recentemente pubblicato Mercury, un modello linguistico basato sulla diffusione (dLLM) che affina intere frasi contemporaneamente, invece di prevedere le parole una per una. A differenza dei tradizionali modelli linguistici di grandi dimensioni (LLM), che utilizzano un approccio autoregressivo, generando una parola alla volta in base al testo precedente, i modelli di diffusione migliorano il testo in modo iterativo, attraverso il perfezionamento.
“I dLLM ampliano la frontiera delle possibilità”, racconta a IBM Think Stefano Ermon, professore di informatica alla Stanford University e co-fondatore di Inception Labs. "Mercury offre velocità ed efficienza senza pari e, sfruttando una maggiore capacità di calcolo in fase di test, i dLLM stabiliranno anche nuovi standard di qualità e miglioreranno la soddisfazione complessiva dei clienti per le applicazioni edge e aziendali."
L'ingegnere di IBM ResearchBenjamin Hoover ha una premonizione: "È solo una questione di due o tre anni prima che la maggior parte delle persone inizi a passare all'uso dei modelli di diffusione", afferma. "Quando ho visto il modello di Inception Labs, ho capito: 'Questo succederà prima o poi'".
I modelli di diffusione non seguono le stesse regole dell'AI tradizionale. I modelli autoregressivi come GPT costruiscono frasi parola per parola, prevedendo un token alla volta. Se un modello genera la frase "A chi di competenza", prevede "A", poi "chi", poi "di" e così via, un passo alla volta. I modelli di diffusione ribaltano il copione. Invece di mettere insieme il testo in modo sequenziale, iniziano con una versione grezza e rumorosa di un intero passaggio e la perfezionano in più fasi. Possiamo immaginarlo come un artista che crea una bozza prima di definire i dettagli, anziché disegnare ogni elemento in ordine. Considerando l'intera frase in una sola volta, i modelli di diffusione possono generare risposte più velocemente, spesso con maggiore coerenza e precisione rispetto ai LLM tradizionali.
Hoover vede la tecnologia come una rivisitazione moderna di un concetto più antico. "I modelli di diffusione sono fondamentalmente meccanismi di correzione degli errori", afferma. "Funzionano partendo da un input rumoroso e rimuovendo gradualmente il rumore fino a raggiungere l'output desiderato."
I modelli di diffusione sono stati ampiamente utilizzati nella generazione di immagini, con modelli come DALL·E, Stable Diffusion e Midjourney che perfezionano le immagini rumorose trasformandole in immagini di alta qualità. Tuttavia, applicare questo approccio al testo è più difficile perché il linguaggio richiede una rigorosa adesione a grammatica e sintassi.
"Molti tentativi di applicare i modelli di diffusione alla generazione di testi hanno avuto difficoltà in passato", afferma Ermon. "L'elemento che ha permesso a Mercury di avere successo dove altri hanno fallito sono le innovazioni proprietarie negli algoritmi di formazione e di inferenza". A differenza delle immagini, che possono essere gradualmente ripulite fino a ottenere forme riconoscibili, il linguaggio segue rigide regole grammaticali che rendono più complicato il perfezionamento iterativo."
Hoover indica Mercury di Inception Labs come un ottimo esempio di come i modelli di diffusione stiano colmando il divario. “Quel modello ha dimostrato che la diffusione può reggere il confronto ed è in realtà più rapida ed efficiente rispetto ai modelli autoregressivi comparabili.”
L'efficienza degli LLM basati sulla diffusione potrebbe rivoluzionare l'implementazione dell'AI, in particolare nelle applicazioni aziendali dove costi e velocità fanno la differenza. Gli LLM tradizionali richiedono una potenza di calcolo considerevole, che li rende costosi da gestire. I modelli di diffusione promettono di fornire prestazioni simili o migliori a una frazione del costo. I modelli di diffusione sono spesso più efficienti perché perfezionano intere sequenze in parallelo anziché generare ogni parola passo dopo passo come i tradizionali LLM, riducendo il sovraccarico computazionale.
"I nostri clienti e gli early adopter stanno sviluppando applicazioni basate sui dLLM in settori quali supporto clienti, vendite e gaming", afferma Ermon. “Stanno rendendo le loro applicazioni più reattive, più intelligenti e più economiche.”
Hoover vede un impatto ancora più ampio. "Al momento, l'AI è limitata dal consumo energetico," afferma. "I modelli grandi consumano enormi quantità di energia, ma i modelli di diffusione funzionano in modo diverso, permettendo un'efficienza molto maggiore. A lungo termine, potremmo vedere sistemi AI basati sulla diffusione funzionare su hardware analogico, riducendo drasticamente i costi energetici.
Il calcolo analogico, che elabora le informazioni utilizzando segnali elettrici continui piuttosto che operazioni binarie, è da tempo considerato una possibile soluzione al problema energetico dell'AI. Hoover ritiene che i modelli di diffusione siano particolarmente adatti a questo approccio.
"Questi modelli sono intrinsecamente interpretabili", afferma. "Ciò significa che possiamo mappare i calcoli interni direttamente sui circuiti analogici, un'operazione molto più difficile da realizzare con le tradizionali architetture di deep learning."
Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.
Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.
Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.