I modelli di diffusione sono stati ampiamente utilizzati nella generazione di immagini, con modelli come DALL·E, Stable Diffusion e Midjourney che perfezionano le immagini rumorose trasformandole in immagini di alta qualità. Tuttavia, applicare questo approccio al testo è più difficile perché il linguaggio richiede una rigorosa adesione a grammatica e sintassi.

"Molti tentativi di applicare i modelli di diffusione alla generazione di testi hanno avuto difficoltà in passato", afferma Ermon. "L'elemento che ha permesso a Mercury di avere successo dove altri hanno fallito sono le innovazioni proprietarie negli algoritmi di formazione e di inferenza". A differenza delle immagini, che possono essere gradualmente ripulite fino a ottenere forme riconoscibili, il linguaggio segue rigide regole grammaticali che rendono più complicato il perfezionamento iterativo."

Hoover indica Mercury di Inception Labs come un ottimo esempio di come i modelli di diffusione stiano colmando il divario. “Quel modello ha dimostrato che la diffusione può reggere il confronto ed è in realtà più rapida ed efficiente rispetto ai modelli autoregressivi comparabili.”