Cosa sono i modelli di diffusione?

Autori

Senior Staff Writer, AI Models

IBM Think

Staff Editor, AI Models

IBM Think

Cosa sono i modelli di diffusione?

I modelli di diffusione sono modelli generativi utilizzati principalmente per la generazione di immagini e altri compiti di computer vision. Le reti neurali basate sulla diffusione vengono addestrate tramite il deep learning a "diffondere" progressivamente campioni con rumore casuale, quindi a invertire il processo di diffusione per generare immagini di alta qualità.

I modelli di diffusione sono tra le architetture di reti neurali all'avanguardia nell'AI generativa rappresentate in particolare dai popolari modelli da testo a immagine tra cui la diffusione stabile di Stability AI, DALL-E di OpenAI (a partire da DALL-E-2), Midjourney e Imagen di Google. Migliorano le prestazioni e la stabilità di altre architetture di machine learning utilizzate per la sintesi di immagini come gli autoencoder variazionali (VAE), le reti generative avversarie (GAN) e i modelli autoregressivi come PixelCNN.

L'intuizione alla base dei modelli di diffusione si ispira alla fisica, e tratta i pixel come le molecole di una goccia d'inchiostro che si diffonde nel tempo in un bicchiere d'acqua. Proprio come il movimento casuale delle molecole di inchiostro porterà alla fine alla loro dispersione uniforme nel vetro, l'introduzione casuale di rumore in un'immagine porterà alla fine a ciò che sembra statico in TV. Modellando quel processo di diffusione, e quindi imparando in qualche modo a invertirlo, un modello di intelligenza artificiale può generare nuove immagini semplicemente applicando il denoising a campioni di rumore casuale.

I modelli di diffusione sono principalmente associati alla generazione di immagini e ad altre attività di elaborazione delle immagini come l'inpainting e la super risoluzione, ma le loro applicazioni si estendono ad altri domini, tra cui la generazione di audio, la progettazione di farmaci e la generazione di molecole. Per semplicità, questo articolo si concentrerà sulla generazione di immagini.

Newsletter di settore

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Storia e teoria dei modelli di diffusione

Per spiegare e comprendere i modelli di diffusione, è importante notare innanzitutto che il processo generativo ora chiamato "diffusione" è stato scoperto indipendentemente in due diverse occasioni tramite due approcci matematici distinti. In breve, ci sono diversi modi in cui i modelli di diffusione, concettualmente semplici ma matematicamente complessi, possono "funzionare".

Gli sviluppi successivi hanno preso in prestito delle idee da entrambi gli approcci, mescolando i vantaggi di ciascuno per produrre i moderni modelli di diffusione che attualmente dominano il campo della generazione di immagini. Una breve rassegna della storia e della teoria dei modelli di diffusione facilita quindi la comprensione non solo di come funzionano i modelli di diffusione, ma anche del perché funzionano.

Modelli di deep learning ispirati alla termodinamica

I modelli di diffusione ispirati alla fisica sono stati introdotti per la prima volta da Sohl-Dickstein et al nell'articolo del 2015 dal titolo "Deep Unsupervised Learning using Nonequilibrium Thermodynamics". Il loro algoritmo applicava la dinamica di Langevin, un metodo per modellare il movimento dei sistemi molecolari, per sottoscrivere la premessa di base dei modelli di diffusione: trasformare i dati in rumore, in modo da poter poi trasformare il rumore in dati.

Una nota sulle funzioni di densità di probabilità

Come la maggior parte dei modelli generativi, come ad esempio gli autoencoder variazionali (VAE), l'algoritmo di Sohl-Dickstein modellava la densità di probabilità: la probabilità relativa di una variabile campionata casualmente, x, che rientra in un particolare intervallo di valori. In sostanza, la modellazione di una funzione di densità di probabilità per un set di dati di addestramento consente a un algoritmo di generare campioni che hanno un'alta probabilità di adattarsi alla distribuzione dei dati di addestramento. Quando genera una nuova immagine, il modello presuppone una elevata probabilità che i valori dei pixel vengano distribuiti in quel modo specifico, in base alla distribuzione di probabilità appresa dai modelli nei dati di addestramento.

Logicamente parlando, le funzioni di densità di probabilità richiedono che la probabilità di tutte le possibilità si sommi fino a 1. In altre parole, la percentuale di probabilità di tutte le possibilità deve sommarsi esattamente al 100%. In pratica, ciò richiede spesso una costante di normalizzazione: un valore incorporato in una funzione di probabilità che riduce la probabilità totale a 1.

Calcolare una costante di normalizzazione che funzioni per tutti i possibili valori delle variabili è spesso intrattabile: tecnicamente risolvibile, ma richiede un tempo infinito per il calcolo. In questi casi, i modelli basati sulla verosimiglianza devono essere limitati a specifiche architetture di modelli o sviluppare soluzioni alternative intelligenti che approssimano la costante di normalizzazione in modo trattabile.

Modelli generativi basati sul punteggio

Indipendentemente dal lavoro di Sohl-Dickstein, Yang Song e Stefano Ermon hanno sviluppato un tipo di modello basato sull'energia denominato noise conditional score network nell'articolo del 2019 dal titolo "Generative Modeling by Estimating Gradients of the Data Distribution". Il loro algoritmo ha modellato il gradiente(∇_x) del logaritmo ( $l o g$ ) della funzione di densità di probabilità $p (x)$ . Il gradiente della funzione di densità di probabilità logaritmica, scritta come $\nabla_{x} \log p (x)$ è chiamato punteggio di Stein o semplicemente "funzione di punteggio".

A differenza delle tradizionali funzioni di densità di probabilità, le funzioni di punteggio non richiedono una costante di normalizzazione perché non modellano direttamente la densità di probabilità (e quindi non devono normalizzare la probabilità totale a 1). Invece, vengono addestrati attraverso la corrispondenza dei punteggi: i parametri del modello di apprendimento, θ, che produce un modello p_θ(x) il cui punteggio (in altre parole, il suo gradiente) corrisponde a quello della distribuzione dei dati q(x) dei dati di addestramento.

Un altro beneficio dei modelli generativi basati sul punteggio (SGM) è che, a differenza dei modelli basati sulla verosimiglianza, non impongono molte restrizioni all'architettura del modello di p_θ(x).

Esplorando i modi per migliorare le prestazioni del modello, Song ed Ermon sono arrivati casualmente alle stesse tecniche utilizzate da Sohl-Dickstein et al. Il loro articolo osservava che "la perturbazione dei dati con rumore gaussiano casuale rende la distribuzione dei dati più suscettibile alla modellazione generativa basata su punteggi". Il loro modello, costruito utilizzando l'architettura U-Net originariamente sviluppata per la segmentazione delle immagini, ha applicato allo stesso modo la dinamica di Langevin per generare campioni.

Modelli probabilistici di diffusione di denoising (DDPM)

Nel 2020, Ho et alhanno proposto di utilizzare l'approccio di Sohl-Dickstein per generare immagini di alta qualità utilizzando l'inferenza variazionale nel loro articolo fondamentale, «Denoising diffusion probabilistic models» (DDPMS). Il loro articolo ha mostrato che massimizzare il limite inferiore delle evidenze (ELBO), un modo per riscrivere i problemi di ottimizzazione basati sulla probabilità in modo che siano trattabili, per addestrare modelli di diffusione è essenzialmente equivalente alla combinazione di obiettivi di abbinamento dei punteggi utilizzati per addestraregli SGM.

Implementando l'approccio di Sohl-Dickstein con la corrispondenza dei punteggi, Ho et al hanno dimostrato che i modelli probabilistici a diffusione possono raggiungere una qualità dell'immagine competitiva con i GAN, che all'epoca erano all'avanguardia. Queste connessioni sono state ulteriormente esplorate da Song, Ermon, Sohl-Dickstein e altri, tra cui Diederik P. Kingma, creatore del VAE, nel loro articolo del 2021, dal titolo "Score-Based Generative Modeling through Stochastic Differential Equations".

Nello stesso anno, Dhariwal e Nichol, utilizzando gli insight del documento precedentemente citato, pubblicarono "Diffusion Models Beat GaNs on Image Synthesis", stabilendo con sicurezza i modelli di diffusione come il nuovo stato dell'arte.

I DDPM, piuttosto che gli SGM, rimangono generalmente i modelli dominanti delle modalità di diffusione, anche se con miglioramenti introdotti nella ricerca successiva. Ad esempio, l'influente articolo del 2022 "High-Resolution Image Synthesis with Latent Diffusion Models" ha segnato importanti progressi in termini di efficienza ed economicità.

AI Academy

Ascesa dell'AI generativa nel mondo del business

Scopri di più sull'ascesa dell'AI generativa e cosa comporta per le aziende.

Vai all'episodio

Come funzionano i modelli di diffusione?

Durante l'addestramento, i modelli di diffusione diffondono gradualmente un punto dati con rumore casuale, passo dopo passo, fino a distruggerlo, poi imparano a invertire il processo di diffusione e a ricostruire la distribuzione originale dei dati.

Un modello di diffusione addestrato può quindi generare nuovi punti dati che assomigliano ai dati di addestramento semplicemente applicando il denoising a un campione iniziale casuale di rumore puro. Concettualmente, è simile a un autoencoder di denoising in cui le immagini rumorose agiscono come variabili latenti.

Trasformare direttamente un rumore casuale in un'immagine coerente è estremamente difficile e complesso, ma trasformare un'immagine rumorosa in un'immagine leggermente meno rumorosa è relativamente facile e diretto. I modelli di diffusione formulano quindi il processo di diffusione inversa come una trasformazione incrementale e graduale di una distribuzione semplice (come il rumore gaussiano) in una distribuzione più complessa (come un'immagine coerente).

Il processo di formazione e quindi di implementazione di una diffusione può essere suddiviso in tre fasi chiave:

Il processo di diffusione diretta, in cui un'immagine proveniente dal set di dati di addestramento viene trasformata in puro rumore, di solito una distribuzione gaussiana.
Il processo di diffusione inversa, in cui il modello apprende l'inverso di ogni fase precedente del processo originale di diffusione diretta.
Generazione di immagini, in cui il modello addestrato campiona una distribuzione casuale del rumore e la trasforma in un output di alta qualità utilizzando il processo di diffusione inversa che ha imparato per eseguire il denoising su un campione casuale di rumore gaussiano.

Processo di diffusione diretta

Lo scopo del processo di diffusione diretta è trasformare dati puliti dal set di dati di addestramento, come un'immagine o un campione audio, in puro rumore. Il metodo più comune consiste nell'iniettare iterativamente rumore gaussiano fino a quando l'intera distribuzione dei dati non è gaussiana.

Matematicamente, questo processo graduale è formulato come una catena di Markov: un tipo di processo stocastico, ovvero un processo casuale che segue determinate regole probabilistiche, per la modellazione di dati di serie temporali sequenziali. In una catena di Markov, l'esito ad ogni passo temporale è influenzato solo dal passo temporale immediatamente precedente. In parole povere: xt, lo stato della catena di Markov x al momento t, è direttamente influenzato solo da _xt-1. La funzione matematica che definisce la transizione da qualsiasi _xt a _xt+1 è chiamata kernel di transizione.

Ad ogni passo temporale t, viene aggiunta una piccola quantità di rumore gaussiano a x_t-1 e l'immagine viene quindi ridimensionata per mantenere una dimensione costante dell'immagine nonostante l'iniezione continua di pixel casuali. In questa formulazione, x₀ è il punto dati pulito originale; x₁ è il punto dati dopo il primo passo temporale, a cui è stata aggiunta una piccola quantità di rumore gaussiano; x_T è lo stato finale del processo di diffusione diretta. Se T è abbastanza grande, cioè dopo un numero sufficiente di passi, x_T convergerà al puro rumore gaussiano.

Definiamo ogni passo in avanti come $q (x_{t} | x_{t - 1}) :$ predire lo stato della distribuzione dei dati q(x_t), dato q(x_t-1). In un DDPM standard, questo processo in avanti non coinvolge alcun machine learning: il risultato finale della catena di Markov sarà sempre una distribuzione gaussiana e quindi non richiede ottimizzazione.

Aggiungere rumore

In un DDPM, il rumore gaussiano aggiunto ad ogni passo della catena di Markov non è né costante né arbitrario. Al contrario, il rumore deriva dalla struttura dell'immagine originale e la velocità con cui viene aggiunto aumenta costantemente ad ogni passaggio consecutivo.

La variazione della quantità di rumore migliora la stabilità dell'addestramento del modello e migliora al contempo le prestazioni complessive bilanciando due priorità concorrenti. Come ha scritto Yang Song nel suo post sul blog sui modelli generativi basati su punteggi:

Un rumore più grande migliora la capacità del modello di apprendere con precisione in regioni "a bassa densità" di dati di addestramento, categorie visive che hanno meno rappresentazioni nei dati di addestramento, popolando quelle regioni con dati rumorosi. Tuttavia, può anche corrompere eccessivamente i dati, riducendo l'accuratezza complessiva.
Un rumore più piccolo causa una minore corruzione della distribuzione dei dati originali, ma produce prestazioni scarse nelle regioni a bassa densità.
Pertanto, per ottenere il meglio di entrambi i mondi, i modelli di diffusione utilizzano più scale di rumore nell'addestramento.

Ricordiamo che ogni distribuzione gaussiana (normale) ha sia una media, $μ$ , e una varianza, $Σ$ . Un altro parametro, β, funge da fattore di scala per la media e la varianza del rumore gaussiano nel kernel di transizione che definisce ogni fase della catena di Markov in avanti. La modifica del valore di β in un determinato passo comporta la modifica del rumore gaussiano aggiunto in quel passo. β₁è la varianza nella fase temporale 1; β_t è la varianza nella fase temporale t, e così via, fino a β_T.

Il valore della velocità di β in ogni fase è, a sua volta, determinato dalla pianificazione della varianza.

Programma della varianza

Ad ogni passo t, l'immagine viene leggermente spostata rispetto alla sua iterazione nella fase precedente (per la media) e viene aggiunto del rumore a questa versione spostata dell'immagine (per la varianza). L'entità di ogni spostamento e aggiunta di rumore è determinata dal valore di βt: all'aumentare di βt in base al programma di varianza, il tasso di diffusione aumenta costantemente di conseguenza. β è sempre un valore compreso tra 0 e 1: quindi, 0 < β₁ < β₂< … < β_T < 1.

La scelta di un programma di varianza specifico per β è una considerazione importante. In genere viene impostato manualmente come iperparametro, fissato su un valore costante o procedendo secondo una formula con un valore iniziale e finale predeterminati per β. Nel documento del DDPM, Ho et al hanno utilizzato un programma lineare con 1.000 passaggi in cui β₁ = 10^-4 e β_T = 0,02. Ricerche successive hanno riscontrato miglioramenti nelle prestazioni e nell'efficienza con altri tipi di orari, come un programma coseno,^[1] o rendendo il programma stesso un altro parametro appreso.^[2]

Il valore di β_t determina sia la media che la varianza del rumore gaussiano aggiunto al passo t.

La media $μ$ del rumore gaussiano aggiunto al passo temporale t, $μ_{t}$ , è calcolata come $μ_{t} = (1 - β_{t}) x_{t - 1}$ . In parole povere, la media del rumore aggiunto ad ogni passo t è semplicemente una versione in scala dell'immagine del passo precedente, x_t-1. La dimensione di _{β t} determina fino a che punto questa media si discosta dal passaggio precedente: quando β_t è molto piccolo, questo spostamento è molto minore, perché $(1 - β_{t}) \approx (1 - 0) \approx 1$ e il rumore aggiunto sarà quindi molto simile all'immagine originale. All'aumentare del valore di β_t, questo cambiamento diventa più significativo.
La varianza del rumore gaussiano aggiunto al timestep t è calcolata come $Σ_{t} = β_{t} I$ , dove $I$ è la matrice identità. Un β_t più grande comporta un rumore maggiore. Un β_t molto piccolo determina un rumore trascurabile.

In sintesi, ad ogni passo t, l'immagine viene leggermente spostata rispetto alla sua iterazione nella fase precedente (per la media) e viene aggiunto del rumore a questa versione spostata dell'immagine (per la varianza). L'entità di ogni spostamento e aggiunta di rumore è determinata dal valore di β_t: all'aumentare di β_t in base al programma di varianza, il tasso di diffusione aumenta costantemente di conseguenza.

Poiché l'aggiunta di rumore gaussiano inizia gradualmente e il rumore stesso è sempre derivato dalla struttura essenziale dell'immagine originale nel passaggio precedente, le qualità essenziali dell'immagine originale vengono mantenute per molti passaggi. Ciò consente al modello di apprendere in modo significativo i modelli e la struttura della distribuzione dei dati originale durante il processo di diffusione inversa.

Il trucco della riparametrizzazione

Un difetto di questo processo passo dopo passo è che è ingombrante e costoso dal punto di vista computazionale: per ogni immagine in un set di dati di addestramento che potrebbe contenere migliaia o milioni di immagini, il processo di inoltro richiederebbe dozzine o centinaia di passaggi individuali.

Invece di aggiungere ripetutamente rumore, la formula per il processo di inoltro può essere riscritta in modo intelligente riparametrizzando l'espressione di $1 - β_{t}$ come nuovo parametro, $α_{t}$ . Tramite una "proprietà interessante" delle catene di Markov, questo nuovo parametro può essere ulteriormente esteso ad un parametro aggiuntivo, ${\bar{α}}_{t}$ , derivato dalla moltiplicazione iterativa di $α_{t}$ ad ogni passo progressivo della catena fino a quel punto. Questo parametro aggiuntivo riflette essenzialmente il rapporto segnale/rumore (SNR) di x_t: in altre parole, quanta parte dell'immagine originale rimane al passo temporale t.

Ad esempio, in x₁, è stata aggiunta una piccola quantità di rumore una volta. Il valore di ${\bar{α}}_{t}$ è vicino a 1, il che significa che l'immagine conserva ancora la maggior parte del segnale "originale". In un passaggio successivo, come x₅₀, il rumore è stato aggiunto molte volte. Poiché $α_{t} = 1 - β_{t}$ , il valore di $α_{t}$ è sempre minore di 1. Da ${\bar{α}}_{50} = α_{1} ∙ α_{2} ∙ . . . ∙ α_{49} ∙ α_{50}$ , il valore di ${\bar{α}}_{t}$ al passo 50 sarà molto più vicino a 0, il che significa che una parte maggiore dell'immagine originale è stata sostituita dal rumore. Al passo temporale T, x_T è interamente rumore e il valore di ${\bar{α}}_{t}$ si avvicina allo 0.

Sebbene la complessa derivazione dell'equazione non rientri nello scopo di questo articolo, ci sono due importanti conclusioni per comprendere l'importanza di questo trucco di riparametrizzazione:

Lo stato di x in qualsiasi passo temporale t può ora essere definito come $x_{t} = \sqrt{{\bar{α}}_{t}} ∙ x_{0} + \sqrt{1 - {\bar{α}}_{t}} ∙ ε_{0}$ , dove $ε_{0}$ è il rumore aggiunto nel primo passaggio. Man mano che il valore di ${\bar{α}}_{t}$ diminuisce ad ogni passo, l'influenza di x₀ diminuisce e l'influenza di ε₀ aumenta.
Poiché ${\bar{α}}_{t}$ è derivato da $1 - β_{t}$ e il valore di $β_{t}$ è determinato dal programma di varianza, riscrivere la formula in questo modo consente il calcolo diretto di x_t in qualsiasi fase temporale t senza dover passare attraverso l'intero processo di diffusione diretta passo dopo passo.

Processo di diffusione inversa

Nei modelli di diffusione, il processo di diffusione inversa è quello in cui avviene il machine learning vero e proprio. Imparando a eseguire le fasi inverse del processo di noising, il modello sta essenzialmente imparando a eseguire il denoising del rumore gaussiano puro in un'immagine pulita. Una volta che la rete neurale è stata addestrata, questa capacità può essere utilizzata per generare nuove immagini dal rumore gaussiano attraverso una diffusione inversa passo dopo passo.

In teoria, il compito del modello può essere considerato il semplice inverso della diffusione diretta. Il processo in avanti, a partire dal punto dati x₀ campionato dalla distribuzione dei dati reali q(x) del set di dati di addestramento, è definito come $q (x_{t} | x_{t - 1})$ : ovvero, dato $q (x_{t - 1})$ , calcola $q (x_{t})$ . Il suo contrario, la diffusione inversa, sarebbe definito come $q (x_{t - 1} | x_{t})$ . Ma in pratica, il calcolo $q (x_{t - 1} | x_{t})$ è intrattabile.

Invece, il compito di addestramento è formulato attraverso due soluzioni alternative:

Come descritto in precedenza, q(x) è approssimato con una rete neurale p_θ(x) che costituisce il modello di diffusione effettivo stesso. L'obiettivo dell'addestramento è apprendere i parametri del modello θ che fanno in modo che l'output di p_θ( $x_{t - 1} | x_{t}$ ), corrisponda all'output di q( $x_{t - 1} | x_{t}$ ).
Questo modello, p_θ(x), non prevede direttamente $x_{t - 1}$ , né il rumore specifico aggiunto tra x_t-1 e x_t. Prevede invece l'intero rumore presente in x_t, quindi ne rimuove una frazione (in base allo stato del programma di varianza in quella fase) per arrivare a x_t-1. Il documento originale del DDPM ha ulteriormente semplificato questo processo stimando solo la media del rumore gaussiano, sebbene i modelli successivi spesso prevedano anche la varianza.

Ricordiamo ancora una volta che la media del rumore gaussiano aggiunto nella diffusione diretta non è arbitraria: sebbene sia effettivamente casuale, la struttura del rumore è inizialmente derivata dalla struttura dell'immagine originale x₀. Pertanto, imparando a prevedere con precisione il rumore attraverso la diffusione inversa, il modello apprende non solo a ridurre il rumore dell'immagine, ma anche implicitamente la struttura di x₀.

Funzione di perdita per l'addestramento del modello di diffusione

L'obiettivo specifico dell'addestramento utilizzato per i modelli di diffusione è strettamente correlato al termine di perdita di ricostruzione utilizzato per ottimizzare gli autoencoder variazionali (VAE). Come i VAE, i modelli di diffusione sono ottimizzati massimizzando il limite inferiore variazionale (VLB), chiamato anche limite inferiore di evidenza (ELBO), di una combinazione di più termini di perdita.

La massimizzazione del VLB viene utilizzata nell'inferenza variazionale per approssimare la funzione di punteggio intrattabile $\nabla_{x} \log (p (x))$ : invece di minimizzare direttamente l'errore, riformula l'equazione massimizzando la stima minima (o limite inferiore) dell'accuratezza delle previsioni del modello.

I termini di perdita utilizzati riflettono ciascuno la divergenza di Kullback-Leibler (o "divergenza KL", in genere indicata come D_KL) tra i risultati dei passaggi di diffusione diretta di q e i passaggi inversi previsti da p_θ. La divergenza KL viene utilizzata per misurare la differenza tra due distribuzioni di probabilità, ad esempio tra la distribuzione dei valori dei pixel in un'immagine e la distribuzione dei valori dei pixel in un'altra.

In particolare, la funzione di perdita per i modelli di diffusione combina tre termini di perdita: L_T, L_te L₀.

L_T riflette la divergenza KL tra q $(x_{T} | x_{0})$ e p_θ(x_T). In altre parole, la differenza tra il risultato finale completamente rumoroso del processo in avanti q e il punto di partenza del processo inverso. Questo termine può essere generalmente ignorato, perché x_T è gaussiano e q non presenta parametri apprendibili.
L_t riflette la divergenza KL tra $q (x_{t - 1} | x_{t}, x_{0})$ E $p_{θ} (x_{t - 1} | x_{t})$ ad ogni passo. In altre parole, l'accuratezza di ciascuna delle previsioni di denoising di p_θ durante la diffusione inversa rispetto a ciascuna fase di noising corrispondente durante il processo di diffusione diretta per l'immagine originale, x₀.
Misure L₀ $- \log p_{θ} (x_{0} | x_{1})$ . In altre parole, L₀riflette la probabilità logaritmica negativa della previsione del modello dell'immagine completamente denoised x₀. Il gradiente di L₀ è il termine corrispondente al punteggio descritto in precedenza nell'articolo. Il termine di perdita è negativo, in modo che la minimizzazione della funzione di perdita diventi equivalente alla massimizzazione della verosimiglianza delle previsioni del modello.

Sebbene la sua complessa derivazione matematica vada oltre lo scopo di questo articolo, il VLB può essere semplificato fino all'errore quadratico medio (MSE) tra il rumore previsto dal modello, $ε_{θ}$ e il vero rumore aggiunto nel processo di diffusione diretta, $ε$ ad ogni passo temporale. Questo spiega perché l'output del modello è una previsione del rumore in ogni fase, piuttosto che l'immagine denoised stessa.

Calcolando il gradiente della funzione di perdita durante la retropropagazione e quindi regolando i pesi del modello per ridurre al minimo la funzione di perdita attraverso la discesa del gradiente, le previsioni del modello sull'intero set di dati di addestramento diventeranno più accurate.

Generazione di immagini con modelli di diffusione

Una volta che il modello di diffusione ha imparato a stimare con precisione il rumore da sottrarre ad ogni passo, può essere utilizzato per generare nuove immagini campionando da un'immagine disturbata casuale x_T dalla distribuzione dei dati che ha appreso e facendo un denoising per i passi T. Analogamente ai VAE, l'introduzione di un leggero elemento di casualità nel processo di campionamento consente ai modelli di diffusione di produrre nuove immagini che assomigliano ai dati di addestramento, piuttosto che riprodurre direttamente le immagini di addestramento.

A differenza del processo di addestramento sulla diffusione inversa, il numero di passaggi nel processo di generazione non deve corrispondere al numero di passaggi utilizzati nel processo successivo. Questo è possibile perché il modello viene addestrato a prevedere l'intero rumore in ogni fase dell'immagine, piuttosto che la quantità specifica di rumore da rimuovere in quella fase.

Meno passaggi comportano una maggiore velocità e minori richieste di calcolo, con un potenziale compromesso nei minimi dettagli; più passaggi in genere migliorano la precisione, anche se a costo di una riduzione della velocità e dell'aumento dei costi di calcolo.

Modelli di diffusione guidati

Mentre un modello di diffusione standard può generare variazioni di buona qualità delle immagini di addestramento in modo casuale, la maggior parte degli usi pratici di un modello di generazione di immagini richiede il controllo di alcuni aspetti dell'output del modello. I modelli di diffusione guidata consentono all'utente di condizionare le immagini generate con una guida specifica.

La forma più comune è un modello di diffusione da testo a immagine che consente agli utenti di condizionare l'output con un messaggio di testo, ad esempio "una giraffa con un cappello a cilindro". Ciò comporta l'abbinamento di un modello di diffusione con un modello linguistico di grandi dimensioni (LLM) separato per interpretare il prompt di testo, introdotto per la prima volta da Google nel documento "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding".

I modelli di diffusione standard mirano a prevedere la funzione di punteggio incondizionato ∇xlogp(x): in altre parole, il gradiente del logaritmo della probabilità che l'immagine x generata dal modello p si adatti ai dati di addestramento x. I modelli di diffusione guidata introducono una categoria visiva specifica, y, ad esempio "giraffa", e predicono la funzione di punteggio condizionale ∇xlogp(x|y): in altre parole, la probabilità dell'immagine x, poiché deve rientrare nella categoria y.

I metodi per la diffusione guidata possono essere suddivisi in due categorie:

La diffusione guidata dal classificatore richiede un modello di classificazione separato per apprendere gli incorporamenti vettoriali per ogni categoria y per cui il modello di diffusione sarà addestrato a produrre immagini. Questo incorporamento vettoriale viene quindi utilizzato per condizionare l'output a ogni passo t. Il modello di diffusione non richiede un addestramento aggiuntivo, ma sarà in grado di condizionare gli output solo nelle categorie apprese dal classificatore.
La guida senza classificatori non richiede un modello separato, ma richiede l'addestramento di un modello di diffusione in due fasi specifico per la guida condizionale. Ciò comporta in genere un modello a due fasi: nella prima fase, un algoritmo di incorporamento come CLIP genera una y di incorporamento per il prompt. Nella seconda fase, un modello di diffusione utilizza l'incorporamento per condizionare il suo output. Nonostante i costi aggiuntivi di addestramento, questo presenta il vantaggio di consentire una guida zero-shot per categorie di immagini inedite.

Modelli di diffusione latente

Nonostante la capacità all'avanguardia di generare immagini di alta qualità, i modelli di diffusione convenzionali presentano due importanti svantaggi: sono lenti e costosi dal punto di vista computazionale. Questi inconvenienti sono stati notevolmente ridotti dall'avvento di modelli di diffusione latente, a cominciare dalla diffusione stabile.

La premessa alla base dei modelli di diffusione latente è semplice e si basa ancora una volta sul collegamento con gli autoencoder variazionali (VAE). Piuttosto che applicare il processo di diffusione in uno spazio di pixel ad alta dimensione, cioè direttamente alle immagini di input, il modello potrebbe prima proiettare l'input nello spazio latente di dimensioni inferiori, quindi applicare a quel punto il processo di diffusione.

In sostanza, i modelli di diffusione latente impiegano un'architettura di autoencoder simile a VAE per addestrare un encoder a produrre rappresentazioni latenti z dei dati di input x. Queste rappresentazioni latenti vengono poi utilizzate come input di un modello di diffusione standard, in genere utilizzando l'architettura U-Net. Poiché il modello di diffusione lavora con dati di dimensioni inferiori, il suo output viene quindi immesso in una rete di decodificatori per l'upsampling nella dimensione finale dell'immagine desiderata.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Risorse

La guida del CEO all'AI generativa

Scopri come i CEO possono trovare il giusto equilibrio tra il valore che l'AI generativa può creare, gli investimenti che richiede e i rischi che introduce.

Porta le tue competenze in materia di gen AI al livello successivo

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Sfruttare al meglio l'AI: aumentare il ROI con la gen AI

Vuoi ottenere un ritorno migliore sui tuoi investimenti nell'AI? Scopri come lo scaling della GenAI in settori chiave può favorire il cambiamento, aiutando le tue menti migliori a creare e fornire nuove soluzioni innovative.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d'anticipo.

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d'uso.

Come prosperare in questa nuova era dell'AI in tutta fiducia e sicurezza

Approfondisci i 3 elementi critici di una solida strategia AI: creare un vantaggio competitivo, scalare l'AI attraverso l'azienda e promuovere un'AI affidabile.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Servizi AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live

Note a piè di pagina

NOTA: tutti i link sono esterni a ibm.com.

[1] "Improved Denoising Diffusion Probabilistic Models," arXiv, 18 febbraio 2021
[2] "Variational Diffusion Models," arXiv, ultima revisione 14 aprile 2023

Cosa sono i modelli di diffusione?

Autori

Cosa sono i modelli di diffusione?

Le ultime tendenze in materia di AI, proposte da esperti

Grazie per aver effettuato l'iscrizione!

Storia e teoria dei modelli di diffusione

Modelli di deep learning ispirati alla termodinamica

Una nota sulle funzioni di densità di probabilità

Modelli generativi basati sul punteggio

Modelli probabilistici di diffusione di denoising (DDPM)

Ascesa dell'AI generativa nel mondo del business

Come funzionano i modelli di diffusione?

Processo di diffusione diretta

Aggiungere rumore

Programma della varianza

Il trucco della riparametrizzazione

Processo di diffusione inversa

Funzione di perdita per l'addestramento del modello di diffusione

Generazione di immagini con modelli di diffusione

Modelli di diffusione guidati

Modelli di diffusione latente

Risorse

Note a piè di pagina