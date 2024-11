Modelli di deep learning ispirati alla termodinamica



I modelli di diffusione ispirati alla fisica sono stati introdotti per la prima volta da Sohl-Dickstein et al nell'articolo del 2015 dal titolo "Deep Unsupervised Learning using Nonequilibrium Thermodynamics". Il loro algoritmo applicava la dinamica di Langevin (link esterno a ibm.com), un metodo per modellare il movimento dei sistemi molecolari, per sottoscrivere la premessa di base dei modelli di diffusione: trasformare i dati in rumore, in modo da poter poi trasformare il rumore in dati.



Una nota sulle funzioni di densità di probabilità

Come la maggior parte dei modelli generativi, come ad esempio gli autoencoder variazionali (VAE), l'algoritmo di Sohl-Dickstein modellava la densità di probabilità: la probabilità relativa di una variabile campionata casualmente, x, che rientra in un particolare intervallo di valori. In sostanza, la modellazione di una funzione di densità di probabilità per un set di dati di addestramento consente a un algoritmo di generare campioni che hanno un'alta probabilità di adattarsi alla distribuzione dei dati di addestramento. Quando genera una nuova immagine, il modello presuppone un'alta probabilità che i valori dei pixel vengano distribuiti in quel modo specifico, in base alla distribuzione di probabilità appresa dai modelli nei dati di addestramento.

Logicamente parlando, le funzioni di densità di probabilità richiedono che la probabilità di tutte le possibilità si sommi fino a 1. In altre parole, la percentuale di probabilità di tutte le possibilità deve sommarsi esattamente al 100%. In pratica, ciò richiede spesso una costante di normalizzazione: un valore incorporato in una funzione di probabilità che riduce la probabilità totale a 1.

Il calcolo di una costante di normalizzazione che funzioni per tutti i possibili valori delle variabili è spesso intrattabile: tecnicamente risolvibile, ma richiede un tempo infinito per il calcolo. In questi casi, i modelli basati sulla verosimiglianza devono essere limitati a specifiche architetture di modelli o sviluppare soluzioni alternative intelligenti che approssimano la costante di normalizzazione in modo trattabile.