L’objectif d’entraînement spécifique utilisé pour les modèles de diffusion est étroitement lié au terme de perte de reconstruction, utilisé pour optimiser les auto-encodeurs variationnels (VAE). Comme les VAE, les modèles de diffusion sont optimisés en maximisant la limite inférieure variationnelle (VLB), également appelée limite inférieure de preuve (ELBO), d’une combinaison de plusieurs termes de perte.
La maximisation de la VLB est utilisée dans l’inférence variationnelle pour approximer la fonction de score insoluble. : au lieu de minimiser directement l’erreur, on reformule l’équation en maximisant l’estimation minimale (ou la limite inférieure) de la précision des prédictions du modèle.
Les termes de perte utilisés reflètent chacun la divergence de Kullback-Leibler (ou « divergence KL », généralement notée DKL) entre les résultats des intervalles de diffusion vers l’avant de q et les intervalles inverses prédits par pθ. La divergence KL permet de mesurer la différence entre deux distributions de probabilités, par exemple, entre la distribution des valeurs de pixels dans une image et la distribution des valeurs de pixels dans une autre.
Plus précisément, la fonction de perte pour les modèles de diffusion combine trois termes de perte : LT, Lt et L0.
- LT reflète la divergence KL entre qet pθ(xT). En d’autres termes, la différence entre le résultat final entièrement bruité du processus vers l’avant q et le point de départ du processus inverse. Ce terme peut généralement être ignoré, car xT est gaussien et q n’a pas de paramètres apprenables.
- Lt reflète la divergence KL entre et à chaque étape. En d’autres termes, la précision de chacune des prédictions de débruitage de pθ pendant la diffusion inverse par rapport à chaque étape de bruitage correspondante pendant le processus de diffusion vers l’avant de l’image originale, x0.
- L0 mesure . En d’autres termes, L0 reflète le logarithme négatif de la vraisemblance de la prédiction du modèle de l’image entièrement débruitée x0. Le gradient de L0 est le terme de correspondance de score décrit plus haut dans l’article. Le terme de perte est négatif, de sorte que la minimisation de la fonction de perte équivaut à maximiser la vraisemblance des prédictions du modèle.
Bien que sa dérivation mathématique complexe dépasse le cadre de cet article, la VLB peut être simplifiée jusqu’à l’erreur quadratique moyenne (MSE) entre le bruit prédit par le modèle et le véritable bruit ajouté lors du processus vers l’avant, , à chaque intervalle. Cela explique pourquoi la sortie du modèle est une prédiction du bruit à chaque intervalle, plutôt que l’image débruitée elle-même.
En calculant le gradient de la fonction de perte pendant la rétropropagation, puis en ajustant les pondérations du modèle pour minimiser la fonction de perte via la descente de gradient, les prédictions du modèle sur l’ensemble du jeu de données d’entraînement seront plus précises.