El objetivo de entrenamiento específico utilizado para los modelos de difusión está estrechamente relacionado con el término de pérdida de reconstrucción empleado para optimizar los autocodificadores variacionales (VAE). Al igual que los VAE, los modelos de difusión se optimizan maximizando el límite inferior variacional (VLB), también llamado límite inferior de las pruebas (ELBO), de una combinación de múltiples términos de pérdida.
La maximización del VLB se utiliza en la inferencia variacional para aproximar la función de puntuación intratable : en lugar de minimizar directamente el error, reformula la ecuación para maximizar la estimación mínima (o límite inferior) de la precisión de las predicciones del modelo.
Cada uno de los términos de pérdida utilizados refleja la divergencia Kullback-Leibler (o "divergencia KL", generalmente denotada como DKL) entre los resultados de los pasos de difusión directa de q y los pasos inversos predichos por pθ. La divergencia KL se utiliza para medir la diferencia entre dos distribuciones de probabilidad, por ejemplo, entre la distribución de valores de píxeles de una imagen y la distribución de valores de píxeles de otra.
En concreto, la función de pérdida para los modelos de difusión combina tres términos de pérdida: LT, Lt y L0.
- LT refleja la divergencia KL entre q y pθ(xT). En otras palabras, la diferencia entre el resultado final del proceso de reenvío q y el punto de partida del proceso inverso. Por lo general, este término puede ignorarse, porque xT es gaussiano y q no tiene parámetros que se puedan aprender.
- Lt refleja la divergencia KL entre y en cada paso. En otras palabras, la precisión de cada una de las predicciones de eliminación de ruido de pθdurante la difusión inversa en comparación con cada paso de ruido correspondiente durante el proceso de difusión directa para la imagen original, x0.
- L0 medidas . En otras palabras, L0 refleja la probabilidad logarítmica negativa de la predicción del modelo de la imagen totalmente eliminada x0. El gradiente de L0 es el término de coincidencia de puntuaciones descrito anteriormente en este artículo. El término de pérdida es negativo, por lo que minimizar la función de pérdidas equivale a maximizar la probabilidad de las predicciones del modelo.
Aunque su compleja derivación matemática está fuera del alcance de este artículo, el VLB puede simplificarse en última instancia hasta el error cuadrático medio (MSE) entre el ruido predicho por el modelo, y el ruido real añadido en el proceso de avance, , en cada paso de tiempo. Esto explica por qué el resultado del modelo es una predicción del ruido en cada paso, en lugar de la propia imagen eliminada.
Al calcular el gradiente de la función de pérdida durante la retropropagación y luego ajustar las ponderaciones del modelo para minimizar la función de pérdida a través del descenso del gradiente, las predicciones del modelo en todo el conjunto de datos de entrenamiento serán más precisas.