El objetivo de entrenamiento específico empleado para los modelos de difusión está estrechamente relacionado con el término de pérdida de reconstrucción empleado para optimizar los autocodificadores variacionales (VAE).Al igual que los VAE, los modelos de difusión se optimizan maximizando el límite inferior variacional (VLB), también llamado límite inferior de la evidencia (ELBO), de una combinación de múltiples términos de pérdida.
La maximización del VLB se emplea en la inferencia variacional para aproximar la función de puntaje intratable : en lugar de minimizar directamente el error, reformula la ecuación para maximizar la estimación mínima (o límite inferior) de la precisión de las predicciones del modelo.
Los términos de pérdida empleados reflejan la divergencia Kullback-Leibler (o “divergencia KL”, generalmente denotada como DKL) entre los resultados de los pasos de difusión directa de q y los pasos inversos predichos por pθ. La divergencia KL se emplea para medir la diferencia entre dos distribuciones de probabilidad, por ejemplo, entre la distribución de valores de pixeles en una imagen y la distribución de valores de pixeles en otra.
Específicamente, la función de pérdida para los modelos de difusión combina tres términos de pérdida: LT, Lt y L0.
- LT refleja la divergencia KL entre q y pθ(xT). En otras palabras, la diferencia entre el resultado final totalmente ruidoso del proceso directo q y el punto de partida del proceso inverso. Este término generalmente se puede ignorar, porque xT es gaussiano y q no tiene parámetros que se puedan aprender.
- Lt refleja la divergencia KL entre y a cada paso. En otras palabras, la precisión de cada una de las predicciones de eliminación de ruido de pθ durante la difusión inversa en comparación con cada paso de ruido correspondiente durante el proceso de difusión directa para la imagen original, x0.
- MedidasL0 . En otras palabras, L0 refleja la probabilidad logarítmica negativa de la predicción del modelo de la imagen x0 completamente eliminada de ruido. El gradiente de L0 es el término de coincidencia de puntaje descrito anteriormente en el artículo. El término de pérdida es negativo, por lo que minimizar la función de pérdida se convierte en el equivalente a maximizar la probabilidad de las predicciones del modelo.
Aunque su compleja derivación matemática está más allá del alcance de este artículo, el VLB se puede simplificar en última instancia hasta el error cuadrático medio (MSE) entre el ruido predicho por el modelo, y el verdadero ruido añadido en el proceso de avance, , en cada paso de tiempo. Esto explica por qué la salida del modelo es una predicción de ruido en cada paso, en lugar de la imagen sin ruido en sí.
Al calcular el gradiente de la función de pérdida durante la retropropagación y, a continuación, ajustar los pesos del modelo para minimizar la función de pérdida a través del descenso del gradiente, las predicciones del modelo en todo el conjunto de datos de entrenamiento serán más precisas.