Modelos generativos basados en puntajes



Independientemente del trabajo de Sohl-Dickstein, Yang Song y Stefano Ermon desarrollaron un tipo de modelo basado en la energía (el enlace se encuentra fuera de ibm.com) llamado red de puntaje condicional de ruido en su artículo de 2019, “Generative Modeling by Estimating Gradients of the Data Distribution”. Su algoritmo modeló el gradiente (∇ x ) del logaritmo ( L o g ) de la función de densidad de probabilidad p ( X ) . El gradiente de la función de densidad de probabilidad logarítmica, escrito como ∇ X log p ( X ) , se llama la puntuación Stein o simplemente la “función de puntuación”.

A diferencia de las funciones de densidad de probabilidad convencionales, las funciones de puntaje no requieren una constante de normalización porque no modelan directamente la densidad de probabilidad (y, por lo tanto, no tienen que normalizar la probabilidad total a 1). En su lugar, se entrenan a través de la coincidencia de puntajes: parámetros del modelo de aprendizaje, θ, que produce un modelo p θ (x) cuya puntuación—en otras palabras, su gradiente—coincide con la de la distribución de datos q(x) de los datos de entrenamiento.

Otro beneficio de tales modelos generativos basados en la puntuación (SGMs) es que, a diferencia de los modelos basados en la probabilidad, no imponen muchas restricciones a la arquitectura del modelo de p θ (x).

Al explorar formas de mejorar el rendimiento de su modelo, Song y Ermon llegaron por casualidad a las mismas técnicas empleadas por Sohl-Dickstein y otros. Su artículo señaló que "perturbar los datos con ruido gaussiano aleatorio hace que la distribución de datos sea más susceptible al modelado generativo basado en puntajes". Su modelo, construido empleando la arquitectura U-Net desarrollada originalmente para la segmentación de imágenes, también aplicó la dinámica de Langevin para generar muestras.