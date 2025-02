Indépendamment des travaux de Sohl-Dickstein, Yang Software et Stefano Ermon ont développé un type de modèle à base d’énergie appelé réseau de scores conditionnels de bruit, présenté en 2019 dans leur article « Generative Modeling by Estimating Gradients of the Data Distribution ». Leur algorithme a modélisé le gradient (∇ x ) du logarithme ( l o g ) de la fonction de densité de probabilité p ( X ) . Le gradient de la fonction de densité de probabilité logarithmique, écrit ∇ X log p ( X ) , est appelé score de Stein, ou plus simplement, la « fonction de score ».

Contrairement aux fonctions de densité de probabilité conventionnelles, les fonctions de score ne nécessitent pas de constante de normalisation, car elles ne modélisent pas directement la densité de probabilité (et n’ont donc pas à normaliser la probabilité totale à 1). À l’inverse, elles sont entraînées par la correspondance des scores : les paramètres du modèle d’apprentissage, θ, qui donnent un modèle p θ (x) dont le score, en d’autres termes, son gradient, correspond à celui de la distribution de données q(x) des données d’entraînement.

Un autre avantage de ces modèles génératifs basés sur le score (SGM) est que, contrairement aux modèles basés sur des probabilités, ils n’imposent pas de nombreuses restrictions sur l’architecture du modèle de p θ (x).

En explorant les moyens d’améliorer les performances de leur modèle, Song et Ermon sont parvenus, par pure coïncidence, aux mêmes techniques que celles employées par Sohl-Dickstein et al. Selon leur article, « la perturbation des données avec un bruit gaussien aléatoire rend la distribution des données plus propice à la modélisation générative basée sur le score ». Leur modèle, conçu à l’aide de l’architecture U-Net initialement développée pour la segmentation d’image, applique également la dynamique de Langevin pour générer des échantillons.