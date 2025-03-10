Une nouvelle classe de modèles d’IA remet en question la domination des systèmes de type GPT, promettant des alternatives plus rapides, moins coûteuses et potentiellement plus puissantes.
Inception Labs, une start-up fondée par des chercheurs de Stanford, a récemment lancé Mercury, un modèle de langage basé sur la diffusion (dLLM) qui affine des phrases entières à la fois, plutôt que de prédire les mots un par un. Contrairement aux grands modèles de langage (LLM) traditionnels, qui utilisent une approche autorégressive (générant un mot à la fois, sur la base du texte précédent), les modèles de diffusion améliorent le texte de manière itérative, par affinement.
« Les dLLM repoussent les limites du possible », explique Stefano Ermon, professeur d’informatique à l’université de Stanford et cofondateur d’Inception Labs, à IBM Think. « Mercury offre une vitesse et une efficacité inégalées, et, en tirant parti d’une plus grande puissance de calcul pendant les tests, les dLLM établiront également la norme en matière de qualité et amélioreront la satisfaction globale des clients pour les applications de pointe et d’entreprise. »
Benjamin Hoover, ingénieur de recherche chez IBM, voit l’avenir se dessiner : « Dans deux ou trois ans, la plupart des gens commenceront à passer aux modèles de diffusion, dit-il. Quand j’ai vu le modèle d’Inception Labs, j’ai compris que cela allait arriver plus tôt que prévu. »
Les modèles de diffusion ne suivent pas les mêmes règles que l’IA traditionnelle. Les modèles autorégressifs comme GPT construisent des phrases mot par mot, en prédisant un token à la fois. Si un modèle génère la phrase « À qui de droit », il prédit « À », puis « qui », puis « de droit », et ainsi de suite, étape par étape. Les modèles de diffusion inversent le processus. Au lieu d’assembler le texte de manière séquentielle, ils commencent par une version approximative et bruyante d’un passage entier, puis l’affinent en plusieurs étapes. Imaginez un artiste qui esquisse un contour approximatif avant d’affiner les détails, plutôt que de dessiner chaque élément dans l’ordre. En considérant la phrase dans son ensemble, les modèles de diffusion peuvent générer des réponses plus rapidement, souvent avec plus de cohérence et de précision que les LLM traditionnels.
M. Hoover considère cette technologie comme une version moderne d’un concept plus ancien. « Les modèles de diffusion sont fondamentalement des mécanismes de correction d’erreurs, explique-t-il. Ils fonctionnent en commençant par une entrée bruyante, puis en supprimant progressivement le bruit jusqu’à obtenir la sortie souhaitée. »
Les modèles de diffusion ont été largement employés dans la génération d’images, avec des modèles tels que DALL·E, Stable Diffusion et Midjourney qui transforment des images bruitées en visuels de haute qualité. Cependant, l’application de cette approche au texte est plus complexe, car le langage exige un respect strict de la grammaire et de la syntaxe.
« De nombreuses tentatives d’application des modèles de diffusion à la génération de texte ont échoué par le passé, explique M. Ermon. Ce qui a permis à Mercury de réussir là où d’autres ont échoué, ce sont des innovations exclusives dans les algorithmes d’apprentissage et d’inférence. Contrairement aux images, qui peuvent être progressivement nettoyées pour obtenir des formes reconnaissables, le langage suit des règles grammaticales rigides qui rendent le raffinement itératif plus difficile. »
M. Hoover cite Mercury d’Inception Labs comme un excellent exemple de la manière dont les modèles de diffusion comblent l’écart. « Ce modèle a prouvé que la diffusion pouvait tenir la route et qu’elle était en fait plus rapide et plus efficace que les modèles autorégressifs comparables. »
L’efficacité des LLM basés sur la diffusion pourrait bouleverser le déploiement de l’IA, en particulier dans les applications d’entreprise où le coût et la vitesse sont importants. Les LLM traditionnels nécessitent une puissance de calcul considérable, ce qui rend leur fonctionnement coûteux. Les modèles de diffusion promettent d’offrir des performances similaires ou supérieures à un coût nettement inférieur. Les modèles de diffusion sont souvent plus efficaces car ils affinent des séquences entières en parallèle plutôt que de générer chaque mot étape par étape comme les LLM traditionnels, ce qui réduit la charge de calcul.
« Nos clients et les premiers utilisateurs développent des applications basées sur les dLLM dans des domaines tels que le support client, la vente et les jeux, explique M. Ermon. Ils rendent leurs applications plus réactives, plus intelligentes et moins coûteuses. »
M. Hoover envisage un impact encore plus large. « À l’heure actuelle, l’IA est limitée par sa consommation d’énergie, explique-t-il. Les grands modèles consomment énormément d’énergie. Cependant, les modèles de diffusion fonctionnent différemment, ce qui leur confère une efficacité bien supérieure. À long terme, nous pourrions voir des systèmes d’IA basés sur la diffusion fonctionner sur du matériel analogique, ce qui réduirait considérablement les coûts énergétiques. »
L’informatique analogique, qui traite les informations à l’aide de signaux électriques continus plutôt que d’opérations binaires, est depuis longtemps présentée comme une solution potentielle au problème énergétique de l’IA. M. Hoover estime que les modèles de diffusion sont particulièrement bien adaptés à cette approche.
« Ces modèles sont intrinsèquement interprétables, explique-t-il. Cela signifie que nous pouvons mapper leurs calculs internes directement sur des circuits analogiques, ce qui est beaucoup plus difficile à faire avec les architectures traditionnelles d’apprentissage profond. »
