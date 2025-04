En IA, comme en informatique, on dit souvent qu'un modèle d'intelligence artificielle (IA) ne vaut que les données sur lesquelles il a été formé. Récemment, les chercheurs ont découvert que les modèles génératifs entraînés uniquement sur la sortie de leurs prédécesseurs produisent des résultats de plus en plus inexacts. Ces modèles, atteints de « défauts irréversibles », finissent par devenir inutiles.1 Cela se produit parce que toute erreur présente dans la sortie d'un modèle lors de son apprentissage est ensuite incluse dans l'entraînement du modèle suivant. Le nouveau modèle produit alors également ses propres erreurs. L'effondrement du modèle progresse à mesure que les erreurs s'accumulent au fur et à mesure des générations successives.2

Ces erreurs résultent du fait que les modèles d'IA génératifs produisent des jeux de données dont la variabilité est inférieure à celle des distributions de données originales. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao et une équipe de chercheurs associés d'universités britanniques et canadiennes sont les auteurs d'un rapport largement cité sur l'effondrement des modèles. L'équipe de recherche, lors de ses expériences sur les modèles d'IA, a constaté que les modèles entraînés sur des données synthétiques, c'est-à-dire des données générées par l'IA, perdaient initialement les informations situées aux extrémités, ou valeurs extrêmes, de la véritable distribution des données – un phénomène qu'ils ont qualifié d'"effondrement précoce du modèle". Dans les itérations ultérieures du modèle, la distribution des données convergeait tellement qu'elle ne ressemblait plus du tout aux données d'origine – un phénomène que les chercheurs ont appelé "effondrement tardif du modèle".3

Dans des scénarios réels, l'effondrement du modèle peut se produire en raison des processus d'entraînement utilisés pour les grands modèles d'IA génératifs, comme les grands modèles de langage (LLM). Les LLM sont principalement entraînés sur des données humaines récupérées sur Internet. Cependant, à mesure que le contenu généré par l'IA se propage sur le Web, il est de plus en plus susceptible d'être utilisé pour entraîner les futurs modèles au lieu des données humaines, ce qui pourrait précipiter l'effondrement du modèle.

Le phénomène d'effondrement du modèle pose de sérieux problèmes pour le développement de l'IA, conduisant les chercheurs à proposer plusieurs solutions. Ces solutions incluent le suivi de la provenance des données, la préservation de l'accès aux sources de données originales et la combinaison des données générées par l'IA avec des données réelles pour entraîner les modèles IA.