10 octobre 2024
L’effondrement de modèle désigne la baisse de performance des modèles d’IA générative entraînés sur des contenus générés par l’IA.
En IA, comme en informatique, on dit souvent qu'un modèle d'intelligence artificielle (IA) ne vaut que les données sur lesquelles il a été formé. Récemment, les chercheurs ont découvert que les modèles génératifs entraînés uniquement sur la sortie de leurs prédécesseurs produisent des résultats de plus en plus inexacts. Ces modèles, atteints de « défauts irréversibles », finissent par devenir inutiles.1 Cela se produit parce que toute erreur présente dans la sortie d'un modèle lors de son apprentissage est ensuite incluse dans l'entraînement du modèle suivant. Le nouveau modèle produit alors également ses propres erreurs. L'effondrement du modèle progresse à mesure que les erreurs s'accumulent au fur et à mesure des générations successives.2
Ces erreurs résultent du fait que les modèles d'IA génératifs produisent des jeux de données dont la variabilité est inférieure à celle des distributions de données originales. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao et une équipe de chercheurs associés d'universités britanniques et canadiennes sont les auteurs d'un rapport largement cité sur l'effondrement des modèles. L'équipe de recherche, lors de ses expériences sur les modèles d'IA, a constaté que les modèles entraînés sur des données synthétiques, c'est-à-dire des données générées par l'IA, perdaient initialement les informations situées aux extrémités, ou valeurs extrêmes, de la véritable distribution des données – un phénomène qu'ils ont qualifié d'"effondrement précoce du modèle". Dans les itérations ultérieures du modèle, la distribution des données convergeait tellement qu'elle ne ressemblait plus du tout aux données d'origine – un phénomène que les chercheurs ont appelé "effondrement tardif du modèle".3
Dans des scénarios réels, l'effondrement du modèle peut se produire en raison des processus d'entraînement utilisés pour les grands modèles d'IA génératifs, comme les grands modèles de langage (LLM). Les LLM sont principalement entraînés sur des données humaines récupérées sur Internet. Cependant, à mesure que le contenu généré par l'IA se propage sur le Web, il est de plus en plus susceptible d'être utilisé pour entraîner les futurs modèles au lieu des données humaines, ce qui pourrait précipiter l'effondrement du modèle.
Le phénomène d'effondrement du modèle pose de sérieux problèmes pour le développement de l'IA, conduisant les chercheurs à proposer plusieurs solutions. Ces solutions incluent le suivi de la provenance des données, la préservation de l'accès aux sources de données originales et la combinaison des données générées par l'IA avec des données réelles pour entraîner les modèles IA.
Les modèles d'IA génératifs ont fait la une des journaux ces dernières années en raison de la création de sorties inexactes et absurdes, également appelées hallucinations. Par exemple, le chatbot Google Bard a fait une affirmation erronée à propos du télescope spatial James Webb, tandis que les images humaines générées par l'IA ont souvent tendance à posséder des doigts supplémentaires.
Si les erreurs et les hallucinations en sortie sont gênantes et parfois amusantes, les conséquences de l’effondrement d’un modèle peuvent être considérables :
Des sorties inexactes résultant de l'effondrement du modèle peuvent entraîner des conséquences coûteuses pour les entreprises qui utilisent l'IA dans la prise de décision. Des chatbots de service client aux outils de diagnostic médical assistés par IA, tout pourrait être impacté. Imaginez, par exemple, un modèle de diagnostic IA qui échoue à diagnostiquer correctement un patient atteint d'une maladie rare car la condition de faible probabilité a finalement été oubliée et éliminée des jeux de données d'entraînement des générations de modèles précédentes.
Dans le cas d'un effondrement du modèle, les modèles peuvent rejeter les points de données aberrants liés aux interactions et préférences humaines réelles. Par conséquent, les utilisateurs à la recherche de contenus moins populaires ou uniques pourraient rencontrer des résultats décevants du modèle.4 Prenons l'exemple d'un système de recommandation IA pour les acheteurs en ligne : si un consommateur craque pour des chaussures vert lime, mais que le système lui sert sans cesse des chaussures noires et blanches parce qu'elles se vendent comme des petits pains, il finira par chercher de l'aide ailleurs.
Si les systèmes d'IA largement utilisés subissent un effondrement du modèle et produisent perpétuellement des sorties plus étroites, les idées « à longue traîne » pourraient finir par disparaître de la conscience collective, limitant l'étendue des connaissances humaines et exacerbant les biais communs dans la société.5 Par exemple, les scientifiques peuvent aujourd'hui utiliser des outils de recherche alimentés par l'IA pour éclairer leurs recherches. Cependant, les outils affectés par l'effondrement du modèle pourraient ne fournir que des études largement citées pour leur examen, privant potentiellement les utilisateurs d'informations clés qui pourraient conduire à d'importantes découvertes.
L’impact de l’effondrement varie selon les modèles d’IA générative.
Dans les LLM, l'effondrement du modèle peut se manifester par des sorties de texte de plus en plus hors sujet, dénuées de sens et répétitives. Dans une expérience, les chercheurs ont affiné OPT-125M, un modèle de langage de grande taille open source publié par Meta. Les générations successives du modèle ont été entraînées sur les données produites par leurs prédécesseurs. Après une entrée initiale en anglais sur l'architecture, une génération du modèle a fini par délirer sur les lièvres aux queues multicolores.6
L’effondrement du modèle est particulièrement visible dans les modèles générateurs d’images, car la qualité, la diversité et la précision de la sortie des images diminuent. Une expérience a utilisé un jeu de données de nombres distincts écrits à la main pour entraîner un autoencodeur variationnel (VAE). Après plusieurs cycles d’entraînement itératifs, les générations ultérieures du modèle ont produit des résultats dans lesquels de nombreux chiffres se ressemblaient.7 Une autre étude qui incluait un modèle de réseau antagoniste génératif (GAN) entraîné sur diverses images de visages a révélé que le modèle produisait finalement des visages plus homogènes.8
Les modèles de mélange gaussien peuvent organiser les données en clusters, mais les chercheurs ont constaté que l’un de ces modèles chargé de séparer les données en deux clusters affichait des résultats nettement inférieurs après quelques dizaines d’itérations. La perception qu’avait le modèle de la distribution des données sous-jacentes a changé au fil du temps et, lors de la 2 000e itération, sa sortie affichait très peu de variance.9
L’effondrement de modèle est l’un des multiples phénomènes de dégradation observés dans le machine learning. Parmi les autres risques, citons l’oubli catastrophique, l’effondrement de mode, la dérive du modèle et la prévision performative. Chacun d’entre eux présente des similitudes avec l’effondrement de modèle, mais s’en distingue.
L'oubli catastrophique comme l'effondrement du modèle impliquent une perte d'information par les systèmes d'IA. Néanmoins, l'oubli catastrophique se distingue de l'effondrement du modèle. L'oubli catastrophique se produit lorsqu'un modèle unique apprend de nouvelles informations et « oublie » les informations précédentes, ce qui entraîne une dégradation des performances lorsque ce modèle est appliqué à une tâche nécessitant l'utilisation des anciennes informations. L'effondrement du modèle est différent car il implique un déclin des performances au fil des générations successives de modèles, plutôt qu'une perte de données et une détérioration des performances du modèle.10
Bien que son nom soit proche de celui de l’effondrement de modèle, l’effondrement de mode est un phénomène spécifique aux modèles GAN. Ces modèles sont constitués de deux parties différentes (un générateur et un discriminateur) qui permettent de produire des données synthétiques statistiquement similaires aux données réelles. Le générateur est chargé de créer les données, tandis que le discriminateur sert de contrôle continu du processus en identifiant les données qui semblent non authentiques. L’effondrement de mode se produit lorsque la sortie du générateur manque de variance et que ce défaut n’est pas détecté par le discriminateur, ce qui entraîne une dégradation des performances.
La dérive du modèle désigne la dégradation de la performance d’un modèle de machine learning en raison d’un changement des données et des relations entre les variables d’entrée et de sortie. Les modèles construits avec des données historiques peuvent devenir moins performants. Si l'entraînement d'un modèle IA, basé sur de vieilles données d'entraînement, ne s’aligne pas sur les données entrantes, il ne peut pas les interpréter avec précision ou utiliser ces données entrantes pour établir des prédictions précises. L'effondrement du modèle est différent car il implique l'entraînement de modèles sur de nouvelles données, générées par l'IA, dans des cycles itératifs.
Les chercheurs ont comparé l’effondrement d’un modèle dans les modèles d’IA générative à la prédiction performative dans les modèles d’apprentissage supervisé, car les deux impliquent la pollution des ensembles d’entraînement par les entrées précédentes des modèles de machine learning. On parle de prédiction performative lorsque la sortie d’un modèle d’apprentissage supervisé influence les résultats du monde réel d’une manière conforme à la prédiction du modèle. Cela, à son tour, influence les futures sorties du modèle, donnant lieu à une « prophétie autoréalisatrice ». La prédiction performative est également connue sous le nom de boucle de rétroaction d’équité lorsque ce processus renforce la discrimination.11 Par exemple, un modèle de décision de prêt immobilier alimenté par l’IA, entraîné sur des données de l’époque du redlining discriminatoire aux États-Unis, peut encourager les prêteurs à reproduire par inadvertance une telle discrimination aujourd’hui.
Plusieurs stratégies permettent aux développeurs d’IA et aux entreprises de prévenir l’effondrement de modèle. En voici quelques exemples :
Des sources de données originales de haute qualité peuvent offrir une variance importante qui pourrait manquer dans certaines données générées par l'IA. S'assurer que les modèles IA sont toujours entraînés sur de telles données générées par l'homme peut garantir la capacité des systèmes d'IA à bien performer lorsqu'ils sont chargés de prendre en compte des événements à faible probabilité, tels qu'un consommateur préférant un produit inhabituel ou un scientifique tirant profit des informations d'une étude rarement citée. Dans de telles circonstances, une sortie résultante peut ne pas être courante ou populaire, mais elle n'en reste pas moins la plus précise.
Il peut être difficile de faire la distinction entre les données générées par le modèle et les données générées par l'homme dans les écosystèmes d'information, mais la coordination entre les développeurs de LLM et les chercheurs en IA pourrait aider à garantir l'accès aux informations sur la provenance des données. Un tel effort coordonné existe grâce à The Data Provenance Initiative, un collectif de chercheurs en IA du MIT et d'autres universités qui a procédé à l'audit de plus de 4 000 jeux de données.12
Selon une étude, les développeurs d'IA peuvent éviter la dégradation des performances en entraînant les modèles IA avec des données réelles et avec plusieurs générations de données synthétiques. Cette accumulation est contraire à la pratique consistant à remplacer entièrement les données originales par des données générées par l'IA.13
Alors que les développeurs d'IA explorent l'accumulation de données, ils pourraient également bénéficier d'améliorations de la qualité des données synthétiques produites spécifiquement pour entraîner les modèles de machine learning. Les progrès des algorithmes de génération de données peuvent permettre d'améliorer la fiabilité des données synthétiques et d'augmenter leur fonctionnalité. Dans le domaine de la santé, par exemple, les données synthétiques peuvent même être utilisées pour fournir une gamme plus large de scénarios pour l'entraînement des modèles, ce qui conduit à de meilleures capacités de diagnostic.
Les outils de gouvernance de l’IA peuvent aider les développeurs d’IA et les entreprises à atténuer le risque de dégradation des performances de l’IA en mettant en place une surveillance et un contrôle des systèmes d’IA. Ces outils peuvent inclure des systèmes de détection automatique des biais, des dérives, des performances et des anomalies, ce qui permet de détecter l’effondrement d’un modèle avant qu’il n’affecte les résultats de l’entreprise.
Les liens sont externes à ibm.com.
1, 3, 6, 7 «The Curse of Recursion : Training on Generated Data Makes Models Forget », arXiv.org. 14 avril 2024.
2 «The Internet Isn’t Completely Weird Yet ; AI Can Fix That », IEEE Spectrum, 23 juin 2023.
4, 5 “AI and the Problem of Knowledge Collapse.” arXiv.org. 22 avril 2024.
8 « Breaking MAD: Generative AI could rupture the Internet. » Relations presse et médias de l'Université Rice. 30 juillet 2024.
9, 10 « Supplementary Information: AI models collapse when trained on recursively generated data », Nature Portfolio, consulté le 22 septembre 2024.
11 « Fairness Feedback Loops : Training on Synthetic Data Amplifies Bias », ACM Conference on Fairness, Accountability, and Transparency, consulté le 30 septembre 2024.
12 «About », Data Provenance Initiative, consulté le 23 septembre 2024.
13 « Is Model Collapse Inevitable ? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data », arXiv.org, 29 avril 2024.
Découvrez l’impact du règlement européen sur l’IA pour les entreprises, comment vous préparer, limiter les risques et concilier réglementation et innovation.
Apprenez-en plus sur les nouveaux défis de l’IA générative, la nécessité de gouverner les modèles d’IA et de ML et les étapes à suivre pour créer un cadre des exigences fiable, transparent et explicable.
Découvrez comment favoriser des pratiques éthiques et conformes grâce à un portefeuille de produits d’IA dédiés aux modèles d’IA générative.
Avec watsonx.governance, apprenez à mieux comprendre comment assurer l’équité, gérer les dérives, maintenir la qualité et améliorer l’explicabilité.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Gouvernez les modèles d’IA générative où que vous soyez et déployez-les dans le cloud ou sur site avec IBM watsonx.governance.
Préparez-vous à la loi européenne sur l’IA et adoptez une approche responsable de la gouvernance de l’IA avec IBM Consulting.
Simplifiez la gestion des risques et de la conformité aux réglementations grâce à une plateforme GRC unifiée.