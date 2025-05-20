Alors que les grands modèles de langage (LLM) s’améliorent avec les mots, ils sont parfois plus flous en ce qui concerne les faits.
Ces erreurs, appelées hallucinations, sont tout sauf inoffensives : elles soulignent un problème fondamental dans la manière dont les systèmes d’IA génèrent du langage. Au lieu d’extraire des faits d’une base de données, les modèles prédisent ce qui sonne bien en fonction des tendances observées dans leurs données d’entraînement. Ces suppositions peuvent conduire à de fausses citations, à des polices inventées et à de fausses affirmations présentées avec certitude. Les chercheurs travaillent actuellement sur de nouvelles façons de rendre ces systèmes plus fiables, en leur apprenant à répondre et à savoir quand faire une pause, réviser les données ou les oublier.
« Le vrai problème, c’est cette réponse non déterministe, explique Ruchir Puri, scientifique en chef IBM, dans une interview à l’occasion de l’IBM Think. Une même question, posée avec la même intention, peut donner lieu à des réponses différentes selon la façon dont elle est formulée. C’est très problématique si vous vous appuyez sur ces modèles pour mener un projet sérieux. »
Les derniers résultats de comparaison d’OpenAI mettent en lumière ce problème. Le modèle o3 aurait halluciné 33 % du temps sur PersonQA, un jeu de données qui teste l’exactitude des faits concernant des personnalités publiques. Le modèle o4-Mini, lui, a fait pire, inventant des informations dans près de 8 réponses sur 10 pour des prompts généralisés. Ce ne sont pas des systèmes confus, ils sont testés pour des tâches telles que la recherche juridique, les requêtes de soins de santé et l’aide à la décision exécutive.
Certains experts affirment que les données dépeignent une image incomplète et que les hallucinations n’augmentent pas de manière générale.
« Nous constatons de réels avantages, souligne Ja-Naé Duane, data scientist et co-autrice de SuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligence, lors d’une interview dans le cadre de l’IBM Think, ajoutant que Gemini 2.0 Flash produit désormais des hallucinations dans moins de 1 % des cas de test, contre 22 % en 2021. Oui, nous avons encore un long chemin à parcourir, mais nous allons assurément dans la bonne direction. »
Ja-Naé Duane insiste sur le fait que les hallucinations n’ont pas nécessairement empiré, mais qu’elles sont devenues plus visibles.
« Aujourd’hui, les enjeux sont plus élevés. Nous intégrons ces modèles aux workflows juridiques, aux cadres médicaux et aux outils d’entreprise. Une erreur qui passait autrefois inaperçue dans un chatbot est aujourd’hui une réelle menace. »
Alors que des systèmes ultramodernes tels que Gemini 2.0 Flash permettent de réduire considérablement le taux d’hallucinations, d’autres, en particulier les modèles conçus pour des raisonnements complexes, rencontrent toujours des difficultés. « Ces modèles axés sur le raisonnement sont de plus en plus utilisés pour résoudre des problèmes plus complexes, explique Ja-Naé Duane. Cela signifie qu’ils opèrent souvent plus près de ce qu’ils peuvent faire de manière fiable, augmentant le risque de générer des réponses qui semblent correctes, mais qui ne le sont pas. »
Cette dernière affirme que la résolution du problème ne se résume pas à une question de mise à l’échelle. « Il ne s’agit plus seulement de créer de plus grands modèles, précise-t-elle. Nous avons besoin d’architectures qui comprennent non seulement ce qu’il faut dire, mais aussi pourquoi c’est important et comment rester ancrées dans la vérité quand cela compte le plus. »
Pour la data scientist, les véritables progrès viendront de l’association de meilleurs modèles avec des systèmes conçus pour les soutenir, la mémoire, les validateurs et les agents travaillant de concert. « Nous entrons dans une phase où l’intelligence des modèles n’est qu’une pièce du puzzle. La gestion du contexte, l’apprentissage en temps réel et les outils adaptatifs seront tout aussi importants. »
Il est essentiel de connaître le fonctionnement des grands modèles de langage pour comprendre pourquoi ils peuvent parfois se tromper. Les LLM prédisent le mot suivant dans une phrase en se basant sur des schémas qu’ils ont appris à partir de grandes quantités de texte. Ils n’extraient pas les faits d’une base de données, mais font plutôt des suppositions informées. Cela peut mener à des réponses qui semblent exactes mais qui sont en réalité fausses, en particulier lorsque le sujet n’est pas clair, peu courant ou ne correspond pas à ce sur quoi le modèle a été entraîné.
Les hallucinations sont difficiles à éliminer, car il ne s’agit pas des bugs dans le système : il s’agit d’une caractéristique inhérente au fonctionnement de ces modèles probabilistes. Lorsqu’aucun schéma solide n’est disponible dans les données d’entraînement, ou lorsqu’un prompt est trop vague ou trop ouvert, le modèle peut inventer quelque chose qui semble plausible.
Une question plus hypothétique est aussi en jeu. Quand un modèle d’IA invente quelque chose, échoue-t-il ou crée-t-il ?
Comme le fait remarquer Ruchir Puri, à mesure que les modèles deviennent plus performants dans leur raisonnement, ils peuvent également présenter un comportement plus « créatif » frôlant l’hallucination. « On pourrait dire que la créativité implique une sorte d’hallucination, affirme-t-il. Vous imaginez l’inimaginable. Mais pour les applications d’entreprise, c’est un handicap, pas un point fort. »
Payel Das, chercheuse IBM, fait partie des personnes qui tentent de résoudre ce problème en repensant la manière dont les modèles traitent l’information. « C’est tout le paradoxe du progrès, explique-t-elle dans une interview accordée lors de l’IBM Think. Ces modèles gagnent en raisonnement, mais pas nécessairement en mémorisation. Ils peuvent résoudre des problèmes plus difficiles mais continuer à ne pas bien comprendre les bases. »
Son équipe chez IBM a développé Larimar, un système d’augmentation de la mémoire conçu pour donner aux modèles une forme de mémoire à court terme modifiable. L’idée est de permettre aux modèles de réviser ou d’oublier des faits en fonction des besoins, sans devoir réentraîner l’ensemble du système ; une flexibilité en temps réel dont les LLM actuels sont largement dépourvus.
« Les modèles d’aujourd’hui sont statiques et fragiles, confie la chercheuse. On ne peut pas leur apprendre quelque chose en pleine conversation ou mettre à jour leurs connaissances sans les former entièrement à nouveau. Larimar est une des étapes pour les rendre plus flexibles. »
D’autres approches basées sur la mémoire sont également prometteuses. MemReasoner, développé par les chercheurs de Microsoft, vise à aider les modèles à raisonner plus efficacement sur de longues séquences en sélectionnant et en reliant les informations pertinentes des premières parties d’une conversation. Le projet CAMELoT d’IBM est conçu pour aider les modèles à rester cohérents lorsqu’ils travaillent avec de grands volumes de texte ou des interactions étendues.
En dehors des laboratoires, des entreprises comme Vectara développent des outils pratiques pour lutter contre les hallucinations. Les « agents gardiens » de Vectara surveillent les résultats de l’IA en temps réel et réécrivent les erreurs avant qu’elles n’atteignent les utilisateurs. Selon Payel Das, bien qu’il n’y ait pas de correctif unique pour résoudre le problème, la combinaison des stratégies de mémorisation et de révision constitue un grand pas en avant.
« Nous n’éliminerons jamais toutes les erreurs, admet la chercheuse. Tout comme les gens font des erreurs. Mais nous pouvons créer des modèles plus capables d’apprendre, de s’adapter et de se corriger eux-mêmes. Et cela fait une énorme différence. »
