Il est essentiel de connaître le fonctionnement des grands modèles de langage pour comprendre pourquoi ils peuvent parfois se tromper. Les LLM prédisent le mot suivant dans une phrase en se basant sur des schémas qu’ils ont appris à partir de grandes quantités de texte. Ils n’extraient pas les faits d’une base de données, mais font plutôt des suppositions informées. Cela peut mener à des réponses qui semblent exactes mais qui sont en réalité fausses, en particulier lorsque le sujet n’est pas clair, peu courant ou ne correspond pas à ce sur quoi le modèle a été entraîné.

Les hallucinations sont difficiles à éliminer, car il ne s’agit pas des bugs dans le système : il s’agit d’une caractéristique inhérente au fonctionnement de ces modèles probabilistes. Lorsqu’aucun schéma solide n’est disponible dans les données d’entraînement, ou lorsqu’un prompt est trop vague ou trop ouvert, le modèle peut inventer quelque chose qui semble plausible.

Une question plus hypothétique est aussi en jeu. Quand un modèle d’IA invente quelque chose, échoue-t-il ou crée-t-il ?

Comme le fait remarquer Ruchir Puri, à mesure que les modèles deviennent plus performants dans leur raisonnement, ils peuvent également présenter un comportement plus « créatif » frôlant l’hallucination. « On pourrait dire que la créativité implique une sorte d’hallucination, affirme-t-il. Vous imaginez l’inimaginable. Mais pour les applications d’entreprise, c’est un handicap, pas un point fort. »

Payel Das, chercheuse IBM, fait partie des personnes qui tentent de résoudre ce problème en repensant la manière dont les modèles traitent l’information. « C’est tout le paradoxe du progrès, explique-t-elle dans une interview accordée lors de l’IBM Think. Ces modèles gagnent en raisonnement, mais pas nécessairement en mémorisation. Ils peuvent résoudre des problèmes plus difficiles mais continuer à ne pas bien comprendre les bases. »

Son équipe chez IBM a développé Larimar, un système d’augmentation de la mémoire conçu pour donner aux modèles une forme de mémoire à court terme modifiable. L’idée est de permettre aux modèles de réviser ou d’oublier des faits en fonction des besoins, sans devoir réentraîner l’ensemble du système ; une flexibilité en temps réel dont les LLM actuels sont largement dépourvus.

« Les modèles d’aujourd’hui sont statiques et fragiles, confie la chercheuse. On ne peut pas leur apprendre quelque chose en pleine conversation ou mettre à jour leurs connaissances sans les former entièrement à nouveau. Larimar est une des étapes pour les rendre plus flexibles. »

D’autres approches basées sur la mémoire sont également prometteuses. MemReasoner, développé par les chercheurs de Microsoft, vise à aider les modèles à raisonner plus efficacement sur de longues séquences en sélectionnant et en reliant les informations pertinentes des premières parties d’une conversation. Le projet CAMELoT d’IBM est conçu pour aider les modèles à rester cohérents lorsqu’ils travaillent avec de grands volumes de texte ou des interactions étendues.

En dehors des laboratoires, des entreprises comme Vectara développent des outils pratiques pour lutter contre les hallucinations. Les « agents gardiens » de Vectara surveillent les résultats de l’IA en temps réel et réécrivent les erreurs avant qu’elles n’atteignent les utilisateurs. Selon Payel Das, bien qu’il n’y ait pas de correctif unique pour résoudre le problème, la combinaison des stratégies de mémorisation et de révision constitue un grand pas en avant.

« Nous n’éliminerons jamais toutes les erreurs, admet la chercheuse. Tout comme les gens font des erreurs. Mais nous pouvons créer des modèles plus capables d’apprendre, de s’adapter et de se corriger eux-mêmes. Et cela fait une énorme différence. »