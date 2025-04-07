Le modèle d'IA Claude d'Anthropic ne se contente pas d'écrire de la poésie, il anticipe pour créer des rimes. Il ne se contente pas de répondre à des questions, il évalue le sens dans différentes langues, élabore des concepts internes et parfois simule sa logique pour être en accord avec un utilisateur. Et pour la première fois, les chercheurs observent ces processus se dérouler en temps réel.
Dans une nouvelle étude, les chercheurs d'Anthropic ont analysé en profondeur le modèle linguistique Claude à l'aide d'un ensemble novateur d'outils d'interprétabilité, c'est-à-dire des outils qui permettent d'expliquer comment et pourquoi les modèles d'IA prennent leurs décisions. Leurs résultats révèlent un système qui traite des tâches de raisonnement complexes d'une manière qui ressemble à la cognition humaine, avec une planification interne, une abstraction conceptuelle et des biais cognitifs occasionnels. Ces découvertes, qui repoussent les limites de la transparence dans le développement de l'IA, trouvent déjà un écho auprès des équipes d'IBM, où des chercheurs mènent des travaux d'interprétabilité sur les modèles d'IBM. Pour les deux entreprises, ces avancées sont plus que des curiosités scientifiques : elles constituent une étape cruciale vers la création de modèles compréhensibles, fiables et perfectibles.
« Ce que fait Anthropic est fascinant », déclare Kaoutar El Maghraoui, chercheur principal chez IBM, lors d'un entretien avec IBM Think. « Ils commencent à démontrer que les modèles développent des structures de raisonnement internes qui ressemblent beaucoup à la mémoire associative. Nous avons observé un comportement similaire dans nos propres modèles. »
Anthropic décrit son approche comme la construction d'un « microscope IA », une métaphore empruntée aux neurosciences. Au lieu d'étudier les neurones, les chercheurs suivent les schémas d'activation au sein d'un modèle de transformation, un type d'architecture de réseau neuronal utilisé dans les grands modèles linguistiques (LLM), en isolant les voies clés, ou « circuits », qui s'activent lorsque Claude répond à des requêtes spécifiques.
Dans un article, ces techniques sont appliquées à 10 études de cas comportementales, explorant la manière dont Claude traite la poésie, le calcul mental, la traduction multilingue et même les invites de jailbreak adverses conçues pour générer du contenu préjudiciable.
L'une des découvertes les plus fascinantes des chercheurs a été la capacité de Claude à évoluer dans un espace conceptuel qui transcendait les langues spécifiques. Lorsqu'ils lui ont demandé le contraire d'un mot comme « petit » en anglais, en français et en chinois, par exemple, ils ont constaté que Claude activait les mêmes caractéristiques internes, démontrant ce que les chercheurs décrivent comme une sorte de « langage de la pensée » commun.
« C’est plus que de la traduction », déclare M. El Maghraoui. « Il y a un espace abstrait partagé où se trouvent les significations. Nous observons des schémas similaires dans nos modèles, où les concepts sont transférés d'une langue à l'autre. Cela nous fournit des informations importantes sur la manière dont ces systèmes se généralisent. »
Les chercheurs ont constaté que la capacité à travailler dans plusieurs langues augmente avec la taille du modèle, ce qui suggère que l'universalité conceptuelle pourrait être une propriété émergente de l'échelle.
Alors que les LLM sont formés pour prédire le mot suivant dans une séquence, Claude semble anticiper. Dans une étude sur la génération de poésie, des chercheurs ont découvert que Claude choisissait souvent à l'avance des mots qui riment, puis composait le reste de la phrase pour étayer la fin prévue.
Par exemple, lors de la composition d'une deuxième ligne pour rimer avec le mot « grab it », l'activité interne de Claude a montré une préactivation de la rime « rabbit » avant qu'il ne commence à générer le reste de la ligne. Les chercheurs ont ensuite manié l'état interne du modèle, en supprimant le concept « rabbit » ou en insérant de nouveaux concepts, comme « green », afin d'orienter le résultat.
« Ce type de planification ne correspond pas à ce que nous avions prévu », indique un chercheur dans l'article. « Cela suggère que le modèle fonctionne sur un horizon plus long que ne le laisse supposer son objectif de formation. »
Selon M. Maghraoui, cela reflète ce qu’IBM a observé. « Le modèle ne se contente pas de prédire le prochain jeton, il définit une cible et s'efforce de l'atteindre. Il s'agit d'un raisonnement très similaire à celui des humains. »
Ces résultats remettent en question l’hypothèse selon laquelle les modèles génèrent du texte un seul mot à la fois, sans sensibilisation plus large. Claude semble jongler avec de multiples chemins futurs, en choisissant ceux qui optimisent la cohérence, le rythme ou l’intention de l’utilisateur.
Les outils d'interprétabilité permettent également aux chercheurs d'observer quand Claude bluffe réellement. Dans une étude de cas, des chercheurs ont demandé à Claude de résoudre un problème mathématique difficile, mais ont fourni au modèle un indicateur incorrect. Au lieu de rejeter une hypothèse erronée, le modèle a fourni une explication convaincante, étape par étape, qui justifiait le résultat incorrect.
Lorsque les chercheurs ont retracé l’activité interne de Claude, ils ont constaté qu’aucun calcul réel n’avait eu lieu. La chaîne de pensée a été inventée après coup. Une explication plausible a été repensée pour correspondre à l'indice fourni.
« C’est une sorte de raisonnement motivé », déclare M. El Maghraoui. « Le modèle se veut utile et finit par être en accord avec l'utilisateur même quand il ne le devrait pas. C’est quelque chose que nous surveillons de près. »
Ce comportement soulève des questions sur la fiabilité des modèles transparents. Si un modèle s'explique de manière convaincante, mais que l'explication ne reflète pas son processus de raisonnement réel, comment pouvons-nous lui faire confiance ?
« L’interprétabilité nous aide à détecter ces cas », explique M. El Maghraoui. « Il est essentiel de comprendre non seulement les résultats fournis par le modèle, mais également la manière dont il parvient à ces résultats, en particulier dans des domaines tels que la science ou la médecine. »
L'examen en profondeur de Claude permet également de révéler des informations sur la façon dont il gère les hallucinations et les attaques adverses. Dans un cas, les chercheurs ont découvert que Claude avait pour tendance par défaut de refuser de répondre aux questions qui ne lui étaient pas familières. Cependant, lorsque certains circuits « d'entités connues » étaient activés, ce mécanisme de refus était contourné, parfois de manière incorrecte.
Par exemple, lorsque les chercheurs ont posé des questions sur une personne nommée Michael Batkin (un personnage fictif), Claude a d'abord refusé de répondre. Cependant, lorsqu'ils ont émis des signaux subtils suggérant une certaine familiarité, le modèle a commencé à imaginer des détails plausibles mais faux, comme s'il croyait savoir qui était Batkin.
Dans un autre cas, les chercheurs ont incité Claude à fournir des instructions pour la fabrication d'une bombe après avoir épelé l'acronyme « BOMB » à l'aide d'une invite soigneusement élaborée. Le modèle a finalement refusé de terminer l'instruction, mais les chercheurs ont constaté que les fonctionnalités internes favorisant la cohérence grammaticale et sémantique avaient momentanément pris le pas sur ses mesures de sécurité par défaut.
« On ne peut percevoir qu'une partie de la réalité depuis l'extérieur », explique Mme El Maghraoui. « Ce que fait Anthropic, à savoir examiner les mécanismes internes, complète notre travail. Cela nous aide à voir non seulement ce que fait le modèle, mais aussi comment il pense. »
Chez IBM, ces informations sont intégrées dans la recherche en cours sur les LLM destinés à être utilisés par les entreprises, où les hallucinations, les raisonnements erronés ou les explications infidèles peuvent avoir de graves conséquences. Les chercheurs d'IBM travaillent sur des techniques telles que la quantification de l'incertitude (méthodes utilisées pour estimer la fiabilité des prédictions d'un modèle) et étudient comment les différentes parties d'un modèle contribuent aux résultats.
« L’interprétabilité nous aide à comprendre le “pourquoi” derrière la décision d’un modèle », explique Mme El Maghraoui. « C’est essentiel lorsqu’il s’agit de données d’entreprise ou de découverte scientifique. Vous devez savoir s’il comprend vraiment une tâche ou s'il se contente de reconnaître des modèles. »
Elle cite les travaux d'IBM sur les structures de mémoire associative, tels que les réseaux de Hopfield, un type de réseau neuronal récurrent qui imite la manière dont le cerveau stocke et récupère des modèles, comme exemple de la manière dont les développeurs s'efforcent de créer des modèles qui reflètent mieux le raisonnement humain.
« Ces architectures sont inspirées par notre façon de penser », dit-elle. « Et lorsque nous pouvons examiner de près et retracer ces chemins, nous pouvons nous rapprocher de la compréhension du fonctionnement du modèle. »
Les recherches d'Anthropic sur l'interprétabilité fournissent des informations supplémentaires sur les processus de réflexion internes de Claude AI grâce à un examen détaillé de ses calculs. Emanuel Ameisen, ingénieur de recherche chez Anthropic, explique à IBM Think qu'il est difficile de comprendre les modèles IA comme Claude, car ils se développent de manière organique grâce à l'entraînement, plutôt que d'être conçus de manière explicite.
« Ces modèles ne sont pas seulement construits, ils évoluent surtout », explique M. Ameisen. « Ils arrivent comme un amalgame d’opérations mathématiques. Nous les décrivons souvent comme une boîte noire, mais il serait plus juste de dire que cette boîte est confuse plutôt que véritablement fermée. »
À l'aide du microscope IA, les chercheurs examinent systématiquement les fonctions internes de Claude. « Nous identifions des représentations internes spécifiques, telles que les concepts de nombres, d'addition ou de schémas de rimes », explique M. Ameisen. « Par exemple, Claude dispose de composants internes dédiés qui gèrent la structure des rimes dans la poésie. »
M. Ameisen souligne que Claude utilise souvent des stratégies internes non conventionnelles pour effectuer des calculs ou du raisonnement. Par exemple, Claude peut résoudre un problème mathématique à l’aide de sa propre méthode interne, tout en fournissant des explications qui reflètent les instructions des manuels.
« Claude pourrait calculer 36 plus 59 à l'aide d'une méthode interne inhabituelle, mais décrire le processus en utilisant la méthode classique apprise à partir des données d'entraînement », explique M. Ameisen. « Ce décalage s'explique par le fait que Claude développe de manière indépendante des méthodes qui diffèrent des instructions explicites rencontrées pendant son entraînement. »
Malgré ces découvertes, M. Ameisen reconnaît qu'il subsiste d'importantes inconnues concernant le fonctionnement interne de Claude. « Il y a encore beaucoup de choses que nous ne pouvons pas voir », admet-il. « Nous rencontrons régulièrement des représentations internes trop abstraites ou trop subtiles pour être interprétées immédiatement. »
À l’avenir, Anthropic a l’intention d’améliorer ses méthodes d’interprétabilité pour adresser des scénarios plus complexes. Les outils actuels fonctionnent mieux avec des tâches plus simples, mais les chercheurs cherchent à adapter leurs approches à des applications pratiques et sophistiquées.
« La plupart des applications pratiques de Claude impliquent l’analyse de documents volumineux ou la réécriture de code complexe », explique M. Ameisen. « Nous voulons que nos outils d’interprétabilité éclairent ces processus sophistiqués, approfondissant considérablement notre compréhension de la façon dont Claude gère les tâches exigeantes. »
Ce qui émerge du travail d’Anthropic est une nouvelle vision du développement de l’IA, qui implique non seulement la création de modèles plus grands, mais aussi la compréhension de la façon dont ces modèles traitent le monde. Le domaine de l’interprétabilité passe du débogage après coup à un examen plus proactif de la logique interne d’un modèle.
Selon Mme El Maghraoui, cette évolution est à la fois passionnante et nécessaire.
« Nous avons passé des années à nous concentrer sur la qualité et la sécurité des résultats », explique-t-elle. Mais maintenant, à mesure que ces modèles gagnent en puissance, nous devons comprendre leur logique interne. C’est ainsi que nous améliorons la généralisation, réduisons les biais et construisons des systèmes qui fonctionnent, peu importe le domaine. »
Le travail d’interprétabilité est très laborieux. Même les prompts les plus courts peuvent prendre des heures pour être tracés et visualisés. Cependant, selon les chercheurs, les avantages pourraient être considérables : un meilleur raisonnement, moins d'erreurs et une meilleure adéquation entre le comportement de l'IA et les attentes humaines.
« L’interprétabilité n’est pas seulement une curiosité de recherche », explique Mme El Maghraoui. « C’est une fenêtre sur l’avenir de la façon dont nous construisons, faisons confiance et collaborons avec l’IA. »
