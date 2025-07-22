Si les machines peuvent apprendre comment nous raisonnons, elles pourront aussi nous aider à comprendre pourquoi nous le faisons.
Centaur est un nouveau modèle d’intelligence artificielle conçu pour imiter le raisonnement humain. Développé sur Llama 3.1 de Meta et formé sur plus de 10 millions de décisions issues de 160 études en psychologie, il aborde des problèmes logiques, des dilemmes moraux et des choix quotidiens pour découvrir les schémas derrière la pensée humaine. Les chercheurs le considèrent comme un outil de découverte, qui se comporte suffisamment comme une personne pour faire ressortir des informations qui pourraient échapper aux modèles traditionnels.
« Je suis enthousiaste à l’idée d’utiliser ce modèle pour en apprendre davantage sur l’esprit humain », déclare Marcel Binz, responsable adjoint de l’Institut pour l’IA centrée sur l’humain à Helmholtz Munich et auteur principal de l’étude décrivant Centaur, lors d’un entretien avec IBM Think.
La plupart des modèles cognitifs réduisent les expériences à des chiffres bruts. Centaur fait le contraire. Il lit chaque tâche dans son intégralité, avec des instructions en langage naturel et chaque étape de la réponse humaine. Le modèle a été entraîné sur un jeu de données appelé Psych 101, une collection de problèmes psychologiques classiques allant des puzzles visuels et des tests de mémoire aux dilemmes moraux et aux jeux de langage. En voyant les mêmes informations qu'une personne, Centaur apprend à suivre la tâche comme un humain.
Cette approche a permis une généralisation bien au-delà des données de formation. Lorsque les chercheurs ont reformulé un problème standard d'apprentissage par renforcement, en remplaçant les astronautes par des tapis volants, Centaur a continué à présenter les mêmes tendances comportementales. Il s’en est également montré performant sur des types de tâches entièrement nouveaux, comme les puzzles logiques de type LSAT.
L’utilisation d’un langage, plutôt que de descriptions numériques compressées, était délibérée. « Nous voulions que le mannequin voie ce que les participants voyaient », a expliqué M. Binz. « Instructions complètes, contexte complet. Pas de raccourcis. »
Centaur n'est pas conçu pour expliquer le fonctionnement du cerveau. Il s’agit plutôt de reproduire ce que les gens font dans les études comportementales. Ce pouvoir prédictif a des implications immédiates pour les chercheurs, qui s’appuient souvent sur des modèles étroits et construits à la main pour chaque type de fonction cognitive.
Russell Poldrack, professeur de psychologie à l'université de Stanford, qui n'a pas participé au projet, considère que Centaur s'inscrit dans le cadre d'une évolution plus large dans ce domaine.
« Historiquement, nous avons donné aux modèles des versions très réduites des tâches », a-t-il déclaré lors d'un entretien avec IBM Think. « Maintenant, on peut leur donner ce qu’on donnerait à une personne et voir un comportement qui reflète ce qu’une personne ferait. »
La différence ne réside pas seulement dans l'échelle, mais aussi dans l'intention. La plupart des modèles cognitifs sont construits pour expliquer un comportement spécifique. Centaur est conçu pour observer et reproduire des comportements dans différents domaines, tels que le raisonnement visuel et les tâches de mémoire. Cela ouvre la possibilité de découvrir de nouveaux modèles que les chercheurs pourraient ignorer autrement.
Dans un exemple tiré de l'étude, l'équipe a examiné la manière dont les utilisateurs choisissent entre des produits évalués par plusieurs experts. Le comportement de Centaur révélait une stratégie en deux étapes : les gens semblaient d’abord compter le nombre de notes positives, et n’utilisaient que la crédibilité des experts comme critère d’égalité. Cette informations a donné naissance à un nouveau modèle interprétable de prise de décision humaine, que Centaur a réussi à égaler après l'avoir affiné.
« Nous n'essayons pas de remplacer les modèles cognitifs », explique Binz. « Nous voulons donner aux chercheurs de meilleurs outils pour découvrir ce que les gens peuvent faire. »
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Malgré son ampleur, Centaur a des limites bien définies. Il ne simule pas la synchronisation, la dynamique de l'attention ou l'interaction physique. Elle ne peut pas expliquer le temps de réaction d'une personne, ni l'évolution du comportement dans un contexte social, ni l'évolution des décisions dans le temps.
Ces limites peuvent s’avérer utiles. Là où Centaur échoue, les chercheurs peuvent trouver des indices sur les aspects de la cognition qui ne sont pas faciles à apprendre uniquement par le langage.
C'est exactement par là que Poldrack commencerait. « J'aimerais trouver les endroits où ça casse », a-t-il dit. « Qu'est-ce qu'il manque ? Quels sont les écarts par rapport à ce que font les gens, et pourquoi ? »
L'architecture de Centaur, un type de transformateur, n'est pas conçue pour modéliser des dynamiques cognitives complexes. La récurrence, les modules de mémoire ou l’entraînement multimodal peuvent être nécessaires pour se rapprocher de ces capacités. Mais même maintenant, sa capacité à produire un comportement humain dans un large éventail de tâches est inhabituelle.
Certains chercheurs se sont demandé si les grands modèles de langage (LLM) étaient réellement capables de raisonner ou s'ils ne faisaient que répéter ce qu'ils avaient vu au cours de leur formation. Binz choisit ses mots avec soin lorsqu'il décrit Centaur. « Il ne s’agit pas de simuler le fonctionnement du cerveau humain », précise-t-il. « Mais il ne s’agit pas non plus de copier. Il s’agit de faire quelque chose qui se généralise. »
Certains chercheurs se sont demandé si les grands modèles de langage (LLM) raisonnaient réellement ou s'ils ne faisaient que répéter les schémas rencontrés lors de la formation. Binz choisit ses mots avec soin lorsqu'il décrit Centaur. « Il ne s’agit pas de simuler le fonctionnement du cerveau humain », précise-t-il. « Mais il ne s’agit pas non plus de copier. Il s’agit de faire quelque chose qui se généralise. »
M. Poldrack a fait remarquer que ce débat n'est pas nouveau. La question de savoir si les modèles de langage pensent réellement ou s'ils imitent simplement des modèles statistiques dans le langage a été au centre de la critique de l'IA, souvent appelée le problème du « perroquet stochastique ».
« Lorsque les gens ont commencé à critiquer les perrots stochastiques sur les grands modèles de langage, ma première réponse a été qu’il est assez clair que les humains sont, pour la première fois, des perrots stochastiques », explique-t-il.
Il a évoqué la théorie de l’exemple, un concept issu de la psychologie qui soutient que les gens s’appuient souvent sur des souvenirs spécifiques plutôt que sur des règles abstraites pour prendre des décisions.
« Quand je vois un chien, je ne change pas ce qu’est un chien », a-t-il dit. « Je l’associe à quelque chose que j’ai déjà vu. C'est rapide et ça marche. »
M. Poldrack a suggéré que Centaur pourrait s’appuyer sur les expériences passées, en les combinant de manière inédite et en générant des prédictions. Mais la question de savoir si ce processus équivaut à une réflexion reste ouverte, a-t-il ajouté.
L'une des raisons pour lesquelles des modèles tels que Centaur sont aujourd'hui possibles est que les données ont enfin rattrapé les questions. Pendant des décennies, la psychologie a fonctionné dans ce que Poldrack décrivait comme un « régime limité par les données », avec des expériences impliquant 30 ou 40 participants, analysées manuellement.
Psych-101 change ceci. Le jeu de données rassemble des dizaines de millions de décisions tirées de décennies de recherche en psychologie, toutes réécrites dans un format cohérent en langage naturel. Il comprend des descriptions de tâches complètes, des instructions et des séquences de réponses humaines dans un large éventail d'expériences. C’est sur ces bases que Centaur a été formé. Au lieu d'apprendre à partir d'entrées et de sorties isolées, le modèle est exposé au contexte complet de chaque tâche. Cela lui permet d'aborder les problèmes d'une manière plus humaine, en suivant la structure et le déroulement de chaque expérience.
Selon M. Poldrack, cette échelle ne permet pas d'obtenir des explications approfondies, mais elle ouvre de nouvelles portes à l'exploration.
« Nous n’avions jamais eu accès à ce type de système de données auparavant », a-t-il déclaré. « Nous pouvons maintenant entraîner des modèles qui reflètent le comportement dans toutes les tâches, et pas seulement en leur sein. »
M. Binz a indiqué que l'équipe prévoyait d'étendre le cours Psych-101 dans les mois à venir afin d'y inclure la psycholinguistique, les études sur le développement et les tâches interculturelles. L’objectif est de faire plus que correspondre au comportement moyen. Les chercheurs souhaitent comprendre comment les individus diffèrent selon leur âge, leur personnalité ou leur origine, et comment ces différences influencent leur façon de réagir.
« À terme, nous voulons construire des modèles capables de raisonner sur la cognition elle-même », a-t-il déclaré.
Centaure ne prétend pas être un cerveau. Mais c’est peut-être quelque chose d’autre qui manque à la science cognitive : un modèle comportemental à usage général, entraîné à l’échelle, qui se comporte de manière suffisamment similaire à une personne pour nous aider à comprendre où nos théories réussissent et où elles ne réussissent pas.
« Il s'agit essentiellement d'une grande boîte noire qui prédit très bien le comportement », explique M. Binz. « Mais plus nous comprenons ce qui se trouve à l’intérieur, plus nous pouvons en apprendre sur ce qui se trouve en nous aussi. »
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Les entreprises reconnaissent qu’elles ne peuvent pas dimensionner l’IA générative avec des modèles de fondation auxquels elles ne peuvent pas faire confiance. Téléchargez l’extrait pour découvrir pourquoi IBM, avec ses « modèles Granite » phares, est nommé Strong Performer.
Découvrez comment pousser continuellement vos équipes à améliorer les performances des modèles et à dépasser la concurrence en utilisant les dernières techniques et infrastructures d’IA.
Découvrez la valeur des modèles de fondation dédiés aux entreprises qui offrent confiance, performance et rentabilité dans tous les secteurs.
Apprenez comment intégrer l’IA générative, le machine learning et les modèles de fondation dans vos opérations métier pour améliorer les performances.
Regardez une démonstration comparant les modèles IBM avec d’autres dans plusieurs cas d’utilisation.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.