Qu’est-ce qu’un modèle de raisonnement ?

Auteur

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Qu’est-ce qu’un modèle de raisonnement ?

Un modèle de raisonnement est un grand modèle de langage (LLM) qui a été affiné pour décomposer les problèmes complexes en étapes plus petites, souvent appelées « traces de raisonnement », avant de générer une sortie finale. Des moyens de plus en plus sophistiqués pour entraîner les modèles à utiliser le raisonnement en chaîne et d’autres stratégies de prise de décision en plusieurs étapes ont permis d’obtenir des performances de pointe, en particulier sur des critères de référence pour des tâches logiques telles que les mathématiques et le codage.

Plutôt que de générer immédiatement une réponse directe à l’entrée d’un utilisateur, les modèles de raisonnement sont entraînés pour générer d’abord des « étapes de raisonnement » intermédiaires avant d’arriver à la réponse finale fournie à l’utilisateur. Certains LLM de raisonnement montrent aux utilisateurs leurs traces de raisonnement, tandis que d’autres ne font que résumer ou masquer complètement ces résultats intermédiaires.

En d’autres termes, les LLM de raisonnement sont entraînés à passer plus de temps à « réfléchir » avant de répondre. Il a été démontré de façon empirique que l’ajout de ce « processus de raisonnement » permettait d’améliorer considérablement la performance des LLM dans le cadre de tâches de raisonnement complexes. Ce succès a élargi les cas d’utilisation réels et les domaines auxquels les modèles d’IA peuvent être appliqués, marquant un point d’inflexion important dans le développement continu de l’IA générative et des agents d’IA.

Il convient toutefois de noter que les termes anthropomorphiques tels que le « processus de pensée » d’un modèle sont plus pratiques que les termes littéraux. Comme tous les modèles de machine learning, les modèles de raisonnement appliquent simplement des algorithmes sophistiqués pour faire des prédictions, comme le mot qui devrait suivre, qui reflètent des modèles appris à partir des données d’entraînement. Les LLM de raisonnement n’ont pas démontré la conscience ou d’autres signes d’intelligence artificielle générale (AGI). Une étude sur l’IA publiée par Apple en juin 2025 laisse planer le doute quant à la capacité actuelle de raisonnement des modèles à évoluer vers un raisonnement véritablement « généralisable ».1

Il est peut-être plus exact d’affirmer que les LLM de raisonnement sont entraînés pour « montrer leur travail » en générant une séquence de tokens (mots) qui ressemble à un processus de pensée humain, et que ce processus de « verbosité » des pensées semble déverrouiller les capacités de raisonnement latent que les LLM apprennent implicitement à partir de leur corpus massif de données d’entraînement (qui contient des exemples d’individus exprimant directement et indirectement leurs propres processus). 

Le concept de « modèle de raisonnement » a été introduit par o1-preview (et o1-mini) d’OpenAI en septembre 2024,2, suivi par « Qwen with Questions » d’Alibaba (QWQ-32B-Preview) en novembre et par l’expérience Flash Gemini 2.0 de Google en décembre. La publication en janvier 2025 du modèle open source DeepSeek-R1 a marqué un tournant dans le développement des LLM de raisonnement. Alors que les processus d’entraînement utilisés pour affiner les modèles de raisonnement antérieurs étaient un secret bien gardé, DeepSeek a publié un article technique détaillé qui a fourni un schéma directeur pour d’autres développeurs de modèles. IBM® Granite, Anthropic et Mistral IA, entre autres, ont depuis publié leurs propres LLM de raisonnement.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi les modèles de raisonnement fonctionnent-ils ?

L’ajout d’un « processus de pensée » aux résultats du modèle atténue de nombreux défauts inhérents à l’inférence LLM standard en aidant le modèle à éviter les raccourcis cognitifs nuisibles et à faire apparaître des connaissances plus potentiellement pertinentes tirées des données d’entraînement.

Dans le contexte des LLM de raisonnement, la documentation de recherche sur l’IA fait souvent référence aux principes de pensée du « Système 1 » et du « Système 2 », termes inventés par l’économiste du comportement client Daniel Kahneman, lauréat du Prix Nobel, dans son article précurseur :Thinking, Fast and Slow. La pensée du système 1 est rapide, inconsciente et intuitive, elle s’appuie sur l’heuristique et ne nécessite que peu ou pas d’effort. La pensée du système 2 est lente, délibérée et logique, nécessitant des efforts concertés. Les LLM autorégressifs sont, par défaut, enclins à penser avec le système 1 .3

Pour certaines tâches, la pensée du Système 1 est efficace et efficiente en termes de calcul. Mais pour beaucoup d’autres, la pensée impulsive du Système 1 n’est pas à la hauteur. Par exemple, un article de 2023 des chercheurs de Meta, Jason Weston et Sainbayar Sukhbaatar, a noté à quel point les LLM sont facilement influencés par la présence d’un contexte non pertinent ou de détails subjectifs dans le prompt d’entrée.

Exemples de LLM Exemple illustrant comment les LLM sans raisonnement sont souvent « distraits » par des informations non pertinentes. Tiré du document « System 2 Attention (is something you might need too). »

Ils ont proposé une classe de techniques qu’ils ont baptisée « System 2 Attention » (S2A), dans laquelle le modèle est chargé d’abord de générer une version réécrite du prompt d’entrée débarrassé du contexte non pertinent, puis de répondre à ce prompt réécrit. Dans les expérimentations, S2A a surpassé l’inférence standard sur diverses tâches, en augmentant la précision et en diminuant la flagornerie.

Exemples de LLM S2A, une première méthode de mise à l’échelle de l’inférence. En ajoutant des étapes entre l’entrée et la sorte, dans le cas présent pour réécrire le prompt, le modèle améliore sa sortie finale. Tiré du document « System 2 Attention (is something you might need too). »

D’un point de vue conceptuel, l’objectif implicite des approches de raisonnement pourrait être compris comme la mise en œuvre d’un modèle de comportement similaire au Système 2 qui découvre, évalue et affine ses sorties potentielles.

Un pas essentiel a été franchi lors de recherches précédentes sur les LLM démontrant que le simple ajout de l’expression « penser étape par étape », appelée incitation par chaine de pensées, permettait d’améliorer considérablement les sorties du modèle.4,5 Un article de 2024 de Google DeepMind a confirmé une hypothèse encore plus large : l’augmentation de la capacité de calcul en phase de test (les ressources utilisées pour générer une sortie) augmente les performances du modèle autant que l’augmentation de la capacité de calcul en phase d’entraînement (les ressources utilisées pour entraîner un modèle).6 Le prompting CoT n’est qu’une des nombreuses techniques de mise à l’échelle de l’inférence, tout comme le S2A.

Les LLM modernes vont plus loin : au lieu de s’appuyer sur la conception de prompts, ils utilisent de nouvelles techniques de réglage fin et des workflows sophistiqués pour augmenter intrinsèquement la quantité de calcul utilisée par le modèle au moment de l’inférence. L’optimisation d’un modèle de raisonnement implique à la fois le défi technique consistant à développer des algorithmes et des données d’entraînement et le défi linguistique de la conception d’un « processus de pensée » idéal.

Fonctionnement des modèles de raisonnement

Les étapes initiales de l’entraînement des LLM de raisonnement reflètent celles des LLM conventionnels. Comme les LLM standard, les modèles de raisonnement acquièrent leur installation linguistique générale et leur connaissance du monde grâce à un pré-entraînement auto-supervisé à grande échelle, suivi d’une part de réglages fins supervisée (SFT) pour l’adapter aux tâches en aval (comme l’utilisation d’un chatbot conversationnel). L’innovation centrale est l’application de nouvelles techniques d’apprentissage par renforcement (RL) qui incitent le modèle à générer des « étapes de raisonnement » intermédiaires au moment de l’inférence avant de produire un résultat final.

Des années de recherche et d’expérimentation ont permis d’obtenir un éventail d’approches de raisonnement qui se développent de manière exponentielle, mais elles partagent toutes l’objectif fondamental d’améliorer le calcul du temps de test. Outre le LLM de base (ou adapté aux instructions) qui leur sert de fondement, les modèles de raisonnement se différencient par la stratégie de prise de décision spécifique qu’ils sont formés à employer et par les algorithmes spécifiques utilisés pour encourager ce comportement.

D’une manière générale, il existe deux méthodes principales pour augmenter la capacité de calcul utilisée au temps d’inférence. L’objectif du réglage fin d’un modèle de raisonnement est de l’entraîner à utiliser l’une de ces approches générales (ou les deux) grâce à divers algorithmes d’apprentissage.

  • Générer des sorties plus longues : le modèle apprend à générer des séquences de sortie plus longues grâce à des stratégies telles que la longue chaîne de pensée, le backtracking et l’auto-raffinement.

  • Génération de plusieurs sorties : au lieu de générer une seule sortie en réponse à une prompt, le modèle génère plusieurs itérations de sa sortie et parvient à sa réponse finale par un processus de recherche, de rejet et d’agrégation des sorties potentielles.  

La nature des paradigmes d’apprentissage qui produisent des modèles de raisonnement implique généralement une formation et une évaluation sur des problèmes dont les solutions sont vérifiables par nature, tels que des tâches de codage ou des problèmes mathématiques. Les indicateurs de référence utilisés pour évaluer les performances des modèles de raisonnement se concentrent donc généralement sur ces domaines. Beaucoup moins de recherches ont été menées sur l’impact du raisonnement dans des domaines plus subjectifs, tels que l’écriture créative.

Réglage fin du renforcement

Les progrès de l’optimisation basée sur l’apprentissage par renforcement (RL), qui comprennent à la fois le RL basé sur des règles et le RL basé sur l’apprentissage profond (« deep RL »), ont été au cœur de l’essor des LLM dans des contextes de ce type. Alors que l’apprentissage supervisé et auto-supervisé nécessite des tâches d’entraînement statiques bien définies, le RL est bien adapté aux types de tâches dynamiques, ouvertes et complexes pour lesquelles le raisonnement en plusieurs étapes est le plus utile.

L’utilisation du RL pour affiner les LLM d’une manière qui confère des qualités abstraites n’est pas propre aux modèles de raisonnement. Par exemple, le pipeline d’entraînement standard d’un LLM à utiliser dans des environnements de chatbot est le suivant :

  1. Le pré-entraînement auto-supervisé, dans lequel le modèle apprend les schémas linguistiques et les connaissances de base à appliquer aux tâches en aval.

  2. Le réglage fin supervisé (SFT), dans lequel le modèle apprend à correctement mettre en forme ses réponses aux entrées de l’utilisateur.

  3. Le réglage des instructions, dans lequel le modèle apprend à suivre des instructions et à effectuer des tâches spécifiques.

  4. L’apprentissage par renforcement à partir des commentaires humains (RLHF), dans lequel le modèle est affiné sur des données de préférences humaines pour transmettre des qualités subjectives telles que l’utilité, l’innocuité, la sincérité et le ton idéal.

Les LLM de raisonnement passent généralement par les mêmes phases d’entraînement, avec l’ajout (à un moment donné) d’une phase d’apprentissage par renforcement qui inculque un processus de raisonnement productif basé sur le CoT. Pour ce faire, on définit les objectifs de ce processus de raisonnement, c’est-à-dire les comportements spécifiques du modèle à « récompenser », comme la génération de traces de raisonnement CoT avant une sortie finale, puis en optimisant les poids du modèle de manière à optimiser la récompense.

Parce qu’il est difficile, voire impossible, de concevoir une fonction de récompense explicite pour une tâche aussi abstraite et complexe qu’un processus de raisonnement qui sera efficace pour toute résolution de problèmes complexes, ce signal de récompense provient souvent d’un modèle de récompense distinct utilisé pendant l’entraînement. Dans le cadre du RLHF, ce modèle de récompense est lui-même entraîné sur le commentaire humain et apprend à prédire un score numérique indiquant dans quelle mesure un humain préférerait une réponse donnée.

Dans le contexte du RL pour les modèles de raisonnement, les signaux de récompense peuvent être divisés en 3 catégories : les modèles de récompense des résultats (ORM), les modèles de récompense des processus (PRM) et les systèmes de récompense basés sur des règles.

Modèles de récompense des résultats (ORM)

Les ORM (mappage objet-relationnel), comme leur nom l’indique, vérifient l’exactitude de la sortie finale du modèle de raisonnement et fournissent des signaux de récompense qui sont utilisés pour optimiser les poids du modèle en conséquence. Leur rôle est un peu similaire à une fonction de perte dans l’apprentissage supervisé, bien que les mécanismes soient souvent plus complexes.

Alors qu’une fonction de perte mesure généralement la divergence token par token entre une production de modèle et la vérité terrain, un ORM efficace doit être capable de reconnaître une réponse correcte à un problème mathématique, même lorsqu’il est présenté très différemment de la réponse de vérité terrain disponible, qui est souvent le cas compte tenu de la forte variabilité des sorties CoT longues. De même, la plupart des problèmes de codage du monde réel ont plusieurs solutions : l’évaluation holistique de la production du code nécessite généralement un pipeline de données qui exécute efficacement et vérifie l’efficacité des snippets de code. D’autres qualités de sortie, telles que le fait qu’elle suive le formatage prescrit ou les instructions, peuvent utiliser un LLM standard comme vérificateur.

Bien que les ORM soient une solution relativement simple et efficace en termes de calcul, ils peuvent potentiellement récompenser les situations dans lesquelles des étapes de raisonnement erronées conduisent néanmoins à une réponse finale correcte, ce qui se traduit par des processus de raisonnement sous-optimaux du modèle d’apprentissage.

Modèles de récompense des processus (PRM)

Les PRM notent et récompensent (ou pénalisent) chaque étape de raisonnement de manière isolée, au lieu de se concentrer uniquement sur l’exactitude de la réponse finale. Cela fournit des signaux de récompense plus fins et des ajustements de modèles ultérieurs, donnant des modèles avec un processus de raisonnement plus robuste et interprétable.

Les PRM sont cependant plus coûteux et plus longs à entraîner et à mettre en œuvre. Les premières approches influentes des PRM reposaient presque entièrement sur l’étiquetage laborieux des données effectué par des annotateurs humains.7 D’autres approches automatisent ce processus en déduisant la validité d’une étape de raisonnement en fonction de la fréquence à laquelle elle aboutit à une réponse correcte.8

Systèmes de récompense basés sur des règles

Pour éviter les coûts et les complications des modèles de récompense, certaines approches de réglage fin basées sur le RL conçoivent les tâches d’entraînement de manière à simplifier l’évaluation des sorties du modèle. Par exemple, les techniques DeepSeek-R1 et R1-Zero prompt permettent aux modèles de formater leurs réponses finales dans une boîte séparée, ce qui permet de vérifier la précision sans avoir recours à un modèle de récompense spécialisé qui doit analyser l'ensemble de la réponse. D’autres systèmes de récompense basés sur des règles incitent à des micro-actions spécifiques, telles que l’ajout de « wait » à la fin d’une réponse pour encourager plus d’exploration et d’autocorrection, qui peuvent être facilement vérifiées.9

DeepSeek-R1-Zero : Pure RL

DeepSeek a mis au point une technique de réglage fin par renforcement simple, illustrative et très influente dans le cadre de l’entraînement de son modèle de raisonnement expérimental open source R1-Zero.

En utilisant DeepSeek-V3 comme base, DeepSeek est passé directement du pré-entraînement à un programme d’apprentissage par renforcement basé sur des règles extrêmement simple :

  • Interrogation du modèle : poser une question au modèle. Créer un prompt pour générer un processus de pensée entre les tokens « <think>  » et « </think> », et de produire sa réponse finale entre les tokens «<answer>  » et « </answer> »  .

  • Récompenses de précision : récompensez le modèle pour la qualité de sa réponse finale, telle que l’exécution du code généré.

  • Récompenses de format : récompensez le modèle pour avoir utilisé correctement le format «<think> </think>  » et « <answer> </answer>  » dans les réponses.

Étonnamment, sans aucune instruction explicite, DeepSeek-R1-Zero a appris à générer des chaînes de pensée complexes et à utiliser des stratégies de raisonnement qui ont donné des performances impressionnantes dans les tâches mathématiques et de raisonnement. En d’autres termes, compte tenu du seul mandat de « Think » avant de produire une réponse finale et de maximiser la précision des réponses finales, le modèle a naturellement recherché et « découvert » des modèles de raisonnement optimaux.

En pratique, cette approche simplifiée présentait des défauts importants : comme l’explique le document technique, « DeepSeek-R1-Zero est confronté à des défis tels que la répétition interminable, une mauvaise lisibilité et le mélange de langages. » Néanmoins, cette approche pure RL a servi de base à la méthodologie plus perfectionnée qui a rendu le modèle DeepSeek-R1 très populaire.

Recherche et approches basées sur des échantillons

Alors que la plupart des paradigmes RL basés sur CoT visent à optimiser l’efficacité d’une seule sortie de modèle, d’autres méthodes génèrent plusieurs sorties finales ou intermédiaires dans le but d’identifier et d’encourager les meilleures étapes de raisonnement.

Nombre d’approches de ce type s’appuient sur des algorithmes d’optimisation basés sur la recherche, comme la recherche arborescente Monte Carlo (MCTS), pour générer et découvrir plusieurs étapes potentielles de raisonnement et les évaluer en fonction de la qualité des étapes suivantes et des réponses finales auxquelles elles pourraient conduire. La récompense est ensuite rétropropagée de manière itérative à travers les chemins de raisonnement qui ont conduit aux résultats souhaités, et les poids sont optimisés de manière à augmenter la probabilité de ces étapes de raisonnement. C’est particulièrement utile pour les tâches de raisonnement comportant un très large éventail de décisions potentielles ou qui nécessitent une planification approfondie à long terme pour avoir une chance de parvenir à une réponse finale précise.

Une autre approche est la cohérence propre, également appelé vote majoritaire. Chaque tâche commence par un prompt de type « chaîne de pensées ». Plusieurs réponses, chacune avec ses propres chemins de raisonnement, sont échantillonnées à partir du décodeur du modèle. La réponse finale qui apparaît le plus régulièrement parmi les sorties échantillonnées est déterminée comme étant la réponse optimale. Cela peut être utilisé comme stratégie de temps d’inférence pour minimiser le caractère aléatoire et l’hallucination, ou comme moyen de générer des données de raisonnement de haute qualité pour les méthodes basées sur l’affinage supervisé (SFT).

Le principal inconvénient de ces méthodes est la latence accrue et le temps système de calcul qu’elles introduisent. Toutefois, certaines études indiquent que les modèles plus petits utilisant des algorithmes d’inférence basés sur la recherche ou des échantillons peuvent offrir un compromis performance-efficacité supérieur aux modèles plus grands utilisés de manière conventionnelle.10

SFT, distillation des connaissances et approches d’auto-amélioration

Parmi les moyens conceptuels les plus simples d’affiner les modèles pour le raisonnement est d’utiliser simplement l’apprentissage supervisé sur un jeu de données comprenant des prompts d’entrée difficiles et des sorties correspondantes basées sur le CoT.

Alors que l’utilisation de méthodes conventionnelles pour assembler un jeu de données « manuellement » à l’aide d’exemples écrits par des humains prend beaucoup de temps et de main-d’œuvre, la prolifération des modèles de raisonnement et des techniques de mise à l’échelle de l’inférence a considérablement facilité la génération de données d’entraînement synthétiques appropriées.  Les recherches menées par l’Université de Stanford et l’Allen Institute for A1 ont révélé qu’après avoir effectué un réglage fin du monde Qwen2.5-32B-Instruct sur un jeu de données organisé de seulement 1 000 paires de questions et de traces de raisonnement, leur modèle « s1 » a battu l’aperçu o1 d’OpenAI sur les problèmes mathématiques concurrents.

La distillation des connaissances peut également être utilisée pour apprendre aux petits modèles à imiter les processus de pensée des modèles de raisonnement plus grands en les affinant grâce au SFT directement sur les sorties générées par le modèle « enseignant » plus grand. DeepSeek a utilisé la distillation de connaissances, avec DeepSeek-R1 comme enseignant, pour créer des versions optimisées par le raisonnement de plusieurs tailles de modèles Qwen et Llama.

D’autres méthodes visent à appliquer des techniques d'amorçage sur un jeu de données de prompts et les productions CoT correspondantes via un processus d’« auto-amélioration » du modèle. Le Self-Taught Reasoner (STaR) fournit des exemples few-shot de traces de raisonnement efficace, puis crée un prompt du modèle pour générer des réponses et des raisonnements à un plus grand nombre d’exemples de questions. Le modèle est ensuite affiné en fonction de justifications qui ont finalement donné les bonnes réponses, après quoi le processus est répété de façon itérative.11 L’auto-entraînement renforcé (ReST) applique une approche conceptuelle similaire pour affiner le signal de récompense (ou « politique ») utilisé pour affiner le renforcement.12 Les deux ont donné un certain nombre de méthodologies dérivées.

AI Academy

Choisissez le modèle IA adapté à votre cas d’utilisation

Quand il s’agit de modèles IA, voir grand n’est pas toujours la meilleure idée. Découvrez comment trouver la solution adaptée aux besoins de votre entreprise. Téléchargez ensuite notre guide pour vous aider à passer à l’action.

Les défis des modèles de raisonnement

Malgré leurs points forts et leurs avantages, les LLM de raisonnement ne sont pas sans inconvénients.

Sur-réflexion

Les modèles de raisonnement, en particulier ceux qui ont relativement peu de paramètres, sont sujets au surdimensionnement. Une étude de Tencent a révélé que les modèles de raisonnement consomment en moyenne 1,953 % de tokens de plus que les modèles conventionnels pour obtenir la même réponse.13 Une autre étude, menée par des recherches dans plusieurs universités, a révélé que dans les environnements agentiques, les modèles de raisonnement ont tendance à s’engager dans un raisonnement circulaire étendu au lieu d’interagir avec des outils et des sources d’informations externes.14

Limites de la mise à l’échelle de l’inférence

Les recherches publiées par Anthropic en juillet 2025 affirment qu’une telle réflexion n’est pas uniquement une préoccupation d’efficacité : leur article découvre « les cas où un raisonnement plus long détériore la performance, présentant une relation inverse entre le calcul et la précision du temps de test. » Bien que de manière empirique, l’augmentation du calcul du temps de test peut souvent améliorer la performance du modèle, les recherches ont mis en évidence de multiples scénarios dans lesquels le raisonnement plus long amplifie les faiblesses du modèle et les problèmes d’alignement, remettant en question « l’hypothèse selon laquelle un raisonnement accru améliore universellement les résultats du modèle ».15

Les recherches connexes menées par Apple plus tôt en 2025 ont démontré une série de tâches à faible complexité où les modèles standard ont surpassé les modèles de raisonnement, ainsi que des tâches très complexes où les deux types de modèles ont purement et simplement échoué. Dans les recherches d’Apple, les modèles de raisonnement « ne parviennent pas à développer de capacités généralisables de résolution de problèmes pour la planification des tâches, les performances tombant à zéro au-delà d’un certain seuil de complexité ».1

Dégradation dans les domaines sans raisonnement

Si le réglage fin par raisonnement permet généralement d’améliorer considérablement l’exécution de tâches complexes dans des domaines logiques tels que les mathématiques et le codage, il peut également entraîner des baisses de performances dans d’autres domaines. Par exemple, par rapport à leurs homologues d’origine, les versions de Llama 3.1 et Qwen2.5 qui ont été affinées par distillation des connaissances sur DeepSeek-R1 ont démontré une régression sur ArenaHard et Alpaca-Eval-2, des références populaires qui mesurent la capacité d’un modèle à penser leur chemin à travers des instructions difficiles. Cela dit, des techniques de raisonnement plus larges, telles que l’optimisation des préférences de pensée (TPO) utilisée pour affiner IBM Granite 3.2,améliorent considérablement le suivi d’instructions (mais sans impact significatif sur les performances en mathématiques ou en codage).

Évaluations des LLM Le réglage fin des modèles Llama et Qwen pour imiter le processus de raisonnement de DeepSeek-R1 a augmenté les performances dans des domaines logiques spécifiques, mais a réduit le suivi d’instructions générales.

Augmentation des coûts et de la latence

Les utilisateurs doivent payer (et attendre) pour tous les tokens générés par le modèle pendant la « réflexion », et ces tokens de réflexion consomment de l’espace disponible dans la fenêtre de contexte disponible. Certains cas d’utilisation justifient ce gain de temps et de calcul, mais pour d’autres, c’est un gaspillage de ressources. Cela dit, passer constamment d’un modèle de raisonnement à un modèle « standard » tâche par tâche et prompt par prompt n’est pas du tout pratique.

Effort de raisonnement et modèles de raisonnement hybride

Les « modèles de raisonnement hybrides » sont une des solutions. En février, IBM Granite 3.2 est devenu le premier LLM à offrir un mode « réflexion » activable, permettant aux utilisateurs d’exploiter le raisonnement lorsqu’ils en ont besoin et de privilégier l’efficacité lorsqu’ils n’en ont pas besoin.3 Claude 3.7 Sonnet d’Anthropic a emboîté le pas, permettant aux utilisateurs d’API d’avoir un contrôle précis sur la durée pendant laquelle le modèle « réfléchit ».4 Google a introduit une fonctionnalité similaire pour ajuster le « budget de réflexion » des modèles Gemini.18 De même, « l’effort de raisonnement » des modèles de raisonnement o1 et o3 d’OpenAI peut être réglé sur « faible », « moyen » ou « élevé ».

Interprétabilité

Ostensiblement, le fait de révéler la chaîne de pensées du modèle à l’utilisateur permet de comprendre exactement comment un LLM parvient à ses réponses finales, offrant ainsi une meilleure interprétabilité par rapport à ce qui se fait généralement avec un modèle standard. Mais les recherches d’Anthropic suggèrent que les modèles de raisonnement ne disent pas toujours ce qu’ils pensent réellement. Au cours d’une série de tâches spécialement conçues, les chercheurs ont découvert que Claude 3.7 Sonnet et DeepSeek-R1 n’expliquaient pas fidèlement leur raisonnement : par exemple, lorsqu’ils donnaient des indications sur la bonne réponse, leurs réponses mentionnaient rarement ces indices lorsqu’ils décrivaient leur prétendu raisonnement.19

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les modèles d’IA IBM Granite
Notes de bas de page

Tous les liens sont externes au site ibm.com, sauf indication contraire.

1. "The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity," Apple Machine Learning Research, juin 2025
2. "Introducing OpenAI o1-preview," OpenAI, 12 septembre 2024
3. "From System 1 to System 2: A Survey of Reasoning Large Language Models," arXiv, 24 février 2025 
4. "Large Language Models are Zero-Shot Reasoners," arXiv, 24 mai 2022
5. "Show Your Work: Scratchpads for Intermediate Computation with Language Models," arXiv, 30 novembre 2022
6. "Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters," arXiv, 6 août 2024
7. "Let’s Verify Step by Step," arXiv, 31 mai 2023
8. "Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations," arXiv, 14 décembre 2023
9. "s1: Simple test-time scaling," arXiv, 31 janvier 2025
10. "Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models," arXiv, 1 août 2024
11. "STaR: Bootstrapping Reasoning With Reasoning," arXiv, 28 mars 2022
12. "Reinforced Self-Training (ReST) for Language Modeling," arXiv, 17 août 2023
13. "Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs," arXiv, 30 décembre 2024
14. "The Danger of Overthinking: Examining the Reasoning-Action Dilemma in Agentic Tasks," arXiv, 12 février 2025
15. "Inverse Scaling in Test-Time Compute," arXiv, 19 juillet 2025
16. "Bringing reasoning to Granite," IBM Research, 7 février 2025
17.  "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 février 2025
18. "Generative AI on Vertex AI: Thinking," Google
19. "Reasoning models don’t always say what they think," Anthropic, 3 avril 2025