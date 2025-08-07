Plutôt que de générer immédiatement une réponse directe à l’entrée d’un utilisateur, les modèles de raisonnement sont entraînés pour générer d’abord des « étapes de raisonnement » intermédiaires avant d’arriver à la réponse finale fournie à l’utilisateur. Certains LLM de raisonnement montrent aux utilisateurs leurs traces de raisonnement, tandis que d’autres ne font que résumer ou masquer complètement ces résultats intermédiaires.

En d’autres termes, les LLM de raisonnement sont entraînés à passer plus de temps à « réfléchir » avant de répondre. Il a été démontré de façon empirique que l’ajout de ce « processus de raisonnement » permettait d’améliorer considérablement la performance des LLM dans le cadre de tâches de raisonnement complexes. Ce succès a élargi les cas d’utilisation réels et les domaines auxquels les modèles d’IA peuvent être appliqués, marquant un point d’inflexion important dans le développement continu de l’IA générative et des agents d’IA.

Il convient toutefois de noter que les termes anthropomorphiques tels que le « processus de pensée » d’un modèle sont plus pratiques que les termes littéraux. Comme tous les modèles de machine learning, les modèles de raisonnement appliquent simplement des algorithmes sophistiqués pour faire des prédictions, comme le mot qui devrait suivre, qui reflètent des modèles appris à partir des données d’entraînement. Les LLM de raisonnement n’ont pas démontré la conscience ou d’autres signes d’intelligence artificielle générale (AGI). Une étude sur l’IA publiée par Apple en juin 2025 laisse planer le doute quant à la capacité actuelle de raisonnement des modèles à évoluer vers un raisonnement véritablement « généralisable ».1

Il est peut-être plus exact d’affirmer que les LLM de raisonnement sont entraînés pour « montrer leur travail » en générant une séquence de tokens (mots) qui ressemble à un processus de pensée humain, et que ce processus de « verbosité » des pensées semble déverrouiller les capacités de raisonnement latent que les LLM apprennent implicitement à partir de leur corpus massif de données d’entraînement (qui contient des exemples d’individus exprimant directement et indirectement leurs propres processus).

Le concept de « modèle de raisonnement » a été introduit par o1-preview (et o1-mini) d’OpenAI en septembre 2024,2, suivi par « Qwen with Questions » d’Alibaba (QWQ-32B-Preview) en novembre et par l’expérience Flash Gemini 2.0 de Google en décembre. La publication en janvier 2025 du modèle open source DeepSeek-R1 a marqué un tournant dans le développement des LLM de raisonnement. Alors que les processus d’entraînement utilisés pour affiner les modèles de raisonnement antérieurs étaient un secret bien gardé, DeepSeek a publié un article technique détaillé qui a fourni un schéma directeur pour d’autres développeurs de modèles. IBM® Granite, Anthropic et Mistral IA, entre autres, ont depuis publié leurs propres LLM de raisonnement.