Le nouveau sonnet Claude 3.7 d’Anthropic peut désormais activer et désactiver son mode de pensée profonde comme un interrupteur, répondant instantanément à des questions simples tout en réservant le lourd travail informatique aux problèmes complexes qui en ont besoin.
Cette approche de raisonnement hybride marque un changement dans l’intelligence artificielle qui, selon les experts, peut à la fois réduire les coûts et renforcer les capacités, avec les modèles Granite d’IBM adoptant également des fonctions similaires de basculement en fonction de la complexité des tâches. Cette évolution survient alors que les entreprises du monde entier sont confrontées aux réalités financières liées à l'IA, qui pourrait rendre le raisonnement sophistiqué plus accessible tout en préservant de précieuses Ressources.
« La structure des coûts des modèles de réflexion est importante ; toutes les questions ne nécessitent pas une pause de 32 secondes pour que le modèle puisse y réfléchir », explique Maya Murad, chef de produit IA chez IBM recherche, lors d'un récent épisode du podcast Mixture of Experts . « Cette capacité permet aux entreprises d’utiliser les ressources intelligemment, en appliquant des capacités de calcul uniquement lorsque le problème l’exige, en créant des systèmes d’IA qui correspondent mieux à la manière dont les humains abordent les différentes tâches cognitives. »
Le raisonnement hybride signale un changement dans l’orientation des secteurs de l’IA, passant de la simple construction de systèmes plus puissants à la création de systèmes pratiques à utiliser, explique Abraham Daniels, Senior Program Manager chez IBM recherche, à IBM Think. Pour les entreprises, ce changement pourrait être crucial, car le coût d’exploitation d’une IA sophistiquée est devenu une considération majeure.
Les modèles consomment beaucoup plus de ressources de calcul et coûtent donc plus d’argent lors d’un raisonnement approfondi que lorsqu’ils fournissent des réponses simples. Le raisonnement hybride permet aux entreprises d'optimiser leurs dépenses en IA en adaptant les niveaux de calcul à la complexité des tâches.
Anthropic a récemment lancé Claude 3.7 Sonnet avec un « mode de réflexion étendu », permettant aux utilisateurs de demander une analyse plus approfondie en cas de besoin. IBM a également équipé ses modèles Granite de capacités " toggling ", permettant aux utilisateurs de contrôler le moment où ils doivent activer le raisonnement intensif.
« Nous avons construit un raisonnement hybride avec une philosophie différente des autres modèles de raisonnement sur le marché », a déclaré un porte-parole d’Anthropic à IBM Think. « Notre approche est basée sur le fonctionnement du cerveau humain. En tant qu’humains, nous n’avons pas deux cerveaux séparés pour la pensée rapide versus profonde — et chez Anthropic, nous considérons le raisonnement comme quelque chose qui doit être profondément intégré aux capacités de tous nos modèles, plutôt que comme une fonctionnalité. Cette approche est basée sur la façon dont Claude s'intègre à nos clients dans toutes les applications. Si certaines interactions nécessitent des réponses rapides, comme le brainstorming de documents marketing, d’autres, comme les analyses financières complexes ou les recherches industrielles, nécessitent une réflexion plus approfondie et plus longue. Nous voulions rendre ces deux fonctionnalités aussi simples et rentables que possible pour que nos clients puissent y accéder et les utiliser. »
Le processus de réflexion de l'IA devient plus transparent grâce à cette approche. « Le modèle lui-même reste une boîte noire, mais au moins, en regardant les résultats, on peut plus ou moins voir comment le modèle est parvenu à cette conclusion », explique Daniels. Cette visibilité peut améliorer les résultats et s'adresser aux préoccupations d’explicabilité, ce qui est particulièrement important pour les secteurs réglementés, dit-il.
Daniels et d'autres experts considèrent que ce développement répond à un besoin pratique : éliminer les frais de calcul inutiles pour les questions simples.
« Vous n'avez pas besoin de beaucoup de raisonnement pour toutes les tâches, et cela vous permet, en gros, lorsque vous avez des choses plus compliquées, de payer plus cher, à la fois en termes de latence et de coût, explique Kate Soule, directrice de la gestion technique des produits chez IBM recherche, sur le podcast. »
Le fonctionnement interne des grands modèles de langage (LLM) est traditionnellement opaque. Un modèle recevrait un prompt et générerait une réponse, sans révéler les étapes de son raisonnement interne.
Le raisonnement hybride modifie cette dynamique en exposant le processus de réflexion étape par étape d'un modèle. Lorsqu'ils sont activés, les systèmes tels que Granite 3.2 montrent leur travail, rendant visibles les chemins logiques qu'ils suivent.
« Notre décision de rendre visible le raisonnement de Claude reflète la prise en compte de multiples facteurs. » L'un de ces facteurs inclut l'amélioration de l'expérience utilisateur et la transparence de la confiance dans le processus de raisonnement de Claude, a déclaré le porte-parole d'Anthropic ». « Cela donne aux utilisateurs des informations sur la manière dont les conclusions sont tirées, ce qui favorise les niveaux de confiance et de compréhension appropriés. Les utilisateurs font généralement davantage confiance aux résultats lorsqu’ils peuvent observer la chaîne de pensée. Nous espérons que cette visibilité permettra aux utilisateurs de mieux évaluer la qualité et la rigueur du raisonnement de Claude, et les aidera à mieux comprendre ses capacités. De plus, nous espérons que les utilisateurs et les développeurs pourront créer de meilleures prompts en lisant les productions de Claude et en fournissant des commentaires ciblés sur des étapes de raisonnement spécifiques. »
« Pouvoir exposer la réflexion réelle du modèle est excellent pour l’explicabilité », explique M. Daniels. « Avant de pouvoir démontrer le raisonnement de la chaîne de pensée (CoT), c’était en réalité juste la probabilité du token suivant. Donc, un peu comme une boîte noire. »
Ces technologies ont des applications commerciales qui s'étendent à de nombreux secteurs. « Les domaines financier et juridique sont des accords naturels, car ils traitent une documentation structurée », explique M. Daniels, ajoutant que « tout secteur réglementé peut tirer une valeur considérable » de ces modèles de réflexion avancés.
Mais le raisonnement hybride peut être particulièrement utile dans les domaines nécessitant une analyse complexe.
« Les mathématiques et le code sont vraiment les deux points principaux que j'ai constatés en termes de points de référence pour le raisonnement », explique M. Daniels. Pour le développement de logiciels, les avantages pourraient être substantiels : « L’utilisation d’un modèle de réflexion permettrait de définir la portée du projet compte tenu des exigences que vous avez définies », explique-t-il.
Les LLM Standard génèrent des réponses en prédisant le mot suivant le plus probable sur la base de modèles dans leurs données d'apprentissage. Cette approche fonctionne bien pour de nombreuses tâches, mais ces modèles peuvent rencontrer des problèmes de raisonnement à plusieurs étapes.
Les modèles de raisonnement hybrides peuvent passer à un mode de calcul intensif, en générant explicitement des étapes de raisonnement intermédiaires avant de fournir une réponse finale. Le modèle utilise ces étapes pour résoudre des problèmes complexes, de la même manière que les humains écrivent des étapes intermédiaires pour résoudre des problèmes mathématiques complexes.
L'architecture permettant le raisonnement hybride repose sur ce que les chercheurs appellent " test-time compute, " qui implique de consacrer des ressources informatiques à l'inférence plutôt qu'à la formation.
« Très souvent, traditionnellement, toute votre puissance de calcul Power® était utilisée pour entraîner le modèle, puis l’inférence du modèle était relativement faible en termes de besoins de calcul », explique M. Daniels.
Mais à mesure que les systèmes d'IA deviennent plus complexes, le défi ne sera pas seulement la puissance de traitement : il s'agira de savoir quand l'utiliser efficacement. C’est pourquoi la prochaine frontière du raisonnement hybride, explique Daniels, sera une autorégulation plus intelligente : apprendre à l’IA quand activer son mode de pensée plus profond d’elle-même, sans que les humains ne le lui disent.
« Les étapes suivantes en termes de modèles de raisonnement, ou modèles hybrides, est de savoir comment mieux comprendre ou mieux trier les entrées dans le calcul au moment du test, ou dans le cadre des exigences », explique-t-il.
