Alors que des modèles de raisonnement comme o1 d'OpenAI, DeepSeek-R1 et Gemini 2.5 de Google rivalisent pour obtenir les meilleurs résultats en matière d'intelligence artificielle, les entreprises qui cherchent à intégrer l'IA se méfient de plus en plus d'un phénomène appelé « gonflement des modèles » — un phénomène par lequel les modèles deviennent inutilement volumineux ou complexes, ce qui augmente les coûts de calcul et le temps d'entraînement des modèles et diminue la vitesse à laquelle ils peuvent fournir les réponses dont les entreprises ont besoin.
O1 et DeepSeek-R1 d'OpenAI utilisent le raisonnement par chaîne de pensée (CoT) pour diviser des problèmes complexes en étapes, obtenant ainsi des performances et une précision sans précédent par rapport aux modèles précédents. Mais CoT exige également des ressources de calcul importantes lors de l'inférence, ce qui entraîne des sorties longues et une latence plus élevée, explique Volkmar Uhlig, vice-président et responsable du portefeuille d'infrastructure d'IA chez IBM, dans une interview avec IBM Think.
Voici une nouvelle classe de techniques de prompting, décrites dans divers articles récents, allant de l’atome de pensée (AoT) à la chaîne de brouillon (CoD), cherchant à augmenter l’efficacité et la précision de CoT en aidant les modèles à résoudre les problèmes plus rapidement — réduisant ainsi les coûts et la latence.
Lance Elliott, scientifique spécialisé dans l'IA et fondateur d'une startup, considère les nouvelles ramifications de la chaîne de pensée comme des variantes dans les outils d'un ingénieur de prompt. « Votre boîte à outils classique peut comporter un marteau, c’est-à-dire CoT », explique-t-il à IBM Think. « L'AoT reviendrait à utiliser un marteau spécialisé utilisé pour couper et ajuster des cloisons sèches. Vous pouvez utiliser un marteau ordinaire pour les travaux sur les cloisons sèches, mais il serait conseillé d'utiliser un marteau à placoplâtre si vous en avez un et que vous savez vous en servir correctement. »
Vyoma Gajjar, architecte de solutions techniques en IA chez IBM, entrevoit du potentiel dans ces nouveaux cousins du CoT, notamment pour les entreprises « à la recherche de moyens plus rentables pour prompt de petits modèles à obtenir des réponses précises pour leurs cas d'utilisation spécifiques », explique-t-elle.
Contrairement à la chaîne de pensée, qui permet de résoudre des problèmes complexes en les décomposant en étapes détaillées et séquentielles, l'AoT utilise une stratégie de division et de conquête. Plus précisément, l'AoT divise les étapes d'un problème en « questions atomiques » qui sont traitées en parallèle, comme l'expliquent les auteurs d' un article de l'Université des sciences de Hong Kong et de l'Université Renmin de Chine, puis assemble les solutions individuelles pour parvenir à une réponse finale.
AoT peut fonctionner à la fois comme un cadre des exigences autonome et comme une amélioration des plug-ins. Lorsque les auteurs ont utilisé AoT avec GPT-4o mini d'OpenAI, celui-ci a surpassé plusieurs modèles de raisonnement sur six références, notamment o3-mini de 3,4 % et DeepSeek-R1 de 10,6 % sur le jeu de données HotpotQA.
Mme Gajjar estime que l'AoT est prometteur pour les applications d'entreprise qui cherchent à concilier performance et maintien d'un profil de coût donné. « Les différentes tâches s'exécutent en parallèle, puis vous laissez ces tâches, ou « atomes », communiquer entre elles, pour obtenir la solution la plus précise possible, comme un électron parle à un proton », confie-t-elle dans un entretien avec IBM Think.
Les auteurs de l’article confirment qu’AoT atteint « des performances compétitives à des coûts de calcul nettement inférieurs à ceux des méthodes existantes », ajoutant que « cette efficacité améliorée peut être attribuée à notre représentation d’état atomique, qui ne conserve que les informations nécessaires tout en éliminant les calculs redondants ».
L'AoT ne fonctionne toutefois pas bien pour tous les cas d'utilisation. M. Elliott, le scientifique en IA, affirme que l’AoT est probablement le plus utile « lorsqu’il utilise l’IA générative pour dériver des preuves mathématiques, produire du code de programmation et pour des tâches de raisonnement très structurées. » Et il serait moins probable d’améliorer l’efficacité des tâches d’écriture créative et d’engager la conversation, dit-il.
Parallèlement, l'apprentissage chain-of-draft s'attaque aux goulots d'étranglement qui peuvent survenir lorsque les modèles de raisonnement produisent des étapes progressives et très détaillées qui augmentent la latence. Ce phénomène représente une différence clé entre les modèles de raisonnement et les humains, qui ont tendance à « s’appuyer sur des brouillons concis ou des notes simplifiées pour saisir des informations essentielles sans calculs inutiles », écrivent les auteurs de Zoom Communications dans un nouvel article sur le CoD.
« Le problème de latence a souvent été négligé », écrivent les auteurs de l'article. « Cependant, il est crucial que de nombreuses applications en temps réel aient une faible latence tout en conservant des réponses de haute qualité. »
Avec l'invite CoD, un LLM est encouragé à produire une explication concise lorsqu'il raisonne pour trouver une réponse. Par exemple, le prompt CoT a déclaré : « Pensez étape par étape pour répondre à la question suivante. Renvoyez la réponse à la fin de la réponse après un séparateur ####. » En revanche, le prompt CoD a demandé au modèle de « réfléchir étape par étape, mais de ne conserver qu’une ébauche minimale pour chaque étape de réflexion, avec 5 mots au maximum. Renvoyez la réponse à la fin de la réponse après un séparateur. »
À l'aide du chatGPT-4O d'OpenAI et du sonnet Claude 3.5 d'Anthropic, les chercheurs ont découvert que CoD égalait ou surpassait le CoT en termes de précision tout en utilisant 92,4 % de tokens en moins, réduisant ainsi les coûts et la latence des différentes tâches de raisonnement.
« Nous vivons dans un tout nouveau monde d'exploration algorithmique », explique Uhlig d'IBM. « Si vous entraînez les prompts différemment, vous pouvez réduire considérablement le nombre de tokens. C’est une étape suivante tout à fait naturelle. »
Alors que de nombreuses nouvelles techniques de prompting continuent d’apparaître, l’une d’entre elles, appelée « squelette de pensée » (SoT), est remarquable pour combiner des éléments à la fois de l’atome de pensée et de la chaîne de brouillons. Les auteurs d'un article proposant cette technique disent avoir été motivés par « le processus d'écriture et de pensée des humains ». Les messages-guides de la SoT guident le MLD pour qu'il génère le squelette d'une réponse, puis complète le contenu de chaque point du squelette en parallèle.
En utilisant un squelette de pensée, les auteurs de l’Université Tsinghua en Chine et de la recherche de Microsoft ont pu accélérer le fonctionnement de divers LLM ainsi qu’améliorer la précision des réponses dans plusieurs catégories. « Nous montrons la faisabilité du décodage parallèle de LLM prêts à l’emploi sans aucune modification de leur modèle, système ou matériel », écrivent-ils.
Par exemple, les chercheurs ont posé la question suivante au modèle : « Quelles sont les stratégies les plus efficaces pour résoudre les conflits sur le lieu de travail ? » À l'aide de l'invite SoT, les auteurs ont réduit la latence de 22 secondes à 12 secondes (soit une accélération de 1,83x) avec Claude, et de 43 secondes à 16 secondes (une accélération de 2,69x) avec Vicuna 33B V1.3.
Aucune des techniques de prompting ne fonctionnera finalement pour tous les défis, la tâche en cours déterminera l’option la plus efficace dans les outils de l’ingénieur en prompts, explique Elliott. « Il est très avantageux de savoir comment l’IA générative fonctionne sous le capot », explique-t-il. « C’est comme conduire une voiture. Vous n'avez pas nécessairement besoin de connaître les détails complexes du fonctionnement d'un moteur ou d'une transmission, mais le fait d'être au moins familiarisé avec certains principes clés peut vous aider à mieux manipuler une automobile. Vous êtes mieux préparé pour des situations comme les routes glacées, les routes mouillées, la conduite sur des routes vallonnées et la gestion des virages serrés. »
Découvrez comment les PDG peuvent trouver un équilibre entre la valeur que l’IA générative peut créer, l’investissement qu’elle exige et les risques qu’elle introduit.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.