Publication : 15 août 2024
Contributeurs : Vrunda Gadesha, Eda Kavlakoglu
L’arbre des pensées (ToT) est un cadre révolutionnaire conçu pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cette approche simule les stratégies cognitives humaines pour la résolution de problèmes, permettant aux LLM d’explorer de multiples solutions potentielles de manière structurée, un peu comme les ramifications d’un arbre.[1]
Les cadres de l’arbre de pensées (ToT) et de la chaîne de pensées (CoT) servent d’algorithmes conceptuels pour comprendre l’organisation et la progression de la génération de texte dans les modèles de langage (LMs) tels que les transformateurs génératifs pré-entraînés (par exemple, GPT-3 et GPT-4). Ces techniques d’incitation font partie de l’ingénierie rapide, qui consiste à créer des entrées (invites) pour guider efficacement les LMs dans la génération des résultats préférés.
Invite de l’arbre de pensées : ce cadre repose sur la capacité du modèle à générer du texte de manière hiérarchique, avec un sujet ou une idée centrale menant à des sous-sujets et à des détails ramifiés. Cette approche reflète la façon dont un modèle peut développer une invite spécifique en générant un texte de plus en plus spécifique et connexe, similaire à une structure d’arborescence. Elle permet des stratégies de recherche en amont et d’arborescence, où le modèle peut explorer plusieurs branches avant de s’engager sur une voie, ce qui la rend adaptée à la résolution de problèmes généraux et à des scénarios nécessitant une prise de décision complexe. Cette méthode intègre le raisonnement logique et l’heuristique pour évaluer la qualité de chaque branche. Le mécanisme de cohérence propre est utilisé pour fournir des évaluations fiables en sollicitant le modèle plusieurs fois.
Invite par chaîne de pensées : ce concept correspond à la capacité du modèle à générer du texte de manière linéaire, de gauche à droite, où chaque jeton ultérieur est directement influencé par les jetons précédents. Cette progression séquentielle reflète une approche plus simple et plus directe de la génération de texte. La CoT est efficace pour les tâches qui nécessitent un flux logique clair par étapes. L’apprentissage few-shot, où le modèle est fourni avec quelques exemples pour apprendre, peut améliorer cette méthode en fournissant une compréhension contextuelle. La CoT sert de technique de base dans l’ingénierie rapide, offrant une méthode fondamentale plus simple à mettre en œuvre, mais qui peut ne pas offrir la profondeur et la complexité du ToT.
Comparaison et applications : ben que l’incitation par ToT incarne une approche plus complexe et plus interconnectée dans la génération de texte, en utilisant des stratégies de recherche en amont et par arborescence, la CoT reflète une progression séquentielle plus simple. La nature hiérarchique du ToT répond aux tâches nécessitant une exploration détaillée de plusieurs solutions, telles que les scénarios d’apprentissage par renforcement, où le retour en arrière et les stratégies alternatives sont essentiels. Cependant, la progression linéaire de la CoT est idéale pour les tâches qui nécessitent une séquence claire et logique de pensées.
Dans les applications pratiques, les API pour les modèles de langage, notamment GPT-3 et GPT-4, utilisent des techniques d’invite telles que le ToT et la CoT pour améliorer leurs performances dans diverses tâches, de l’écriture créative à la résolution de problèmes complexes.2 L’ingénierie rapide continue d’évoluer avec des outils puissants permettant d’exploiter les capacités des transformateurs avancés dans les modèles de langage.
Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.
Obtenir le guide sur les modèles de fondation
IA générative et ML au service des entreprises
Le ToT guide les LLM à travers une série d’étapes de raisonnement, où chaque étape peut se diviser en plusieurs chemins, permettant au modèle de revenir en arrière ou d’explorer des stratégies alternatives selon ses besoins. Par exemple, la résolution d’un sudoku peut guider le modèle dans l’exploration de différents placements de chiffres par essais et erreurs. Il fait marche arrière lorsqu’un nombre mène à une contradiction et essaie un autre nombre jusqu’à ce que le jeu soit résolu. Cette expérience imite l’approche humaine de résolution des problèmes, dans laquelle plusieurs solutions sont prises en compte et rejetées si elles sont jugées incorrectes.[1][3]
Le ToT est un cadre sophistiqué conçu pour améliorer les capacités de résolution de problèmes des LLM en structurant leur raisonnement d’une manière analogue aux processus cognitifs humains. Le cadre est composé de quatre éléments clés :
En intégrant ces composants, le cadre ToT imite la résolution humaine des problèmes en tenant systématiquement compte de plusieurs solutions et en éliminant les solutions jugées incorrectes.
La dynamique opérationnelle du cadre ToT implique une exploration itérative et en arborescence des solutions possibles. À partir de la question initiale, le modèle génère une série de réflexions ou de réponses, chacune conduisant à des questions ou à des développements ultérieurs. Ces branches se développent au fur et à mesure que le modèle explore différentes voies de raisonnement. Il permet de suivre les progrès et d’explorer l’ensemble de cet espace de solutions grâce à une auto-évaluation basée sur le LLM qui permet de garantir la validité de chaque étape. Si un raisonnement aboutit à une contradiction ou à une impasse, le système peut revenir à un nœud précédent pour explorer d’autres possibilités.
Cette approche structurée mais flexible permet aux LLM de gérer plus efficacement des tâches de raisonnement complexes à plusieurs étapes. Elle ressemble à la capacité humaine de naviguer dans un labyrinthe de pensées et d’options, en réévaluant et en ajustant les stratégies selon les besoins.
En substance, le cadre ToT dote les LLM d’une capacité de raisonnement et de résolution des problèmes plus proche de celle de l’homme, ce qui renforce leur efficacité dans les tâches qui exigent une réflexion et une prise de décision stratégiques et approfondies.
Le cadre ToT représente une avancée significative dans les capacités des LLM pour la résolution de problèmes complexes. Toutefois, la mise en œuvre de ce cadre implique des compromis.
Ce cadre offre des avantages au domaine de l’intelligence artificielle, notamment :
Le ToT améliore considérablement les compétences de résolution de problèmes des LLM en leur permettant d’explorer plusieurs chemins de raisonnement simultanément. Cela reflète les processus cognitifs humains dans lesquels plusieurs solutions potentielles sont envisagées et la plus viable est sélectionnée. Par exemple, dans les tâches nécessitant une réflexion stratégique ou une planification, comme la résolution de jeux de mots ou la génération d’écriture créative, le ToT a démontré des performances supérieures, obtenant des taux de réussite plus élevés que les méthodes traditionnelles. Cette capacité accrue de raisonnement complexe en décomposant les étapes intermédiaires est particulièrement évidente dans les tâches difficiles où les décisions initiales influencent considérablement les résultats.[4]
L’arbre des pensées incertaines (TouT), une extension du ToT, aborde spécifiquement les incertitudes inhérentes présentes dans les processus de prise de décision des LLM. En quantifiant et en gérant ces incertitudes, le TouT permet d’obtenir des résultats plus précis et plus fiables. Il utilise des techniques telles que le Monte Carlo Dropout. Cette technique est utilisée dans le machine learning, en particulier dans les modèles d’apprentissage en profondeur, pour estimer l’incertitude des prédictions. Il s’agit d’abandonner aléatoirement des neurones pendant l’entraînement et l’inférence, ce qui crée plusieurs « chemins » différents à travers le réseau. En faisant la moyenne des prédictions de ces différents chemins, le modèle peut fournir des estimations plus fiables de l’incertitude. Cette technique est précieuse dans les applications où des prédictions précises et fiables sont essentielles, telles que le diagnostic médical ou les prévisions financières.[5]
Outre les avantages, certaines limites inhérentes doivent être prises en compte.
Le cadre ToT implique des opérations complexes telles que le maintien de plusieurs chemins de décision, le retour en arrière et l’exploration de solutions alternatives. Ces processus sont intensifs en termes de calcul et nécessitent souvent des ressources importantes en termes de puissance de traitement et de mémoire. Le besoin de ressources peut limiter l’évolutivité du ToT, en particulier dans les environnements où les ressources informatiques sont limitées ou dans les applications en temps réel où des temps de réponse rapides sont essentiels.
La mise en place d’un système d’arbre de pensées implique l’intégration de divers composants tels que l’agent prompteur, le module de vérification, le module de mémoire et le contrôleur d’arbre des pensées.[1] Chaque composant doit être finement réglé pour fonctionner en harmonie, ce qui peut s’avérer un processus complexe et chronophage. En outre, l’efficacité du système dépend fortement de la qualité de sa mise en œuvre. Une mauvaise configuration d’un composant peut réduire l’efficacité de l’ensemble du système, le rendant moins fiable ou conduisant à des voies de résolution de problèmes incorrectes.
Le cadre ToT a démontré son efficacité dans diverses applications, mettant en valeur sa robustesse et son adaptabilité. Nous explorons ici 4 études de cas convaincantes dans lesquelles le ToT a considérablement amélioré ses capacités de résolution de problèmes :
L’application du ToT dans la résolution de grilles de sudoku illustre sa capacité à relever des défis logiques complexes. En guidant le modèle à travers différents placements de chiffres et en lui permettant de revenir en arrière lorsqu’il rencontre des contradictions, le ToT rationalise le chemin vers des solutions correctes. Cette capacité à réévaluer dynamiquement les décisions améliore considérablement la précision et l’efficacité de la résolution des problèmes, soulignant l’avantage du ToT par rapport aux approches de résolution de problèmes plus statiques[1].
Dans le jeu d’arithmétique stratégique 24, le ToT a considérablement amélioré ses taux de réussite en permettant au modèle d’explorer plusieurs voies de calcul. Ce processus de raisonnement adaptatif a permis au modèle de résoudre des énigmes de manière plus créative et plus efficace, démontrant la capacité du ToT à améliorer la flexibilité cognitive dans la résolution de problèmes numériques.[4]
Le ToT a également été appliqué aux tâches d’écriture créative, où il aide les LLM à générer des récits plus cohérents et plus appropriés au contexte. En structurant le processus de réflexion sous la forme d’un arbre ramifié, le modèle peut explorer différents développements de l’intrigue ou choix stylistiques et sélectionner ou réviser en fonction des résultats les plus prometteurs. Cette méthode a permis d’améliorer la qualité et l’authenticité du texte généré par les LLM, offrant ainsi une approche plus nuancée du storytelling automatisé.[4]
Une autre application remarquable du ToT est la résolution de mini-mots croisés 5 x 5. Le cadre permet au modèle d’envisager plusieurs choix de mots pour chaque indice de mots croisés, en les évaluant non seulement de manière isolée, mais aussi comment ils interagissent avec les mots déjà placés. Cette approche d’évaluation itérative et holistique contribue à garantir une plus grande précision dans la résolution des énigmes et démontre la capacité du ToT à appliquer un raisonnement logique et contextuel à des tâches linguistiquement complexes. L’utilisation du ToT dans ce contexte met en évidence sa polyvalence et son efficacité dans les tâches qui nécessitent l’intégration de plusieurs types de connaissances et de stratégies de raisonnement.[4]
Ces études de cas illustrent les diverses capacités du cadre de l’arbre de pensées, de l’amélioration du raisonnement logique et numérique à la stimulation de la créativité et de la compréhension contextuelle dans les tâches basées sur le langage. Chaque exemple souligne le potentiel du ToT pour révolutionner la résolution de problèmes dans toutes les disciplines.
Les progrès récents du ToT ont mis l’accent sur l’expansion de ses capacités et la résolution des défis inhérents à son application. Principaux développements :
Ces récents développements soulignent les efforts continus visant à affiner et à développer le cadre de l’arbre de pensées, afin de garantir son applicabilité et son efficacité dans des scénarios de résolution de problèmes de plus en plus complexes. Ces avancées permettent non seulement d’améliorer les capacités des LLM, mais aussi d’ouvrir de nouvelles voies de recherche et d’application dans le domaine de l’intelligence artificielle.
Alors que ChatGPT est au centre de toutes les attentions, Kate Soule, spécialiste IBM, explique le fonctionnement des grands modèles de langue et révèle ce que cette forme d'IA générative peut apporter à l'entreprise.
Découvrez comment votre organisation peut faire évoluer les charges de travail d’IA, pour toutes vos données, partout.
Découvrir le cadre de la chaîne de pensées (CoT) avec une explication détaillée et des études de cas.
[1] Long, J. (mai 2023). Large Language Model Guided Tree-of-Thought.
[2] Karthik Narasimhan, S. Y. (juillet 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm (lien externe à ibm.com)
[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.
[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. https://arxiv.org/abs/2305.10601 (lien externe à ibm.com)
[5] 5 Shentong Mo, M. X. (septembre 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694 (lien externe à ibm.com)