什么是思维树提示?

作者

Vrunda Gadesha

AI Advocate | Technical Content Author

什么是思维树?

思维树 (ToT) 是一个开创性的框架,旨在增强大型语言模型 (LLM) 的推理能力。这种方法模拟了人类解决问题的认知策略,使 LLM 能够以结构化的方式探索多种可能的解决方案,类似于树状分支路径。[1]

代表思维树的数据象形图拼贴插图

思维树如何工作?

ToT 引导 LLM  进行一系列推理步骤,每一步都可以分支出多个路径,允许模型根据需要回溯或深入了解替代策略。例如,解决数独谜题时,可能会指导模型以试错方式探索不同的数字排列。当一个数字生成矛盾时,它会回溯并尝试其他数字,直到谜题得到解决。这模拟了人类解决问题的方式,即考虑多个解决方案,并在发现错误时将其丢弃。[1][3]

思维树 (ToT) 框架

ToT 是一个复杂的框架,旨在通过以类似于人类认知过程的方式构建其推理,来增强LLM 解决问题的能力。该框架由四个关键部分组成:

思维分解

ToT 框架明确地将问题分解为更小的、且易于管理的步骤,称为思维,这些步骤组合在一起构成解决方案。每个思维的大小都应适当,不能太大以至于难以处理,也不能太小而无用。例如,如果您在计划旅行,则可能需要先决定旅行目的地,然后选择最佳交通方式,最后选择住宿地点。在数学问题中,思维可能是一条方程式或简洁的概念解释。通过这种方式,问题可以分解为易于处理和单独评估的关键步骤。分解过程取决于问题的性质,确保每个思维步骤对评估既重要又可行。

思维生成

定义思维构成后,确定如何生成这些思维。该框架提出了两种主要技术。[4]

  • 采样:这种技术通过使用相同的提示独立地生成多个思维。当思维空间丰富且多样时,该方法的效果最好,因为独立生成的思维不太可能被复制。例如,在创意写作中,可能会生成多个独立的情节想法。
  • 提议:这种技术使用“提出提示”依次生成思维。每个思维都基于前一个思维,从而在更受限的思维空间中避免重复。例如,在逻辑问题解决中,每一步都建立在前一步的基础上,以确保一致性和进度。

状态评估

一旦生成思维,就必须对期进行评估,以确保朝着解决问题的方向推进。该框架采用两种策略来实现这一目标:

  • 值:此策略为每个状态分配一个标量值(例如,从 1 到 10 的评级)或一个分类(例如,确定、可能或不可能)。这有助于指示该状态的质量或其导向解决方案的可能性。这种方法允许对每个思维的潜力进行定量评估。
  • 投票:该策略比较不同的解决方案并选择最有前途的一个。投票对于解决方案的质量具有主观性或难以量化的任务特别有用,例如创意写作或战略规划。通过多次评估结合以确定最佳的前进路径。

搜索算法:

最后一个组成部分涉及用于在解决方案空间中导航的搜索算法。该框架通常采用两种基本算法:

  • 广度优先搜索 (BFS):这种算法会先深入了解每一级的所有可能分支,然后再向树的更深处移动。它确保所有潜在的解决方案都得到同等考虑,使其适用于首选最短路径或最浅解决方案的问题。例如,在益智游戏中,BFS 会检查所有立即可行的动作,然后再考虑后续动作。
  • 深度优先搜索 (DFS):这种算法先深入了解一个分支,然后再回溯探索其他分支。它允许对每个潜在的解决方案进行深入检查,适用于需要详细探索每个选项的问题。例如,在解决复杂的逻辑问题时,DFS 会深入跟踪单个假设,检查其有效性,然后再考虑其他替代方案。

通过整合这些组件,ToT 框架可以通过系统地考虑多种解决方案并排除错误的方案,以模仿人类解决问题的过程。

思维分解到思维生成和搜索算法到状态评估的流程图

ToT 框架的运作动态涉及对可能的解决方案进行迭代、树状结构的探索。从初始提示开始,该模型会生成一系列思维或答案,每个思维或答案都引导后续的查询或扩展。这些分支随着模型探索不同的推理路径而逐渐展开。该框架通过 LLM 支持的自我评估来跟踪进度,确保每个步骤的有效性。如果某条推理路线出现矛盾或进入死胡同,系统可以回溯到先前的节点,深入了解其他的可能性。

这种结构化且灵活的方法使 LLM 能够更有效地处理复杂的多步推理任务。它类似于人类在思想和选择的迷宫中穿行,按需重新评估和调整策略的能力。

本质上,ToT 框架为 LLM  配备了更像人类的推理和解决问题的能力,提升了它们在需要深度战略思考和决策的任务中的效率。

思维链 (CoT) 与思维树 (ToT) 之间的区别

思维树 (ToT) 和思维链 (CoT) 框架作为概念算法,用于理解语言模型 (LM) 中文本生成的组织和进程,例如生成式预训练转换器 (如,GPT-3 和 GPT-4)。这些提示技术是提示工程的一部分,旨在通过设计输入(提示)有效地引导 LM 生成首选输出。

思维树提示:该框架基于模型分层生成文本的能力,由中心主题或想法引导分支的子主题和细节。这种方法反映了模型如何通过生成越来越具体和相关的文本(类似于树结构)来扩展特定提示。它允许使用前瞻和树搜索策略,在模型确定路径之前探索多个分支,使其适合一般问题解决和需要复杂决策的场景。这种方法结合常识性推理和启发式方法来评估每个分支的质量。采用自洽机制,以通过多次提示模型来提供可靠的评估。

思维链提示:相比之下,这一概念对应于模型以线性、从左到右的方式生成文本的能力,其中每个后续令牌都直接受到先前令牌的影响。这种连续的进程反映了一种更简单、更直观的文本生成方法。CoT 对于需要清晰、按部就班的逻辑流程的任务非常有效。通过提供少量示例的小样本学习可以增强这种方法,帮助理解上下文。CoT 是提示工程中的基础技术,它提供了一种更易于实施的基础方法,但可能缺乏 ToT 的深度和复杂性。

比较和应用:ToT 代表一种更复杂且相互关联的文本生成方法,而 CoT 则通过使用树形搜索和前瞻策略表现为更为简单的顺序进展。ToT 的分层特性使其适合于需要深入了解多个解决方案的任务,如强化学习场景,在这些场景中,回溯和替代策略至关重要。然而,CoT 的线性进展更适合需要清晰、合乎逻辑的思维顺序的任务。

在实际应用中,包括 GPT-3 和 GPT-4 在内的 LM 的 API 使用诸如 ToT 和 CoT 等提示技术来增强其在从创意写作到复杂问题解决等各种任务中的表现。 [2] 提示工程也在不断发展,为在语言模型中充分利用高级转换器的性能提供了强大的工具。

超越提示思考,全面了解背景

通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明

谢谢!您已订阅。

思维树的优势和局限性

ToT 框架代表了 LLM 解决复杂问题能力的重大进步。然而,在这个框架的实施中存在一些涉及到增加固有复杂性的权衡。

优势

该框架为人工智能领域带来了诸多好处,包括:

提高解决问题的能力

ToT 通过使 LLM 能够同时深入了解多个推理路径,显著提升其解决问题的能力。这反映了人类的认知过程,即考虑多个潜在解决方案,并选择最可行的一个。例如,在需要战略思维或规划的任务中,如解决字迹或进行创意写作,与传统方法相比,ToT 表现出卓越的性能,成功率更高。通过分解中间步骤,ToT 在提升复杂推理能力上尤为明显,特别是在初始决策极对结果有很大影响的挑战性任务中。[4]

不确定性的处理

不确定思维树 (TouT) 是 ToT 的扩展,专门应对 LLM 决策过程中固有的不确定性。通过量化和管理这些不确定性,TouT 可以获得更准确、更可靠的结果。它使用诸如蒙特卡罗 Dropout 等技术。该技术在机器学习,特别是在深度学习模型中,用于估计预测的不确定性。它涉及在训练和推理过程中随机丢弃神经元,从而在网络中创建多条不同的“路径”。通过对这些不同路径的预测求平均值,该模型可以提供更可靠的不确定性估计。这种技术在需要精确和可信预测的应用中具有重要价值,例如医学诊断或财务预测。[5]

限制

除了这些优势,还存在一些必须考虑的固有局限性。

计算开销

ToT 框架涉及复杂操作,如维护多条决策路径、回溯以及深入了解替代解决方案。这些过程计算密集,通常需要大量的处理能力和内存资源。对资源的需求可能会限制 ToT 的可扩展性,特别是在计算资源受限的环境中或在快速响应时间至关重要的实时应用程序中。

实施复杂性

构建思维树系统涉及整合各个组件,如提词器代理、检查器模块、内存模块和思维树控制器。[1]每个组件都必须经过精细调整以协调工作,这可能是一个复杂且耗时的过程。此外,系统的效能在很大程度上依赖于其实施的质量。任何组件的配置不当都会降低整个系统的有效性,使其可靠性降低,甚至导致错误的解决问题途径。

搜索效率低下

最近的研究对 ToT 式提示的效率提出了担忧。研究表明,ToT 可能会导致对低价值推理路径的冗余探索,从而产生不必要的计算开销和更慢的任务性能。与更有针对性的规划策略不同,ToT 缺乏优先考虑有希望的分支的机制,这可能阻碍其在复杂推理任务中的有效性。[6]


为了解决这些问题,研究人员提出了另一种方法——搜索思维——它结合了规划启发式和信息增益,以更高效地引导推理过程。这些发现表明,尽管 ToT 仍然是一个强大的概念框架,但其实际应用可能受益于与更高效的搜索策略的整合。[6]

AI 学院

成为 AI 专家

获取相关知识,以确定 AI 投资的优先级,从而推动业务增长。立即开始观看我们的免费 AI 学院视频,引领 AI 在组织中的未来应用。

成功案例

ToT 框架已在多种应用中证明了其有效性,彰显了其稳健性和适应性。以下是 4 个典型的案例研究,其中 ToT 显著提升了解决问题的能力:

数独解谜

ToT 在数独解谜中的应用展示了其应对复杂逻辑挑战的能力。ToT 通过引导模型完成各种数字排列,并使其在遇到矛盾时回溯,简化了通往正确解决方案的路径。这种动态重新评估决策的能力显著提升了问题解决的准确性和效率,凸显了 ToT 相对于更静态的问题解决方法的优势。[1]

24 点游戏

在具有策略性的算术游戏 24 点中,ToT 通过让模型深入了解多条计算路径,显著提高了成功率。这种自适应推理过程使模型能够以更具创造性和有效性的方式解决谜题,展示了 ToT 在数字问题解决中增强认知灵活性的能力。[4]

创意写作

ToT 还应用于创意写作任务,可帮助 LLM 生成更连贯、更符合上下文的叙述。通过将思维过程构建成分支树,模型可深入了解不同的情节发展或风格选择,并根据最有可能的结果进行选择或修改。这种方法提高了 LLM 生成文本的质量和原创性,为自动化叙事提供了一种更细致的方法。[4]

5x5 填字游戏

ToT 的另一个显著应用是解决 5x5 迷你填字游戏。该框架使模型能够为每个纵横字谜线索考虑多个单词选项,不仅要评估它们的独立性,还要考虑其如何与已填入的单词进行交互。这种迭代式整体评估方法有助于提高解谜的准确性,展示了 ToT 在语言复杂的任务中应用逻辑和上下文推理的能力。在这种情况下,ToT 的使用突显了其在整合多种类型知识和推理策略的任务中的多功能性和有效性。[4]

这些案例研究展示了思维树框架的多样化能力,从增强逻辑和数字推理到提升基于语言任务中创造力和上下文理解。每个示例都突显了 ToT 彻底改变跨学科问题解决方式的潜力。

最新进展

ToT 研究的最新进展集中在扩展其功能并解决其应用中的固有挑战。关键进展包括:

不确定性量化 

不确定思维树 (TouT) 的引入标志着 ToT 研究的重大进展。TouT 通过集成不确定性量化机制来评估每条决策路径的可靠性,从而增强 ToT 的功能。这一发展对于需要在不确定条件下做出决策且错误成本可能很高的应用至关重要。[5]

全局决策 

进一步的研究侧重于在使用 ToT 时提升 LLM 的全局决策能力。最近的研究将反馈回路引入到框架中,使模型能够从过去的决策中学习,并实时调整其推理过程。这种迭代反馈机制有助于改进决策过程,使其更加动态并能够响应问题不断变化的情况。此类增强功能旨在使 LLM 的推理能力更接近人类的认知过程,其中从过去的经验中学习对未来决策的形成起着关键作用。[4]

这些最新进展强调了持续改进和扩展思维树框架,以确保其在日益复杂的问题解决场景中的适用性和有效性。这些进展不仅提升了 LLM 的能力,还为人工智能领域的研究和应用开辟了新的途径。

脚注

[1] Long, J.(2023 年 5 月)。大型语言模型引导型思维树。

[2] Karthik Narasimhan, S. Y. (July 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm

[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.

[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601. 
https://arxiv.org/abs/2305.10601

[5] 5 Shentong Mo, M. X. (September 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694

[6] Katz, M., Kokel, H., Srinivas, K., & Sohrabi, S. (2024). Thought of search: Planning with language models through the lens of efficiency. In A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, & C. Zhang (Eds.), Advances in Neural Information Processing Systems (Vol. 37, pp. 138491–138568).

相关解决方案
IBM® watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解人工智能解决方案
人工智能 (AI) 咨询服务

IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。

深入了解人工智能服务
采取下一步行动

通过使用 AI,IBM Concert 可揭示有关运营的重要洞察分析,并提供特定于应用程序的改进建议。了解 Concert 如何推动您的业务向前发展。

深入了解 Concert 深入了解业务流程自动化解决方案