Think 时事通讯
超越提示思考,全面了解背景
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
思维树 (ToT) 是一个开创性的框架,旨在增强大型语言模型 (LLM) 的推理能力。这种方法模拟了人类解决问题的认知策略,使 LLM 能够以结构化的方式探索多种可能的解决方案,类似于树状分支路径。[1]
ToT 是一个复杂的框架,旨在通过以类似于人类认知过程的方式构建其推理,来增强LLM 解决问题的能力。该框架由四个关键部分组成:
ToT 框架明确地将问题分解为更小的、且易于管理的步骤,称为思维,这些步骤组合在一起构成解决方案。每个思维的大小都应适当,不能太大以至于难以处理,也不能太小而无用。例如,如果您在计划旅行,则可能需要先决定旅行目的地,然后选择最佳交通方式,最后选择住宿地点。在数学问题中,思维可能是一条方程式或简洁的概念解释。通过这种方式,问题可以分解为易于处理和单独评估的关键步骤。分解过程取决于问题的性质,确保每个思维步骤对评估既重要又可行。
定义思维构成后,确定如何生成这些思维。该框架提出了两种主要技术。[4]
一旦生成思维,就必须对期进行评估,以确保朝着解决问题的方向推进。该框架采用两种策略来实现这一目标:
最后一个组成部分涉及用于在解决方案空间中导航的搜索算法。该框架通常采用两种基本算法:
通过整合这些组件,ToT 框架可以通过系统地考虑多种解决方案并排除错误的方案,以模仿人类解决问题的过程。
ToT 框架的运作动态涉及对可能的解决方案进行迭代、树状结构的探索。从初始提示开始,该模型会生成一系列思维或答案,每个思维或答案都引导后续的查询或扩展。这些分支随着模型探索不同的推理路径而逐渐展开。该框架通过 LLM 支持的自我评估来跟踪进度,确保每个步骤的有效性。如果某条推理路线出现矛盾或进入死胡同,系统可以回溯到先前的节点,深入了解其他的可能性。
这种结构化且灵活的方法使 LLM 能够更有效地处理复杂的多步推理任务。它类似于人类在思想和选择的迷宫中穿行,按需重新评估和调整策略的能力。
本质上,ToT 框架为 LLM 配备了更像人类的推理和解决问题的能力,提升了它们在需要深度战略思考和决策的任务中的效率。
思维树 (ToT) 和思维链 (CoT) 框架作为概念算法,用于理解语言模型 (LM) 中文本生成的组织和进程,例如生成式预训练转换器 (如,GPT-3 和 GPT-4)。这些提示技术是提示工程的一部分,旨在通过设计输入(提示)有效地引导 LM 生成首选输出。
思维树提示:该框架基于模型分层生成文本的能力,由中心主题或想法引导分支的子主题和细节。这种方法反映了模型如何通过生成越来越具体和相关的文本(类似于树结构)来扩展特定提示。它允许使用前瞻和树搜索策略,在模型确定路径之前探索多个分支,使其适合一般问题解决和需要复杂决策的场景。这种方法结合常识性推理和启发式方法来评估每个分支的质量。采用自洽机制,以通过多次提示模型来提供可靠的评估。
思维链提示:相比之下,这一概念对应于模型以线性、从左到右的方式生成文本的能力,其中每个后续令牌都直接受到先前令牌的影响。这种连续的进程反映了一种更简单、更直观的文本生成方法。CoT 对于需要清晰、按部就班的逻辑流程的任务非常有效。通过提供少量示例的小样本学习可以增强这种方法,帮助理解上下文。CoT 是提示工程中的基础技术,它提供了一种更易于实施的基础方法,但可能缺乏 ToT 的深度和复杂性。
比较和应用:ToT 代表一种更复杂且相互关联的文本生成方法,而 CoT 则通过使用树形搜索和前瞻策略表现为更为简单的顺序进展。ToT 的分层特性使其适合于需要深入了解多个解决方案的任务,如强化学习场景,在这些场景中,回溯和替代策略至关重要。然而,CoT 的线性进展更适合需要清晰、合乎逻辑的思维顺序的任务。
在实际应用中,包括 GPT-3 和 GPT-4 在内的 LM 的 API 使用诸如 ToT 和 CoT 等提示技术来增强其在从创意写作到复杂问题解决等各种任务中的表现。 [2] 提示工程也在不断发展,为在语言模型中充分利用高级转换器的性能提供了强大的工具。
Think 时事通讯
通过 Think 时事通讯,随时了解最新的行业新闻、AI 工具以及提示工程领域的新兴趋势。此外,还可以访问新的阅读解释器、教程和专家洞察分析,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。
ToT 框架代表了 LLM 解决复杂问题能力的重大进步。然而,在这个框架的实施中存在一些涉及到增加固有复杂性的权衡。
该框架为人工智能领域带来了诸多好处,包括:
ToT 通过使 LLM 能够同时深入了解多个推理路径,显著提升其解决问题的能力。这反映了人类的认知过程,即考虑多个潜在解决方案,并选择最可行的一个。例如,在需要战略思维或规划的任务中,如解决字迹或进行创意写作,与传统方法相比,ToT 表现出卓越的性能,成功率更高。通过分解中间步骤,ToT 在提升复杂推理能力上尤为明显,特别是在初始决策极对结果有很大影响的挑战性任务中。[4]
不确定思维树 (TouT) 是 ToT 的扩展,专门应对 LLM 决策过程中固有的不确定性。通过量化和管理这些不确定性,TouT 可以获得更准确、更可靠的结果。它使用诸如蒙特卡罗 Dropout 等技术。该技术在机器学习,特别是在深度学习模型中,用于估计预测的不确定性。它涉及在训练和推理过程中随机丢弃神经元,从而在网络中创建多条不同的“路径”。通过对这些不同路径的预测求平均值,该模型可以提供更可靠的不确定性估计。这种技术在需要精确和可信预测的应用中具有重要价值,例如医学诊断或财务预测。[5]
除了这些优势,还存在一些必须考虑的固有局限性。
ToT 框架涉及复杂操作,如维护多条决策路径、回溯以及深入了解替代解决方案。这些过程计算密集,通常需要大量的处理能力和内存资源。对资源的需求可能会限制 ToT 的可扩展性,特别是在计算资源受限的环境中或在快速响应时间至关重要的实时应用程序中。
构建思维树系统涉及整合各个组件,如提词器代理、检查器模块、内存模块和思维树控制器。[1]每个组件都必须经过精细调整以协调工作,这可能是一个复杂且耗时的过程。此外,系统的效能在很大程度上依赖于其实施的质量。任何组件的配置不当都会降低整个系统的有效性,使其可靠性降低,甚至导致错误的解决问题途径。
ToT 框架已在多种应用中证明了其有效性,彰显了其稳健性和适应性。以下是 4 个典型的案例研究,其中 ToT 显著提升了解决问题的能力:
ToT 在数独解谜中的应用展示了其应对复杂逻辑挑战的能力。ToT 通过引导模型完成各种数字排列,并使其在遇到矛盾时回溯,简化了通往正确解决方案的路径。这种动态重新评估决策的能力显著提升了问题解决的准确性和效率,凸显了 ToT 相对于更静态的问题解决方法的优势。[1]
在具有策略性的算术游戏 24 点中,ToT 通过让模型深入了解多条计算路径,显著提高了成功率。这种自适应推理过程使模型能够以更具创造性和有效性的方式解决谜题,展示了 ToT 在数字问题解决中增强认知灵活性的能力。[4]
ToT 还应用于创意写作任务,可帮助 LLM 生成更连贯、更符合上下文的叙述。通过将思维过程构建成分支树,模型可深入了解不同的情节发展或风格选择,并根据最有可能的结果进行选择或修改。这种方法提高了 LLM 生成文本的质量和原创性,为自动化叙事提供了一种更细致的方法。[4]
ToT 的另一个显著应用是解决 5x5 迷你填字游戏。该框架使模型能够为每个纵横字谜线索考虑多个单词选项,不仅要评估它们的独立性,还要考虑其如何与已填入的单词进行交互。这种迭代式整体评估方法有助于提高解谜的准确性,展示了 ToT 在语言复杂的任务中应用逻辑和上下文推理的能力。在这种情况下,ToT 的使用突显了其在整合多种类型知识和推理策略的任务中的多功能性和有效性。[4]
这些案例研究展示了思维树框架的多样化能力,从增强逻辑和数字推理到提升基于语言任务中创造力和上下文理解。每个示例都突显了 ToT 彻底改变跨学科问题解决方式的潜力。
ToT 研究的最新进展集中在扩展其功能并解决其应用中的固有挑战。关键进展包括:
不确定思维树 (TouT) 的引入标志着 ToT 研究的重大进展。TouT 通过集成不确定性量化机制来评估每条决策路径的可靠性,从而增强 ToT 的功能。这一发展对于需要在不确定条件下做出决策且错误成本可能很高的应用至关重要。[5]
进一步的研究侧重于在使用 ToT 时提升 LLM 的全局决策能力。最近的研究将反馈回路引入到框架中,使模型能够从过去的决策中学习,并实时调整其推理过程。这种迭代反馈机制有助于改进决策过程,使其更加动态并能够响应问题不断变化的情况。此类增强功能旨在使 LLM 的推理能力更接近人类的认知过程,其中从过去的经验中学习对未来决策的形成起着关键作用。[4]
这些最新进展强调了持续改进和扩展思维树框架,以确保其在日益复杂的问题解决场景中的适用性和有效性。这些进展不仅提升了 LLM 的能力,还为人工智能领域的研究和应用开辟了新的途径。
[1] Long, J.(2023 年 5 月)。大型语言模型引导型思维树。
[2] Karthik Narasimhan, S. Y. (July 2023). Official Repository of Tree of Thoughts (ToT). https://github.com/princeton-nlp/tree-of-thought-llm
[3] Pengfei Liu, W. Y. (2021). Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing. ACM Computing Surveys.
[4] Shunyu Yao, D. Y. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. ArXiv, abs/2305.10601.
https://arxiv.org/abs/2305.10601
[5] 5 Shentong Mo, M. X. (September 2023). Tree of Uncertain Thoughts Reasoning for Large Language Models. ArXiv, abs/2309.07694. https://arxiv.org/abs/2309.07694
[6] Katz, M., Kokel, H., Srinivas, K., & Sohrabi, S. (2024). Thought of search: Planning with language models through the lens of efficiency. In A. Globerson, L. Mackey, D. Belgrave, A. Fan, U. Paquet, J. Tomczak, & C. Zhang (Eds.), Advances in Neural Information Processing Systems (Vol. 37, pp. 138491–138568).