AI 智能体规划是指人工智能 (AI) 智能体确定一系列行动以实现特定目标的过程。它涉及决策、目标优先级排序和行动排序,通常会使用各种规划算法和框架。
AI 智能体规划是多种类型智能体的通用模块,与感知、推理、决策、行动、记忆、通信和学习等其他模块并存。规划与其他模块协同工作,以帮助确保智能体实现设计者所需的结果。
并非所有智能体都会规划。与立即对输入做出响应的简单反应型智能体不同,规划智能体在执行之前可预测未来的状态并生成结构化的行动计划。这使得 AI 规划对于需要多步骤决策、优化和适应性的自动化任务至关重要。
大型语言模型 (LLM)(如 OpenAI 的 GPT)以及涉及机器学习算法的相关技术的进步,导致了近年来生成式人工智能(生成式 AI)的蓬勃发展,而进一步的发展促进了自主式智能体领域的出现。
通过集成工具、API、硬件接口和其他外部资源,智能体式 AI 系统的自主性越来越强,能够进行实时决策,并善于在各种用例中解决问题。
复杂的智能体必须先做出决策才能行动,而如果没有事先制定计划,它们就无法做出正确的决策。智能体规划由几个关键组件组成,它们协同工作,以促成最佳决策。
AI 规划的第一步,也是最关键的一步,是定义明确的目标。目标是智能体决策过程的指导原则,决定了其最终要实现的状态。目标可以是静态的,在整个规划过程中保持不变,也可以是动态的,根据环境条件或用户交互进行调整。
例如,自动驾驶汽车的目标可能是在遵守安全法规的同时高效地到达特定目的地。如果没有明确的目标,智能体就会缺乏方向,导致行为不稳定或效率低下。
如果目标很复杂,智能体式AI 模型会将其分解为更小、更易于管理的子目标,这个流程称为任务分解。这使得系统能够以分层方式专注于复杂的任务。
LLM 在任务分解中发挥着至关重要的作用,将高级目标分解为更小的子任务,然后通过各种步骤执行这些子任务。例如,用户可能会要求使用自然语言提示的聊天机器人规划一次旅行。
智能体首先会将任务分解为预订航班、寻找酒店和规划行程等组件。分解后,智能体可以使用应用程序编程接口 (API) 来获取实时数据、检查定价,甚至建议目的地。
为了有效进行规划,智能体必须对其环境有一个结构化的了解。这种理解是通过状态表示实现的,该表示对影响决策的当前条件、约束和背景因素进行建模。
智能体从其代表先前交互的训练数据或数据集获得了一些内置知识,但是仍需要感知才能实时了解其环境。智能体通过感觉输入收集数据,使其能够对环境进行建模,同时还能对用户输入和描述自身内部状态的数据进行建模。
状态表示的复杂性根据任务的不同而变化。例如,在国际象棋游戏中,状态包括棋盘上所有棋子的位置,而在机器人导航系统中,状态可能涉及空间坐标、障碍物和地形条件。
状态表示的准确性直接影响智能体做出明智决策的能力,因为它决定了智能体预测其行动结果的能力。
一旦智能体确定了目标并评估了环境,它就必须确定一系列行动,将其从当前状态过渡到所需的目标状态。这一过程被称为动作序列化,它涉及构建一个逻辑清晰且高效的步骤集,智能体必须按照该步骤集执行。
智能体需要识别潜在的行动,将该列表缩减为最佳行动,对它们进行优先排序,并根据环境中的潜在变化识别行动和条件步骤之间的依赖关系。智能体可能会为序列中的每个步骤分配资源,或根据环境约束安排动作。
例如,吸尘机器人需要决定清洁房间的最有效路径,确保它覆盖所有必要区域,而不会出现不必要的重复。如果操作顺序安排不当,AI 智能体可能会采取低效或冗余的步骤,从而导致资源浪费和执行时间增加。
ReAct 框架是 AI 中用于处理动态决策的一种方法。在 ReAct 框架中,推理是指智能体确定实现特定目标所需的行动或战略的认知过程。
这一阶段类似于智能体式 AI 中的规划阶段,在这一阶段,智能体会生成一系列步骤来解决问题或完成任务。其他新兴框架包括 ReWOO、RAISE 和 Reflexion,它们都有自己的优点和缺点。
AI 规划通常涉及选择实现目标的最佳路径,尤其是在有多个选项时。优化有助于确保智能体在特定环境下所选择的动作序列是最高效的、最具成本效益的,或在其他方面最有利的。这一过程通常需要评估不同的因素,例如时间、资源消耗、风险和潜在回报。
例如,负责检索物品的仓库机器人必须确定最短、最安全的路线,以避免碰撞并缩短操作时间。如果没有适当的优化,AI 智能体可能会执行可行但不是最优的计划,从而导致效率低下。多种方法可以用来优化决策,包括:
启发式搜索算法通过估计通往目标的最佳路径,帮助智能体找到最佳解决方案。这些算法依赖于启发式函数,即对给定状态与预期目标接近程度的数学估计。启发式搜索对于智能体需要快速找到最优路径的结构化环境尤为有效。
强化学习使智能体能够通过反复试验来优化规划,并了解随着时间的推移哪些行动序列会带来最佳结果。智能体与环境交互,接收奖励或惩罚形式的反馈,并相应地完善其战略。
在现实场景中,AI 智能体通常在结果不确定的模糊环境中运行。概率规划方法通过评估多种可能的结果并选择预期效用最高的行动来考虑不确定性。
单智能体规划是一回事,但在多智能体系统中,AI 智能体必须自主工作,同时相互作用,才能实现个体或集体目标。
AI 智能体在多智能体系统中的规划过程比单个智能体更为复杂,因为每个智能体不仅需要计划自己的行动,还要考虑其他智能体的行动以及它们之间的决策相互作用。
根据智能体架构,系统中的每个智能体通常都有自己单独的目标,其中可能涉及完成特定任务或最大化奖励函数。在许多多智能体系统中,智能体需要协同工作才能实现共同目标。
这些目标可以由总体系统定义,也可以从智能体的交互中出现。智能体需要机制来沟通和协调其目标,尤其是在合作场景中。这可以通过显式信息传递、共享任务定义或隐式协调来实现。
多智能体系统中的规划可以是集中式的,由单一实体或控制器(可能是 LLM 智能体)为整个系统生成规划。
每个智能体都从这个中央机构接收指令或计划。它也可以是分散的,即智能体制定自己的计划,但通过合作来帮助确保这些计划相互一致并有助于实现全局目标,这通常需要沟通和谈判。
这种协作决策过程可以提高效率,减少任务执行中的偏差,通过交叉验证和建立共识有助于避免幻觉,并鼓励智能体朝着共同的目标努力。
工作流中的各个阶段并不总是按照严格的逐步线性方式进行。虽然在概念上这些阶段通常是区分开的,但在实践中,它们往往是交错进行或迭代的,这取决于任务的性质以及智能体所处环境的复杂性。
AI 解决方案可能因其设计而异,但在典型的工作流中,规划之后的下一个阶段是动作执行,智能体将执行计划中定义的动作。这包括执行任务以及通过检索增强生成 (RAG)、工具使用和函数调用(工具调用)与外部系统或知识库进行交互。
为这些功能构建 AI 智能体可能会涉及 LangChain 。Python 脚本、JSON 数据结构和其他编程工具可增强 AI 的决策能力。
执行计划后,一些智能体可以利用记忆从他们的经验中学习并相应地迭代他们的行为。
在动态环境中,规划过程必须具有适应性。智能体会不断收到有关环境和其他智能体行动的反馈,因此必须相应地调整自己的计划。这可能涉及修改目标、调整行动顺序,或适应新智能体进入或离开系统的情况。
当智能体检测到其当前计划不再可行时(例如,由于与另一个智能体的冲突或环境的变化),它可能会进行重新规划以调整其策略。智能体可以使用思维链来调整策略,即在采取行动之前反思实现目标所需步骤的过程。
构建、部署和管理强大的 AI 助手和智能体,运用生成式 AI 实现工作流和流程自动化。
借助值得信赖的 AI 解决方案,您可以勾勒未来业务发展蓝图。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。