什么是智能体式 RAG？| IBM

作者

Staff writer

Staff Editor, AI Models

IBM Think

智能体式 RAG 是使用 AI 智能体来促进检索增强生成 (RAG)。智能体式 RAG 系统将 AI 智能体添加到 RAG 管道中，以提高适应性和准确性。与传统的 RAG 系统相比，智能体式 RAG 支持大语言模型 (LLM) 从多个来源进行信息检索和处理更复杂的工作流。

什么是 RAG？

检索增强生成这种人工智能 (AI) 应用将生成式 AI 模型与外部知识库进行连接？知识库中的数据为用户查询提供了更多上下文，以便 LLM 可以生成更准确的响应。RAG 使 LLM 在领域特定的上下文中更加准确，而无需微调。

支持 RAG 的 AI 模型不再仅仅依赖训练数据，还可以通过 API 和数据源的其他连接实时访问最新数据。标准 RAG 管道包括两个 AI 模型：

信息检索组件，通常是嵌入模型与包含待检索数据的矢量数据库配对。

生成式 AI 组件，通常是 LLM。

为了响应使用自然语言的用户查询，嵌入模型将查询转换为矢量嵌入，然后从知识库中检索类似的数据。AI 系统将检索到的数据与用户查询相结合，以生成情境感知响应。

什么是智能体式 AI？

智能体式 AI 是一种能够自行确定并执行行动方案的 AI。本文发布时可用的大多数智能体都是具有函数调用能力的 LLM，这意味着它们可以调用工具来执行任务。理论上，AI 智能体是具有三个显著特征的 LLM：

它们具有短期和长期记忆，这使它们能够计划和执行复杂的任务。内存还允许智能体引用以前的任务，并使用这些数据为未来的工作流提供信息。智能体式 RAG 系统使用语义缓存来存储和引用以前的查询、上下文和结果集。

它们能够进行查询路由、分步规划和决策。智能体利用其记忆能力来保留信息，并制定适当的行动方案来响应复杂的查询和提示。

它们可以通过 API 执行工具调用。功能更强大的智能体可以选择要将哪些工具用于它们为响应用户交互而生成的工作流程。

智能体工作流可以包含一个 AI 智能体，也可以包含融合多个智能体的多智能体系统。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

智能体式 RAG 与传统 RAG 系统的对比

智能体式 RAG 与传统 RAG 实施相比，带来了几项重大改进：

灵活性：智能体式 RAG 应用程序从多个外部知识库中提取数据，并允许使用外部工具。标准 RAG 管道将 LLM 连接到单个外部数据集。例如，许多企业 RAG 系统将聊天机器人与包含专有组织数据的知识库配对。
适应性：传统的 RAG 系统是被动的数据检索工具，可根据特定查询找到相关信息。RAG 系统无法适应不断变化的上下文或访问其他数据。获得最佳结果通常需要大量的提示工程。

同时，智能体式 RAG 是从基于静态规则的查询过渡到自适应、智能的问题解决。多智能体系统鼓励多个 AI 模型进行协作，并检查彼此的工作。
准确性：传统的 RAG 系统不会验证或优化自己的结果。人们必须辨别系统的性能是否达到了可接受的标准。系统本身无法知道它是否找到了正确的数据或是否成功地整合了数据以促进上下文感知生成。AI 智能体可以反复研究以前的流程，从而随时间推移提高结果的效果。
可扩展性：依靠 RAG 智能体网络的协同工作、利用多个外部数据源并使用工具调用和规划功能，智能体式 RAG 具有更大的可扩展性。开发人员可以构建灵活且可扩展的 RAG 系统，以处理各种用户查询。
多模态：智能体式 RAG 系统利用多模态 LLM 的最新进展，可以处理更多的数据类型，例如图像和音频文件。多模态模型处理多种类型的结构化、半结构化和非结构化数据。例如，最近的几个 GPT 模型除了标准文本生成之外，还可以生成视觉和音频内容。

考虑几名员工在办公室工作的情况。传统的 RAG 系统是那些在被赋予特定任务并被告知如何完成这些任务时表现良好的员工。他们不情愿主动出手，如果没有明确的指示，会感到不自在。

相比之下，智能体式 RAG 系统是一个积极主动且富有创造力的团队。他们也善于听从指示，但喜欢采取主动并自己解决挑战。他们不怕为可能难倒或令同事退却的复杂任务提出自己的解决方案。

智能体式 RAG 比传统 RAG 更好吗？

虽然智能体式 RAG 通过函数调用、多步推理和多智能体系统来优化结果，但它并不总是更好的选择。更多运作的智能体意味着更多的费用，而智能体式 RAG 系统通常需要为更多词元付费。智能体式 RAG 相比传统 RAG 可以提高速度，但 LLM 也会引入延迟，因为模型可能需要更多时间来生成其输出。

最后，智能体并不总是可靠的。他们可能会难以完成任务，甚至无法完成，这取决于任务的复杂性和所使用的智能体。智能体之间的合作并不总是很顺畅，而且可能会争夺资源。系统中的智能体越多，协作就越复杂，出现伴随的问题的可能性就越高。即使是最严密的 RAG 系统也无法彻底排除幻觉的可能性。

AI 学院

成为 AI 专家

获取相关知识，以确定 AI 投资的优先级，从而推动业务增长。立即开始观看我们的免费 AI 学院视频，引领 AI 在组织中的未来应用。

观看系列视频

智能体式 RAG 如何工作？

智能体式 RAG 的工作原理是将一种或多种类型的 AI 智能体纳入 RAG 系统。例如，智能体式 RAG 系统可能结合多个信息检索智能体，每个智能体专门研究某个领域或特定类型的数据源。一个智能体查询外部数据库，而另一个智能体可以筛选电子邮件和网络结果。

您可以在 GitHub 上找到智能体式 AI 框架，如 LangChain 和 LlamaIndex，以及协调 LangGraph 框架。有了它们，就可以以最低的成本试验 RAG 的智能体架构。如果使用开源模型，例如 Granite 或 Llama-3 等，RAG 系统设计人员还可以降低 OpenAI 等其他提供商要求的费用，同时获得更高的可观察性。

智能体式 RAG 系统可以包含一种或多种类型的 AI 智能体，例如：

路由智能体

查询规划智能体

ReAct 智能体

计划-执行智能体

路由智能体

路由智能体确定使用哪些外部知识源和工具来处理用户查询。它们处理用户提示并识别最有可能生成最佳响应的 RAG 管道。在单智能体式 RAG 系统中，路由智能体选择要查询的数据源。

查询规划智能体

查询规划智能体程序是 RAG 管道的任务管理器。它们处理复杂的用户查询，将其分解为一个个步骤。它们将得到的子查询提交给 RAG 系统中的其他智能体，然后将响应组合起来以获得一个内聚的整体回复。使用一个智能体来管理其他 AI 模型的过程是一种 AI 编排。

ReAct 智能体

ReAct（推理和行动）是一个智能体框架，它创建多智能体系统，可以创建逐步解决方案并据其采取行动。其还可以找到能够提供帮助的适当工具。根据每个步骤的结果，ReAct 智能体可以动态调整所生成工作流的后续阶段。

计划-执行智能体

计划-执行智能体框架是从 ReAct 智能体升级而来的。其可以执行多步骤工作流，而无需回调主智能体，从而降低成本并提高效率。而且由于规划智能体必须推理完成任务所需的所有步骤，因此完成率和质量往往更高。

智能体式 RAG 用例

虽然智能体式 RAG 适合任何传统 RAG 应用程序，但更大的计算需求使其更适合需要查询多个数据源的情况。智能体式 RAG 应用包括：

实时问答：企业可以部署由 RAG 驱动的聊天机器人和常见问题解答，为员工和客户提供最新、准确的信息。

自动化支持：想要简化客户支持服务的企业，可以使用自动化 RAG 系统来处理较简单的客户查询。智能体式 RAG 系统可以将要求更高的支持请求上报给工作人员。

数据管理：RAG 系统使得在专有数据存储中查找信息变得更加容易。员工无需亲自整理数据库，就能快速获取所需数据。

2025 年主要战略技术趋势：AI智能体

下载这份 Gartner 研究报告，了解agentic AI 对 IT 领导者的潜在机遇和风险，以及如何为这一新一轮 AI 创新做好准备。

什么是智能体式 RAG？

作者