什么是 RAG（检索增强生成）？| IBM

什么是检索增强生成 (RAG)？

检索增强生成（RAG）是一种架构，通过将人工智能 (AI) 模型与外部知识库连接起来，优化其性能。RAG 帮助大型语言模型（LLM）提供更相关、质量更高的响应。

生成式 AI 模型在大型数据集上进行训练，它们参考这些信息来生成输出。然而，训练数据集是有限的，并且仅限于 AI 开发人员可以访问的信息，例如公共领域作品、互联网文章、社交媒体内容和其他可公开访问的数据。

RAG 允许生成式 AI 模型访问其他外部知识库，例如企业内部组织数据、学术期刊和专业数据集。通过将相关信息整合到生成过程中，聊天机器人和其他自然语言处理 (NLP)工具可以创建更准确的特定领域内容，而无需进一步训练。

RAG 有哪些优点？

RAG 使组织能够在将生成式 AI 模型适应特定领域用例时避免高昂的重新训练成本。企业可以使用 RAG 来填补机器学习模型知识库中的空白，从而提供更好的答案。

RAG 的主要优点包括：

经济高效的 AI 实施和 AI 扩展

访问最新的领域特定数据

降低 AI 幻觉的风险

提升用户信任度

扩展用例

加强开发人员控制和模型维护

提高数据安全

经济高效的 AI 实施和 AI 扩展

在实施AI时，大多数组织首先选择一个基础模型：作为开发更先进版本基础的深度学习模型。基础模型通常具有用公开可用的训练数据填充的通用知识库，例如训练时可用的网络内容。

重新训练基础模型或对其进行微调，即在更小、特定领域数据集的新数据上进一步训练基础模型，计算成本高且资源密集。该模型调整其部分或全部参数以适应新的专业数据。

借助 RAG，企业可以使用内部的权威数据源，并在无需重新训练的情况下获得类似的模型性能提升。企业可以根据需要扩展 AI 应用的实施规模，同时缓解成本和资源需求的增加。

访问最新的领域特定数据

生成式 AI 模型有一个知识截止点 ，即其训练数据最后一次更新的时间点。随着模型超过其知识截止点的时间越长，其相关性会逐渐降低。RAG 系统实时将模型与补充的外部数据连接起来，并将最新的信息整合到生成的响应中。

企业利用 RAG 为模型配备特定信息，例如专有客户数据、权威研究和其他相关文件。

RAG 模型还可以通过应用程序编程接口（API）连接到互联网，获取实时社交媒体动态和消费者评论，以更好地了解市场情绪。同时，由于模型引擎可以访问最新新闻和搜索，可将检索到的信息整合到文本生成过程，从而提供更准确的呼应。

降低 AI 幻觉的风险

OpenAI 的 GPT 等生成式 AI 模型通过检测其数据中的模式，然后使用这些模式来预测用户输入最可能的结果来工作。有时模型会检测到不存在的模式。当模型将错误的或虚构的信息当作事实呈现时，就会发生幻觉或虚构。

RAG 将 LLM 锚定在由真实、权威和最新数据支持的特定知识中。与仅在其训练数据上运行的生成模型相比，RAG 模型倾向于在其外部数据的上下文中提供更准确的答案。虽然 RAG 可以降低出现幻觉的风险，但它不能使模型完全无误。

提升用户信任度

聊天机器人是一种常见的生成式 AI 实现，可以回答人类用户提出的问题。为了使 ChatGPT 等聊天机器人取得成功，用户需要认为其输出是可信的。RAG 模型可以在其响应中包含对外部数据中知识源的引用。

当 RAG 模型引用其来源时，人类用户可以验证这些输出以确认准确性，同时查阅引用的作品以获取后续澄清和额外信息。企业数据存储通常是一个复杂而孤立的迷宫。带有引用的 RAG 响应可以直接指向用户所需的材料。

扩展用例

访问更多数据意味着一个模型可以处理更广泛的提示。企业可以通过扩展其知识库来优化模型，从模型中获得更多价值，进而扩大模型生成可靠结果的上下文范围。

通过将生成式 AI 与检索系统相结合，RAG 模型可以针对复杂查询从多个数据源检索和整合信息。

加强开发人员控制和模型维护

现代组织不断处理大量数据，从订单输入到市场预测，再到员工流动率等。有效的数据管道建设和数据存储对于强有力的 RAG 实施至关重要。

同时，开发人员和数据科学家可以随时调整模型可访问的数据源。将模型从一个任务重新定位到另一个任务，变成了调整其外部知识源的任务，而不是微调或重新训练。如果需要微调，开发人员可以优先进行这项工作，而不是管理模型的数据源。

提高数据安全

因为 RAG 将模型连接到外部知识源，而不是将该知识合并到模型的训练数据中，所以它在模型和外部知识之间保持了界限。企业可以使用 RAG 来保存第一方数据，同时授予模型访问权限，这种访问权限可随时撤销。

然而，企业必须保持警惕，维护外部数据库本身的安全。RAG 使用矢量数据库，这些数据库使用嵌入将数据点转换为数字表示。如果这些数据库遭到入侵，攻击者可以逆向矢量嵌入过程并访问原始数据，尤其是在矢量数据库未加密的情况下。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

RAG 用例

RAG 系统本质上使用户能够使用对话语言查询数据库。RAG 系统的数据驱动问答功能已应用于一系列用例，包括：

专业聊天机器人和虚拟助理
研究
内容生成
市场分析和产品开发
知识引擎
推荐服务

专业聊天机器人和虚拟助理

想要实现客户支持自动化的企业可能会发现，他们的 AI 模型缺乏为客户提供充分帮助所需的专门知识。RAG AI 系统将模型接入内部数据，为客服聊天机器人提供有关公司产品、服务和政策的最新知识。

同样的原理也适用于 AI 虚拟形象和个人助手。将底层模型与用户的个人数据连接起来，并参考之前的互动，可以提供更加个性化的用户体验。

研究

RAG 模型能够读取内部文档并与搜索引擎交互，在研究方面表现出色。金融分析师可以根据最新的市场信息和既往的投资活动，为客户生成特定的报告，而医疗专业人员可以处理患者和机构的记录。

内容生成

RAG 模型引用权威来源的能力可以带来更可靠的内容生成。虽然所有生成式 AI 模型都可能产生幻觉，但 RAG 使用户更容易验证输出的准确性。

市场分析和产品开发

企业领导者可以查阅社交媒体趋势、竞争对手活动、行业相关突发新闻和其他在线资源，以便更好地为业务决策提供信息。与此同时，产品经理可以在考虑未来的开发选择时参考客户反馈和用户行为。

知识引擎

RAG 系统可以为员工提供公司内部信息。简化的新员工入职流程、更快的人力资源支持以及为现场员工提供按需指导，只是企业可以利用 RAG 提升工作表现的几种方式。

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

转到视频集

RAG 的工作原理

RAG 通过将信息检索模型与生成式 AI 模型相结合，生成更具权威性的内容。RAG 系统会查询知识库，并在生成响应之前向用户提示添加更多上下文。

标准的 LLM 从其训练数据集中获取信息。RAG 在 AI 工作流中增加了一个信息检索组件，收集相关信息并将其输入到生成式 AI 模型中，以提高响应的质量和实用性。

RAG 系统遵循五个阶段的过程：

用户提交提示。
信息检索模型查询知识库以获取相关数据。
相关信息从知识库返回到整合层。
RAG 系统通过从检索到的数据中增强上下文，为 LLM 构建一个增强的提示。
LLM 生成输出并将结果返回给用户。

此过程展示了 RAG 名称的由来。RAG 系统从知识库中检索数据，使用额外的上下文增强提示并生成响应。

RAG 系统的组件

RAG 系统包含四个主要组件：

知识库：系统的外部数据存储库。

检索器：在知识库中搜索相关数据的 AI 模型。

整合层：RAG 架构中负责协调其整体功能的部分。

生成器：生成式 AI 模型，可根据用户查询和检索数据创建输出。

其他组件可能包括一个排名器，它根据相关性对检索到的数据进行排名，以及一个输出处理程序，它为用户格式化生成的响应。

知识库

构建 RAG 系统的第一阶段是创建一个可查询的知识库。外部数据存储库可能包含来自无数来源的数据：PDF、文档、指南、网站、音频文件等。其中大部分将是非结构化数据，这意味着它尚未被标记。

RAG 系统使用一种称为嵌入的过程，将数据转换为称为矢量的数值表示。嵌入模型将数据矢量化到一个多维数学空间中，根据相似性排列数据点。被判定为相关性较近的数据点会被紧密地放在一起。

为了保持 RAG 系统的质量和相关性，知识库必须不断更新。

LLM 输入受限于模型的上下文窗口：即模型在不丢失上下文的情况下所能处理的数据量。将文档分割成更小的块有助于确保生成的嵌入不会超出 RAG 系统中 LLM 的上下文窗口。

块大小是 RAG 系统的一个重要超参数。当块太大时，数据点可能会变得过于笼统，无法直接对应于潜在的用户查询。但如果块太小，数据点可能会失去语义一致性。

检索器

矢量化数据为语义矢量搜索准备知识库，语义矢量搜索是一种识别数据库中与用户查询相似的点的技术。语义搜索机器学习算法可以查询海量数据库并快速识别相关信息，与传统的关键字搜索相比，可以减少延迟。

信息检索模型将用户的查询转换为嵌入，然后在知识库中搜索类似的嵌入。然后，它的发现结果从知识库中返回。

整合层

整合层是 RAG 架构的中心，协调进程并在网络中传递数据。借助知识库中的额外数据，RAG 系统为 LLM 组件创建了一个新的提示。此提示由原始用户查询加上检索模型返回的增强上下文组成。

RAG 系统采用多种提示工程技术，以自动化的方式创建有效的提示，帮助 LLM 返回最佳可能的响应。与此同时，像开源的 LangChain 和 LlamaIndex 或 IBM watsonx Orchestrate 之类的 LLM 编排框架，负责管理整个 AI 系统的运行。

生成器

生成器根据集成层提供的增强提示生成输出。这个提示将用户输入与检索到的数据结合起来，并指示生成器在响应中考虑这些数据。生成器通常是预训练的语言模型，例如 GPT、Claude 或 Llama。

RAG 和微调有什么区别？

RAG 和微调之间的区别在于，RAG 允许 LLM 查询外部数据源，而微调则是在特定领域的数据上训练 LLM。两者都有一个共同的总体目标：让 LLM 在特定领域表现得更好。

RAG 和微调通常是相对的，但也可以同时使用。微调让模型更熟悉目标领域和输出要求，而 RAG 则帮助模型生成相关且高质量的输出。

解锁生成式 AI + ML 的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是检索增强生成 (RAG)？

什么是检索增强生成 (RAG)？

RAG 有哪些优点？

经济高效的 AI 实施和 AI 扩展

访问最新的领域特定数据

降低 AI 幻觉的风险

提升用户信任度

扩展用例

加强开发人员控制和模型维护

提高数据安全

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

RAG 用例

专业聊天机器人和虚拟助理

研究

内容生成

市场分析和产品开发

知识引擎

推荐服务

面向企业的生成式 AI 的兴起

RAG 的工作原理

RAG 系统的组件

知识库

检索器

整合层

生成器

RAG 和微调有什么区别？

资源