什么是检索增强生成 (RAG)?

什么是检索增强生成 (RAG)?

检索增强生成(RAG)是一种架构,通过将人工智能 (AI) 模型与外部知识库连接起来,优化其性能。RAG 帮助大型语言模型 (LLM)提供更相关、质量更高的响应。

生成式 AI 模型在大型数据集上进行训练,它们参考这些信息来生成输出。然而,训练数据集是有限的,并且仅限于 AI 开发人员可以访问的信息,例如公共领域作品、互联网文章、社交媒体内容和其他可公开访问的数据。

RAG 允许生成式 AI 模型访问其他外部知识库,例如企业内部组织数据、学术期刊和专业数据集。通过将相关信息整合到生成过程中,聊天机器人和其他自然语言处理 (NLP)工具可以创建更准确的特定领域内容,而无需进一步训练。

RAG 有哪些优点?

RAG 使组织能够在将生成式 AI 模型适应特定领域用例时避免高昂的重新训练成本。企业可以使用 RAG 来填补机器学习模型知识库中的空白,从而提供更好的答案。

RAG 的主要优点包括:

  • 访问最新的领域特定数据
  • 提升用户信任度
  • 扩展用例
  • 加强开发人员控制和模型维护
  • 提高数据安全

经济高效的 AI 实施和 AI 扩展

在实施AI时,大多数组织首先选择一个基础模型:作为开发更先进版本基础的深度学习模型。基础模型通常具有用公开可用的训练数据填充的通用知识库,例如训练时可用的网络内容。

重新训练基础模型或对其进行微调,即在更小、特定领域数据集的新数据上进一步训练基础模型,计算成本高且资源密集。该模型调整其部分或全部参数以适应新的专业数据。

借助 RAG,企业可以使用内部的权威数据源,并在无需重新训练的情况下获得类似的模型性能提升。企业可以根据需要扩展 AI 应用的实施规模,同时缓解成本和资源需求的增加。

访问最新的领域特定数据

生成式 AI 模型有一个知识截止点 ,即其训练数据最后一次更新的时间点。随着模型超过其知识截止点的时间越长,其相关性会逐渐降低。RAG 系统实时将模型与补充的外部数据连接起来,并将最新的信息整合到生成的响应中。

企业利用 RAG 为模型配备特定信息,例如专有客户数据、权威研究和其他相关文件。

RAG 模型还可以通过应用程序编程接口(API)连接到互联网,获取实时社交媒体动态和消费者评论,以更好地了解市场情绪。同时,由于模型引擎可以访问最新新闻和搜索,可将检索到的信息整合到文本生成过程,从而提供更准确的呼应。

降低 AI 幻觉的风险

OpenAI 的 GPT 等生成式 AI 模型通过检测其数据中的模式,然后使用这些模式来预测用户输入最可能的结果来工作。有时模型会检测到不存在的模式。当模型将错误的或虚构的信息当作事实呈现时,就会发生幻觉或虚构。

RAG 将 LLM 锚定在由真实、权威和最新数据支持的特定知识中。与仅在其训练数据上运行的生成模型相比,RAG 模型倾向于在其外部数据的上下文中提供更准确的答案。虽然 RAG 可以降低出现幻觉的风险,但它不能使模型完全无误。

提升用户信任度

聊天机器人是一种常见的生成式 AI 实现,可以回答人类用户提出的问题。为了使 ChatGPT 等聊天机器人取得成功,用户需要认为其输出是可信的。RAG 模型可以在其响应中包含对外部数据中知识源的引用。

当 RAG 模型引用其来源时,人类用户可以验证这些输出以确认准确性,同时查阅引用的作品以获取后续澄清和额外信息。企业数据存储通常是一个复杂而孤立的迷宫。带有引用的 RAG 响应可以直接指向用户所需的材料。

扩展用例

访问更多数据意味着一个模型可以处理更广泛的提示。企业可以通过扩展其知识库来优化模型,从模型中获得更多价值,进而扩大模型生成可靠结果的上下文范围。

通过将生成式 AI 与检索系统相结合,RAG 模型可以针对复杂查询从多个数据源检索和整合信息。

加强开发人员控制和模型维护

现代组织不断处理大量数据,从订单输入到市场预测,再到员工流动率等。有效的数据管道建设和数据存储对于强有力的 RAG 实施至关重要。

同时,开发人员和数据科学家可以随时调整模型可访问的数据源。将模型从一个任务重新定位到另一个任务,变成了调整其外部知识源的任务,而不是微调或重新训练。如果需要微调,开发人员可以优先进行这项工作,而不是管理模型的数据源。

提高数据安全

因为 RAG 将模型连接到外部知识源,而不是将该知识合并到模型的训练数据中,所以它在模型和外部知识之间保持了界限。企业可以使用 RAG 来保存第一方数据,同时授予模型访问权限,这种访问权限可随时撤销。

然而,企业必须保持警惕,维护外部数据库本身的安全。RAG 使用矢量数据库,这些数据库使用嵌入将数据点转换为数字表示。如果这些数据库遭到入侵,攻击者可以逆向矢量嵌入过程并访问原始数据,尤其是在矢量数据库未加密的情况下。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此处管理您的订阅或取消订阅。有关更多信息,请参阅我们的 IBM 隐私声明

RAG 用例

RAG 系统本质上使用户能够使用对话语言查询数据库。RAG 系统的数据驱动问答功能已应用于一系列用例,包括:

  • 专业聊天机器人和虚拟助理
     

  • 研究
     

  • 内容生成
     

  • 市场分析和产品开发
     

  • 知识引擎
     

  • 推荐服务

专业聊天机器人和虚拟助理

想要实现客户支持自动化的企业可能会发现,他们的 AI 模型缺乏为客户提供充分帮助所需的专门知识。RAG AI 系统将模型接入内部数据,为客服聊天机器人提供有关公司产品、服务和政策的最新知识。

同样的原理也适用于 AI 虚拟形象和个人助手。将底层模型与用户的个人数据连接起来,并参考之前的互动,可以提供更加个性化的用户体验。

研究

RAG 模型能够读取内部文档并与搜索引擎交互,在研究方面表现出色。金融分析师可以根据最新的市场信息和既往的投资活动,为客户生成特定的报告,而医疗专业人员可以处理患者和机构的记录。

内容生成

RAG 模型引用权威来源的能力可以带来更可靠的内容生成。虽然所有生成式 AI 模型都可能产生幻觉,但 RAG 使用户更容易验证输出的准确性。

市场分析和产品开发

企业领导者可以查阅社交媒体趋势、竞争对手活动、行业相关突发新闻和其他在线资源,以便更好地为业务决策提供信息。与此同时,产品经理可以在考虑未来的开发选择时参考客户反馈和用户行为。

知识引擎

RAG 系统可以为员工提供公司内部信息。简化的新员工入职流程、更快的人力资源支持以及为现场员工提供按需指导,只是企业可以利用 RAG 提升工作表现的几种方式。

推荐服务

通过分析用户以往的行为,并将其与当前的供应进行比较,RAG 系统可以提供更准确的推荐服务。电子商务平台和内容交付服务都可以使用 RAG 来保持客户的参与度和消费力。

Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

RAG 的工作原理

RAG 通过将信息检索模型与生成式 AI 模型相结合,生成更具权威性的内容。RAG 系统会查询知识库,并在生成响应之前向用户提示添加更多上下文。

标准的 LLM 从其训练数据集中获取信息。RAG 在 AI 工作流中增加了一个信息检索组件,收集相关信息并将其输入到生成式 AI 模型中,以提高响应的质量和实用性。

RAG 系统遵循五个阶段的过程:

RAG(检索增强生成)过程示意图
  1. 用户提交提示。
     

  2. 信息检索模型查询知识库以获取相关数据。
     

  3. 相关信息从知识库返回到整合层。
     

  4. RAG 系统通过从检索到的数据中增强上下文,为 LLM 构建一个增强的提示。
     

  5. LLM 生成输出并将结果返回给用户。

此过程展示了 RAG 名称的由来。RAG 系统从知识库中检索数据,使用额外的上下文增强提示并生成响应。

RAG 系统的组件

RAG 系统包含四个主要组件:

  • 知识库:系统的外部数据存储库。
  • 检索器:在知识库中搜索相关数据的 AI 模型。
  • 整合层:RAG 架构中负责协调其整体功能的部分。
  • 生成器: 生成式 AI 模型,可根据用户查询和检索数据创建输出。

其他组件可能包括一个排名器,它根据相关性对检索到的数据进行排名,以及一个输出处理程序,它为用户格式化生成的响应。

知识库

构建 RAG 系统的第一阶段是创建一个可查询的知识库。外部数据存储库可能包含来自无数来源的数据:PDF、文档、指南、网站、音频文件等。其中大部分将是非结构化数据,这意味着它尚未被标记。

RAG 系统使用一种称为嵌入的过程,将数据转换为称为矢量的数值表示。嵌入模型将数据矢量化到一个多维数学空间中,根据相似性排列数据点。被判定为相关性较近的数据点会被紧密地放在一起。

为了保持 RAG 系统的质量和相关性,知识库必须不断更新。

LLM 输入受限于模型的上下文窗口:即模型在不丢失上下文的情况下所能处理的数据量。将文档分割成更小的块有助于确保生成的嵌入不会超出 RAG 系统中 LLM 的上下文窗口。

块大小是 RAG 系统的一个重要超参数。当块太大时,数据点可能会变得过于笼统,无法直接对应于潜在的用户查询。但如果块太小,数据点可能会失去语义一致性。

检索器

矢量化数据为语义矢量搜索准备知识库,语义矢量搜索是一种识别数据库中与用户查询相似的点的技术。语义搜索机器学习算法可以查询海量数据库并快速识别相关信息,与传统的关键字搜索相比,可以减少延迟。

信息检索模型将用户的查询转换为嵌入,然后在知识库中搜索类似的嵌入。然后,它的发现结果从知识库中返回。

整合层

整合层是 RAG 架构的中心,协调进程并在网络中传递数据。借助知识库中的额外数据,RAG 系统为 LLM 组件创建了一个新的提示。此提示由原始用户查询加上检索模型返回的增强上下文组成。

RAG 系统采用多种提示工程技术,以自动化的方式创建有效的提示,帮助 LLM 返回最佳可能的响应。与此同时,像开源的 LangChainLlamaIndexIBM watsonx Orchestrate 之类的 LLM 编排框架,负责管理整个 AI 系统的运行。

生成器

生成器根据集成层提供的增强提示生成输出。这个提示将用户输入与检索到的数据结合起来,并指示生成器在响应中考虑这些数据。生成器通常是预训练的语言模型,例如 GPT、ClaudeLlama

RAG 和微调有什么区别?

RAG 和微调之间的区别在于,RAG 允许 LLM 查询外部数据源,而微调则是在特定领域的数据上训练 LLM。两者都有一个共同的总体目标:让 LLM 在特定领域表现得更好。

RAG 和微调通常是相对的,但也可以同时使用。微调让模型更熟悉目标领域和输出要求,而 RAG 则帮助模型生成相关且高质量的输出。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
人工智能服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示