保护生成式 AI 解决方案

 包含多种形状与符号的流程图,其中有蓝色对话气泡、问号与对号
概述

生成式 AI 系统面临诸多独特的安全挑战。企业在保障大语言模型 (LLM) 访问安全的同时,也需要平衡模型的创造力与潜在风险——既要防范模型生成不当或错误内容,又要避免敏感信息泄露,更要杜绝模型执行违规或非法操作。

OWASP LLM 与生成式 AI 应用十大风险

开放式 Web 应用程序安全项目 (OWASP) 已发布针对 LLM 及生成式 AI 应用的十大风险与漏洞首版清单。下图展示了这些漏洞在智能体式 AI 架构中的情况。

 

OWASP 十大生成式 AI 威胁在智能体式 AI 架构中的映射关系。
  1. 提示词注入:攻击者通过向 LLM 输入恶意内容实施操控。注入方式包括在提示词中嵌入恶意指令、插入会被模型解析的超链接(如“请解析以下 URL 中的文本内容”)等。提示词注入可以让攻击者诱导模型无视原始指令,生成不当或错误输出。

  2. 不安全输出处理:指对 LLM 输出内容缺乏充分的恶意意图验证。此类漏洞的案例包括:要求 LLM 生成可被浏览器直接执行的 JavaScript 代码,或直接运行 LLM 生成的系统级脚本。

  3. 训练数据投毒:攻击者通过篡改模型的训练数据或配置信息植入漏洞。例如,攻击者可以修改业务流程描述,导致系统允许向特定账户无限转账;或篡改微调数据使模型优先推荐竞品而非本企业产品。

  4. 模型拒绝服务:攻击者通过特殊指令使模型过度消耗计算资源,导致服务响应缓慢或不可用。模型拒绝服务的手法包括持续提交接近上下文窗口上限的提示词消耗内存,或构造会触发递归解析的指令形成死循环。

  5. 供应链安全漏洞既包含传统风险——使用可能存在未知漏洞的第三方软件,也涵盖模型在训练过程中因使用未经验证或众包数据而产生的特殊风险。

  6. 敏感信息泄露指模型泄露敏感或个人隐私数据。这种情况可能源于:成功的提示词注入攻击、对企业系统输出的不当处理,或是通过恶意提示词诱导模型生成敏感内容(如有效信用卡号)等途径。

  7. 不安全插件设计指模型直接调用的工具存在设计缺陷,例如工具以管理员权限运行,或插件输出内容可能引发提示词注入攻击。

  8. 过度授权表现为模型或自主智能体在接收 LLM 产生的意外或模糊输出时,具备执行破坏性或未授权操作的能力。

  9. 过度依赖指未对模型输出结果进行事实核查或流程管控。过度依赖的典型案例是当模型产生幻觉时,错误输出被当作事实采纳(如客服机器人错误解读门店退换货政策),这种现象同样可能出现在代码生成或图像生成场景中。

  10. 模型盗窃指攻击者通过入侵、物理窃取或复制方式获取模型及其权重参数。一旦获得模型,攻击者就可以利用模型中嵌入的宝贵知识产权,或复制模型供自己使用。
     
生成式 AI 系统防护体系

下图在原有架构基础上增加了安全组件部署位置,以应对/缓解 OWASP 十大漏洞。

 

智能体式 AI 解决方案架构图中标注了防范 AI 威胁的安全控制点。

新增了身份与访问管理 (IAM) 组件,提供强大的用户身份和角色;通过控制对可能导致模型盗窃或泄露的应用功能和 API 的访问,降低模型盗窃的风险。

新增了智能体身份与访问控制(智能体访问控制),其功能类似于特权用户,用于将智能体访问权限与用户身份和角色相匹配;防范因模型幻觉、构造不当或模糊提示而导致的过度授权和异常智能体行为。

在整个架构中新增了生成式 AI 监控组件(生成式 AI 监控),以防范提示词注入、不安全输出处理、敏感数据泄露和过度依赖等问题。结合使用生成式 AI 监控和传统数据泄露监控,以防范基于提示词/响应的攻击,例如注入到 SQL 查询结果中的提示词,以及可能出现在 API 调用、数据库查询等结果中的敏感信息泄露。

通过新增配置管理和监控工具,以及围绕模型训练、微调和配置数据建立结构化的版本控制与发布流程,来缓解训练数据投毒攻击。

最后,新增了集成行为监控与事件关联组件,用于从各个组件的日志中识别潜在漏洞和攻击。新增了通知与告警组件,用于向系统操作员通知潜在问题;并新增了响应编排组件,用于自动化和/或协调对已识别问题的系统响应及人工响应。

后续步骤

与我们的专家交流,了解如何加速您的生成式 AI 落地应用。

内容添加者:

Chris KirbyWissam Dib、Manav Gupta


更新日期:2025 年 1 月 31 日