随着生成式人工智能在信息安全领域发挥着越来越重要的作用,红队在识别他人可能忽略的漏洞方面扮演着至关重要的角色。
2024 年,数据泄露的平均成本达到 488 万美元的历史新高,而企业需要确切知道它们的漏洞所在。鉴于它们采用生成式 AI 的速度之快,其中某些漏洞很可能存在于 AI 模型自身或用于训练这些模型的数据中。
这便是特定于 AI 的红队测试的用武之地。它是一种用于测试 AI 系统应对动态威胁场景的弹性的方法。其中涉及模拟真实的攻击场景,以在将 AI 系统部署到生产环境之前和之后对其进行压力测试。红队测试在确保组织能享受生成式 AI 的优点而不增加风险方面变得至关重要。
IBM 的 X-Force Red Offensive Security 服务遵循迭代流程,并可通过持续测试解决四个关键领域中的漏洞:
在本文中,我们将重点介绍针对 AI 模型和训练数据的三种对抗性攻击。
多数主流 AI 模型都内置了保护措施,以降低其产生有害内容的风险。例如,正常情况下,您无法要求 ChatGPT 或 Copilot 编写恶意代码。不过,提示注入攻击和越狱等方法却可绕过这些保护措施。
AI 红队测试的其中一个目标是故意让AI“行为失控”—就像攻击者一样。“越狱”便是这样一种方法,它涉及使用创造性提示来让模型推翻其安全过滤器。然而,虽然越狱理论上可帮助用户实施实际犯罪,但大多数恶意参与者却会使用其他攻击途径—仅仅是因为这些途径更为有效。
提示注入攻击要严重得多。它们并不直接针对模型本身,而是通过在看似无害的提示中混淆恶意指令来攻击整个软件供应链。例如,攻击者可能会利用提示注入让 AI 模型泄露敏感信息(如 API 密钥),从而可能获得对其连接到的其他系统的后门访问权限。
红队还可模拟规避攻击;这是一种对抗性攻击,攻击者可通过巧妙地修改输入来欺骗模型,使其对指令进行分类或误解。这些修改通常是人类无法察觉的。然而,它们仍可操控 AI 模型,使其采取不希望采取的行动。例如,此情况可能包括更改输入图像中的单个像素以欺骗计算机视觉模型的分类器,例如用于自动驾驶车辆的分类器。
攻击者还会在训练与开发过程中以 AI 模型为目标;因此,红队必须模拟相同的攻击,以识别可能危及整个项目的风险。数据投毒攻击发生在攻击者将恶意数据引入训练集之时,从而破坏学习过程并将漏洞嵌入模型自身。此时,整个模型将成为进一步攻击的潜在切入点。如果训练数据被泄露,通常需要从头开始重新训练模型。这是一项极为消耗资源且耗时的操作。
从 AI 模型开发过程的最初阶段开始,红队的参与就至关重要,因为此举可降低数据投毒的风险。红队会在与现有生产系统隔离的安全沙盒环境中模拟真实的数据投毒攻击。此举可让我们深入了解模型在数据投毒方面的脆弱性,以及真正的威胁参与者可能会如何渗透或破坏训练流程。
AI 红队也可主动识别数据收集管道中的弱点。大语言模型 (LLM) 通常会从大量不同来源提取数据。例如,ChatGPT 使用来自数百万个网站、书籍和其他来源的大量文本数据语料库进行训练。在构建专有 LLM 时,组织必须清楚地知道它们的训练数据来自哪里,以及如何对其进行质量审查。虽然此工作主要是安全审计员和流程审查员的工作,但红队可使用渗透测试来评估模型抵御数据收集管道中缺陷的能力。
专有 AI 模型通常(至少部分)基于组织自己的数据进行训练。例如,部署在客户服务中的 LLM 可能会使用公司的客户数据进行训练,以便提供最相关的输出。理想情况下,只应基于每个人均可查看的匿名数据来训练模型。即便如此,由于模型反演攻击和成员关系推断攻击,隐私泄露仍可能存在风险。
即使在部署之后,生成式 AI 模型仍可保留用于训练的数据的痕迹。例如,Google DeepMind AI 研究实验室的团队使用简单的提示成功诱骗 ChatGPT 泄露训练数据。因此,模型反转攻击可能允许恶意参与者重建训练数据,从而可能会在此过程中泄露机密信息。
成员关系推理攻击的工作方式与之类似。在本例中,攻击者会借助另一个模型进行推理,以试图预测某个特定数据点是否被用于训练模型。这是一种更复杂的方法,而攻击者首先会根据被攻击模型的输出训练一个单独的模型(称为“成员关系推理模型”)。
例如,假设某一模型会根据客户购买历史记录进行训练,以提供个性化产品推荐。攻击者随后可创建一个成员关系推断模型,并将其输出与目标模型的输出进行比较,从而推断出他们可能会用于定向攻击的潜在敏感信息。
无论哪种情况,红队均可评估 AI 模型是否能通过推理直接或间接地不慎泄露敏感信息。此功能有助于识别工作流程中训练数据的漏洞,例如未按组织隐私政策进行足够匿名化的数据。
建立对 AI 的信任需要积极主动的战略,而 AI 红队测试在其中发挥着至关重要的作用。通过使用对抗性训练和模拟模型反转攻击等方法,红队可识别其他安全分析师可能忽视的漏洞。
这些发现可帮助 AI 开发人员优先考虑并实施主动保护措施,以防止真正的威胁参与者利用相同的漏洞。对于企业来说,此举可降低安全风险并提高对 AI 模型的信任,而这些模型会迅速深入到众多业务关键型系统中。