美国国家标准与技术研究院 (NIST) 密切关注 AI 生命周期是有充分理由的。随着 AI 的广泛传播，发现和利用 AI 网络安全漏洞的情况也在增加。提示注入就是其中一种专门攻击生成式 AI的漏洞。
在《对抗性机器学习：攻击和缓解措施的分类与术语》中，NIST 定义了各种对抗性机器学习 (AML) 战术和网络攻击，例如提示注入，并建议用户如何缓解和管理这些攻击。AML 战术提取有关机器学习 (ML) 系统行为的信息，以发现它们如何被操纵。这些信息被用来攻击 AI 及其大型语言模型 (LLM)，以绕过安全措施、避开保障机制并开辟利用路径。
NIST 定义了两种提示注入攻击类型：直接和间接提示注入。在直接提示注入中，用户输入一个文本提示，导致 LLM 执行意外或未经授权的操作。间接提示注入是指攻击者破坏或降低 LLM 所依赖的数据质量。
最著名的直接提示注入方法之一是 DAN（Do Anything Now），这是一种针对 ChatGPT 的提示注入。DAN 利用角色扮演绕过内容过滤器。在其最初的版本中，提示指示 ChatGPT 它现在是 DAN。DAN 可以做任何它想做的事，比如假装帮助一个不法分子制造和引爆爆炸物。这种策略通过遵循角色扮演场景，规避了阻止其提供犯罪或有害信息的过滤器。ChatGPT 的开发者 OpenAI 跟踪这种策略并更新模型以防止其使用，但用户不断绕过过滤器，以至于这种方法已经发展到（至少）DAN 12.0。
正如 NIST 所指出的，间接提示注入依赖于攻击者能够提供生成式 AI 模型会摄取的来源，比如 PDF、文档、网页甚至用于生成虚假声音的音频文件。人们普遍认为，间接提示注入是生成式 AI 的最大安全漏洞，而目前却没有简单的方法来查找和修复这些攻击。这种提示类型的例子多种多样。它们的范围从荒谬的（让聊天机器人使用“海盗腔”做出响应）到有害的（使用社交工程聊天说服用户透露信用卡和其他个人数据）再到广泛的（劫持 AI 助手 向您的整个联系人列表发送诈骗电子邮件）。
这些攻击往往隐藏得很好，这使得它们既有效又难以阻止。如何防范直接提示注入？正如 NIST 所指出的那样，您无法完全阻止它们，但防御策略可以提供一定程度的保护。对于模型创建者来说，NIST 建议仔细策划训练数据集。他们还建议对模型进行训练，了解哪些类型的输入表明提示注入尝试，以及如何识别对抗性提示。
对于间接提示注入，NIST 建议通过人工干预来微调模型，这被称为来自人类反馈的强化学习 (RLHF)。RLHF 有助于模型更好地与人类价值观保持一致，从而防止不必要的行为。另一项建议是从检索到的输入中过滤掉指令，这样可以防止执行来自外部来源的不需要的指令。NIST 进一步建议使用 LLM 调解员来帮助检测不依赖检索源执行的攻击。最后，NIST 提出了基于可解释性的解决方案。这意味着可以利用识别异常输入的模型的预测轨迹来检测并阻止异常输入。
生成式 AI 和那些希望利用其漏洞的人将继续改变网络安全格局。但是，同样的变革力量也可以提供解决方案。了解更多关于 IBM Security 如何提供加强安全防御的 AI 网络安全解决方案。
