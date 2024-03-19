NIST 定义了两种提示注入攻击类型：直接和间接提示注入。在直接提示注入中，用户输入一个文本提示，导致 LLM 执行意外或未经授权的操作。间接提示注入是指攻击者破坏或降低 LLM 所依赖的数据质量。

最著名的直接提示注入方法之一是 DAN（Do Anything Now），这是一种针对 ChatGPT 的提示注入。DAN 利用角色扮演绕过内容过滤器。在其最初的版本中，提示指示 ChatGPT 它现在是 DAN。DAN 可以做任何它想做的事，比如假装帮助一个不法分子制造和引爆爆炸物。这种策略通过遵循角色扮演场景，规避了阻止其提供犯罪或有害信息的过滤器。ChatGPT 的开发者 OpenAI 跟踪这种策略并更新模型以防止其使用，但用户不断绕过过滤器，以至于这种方法已经发展到（至少）DAN 12.0。

正如 NIST 所指出的，间接提示注入依赖于攻击者能够提供生成式 AI 模型会摄取的来源，比如 PDF、文档、网页甚至用于生成虚假声音的音频文件。人们普遍认为，间接提示注入是生成式 AI 的最大安全漏洞，而目前却没有简单的方法来查找和修复这些攻击。这种提示类型的例子多种多样。它们的范围从荒谬的（让聊天机器人使用“海盗腔”做出响应）到有害的（使用社交工程聊天说服用户透露信用卡和其他个人数据）再到广泛的（劫持 AI 助手 向您的整个联系人列表发送诈骗电子邮件）。