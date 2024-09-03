Think 时事通讯
在人工智能迅速发展的世界中，出现了一个新的挑战。“AI耳语者”通过说服行为良好的聊天机器人违反自己的规则，试探 AI 伦理的边界。
这些漏洞被称为提示注入或“越狱”，它们暴露了 AI 系统的漏洞，并引发了对其安全性的担忧。微软最近推出的“Skeleton Key”技术引起了轩然大波，该技术是一种多步骤流程，旨在绕过 AI 的伦理防护。但这种方法并不像看起来那么新颖。
“万能钥匙的独特之处在于，它需要与 AI 进行多次交互，”IBM 威胁情报首席架构师 Chenta Lee 解释道。“以前，大多数即时注入攻击旨在一次性混淆 AI。万能钥匙需要多次尝试，这可以提高成功率”。
AI 越狱的世界是多样化的，并且不断发展。有些攻击出奇的简单，而有些则涉及需要复杂黑客专业知识的复杂场景。将它们联系在一起的是一个共同的目标：推动这些数字助理超越其编程限制。
这些漏洞利用了语言模型的本质。AI 聊天机器人经过训练可以提供帮助并理解上下文。越狱者创造了一些场景，让 AI 认为忽略其通常的伦理准则是可以接受的。
尽管像万能钥匙之类的多步骤攻击占据了头条新闻，但 Lee 认为单次攻击技术仍然是一个更紧迫的问题。“一次性攻击大型语言模型更容易，”他指出。“想象一下，在您的简历中注入提示信息，以迷惑人工智能驱动的招聘系统。这是一次性攻击，无法进行多次交互。”
据网络安全专家称，潜在的后果令人担忧。SlashNext Email Security+ 的现场首席技术官 Stephen Kowski 警告称：“恶意行为者可能会使用万能钥匙绕过 AI 保护措施，生成有害内容，传播虚假信息，或自动进行大规模社会工程攻击。”
尽管许多这些攻击仍然停留在理论层面，但现实世界的后果开始浮现。Lee 提到了一个例子，研究人员说服一家公司的人工智能驱动虚拟代理提供大量未经授权的折扣。“您可以迷惑他们的虚拟代理，并获得不错的折扣。这可能不是公司想要的结果，”他说。
在他自己的研究中，Lee 开发了概念验证，展示了如何催眠 LLM 以创建易受攻击的恶意代码，以及如何在近乎实时的情况下拦截和扭曲实时音频对话。
防御这些攻击是一项持续的挑战。Lee 提出了两种主要方法：改进 AI 训练和构建 AI 防火墙。
“我们希望改进训练，让模型自己能识别出‘哦，有人在攻击我’，”Lee 解释说。“我们还将检查语言模型的所有传入查询，并检测提示注入。”
随着生成式 AI越来越融入我们的日常生活，了解这些漏洞不仅仅是专家关心的问题。对于任何与 AI 系统互动的人来说，了解其潜在弱点正变得越来越重要。
Lee 将其与数据库早期的 SQL 注入攻击相提并论。“行业花了 5-10 年的时间才让所有人明白，在编写 SQL 查询时，需要参数化所有输入，才能免受注入攻击，”他说道。“对于 AI，我们正开始在各个地方使用语言模型。人们需要明白，您不能只向 AI 发出简单的指令，因为这会让您的软件容易受到攻击。”
万能钥匙等越狱方法的发现可能会削弱公众对 AI 的信任，从而可能减缓有益 AI 技术的采用。Zendata CEO Narayana Pappu 表示，透明度和独立验证对于重建信心至关重要。
“AI 开发人员和组织可以在创建强大、多功能的语言模型和确保强有力的防滥用措施之间取得平衡，”他说。“他们可以通过内部系统透明度、了解 AI/供应链风险以及在开发流程的每个阶段构建评估工具来实现这一目标。”
