数据投毒攻击根据意图可分为两类:针对性攻击与非针对性攻击。
数据投毒攻击可以采取多种形式,包括标签翻转、数据注入、后门攻击和干净标签攻击。每种攻击类型针对 AI 模型功能的不同方面。
在标签翻转攻击中,恶意行为者操纵训练数据中的标签,将正确的标签与不正确的标签交换。以芝加哥大学开发的 AI 投毒工具 Nightshade 为例。Nightshade 允许数字艺术家在将图像上传到网上之前巧妙地更改图像中的像素。当 AI 公司抓取在线数据集来培训其生成式 AI 模型时,经过修改的图像会扰乱训练过程。这种操纵可能会导致 AI 模型错误分类或行为不可预测,有时会将奶牛的图像误认为是皮包。1
数据注入将虚构的数据点引入训练数据集,通常是为了引导 AI 模型的行为朝着特定的方向发展。一个常见的示例是 SQL 注入,攻击者在输入字段中添加“1=1”或“=”。当在 SQL 查询中包含此类恶意数据时,它会改变查询的含义,返回所有记录,而不是仅返回一条记录。2同样,在机器学习模型中,数据注入可以操纵模型的决策。这可能会导致模型分类错误或表现出偏倚,从而破坏数据完整性和整体模型健壮性。
在干净标签攻击中,攻击者以难以检测的方式修改数据。关键特征是中毒数据仍然显示正确标记,这使得传统的数据验证方法难以识别。这些攻击利用了现代机器学习和深度学习系统的复杂性,可能无法标记看似无害的微小变化。清洁标签攻击是最隐蔽的攻击之一,使得 AI 模型容易受到输出偏差和模型功能下降的影响。
虽然数据投毒和提示注入针对的是 AI 生命周期的不同阶段,但它们有着相同的目标:利用模型输入中的漏洞。数据投毒会操纵训练数据集,嵌入损坏或恶意的数据,从而损害模型的学习过程和长期功能。相比之下,提示注入将恶意输入伪装成合法提示,操纵生成式 AI 系统泄露敏感数据、传播不实信息甚至更糟。
黑客可以单独或同时部署这些战略来扩大其影响力。例如,理论上,有权访问组织系统的内部人员可以通过嵌入有偏倚的数据来毒化一个训练数据集,从而绕过验证措施。随后,内部人员可以通过执行提示注入,激活有毒数据并触发恶意行为来利用受感染的系统。这可能包括泄露敏感信息、为进一步的对抗性攻击创建后门或削弱系统的决策功能。
数据投毒会对 AI 和 ML 模型产生广泛的影响,影响它们的安全性和整体模型性能。
数据投毒还会放大 AI 系统中现有的偏见。攻击者可以针对特定的数据子集(例如特定的人口统计数据)来引入有偏倚的输入。这可能会使 AI 模型表现得不公平或不准确。例如,使用有偏倚或有毒的数据训练的面部识别模型可能会错误识别某些群体的人,从而导致歧视性的结果。这些类型的攻击会影响从招聘决策到执法监控等各种应用中 ML 模型的公平性和准确性。
数据投毒可能会为更复杂的攻击打开大门,例如黑客试图对模型的训练数据进行逆向工程的逆向攻击。一旦攻击者成功毒化训练数据,他们就可以进一步利用这些漏洞发动更多对抗性攻击或触发后门行动。在为医疗诊断或网络安全等敏感任务设计的系统中,这些安全风险尤其危险。
为了防御数据投毒攻击,组织可以实施战略来帮助确保训练数据集的完整性,提高模型健壮性并持续监控 AI 模型。
对抗性训练是防御数据投毒和其他类型的攻击的主动方法。通过有意识地将对抗性示例引入训练模型,开发人员可以教模型识别和抵抗有毒数据,从而提高其抵抗操纵的健壮性。对于自动驾驶汽车或 AI 安全等高风险应用,AI 对抗性训练是使 AI 和 ML 模型更加健壮和可信的关键一步。
一旦部署,AI 系统就可以受到持续监控,以检测可能表明数据投毒攻击的异常行为。异常检测工具(例如模式识别算法)可以帮助安全团队识别输入和输出中的差异,并在系统受到入侵时快速做出反应。持续的审计对于 ChatGPT 等生成式 AI 应用尤其重要,因为训练数据和模型行为的实时更新对于防止滥用至关重要。如果检测到异常,可以暂停或重新评估模型,以防止进一步损害。
实施严格的访问控制是降低数据投毒风险的另一战略。限制修改训练数据集和存储库的权限可以降低发生未经授权篡改的风险。此外,采用加密等安全措施可以帮助保护数据源和 AI 系统免受外部攻击。在医疗保健和网络安全等高风险环境中,严格的安全控制有助于确保机器学习模型的安全和可信。
1 什么是 Nightshade,芝加哥大学,2024 年。
2 SQL 注入,W3 Schools。
3 2024 年 SSCS 现状报告的关键要点,ReversingLabs,2024 年 1 月 16 日。
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。
保护多个环境中的企业数据,遵守隐私法规并降低操作复杂性。
IBM 提供全面的数据安全服务,以保护企业数据、应用程序和 AI。