什么是对抗性机器学习?

作者

David Zax

Staff Writer

IBM Think

对抗性机器学习的定义

对抗性机器学习是欺骗 AI 系统的艺术。这一术语既指代恶意追求这门艺术的威胁分子,也指代善意的研究人员,后者试图揭露漏洞,最终提高模型的稳健性。

该领域给网络安全带来了新的挑战,这是由于机器学习模型的复杂性及其攻击面的广泛性( 通常包括物理世界)。

实际示例

为了开始说明对抗性机器学习攻击与传统网络安全威胁有何不同,不妨考虑一个自动驾驶汽车领域的例子。自动驾驶汽车由复杂的 AI 系统驱动,这些系统接收传感器输入,然后进行分类,从而决定汽车的行为。例如,当自动驾驶汽车接近停车标志时,其机器学习算法将识别标志并安全停车。

问题在于,已掌握停车标志分类方法的机器学习系统所使用的标准与人类思维不同。2017 年,多所大学的研究人员证实了这一令人不安的漏洞。1他们仅对停车标志进行细微而巧妙的改动——添加几处大多数人都会忽略的小而无害的贴纸——便成功诱使自动驾驶汽车使用的 AI 模型将停车标志误判为“限速:45 英里/小时”的标志。路过的巡逻人员可能难以察觉这类破坏痕迹,但对于 AI 系统来说,仅仅几个不起眼的贴纸就能将停车标志变为“通行”标志。

毋庸置疑,如果恶意黑客率先发现这一漏洞,那么交通事故等现实危害就会接踵而至。

您的团队能否及时捕获下一个零日?

加入安全领导者的行列,订阅 Think 时事通讯,获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器,我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此处管理订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

https://www.ibm.com/cn-zh/privacy

对抗性攻击的类型

研究人员已针对 AI 系统的不同攻击建立分类体系。

逃避攻击

逃避攻击(如上文所述的停车标志伎俩)是指黑客篡改 AI 系统处理后的数据,以创建“对抗性示例”来欺骗 AI 分类器的行为。这一行为之所以称为“逃避攻击”,是因为经过篡改的数据或刺激能够逃避 AI 模型的正常感知。除了自动驾驶汽车这一生动示例之外,研究人员还能创建几乎无法察觉的视觉噪声形式——即“对抗性扰动”,并将其叠加在数据之上,以欺骗人工智能。在 2015 年的又一知名案例中,Google 的研究人员在一张大熊猫的图像中添加视觉噪声,成功诱使计算机视觉模型确定该图像代表的是长臂猿。事实上,AI 将“长臂猿”错误分类的置信度,甚至高于其此前对“大熊猫”的正确分类。2(关于高效构建欺骗模型的噪声模式的“黑暗艺术”,将在下文“已知的逃避攻击方法”一节详述。)

恶意软件攻击是逃避攻击中一个重要的子类型,攻击者会借此逃避旨在捕获计算机病毒的检测系统。攻击者会通过多种途径实现这一目标,但通常会采用一些技巧,将其恶意软件伪装成无害的代码;有时,攻击者会利用其 AI 技术来优化这一流程。例如,研究人员已开发出在多次试验中自动伪装恶意软件的机器人,98% 的情况下都能成功欺骗 20 个恶意软件检测系统。3

数据投毒攻击

数据投毒攻击发生在 AI 模型生命周期的另一个早期阶段,即训练阶段。深度神经网络依赖海量训练数据来学习实用模式。通过数据投毒攻击,恶意行为者可能会破坏原始训练数据集,从而引入导致训练模型出现异常行为的数据。

一个例子是,许多 AI 模型利用部署后获取的数据来迭代培训模型的下一个版本。利用这一原理,Twitter 上的赛博寻衅者向 2016 年微软推出的聊天机器人 Tay 发送了大量攻击性内容,最终导致该聊天机器人自己发布仇恨内容。

另一个案例是,芝加哥大学意图帮助艺术家惩罚那些无良企业——这些企业可能会在未经艺术家许可的情况下,使用受版权保护的图像训练其模型。其开发人员表示,这一名为“Nightshade”的项目“旨在作为攻击工具,扭曲生成式 AI 图像模型中的功能表示”。4如果艺术家将 Nightshade 应用于其图像,并且 AI 模型随后使用这些图像,那么这些模型可能会逐渐学习特定对象的错误标签——例如,将奶牛想象成皮质钱包。

隐私攻击

隐私攻击利用 AI 系统的缺陷,间接推断或提取其训练数据集中的敏感信息。理论上,ML 模型无法“记忆”其使用的训练数据——它们能够在数据集中提取实用模式,但不会像硬盘驱动器那样保留训练数据。不过,AI“记忆”的实际机制更为复杂。在实践中,研究人员观察到:在某些方面,模型似乎的确能 “记忆”训练数据。具体而言,当 ML 系统的预测涉及训练中观察到的数据点时,其预测置信度往往会更高。(虽然 ChatGPT 等消费者聊天机器人无法显示置信度评分,但这些数值通常可以借助开发人员 API 或研究人员工具获取。)

在一种称为“成员关系推断”的隐私攻击方法中,攻击者或许能推断出某个用户的敏感信息:例如,此人是否曾在精神病院接受治疗。只要攻击者掌握了特定个体的部分数据(例如部分病历),就能查询已知使用敏感数据集(例如精神病院记录)训练的模型。通过观察模型返回的置信度评分,攻击者可以推断其目标确实是用于训练模型的群组成员。

模型逆向攻击则更进一步,支持攻击者通过逆向工程,反推模型训练所用的实际数据。攻击者可以借助暴力破解技术来实现这一目标,反复使用模型返回的置信度评分作为指导,将随机噪声数据转化为实际接近模型真实训练数据的形式。例如,2015 年,学术研究人员利用人脸识别模型的置信度评分,重建近似于模型训练所用的真实人脸的图像。他们从一张纯噪声图像入手,然后反复调整图像,并利用模型输出的置信度评分指导后续调整工作。5

模型提取攻击

模型提取攻击 (有时简称为“模型窃取”)中,攻击者的目标是有效“克隆”既定模型。此类攻击的动机可能各不相同:攻击者可能只是想避免使用按查询次数付费的原始模型,或者攻击者可能希望利用克隆技术偷偷改进可能对原始模型效果显著的针对性攻击。

大多数模型提取攻击的方法都相当简单:攻击者会向模型系统性输入精心选择的提示,并对输出数据进行索引。如果输入数据经过精心选择,在某些情况下,只需获取数千或数万个输入-输出对的数据集,即可复制模型或至少复制模型的某些方面。例如,2023 年一篇关于“模型榨取”的论文展示了如何利用此类攻击,以低成本从 LLM 中提取特定任务的知识。只需投入 50 美元的 API 成本,该团队就能构建克隆模型,以 87% 的准确率模拟语言模型的阅读理解能力。6

白匣攻击与黑匣攻击

另外一种攻击分类法并非依据损害类型分类,而是按目标模型的类型进行区分。以上大多数案例都属于“黑匣攻击”,这意味着目标模型只允许访问其输出数据。但在“白匣攻击”中,黑客攻击的是开源模型,这些模型通常出于开放人员的高尚初衷而构建,因此其内部运作更为透明。通过了解构成模型实际学习权重的行为,黑客通常可以利用此类白匣访问权限来设计更高效、更有针对性的攻击活动。

已知的逃避攻击方法

在上述攻击类型中,规避攻击可以说是最具挑战性的,它确实是网络安全领域的新前沿。规避攻击尤其令网络安全研究人员担心(及着迷),因为它们利用了机器和人类解析世界方式的根本差异。因此,大量研究聚焦于发现黑客可能发动规避攻击的方法,以便在黑客攻击前更好地修补这些漏洞。(值得庆幸的是,许多防御措施也已被发现。欲了解更多信息,请参阅“如何防御对抗性机器学习”。)

快速梯度符号法

2015 年,Google 的研究人员披露了一个生成对抗性示例的简单方法(这类输入能欺骗任何深度学习系统),并称其为“快速梯度符号法”(FGSM)。 2以图像检测系统为例。此类系统本质上是将世界划分为多个聚类——此区域为猫,彼区域为狗,依此类推。快速梯度符号法是一种机制,旨在寻找可快速调整图像的方法,将其从一个聚类“推送”到另一个聚类,从而破坏系统的决策完整性。最重要的是,这些调整策略通常只涉及人类无法察觉的视觉噪声,但却能欺骗机器。FGSM 又称“基于梯度”的攻击,因为它利用的是机器学习系统所用的优化算法,即“梯度下降”

随着后续更强大攻击手段的出现,仅针对 FGSM 攻击进行加固的模型依然存在明显漏洞。

预测梯度下降

“预测梯度下降” (PGD) 是另一种基于梯度的攻击,比 FGSM 更隐蔽且更强大。FGSM 本质上是向对抗方进行一次跃迁以产生扰动(即破坏模型检测机制的“噪声”),PGD 则使用算法来进行一系列微步迭代。这种更审慎的迭代过程能够助其识别更强大、更不易渗透的扰动。此外,其算法中巧妙的约束条件可防止 PGD 的扰动过度偏离基线,从而确保人类无法成功检测此类扰动。攻击者的代价在于成本;FGSM 只需进行一次梯度计算,就能产生快速但微弱的扰动;PGD 则必须执行数十次或数百次计算。

PGD 常被用作对抗稳健性的关键基准,因为它被认为是最强的基于梯度的攻击。7经过训练能够抵抗 PGD 攻击的 AI 应用程序可以被认为具有有意义的稳健性。

Carlini 和 Wagner 攻击

事实证明,利用机器学习模型的“梯度”并非攻击此类系统的唯一手段。2017 年,加州大学伯克利分校的计算机科学家 Nicholas Carlini 和 David Wagner 联合发表了一篇研究论文8,揭示了另一种寻找对抗性输入数据的方法,这种方法完全忽略了有关模型梯度的信息。相反,Carlini 和 Wagner 攻击将问题定义为纯粹的优化策略,旨在寻找输入数据所需的最小改动量,同时强制要求模型执行错误分类。例如,对于图像扰动而言,这种算法可能会揭示欺骗模型所需调整的最低像素数量。虽然计算成本很高,但其结果通常是人类难以察觉的微妙扰动。

如何抵御对抗性机器学习

发现这些弱点的研究人员共同努力,成功制定有助于提高机器学习模型稳健性的对策。

对于上述那种规避攻击,专家们开发了所谓的对抗性训练的方法。本质上,这个过程只是在“干净”的数据之外,还纳入了那些黑客可能窥视的经过调整的数据,这样模型就能学会正确标注这些对抗性示例。这种缓解措施虽然有效,但在两个方面可能代价高昂:1) 它涉及更多的计算;2) 在暴露于受干扰的数据后,模型的总体准确性可能会略低一些。在 2018 年发表的论文《Robustness May Be at Odds with Accuracy》中,麻省理工学院的研究人员写道:“训练稳健的模型训练不仅可能会消耗更多资源,还会导致标准准确度降低。”9

总体而言,完善的网络安全原则适用于机器学习领域。运行防御措施包括异常检测入侵检测工具,这些工具可以检查数据或流量中是否存在异常模式,而这些模式则可能表明黑客正试图干预 ML 系统,无论其生命周期处于哪个阶段。此外,红队测试——即故意将模型暴露于网络安全专业人员模拟敌方攻击的受控攻击之下,是对系统进行压力测试的可行方案。

在 AI 技术迅猛发展的领域,风险态势也在持续变化。美国国家标准与技术研究院 (NIST) 等组织正是最新技术进展的源泉。NIST 发布的 2024 年 AI 风险管理报告 10 涉及对抗性机器学习领域,同时也涵盖更广泛的 AI 风险应对策略,包括偏见、幻觉和隐私等主题。部署人工智能治理框架还可以进一步保护模型免受攻击者的侵害。

相关解决方案
企业安全解决方案

部署源自最大企业安全供应商的解决方案,实现企业安全计划的转型。

深入了解网络安全解决方案
网络安全服务

通过网络安全咨询、云端和托管安全服务实现业务转型并有效管理风险。

    深入了解网络安全服务
    人工智能 (AI) 网络安全

    使用人工智能驱动的网络安全解决方案提高安全团队的速度、准确性和工作效率。

    深入了解 AI 网络安全
    采取后续步骤

    无论您需要的是数据安全、端点管理,还是身份和访问管理 (IAM) 解决方案,我们的专家都随时准备为您提供支持,助力企业建立强大的安全环境。 在网络安全咨询、云端和安全托管服务方面的全球行业领导者的帮助下,推动业务转型并有效管控风险。

    深入了解网络安全解决方案 发现网络安全服务