什么是数据投毒？| IBM

作者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据投毒？

数据投毒是一种网络攻击，威胁参与者操纵或破坏用于开发人工智能 (AI) 和机器学习 (ML) 模型的训练数据。

神经网络、大语言模型 (LLM) 和深度学习模型在很大程度上依赖于训练数据的质量和完整性，这些数据最终决定了模型的功能。这些训练数据的来源多种多样，如互联网、政府数据库和第三方数据提供商。通过向这些训练数据集注入不正确或有偏倚的数据点（有毒数据），恶意行为者可以微妙地或彻底地改变模型的行为。

例如，通过投毒进行数据操纵可能导致数据错误分类，从而降低 AI 和 ML 系统的功效和准确性。更重要的是，这些攻击可能会带来严重的网络安全风险，尤其是在医疗保健和自动驾驶汽车等行业。

Think 时事通讯

您的团队能否及时捕获下一个零日？

加入安全领导者的行列，订阅 Think 时事通讯，获取有关 AI、网络安全、数据和自动化的精选资讯。快速访问专家教程和阅读解释器，我们会将这些内容直接发送到您的收件箱。请参阅 IBM 隐私声明。

针对性攻击与非针对性攻击

数据投毒攻击根据意图可分为两类：针对性攻击与非针对性攻击。

针对性的攻击

针对性数据投毒攻击以特定方式操纵 AI 模型输出。例如，网络罪犯可能会向聊天机器人或生成式 AI 应用程序（如 ChatGPT）注入有毒数据，以改变其响应。类似地，在网络安全场景中，攻击者可能会向旨在检测恶意软件的模型引入有毒数据，导致其漏掉某些威胁。

针对性攻击会操纵模型的行为使之有利于攻击者，从而可能在系统中造成新的漏洞。

非针对性攻击

非针对性攻击侧重于降低模型的总体健壮性。其目标不是攻击特定输出，而是削弱模型正确处理数据的能力。例如，在自动驾驶汽车中，非针对性的数据投毒可能会导致系统误解来自传感器的输入，将“停止”标志误认为是“让行”标志。这些类型的攻击使 AI 模型更容易受到对抗性攻击，即攻击者试图利用模型决策流程中微小的、通常不易察觉的缺陷。

数据投毒攻击类型

数据投毒攻击可以采取多种形式，包括标签翻转、数据注入、后门攻击和干净标签攻击。每种攻击类型针对 AI 模型功能的不同方面。

标签翻转

在标签翻转攻击中，恶意行为者操纵训练数据中的标签，将正确的标签与不正确的标签交换。以芝加哥大学开发的 AI 投毒工具 Nightshade 为例。Nightshade 允许数字艺术家在将图像上传到网上之前巧妙地更改图像中的像素。当 AI 公司抓取在线数据集来培训其生成式 AI 模型时，经过修改的图像会扰乱训练过程。这种操纵可能会导致 AI 模型错误分类或行为不可预测，有时会将奶牛的图像误认为是皮包。¹

数据注入

数据注入将虚构的数据点引入训练数据集，通常是为了引导 AI 模型的行为朝着特定的方向发展。一个常见的示例是 SQL 注入，攻击者在输入字段中添加“1=1”或“=”。当在 SQL 查询中包含此类恶意数据时，它会改变查询的含义，返回所有记录，而不是仅返回一条记录。²同样，在机器学习模型中，数据注入可以操纵模型的决策。这可能会导致模型分类错误或表现出偏倚，从而破坏数据完整性和整体模型健壮性。

后门攻击

后门攻击很危险，因为它们会引入微妙的操作，例如音频上听不见的背景噪音或图像上难以察觉的水印。这使得 AI 系统在大多数条件下都能正常运行。然而，当遇到特定的触发输入时，模型会以使攻击者受益的方式行动。在开源模型中，训练数据和算法的访问可能较少受到限制，这些攻击可能尤其有害。ReversingLabs 报告称，从 2020 年到 2023 年，通过开源存储库传播的威胁不断增加，增加了 1300% 以上。³

干净标签攻击

在干净标签攻击中，攻击者以难以检测的方式修改数据。关键特征是中毒数据仍然显示正确标记，这使得传统的数据验证方法难以识别。这些攻击利用了现代机器学习和深度学习系统的复杂性，可能无法标记看似无害的微小变化。清洁标签攻击是最隐蔽的攻击之一，使得 AI 模型容易受到输出偏差和模型功能下降的影响。

数据投毒与提示注入

虽然数据投毒和提示注入针对的是 AI 生命周期的不同阶段，但它们有着相同的目标：利用模型输入中的漏洞。数据投毒会操纵训练数据集，嵌入损坏或恶意的数据，从而损害模型的学习过程和长期功能。相比之下，提示注入将恶意输入伪装成合法提示，操纵生成式 AI 系统泄露敏感数据、传播不实信息甚至更糟。

数据投毒示例

定向数据投毒：黑客通过将恶意软件样本标记为安全样本，毒化网络安全模型的训练数据，导致模型忽略特定威胁。
非针对性数据投毒：恶意行为者将有偏倚的数据注入垃圾邮件过滤器的训练数据集，从而降低其整体准确性和可靠性。

提示注入示例

直接提示注入：黑客在聊天机器人交互中嵌入命令以绕过护栏并泄露敏感的帐户详细信息。
间接提示注入：攻击者在网页上隐藏指令，导致 AI 助手在其输出中推广网络钓鱼链接。

黑客可以单独或同时部署这些战略来扩大其影响力。例如，理论上，有权访问组织系统的内部人员可以通过嵌入有偏倚的数据来毒化一个训练数据集，从而绕过验证措施。随后，内部人员可以通过执行提示注入，激活有毒数据并触发恶意行为来利用受感染的系统。这可能包括泄露敏感信息、为进一步的对抗性攻击创建后门或削弱系统的决策功能。

数据投毒对 AI 模型的影响

数据投毒会对 AI 和 ML 模型产生广泛的影响，影响它们的安全性和整体模型性能。

分类错误和性能降低

中毒的训练数据集会导致机器学习对输入进行错误分类，从而破坏 AI 模型的可靠性和功能。在面向消费者的应用程序中，这可能会导致不准确的推荐，从而削弱客户的信任和体验。同样，在供应链管理中，中毒数据会导致有缺陷的预测、延迟和错误，从而损害模型的性能和业务的效用。这些错误分类暴露了训练数据中的漏洞，并可能损害 AI 系统的整体稳健性。

偏见和扭曲的决策

数据投毒还会放大 AI 系统中现有的偏见。攻击者可以针对特定的数据子集（例如特定的人口统计数据）来引入有偏倚的输入。这可能会使 AI 模型表现得不公平或不准确。例如，使用有偏倚或有毒的数据训练的面部识别模型可能会错误识别某些群体的人，从而导致歧视性的结果。这些类型的攻击会影响从招聘决策到执法监控等各种应用中 ML 模型的公平性和准确性。

安全漏洞和后门威胁

数据投毒可能会为更复杂的攻击打开大门，例如黑客试图对模型的训练数据进行逆向工程的逆向攻击。一旦攻击者成功毒化训练数据，他们就可以进一步利用这些漏洞发动更多对抗性攻击或触发后门行动。在为医疗诊断或网络安全等敏感任务设计的系统中，这些安全风险尤其危险。

降低数据投毒风险

为了防御数据投毒攻击，组织可以实施战略来帮助确保训练数据集的完整性，提高模型健壮性并持续监控 AI 模型。

数据验证和消毒

防御数据投毒的基本防御策略是在使用前验证和消毒训练数据。在训练阶段实施数据验证流程有助于在可疑或损坏的数据点对模型产生负面影响之前识别和删除它们。此步骤对于防止恶意数据进入 AI 系统至关重要，尤其是在使用完整性难以保持的开源数据源或模型时。

对抗性训练和更高的健壮性

对抗性训练是防御数据投毒和其他类型的攻击的主动方法。通过有意识地将对抗性示例引入训练模型，开发人员可以教模型识别和抵抗有毒数据，从而提高其抵抗操纵的健壮性。对于自动驾驶汽车或 AI 安全等高风险应用，AI 对抗性训练是使 AI 和 ML 模型更加健壮和可信的关键一步。

持续监控和异常检测

一旦部署，AI 系统就可以受到持续监控，以检测可能表明数据投毒攻击的异常行为。异常检测工具（例如模式识别算法）可以帮助安全团队识别输入和输出中的差异，并在系统受到入侵时快速做出反应。持续的审计对于 ChatGPT 等生成式 AI 应用尤其重要，因为训练数据和模型行为的实时更新对于防止滥用至关重要。如果检测到异常，可以暂停或重新评估模型，以防止进一步损害。

访问控制和安全措施

实施严格的访问控制是降低数据投毒风险的另一战略。限制修改训练数据集和存储库的权限可以降低发生未经授权篡改的风险。此外，采用加密等安全措施可以帮助保护数据源和 AI 系统免受外部攻击。在医疗保健和网络安全等高风险环境中，严格的安全控制有助于确保机器学习模型的安全和可信。

《2025 年数据泄露成本报告》

数据泄露成本再创新高。获取关于网络安全威胁及其对企业造成的经济损失的最新洞察。

脚注

¹ 什么是 Nightshade，芝加哥大学，2024 年。

² SQL 注入，W3 Schools。

³ 2024 年 SSCS 现状报告的关键要点，ReversingLabs，2024 年 1 月 16 日。

什么是数据投毒？

作者

什么是数据投毒？

您的团队能否及时捕获下一个零日？

针对性攻击与非针对性攻击

针对性的攻击

非针对性攻击

数据投毒攻击类型

标签翻转

数据注入

后门攻击

干净标签攻击

数据投毒与提示注入

数据投毒示例

提示注入示例

数据投毒对 AI 模型的影响

分类错误和性能降低

偏见 和扭曲的 决策

安全 漏洞 和 后门 威胁

降低 数据投毒风险

数据验证 和 消毒

对抗性训练 和更高的 健壮性

持续监控 和 异常检测

访问控制 和 安全措施

Share

资源

脚注

偏见和扭曲的决策

安全漏洞和后门威胁

降低数据投毒风险

数据验证和消毒

对抗性训练和更高的健壮性

持续监控和异常检测

访问控制和安全措施