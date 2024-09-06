随着人工智能 (AI) 在各行业和用例中的迅速普及，防范 AI 驱动的软件供应链攻击从未像现在这样重要。
SentinelOne 最近的研究揭露了一个名为 NullBulge 的新型勒索软件组织，其利用 Hugging Face 和 GitHub 等开源代码库中的代码来攻击软件供应链。该组织自称是一个以反AI为动机的黑客行动主义组织，专门利用这些资源来对 AI 模型训练中使用的数据集投毒。
无论您是使用主流 AI 解决方案、通过应用程序编程接口 (API) 将其集成到现有技术堆栈中，还是利用开源基础模型开发自己的模型，整个 AI 软件供应链如今都成为了网络攻击者的攻击焦点。
开源组件在 AI 供应链中发挥着关键作用。只有最大的企业才能获得从零开始训练模型所需的大量数据，因此他们不得不严重依赖 LAION 5B 或 Common Corpus 等开源数据集。这些数据集规模庞大，这也意味着要确保数据质量以及遵守版权和隐私法的难度极大。相比之下，许多主流生成式 AI 模型（如 ChatGPT）都是黑匣模型，因为它们用的是自己整理的数据集。这本身就带来了一系列安全挑战。
垂直化专有模型可以使用自己的数据集进行额外训练，以此改进开源基础模型。例如，开发下一代客服聊天机器人的公司可能会使用以前的客户通信记录，创建适合特定需求的模型。此类数据长期以来一直是网络犯罪分子的目标，但生成式 AI 的迅猛发展让这些数据变得对不法分子更具吸引力。
通过攻击这些数据集，网络犯罪分子可以使用错误信息或恶意代码和数据来投毒。然后，一旦被破坏的信息进入 AI 模型训练过程，我们就会开始看到贯穿 AI 软件整个生命周期的连锁反应。训练一个大语言模型 (LLM) 可能需要数千小时和大量的计算能力。无论是在经济上还是在环境上，这都是一项代价高昂的工作。然而，如果训练中使用的数据集遭到了破坏，整个过程很可能必须从头开始。
大多数 AI 软件供应链攻击都是通过上面提到的后门篡改方法进行的。然而，这肯定不是唯一的办法，尤其是随着针对 AI 系统的网络攻击越来越普遍和复杂。另一种方法是洪流攻击，攻击者通过 AI 系统发送大量非恶意信息，试图掩盖其他内容，例如一段恶意代码。
我们还发现，针对 API 的攻击有所增加，尤其是那些缺乏稳健身份验证程序的 API。企业要将 AI 集成到其现有的各项功能中，API 是必不可少的，虽然通常认为 API 安全应由解决方案供应商负责，但实际上，这在很大程度上是一项共同责任。
近期发生的 AI API 攻击案例包括 ZenML 泄露事件和 Nvidia AI 平台漏洞。虽然相关供应商已经解决了这两次事件，但随着网络犯罪分子针对软件供应链的攻击范围和手段不断增加，未来还会有更多问题出现。
所有这些都不应被视为远离 AI 的警告。毕竟，您不会因为担心网络钓鱼诈骗的风险而停止使用电子邮件。这些发展确实意味着 AI 现在是网络犯罪的新前沿，在开发、部署、使用和维护人工智能驱动的技术时，无论是您自己的技术还是由第三方供应商提供的技术，都必须将安全融入到您所做的一切工作中。
为此，企业在 AI 开发中使用的所有组件都必须具备完全可追溯性。他们还需要对 AI 生成的每个输出进行全面的解释和验证。如果不让相关人员参与其中，并将安全放在战略的首位，您就无法做到这一点。但是，如果您仅仅将 AI 视为节省时间和裁员降本的一种手段，而不考虑其后果，那么灾难降临只是时间问题。
人工智能驱动的安全解决方案在应对威胁中也发挥着严重作用。它们并不会取代优秀的安全分析师，而是作为强大的辅助工具，帮助分析师做自己最擅长的事情，实现原本不可能实现的目标。
