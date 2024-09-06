开源组件在 AI 供应链中发挥着关键作用。只有最大的企业才能获得从零开始训练模型所需的大量数据，因此他们不得不严重依赖 LAION 5B 或 Common Corpus 等开源数据集。这些数据集规模庞大，这也意味着要确保数据质量以及遵守版权和隐私法的难度极大。相比之下，许多主流生成式 AI 模型（如 ChatGPT）都是黑匣模型，因为它们用的是自己整理的数据集。这本身就带来了一系列安全挑战。

垂直化专有模型可以使用自己的数据集进行额外训练，以此改进开源基础模型。例如，开发下一代客服聊天机器人的公司可能会使用以前的客户通信记录，创建适合特定需求的模型。此类数据长期以来一直是网络犯罪分子的目标，但生成式 AI 的迅猛发展让这些数据变得对不法分子更具吸引力。

通过攻击这些数据集，网络犯罪分子可以使用错误信息或恶意代码和数据来投毒。然后，一旦被破坏的信息进入 AI 模型训练过程，我们就会开始看到贯穿 AI 软件整个生命周期的连锁反应。训练一个大语言模型 (LLM) 可能需要数千小时和大量的计算能力。无论是在经济上还是在环境上，这都是一项代价高昂的工作。然而，如果训练中使用的数据集遭到了破坏，整个过程很可能必须从头开始。