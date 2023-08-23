为满足特定企业用例需求，大型语言模型可采用专有数据进行训练。例如，企业可以基于 ChatGPT 创建私有模型，并使用公司 CRM 销售数据对其进行训练。此类模型可部署为 Slack 聊天机器人，帮助销售团队快速获取诸如“X 产品去年赢得多少商机？”或者“更新 Z 产品与Y公司的合作进展”等查询答案。

可以想象，这些 LLM 能够轻松适配各类客户服务、人力资源或营销用例。我们甚至可能会看到它们辅助法律咨询和医疗诊断，成为医疗机构使用的一线诊断工具。但问题在于，这些用例都需要基于敏感专有数据训练 LLM。这本质上存在风险。其中一些风险包括：

1. 隐私与重新识别风险

AI 模型从训练数据中学习，但如果数据涉及隐私或敏感信息呢？大量数据都能直接或间接用于识别特定个体。因此，若使用企业客户专有数据训练 LLM，很可能出现模型在交互过程中泄露敏感信息的情况。

2. 模型内部学习数据

许多简单 AI 模型会经历训练阶段和训练暂停的部署阶段。但 LLM 有所不同。它们会捕捉对话的上下文进行学习，并据此生成回应。

这使得模型输入数据的管控工作变得极度复杂，因为我们不仅要关注初始训练数据。还需警惕每次模型查询时输入的内容。如果在对话中向模型输入敏感信息怎么办？我们能否准确识别信息敏感性并阻止模型在其他场景中使用这些信息？

3. 安全与访问风险

训练数据的敏感度在一定程度上决定了模型的敏感度。虽然我们已建立完善的数据访问控制机制，能够监控数据访问行为并实施动态数据遮蔽，但 AI 部署安全领域仍处于发展阶段。尽管相关解决方案不断涌现，我们仍无法完全根据使用者角色来控制模型输出的敏感度（例如：当模型识别到特定输出可能敏感时，能根据查询者身份可靠地调整输出内容）。因此，这些模型极易成为训练数据中各类敏感信息的泄漏渠道。

4. 知识产权风险

若使用 Drake 全部歌曲训练模型，而后模型开始生成模仿 Drake 风格的作品，这将引发何种后果？该模型是否构成对 Drake 的侵权？如何证明模型是否存在抄袭行为？

监管机构仍在探索这些问题 ，但对于任何从艺术知识产权中学习的生成式 AI，这都可能演变为重大隐患。预计未来将由此引发系列重要诉讼，唯有通过严格监控训练数据的知识产权方能规避风险。

5. 同意与 DSAR 风险

现代数据隐私监管的核心原则之一是 同意权。用户必须同意其数据被使用，并有权要求删除数据。这为 AI 应用带来了独特挑战。

若使用敏感客户数据训练 AI 模型，该模型便会成为敏感数据的潜在泄露源。如果客户撤销企业使用其数据的授权（GDPR 合规要求），而企业已基于该数据完成模型训练，则必须停用原模型并重新训练，且过程中不得使用已撤销的数据。

要使 LLM 成为可靠的企业级软件，必须对训练数据实施治理，确保企业能信任数据安全性，并建立可追溯的数据使用审计链条。