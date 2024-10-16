犯罪是人类问题，而网络犯罪也不例外。包括生成式 AI 在内的技术只是攻击者武器库中的一种工具。合法公司利用从互联网上抓取的大量数据来训练自己的 AI 模型。这些模型不仅常是基于数百万真实人员的创意工作所训练而成的，它们还有可能会收集最终属于公共领域的个人信息，无论是有意还是无意。因此，某些最大型的 AI 模型开发商现在面临诉讼，而整个行业也面临监管机构日益增强的关注。

虽然威胁参与者对 AI 伦理漠不关心，但合法公司很容易无意中做出同样的事。例如，网页抓取工具可用于收集训练数据，以创建用于检测网络钓鱼内容的模型。然而，这些工具可能不会对个人信息和匿名信息进行任何区分，尤其是在图像内容方面。LAION（用于图像）或 The Pile（用于文本）一类的开源数据集也存在类似问题。例如，2022 年，一位加利福尼亚州艺术家发现由她的医生拍摄的私人医疗照片出现在 LAION-5B 数据集中，而该数据集被用于训练开源图像合成器 Stable Diffusion。

不可否认，草率开发网络安全垂直领域的 AI 模型可能会比完全不使用 AI 带来更大的风险。为防止此情况发生，安全解决方案开发人员必须维持最高的数据质量与隐私标准，尤其是在匿名化或保护机密信息方面。欧洲的《通用数据保护条例》(GDPR) 和《California Consumer Privacy Act》(CCPA) 等法律虽然制定在生成式 AI 兴起之前，但却为制定符合道德规范的 AI 战略提供了宝贵指导。