AI 和机器学习数据隐私指南

发布日期 2025年12月16日

By David Zax

尽管数据隐私向来备受关注，但“AI 数据隐私”一词表明，人工智能这一新兴技术带来了新的风险与隐私问题。

在训练期间，AI 系统会从庞大的数据集中学习。许多模型训练所依据的 Common Crawl 数据集包含超过 9.5 PB 的数据。¹许多经常使用 AI 的用户也可能会向系统输入敏感数据，但并未完全意识到这些数据正在侵蚀其个人隐私。随着 AI 部署进入 AI 智能体时代，在缺乏适当访问控制或人工智能治理的情况下，可能会形成新型隐私泄露事件。

已然转变的风险态势

AI 模型不仅能处理更多的数据，而且其处理数据的方式也与传统系统不同。如果某个传统软件意外泄露敏感信息，工程师可以及时干预并调试代码。但是 AI 模型——包括大语言模型（如 ChatGPT）并非通过编码构建，而是依靠机器学习流程持续演进。它们的构建者本身也无法完全了解其运作原理，因此“调试”即使可行，也绝非易事。

意外输出就是值得关注的风险类别，但组织也需警惕图谋不轨的恶意攻击。研究人员已证明，AI 工具包含新型漏洞，狡诈的黑客可以利用这些漏洞，而这一领域称为“对抗性机器学习”。

例如，近年来，网络安全专家已证实：通过利用 AI 模型的一项特性——即模型在回应训练数据时会给出更高的置信度评分，不法分子可据此推断特定数据是否曾出现在训练集中。在某些情况下，这类推断将构成重大隐私泄露风险。例如，评估某个 AI 模型是否使用 HIV 感染者私人医疗记录进行训练。

在另一个广为人知的案例中，研究人员不仅会推断数据是否曾出现在训练集中，他们还创建了一种算法攻击模式，可以针对用于训练模型的实际数据进行逆向工程。借助 AI 模型的“梯度”特性，研究人员能够将填充噪声的图像迭代优化为高度接近真实人脸的图像，后者曾用于训练面部识别模型。²

数据保护的风险依然很高：IBM 发布的“2025 年数据泄露成本报告”表明，此类泄露事件的平均成本为 440 万美元。（此类泄露事件还会以损害品牌公信力的形式，造成难以量化的损失。）

虽然这些数据泄露事件大多与 AI 无关，但涉及 AI 的案例正日益增多。斯坦福大学发布的“2025 年 AI 指数报告”指出，AI 隐私和安全事件的数量在一年内已增长 56.4%，2024 年报告的案例已达 233 起。³

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

不断变化的监管环境

全球政策制定者已明确表示：无论如何，都不应免除 AI 技术基本隐私保护的责任。一直以来，各界都将欧盟的《通用数据保护条例》(GDPR) 视为处理个人数据的基准（无论司法管辖区位于何处），该条例也适用于企业对 AI 系统的使用。GDPR 的原则包括数据最小化（仅收集为满足特定用途所需的最少数据）、透明度（告知用户使用数据的方式）和存储限制（保留数据的时间不得超过必要期限）。

对于该领域来说，2024 年是极具里程碑意义的一年，多家监管机构开始针对涉及 AI 应用程序的案例执行隐私法。

例如，2024 年，爱尔兰数据保护委员会因社交媒体网络 LinkedIn 违反 AI 相关的隐私规定，对其处以 3.1 亿欧元的罚款。LinkedIn 会跟踪部分细微的用户行为，例如某个用户在帖文中停留的时长。该网站利用 AI 技术推断这些用户的行为（例如，他们是否正在积极求职，或者是否面临较高的职业倦怠风险）。这一用户画像会应用于定向投放广告和更新特定的 LinkedIn 内部排名系统。

爱尔兰委员会最终认定，尽管这些 AI 推论表面上看似经过匿名处理，但仍可追溯到可识别个人的数据，因此已违反数据隐私法。法院裁定 LinkedIn 未遵守 GDPR 的用途限制原则，且未获得用户的知情同意，因此已侵犯消费者隐私。这项裁决还迫使 LinkedIn 设立实时同意机制，并修改其广告个性化的默认设置。⁴

同样在 2024 年，针对面部识别公司 Clearview AI 的一起执法行动表明，生物识别数据（例如人脸照片）会进一步引发隐私问题，即使这些数据在技术层面已对外公开（例如存储于不安全的社交媒体账户中）。

Clearview 已从 Facebook 和 Instagram 等网站抓取 300 亿张图片，并辩称无需获得用户许可，因为这些照片已在网上公开。这一大规模数据收集行为进而促使 Clearview 开发 AI 驱动的面部识别数据库。

荷兰执法部门严厉谴责了 Clearview 的做法。荷兰数据保护局最终对 Clearview 处以 3,050 万欧元的罚款，认为其数据收集行为已侵犯荷兰公民的个人权利。⁵

最后，欧盟在 2024 年通过《AI 法案》，扩大针对 AI 的特定监管范围，该法案于当年 8 月正式生效。该法案的管辖范围不限于 AI 相关数据，还覆盖 AI 及 AI 开发的风险。然而，其条款大多涉及数据安全、数据共享和数据治理等领域。列举一个典型案例：该法案禁止使用可利用数据和 AI 模型，基于种族、宗教或性取向等敏感属性识别个人身份的生物识别系统。

AI 学院

AI 领域的信任、透明度和治理

AI 信任可以说是 AI 领域最重要的话题。这个话题会让人不知所措，也是情理之中的事情。我们将解析幻觉、偏见和风险等问题，并分享以合乎道德、负责且公平的方式采用 AI 的步骤。

转到视频集

最大限度降低 AI 数据隐私风险的原则

在这一快速变化的环境中，创新需求与责任担当看似冲突对立，而企业又应采取哪些措施来维持平衡？探讨这一问题的著作比比皆是，但企业可以从以下原则入手，负责任地部署 AI。

治理整个 AI 数据生命周期

当数据在 AI 模型生命周期的多个阶段经历采集、处理和生成流程后，旧有的数据安全范式已逐渐暴露其局限性。数据管理员、合规管理专业人士及其他利益相关者应关注其训练数据的完整性，理想情况下，还应开展隐私风险审计。某家公司声称在 Common Crawl 数据集中已发现 12,000 个 API 密钥和密码。⁶

而对于企业活动产生的大数据应用，GDPR 及相关隐私法规等标准可提供实用指导。

在技术竞赛中保持领先地位

AI 是一个高度活跃的领域，几乎每天都会涌现新的研究和调查成果。网络安全专业人士必须紧跟最新技术进展，在威胁参与者利用漏洞之前及时完成修复。

企业可以充分利用联邦学习、差异化隐私和合成数据等隐私增强技术。他们还能一如既往地坚持应用强大的访问控制策略，以防止人类和 AI 智能体进行未授权访问。

注重隐私的决策

随着越来越多的企业开始利用生成式 AI 和其他 AI 技术来实现决策自动化，高管层应从隐私的角度审视 AI 驱动的实践，因为“数据”这一概念的定义可能早已变得模糊不清。这一原则在前文提到的 LinkedIn 判例中得以印证：在某些情况下，基于数据模式进行推断，即使表面看似经过匿名处理，仍可能违反 GDPR 及相关法规。

随着 AI 在发现模式方面变得越来越强大，它可能会颠覆人们对“匿名化”数据的长期认知。2019 年《自然》杂志的一项研究显示，通过合适的生成式模型，“可以在任何使用 15 种人口统计属性的数据集中正确地重新识别 99.98% 的美国人”。这一发现表明，个人数据的构成概念本身正在经历转变。⁷