AI 模型不仅能处理更多的数据,而且其处理数据的方式也与传统系统不同。如果某个传统软件意外泄露敏感信息,工程师可以及时干预并调试代码。但是 AI 模型——包括大语言模型(如 ChatGPT)并非通过编码构建,而是依靠机器学习流程持续演进。它们的构建者本身也无法完全了解其运作原理,因此“调试”即使可行,也绝非易事。
意外输出就是值得关注的风险类别,但组织也需警惕图谋不轨的恶意攻击。研究人员已证明,AI 工具包含新型漏洞,狡诈的黑客可以利用这些漏洞,而这一领域称为“对抗性机器学习”。
例如,近年来,网络安全专家已证实:通过利用 AI 模型的一项特性——即模型在回应训练数据时会给出更高的置信度评分,不法分子可据此推断特定数据是否曾出现在训练集中。在某些情况下,这类推断将构成重大隐私泄露风险。例如,评估某个 AI 模型是否使用 HIV 感染者私人医疗记录进行训练。
在另一个广为人知的案例中,研究人员不仅会推断数据是否曾出现在训练集中,他们还创建了一种算法攻击模式,可以针对用于训练模型的实际数据进行逆向工程。借助 AI 模型的“梯度”特性,研究人员能够将填充噪声的图像迭代优化为高度接近真实人脸的图像,后者曾用于训练面部识别模型。2
数据保护的风险依然很高:IBM 发布的“2025 年数据泄露成本报告”表明,此类泄露事件的平均成本为 440 万美元。(此类泄露事件还会以损害品牌公信力的形式,造成难以量化的损失。)
虽然这些数据泄露事件大多与 AI 无关,但涉及 AI 的案例正日益增多。斯坦福大学发布的“2025 年 AI 指数报告”指出,AI 隐私和安全事件的数量在一年内已增长 56.4%,2024 年报告的案例已达 233 起。3
全球政策制定者已明确表示:无论如何,都不应免除 AI 技术基本隐私保护的责任。一直以来,各界都将欧盟的《通用数据保护条例》(GDPR) 视为处理个人数据的基准(无论司法管辖区位于何处),该条例也适用于企业对 AI 系统的使用。GDPR 的原则包括数据最小化(仅收集为满足特定用途所需的最少数据)、透明度(告知用户使用数据的方式)和存储限制(保留数据的时间不得超过必要期限)。
对于该领域来说,2024 年是极具里程碑意义的一年,多家监管机构开始针对涉及 AI 应用程序的案例执行隐私法。
例如,2024 年,爱尔兰数据保护委员会因社交媒体网络 LinkedIn 违反 AI 相关的隐私规定,对其处以 3.1 亿欧元的罚款。LinkedIn 会跟踪部分细微的用户行为,例如某个用户在帖文中停留的时长。该网站利用 AI 技术推断这些用户的行为(例如,他们是否正在积极求职,或者是否面临较高的职业倦怠风险)。这一用户画像会应用于定向投放广告和更新特定的 LinkedIn 内部排名系统。
爱尔兰委员会最终认定,尽管这些 AI 推论表面上看似经过匿名处理,但仍可追溯到可识别个人的数据,因此已违反数据隐私法。法院裁定 LinkedIn 未遵守 GDPR 的用途限制原则,且未获得用户的知情同意,因此已侵犯消费者隐私。这项裁决还迫使 LinkedIn 设立实时同意机制,并修改其广告个性化的默认设置。4
同样在 2024 年,针对面部识别公司 Clearview AI 的一起执法行动表明,生物识别数据(例如人脸照片)会进一步引发隐私问题,即使这些数据在技术层面已对外公开(例如存储于不安全的社交媒体账户中) 。
Clearview 已从 Facebook 和 Instagram 等网站抓取 300 亿张图片,并辩称无需获得用户许可,因为这些照片已在网上公开。这一大规模数据收集行为进而促使 Clearview 开发 AI 驱动的面部识别数据库。
荷兰执法部门严厉谴责了 Clearview 的做法。荷兰数据保护局最终对 Clearview 处以 3,050 万欧元的罚款,认为其数据收集行为已侵犯荷兰公民的个人权利。5
最后,欧盟在 2024 年通过《AI 法案》,扩大针对 AI 的特定监管范围,该法案于当年 8 月正式生效。该法案的管辖范围不限于 AI 相关数据,还覆盖 AI 及 AI 开发的风险。然而,其条款大多涉及数据安全、数据共享和数据治理等领域。列举一个典型案例:该法案禁止使用可利用数据和 AI 模型,基于种族、宗教或性取向等敏感属性识别个人身份的生物识别系统。
在这一快速变化的环境中,创新需求与责任担当看似冲突对立,而企业又应采取哪些措施来维持平衡?探讨这一问题的著作比比皆是,但企业可以从以下原则入手,负责任地部署 AI。
当数据在 AI 模型生命周期的多个阶段经历采集、处理和生成流程后,旧有的数据安全范式已逐渐暴露其局限性。数据管理员、合规管理专业人士及其他利益相关者应关注其训练数据的完整性,理想情况下,还应开展隐私风险审计。某家公司声称在 Common Crawl 数据集中已发现 12,000 个 API 密钥和密码。6
而对于企业活动产生的大数据应用,GDPR 及相关隐私法规等标准可提供实用指导。
随着越来越多的企业开始利用生成式 AI 和其他 AI 技术来实现决策自动化,高管层应从隐私的角度审视 AI 驱动的实践,因为“数据”这一概念的定义可能早已变得模糊不清。这一原则在前文提到的 LinkedIn 判例中得以印证:在某些情况下,基于数据模式进行推断,即使表面看似经过匿名处理,仍可能违反 GDPR 及相关法规。
随着 AI 在发现模式方面变得越来越强大,它可能会颠覆人们对“匿名化”数据的长期认知。2019 年《自然》杂志的一项研究显示,通过合适的生成式模型,“可以在任何使用 15 种人口统计属性的数据集中正确地重新识别 99.98% 的美国人”。这一发现表明,个人数据的构成概念本身正在经历转变。7
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型,并在云端或本地进行部署。
了解人工智能治理如何能帮助增强员工对 AI 的信心、加速采用和创新并提高客户信任。
借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。
1. “Mozilla 报告:Common Crawl 的数据基础设施如何定义生成式 AI 的竞争格局”,Mozilla,2024 年 2 月 6 日
2. “利用置信度信息的模型逆向攻击及基本防御措施”,CCS'15,2015 年 10 月
3. “2025 年 AI 指数报告”,斯坦福 HAI(以人为本的人工智能),2025 年 4 月
4 .“AI 系统中违反 GDPR 的罚款及规避方法”,欧盟数据隐私办公室,2025 年 10 月 16 日
5.“荷兰 DPA 因 Clearview 非法收集面部识别数据而对其处以罚款”,Autoriteit Persoonsgegevens,2024 年 9 月 3 日
6. “研究发现 DeepSeek 的训练数据中存在 12,000 个‘实时’API 密钥和密码”, Truffle Security,2025 年 2 月 27 日
7. “利用生成式模型评估不完整数据集中的再识别成功率”, 《自然-通讯》,2019 年 7 月 23 日