我们都希望理想的人类价值观能在技术中得到体现。我们期待人工智能 (AI) 等技术不会欺骗我们、不会产生歧视，并能保障我们及下一代的安全使用。然而目前许多 AI 创作者正因其模型中暴露的偏见、错误和有问题的数据实践而面临质疑。这些问题仅靠技术、算法或基于 AI 的解决方案无法解决。实际上，我们需要采用整体性的社会技术协同方法。
所有预测模型（包括 AI）在融入多元化的人类智慧与经验时都会变得更加精确。这并非主观看法，而是经过实证的真理。以多样性预测定理为例。简而言之，当群体多样性越丰富，集体误差就越小——这正是“群体智慧”概念的数学支撑。一项具有影响力的研究表明，由普通能力问题解决者组成的多元群体，其表现可以超越同质化的高能力问题解决者群体（Hong & Page，2004 年 ）。
用数学语言表述：方差越大，均值越接近标准值。计算公式如下：
其中，
c = 群体预测平均值
𝜽 = 实际值
si = 第 i 个 个体的预测值
n = 个体数量
后续研究 通过更多计算完善了智慧群体的统计定义，包括要求成员互不知晓他人预测，并纳入那些具有 最大差异 （负相关）预测或判断的个体。因此，提升预测精度的关键不仅在于数据量，更在于多样性。这种洞察将如何影响 AI 模型的评估？
有句经典格言道：所有模型都是错误的。这在统计学、科学和 AI 领域皆成真理。缺乏领域专业知识构建的模型可能导致错误输出。
如今，由极小规模同质化群体决定生成式 AI 模型的训练数据来源，这些数据源严重过度代表英语语境。“对于全球超过 6000 种语言中的大多数而言，现有文本数据不足以训练大规模基础模型”（引自《论基础模型的机遇与风险》，Bommasani 等学者，2022 年）。
更值得关注的是，模型本身也源于有限的架构：“几乎所有顶尖 NLP 模型都是基于少数基础模型（如 BERT、RoBERTa、BART、T5 等）的改良版本。虽然这种同质化能产生极强的杠杆效应（基础模型的任何改进都能立即惠及整个自然语言处理领域），但同时也构成隐患：所有AI系统都可能继承少数基础模型存在的相同偏见问题（Bommasani 等学者）”
为使生成式 AI 能更好地反映其所服务的多元群体，模型必须纳入更广泛的人类数据多样性。
模型准确性评估与偏差评估密不可分。我们必须审视：模型的构建目标是什么？其优化究竟服务于哪些群体？以内容推荐算法和搜索引擎算法为例——究竟是谁从中获益最多？利益相关者往往持有截然不同的诉求与目标。算法与模型需要设定贝叶斯误差的基准目标或替代指标：即模型必须超越的最低误差界限。这一基准通常以人为参照，例如具备领域专业知识的主题专家。
新兴的 AI 法规与行动计划正日益强调算法影响评估表的重要性。这些评估表旨在捕获关于 AI 模型的关键信息，以便治理团队在部署前就能评估并应对潜在风险。典型问题包括：
尽管设计初衷良好，但问题在于大多数 AI 模型所有者并不清楚如何评估其用例的风险。常听到的质疑是：“如果我的模型不收集个人身份信息 (PII)，怎么可能存在不公平？”其直接后果是：这些评估表很少能以治理系统精准识别风险因素所需的缜密思考来完成填写。
由此可见，该解决方案的社会技术属性愈发凸显。模型所有者作为个体，绝不能仅凭勾选清单来评估其应用场景是否会造成危害。真正需要的是汇聚具有多元现实生活经验的人群，在保障心理安全的共同体中，就差异化影响开展艰难对话。
IBM 始终秉持“零号客户”理念，将为其客户制定的建议与系统全面落实到咨询及产品导向的解决方案中。这一理念同样延伸至伦理实践领域，这正是 IBM 成立值得信赖的 AI 卓越中心 (COE) 的初衷。
如前所述，经验和技能组合的多样性对于准确评估 AI 影响至关重要。但在顶尖 AI 创新者、专家和杰出工程师云集的企业中，参与卓越中心的愿景可能令人望而生畏，因此需要培育具有心理安全感的共同体。IBM 通过“对 AI 感兴趣？对 AI 伦理感兴趣？这张会议桌永远有您的一席之地”的明确表态，积极构建包容氛围。
该 COE 为各级从业者提供 AI 伦理培训。既有同步学习（课堂场景中的师生互动），也设有异步（自主学习）课程体系。
但正是 COE 的 应用 实践培训，让我们的从业者通过与全球化、多元化、跨学科的团队共同参与真实项目，从而对差异化影响获得最为深刻的洞察。他们还借鉴 IBM AI 伦理设计 小组在内部及与客户协作时使用的设计思维框架，用以评估 AI 模型的意外效应，并始终将常被边缘化的群体置于首要考量位置。（例如可参考 Sylvia Duckworth 的 Wheel of Power and Privilege ，其中揭示了个人特征如何交织影响人们的特权或边缘化地位。）IBM 还将多数框架捐赠给了开源社区 Design Ethically。
以下是 IBM 就这些项目公开发布的部分报告：
自动化 AI 模型治理工具对于获取模型性能的关键洞察不可或缺。但需注意，最佳实践是在模型开发及投产前就充分识别风险。通过组建由多元跨学科从业者构成的、能为艰难对话提供安全空间的共同体，您就能开启原则落地之旅，负责任地开发 AI。
实践中，招聘 AI 从业者时需认识到：模型构建超过 70% 的工作在于筛选合适的数据。您需要聘用既懂得采集代表性数据，又确保数据获取经过授权的人才。同时需要深谙与领域专家紧密协作、确保方法论正确性的专业人员。关键在于确保这些从业者具备足够的情商，能以谦逊审慎的态度应对负责任构建 AI 的挑战。我们必须有意识地学会识别 AI 系统在增强人类智能的同时，何时以及如何会加剧社会不公。
借助 IBM watsonx.governance 随时随地治理生成式 AI 模型，并在云端或本地进行部署。
了解人工智能治理如何能帮助增强员工对 AI 的信心、加速采用和创新并提高客户信任。
借助 IBM Consulting，为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。