什么是AI偏见？

撰稿人詹姆斯-霍兹沃斯

日期：12/22/23

什么是AI偏见？

AI偏差，也称为机器学习偏差或算法偏差，是指由于人为偏差而导致原始训练数据或AI 算法发生偏差，导致结果出现偏差，从而导致输出失真和潜在有害的结果。

当AI偏见得不到解决时，它可能会影响组织的成功并阻碍人们参与经济和社会的能力。偏差会降低AI的准确性，从而降低其潜力。

企业不太可能从产生扭曲结果的系统中获益。 AI偏见引发的丑闻可能会加剧有色人种、女性、残疾人、LGBTQ 群体或其他边缘群体之间的不信任。

AI工作所基于的模型吸收了社会的偏见，这些偏见可以悄悄地嵌入到他们接受训练的海量数据中。反映社会不平等的历史偏见数据收集可能会在招聘、治安、信用评分等许多用例中对历史上被边缘化的群体造成伤害。据《华尔街日报》报道，“随着人工智能的使用变得更加广泛，企业仍在努力解决普遍存在的偏见。” ¹

浏览 IBM ® watsonx.governance

加速负责任、透明且可解释的AI工作流程。

相关内容

订阅 IBM 时事通讯

真实世界的例子和风险

当AI因偏见而犯错时——例如一群人被剥夺了机会、在照片中被错误识别或受到不公平的惩罚——违规组织的品牌和声誉就会受到损害。与此同时，这些群体中的人和整个社会可能会在不知不觉中体验到伤害。以下是一些引人注目的例子，说明AI领域的差异和偏见及其可能造成的危害。

在医疗保健领域，女性或少数群体的数据代表性不足可能会影响预测AI算法。 ² 例如，人们发现计算机辅助诊断 (CAD) 系统为非裔美国患者返回的准确度结果低于白人患者。

虽然AI工具可以在搜索过程中简化简历扫描的自动化，以帮助识别理想的候选人，但所请求的信息和筛选出的答案可能会导致不同群体的结果不成比例。例如，如果一则招聘广告使用了 "忍者 "一词，它可能会吸引更多的男性而不是女性，尽管这绝不是工作要求^。

作为图像生成的测试，彭博社要求创建 5000 多张AI图像，结果发现，“稳定扩散的世界是由白人男性首席执行官统治的。妇女很少成为医生、律师或法官。皮肤黝黑的男人会犯罪，而皮肤黝黑的女人则会做汉堡 "4^。Midjourney 对AI艺术生成进行了类似的研究，要求提供专业人士的图像。结果显示，年轻人和老年人都有，但老年人总是男性，这加剧了女性在工作场所角色的性别偏见。 ⁵

刑事司法系统中的一些组织使用人工智能驱动的预测警务工具，旨在识别可能发生犯罪的区域。然而，这些数据往往依赖于历史逮捕数据，这可能会强化现有的种族貌相模式和过多地针对少数群体社区的做法^。

偏见的来源

扭曲的结果可能会损害组织和整个社会。以下是一些较常见的AI偏见类型⁷ 。

算法偏差：如果问题或提出的问题不完全正确或不具体，或者机器学习算法的反馈无助于指导解决方案的搜索，则可能会产生错误信息。

认知偏差： AI科技需要人类的输入，而人类是容易犯错的。个人偏见会在从业者不知不觉中渗透进来。这可能会影响数据集或模型行为。
确认偏差：与认知偏差密切相关，当AI过于依赖数据中预先存在的信念或趋势时，就会发生这种情况——加倍现有的偏差，并且无法识别新的模式或趋势。
排除偏差：这种类型的偏差发生在所使用的数据中遗漏了重要数据的时候，通常是因为开发人员没有发现新的重要因素。
测量偏差：测量偏差是由不完整的数据造成的。这通常是由于疏忽或缺乏准备而导致数据集中的结果不包括应考虑的全部人口。例如，如果一所大学想预测成功毕业的因素，但只包括毕业生，那么答案就会完全忽略导致一些人辍学的因素。
群体外同质性偏见：这是一种 "知其然不知其所以然 "的情况。人们倾向于对内群体成员（一个人所属的群体）有更好的了解，并Think他们比外群体成员更加多样化。结果可能是开发人员创建的算法不太能够区分训练数据中不属于多数群体的个体，从而导致种族偏见、错误分类和错误答案。

偏见：当刻板印象和错误的社会假设进入算法的数据集中时就会发生，这不可避免地会导致有偏见的结果。例如， AI可以返回结果，显示只有男性是医生，所有护士都是女性。
回忆偏差：这是在数据标注过程中产生的，即通过主观观察应用的标签不一致。
样本/选择偏差：当用于训练机器学习模型的数据不够大、不够代表性或太不完整而无法充分训练系统时，就会出现问题。如果所有接受培训人工智能模型的学校教师都具有相同的学术资格，那么任何未来考虑的教师都需要具有相同的学术资格。
刻板印象偏见：当AI系统（通常是无意中）强化有害的刻板印象时，就会发生这种情况。例如，语言翻译系统可以将某些语言与某些性别或种族定型观念联系起来。麦肯锡对试图消除数据集中的偏见提出了警告：“一种幼稚的Approach是从数据中删除受保护的类别（例如性别或种族），并删除使算法产生偏见的标签。然而，这种Approach可能行不通，因为删除标签可能会影响对模型的理解，并且结果的准确性可能会变差。” ⁸

避免偏见的原则

避免偏见陷阱的第一步就是从一开始就退后一步，对AI工作进行一些思考。与几乎所有业务挑战一样，预先修复问题比等待培训失败然后对损坏的结果进行排序要容易得多。但许多组织都急于求成：因小失大，这让他们付出了代价。

识别和解决AI中的偏见需要AI治理，或者指导、管理和监控组织的AI活动的能力。在实践中， AI治理创建了一套政策、实践和框架来指导AI科技的负责任的开发和使用。如果做得好， AI治理有助于确保企业、客户、员工和整个社会的利益达到平衡。

AI治理通常包括旨在评估公平性、公平性和包容性的方法。反事实公平等方法可以识别模型决策中的偏见，并确保公平的结果，即使包括性别、种族或性取向等敏感属性。

由于AI的复杂性，算法可能是一个黑匣子系统，对用于创建它的数据几乎没有深入分析。透明度实践和科技有助于确保使用公正的数据来构建系统，并且结果将是公平的。致力于保护客户信息的公司建立品牌信任，并且更有可能创建值得信赖的人工智能系统。

为了提供另一层质量保证，可以建立一个 "人在回路中 "系统，提供选择或提出建议，然后由人工决策批准。

如何避免偏见

以下是六个流程步骤的清单，可以使AI程序免受偏见的影响。

1. 选择正确的学习模式：

使用监督模型时，利益相关者选择训练数据。关键/重要的是，利益相关者团队必须是多元化的——不仅仅是数据科学家——而且他们接受过有助于防止无意识偏见的培训。
无监督模型仅使用AI来识别偏差。需要将偏见预防工具内置到神经网络中，以便它学会识别什么是偏见。

2. 使用正确数据进行培训：使用错误数据训练的机器学习会产生错误的结果。无论输入AI的数据都应该完整且平衡，以复制所考虑群体的实际人口统计数据。

3. 选择平衡的团队： AI团队的多样性（种族、经济、教育水平、性别和职位描述）越多样化，它就越有可能认识到偏见。一个全面的AI团队的人才和观点应该包括AI业务创新者、 AI创造者、 AI实施者以及特定AI工作的消费者代表。 ⁹

4. 谨慎地进行数据处理：企业在处理数据时需要意识到每一步的偏见。风险不仅仅存在于数据选择中：无论是在预处理、处理中还是处理后，偏差都可能随时出现并被输入到AI中。

5. 持续监控：没有一种模式是完整或永久的。使用整个组织的真实数据进行持续监控和测试可以帮助在偏见造成伤害之前发现并纠正偏见。为了进一步避免偏见，组织应考虑由组织内部的独立团队或受信任的第三方进行评估。

6. 避免基础设施问题：除了人为和数据的影响，有时基础设施本身也会造成偏差。例如，使用从机械传感器收集的数据，如果传感器发生故障，设备本身可能会注入偏差。这种偏见可能很难发现，需要对最新的数字和技术基础设施进行投资。

脚注

1 《华尔街日报》： AI的崛起让算法偏见成为焦点

2 博思艾伦咨询公司：医疗保健中的人工智能偏见

3 LinkedIn：减少AI偏见——人力资源领导者指南

4 彭博社人类是有偏见的。生成式AI更糟糕

5 美国对话：年龄歧视、性别歧视、阶级歧视等等—— AI生成图像中存在偏见的 7 个例子

6 科技评论：预测性警务仍然存在种族主义——无论它使用什么数据

7 技术目标：机器学习偏差（ AI偏差）
查普曼大学AI中心： AI的偏见
AIMultiple： AI中的偏见——它是什么、类型、示例以及 2023 年修复它的 6 种方法

8 麦肯锡：解决人工智能（和人类）中的偏见问题

9 福布斯：人工智能存在偏见的问题（以及如何让AI变得更好）