标签
分析 人工智能

数据挖掘流程中的 3 个新步骤，确保提供值得信赖的 AI

黑色服务器机架，带有相互连接的蓝色线缆

作者

Karolina Dufour-Kruszewska

IBM Data Scientist

作为数据科学家，有时我们过于执着于构建完美的模型，以至于无意中将人为偏倚引入到模型中。这种偏倚通常会通过训练数据潜入，然后被放大并嵌入到模型中。如果这种模型进入了生产周期，可能会因偏倚产生一些严重后果，例如信用评分或运行状况检查结果出现预测错误。在各个行业中，针对模型公平性和值得信赖的 AI 的监管要求旨在防止有偏倚的模型进入生产周期。

要成为负责任的数据科学家，在构建模型管道时有两个关键考虑因素：

  1. 偏倚：一个对不同群体（或种族、性别、民族群体等）进行预测的模型，经常会对他们区别对待
  2. 不公平：在不可见的情况下以剥夺他人财产或自由的方式进行预测的模型

检测和定义偏倚和不公平现象并非易事。为了帮助数据科学家反思和识别可能的伦理问题，数据挖掘的标准流程应额外增加三个步骤：数据风险评估、模型风险评估和生产监控。

行业时事通讯

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢！您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息，请参阅我们的 IBM 隐私声明

1. 数据风险评估

数据科学家可以在这一步中评估不同人群的目标变量之间是否存在不平衡情况。例如，我们仍然可以看到管理岗位录用男性的概率高于女性。但我们都知道，根据性别来招聘员工是违法的，因此，为了平衡模型，您可以争辩说性别不应成为考量因素，甚至可以将其剔除。但是，剔除性别这个因素还能带来什么其他影响呢？在采取这一步骤之前，应请相关专家进行审查，以确定当前的检查是否足以消除模型中的潜在偏移。

平衡数据的目的是模仿生产中使用的数据分布，这是为了确保训练数据尽可能接近生产环境中实时使用的数据。因此，虽然最初的反应是去掉有偏倚变量，但这种方法不太可能解决问题。变量之间常常存在相关性，偏倚可能通过其中一个相关字段潜入，以代理替代的形式存在于模型中。因此，在消除偏倚之前，应筛选所有相关性，以确保真正消除偏倚。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。
观看 Mixture of Experts 所有剧集

2. 模型风险管理

模型预测具有直接而严重的影响，实际上甚至能够彻底改变一个人的生活。如果一个模型预测你的信用评分较低，这可能会影响你生活中的方方面面，因为你在申请信用卡和贷款、寻找住房和申请合理利率时会遇到困难。另外，如果您不知道低分背后的原因，就没有改进的机会。

数据科学家的工作是确保模型为所有人提供最公平的结果。如果数据有偏倚，模型就会从这种偏倚中学习，从而做出不公平的预测。黑匣模型能提供很好的结果，但缺乏可解释性和可说明性，因此无法检查是否存在危险信号，从而无法确保公平性。因此，深入研究模型结果十分必要。数据科学家需要在可解释性与模型性能之间进行权衡评估，选出最能满足这两种需求的模型。

3. 生产监控

数据科学家开发出模型后，通常会将其移交给 MLOps 团队。当新的模型数据投入生产后，可能会带来新的偏倚，或者加剧以前由于缺乏适当监控而被忽视的偏倚。生产数据可能会导致性能或一致性出现偏差，并将偏倚带入模型和数据中。监控模型非常重要，可以引入指示模型性能下降的适当警报，并建立一种机制来决定何时停用不再适合使用的模型，比如使用 IBM Watson Studio 等工具。同样，应将生产数据的分布与用于训练模型的数据进行比较，以此来跟踪数据质量。

负责任的数据科学不仅仅关注模型的代码和性能，更要关注数据本身的质量和可靠性。归根结底，减轻偏倚是一个微妙但至关重要的过程，有助于确保模型遵循正确的人类操作流程。这并不意味着你需要做什么新的事情，重要的是要重新思考并重新定义我们作为数据科学家目前的工作，确保这些工作以负责任的方式进行。

要详细了解数据如何影响创建值得信赖的 AI 的能力，请访问我们的网站

 

资源

深入了解 IBM Granite

IBM® Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列，专门为企业量身定制，并经过优化，可以帮助您扩展 AI 应用。深入了解语言、代码、时间序列和防护措施选项。
大规模管理 AI 和分析数据

了解开放湖仓一体方法如何提供可信数据以及加快分析和 AI 项目执行。
数据领导者的数据科学和 MLOps

使用这本电子书与其他领导者就 MLOps 和值得信赖的 AI 的 3 个关键目标达成一致：信任数据、信任模型和信任流程。
利用 AI 就绪数据提高 AI 采用率

了解为什么 AI 驱动的数据智能和数据集成对于推动结构化和非结构化数据的准备工作和加速实现 AI 成果至关重要。
《数据差异化因素》

深入了解数据领导者指南，了解如何构建数据驱动型组织和推动业务优势。
如何选择合适的基础模型

了解如何为您的用例选择最合适的 AI 基础模型。
解锁生成式 AI + ML 的强大功能

了解如何将生成式 AI、机器学习和基础模型整合到您的业务运营中，以提高绩效。
数据科学荒野西部的架构思维

了解为何在选择编程语言、工具和框架方面拥有完全的自由可以提高创造性思维和发展能力。
相关解决方案
数据科学工具和解决方案

使用数据科学工具和解决方案，利用数据、算法、机器学习和 AI 技术发现模式，并构建预测。

 深入了解数据科学解决方案
IBM Cognos Analytics

推出 Cognos Analytics 12.0，人工智能驱动洞察分析可以更好地做出决策。

 深入了解 Cognos Analytics
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值，建立以洞察分析为导向的组织，实现业务优势。

 了解分析服务
采取后续步骤

使用数据科学工具和解决方案，利用数据、算法、机器学习和 AI 技术发现模式，并构建预测。

 深入了解数据科学解决方案 深入了解分析服务