IBM 如何通过提高数据溯源透明度来提高运营效率

2024 年 11 月 4 日

阅读时间

作者

Christina Montgomery

Vice President, Chief Privacy & Trust Officer

AI 系统的可信度取决于用于开发它们的数据。这就是为什么使用高质量、可信的数据是构建负责任的 AI 的关键第一步。但是,如果数据溯源(即关于数据来源、如何开发以及如何从法律和合同角度使用数据的详细信息)不透明,即使对于经验丰富的数据专业人员来说,评估数据集的可信度也可能具有挑战性。数据集缺乏标准的元数据分类是整个数据生态系统的常见痛点。

因此,当数据与信任联盟 (D&TA) 着手制定第一个跨行业数据溯源标准时,IBM 非常愿意为之做出贡献。在整个 2024 年,我们领导了早期的测试工作,是首批开始酌情将内部数据标准与数据出处标准相统一的组织之一。现在,在我们结束测试并正式发布数据溯源标准 V1.0 三个月后,我们已经看到对数据尽职调查和管理流程的整体效率产生了一致且可量化的影响。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

IBM 是数据溯源标准实施的“零号客户”

IBM 致力于负责任地开发和部署 AI。这一承诺延伸到我们用于构建和培训我们的 AI 系统的数据。作为“零号客户”,我们希望在严格的环境中评估数据溯源标准,以真正了解其影响,并对其进行有意义的测试。因此,我们在自己的综合治理计划(IGP) 中实施了关键要素,该计划管理 IBM 开发和使用的数据和模型,首先要评估标准的全面性。为此,我们将数据溯源标准与我们自己对用于开发基础模型的数据集的数据摄入要求进行了比较,并评估了数据溯源标准的元数据分类法使我们能够验证数据是否适合各种用例的程度。

接下来,我们请 IBM 数据科学家和具有不同经验水平的研究人员将数据溯源标准应用于几种常见的数据类型,包括 IBM 专有数据、第三方数据以及包含 HAP(仇恨言论、辱骂性语言和亵渎性语言)材料的数据。

最后,我们请 IBM 隐私和负责任技术办公室的专家根据数据溯源标准检查元数据提交的完整性和准确性,并与数据科学家和研究人员一起审查提交的内容,以更好地了解他们的痛点或困惑。这种定性反馈使我们能够找出不清楚或含糊的术语、定义和指导。

专家荟萃 | 播客

解码 AI:每周新闻摘要

加入我们的世界级专家团队,包括工程师、研究人员、产品负责人等,他们将穿透 AI 的喧嚣,为您带来最新的 AI 新闻和见解。

数据溯源透明度如何转化为更高的运营效率

自从我们将内部数据标准与数据溯源标准更紧密地结合在一起后,我们观察到的最显著的影响就是处理数据放行请求所需的时间缩短了。在我们测试数据溯源标准并实施其他技术和流程改进的八个月期间,我们观察到第三方数据的平均数据清除处理时间缩短了 58%,IBM 专有数据的平均数据放行处理时间缩短了 62%。鉴于通过 IGP 提出的放行请求激增,这一改进尤为重要。到 2024 年 8 月,针对第三方和 IBM 专有数据的放行请求数量已超过 2023 年全年的总数。

这种效率的提高非常有价值。我们的数据治理团队能够以更快的速度处理更多数据请求,使我们能够扩展数据治理计划的规模,同时保持我们的信任和透明度标准。数据溯源标准的一些方面帮助我们加速了数据尽职调查流程,包括:

  • 方法:描述用于收集、生成或编译数据的程序。这一要素非常重要,因为汇总通常不会提供这些详细信息,从而使得评估数据的可靠性和有效性变得更加困难。
  • 机密性分类:指定已知存在于数据中的敏感数据类型。这种分类指导正确的数据访问和处理。
  • 数据发布者:说明数据的来源,以及提供者是否是实际所有者。由于第三方可以将数据当作自己的数据重新发布,因此该元素可以实现问责制,并为潜在的查询开辟一条联系渠道。

这对我们整个企业产生了连锁反应。当数据放行请求准确无误并得到更高效的处理时,模型开发就会加快,使我们的团队能够更快地响应客户的要求。这也意味着,我们跨企业的放行数据目录会不断扩大,质量也会不断提高,从而使我们整个企业的从业人员能够更高效、更负责任地进行再利用。

通过数据溯源透明度释放新的商业价值

透明且一致的元数据使从业者能够对数据选择做出更快、更明智的选择,从而最终建立更负责任的模型和系统。这不仅适用于 IBM,也适用于整个数据生态系统。更广泛地采用数据溯源标准可以通过进一步自动化和负责任的创新带来有意义的投资回报。

通过“零号客户”的数据溯源标准经验,我们正在通过提高人 AI 系统基础数据的透明度来强化我们对信任的承诺。我们在管理自己的综合治理计划 (IGP)(包括将我们的内部数据标准与数据溯源标准更紧密地结合起来)方面积累了丰富的经验,这使我们能够以更快的速度和更高的信任度将 AI 推向市场。这也让我们做好了准备,能够更好地支持客户实施自己的数据治理框架,包括与行业标准和数据溯源标准等框架保持一致。毕竟,如果我们能为 IBM 带来效益,就一定能帮助我们的客户实现同样的目标。

阅读我们的 AI 治理入门指南

深入了解我们的 AI 治理服务

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示