阅读时间
AI 系统的可信度取决于用于开发它们的数据。这就是为什么使用高质量、可信的数据是构建负责任的 AI 的关键第一步。但是,如果数据溯源(即关于数据来源、如何开发以及如何从法律和合同角度使用数据的详细信息)不透明,即使对于经验丰富的数据专业人员来说,评估数据集的可信度也可能具有挑战性。数据集缺乏标准的元数据分类是整个数据生态系统的常见痛点。
因此,当数据与信任联盟 (D&TA) 着手制定第一个跨行业数据溯源标准时,IBM 非常愿意为之做出贡献。在整个 2024 年,我们领导了早期的测试工作,是首批开始酌情将内部数据标准与数据出处标准相统一的组织之一。现在,在我们结束测试并正式发布数据溯源标准 V1.0 三个月后,我们已经看到对数据尽职调查和管理流程的整体效率产生了一致且可量化的影响。
IBM 致力于负责任地开发和部署 AI。这一承诺延伸到我们用于构建和培训我们的 AI 系统的数据。作为“零号客户”,我们希望在严格的环境中评估数据溯源标准,以真正了解其影响,并对其进行有意义的测试。因此,我们在自己的综合治理计划(IGP) 中实施了关键要素,该计划管理 IBM 开发和使用的数据和模型,首先要评估标准的全面性。为此,我们将数据溯源标准与我们自己对用于开发基础模型的数据集的数据摄入要求进行了比较,并评估了数据溯源标准的元数据分类法使我们能够验证数据是否适合各种用例的程度。
接下来,我们请 IBM 数据科学家和具有不同经验水平的研究人员将数据溯源标准应用于几种常见的数据类型,包括 IBM 专有数据、第三方数据以及包含 HAP(仇恨言论、辱骂性语言和亵渎性语言)材料的数据。
最后,我们请 IBM 隐私和负责任技术办公室的专家根据数据溯源标准检查元数据提交的完整性和准确性,并与数据科学家和研究人员一起审查提交的内容,以更好地了解他们的痛点或困惑。这种定性反馈使我们能够找出不清楚或含糊的术语、定义和指导。
自从我们将内部数据标准与数据溯源标准更紧密地结合在一起后,我们观察到的最显著的影响就是处理数据放行请求所需的时间缩短了。在我们测试数据溯源标准并实施其他技术和流程改进的八个月期间,我们观察到第三方数据的平均数据清除处理时间缩短了 58%,IBM 专有数据的平均数据放行处理时间缩短了 62%。鉴于通过 IGP 提出的放行请求激增,这一改进尤为重要。到 2024 年 8 月,针对第三方和 IBM 专有数据的放行请求数量已超过 2023 年全年的总数。
这种效率的提高非常有价值。我们的数据治理团队能够以更快的速度处理更多数据请求,使我们能够扩展数据治理计划的规模,同时保持我们的信任和透明度标准。数据溯源标准的一些方面帮助我们加速了数据尽职调查流程,包括:
这对我们整个企业产生了连锁反应。当数据放行请求准确无误并得到更高效的处理时,模型开发就会加快,使我们的团队能够更快地响应客户的要求。这也意味着,我们跨企业的放行数据目录会不断扩大,质量也会不断提高,从而使我们整个企业的从业人员能够更高效、更负责任地进行再利用。
透明且一致的元数据使从业者能够对数据选择做出更快、更明智的选择,从而最终建立更负责任的模型和系统。这不仅适用于 IBM,也适用于整个数据生态系统。更广泛地采用数据溯源标准可以通过进一步自动化和负责任的创新带来有意义的投资回报。
通过“零号客户”的数据溯源标准经验,我们正在通过提高人 AI 系统基础数据的透明度来强化我们对信任的承诺。我们在管理自己的综合治理计划 (IGP)(包括将我们的内部数据标准与数据溯源标准更紧密地结合起来)方面积累了丰富的经验,这使我们能够以更快的速度和更高的信任度将 AI 推向市场。这也让我们做好了准备,能够更好地支持客户实施自己的数据治理框架,包括与行业标准和数据溯源标准等框架保持一致。毕竟,如果我们能为 IBM 带来效益,就一定能帮助我们的客户实现同样的目标。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
立即购买单用户或多用户订阅,即可访问我们完整的包含 100 多个在线课程的目录,以低廉的价格扩展您的技能。
本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。
想要从 AI 投资中获得更好的回报吗?了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案,在关键领域扩展生成式人工智能来推动变革。
了解如何自信地将生成式 AI 和机器学习融入您的业务中。
深入了解强大 AI 战略的 3 个关键要素:创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。