数据决定成败:数据质量指标如何助力企业抢占先机

产品经理正在主持会议,并利用屏幕上显示的图表解释数据。

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

IBM 商业价值研究院的最新研究表明,培育充满活力的数据环境可以帮助企业加速增长。但是,组织如何知道他们的数据是否确实充满活力并准备好推动增长呢?

使用数据质量指标会有所帮助。

数据质量指标是评估数据质量的定量措施。组织可以利用数据质量指标来跟踪和监控一段时间内的数据质量,从而识别适用于数据驱动式决策人工智能 (AI) 用例的高质量数据。

指标因组织而异,并且可以反映传统数据质量维度,例如准确性、时效性和独特性,以及现代数据管道的特征,例如管道持续时长。借助数据质量指标,组织可以将数据质量的维度映射到数值上。

自动化机器学习提供支持的数据质量工具可以帮助数据工程师评估数据质量指标并实时识别数据质量问题。这使组织及其数据团队能够采取必要措施来优化其数据集和数据管道的可信度和可靠性。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据质量指标很重要?

维护高质量切可靠的数据是许多现代组织的目标,其重要性不言而喻。

高质量数据有助于推进商业智能计划,提升运营效率、优化工作流、确保监管合规性、增强客户满意度、促进企业发展,并改善关键绩效指标 (KPI)。数据质量对于切实执行 AI 计划至关重要,因为 AI 模型需要基于可靠、准确的数据进行训练,才能生成有效的输出结果。

但要收获这一回报,组织必须确保其数据维持高质量水平。这正是数据质量指标的“用武之地”。数据质量指标可通过将数据质量维度映射到评分等数值上,帮助组织确定数据质量。1

借助数据质量评估,组织可以确定其数据在业务决策和 AI 模型训练中的易用性。通过数据质量衡量识别的低质量数据,通常可以利用数据修复措施加以优化。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据质量的关键维度

数据质量指标用于追踪以下六个传统维度

  • 数据准确性:数据正确反映了现实世界的事件和数值。
  • 数据完整性:数据包含所有必要的记录,且不存在缺失值。
  • 数据一致性:数据在整个组织范围内均为统一标准化格式,可确保不同数据集中的数据记录相互兼容。
  • 数据时效性:数据值为最新状态,可确保组织避免基于过时信息制定决策。
  • 数据唯一性:数据不包含冗余或重复记录,以免影响分析结果。
  • 数据有效性:数据遵循业务规则,例如特定数据值在允许的范围内,且符合指定的数据格式标准。

数据质量的常见维度通常可以通过简单的比率来衡量,例如首选结果的数量(准确数据点的数量、有效数据输入条目等数值)与结果总数的比率。2

例如,计算数据完整性的基本方法是:

完整性 = (完整数据元素的数量)/(数据元素总数)

或者,使用针对不良数据的逆向指标也是一种方案:

完整性 = 1 – [(缺失数据元素)/(数据元素总数)]

其他衡量维度的方法则需要更复杂的计算。

例如,计算数据时效性的公式可能依赖数据历史、交付时间(数据交付时间)、输入时间(接收数据时间)和波动性(数据有效时间)等变量。

其他数据质量指标

除了表示传统数据质量维度的数据指标外,其他关键指标也可以帮助组织维持数据管道的平稳运行。例如:

  • 数据新鲜度:偶尔与数据时效性混用,但数据新鲜度特指系统中数据更新的频率。当数据更新的时间间隔存在显著差距时,就会发生数据过时。
  • 数据沿袭:数据沿袭是在数据旅程中观测和跟踪接触点的过程,可帮助组织确认数据的准确性和一致性。
  • 空值计数:数据工程师和分析人员可能会跟踪某一列中的空值数量或空值百分比。空值计数增加可能表明存在缺失值和数据漂移等问题。
  • 架构变更:频繁的架构更改(例如列数据类型变更或新增列),可能表明数据源不可靠。
  • 管道故障:管道故障可能会导致数据健康问题,例如架构变更、数据运营缺失和数据过时。
  • 管道持续时长:复杂的数据管道在不同运行周期中通常耗时相近。如果持续时长发生重大变化,则可能会导致处理过时数据。

了解更多关于组织环境中关键数据质量指标的信息。

关键数据流程中的数据质量指标

数据质量指标用于支持数据治理、数据可观察性和数据质量管理等关键数据流程。

数据治理

数据治理是一门数据管理学科,通过定义和实施数据收集、所有权、存储、处理和使用策略以及质量标准和程序,确保数据完整性数据安全性。数据一致性和完整性等数据质量指标可帮助组织评估治理实践标准的达成进度。

数据可观察性

数据可观察性是指监控和管理数据以确保组织内各种流程、系统和管道的质量、可用性和可靠性。通过数据可观察性实践跟踪的数据质量指标涉及数据新鲜度、空值计数和架构变更。

数据质量管理

数据质量管理 (DQM) 是一系列旨在提升和维护组织数据质量的实践活动。DQM 的核心实践是数据剖析,这需要审查现有数据结构和内容以评估其质量并建立衡量修复基准的过程。数据质量根据数据质量维度和指标进行评估。

通过剖析揭示的数据质量低下可以借助其他 DQM 实践来解决,即数据清理。数据清洁(又称“数据清洗”),是对原始数据集中的数据错误和不一致性进行纠正。清理数据是数据转换必不可少的第一步,数据转换则将原始数据转换为可用格式以进行分析。

数据质量指标跟踪工具

软件解决方案可提供实时数据质量监控,包括跟踪数据质量指标的性能。领先的解决方案可能具备以下功能:

综合仪表板

组织内管道和数据资产的聚合显示可实现跨数据堆栈的数据事件管理。

实时监控

监控与错过数据交付、架构变更和异常相关的数据质量检查和服务级别协议 (SLA) 规则违规行为。

定制化警报

通过 Slack、PagerDuty 和电子邮件等工具和平台,向数据利益相关者发送定制化自动通知。

趋势级图表

每日读写行级运营统计图表,可帮助企业识别重要趋势与问题模式。

端到端沿袭

端到端数据沿袭可显示受数据质量问题影响的从属数据集和管道。

各种线条搭配几个图标(如相机、音量旋钮和剪贴板)的 3D 渲染图
相关解决方案
数据质量解决方案

IBM 提供的数据质量解决方案可优化准确性、完整性和一致性等关键维度。

深入了解数据质量解决方案
IBM Databand

IBM Databand 提供实时数据质量监控,以检测不良数据质量问题,并确保提供更高质量的数据。

深入了解 Databand
数据和分析咨询服务

通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data
脚注

1、2数据质量衡量和监控工具调查。”Frontiers in Big Data。2022 年 3 月 30 日。