IBM 商业价值研究院的最新研究表明,培育充满活力的数据环境可以帮助企业加速增长。但是,组织如何知道他们的数据是否确实充满活力并准备好推动增长呢?
使用数据质量指标会有所帮助。
数据质量指标是评估数据质量的定量措施。组织可以利用数据质量指标来跟踪和监控一段时间内的数据质量,从而识别适用于数据驱动式决策和人工智能 (AI) 用例的高质量数据。
指标因组织而异,并且可以反映传统数据质量维度,例如准确性、时效性和独特性,以及现代数据管道的特征,例如管道持续时长。借助数据质量指标,组织可以将数据质量的维度映射到数值上。
由自动化和机器学习提供支持的数据质量工具可以帮助数据工程师评估数据质量指标并实时识别数据质量问题。这使组织及其数据团队能够采取必要措施来优化其数据集和数据管道的可信度和可靠性。
维护高质量切可靠的数据是许多现代组织的目标,其重要性不言而喻。
高质量数据有助于推进商业智能计划,提升运营效率、优化工作流、确保监管合规性、增强客户满意度、促进企业发展,并改善关键绩效指标 (KPI)。数据质量对于切实执行 AI 计划至关重要,因为 AI 模型需要基于可靠、准确的数据进行训练,才能生成有效的输出结果。
但要收获这一回报,组织必须确保其数据维持高质量水平。这正是数据质量指标的“用武之地”。数据质量指标可通过将数据质量维度映射到评分等数值上,帮助组织确定数据质量。1
借助数据质量评估,组织可以确定其数据在业务决策和 AI 模型训练中的易用性。通过数据质量衡量识别的低质量数据,通常可以利用数据修复措施加以优化。
数据质量的常见维度通常可以通过简单的比率来衡量,例如首选结果的数量(准确数据点的数量、有效数据输入条目等数值)与结果总数的比率。2
例如,计算数据完整性的基本方法是:
完整性 = (完整数据元素的数量)/(数据元素总数)
或者,使用针对不良数据的逆向指标也是一种方案:
完整性 = 1 – [(缺失数据元素)/(数据元素总数)]
其他衡量维度的方法则需要更复杂的计算。
例如,计算数据时效性的公式可能依赖数据历史、交付时间(数据交付时间)、输入时间(接收数据时间)和波动性(数据有效时间)等变量。
除了表示传统数据质量维度的数据指标外,其他关键指标也可以帮助组织维持数据管道的平稳运行。例如:
数据质量指标用于支持数据治理、数据可观察性和数据质量管理等关键数据流程。
数据可观察性是指监控和管理数据以确保组织内各种流程、系统和管道的质量、可用性和可靠性。通过数据可观察性实践跟踪的数据质量指标涉及数据新鲜度、空值计数和架构变更。
软件解决方案可提供实时数据质量监控,包括跟踪数据质量指标的性能。领先的解决方案可能具备以下功能:
组织内管道和数据资产的聚合显示可实现跨数据堆栈的数据事件管理。
监控与错过数据交付、架构变更和异常相关的数据质量检查和服务级别协议 (SLA) 规则违规行为。
通过 Slack、PagerDuty 和电子邮件等工具和平台,向数据利益相关者发送定制化自动通知。
每日读写行级运营统计图表,可帮助企业识别重要趋势与问题模式。
端到端数据沿袭可显示受数据质量问题影响的从属数据集和管道。
IBM 提供的数据质量解决方案可优化准确性、完整性和一致性等关键维度。
IBM Databand 提供实时数据质量监控,以检测不良数据质量问题,并确保提供更高质量的数据。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1、2“数据质量衡量和监控工具调查。”Frontiers in Big Data。2022 年 3 月 30 日。