什么是数据质量管理?

一名女子坐在柜台前,周围摆放着多台大型电脑显示器,屏幕上显示着各种图表。

作者

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

什么是数据质量管理?

数据质量管理 (DQM) 是一系列旨在提升和维护组织数据质量的实践活动。

 

随着全球数据生产持续以惊人的速度增长,有效进行数据质量管理可以帮助企业规避低质量数据,从而避免代价高昂的错误和业务流程低效问题。凭借触手可及的可信、可靠数据,企业可以发掘高价值洞察分析,制定更好的决策,并将人工智能 (AI) 整合至其业务运营。

数据质量管理包括数据剖析数据清理、数据验证、数据质量监控元数据管理等实践。成功的数据质量管理结果是数据集针对关键质量维度进行优化,例如准确性、完整性、一致性、及时性、唯一性和有效性。

软件解决方案可以帮助组织和数据从业者解决数据质量问题并创建高质量的数据管道。这些工具提供数据质量分析、自动异常检测、实时事件警报等功能。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么数据质量管理很重要?

要了解数据质量管理的重要性,请考虑一下如果没有数据质量管理会发生什么:由于企业优先考虑数据驱动功能,数据质量差可能会导致错误、延迟、财务损失和声誉损害等严重后果。在“大数据”时代,随着组织努力应对海量而复杂的数据集,此类风险成倍增加。

想象一下以下“不良数据”场景:

  • 某零售商的客户数据表中充斥着大量不准确的信息,导致营销策略出现偏差且失效。

  • 一项临床研究包含不一致的格式,以致无法比较数据元素,同时阻碍了有关病程进展和医疗保健的研究。

  • 处于高度监管行业的企业常受数据质量问题困扰,易违反 GDPR 或“萨班斯-奥克斯利 (SOX) 法案”等政府法律法规。

相比之下,高质量数据有助于推进商业智能计划、提升运营效率、优化工作流、确保监管合规性、增强客户满意度并促进企业发展。

随着人工智能的广泛普及,高数据质量的优势进一步增强。算法需要借助高质量数据才能有效提升 AI 模型的性能;优越的数据质量可以确保 AI 模型输出更精确、更实用的内容。

实际上,IBM 商业价值研究院的一项研究表明,存储大量数据且备受内部及外部利益相关者信任的企业,其 AI 技术投资回报率已实现成倍增长。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据质量的六大维度是什么?

成功的数据质量管理可确保组织的数据满足六个关键数据质量维度:

  • 准确性
  • 完整性
  • 一致性
  • 及时性
  • 独特性
  • 有效性
数据准确性

确保数据准确性(即数据准确反映真实事件和价值的能力),需要识别并纠正数据集中存在的错误或失实陈述。

数据完整性

当数据集包含所有必要的记录并且不存在空白或缺失时,即可实现数据完整性。

数据一致性

一致的数据在整个组织范围内均为统一标准化格式,可确保不同数据集中的数据记录相互兼容。

数据及时性

数据时效性是衡量数据值更新成效的指标,可帮助组织避免基于过时信息制定决策。

数据唯一性

数据唯一性是指不存在可能会扭曲分析的冗余数据或重复记录。

数据有效性

数据有效性反映数据是否遵循业务规则,例如特定数据值是否在允许的范围内,以及是否符合指定的数据格式标准。

虽然这些指标都是数据从业人员最常用的数据质量维度,但其他数据质量指标还包括可及性、相关性、简洁表示和适当的数据量或容量。1

数据质量管理包括哪些实践措施?

数据管理员和其他数据专业人员常用的互补性数据质量管理实践包括:

  • 数据分析
  • 数据清理
  • 数据验证
  • 数据质量监控
  • 元数据管理

数据剖析

优化数据前,首先要确定待改进的具体环节。数据剖析是审查现有数据结构和内容以评估其质量并建立衡量修复基准的过程。

在数据剖析期间执行的分析可以提供有关数据类型的信息、揭示异常情况、识别无效或不完整的数据值,并评估数据集之间的关系。

数据清洗

数据清洁,也称为数据清洗,是对原始数据集中的错误和不一致性进行纠正。实现清洁数据的方法包括标准化(使格式和结构保持一致)、调整或删除异常值、重复数据删除和解决缺失值的问题。

数据验证

有时,数据验证也可视作一种数据清理方法,用于验证数据是否清洁、准确,且满足特定的数据质量规则和要求(例如取值范围或参照完整性约束),从而确保数据的可用性。

数据质量监控

确保数据质量是一个持续的过程。随着时间的推移,架构更改、数据过时和重复记录都会影响数据完整性。持续的数据监控可识别无法满足组织数据质量标准和关键绩效指标 (KPI) 的现有数据资产。

元数据管理

虽然元数据管理支持多种功能,例如安全性和治理,但它也通常包含在 DQM 的范畴内。元数据扩充等元数据管理技术可以确保元数据包含有关数据规则、数据定义和数据沿袭的信息。这可以为数据管理工作提供信息并简化其流程,包括数据质量举措。

数据质量管理与其他数据流程

数据质量管理、数据管理、主数据管理和数据治理是相互独立但紧密关联的流程,可用于优化组织数据资产的价值。

数据管理

数据管理涵盖整个数据生命周期内的监督和处理环节。数据管理策略可帮助组织解决使用不同数据源的问题以及规划灾难恢复方案等问题。数据质量管理可以视作数据管理的一个学科分支或子集。

主数据管理

数据管理是一种全面的方法,用于在整个组织范围内提升关键数据(主数据)处理流程的一致性。

通过主数据管理,组织内各应用程序和系统可共享并使用关键数据,从而减少碎片化数据、孤立数据、重复数据和不准确数据。它借助一系列流程和技术工具来实现这一目标,数据清理等工具也纳入了数据质量管理的范畴。

数据治理

数据治理负责定义并实施数据收集、数据存储、所有权、处理和使用的相关政策、标准及程序。与数据质量管理一样,数据治理也可视为数据管理的学科分支。同时,运用数据治理框架建立的流程(例如关于数据一致化处理的治理策略)可支持 DQM 计划的实施。

数据质量管理工具

数据质量管理工具和软件解决方案可以显著减少手动 DQM 工作。尽管 AI 技术的普及是数据质量管理需求背后的驱动因素之一,但这一技术还能为更强大的 DQM 解决方案提供助力。例如,组织可以部署机器学习以自动执行数据异常检测。

数据质量管理解决方案还具备其他能力,包括:

  • 预定义数据质量检查和可定制规则

  • 具备内置数据质量分析功能的数据目录

  • 用于数据事件管理的综合仪表板

  • 针对异常情况和其他数据问题的实时警报

  • 为解决事件提供信息的根本原因分析

  • 可提高数据转换透明度的元数据沿袭跟踪
脚注

数据质量概述:探讨数据质量的维度、影响因素及作用机制。”Journal of the Knowledge Economy,2023 年 2 月 10 日。