什么是数据质量维度?

数据质量维度的定义

数据质量维度提供了一种衡量数据质量以及评估数据可信度和可用性的结构化方法。

六个核心维度——准确性、完整性、一致性、及时性、有效性和唯一性——帮助组织维护数据完整性,评估数据元素的正确性,并预防数据质量问题。

数据质量维度的概念由 Richard Y. Wang 教授和 Diane M. Strong 教授在 1996 年发表的论文《超越准确性:数据质量对数据消费者意味着什么》 1 中正式提出,该论文最初确定了 15 个维度。此后,这一概念有了显著发展,目前尚无通用标准。然而,六个到十二个核心维度仍然是实践中采用最广泛的。

作为数据管理策略的关键组成部分,数据质量维度为企业实现高质量数据提供了清晰的框架。通过确保数据满足准确性、完整性、一致性及其他维度的标准,组织可以减少运营效率低下、提高客户满意度并保持法规合规性。

高质量数据还支持预测建模、人工智能 (AI) 创新和个性化服务等高级举措,最终推动更好的绩效和竞争优势。

数据质量的六个核心维度

尽管公认的数据质量维度数量各不相同,但六个核心维度在各行业中仍被广泛采用。每个维度都关注数据质量的一个特定方面,并提供了评估可靠性和可用性的实用标准。这些维度也构成了定义数据质量指标的基础,组织可使用这些指标来长期衡量和监控绩效。核心维度包括:

  • 准确性
  • 完整性
  • 一致性
  • 及时性
  • 有效性
  • 独特性

准确性 

准确性衡量数据在多大程度上代表真实世界的实体或事件,以及能否根据可信来源进行验证。准确的数据确保业务决策基于正确的信息,从而降低出错和低效的风险。例如,记录准确的库存水平使企业能够做出明智的补货决策。

除了运营收益,数据准确性对于预测性分析和客户细分等战略举措也至关重要。数据不准确会导致有缺陷的预测、错位的营销活动以及合规风险。企业可以投资于数据验证工具、定期审计和员工培训,以尽量减少人为错误并保持对其数据资产的信心。

完整性

完整性关注是否所有必需的数据值都存在且已填充。数据缺失可能导致不可靠的分析和错误的决策。例如,患者记录中缺少出生日期或病史等关键字段,可能会损害医疗质量和法规遵从性。

不完整的数据值往往表明数据收集过程或系统集成存在薄弱环节。为解决这一问题,组织可以实施针对缺失字段的自动警报、利用第三方数据源进行数据丰富、监控数据录入流程,并建立明确数据完整性责任的数据治理策略。

一致性

在系统和数据源之间保持数据一致性对于可靠的数据至关重要。不一致的数据——例如客户在客户关系管理 (CRM) 系统和订单管理系统中的电话号码不同——可能造成混淆、重复工作和其他问题。

一致的数据在法规遵从性和报告准确性方面也发挥着重要作用。系统之间的差异可能导致审计失败或对财务结果的误读。集中的数据治理框架和数据集成工具有助于各部门基于相同的数据工作,降低出错风险。

时效性

及时性衡量数据在需要时是否可用,以及是否反映了最新的情况。过时或延迟的数据可能意味着错失机会和运营效率低下。

在金融、医疗保健和电子商务等快节奏行业中,及时性变得越来越重要,因为这些行业需要即时做出决策。例如,在金融交易中,实时股票价格更新对于及时执行买入或卖出决策至关重要。

组织可以通过安排定期数据刷新、为关键操作启用实时数据馈送以及监控数据管道中的延迟来确保及时性。此外,组织可以利用事件驱动架构和流分析等技术来保持数据的新鲜度。为数据交付建立服务水平协议 (SLA) 也有助于维持期望并支持敏捷决策。

有效性

在数据质量上下文中,有效性指数据是否符合预定义的规则、格式和标准。如果数据违反这些规则,则被视为无效数据,这可能导致流程失败、报告不准确等问题。

除了格式合规外,有效性还确保数据符合逻辑和上下文规则。例如,出生日期不应是未来日期,产品代码应与目录规格匹配。组织通过在数据输入时应用规则、使用自动异常检测工具以及使标准与行业法规保持一致来强制执行有效性。

唯一性

唯一性确定每个记录是否独特且无重复。保持唯一性不仅提高了报告的准确性,还通过确认交互基于非冗余信息来提升运营效率和客户信任。重复记录可能导致指标膨胀、分析失真、资源浪费和服务延迟等问题。

重复数据通常源于系统迁移、手动录入错误或平台之间缺乏集成。为缓解这一问题,组织可以部署数据匹配算法,执行严格的身份策略(定义在账户创建时如何生成唯一用户 ID 的规则)2,并使用数据质量仪表板监控重复趋势。

除了这六个维度之外,根据业务需求,其他考虑的维度还包括完整性、可追溯性、可用性、可靠性、精确性和相关性。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

为什么数据质量维度很重要?

作为数据质量的基础要素,数据质量维度帮助组织量化、验证、监控和改进其信息资产的可信度与可靠性。

低质量数据(如包含缺失值、重复项或过时信息的数据集)可能导致模型偏差、错误洞见和不可靠的结果,从而造成重大财务损失。事实上,全球超过 25% 的数据与分析从业者表示,数据质量差阻碍了数据素养,每年给其组织造成超过 500 万美元的损失。根据 Forrester 的报告,7% 的从业者报告损失达 2500 万美元或更多。

在 AI 和机器学习时代,数据质量维度变得不可或缺。智能体式 AI 工作流正加速走向主流应用,其成功将取决于底层数据的完整性和精确性。

IBM 商业价值研究所最近发布的报告《从 AI 项目到利润》估计,到 2026 年, 智能体式 AI 工作流将增加八倍。未能优先考虑数据质量的组织,可能会破坏其 AI 战略、分析、法规遵从性和决策的根本基础,将潜在的突破变成代价高昂的挫折。

如何实施数据质量维度

在实施数据质量维度之前,建立结构化的数据质量框架是有帮助的。该框架可以结合政策、流程和技术,在数据生命周期中维护各个维度。然后,组织通常通过三个相互关联的步骤来实施数据质量维度:

  • 评估与定义
  • 度量与监控
  • 修正与持续改进

评估与定义

组织通常首先评估其数据的当前状态,以了解其质量。数据剖析工具通常用于识别缺失值、重复记录、无效格式和错误数据类型等问题。这种评估为改进提供了基准。

在此阶段,利益相关者达成共识也至关重要。不同的业务部门对不同的维度有不同的优先级——及时性对实时分析最为重要,而准确性和有效性对合规性则至关重要。

接下来,定义要求和基准可以为可接受的数据质量建立明确的期望,通常以每个维度的阈值或最低分数来表示。组织还可以定义数据质量规则——数据必须满足的具体条件或约束,以符合这些基准。这些规则为后续过程中的验证检查和自动执行奠定了基础。

度量与监控

数据质量通常使用定量度量来评估,这些度量指示数据在多大程度上符合已定义的标准。常见指标包括完整性(必填字段已填充的百分比)、准确性(与可信来源的一致性)和一致性(跨系统的统一性)。这些指标被整合到治理框架和运营工作流中,以提供持续的可见性。

持续监控至关重要,因为数据质量是动态的;源系统、流程或业务规则的变化可能会引入新的风险。监控可能涉及在整个数据生命周期(从数据摄取到报告)中应用验证规则并执行质量检查。许多数据质量工具提供仪表板和警报,用于跟踪合规性并实时检测异常。

修正与持续改进

数据质量的持续改进是一个关键原则,得到定期审计、更新标准以及适应不断变化的业务需求和技术变化的反馈循环的支持。来自度量和监控的洞察为纠正措施(如数据清洗、数据丰富和去重)提供依据。除了修复错误,组织还可以利用这些洞察来改进治理流程和优化数据收集方法,以防止问题再次发生。

数据质量维度的优点

定义和理解数据质量维度为组织带来了众多优势,包括:

  • 明智决策
  • 法规一致性
  • 工作流优化
  • 客户满意度
  • 减轻风险
明智决策

高质量、准确的数据可确保分析和 商业智能 提供符合实际情况的洞察。当数据收集过程经过标准化并通过数据质量评估进行验证时,决策者可以信任这些洞察并自信地采取行动。

这种做法减少了猜测,并支持驱动竞争优势的预测模型。例如,金融机构依赖及时准确的交易数据来预防欺诈并保持实时警报,而制造商则使用经过验证的供应商和库存数据来避免生产延误。

法规一致性

数据质量维度帮助组织满足内部治理标准和外部法规要求,如财务审计或医疗保健指令。将合规性检查嵌入工作流可最大限度降低法律风险,并保持数据收集、存储和使用方式的透明度。例如,在医疗保健领域,验证规则确保患者记录遵循正确的出生日期和医疗代码格式,从而降低错误处方或索赔被拒的风险。

工作流优化

实施数据质量维度通过减少因不准确或不完整数据而导致的手动修正、重复处理及返工来简化工作流。当数据准确、一致且及时时,团队可以自信地自动化流程,加速决策并减少运营瓶颈。

客户满意度

准确、完整且一致的客户数据(例如正确的客户地址)能够带来及时且相关的 体验 ,从而提高客户满意度,提升忠诚度和品牌声誉。在零售业中,产品目录和在线列表中准确的定价数据可防止收入损失和客户不满;而在公共服务领域,同步的公民记录可确保福利得到高效发放。

减轻风险

通过数据质量检查及早发现异常,可降低重大业务中断的可能性。完整性和可追溯性等维度帮助组织监控工作流并在问题升级前加以识别,从而降低财务和声誉风险。例如,银行使用去重和验证来防止重复交易,而政府机构则通过完整性检查来避免在提供医疗或住房援助等关键服务时出现延误。

Techsplainers | 播客

收听:“什么是数据质量维度?”

关注 Techsplainers:SpotifyApple Podcasts

作者

Judith Aquino

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

相关解决方案
数据管理软件和解决方案

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

深入了解数据管理解决方案
IBM watsonx.data™

watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。

了解 watsonx.data
数据和分析咨询服务

通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。

了解分析服务
采取下一步行动

设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。

  1. 深入了解数据管理解决方案
  2. 了解 watsonx.data
脚注

1 《超越准确性:数据质量对数据消费者意味着什么》《管理信息系统杂志》,1996 年春季刊

2《创建身份策略》,IBM Security Identity Manager,2022 年 5 月 13 日