辅以专家洞察分析的最新科技新闻
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
数据质量维度提供了一种衡量数据质量以及评估数据可信度和可用性的结构化方法。
六个核心维度——准确性、完整性、一致性、及时性、有效性和唯一性——帮助组织维护数据完整性,评估数据元素的正确性,并预防数据质量问题。
数据质量维度的概念由 Richard Y. Wang 教授和 Diane M. Strong 教授在 1996 年发表的论文《超越准确性:数据质量对数据消费者意味着什么》 1 中正式提出,该论文最初确定了 15 个维度。此后,这一概念有了显著发展,目前尚无通用标准。然而,六个到十二个核心维度仍然是实践中采用最广泛的。
作为数据管理策略的关键组成部分,数据质量维度为企业实现高质量数据提供了清晰的框架。通过确保数据满足准确性、完整性、一致性及其他维度的标准,组织可以减少运营效率低下、提高客户满意度并保持法规合规性。
高质量数据还支持预测建模、人工智能 (AI) 创新和个性化服务等高级举措,最终推动更好的绩效和竞争优势。
尽管公认的数据质量维度数量各不相同,但六个核心维度在各行业中仍被广泛采用。每个维度都关注数据质量的一个特定方面,并提供了评估可靠性和可用性的实用标准。这些维度也构成了定义数据质量指标的基础,组织可使用这些指标来长期衡量和监控绩效。核心维度包括:
通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。
在系统和数据源之间保持数据一致性对于可靠的数据至关重要。不一致的数据——例如客户在客户关系管理 (CRM) 系统和订单管理系统中的电话号码不同——可能造成混淆、重复工作和其他问题。
一致的数据在法规遵从性和报告准确性方面也发挥着重要作用。系统之间的差异可能导致审计失败或对财务结果的误读。集中的数据治理框架和数据集成工具有助于各部门基于相同的数据工作,降低出错风险。
及时性衡量数据在需要时是否可用,以及是否反映了最新的情况。过时或延迟的数据可能意味着错失机会和运营效率低下。
在金融、医疗保健和电子商务等快节奏行业中,及时性变得越来越重要,因为这些行业需要即时做出决策。例如,在金融交易中,实时股票价格更新对于及时执行买入或卖出决策至关重要。
组织可以通过安排定期数据刷新、为关键操作启用实时数据馈送以及监控数据管道中的延迟来确保及时性。此外,组织可以利用事件驱动架构和流分析等技术来保持数据的新鲜度。为数据交付建立服务水平协议 (SLA) 也有助于维持期望并支持敏捷决策。
在数据质量上下文中,有效性指数据是否符合预定义的规则、格式和标准。如果数据违反这些规则,则被视为无效数据,这可能导致流程失败、报告不准确等问题。
除了格式合规外,有效性还确保数据符合逻辑和上下文规则。例如,出生日期不应是未来日期,产品代码应与目录规格匹配。组织通过在数据输入时应用规则、使用自动异常检测工具以及使标准与行业法规保持一致来强制执行有效性。
唯一性确定每个记录是否独特且无重复。保持唯一性不仅提高了报告的准确性,还通过确认交互基于非冗余信息来提升运营效率和客户信任。重复记录可能导致指标膨胀、分析失真、资源浪费和服务延迟等问题。
重复数据通常源于系统迁移、手动录入错误或平台之间缺乏集成。为缓解这一问题,组织可以部署数据匹配算法,执行严格的身份策略(定义在账户创建时如何生成唯一用户 ID 的规则)2,并使用数据质量仪表板监控重复趋势。
除了这六个维度之外,根据业务需求,其他考虑的维度还包括完整性、可追溯性、可用性、可靠性、精确性和相关性。
作为数据质量的基础要素,数据质量维度帮助组织量化、验证、监控和改进其信息资产的可信度与可靠性。
低质量数据(如包含缺失值、重复项或过时信息的数据集)可能导致模型偏差、错误洞见和不可靠的结果,从而造成重大财务损失。事实上,全球超过 25% 的数据与分析从业者表示,数据质量差阻碍了数据素养,每年给其组织造成超过 500 万美元的损失。根据 Forrester 的报告,7% 的从业者报告损失达 2500 万美元或更多。
在 AI 和机器学习时代,数据质量维度变得不可或缺。智能体式 AI 工作流正加速走向主流应用,其成功将取决于底层数据的完整性和精确性。
IBM 商业价值研究所最近发布的报告《从 AI 项目到利润》估计,到 2026 年, 智能体式 AI 工作流将增加八倍。未能优先考虑数据质量的组织,可能会破坏其 AI 战略、分析、法规遵从性和决策的根本基础,将潜在的突破变成代价高昂的挫折。
在实施数据质量维度之前,建立结构化的数据质量框架是有帮助的。该框架可以结合政策、流程和技术,在数据生命周期中维护各个维度。然后,组织通常通过三个相互关联的步骤来实施数据质量维度:
数据质量的持续改进是一个关键原则,得到定期审计、更新标准以及适应不断变化的业务需求和技术变化的反馈循环的支持。来自度量和监控的洞察为纠正措施(如数据清洗、数据丰富和去重)提供依据。除了修复错误,组织还可以利用这些洞察来改进治理流程和优化数据收集方法,以防止问题再次发生。
定义和理解数据质量维度为组织带来了众多优势,包括:
高质量、准确的数据可确保分析和 商业智能 提供符合实际情况的洞察。当数据收集过程经过标准化并通过数据质量评估进行验证时,决策者可以信任这些洞察并自信地采取行动。
这种做法减少了猜测,并支持驱动竞争优势的预测模型。例如,金融机构依赖及时准确的交易数据来预防欺诈并保持实时警报,而制造商则使用经过验证的供应商和库存数据来避免生产延误。
数据质量维度帮助组织满足内部治理标准和外部法规要求,如财务审计或医疗保健指令。将合规性检查嵌入工作流可最大限度降低法律风险,并保持数据收集、存储和使用方式的透明度。例如,在医疗保健领域,验证规则确保患者记录遵循正确的出生日期和医疗代码格式,从而降低错误处方或索赔被拒的风险。
实施数据质量维度通过减少因不准确或不完整数据而导致的手动修正、重复处理及返工来简化工作流。当数据准确、一致且及时时,团队可以自信地自动化流程,加速决策并减少运营瓶颈。
准确、完整且一致的客户数据(例如正确的客户地址)能够带来及时且相关的 体验 ,从而提高客户满意度,提升忠诚度和品牌声誉。在零售业中,产品目录和在线列表中准确的定价数据可防止收入损失和客户不满;而在公共服务领域,同步的公民记录可确保福利得到高效发放。
通过数据质量检查及早发现异常,可降低重大业务中断的可能性。完整性和可追溯性等维度帮助组织监控工作流并在问题升级前加以识别,从而降低财务和声誉风险。例如,银行使用去重和验证来防止重复交易,而政府机构则通过完整性检查来避免在提供医疗或住房援助等关键服务时出现延误。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 《超越准确性:数据质量对数据消费者意味着什么》,《管理信息系统杂志》,1996 年春季刊
2《创建身份策略》,IBM Security Identity Manager,2022 年 5 月 13 日