数据完整性与数据质量:有区别吗?

插图描述:一个人手持钥匙站在安全窗口前,周围环绕着代表云计算和密码保护的图标。

简而言之,二者有区别。当我们谈论数据完整性时,指的是组织数据的整体完整性、准确性、一致性、可访问性和安全性。这些因素共同决定了组织数据的可靠性。数据质量则利用这些标准来衡量数据完整性的水平,从而评估其可靠性及其在预期用途中的适用性。对于依赖数据的组织来说,数据质量和完整性至关重要,这类组织利用分析来支持业务决策,为内部利益相关者提供自助数据访问,并向客户提供数据产品。

数据完整性

为了实现高水平的数据完整性,组织需要实施管理数据收集、存储、访问、编辑和使用的流程、规则和标准。这些流程、规则和标准协同工作,以实现以下目标:

  • 验证数据及其输入
  • 删除重复数据
  • 提供数据备份并确保业务连续性
  • 通过访问控制保护数据安全
  • 保持审计跟踪以确保问责和合规性

组织可以在数据生命周期的各个阶段使用多种工具以及私有云或公有云环境,通过所谓的数据治理来维护数据完整性。数据治理是一种实践,旨在创建、更新并持续执行流程、规则和标准,以防止错误、数据丢失、数据损坏、敏感或受监管数据的误用,以及数据泄露。

数据完整性的优势

具有高水平数据完整性的组织能够:

  • 在发生数据泄露或非计划停机时,提高数据恢复的可能性和速度
  • 防止未经授权的访问和数据篡改
  • 更有效地实现和维持合规性

良好的数据完整性还可以通过提高组织分析的准确性来改善业务决策结果。数据集越完整、准确和一致,业务智能和业务流程就越可靠。因此,领导者能够更好地设定和实现有利于组织的目标,同时提升员工和用户的信心。

数据科学任务(如机器学习)也极大地受益于良好的数据完整性。当用于训练基础机器学习模型的数据记录是可信且准确的,该模型在进行业务预测或自动化任务时的表现也会更出色。

不同类型的数据完整性

数据完整性主要分为两大类:物理数据完整性和逻辑数据完整性。

物理数据完整性指在数据存储或传输过程中,保护数据的完整性(即数据未丢失重要信息)、可访问性和准确性。自然灾害、停电、人为错误和网络攻击都可能威胁数据的物理完整性。

逻辑数据完整性指在不同部门、学科和地点的利益相关者及应用访问数据时,保护数据的一致性和完整性。逻辑数据完整性可通过以下方式实现:

  • 防止重复(实体完整性)
  • 规定数据的存储和使用方式(参照完整性)
  • 以可接受的格式保留数据(域完整性)
  • 确保数据满足组织的独特或行业特定的需求(用户定义的完整性)

数据完整性与数据安全的区别

数据安全是数据完整性的一个子组成部分,指采取的防止未经授权访问或防范篡改数据的措施。有效的数据安全协议和工具有助于实现强有力的数据完整性。换句话说,数据安全是手段,而数据完整性是目标。在发生数据泄露、攻击、停电或服务中断时的数据可恢复性属于数据安全的范畴。

数据完整性差的后果

人为错误、传输错误、恶意行为、安全防护不足以及硬件故障都会导致“坏数据”,从而对组织的数据完整性产生负面影响。面临上述一项或多项问题的组织可能会面临以下风险:

数据质量差

低质量数据会导致分析不准确、不充分,从而引发错误的决策。数据质量下降可能带来生产力损失、收入下降以及声誉受损。

数据安全不足

如果数据未得到妥善保护,其遭受数据泄露或因自然灾害或其他非计划事件丢失的风险将增加。缺乏对数据安全的适当洞察和控制,组织也更容易违反地方、区域和全球的法规,例如欧盟的《通用数据保护条例》。

AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

数据质量

数据质量本质上是对数据完整性的衡量。组织通过评估数据集的准确性、完整性、一致性、有效性、唯一性和时效性来判断其在特定业务场景下的实用性和有效性。

如何判断数据质量

数据质量分析师会根据上述维度评估数据集,并给出总体评分。当数据在每个维度上都表现良好时,即被视为高质量数据,在预期的使用场景或应用中非常可靠、可信。为了衡量和维持高质量数据,组织会使用数据质量规则(也称为数据验证规则),以确保数据集符合组织定义的标准。

良好数据质量的优势

提高效率

业务用户和数据科学家无需再浪费时间在分散的系统中查找或整理数据。他们可以更自信地访问和分析数据集,同时还节省了因处理不完整或不准确数据而浪费的额外时间。

增加数据价值

由于数据以一致的格式呈现,并根据用户或应用进行上下文化处理,组织能够从原本可能被丢弃或忽略的数据中获取价值。

改善协作与决策

高质量数据消除了系统和部门之间的不一致性,确保各流程和程序中数据的一致性。利益相关者之间的协作和决策得以改善,因为他们依赖的都是同一份数据。

降低成本,提高监管合规性

高质量数据易于查找和访问。由于无需重新创建或追踪数据集,人工成本降低,手动数据录入错误的可能性也减少。此外,高质量数据便于在正确环境中存储,并能在必需报告中轻松收集和汇总,从而帮助组织更好地确保合规性,避免监管处罚。

改善员工和客户体验

高质量数据能够提供更准确、深入的洞察,帮助组织为员工和客户提供更加个性化且有影响力的体验。

数据质量的六个维度

为了确定数据质量并给出总体评分,分析师会根据以下六个维度(也称为数据特性)评估数据集:

  1. 准确性:数据是否可以证明是正确的,并且是否反映了真实世界的知识?
  2. 完整性:数据是否包含所有相关且可用的信息?是否存在缺失的数据元素或空白字段?
  3. 一致性:相应的数据值在不同位置和环境中是否匹配?
  4. 有效性:数据收集的格式是否适合其预期用途?
  5. 唯一性:数据是否存在重复或与其他数据重叠?
  6. 时效性:数据是否是最新的,并在需要时可以随时获取?

数据集在每个维度上的评分越高,其总体评分也就越高。总体评分高意味着数据集可靠、易于访问且具有相关性。

如何提高数据质量

组织常用来提升数据质量的一些方法和举措包括:

数据分析

数据概况分析,也称为数据质量评估,是审查组织当前数据状态的过程。其目的是发现错误、不准确、缺失、不一致的数据、重复数据以及访问障碍。可以使用各种数据质量工具对数据集进行概况分析,以检测需要修正的数据异常。

数据清理

数据清洗是对在数据概况分析过程中发现的数据质量问题和不一致性进行修正的过程。这包括对数据集进行去重,以确保同一数据不会无意中存在于多个位置。

数据标准化

这是将不同的数据资产和非结构化大数据统一为一致格式的过程,以确保数据完整且可用,无论其来源如何。为了标准化数据,会应用业务规则,确保数据集符合组织的标准和需求。

地理编码

地理编码是向组织的数据集中添加位置信息元数据的过程。通过为数据打上地理坐标标签,以跟踪数据的来源、流向及存储位置,组织可以确保符合国家和全球的地理数据标准。例如,地理元数据可以帮助组织确保其客户数据管理符合 GDPR 规定。

匹配或链接

这是识别、合并和消除重复或冗余数据的方法。

数据质量监控

保持良好的数据质量需要持续的数据质量管理。数据质量监控是指定期回顾先前评分的数据集,并根据数据质量的六个维度重新评估它们。许多数据分析师使用数据质量仪表板来可视化和跟踪数据质量的关键绩效指标。

批量和实时验证

这是在所有应用程序和数据类型中大规模部署数据验证规则,以确保所有数据集遵循特定标准。这可以通过批量处理的方式定期进行,也可以通过诸如变更数据捕获等流程实时持续进行。

主数据管理 (MDM)

主数据管理 (MDM) 是创建并维护一个全组织范围的集中数据登记系统的行为,在该系统中所有数据都被分类和跟踪。这为组织提供了一个单一位置,可以快速查看和评估其数据集,无论数据存储的位置或类型如何。例如,客户数据、供应链信息和营销数据都可以存放在 MDM 环境中。

数据完整性、数据质量和 IBM

IBM 提供广泛的集成数据质量和治理功能,包括数据概况分析、数据清洗、数据监控、数据匹配和数据丰富化,以确保数据使用者能够访问可信且高质量的数据。IBM 的数据治理解决方案帮助组织建立自动化、基于元数据的基础架构,为数据资产分配数据质量评分,并通过开箱即用的自动化规则提升数据管理,从而简化数据质量管理流程。

借助数据可观测性功能,IBM 可以帮助组织更快地检测和解决数据管道中的问题。与 Manta 的合作提供了自动化数据沿袭功能,使 IBM 能够帮助客户更接近数据源发现、跟踪并防止问题的发生。

相关解决方案
IBM watsonx.governance

通过模型监控、风险管理以及贯穿整个 AI 生命周期的治理,将可信 AI 真正落地到实际运营中。

深入了解 watsonx.governance
数据治理解决方案

借助提升数据质量、确保合规并支持可信分析与 AI 的治理工具,实现对数据的有效掌控。

深入了解数据治理解决方案
AI 治理咨询

在专家指导下建立负责任的 AI 实践,管理风险、满足监管要求,并在规模化环境中落实可信 AI。

深入了解 AI 治理咨询服务
采取后续步骤

通过统一的产品组合直接管理、监控您的 AI,加速实现负责任、透明化、可解释的成果。

  1. 深入了解 watsonx.governance
  2. 深入了解人工智能治理解决方案