简而言之,二者有区别。当我们谈论数据完整性时,指的是组织数据的整体完整性、准确性、一致性、可访问性和安全性。这些因素共同决定了组织数据的可靠性。数据质量则利用这些标准来衡量数据完整性的水平,从而评估其可靠性及其在预期用途中的适用性。对于依赖数据的组织来说,数据质量和完整性至关重要,这类组织利用分析来支持业务决策,为内部利益相关者提供自助数据访问,并向客户提供数据产品。
为了实现高水平的数据完整性,组织需要实施管理数据收集、存储、访问、编辑和使用的流程、规则和标准。这些流程、规则和标准协同工作,以实现以下目标:
组织可以在数据生命周期的各个阶段使用多种工具以及私有云或公有云环境,通过所谓的数据治理来维护数据完整性。数据治理是一种实践,旨在创建、更新并持续执行流程、规则和标准,以防止错误、数据丢失、数据损坏、敏感或受监管数据的误用,以及数据泄露。
具有高水平数据完整性的组织能够:
良好的数据完整性还可以通过提高组织分析的准确性来改善业务决策结果。数据集越完整、准确和一致,业务智能和业务流程就越可靠。因此,领导者能够更好地设定和实现有利于组织的目标,同时提升员工和用户的信心。
数据科学任务(如机器学习)也极大地受益于良好的数据完整性。当用于训练基础机器学习模型的数据记录是可信且准确的,该模型在进行业务预测或自动化任务时的表现也会更出色。
数据完整性主要分为两大类:物理数据完整性和逻辑数据完整性。
物理数据完整性指在数据存储或传输过程中,保护数据的完整性(即数据未丢失重要信息)、可访问性和准确性。自然灾害、停电、人为错误和网络攻击都可能威胁数据的物理完整性。
逻辑数据完整性指在不同部门、学科和地点的利益相关者及应用访问数据时,保护数据的一致性和完整性。逻辑数据完整性可通过以下方式实现:
数据安全是数据完整性的一个子组成部分,指采取的防止未经授权访问或防范篡改数据的措施。有效的数据安全协议和工具有助于实现强有力的数据完整性。换句话说,数据安全是手段,而数据完整性是目标。在发生数据泄露、攻击、停电或服务中断时的数据可恢复性属于数据安全的范畴。
人为错误、传输错误、恶意行为、安全防护不足以及硬件故障都会导致“坏数据”,从而对组织的数据完整性产生负面影响。面临上述一项或多项问题的组织可能会面临以下风险:
低质量数据会导致分析不准确、不充分,从而引发错误的决策。数据质量下降可能带来生产力损失、收入下降以及声誉受损。
如果数据未得到妥善保护,其遭受数据泄露或因自然灾害或其他非计划事件丢失的风险将增加。缺乏对数据安全的适当洞察和控制,组织也更容易违反地方、区域和全球的法规,例如欧盟的《通用数据保护条例》。
数据质量本质上是对数据完整性的衡量。组织通过评估数据集的准确性、完整性、一致性、有效性、唯一性和时效性来判断其在特定业务场景下的实用性和有效性。
数据质量分析师会根据上述维度评估数据集,并给出总体评分。当数据在每个维度上都表现良好时,即被视为高质量数据,在预期的使用场景或应用中非常可靠、可信。为了衡量和维持高质量数据,组织会使用数据质量规则(也称为数据验证规则),以确保数据集符合组织定义的标准。
业务用户和数据科学家无需再浪费时间在分散的系统中查找或整理数据。他们可以更自信地访问和分析数据集,同时还节省了因处理不完整或不准确数据而浪费的额外时间。
由于数据以一致的格式呈现,并根据用户或应用进行上下文化处理,组织能够从原本可能被丢弃或忽略的数据中获取价值。
高质量数据消除了系统和部门之间的不一致性,确保各流程和程序中数据的一致性。利益相关者之间的协作和决策得以改善,因为他们依赖的都是同一份数据。
高质量数据易于查找和访问。由于无需重新创建或追踪数据集,人工成本降低,手动数据录入错误的可能性也减少。此外,高质量数据便于在正确环境中存储,并能在必需报告中轻松收集和汇总,从而帮助组织更好地确保合规性,避免监管处罚。
高质量数据能够提供更准确、深入的洞察,帮助组织为员工和客户提供更加个性化且有影响力的体验。
为了确定数据质量并给出总体评分,分析师会根据以下六个维度(也称为数据特性)评估数据集:
数据集在每个维度上的评分越高,其总体评分也就越高。总体评分高意味着数据集可靠、易于访问且具有相关性。
组织常用来提升数据质量的一些方法和举措包括:
数据概况分析,也称为数据质量评估,是审查组织当前数据状态的过程。其目的是发现错误、不准确、缺失、不一致的数据、重复数据以及访问障碍。可以使用各种数据质量工具对数据集进行概况分析,以检测需要修正的数据异常。
数据清洗是对在数据概况分析过程中发现的数据质量问题和不一致性进行修正的过程。这包括对数据集进行去重,以确保同一数据不会无意中存在于多个位置。
这是将不同的数据资产和非结构化大数据统一为一致格式的过程,以确保数据完整且可用,无论其来源如何。为了标准化数据,会应用业务规则,确保数据集符合组织的标准和需求。
地理编码是向组织的数据集中添加位置信息元数据的过程。通过为数据打上地理坐标标签,以跟踪数据的来源、流向及存储位置,组织可以确保符合国家和全球的地理数据标准。例如,地理元数据可以帮助组织确保其客户数据管理符合 GDPR 规定。
这是识别、合并和消除重复或冗余数据的方法。
保持良好的数据质量需要持续的数据质量管理。数据质量监控是指定期回顾先前评分的数据集,并根据数据质量的六个维度重新评估它们。许多数据分析师使用数据质量仪表板来可视化和跟踪数据质量的关键绩效指标。
这是在所有应用程序和数据类型中大规模部署数据验证规则,以确保所有数据集遵循特定标准。这可以通过批量处理的方式定期进行,也可以通过诸如变更数据捕获等流程实时持续进行。
主数据管理 (MDM) 是创建并维护一个全组织范围的集中数据登记系统的行为,在该系统中所有数据都被分类和跟踪。这为组织提供了一个单一位置,可以快速查看和评估其数据集,无论数据存储的位置或类型如何。例如,客户数据、供应链信息和营销数据都可以存放在 MDM 环境中。
IBM 提供广泛的集成数据质量和治理功能,包括数据概况分析、数据清洗、数据监控、数据匹配和数据丰富化,以确保数据使用者能够访问可信且高质量的数据。IBM 的数据治理解决方案帮助组织建立自动化、基于元数据的基础架构,为数据资产分配数据质量评分,并通过开箱即用的自动化规则提升数据管理,从而简化数据质量管理流程。
借助数据可观测性功能,IBM 可以帮助组织更快地检测和解决数据管道中的问题。与 Manta 的合作提供了自动化数据沿袭功能,使 IBM 能够帮助客户更接近数据源发现、跟踪并防止问题的发生。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。