什么是数据质量?
了解重要性数据质量以及公司如何确保他们的企业数据优质、一致且适合于预期用途。
由两名工程师组成的团队在配备 IBM z16 的服务器机房中使用计算机
什么是数据质量?

 

数据质量衡量数据集满足准确性、完整性、有效性、一致性、唯一性、及时性和适用性标准的程度,它对组织内的所有数据治理计划至关重要。 数据质量标准可确保公司做出数据驱动的决策以实现其业务目标。 如果数据问题(例如重复数据、缺失值、异常值)没有得到妥善解决,企业面临负面业务结果的风险就会增大。 根据 Gartner 的一份报告,糟糕的数据质量让组织每年平均损失 1290 万美元1。 因此,出现了数据质量工具来减轻与数据质量糟糕相关的负面影响。

当数据质量达到其预期用途的标准时,数据使用者可以信任数据并利用它来改进决策,从而制定新的业务战略或优化现有战略。 但是,如果不符合标准,数据质量工具则会帮助企业诊断潜在数据问题,以此产生价值。 根本原因分析使团队能够快速有效地解决数据质量问题。

数据质量不仅是日常业务运营的重中之重;随着公司将人工智能 (AI) 和自动化技术集成到他们的工作流程中,高质量的数据对于有效采用这些工具至关重要。 正如老话所说,“如果输入是垃圾,输出也一定是垃圾”,这句话也适用于机器学习算法。 如果算法正在学习对不良数据进行预测或分类,我们可以预期它会产生不准确的结果。

数据质量、数据完整性与数据概要分析的比较

数据质量、数据完整性和数据概要分析都是相互关联的。 数据质量是更广泛的标准类别,组织以此来评估其数据的准确性、完整性、有效性、一致性、唯一性、及时性和适用性。 数据完整性只关注这些属性的一个子集,特别是准确性、一致性和完整性。 数据质量还更多地从数据安全的角度关注这一点,实施保护措施以防止恶意行为者破坏数据。

另一方面,数据概要分析侧重于审查和清理数据的过程,以维护组织内的数据质量标准。 数据概要分析也可以包括支持这些过程的技术。

数据质量的维度

数据质量是根据多个维度进行评估的,这些维度可能因信息来源而异。 这些维度用于对数据质量指标进行分类:

  • 完整性:这表示可用或完整的数据量。 如果缺失值的百分比很高,如果数据不能代表典型的数据样本,则可能会导致分析有偏差或有误导性。
  • 唯一性:这说明了数据集中重复数据的数量。 例如,在查看客户数据时,您应该期望每个客户都有一个唯一的客户 ID。
  •  有效性:此维度衡量有多少数据与任何业务规则所需的格式匹配。 格式化通常包括元数据,例如有效数据类型、范围、模式等。
  • 时效性:该维度是指数据在预期时间范围内的就绪情况。 例如,客户希望在购买后立即收到订单号,并且需要实时生成该数据。
  • 准确性:该维度是指基于商定的“事实来源”的数据值的正确性。 由于可能有多个来源报告同一指标,因此指定一个主要数据源很重要;其他数据源可用于确认主要数据源的准确性。 例如,工具可以检查每个数据源是否朝着同一方向发展,以增强对数据准确性的信心。
  • 一致性:此维度评估来自两个不同数据集的数据记录。 如前所述,可以识别多个来源以报告单个指标。 使用不同的来源来检查一致的数据趋势和行为,使组织能够信任他们分析中的任何可操作的见解。 这种逻辑也可以应用于数据之间的关系。 例如,一个部门的员工人数不应超过一家公司的员工总数。
  • 目的适用性:最后,目的适用性有助于确保数据资产满足业务需求。 这个维度可能很难评估,特别是对于新出现的数据集。                                                                                                          

这些指标可帮助团队在其组织内进行数据质量评估,以评估数据对于特定目的的信息量和有用性。

为什么数据质量很重要?

在过去十年中,混合云人工智能、物联网 (IoT) 和边缘计算 的发展导致大数据呈指数级增长。 因此,主数据管理 (MDM) 的实践变得更加复杂,需要更多的数据管理员和严格的保障措施来确保良好的数据质量。

企业依靠数据质量管理来支持他们的数据分析计划,例如商业智能仪表板。 如果做不到,可能会产生毁灭性后果,甚至是道德后果,具体取决于行业(例如医疗保健)。 存在数据质量解决方案以帮助公司最大限度地利用其数据,并且它们带来了关键优势,例如:

  • 更好的业务决策:高质量的数据使组织能够识别关键绩效指标 (KPI) 以衡量各种计划的绩效,从而使团队能够更有效地改进或发展这些计划。 优先考虑数据质量的组织无疑将比竞争对手更具优势。
  • 改进业务流程:良好的数据还意味着团队可以确定运营工作流程中的故障点。 对于供应链行业来说尤其如此,因为供应链依靠实时数据来确定适当的库存和发货后的位置。
  • 提高客户满意度:高数据质量为组织(特别是营销和销售团队)提供了对目标买家的难以置信的洞察力。 这些组织能够在销售和营销渠道中整合不同的数据,从而使他们能够更有效地销售产品。 例如,人口统计数据与 Web 行为的组合可以告知组织如何创建消息传递、投资营销预算或配备销售团队以服务现有或潜在客户。
IBM 解决方案
IBM Cloud Pak® for Data

使用基于数据架构构建的平台,更快地预测结果。 无论数据位于何处,都可以收集、组织和分析数据。

IBM Cloud Pak® for Data
IBM Watson Knowledge Catalog

在主动元数据和策略管理的支持下,通过智能编目为 AI 和分析激活业务就绪数据。

IBM Watson Knowledge Catalog
资源 数据领导者的数据治理和隐私
阅读有关数据治理和隐私构建块的 IBM 指南
数据质量计划入门
了解如何解决数据质量问题,以便您的组织能够改善业务成果。
采取下一步行动

IBM Cloud Pak® for Data 利用微服务及其领先的数据和 AI 功能,实现分布式系统数据智能集成的自动化,为企业提供全面的业务绩效视图。 这有助于更快地收集、组织和洞察企业数据,支持企业进行大规模决策。 数据管理团队相信,具有竞争优势的 IBM 安全框架能够保护他们的数据安全,确保遵守监管政策,降低合规性风险。 了解 IBM Cloud Pak® for Data 如何帮助您了解和管理企业跨多个环境的数据治理。

了解有关 IBM Cloud Pak® for Data 的更多信息