数据质量衡量数据集满足准确性、完整性、有效性、一致性、唯一性、及时性和适用性标准的程度,它对组织内的所有数据治理计划至关重要。 数据质量标准可确保公司做出数据驱动的决策以实现其业务目标。 如果数据问题(例如重复数据、缺失值、异常值)没有得到妥善解决,企业面临负面业务结果的风险就会增大。 根据 Gartner 的一份报告,糟糕的数据质量让组织每年平均损失 1290 万美元1。 因此,出现了数据质量工具来减轻与数据质量糟糕相关的负面影响。
当数据质量达到其预期用途的标准时,数据使用者可以信任数据并利用它来改进决策,从而制定新的业务战略或优化现有战略。 但是,如果不符合标准,数据质量工具则会帮助企业诊断潜在数据问题,以此产生价值。 根本原因分析使团队能够快速有效地解决数据质量问题。
数据质量不仅是日常业务运营的重中之重;随着公司将人工智能 (AI) 和自动化技术集成到他们的工作流程中,高质量的数据对于有效采用这些工具至关重要。 正如老话所说,“如果输入是垃圾,输出也一定是垃圾”,这句话也适用于机器学习算法。 如果算法正在学习对不良数据进行预测或分类,我们可以预期它会产生不准确的结果。
数据质量、数据完整性和数据概要分析都是相互关联的。 数据质量是更广泛的标准类别,组织以此来评估其数据的准确性、完整性、有效性、一致性、唯一性、及时性和适用性。 数据完整性只关注这些属性的一个子集,特别是准确性、一致性和完整性。 数据质量还更多地从数据安全的角度关注这一点,实施保护措施以防止恶意行为者破坏数据。
另一方面,数据概要分析侧重于审查和清理数据的过程,以维护组织内的数据质量标准。 数据概要分析也可以包括支持这些过程的技术。
数据质量是根据多个维度进行评估的,这些维度可能因信息来源而异。 这些维度用于对数据质量指标进行分类:
这些指标可帮助团队在其组织内进行数据质量评估,以评估数据对于特定目的的信息量和有用性。
在过去十年中,混合云、人工智能、物联网 (IoT) 和边缘计算 的发展导致大数据呈指数级增长。 因此,主数据管理 (MDM) 的实践变得更加复杂,需要更多的数据管理员和严格的保障措施来确保良好的数据质量。
企业依靠数据质量管理来支持他们的数据分析计划,例如商业智能仪表板。 如果做不到,可能会产生毁灭性后果,甚至是道德后果,具体取决于行业(例如医疗保健)。 存在数据质量解决方案以帮助公司最大限度地利用其数据,并且它们带来了关键优势,例如: