数据可靠性是指数据的完整性和准确性,用于衡量数据在不同时间段内和来源的一致性和无误性。
数据越可靠,就越值得信赖。无论是在学术研究、商业分析还是公共政策方面,对数据的信任为获得有意义的洞察分析和明智的决策提供坚实的基础。
不准确或不可靠的数据可能导致错误结论、缺陷模型和糟糕决策。这就是为什么越来越多的公司引入首席数据官。2019 年至 2021 年期间,顶级上市公司的首席数据官数量增加了一倍。1
不良数据的风险与准确数据的竞争优势相结合,意味着数据可靠性措施应成为每个企业的优先事项。为了取得成功,重要的是要了解评估和提高可靠性所涉及的内容(这在很大程度上取决于数据可观察性),然后设定明确的责任和改进目标。
实施端到端数据可观察性,可以帮助数据工程团队在不良数据问题有机会蔓延之前识别、排查和解决问题,从而确保整个数据堆栈中的数据可靠性。
衡量数据的可靠性需要考虑三个核心因素:
数据的有效性取决于它的存储方式和格式是否正确,以及它衡量的内容是否是预期衡量对象。例如,如果您正在收集有关现实世界特定现象的新数据,那么只有准确反映该现象并且不受无关因素影响的数据才有效。
数据完整性可识别信息中是否缺少任何内容。虽然数据可能有效,但如果不存在可能改变其他人理解信息的关键字段,则数据可能仍然不完整。不完整的数据可能导致偏差分析或错误分析。
数据唯一性可检查数据集中是否存在重复数据。这种唯一性对于避免过度代表性非常重要,因为过度代表性并不准确。
为了更进一步了解,一些数据团队还考虑各种其他因素,包括:
衡量数据的可靠性对于帮助团队建立对数据集的信任并及早发现潜在问题至关重要。定期有效的数据测试可以帮助数据团队快速查明问题,确定问题根源并采取行动解决问题。
现代数据平台不仅需要技术的支持,还需要开发运维 (DevOps)、DataOps 和敏捷理念的支持。尽管开发运维和 DataOps 的目的完全不同,但它们都类似于敏捷理念,旨在缩短项目工作周期。
开发运维专注于产品开发,而 DataOps 专注于创建和维护分布式数据架构系统,从数据中提供业务价值。
敏捷是一种软件开发理念,旨在提高速度和效率,但不会消除“人工”因素。它强调将面对面对话作为最大限度增进沟通的方式,同时也强调将自动化作为最大限度减少错误的手段。
数据可靠性和数据有效性涉及数据质量的两个不同方面。
在数据管理的背景下,这两种特质在确保现有数据的完整性和实用性方面发挥着至关重要的作用。
尽管数据可靠性和数据有效性相关,但它们不可互换。例如,您可能拥有高度可靠的数据收集流程(提供一致且可重复的结果),但如果收集的数据未经验证(不符合所需的规则或格式),最终结果仍然是低质量数据。
相反,您可能拥有完全有效的数据(满足所有格式和完整性规则),但如果收集该数据的流程不可靠(每次测量或观察都会产生不同的结果),那么该数据的实用性和可信度就会受到质疑。
为了保持数据的可靠性,必须建立并严格遵循收集和处理所有类型数据的一致方法。为了确保数据的有效性,必须制定严格的数据验证协议。这可能包括数据类型检查、范围检查、引用完整性检查等。这些协议将有助于确保数据采用正确的格式并遵守所有必要的规则。
所有数据可靠性举措都在众多研究和数据分析领域提出了相当重要的问题和挑战,包括:
收集数据的方式会极大地影响数据可靠性。如果用于收集数据的方法存在缺陷或偏差,则数据不可靠。此外,在收集数据时、输入数据期间或处理或分析数据时,都可能发生测量误差。
数据必须随着时间推移和不同环境的变化而保持一致,才能可靠。由于测量技术、定义或用于收集数据的系统的变化,可能会出现不一致的数据。
人为错误始终是不可靠的潜在原因。出现这种情况的原因有很多,如数据录入错误、数据编码不一致以及对数据的误读。
在某些情况下,测量的内容可能会随着时间推移而发生变化,从而导致可靠性问题。例如,预测消费者行为的机器学习模型在首次创建时可能是可靠的,但随着潜在消费者行为的变化可能会变得不准确。
不一致的数据治理实践和缺乏数据管理可能导致对数据质量和可靠性缺乏问责。
数据源发生变化或更新时,可能会破坏数据可靠性,尤其是在数据格式或结构发生变化时。来自不同数据源的数据集成也会造成现代数据平台中的数据可靠性问题。
重复的记录或条目可能导致不准确和结果偏差。识别和处理重复数据是保持数据可靠性的一项挑战。
确保数据的可靠性是健全数据管理的一个基本方面。以下是维护和提高整个数据堆栈中数据可靠性的一些最佳实践:
数据可观察性是指了解系统中数据的运行状况和状态。它包括各种活动,而不仅仅是描述问题。数据可观察性可以帮助近乎实时地识别、排查和解决数据问题。
重要的是,数据可观察性对于解决不良数据问题至关重要,而不良数据问题是数据可靠性的核心。从更深入的角度来说,数据可观察性涵盖监控、警报、跟踪、比较、分析、日志记录、SLA 跟踪和数据沿袭等活动,所有这些活动协同作用,以了解端到端数据质量,包括数据可靠性。
如果实施良好,数据可观察性可以通过尽早发现问题来帮助提高数据可靠性,从而使整个数据团队可以更快地做出响应,了解影响的程度并恢复可靠性。
通过实施数据可观察性实践和工具,组织可以增强数据可靠性,确保数据在整个数据生命周期中准确、一致且值得信赖。这在数据驱动的环境中尤其重要,在这种环境中,高质量数据可以直接影响商业智能、数据驱动的决策和业务成果。
设计数据战略,消除数据孤岛、降低复杂性并提高数据质量,以获得卓越的客户和员工体验。
watsonx.data 支持您通过开放、混合和已治理数据,利用您的所有数据(无论位于何处)来扩展分析和 AI。
通过 IBM® Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 关于我们信任的数据,普华永道,2022 年 4 月 28 日