数据可观察性是指监控、管理和维护数据的实践以确保组织内各种流程、系统和管道的质量、可用性和可靠性。
数据可观测性是指真正了解数据的运行状况及其在整个数据生态系统中的状态。 它包括各种活动,超出了传统的监测范围,因为传统的监测只能说明问题。 数据可观察性可以帮助近乎实时地识别、排查和解决数据问题。
利用数据可观察性工具对于提前解决不良数据问题至关重要,而不良数据问题是数据可靠性的核心。这些工具支持自动监控、分类警报、跟踪、比较、 根本原因分析, 日志记录、数据沿袭和服务级别协议(SLA)跟踪,所有这些工具协同工作,帮助从业者了解端到端数据质量—包括数据可靠性。
实施数据可观测性解决方案对于现代数据团队尤其重要,在现代数据团队中,数据用于获得见解、开发机器学习模型和推动创新。 它确保数据仍然是宝贵的资产,而不是潜在的负债。
需要在整个端到端数据生命周期中始终如一地注入数据可观察性。 这样,所有涉及到的数据管理活动都会标准化,并集中到各个团队,以便清晰、不间断地了解整个组织的问题和影响。
数据可观测性是数据质量运动的自然发展,它使数据运营(DataOps)实践成为可能。
简单明了,大多数组织都认为他们的数据不可靠:
这些不良数据的影响不可低估。2022 年 5 月,Unity Software 发现它一直在从一个大客户那里采集错误数据,这导致该公司的股票暴跌 30%3,并最终使该业务损失了 1.1 亿美元的收入4。
传统上很难识别不良数据直到为时已晚。 与应用程序宕机会立即影响成千上万用户的情况不同,企业可以在不知情的情况下使用不良数据运行相当长一段时间。 例如,如果 Salesforce 仪表板没有加载,销售团队就会立即知道,但他们不知道要花多长时间才能发现仪表板显示的数据不正确。
数据可观察性是防止不良数据通过的最佳防御措施。 它监控数据管道以确保完整、准确和及时地交付数据以便数据团队能够防止数据停机、满足数据 SLA 并维护企业对其所看到数据的信任。
现代数据系统提供了各种各样的功能允许用户以多种不同的方式存储和查询数据。 当然,您添加的功能越多,确保系统正常工作就越复杂。 这种并发症包括
过去,数据基础架构是为了处理少量数据(通常是来自少数内部数据源的操作数据)而构建的,并且预计数据不会发生太大变化。现在,许多数据产品都依赖于内部和外部来源的数据,而收集这些数据的庞大数量和速度可能会导致意想不到的漂移、模式变化、转换和延迟。
从外部数据源获取的数据越多意味着您需要以所有其他格式转换、结构化和聚合所有这些数据以使其全部可用。更糟糕的是,如果这些格式发生任何变化,都会导致下游出现多米诺骨牌式的故障,因为严格编码的逻辑无法适应新的模式。
复杂的引入管道为简化此端到端过程的工具创造了市场,主要是自动化引入和提取、转换、加载 (ETL)/提取、加载、转换 (ELT) 过程。 将它们组合在一起就得到了一个被分析行业称为“现代数据堆栈”或 MDS 的数据平台。 MDS 的目标是减少最终用户(通常是分析师)使用数据所需的时间,以便他们可以更快地开始利用这些数据。 但是,自动化程度越高,对数据交付方式的控制就越少。 这些组织需要构建自定义数据管道以便更好地保证按预期交付数据。
数据运营 (DataOps) 是一种工作流程可实现敏捷的交付管道和反馈循环以便企业可以更高效地创建和维护其产品。 DataOps 允许公司在其分析项目的所有阶段从原型设计到产品部署使用相同的工具和策略。
DataOps 周期概述了改善 DataOps 工作流程中数据管理所需的基本活动。 这个周期包括三个不同的阶段:检测、感知和迭代。
这个周期从检测开始非常重要,因为 DataOps 运动的基石是数据质量计划。
DataOps 周期的第一阶段以验证为重点。 其中包括自数据仓库建立以来一直使用的相同数据质量检查。 他们正在研究列模式和行级验证。 从本质上讲,您正在确保所有数据集都遵守数据系统中的业务规则。
这种处于检测阶段的数据质量框架非常重要,但其本质是反应性的。 它让你能够了解已经存储在数据湖或数据仓库中的数据(而且很可能已经被使用)是否符合你的预期。
同样重要的是,您要验证数据集并遵循您所了解的业务规则。如果您不知道问题的原因,则无法制定新的业务规则供工程师遵守。这种实现激发了对持续数据可观察性方法的需求,该方法直接关系到数据生命周期的各个阶段,从源数据开始。
感知是 DataOps 阶段的一个注重可见性的阶段。 这就是围绕数据管理展开讨论并引入元数据优先方法的原因。 对整个数据生态系统中的管道和数据集元数据进行集中和标准化,可让团队了解整个组织内的问题。
元数据的集中化对于让组织了解其数据的端到端健康状况至关重要。 这样做可以让你采取更主动的方法来解决数据问题。 如果有错误数据进入您的“域”您可以将错误追溯到数据系统上游的某个点。 例如,数据工程团队 A 现在可以继续查看数据工程团队 B 的管道,了解发生了什么,并与他们合作解决问题。
反之亦然。 数据工程团队 B 可以检测问题并跟踪它对下游依赖项的影响。 这意味着数据工程团队 A 会知道将要发生问题并可以采取任何必要的措施来遏制问题。
在这里,团队专注于数据即代码。周期的这个阶段以过程为中心。各团队正在确保他们拥有可重复和可持续的标准,这些标准将应用于所有数据开发,以确保他们在这些管道的末端获得同样可信的数据。
现在,通过发现问题、了解上游根本原因和高效的迭代流程,数据平台的整体健康状况得以逐步改善。
执行良好的数据可观察性策略可以带来一系列好处,有助于提高数据质量、决策能力、可靠性和整体组织绩效。 这包括:
数据可观察性使团队能够及早发现缺失值、重复记录或格式不一致等问题,以免影响下游依赖关系。 借助更高质量的数据,组织能够做出更好的数据驱动型决策,从而改善运营、客户满意度和整体绩效。
数据可观测性使团队能够通过异常检测、实时监控和警报快速识别数据中的错误或偏差。 更快的故障排除和问题解决有助于最大限度地降低停机的成本和严重性。
通过使用数据可观察性平台提供的共享仪表板,各个利益相关者可以了解关键数据集的状态,从而促进团队之间更好的协作。
数据可观测性工具有助于查明瓶颈和性能问题使工程师能够优化其系统以更好地利用资源并缩短处理时间。 此外自动化还减少了维护数据运行状况所需的时间和精力使数据工程师、分析师和数据科学家能够集中精力从数据中获取价值。
数据可观测性可以帮助金融、医疗保健和电信等受到高度监管的行业中的组织确保其数据符合必要的准确性、一致性和安全性标准。 这降低了不合规和相关处罚的风险。
高质量的数据对于了解客户的需求、偏好和行为至关重要从而使组织能够提供更加个性化、相关的体验。 数据可观测性可以帮助组织维护准确、最新的客户数据从而提高客户满意度和忠诚度。
通过可观察性提高数据质量,组织可以解锁新的见解、识别趋势并发现潜在的创收机会。 通过充分利用其数据资产,组织可以增加收入和增长。
总之,数据可观测性的五大支柱提供了对数据质量和可靠性的宝贵见解。
新鲜度说明数据的最新程度和更新频率。当数据未更新时存在重要的时间差距时,就会发生数据过时。通常,当数据管道中断时,这是由于新鲜度问题。
分布是数据字段级运行状况的指标,是指数据是否在可接受的范围内。与预期分布的偏差可能表示数据质量问题、错误或基础数据源的更改。
数据量是指在各种流程和管道中生成、引入、转换和移动的数据量。它还指数据表的完整性。数据量是衡量数据摄入量是否达到预期阈值的关键指标。
模式描述数据的组织结构。模式的改变常常会导致数据损坏。数据可观察性有助于确保数据组织一致,跨不同系统兼容,并在整个生命周期内保持其完整性。
Lineage 的目的是回答 “在哪里?”当数据中断时。 它查看从源头到终点位置的数据,并记录所有变化,包括发生了哪些变化、更改原因以及在此过程中发生了怎样的变化。 世系通常以视觉方式呈现。
数据可观察性支持数据质量,但两者是管理数据的不同方面。
虽然数据可观测性实践可以指出数据集中的质量问题,但它们本身并不能保证良好的数据质量。 这需要努力解决数据问题,并从一开始就防止它们发生。 另一方面,即使企业没有实施数据可观察性计划,也可以拥有很高的数据质量。
数据质量监控衡量数据集的状况是否足以满足其在操作和分析应用程序中的预期用途。 为了做出这一决定需要根据各种质量维度对数据进行检查例如准确性、完整性、一致性、有效性、可靠性和及时性。
数据可观察性和数据治理是相互支持的互补过程。
数据治理旨在确保组织的数据可用、可用、一致和安全并且数据的使用符合内部标准和策略。治理计划通常包含数据质量改进工作或与数据质量改进工作密切相关。
强大的数据治理计划有助于消除数据孤岛、数据整合问题和数据质量差的问题,这些都可能限制数据可观察性实践的价值。
数据可观测性可以通过监测数据质量、可用性和来源的变化来帮助治理计划。
并非所有数据的可观测性都是一样的。 您可以实现的上下文级别取决于您可以收集哪些元数据并提供可视性。 这被称为数据可观测性的层次结构。 每个级别都是下一个级别的基础,并允许您获得越来越精细的可观察性。
了解运行和数据集的健康状况是任何数据可观察性框架的坚实基础。
监控数据集健康状况是指监控整个数据集。 当数据处于固定位置时,您可以了解数据的状态,这称为“静态数据”。
数据集监控可以回答如下问题:
运行监控指的是监控管道状态。 通过这种类型的监视,您可以了解数据在转换和通过管道时的状态。 这种数据状态被称为 “动态数据”。
管道监控可以回答以下问题:
虽然数据集和数据管道监控通常分为两个不同的活动但必须保持它们的耦合以实现可观察性的坚实基础。 这两种状态高度关联,相互依存。 将这两个活动分散到不同的工具或团队中,使得获得数据运行状况的高级视图更具挑战性。
列级概要分析是此层次结构的关键。 一旦为它奠定了坚实的基础,列级分析将为您提供所需的见解,以便为组织建立新的业务规则,并在列级(而不仅仅是行级)强制执行现有业务规则。
这种意识水平使您能够以非常可行的方式改进数据质量框架。
它能让你回答如下问题:
从这里,您可以进入可观测性的最后一个级别:行级验证。 这将查看每行的数据值并验证它们是否准确。
这种可观测性包括
当组织在行级验证中获得隧道视觉时,很难只见树木不见森林。 通过构建从操作和数据集监控开始的可观测性框架,您可以全面了解数据的运行状况,同时仍能深入了解问题的根本原因及其下游影响。
以下是构建成功的可观察性管道通常涉及的主要步骤。 该过程涉及各种工具和技术的集成以及组织内不同团队的协作。
构建可观测性管道是一个持续的学习和改进过程。 从小处着手,从经验中学习并逐步扩展可观测性功能至关重要。
IBM 提供的数据质量解决方案可优化准确性、完整性和一致性等关键维度。
IBM Databand 提供实时数据质量监控,以检测不良数据质量问题,并确保提供更高质量的数据。
通过 IBM Consulting 发掘企业数据的价值,建立以洞察分析为导向的组织,实现业务优势。
1 数据完整性趋势:2021 年首席数据官观点,Precisely,2021 年 6 月
2 数据驱动的企业:为什么组织必须加强对数据的掌握,凯捷,2021 年 2 月
3 Unity Software 的股价暴跌近 30%,原因是营收指引疲软,MarketWatch,2022 年 5 月 10 日
4 Unity Software 的虚拟世界面临严峻现实的 2 个原因,The Motley Fool,2022 年 7 月 17 日