数据管道可观测性:面向数据工程师的模型

员工在现代化办公室工作的俯视图

作者

Eitan Chazbani

数据管道可观测性是指随时监控和了解数据管道状态的能力。具体而言,可观测性提供了对管道内部状态及其与系统输出的交互方式的洞察分析。

我们认为,全球的数据管道需要更好的数据可观察性。但不幸的是,当今数据工程中的情况几乎无法观察。多数数据管道旨在移动数据而非监控。用于测量,但不追踪。用于转型,但不告知。其结果便是臭名昭著的黑匣案例。

警惕黑匣场景

您知道传入了什么。您也知道传出了什么。但二者之间会出现哪些情况?以及,为何会出现此差异?遗憾的是,多数管道均非旨在解决这些未解之谜。多数管道是针对最佳情况而设计的。
然而,现实当然会更多地受到墨菲定律的支配,而在黑匣的输出端,您常会看到很多奇怪的值和神秘的失列缺。为此,数据工程师感到十分困惑,但他们意识到必须先观察才能进行校正。

本指南涵盖以下要点:

  1. 什么是数据可观测性?
  2. 什么是数据管道可观测性?
  3. 为什么数据可观察性对管道很重要?
  4. 如何实现数据管道的可观测性?
  5. 数据可观察性平台如何助您一臂之力?
AI Academy

数据管理是生成式 AI 的秘诀吗?

深入了解为什么高质量数据对于成功使用生成式 AI 至关重要。

什么是数据可观察性?

“可观测性”已成为一个流行词,因此最好将其定义为:数据可观察性是监控和改进应用程序与系统(如数据管道)中数据运行状况的总称。

数据可观察性与监控:区别何在?

“数据监控”可让您了解数据管道或数据的当前状态。它会告知您数据是否完整、准确和最新。它还会告知您管道是成功还是失败了。数据监控可告知您设备是正常工作还是出现故障;但除此之外,它不会提供太多背景信息。

因此,监控只是可观测性的其中一项功能。“数据可观察性”是一个总括性术语,它包括:

  • 监控:提供管道或系统运行视图的仪表板
  • 警报:针对预期事件和异常情况
  • 跟踪:能设置和跟踪特定事件
  • 比较:持续监控,并对异常发出警报
  • 分析:自动问题检测,它可根据您管道和数据的运行状况进行调整
  • 下一最佳操作:旨在修复错误的建议操作

可观测性不仅涵盖一项活动(监控),而是涵盖一系列活动,因此对工程师来说有用得多。数据可观察性并不止于描述问题。它可提供背景信息和建议,以帮助解决问题。

IBM Databand 联合创始人兼首席技术官 Evgeny Shulman 解释道:“数据可观察性比监控更为深入,它可为系统指标添加更多背景信息、提供更深入的系统运行视图,并指示工程师是否需介入并应用修复。”“换言之,虽然监控会告知您某些微服务正在消耗一定数量的资源,但可观测性则会告知其当前状态与严重故障相关,因而您需要进行干预。”

此主动方法对于数据管道尤为重要。

什么是数据管道可观测性?

数据管道可观测性是指能在任意时间点监控和了解数据管道的状态,尤其是基于系统输出的各种内部状态。它超越了基本监控,可提供对数据在管道中如何移动和转换的更深入洞察,且常与指标、日志记录与跟踪数据管道相关联。

数据管道通常涉及收集、转换和存储数据的一系列阶段。其中可能包括从不同来源提取数据、数据清理、数据转换(如聚合),以及将数据加载到数据库或数据仓库等流程。每个阶段均可能存在不同的行为和潜在问题,而它们会影响系统的数据质量、可靠性和整体性能。

通过可观测性可了解数据管道的每个阶段如何运作,及其内部工作如何与特定类型的输出(尤其是未提供所需性能、质量或准确性水平的输出)相关联。这些洞察信息有助于数据工程团队了解问题所在并进行修复。

为什么数据可观察性对管道如此重要?

数据管道可观测性至关重要,因为管道已从复杂变为极其复杂—从众多并发系统发展到众多相互依赖的系统。

管道对于快速扩张的行业至关重要

现在,软件应用程序更有可能从数据管道中受益,而且还会依赖数据管道。最终用户也是如此。当 AWS 等大型提供商出现故障时,全球应用程序的仪表板会闪烁不定,此时您便会发现周围的迹象表明,复杂性会产生危险的依赖关系。

目前,分析行业的总年增长率为 12%。据 Gartner 称,到 2027 年,其价值将高达惊人的 1,050 亿美元—相当于乌克兰经济体的规模。以此速度,企业数据量目前会每月增长 62%。所有这些企业都在存储和分析这些数据?它们将自己的业务都押注于此,同时寄希望于运行它的数据管道会继续正常工作。

背景信息至关重要(且经常缺乏)

出现数据质量问题和管道故障的一大原因在于这些管道内的转换。如今,多数数据架构均非透明—您无法判断内部出现的情况。转型在发生,但当结果不符合预期时,数据工程师对背后的原因便了解不多。

太多 DataOps 团队花费了太多时间来试图在缺少背景信息的情况下诊断问题。而且,如果您跟随自己的直觉并使用软件应用性能管理工具来监控 DataOps 管道,则很难奏效。

可观测性可让工程师保持同步(且充满信心)

Evgeny 表示:“数据管道的行为与软件应用程序和基础设施截然不同。”“数据工程团队可以深入了解高级作业(或 DAG)状态和摘要数据库性能,但对管理其管道所需的适当信息级别却缺乏可见性。此差距导致很多团队需花费大量时间来跟踪问题,或在持续的偏执状态下工作。”

拥有更庞大、更专业的数据团队可能会有所帮助,但如果这些团队成员不进行协调,则可能会造成损害。访问数据并运行自己的管道和转换的更多人员,会导致错误并影响数据稳定性。

如今,越来越多的工程师开始关注数据稳定性,以及他们的数据是否适合客户在企业内外使用。因此,越来越多的团队会对数据可观察性感兴趣。

如何实现数据管道的可观测性?

数据可观察性通过提供有关数据从开始到结束的流动与处理方式的洞察,来与您的数据管道协同工作。对数据可观察性在数据管道中工作原理的更详细说明如下:

  • 数据摄取:可观测性会从数据摄取到管道的位置开始。您可以监控正在摄取的数据量、处理速度以及是否存在任何错误或延迟。
  • 数据处理:随着数据经历各个处理阶段,可观测性工具可监控每个阶段的运行情况。其中包括监视故障、测量延迟、跟踪资源使用情况以及确保正确转换数据。
  • 数据存储和交付:可观测性会持续延伸到存储与交付阶段。它可监控数据写入数据库或数据仓库的速度、确保将数据传送到正确的目的地,并在出现任何问题时向您发出警报。
  • 错误跟踪和故障排除:可观测性工具可帮助确定错误发生的位置及其根本原因,甚至可以建议修复操作。此功能对于最大限度地减少停机时间并确保数据管道的可靠性至关重要。
  • 性能优化:通过监控数据管道的性能,可观测性工具可帮助识别瓶颈和优化机会。此举可更有效地利用资源并缩短处理时间。
  • 异常检测:可观测性能帮助识别异常,从而指示潜在问题或需要改进的领域。例如,如果数据处理时间明显长于平时,则可能表示管道中的特定阶段存在问题。
  • 警报和报告:可观测性工具通常包括警报功能,它可、实时通知潜在问题以便快速响应。此类工具通常还可提供全面的报告功能,从而可帮助您了解数据管道的整体运行状况和性能。

数据可观察性平台如何助您一臂之力

数据可观察性平台可提供单独的监控工具无法提供的洞察分析。它们不仅会告知您出了什么问题,还会告知您它导致了哪些问题并提供线索,甚至是如何修复此问题的下一最佳行动方案。它可持续完成这些工作,而无需重新构建当前的管道或像先前一样“在飞行中更换引擎”。

工程师为何应采用可观测性平台

  • 您的数据管道是复杂的系统,它们需要能进行持续调查的数据可观察性架构。
  • 您需要知道哪里出现了故障以及为什么。可观测性平台为此目的提供了端到端监控。
  • 您需要一种方法来跟踪下游依赖关系。您需要知道而不是希望,您的修复方案已解决根本问题。

用于数据管道的有效可观测性平台的组件

您的数据管道是复杂的系统,它们需要能进行持续侦查的数据可观察性架构。您需要一个用于端到端监控的可观测性平台,以便了解出现故障的位置和原因。您需要一种方法来跟踪下游依赖关系,并知道而不是希望,您的修复方案已解决根本问题。

数据可观察性平台应包括:

  • 简单的设置:是否需要更改管道?
  • 端到端跟踪:能否监控下游依赖关系?
  • 可观测性架构:它除了监控之外还能做些什么?
  • 阈值设置:它能否自行进行异常检测?
  • 管理:它能否监控静态数据?
  • 数据可观察性开源:它是否提供您可调整的组件?
  • 分布式系统可观测性:您是否也能观察分布式系统?

该平台还应提供充分的规范性指导。数据可观察性和数据工程领域发展迅速,找到一个能与您的问题同步快速发展的平台是最佳途径之一。仅仅监控已不够。您必须观察、追踪、发出警报并做出反应。

了解 IBM Databand 如何通过提供数据管道监控功能,来快速检测任务故障或运行失败等数据事件,以便企业应对管道增长。如果您准备深入了解,请立即预约演示

相关解决方案
IBM watsonx.governance

通过模型监控、风险管理以及贯穿整个 AI 生命周期的治理,将可信 AI 真正落地到实际运营中。

深入了解 watsonx.governance
数据治理解决方案

借助提升数据质量、确保合规并支持可信分析与 AI 的治理工具,实现对数据的有效掌控。

深入了解数据治理解决方案
AI 治理咨询

在专家指导下建立负责任的 AI 实践,管理风险、满足监管要求,并在规模化环境中落实可信 AI。

深入了解 AI 治理咨询服务
采取后续步骤

通过统一的产品组合直接管理、监控您的 AI,加速实现负责任、透明化、可解释的成果。

  1. 深入了解 watsonx.governance
  2. 深入了解人工智能治理解决方案