什么是全栈可观测性？| IBM

作者

Jim Holdsworth

Staff Writer

IBM Think

Annie Badman

Staff Writer

IBM Think

什么是全栈可观测性？

全栈可观测性实时监控和分析 IT 环境，使用相关遥测数据。它提供整个技术栈的端到端可见性，使组织能够优化系统性能、加快故障排除速度并增强用户体验。

全栈可观测性建立在可观测性基础上，可观测性是根据系统的外部输出（特别是其遥测数据，包括指标、事件、日志和跟踪 (MELT)）了解系统内部状态的能力。

传统的可观测性提供了对单个系统或应用程序的可见性，而全栈可观测性则将技术栈所有层的遥测数据关联起来，从基础设施和云原生应用直到用户体验。这种方法使组织能够全面了解其整个 IT 环境。

随着 IT 环境变得越来越复杂，这种综合方法变得越来越重要。现在，许多组织在多个云中管理数千个微服务，其中单个用户交易可以涉及数十种不同的服务。

当一项服务出现故障时，会引发整个系统的故障。传统的监控工具和孤立的可观测性解决方案经常会忽略这些级联问题，因为它们无法看到服务的交互方式。

全栈可观测性通过将遥测统一为可观测性数据的单一可信信息源，有助于消除这些孤岛。当出现性能问题时，团队可以通过整个栈跟踪问题，从而显著减少平均修复时间 (MTTR)，即事件发生后恢复服务所需的平均时间。

借助全栈可观测性，组织就能优化应用程序性能、加速识别根本原因、主动解决问题并提高系统可靠性。

监控、可观测性与全栈可观测性

监控、可观测性与全栈可观测性代表了组织理解其 IT 环境的方式的进步。每种方法都回答了有关系统行为的日益复杂的问题。

监控

“发生了什么？”

监控可跟踪预定义指标，并在系统超过阈值时发出警报。它通过仪表板和警报捕获系统健康状况指标，例如 CPU 利用率、内存消耗和网络延迟。

传统的监控可提供系统性能快照，但无法深入洞察分析根本原因。例如，监控可以标记超过两秒的响应时间，但无法解析其原因是数据库查询、网络拥塞还是应用程序代码。

应用性能管理 (APM) 和网络性能管理 (NPM) 等工具可扩展这些功能，但其重点仍是特定领域，而非整个系统。

可观察性

“为什么会这样？”

可观测性使团队能够在没有预定义查询的情况下深入了解系统行为。当问题出现时，它可通过指标、日志和跟踪进行调查。

与监控的反应性警报不同，可观测性提供了调查功能。当性能下降时，团队可以跟踪请求、检查日志并分析模式以确定具体原因。然而，标准的可观测性通常侧重于单个应用程序或服务。

全栈可观测性

“一切如何协同运作？”

全栈可观测性会自动关联跨层数据，并映射整个 IT 环境中的问题以揭示因果链。

其关键差异在于范围和自动化。当电子商务网站的结账服务失效时，全栈可观测性就会揭示完整的因果链：前端错误触发重复的 API 调用，数据库因未索引查询不堪重负，进而引发超时并最终影响收入。这一全面的视图可将故障排除从数小时的调查转变为分钟级引导解决。

全栈可观测性如何工作？

全栈可观测性平台通过实时收集来自多个系统的遥测数据来持续监控技术栈。其通过智能体、SDK 和自动检测，或通过读取现有日志和指标端点来收集数据，然后将其关联起来，映射组件之间的关系。

现代全栈可观测性平台使用机器学习 (ML) 和人工智能运营 (AIOps) 自动检测异常、预测故障并提供实时洞察分析，通常只需最少的手动配置。

MELT 数据收集

全栈可观测性平台主要收集四种类型的遥测数据：指标、事件、日志和跟踪 (MELT)。

指标

指标是衡量一段时间内应用程序和系统性能的基本测度。它们跟踪 CPU 使用率、内存消耗、延迟、吞吐量和其他性能指标，帮助团队在降级和容量问题影响用户之前将其识别出来。

常见的指标包括：

主机指标：内存、磁盘和 CPU 使用率
网络指标：正常运行时间、延迟、吞吐量
应用程序指标：响应时间和错误率
服务器池指标：实例总数、正在运行的实例数
外部依赖项指标：可用性、服务状态

活动

事件是在特定时间发生的离散事件。它们可帮助团队将问题与特定系统更改相关联，并建立事件时间线。

例如：

部署和配置更改：代码发布、服务器重启或数据库更新
服务降级：API 变慢、内存泄漏或网络拥塞
系统中断：数据库故障或服务完全不可用

日志

日志会创建带有时间戳的精细记录，以提供系统行为的高保真视图和故障排除所需的上下文。例如，日志可以显示导致交易失败的具体数据库查询序列。

跟踪

跟踪映射用户请求的端到端路径，从前端到整个架构结构，再回到用户。例如，跟踪可以揭示汇款请求如何通过身份验证、欺诈检测、账户验证和交易处理系统。

跟踪对于全栈可观测性至关重要，因为每次旅程都会跨越多个系统。

关联与分析

收集 MELT 数据后，该平台通过语义关系实时关联整个技术堆栈中的相关信息，以了解不同的组件（容器、微服务和数据库）如何交互。

组织内的团队（包括 DevOps、站点可靠性工程 (SRE) 团队和 IT 人员）可以快速识别任何问题的“内容、地点和原因”，从而减少查明潜在根本原因所需的人工调查工作量。

OpenTelemetry

OpenTelemetry (OTel) 已成为与供应商无关的事实上的遥测收集框架和生态系统。该开源框架提供软件开发工具包 (SDK)、API 和自动仪表，在许多情况下，无需修改源代码即可进行遥测采集。

无论选择哪种可观测性平台，组织都会利用 OTel 来保持全栈可见性，这对于多供应商环境和复杂的分布式系统至关重要。

全栈可观测性的关键功能

全栈可观测性通过多个核心能力提供全面的可见性。这些平台通常包括：

自动发现和映射
根本原因分析
统一仪表板
预测性优化

自动发现和映射

全栈可观测性平台可以自动发现并监控近期部署的服务，同时跨 Kubernetes、AWS 和其他云环境持续更新关系映射。相比众多传统监控工具，这种方法可减少人工配置。

例如，在从本地部署数据中心向云环境迁移的过程中，该平台可以自动发现新的云服务，并在过渡期间保持两个环境的可见性。

根本原因分析

通过关联所有层的遥测数据，平台可以在几分钟（而非几小时）内自动执行根本原因分析。出现性能问题时，系统可以确定其原因是应用程序代码、网络延迟还是基础设施问题。

该平台可以精确定位第三方支付处理程序造成的延迟增加，从而将故障排除从侦查工作转变为指导性解决方案。

统一仪表板

仪表板可将遥测数据整合为直观的可视化形式，供技术和业务利益相关者使用。这些界面可监控应用程序性能、跟踪数字体验并持续衡量业务关键绩效指标 (KPI)，在各个层面提供有效的洞察分析。

例如，仪表板可以显示结账故障与超过两秒的 API 响应时间相关，从而使团队能够确定修复的优先级。

预测性优化

机器学习模型通过分析历史模式和异常，预测容量需求、优化资源分配，并预防性能问题，从而提高系统性能和用户体验。

全栈可观测性的优势

全栈可观测性通过实现全面可见性驱动卓越运营并创造商业价值，从而改变组织管理复杂 IT 环境的方式。

加快事件解决速度

全栈可观测性可以通过缩短平均修复时间 (MTTR) 来帮助减少停机时间，通常可以从几小时缩短到几分钟。团队无需单独调查每一层（检查应用程序日志、网络指标和数据库性能），自动关联可以立即识别根本原因。它可以确定问题是源于内存泄漏、网络配置错误还是数据库死锁。

当与自动化平台或运行手册集成时，全栈可观测性可以触发独立解决问题的自我修复操作。例如，当内存消耗接近关键阈值时，系统可以在用户感受到任何影响之前自动扩展资源或重新启动服务。

运营效率

全栈可观测性有助于识别特定的资源低效问题，例如为峰值负载配置但以最小容量运行的容器、跨环境的重复服务以及已完成项目中的孤立资源。这种可见性使组织能够适当调整基础设施规模并减少不必要的云支出。

AI 驱动的分析还可以帮助 IT 团队在问题影响用户之前进行预防。例如，零售平台可能会在黑色星期五前几周检测到数据库查询模式逐渐变慢，使团队能够在流量高峰期间优化索引并防止结账失败。

提高 DevOps 开发运维的工作效率

DevOps 团队可减少故障排除的时间，同时投入更多精力开发功能。分布式跟踪可揭示代码更改如何影响所有依赖服务的生产绩效，自动化检测仪器则可消除手动配置。

借助全栈可观测性，开发人员可以通过微服务、数据库和第三方集成在几分钟而不是几小时内跟踪缓慢的 API 调用。这种可见性可以在性能退化进入生产之前将其识别出来，从而减少回滚频率（由于故障必须恢复部署的频率）和调试时间。

安全性和合规性

全栈可观测性通过全面的审计追踪和异常检测增强了安全态势。与传统的事件响应相比，当事件发生时，日志和跟踪可帮助团队更快地识别攻击载体、评估影响并修复漏洞。

该技术还通过维护系统访问和数据流的详细审计跟踪来支持合规性要求。例如，金融服务公司使用全栈可观测性来支持《萨班斯-奥克斯利法案》(SOX) 等法规的可审计性，并通过详细的、带有时间戳的记录帮助记录 SLA 性能。

改善业务成果

全栈可观测性将技术指标与业务结果直接连接起来。组织可以实时跟踪应用程序性能如何影响客户体验、转化率和收入。

例如，电子商务公司可以将页面加载时间与购物车弃单率相关联，以分析用户行为模式，从而帮助团队优先确定直接影响营收的优化。

全栈可观测性的挑战

虽然全栈可观测性解决方案提供全面的可见性，组织可能在实施和维护这些复杂系统时面临潜在问题。

数据规模和复杂性

企业环境每天在数千项服务中生成 PB 级的遥测数据。组织必须在全面可见性与存储空间成本、查询性能和数据保留方面的实际限制之间取得平衡。

如果没有适当的采样策略和数据优先级，这样的大量数据可能会使全栈可观测性工具不堪重负，从而延迟洞察分析并掩盖异常。例如，监控高频交易系统的金融服务公司每秒可能会生成数百万个事件，如果没有智能筛选和聚合，就无法进行实时分析。

工具整合与集成

大多数组织都运行着多年积累的数十种监控工具，每种工具都服务于特定的团队或技术。技术堆栈通常涵盖多种编程语言、旧版系统、多云环境、微服务、基础设施组件和框架，导致互操作性问题并产生碎片化数据。这一碎片化背离了全栈可观测性的核心宗旨：创建系统健康状况的统一视图。

此外，一些工具主要是为 Web 应用程序设计的，因此将移动应用程序和 IoT 设备集成到同一个可观测性框架中具有挑战性。

组织就绪度

全栈可观测性需要团队运作方式的根本转变。开发、运营、安全和业务团队必须围绕共享数据和指标进行协作，否则数据将保持孤立，在团队边界之间会出现严重问题。

例如，生产中断可能需要关联应用程序日志（开发）、基础设施指标（运营）和安全事件（信息安全）。如果缺乏共享数据，根本原因分析就难以完成。

组织必须建立明确的所有权模型，对员工进行新工作流程的培训，并定义哪些指标对业务成果很重要。没有这些基础，团队就会继续孤立地依赖熟悉的工具，从而无法实现统一可观测性的目的。

合规性和数据隐私

全栈可观测性通过将整个企业的敏感数据聚合到集中式平台中，带来了独特的合规性挑战。遥测数据通常包含个人身份信息 (PII)、支付卡详细信息或受保护的健康信息。此类数据受《通用数据保护条例》(GDPR)、《健康保险流通和责任法案》(HIPAA)、California Consumer Privacy Act (CCPA) 及其他法规的约束。

如果没有数据屏蔽、标记化、地理限制和基于角色的访问控制，组织就有可能将敏感数据暴露给未经授权的用户或违反监管要求。例如，解决欧洲客户的交易问题可能需要访问包含个人身份信息 (PII) 的日志。如果美国的工程师查看这些数据，他们可能会违反 GDPR 限制。

信噪比

组织已经在努力解决信噪比问题，即将严重警报与正常操作数据区分开来。全栈可观测性通过同时聚合来自技术栈每一层的遥测数据，增加了潜在警报，从而加剧了这一问题。

例如，单个 API 超时可以触发应用程序层、基础设施监控、综合用户监控和业务关键绩效指标 (KPI) 仪表板的通知。如果没有智能关联和重复数据删除功能，团队可能会针对一个问题收到数十条警报。

如果未进行适当配置和自动关联，全栈可观测性平台可能会因为来自多个系统的冗余警报而导致团队不堪重负，致使跨系统关键问题淹没于噪音之中。

AI 和全栈可观测性

通过先进的分析、自动化和预测能力，人工智能正在改变全栈可观测性。传统的可观测性提供了对系统的可见性，而 AI 通过分析整个技术栈的模式来增强这种可见性，从而在问题影响运营之前预测和预防问题。

通过剖析从基础设施到应用程序等各个层级的大量数据流，ML 算法可以识别人工分析可能会忽略的模式、异常情况和关联。这一流程可支持团队从被动排除故障转变为主动优化。

AI 增强功能

在全栈可观测性中使用 AI 的一些优势包括：

自动修复

由人工智能驱动的平台可分析传入的遥测数据，检测异常情况，然后在整个栈中自动执行纠正措施。例如，当内存泄漏影响多个服务时，系统可以重新启动受影响的容器、扩展资源并重新路由流量，而无需人工干预。

自然语言处理

大语言模型 (LLM) 使用户能够通过简单的语言而不是复杂的查询语法来查询可观测性数据。团队可以问“为什么昨天欧洲客户的结账失败了？”，而不用编写特定于领域的查询语言，即可从整个栈中获得洞察分析。这种方法使非技术利益相关者能够民主化地访问可观测性数据。

因果 AI

与传统的基于相关性的分析不同，AI 致力于识别系统事件之间的因果关系。在全栈环境中，这意味着不仅要了解数据库延迟与结账失败之间的关联，还要了解特定的查询模式会通过依赖服务导致级联延迟。

预测性优化

机器学习模型分析历史模式来估算容量需求、预测故障点并优化整个栈的资源分配。这些预测可以在问题影响用户之前实现抢先扩展、维护规划和执行性能调整。

在技术栈内监控 AI

AI 系统为全栈可观测性带来了新的监控挑战。传统软件遵循确定性模式，当应用程序发生故障时，相关 MELT 数据会查明是否存在内存泄漏、数据库故障或 API 超时。

AI 模型会产生概率输出，这意味着相同的输入可能会产生不同的响应。在全栈环境中，这种可变性会通过多个层级传递。AI 模型的意外输出可能会触发下游 API 中的错误。这些错误可能会影响数据库查询并最终影响用户界面。与监控传统系统相比，在整个堆栈中追踪这些概率变化要复杂得多。

例如，客服聊天机器人可能会对同一问题提供不同的答复，且需要全栈可观测性来跟踪这种差异如何同时影响后端服务、支付处理和客户满意度指标。

在关注传统的性能指标之余，组织必须跟踪模型漂移、数据质量问题和预测准确性，以便有效地监控全栈环境中的人工智能驱动系统。

高效交付软件

对于面临经济逆风的企业来说，提高软件交付效率至关重要，而关注 DevOps 自动化则是关键所在。