是时候从监控过渡到可观察性了。从哪里开始呢?

2025 年 3 月 4 日

作者

随着 IT 环境变得越来越复杂,传统的监控工具越来越难以跟上。云原生架构的崛起、微服务容器化应用的兴起,形成了高度互连的系统,需要更全面的方法来获得可见性。

这些趋势推动了可观察性作为一门学科的发展,它超越了跟踪系统指标,为系统行为提供全面的洞察分析。通过关联分布式环境中的遥测数据,可观察性解决方案可帮助团队更快地识别根本原因,主动解决问题并提高系统可靠性。借助现代可观察性工具,一家组织将服务水平可用性提高了 70%

向可观察性的过渡也是出于必要性。旧版监控工具正在被淘汰,取而代之的是能够满足当今科技需求的可观察性平台。例如,IBM 自己的 Tivoli 正在逐步被下一代可观察性解决方案 Instana 所取代。

以下基于 IBM 的Instana 美洲区销售负责人 Drew Flowers 的专家洞察分析,解析企业当前转向可观测性的动因与路径。 无论您处于积极迁移阶段还是仅评估方案,下文讨论将助您厘清现状。 

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

监控与可观测性

概括地说,监控会告诉您发生了什么,但可观察性会解释原因。监控可检测问题的症状,而可观察性则提供更深入的诊断分析所需的上下文。

传统监控捕获预定义指标,例如 CPU 使用率和网络延迟,提供系统性能快照,但很少获得对问题发生原因的洞察分析。例如,监控可能会在性能下降期间标记出高 CPU 使用率,但无法解释根本原因。

可观察性通过关联多种遥测数据类型(指标、事件、日志和跟踪(MELT 数据))进一步提高系统智能,从而提供完整的实时 IT 环境视图。此视图使组织不仅可以检测问题,还可以查明问题原因、预测故障并分析分布式系统中的复杂行为。

可观察性的优势

因为可观察性超出了传统的监控范围,它可以提供实时洞察,从而提高系统性能、增强弹性并优化成本。

主要优点包括:

  • 更快地解决问题:自动诊断消除了跨工具手动关联的需求,这可以缩短复杂 IT 环境中的平均检测时间 (MTTD) 和平均修复时间 (MTTR)

  • 主动解决问题:AI 驱动的分析可以在故障影响客户或基础设施之前进行预测,将团队从被动的灭火方式转变为主动的行动方式。

  • 优化效率:详细了解资源消耗情况有助于组织监控使用情况、高效扩展和管理云成本。

  • 提升系统弹性:人工智能驱动的异常检测通过按事件影响优先级处理告警以减少疲劳,而自动修复功能则能简化工作流。

  • 更强大的协作:通过消除孤岛,可观察性为团队提供共享数据源,从而更快地解决事件和改善决策。

  • 业务一致性:将系统运行状况与关键绩效指标 (KPI) 联系起来,领导层可以了解技术如何影响运营、客户体验和收入,从而做出更明智的决策。

为什么现在是转型的时候

虽然可观察性解决方案已在市场上存在多年,但许多组织现在才选择从传统监控转向可观察性。

推迟向可观察性转变的组织可能会面临技术债务和竞争劣势的风险,而采取行动转变的组织则可以更快地解决问题并获得更高效率。McKinsey 强调了可观察性如何改变 IT 弹性:一家组织减少了 90% 的事件,并将响应时间从数小时缩短到数秒钟。

除了许多传统监控工具退出市场之外,推动可观察性采用的两个最重要的因素包括 IT 复杂性的增加和 AI 的创新。

IT 复杂性日益增加

由于现代 IT 环境(包括混合云基础设施、微服务和容器化工作负载)的复杂性,传统监控工具已不再适用。这些为稳定的单体应用程序设计的解决方案无法有效管理现代企业复杂的技术生态系统。

传统监控的常见局限性包括:

  • 分布式系统的可见性差距,导致未检测到的故障和意外停机

  • 事件解决速度慢,拖延了恢复工作,增加了运营中断和成本

  • 增加了 MTTD 和 MTTR,使其更难满足服务水平协议 (SLA) 并保持可靠性

  • 对连锁故障的洞察分析有限,导致误诊、反复停机和长期性能问题

可观察性解决方案通过提供对技术基础设施的全面、实时洞察分析来帮助消除这些限制。这些洞察分析有助于更快地发现和解决问题,从而减少停机时间,保护收入并维护客户信任。

AI 创新和 AIOps

人工智能 (AI) 正在改变可观察性,它可以帮助团队分析大量遥测数据、过滤噪音并实时发现关键问题,而无需手动整理日志和警报。

AIOps 更进一步, 运用机器学习识别模式、降低误报率并关联复杂系统事件。使 IT 团队能快速穿透告警噪音定位真实问题。

通过将可观察性与 AIOps 集成,组织可以简化事件响应,减少停机时间并提高系统可靠性,无需额外的人工劳动。这种使团队从被动故障排除向主动系统优化转变,从而更快获得洞察分析并减少中断。

规划成功转变

从传统的监控转向可观察性并不一定会令人望而生畏。通过深思熟虑的方法,组织可以顺利完成这一过渡,同时获得立竿见影的益处。

虽然迁移在很大程度上取决于组织选择的合作伙伴或服务(更多信息,请参阅“选择正确的可观察性解决方案”),但有几个关键原则有助于确保成功。

定义可观察性目标

在选择可观察性平台之前,请明确定义您组织的具体目标以及您需要它实现的目标。否则,您可能会选择缺乏关键能力或对于您的用例来说过于复杂的解决方案。

问问自己和其他相关利益相关者,您正在尝试解决什么问题。您是否专注于减少 MTTD/MTTR、提高云成本效率或获得更深入的应用程序洞察分析?

此外,您需要何种自动化程度?一些平台提供开箱即用的仪表板和 AI 驱动的建议,而另一些平台则需要手动配置和定制。

您还应该考虑该平台是否可以与现有工具集成。确保与当前 DevOps 开发运维管道、云基础设施和安全框架的兼容性对于顺利过渡至关重要。

审核现有监控工具和基础设施

许多组织仍然依赖于拼凑的监控解决方案:旧版应用性能管理 (APM) 工具、基础设施监控和孤立的记录平台,这样的解决方案缺乏可观察性所需的关联深度。请务必评估您当前的工具集并找出冗余。

关键审计问题包括:

  • 识别冗余工具,这些工具可能会导致错误警报并使故障排除工作复杂化

  • 评估当前的日志记录或跟踪解决方案是要与可观察性平台集成,还是需要更换

  • 评估数据覆盖率差距,包括当前监控方法中缺少哪些见解

协调安全性与合规性

可观察性平台,特别是软件即服务 (SaaS) 解决方案,可以改变数据在网络中的流动方式,影响数据安全政策和监管合规性。安全团队应尽早参与,以防止延误和最后一刻的合规挑战。

主要安全问题包括:

  • 确认外部数据传输安全与合规策略,防范未授权访问或合规风险

  • 审查身份验证 流程与基于角色的访问控制 (RBAC),确保数据访问权限精准分配

  • 验证基础设施是否已准备好进行本地部署,以便在没有性能瓶颈的情况下处理可观察性数据

让跨职能团队达成共识

组织可能会低估采用可观察性所必需的文化转变。可观察性不仅仅是一种 IT 功能。它会影响开发、运营、安全和业务利益相关者。如果没有团队的配合,采用工作就会停滞不前,数据也可能得不到有效利用。

跨团队协调的关键考虑因素包括:

  • 了解谁负责建立、管理和维护可观察性平台

  • 让开发人员尽早参与到流程中,以确保正确编配应用程序,实现全栈可见性

  • 让高级领导层参与进来,强化可观察性作为业务绩效、客户体验和战略决策主要驱动因素的作用

建立 KPI 和成功指标

可观察性方面的成功是可衡量的,但前提是组织从一开始就定义明确的 KPI。

衡量成功的关键可观察性指标包括:

  • MTTD:系统异常识别速度如何?

  • MTTR:在故障排除和解决问题方面节省了多少时间?

  • 正常运行时间和 SLA 遵守情况:系统可用性是否有所提高?

  • 警报效率:冗余或低优先级警报是否减少?
Mixture of Experts | 4 月 25 日,第 52 集

解码 AI:每周新闻摘要

加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。

将可观察性付诸行动

当规划完成后,下一步是将可观察性付诸行动。同样,迁移旅程的很大一部分将由组织选择的合作伙伴或平台决定。但是,这些基本实践可以帮助确保平稳过渡。

设定切合实际的时间表

可观察性的采用可能因团队准备情况、基础设施和自动化能力而有很大差异。一些组织在两周内完成迁移,而另一些组织则需要三到六个月的时间才能完全实施。

可能影响迁移速度的关键因素包括:

  • 团队是否已准备好并熟悉可观察性工具和工作流

  • 无论您选择全面替代现有监控方案还是逐步过渡

  • 无论您的平台是否需要定制化监测工具 

考虑分阶段进行

许多组织并不是选择一次性迁移,而是选择分阶段实施。虽然这种方法可能需要更长的时间,但它允许团队在使用现有工具的同时引入可观察性,从而最大限度地减少中断的可能性。

分阶段执行的关键步骤包括:

  • 与现有监控工具一起部署可观察性,以测试系统兼容性

  • 逐步装备应用程序和基础设施,以确保获取全面的数据

  • 逐步淘汰旧版监控工具,以改进警报战略并防止中断

对团队进行有关新警报和数据的培训

即使拥有完全实施的可观察性平台,团队也必须接受培训,以便有效地解读洞察分析并采取行动。否则,他们可能会误解数据、错过关键洞察分析或无效地实施可观察性。

核心培训方向包括:

  • 了解 MELT 数据以加快故障排除

  • 优化警报配置,以防止不必要的噪音并突出显示关键事件

  • 鼓励主动观察,而不是被动排除故障

迁移后的测量和优化

部署之后工作并没有停止。为了充分利用您的投资,请考虑跟踪影响、收集反馈并微调配置,以确保可观察性带来真正的价值。

衡量可观察性的直接影响

了解比数据更深入的信息,以确认您的团队能够更快地发现问题,更有效地协作并做出更好的运营决策。

主要后续行动包括:

  • 比较迁移前后的性能指标,例如 MTTD、MTTR、正常运行时间和警报效率,以确定早期成果并跟踪改进

  • 让团队参与进来,了解可观察性是否有助于更快地检测问题、挖掘洞察分析或为决策提供信息

  • 评估跨团队协作,包括 ITDevOps网络安全团队是否顺畅地合作

逐渐优化

可观察性应与您的系统、团队和业务需求同步发展。积极改进和扩展您的可观察性能力,以确保您弥合差距并获得最大的长期价值。

随时间推移提高可观察性的方法包括:

  • 优化遥测配置,提高数据质量并减少不必要的收集

  • 利用 AI 驱动的能力(如预测性分析)来预测和防止问题,防患于未然

  • 将可观测性应用从故障排查扩展到容量规划、性能优化与业务战略决策支持

选择正确的可观察性解决方案

选择正确的可观察性解决方案对于成功的转变至关重要。它应该做的不仅仅是收集数据。它应该提供可操作的洞察分析,适应您的基础设施并随着组织的发展而扩展。

评估平台时需要考虑的一些因素包括:

  • 端到端可视性
  • 部署灵活性
  • 高级分析和自动化
  • 无需牺牲性能的可扩展性
  • 对定价模型的影响
  • 开源与商业解决方案
端到端可视性

集成所有遥测数据(指标、事件、日志和跟踪)的可观察性平台可以提供一个内聚的实时视图,称为一站式界面。这种统一的视角使团队能够快速诊断问题并全面洞察系统的性能。

部署灵活性

鉴于 IT 基础设施的多元化,可以考虑选择支持各种技术的平台,包括混合多云基础设施、本地系统、无服务器功能以及旧版和现代应用程序。

灵活性确保您的可观察性解决方案能够适应您现有的架构和任何未来的技术需求。

高级分析和自动化

为了超越基本的监控,优先考虑具有人工智能驱动分析的可观察性解决方案,以帮助团队在问题升级之前检测、诊断和预防问题。异常检测、自动根本原因分析和预测洞察等功能可以实现更快的故障排除和主动系统管理。

无需牺牲性能的可扩展性

随着组织的发展,可观察性平台应该能够处理不断增加的数据量,而不会降低性能。优先考虑支持大容量数据摄取、经济高效的存储空间和实时查询性能的可扩展解决方案,同时保持成本可控。

对定价模型的影响

关注平台的定价结构,尤其是数据摄取量。随着可观察性需求的扩张,一些供应商的定价模式可能会导致不可预见的开支。

开源与商业解决方案

在开源和专有商业平台之间进行选择的方式取决于您组织的需求、技术专长和长期目标。

通常,开源解决方案提供定制服务,但需要设置和维护。商业解决方案成本更高,但提供更快的部署和高级自动化。

开源可观察性解决方案可以提供灵活性和供应商中立的数据收集,这有助于组织保持更大的控制力。然而,这些解决方案通常需要大量时间和专业知识才能有效实施。此外,组织通常需要大量的基础设施来自行存储和处理所有遥测数据。

或者,商业解决方案可以通过自动化、AI 驱动的洞察分析和持续支持来提供完全托管的可观察性。这些平台最大限度地减少了手动设置和维护,使团队能够专注于提高系统性能并充分利用其可观察性平台。

相关解决方案
全栈自动化可观察性

快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。

了解更多关于 Full Stack Observability 的信息
AIOps 咨询

使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。

了解更多关于 AIOps 咨询的信息
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。

监控网络性能
采取后续步骤

了解 AI 如何为 IT 运营提供所需的洞察分析,帮助推动卓越的业务绩效。

深入了解 AIOps 解决方案 预约实时演示