随着 IT 环境变得越来越复杂,传统的监控工具越来越难以跟上。云原生架构的崛起、微服务和容器化应用的兴起,形成了高度互连的系统,需要更全面的方法来获得可见性。
这些趋势推动了可观察性作为一门学科的发展,它超越了跟踪系统指标,为系统行为提供全面的洞察分析。通过关联分布式环境中的遥测数据,可观察性解决方案可帮助团队更快地识别根本原因,主动解决问题并提高系统可靠性。借助现代可观察性工具,一家组织将服务水平可用性提高了 70%。
向可观察性的过渡也是出于必要性。旧版监控工具正在被淘汰,取而代之的是能够满足当今科技需求的可观察性平台。例如,IBM 自己的 Tivoli 正在逐步被下一代可观察性解决方案 Instana 所取代。
以下基于 IBM 的Instana 美洲区销售负责人 Drew Flowers 的专家洞察分析,解析企业当前转向可观测性的动因与路径。 无论您处于积极迁移阶段还是仅评估方案,下文讨论将助您厘清现状。
因为可观察性超出了传统的监控范围,它可以提供实时洞察,从而提高系统性能、增强弹性并优化成本。
主要优点包括:
虽然可观察性解决方案已在市场上存在多年,但许多组织现在才选择从传统监控转向可观察性。
推迟向可观察性转变的组织可能会面临技术债务和竞争劣势的风险,而采取行动转变的组织则可以更快地解决问题并获得更高效率。McKinsey 强调了可观察性如何改变 IT 弹性:一家组织减少了 90% 的事件,并将响应时间从数小时缩短到数秒钟。
除了许多传统监控工具退出市场之外,推动可观察性采用的两个最重要的因素包括 IT 复杂性的增加和 AI 的创新。
由于现代 IT 环境(包括混合云基础设施、微服务和容器化工作负载)的复杂性,传统监控工具已不再适用。这些为稳定的单体应用程序设计的解决方案无法有效管理现代企业复杂的技术生态系统。
传统监控的常见局限性包括:
可观察性解决方案通过提供对技术基础设施的全面、实时洞察分析来帮助消除这些限制。这些洞察分析有助于更快地发现和解决问题,从而减少停机时间,保护收入并维护客户信任。
人工智能 (AI) 正在改变可观察性,它可以帮助团队分析大量遥测数据、过滤噪音并实时发现关键问题,而无需手动整理日志和警报。
AIOps 更进一步, 运用机器学习识别模式、降低误报率并关联复杂系统事件。使 IT 团队能快速穿透告警噪音定位真实问题。
通过将可观察性与 AIOps 集成,组织可以简化事件响应,减少停机时间并提高系统可靠性,无需额外的人工劳动。这种使团队从被动故障排除向主动系统优化转变,从而更快获得洞察分析并减少中断。
从传统的监控转向可观察性并不一定会令人望而生畏。通过深思熟虑的方法,组织可以顺利完成这一过渡,同时获得立竿见影的益处。
虽然迁移在很大程度上取决于组织选择的合作伙伴或服务(更多信息,请参阅“选择正确的可观察性解决方案”),但有几个关键原则有助于确保成功。
许多组织仍然依赖于拼凑的监控解决方案:旧版应用性能管理 (APM) 工具、基础设施监控和孤立的记录平台,这样的解决方案缺乏可观察性所需的关联深度。请务必评估您当前的工具集并找出冗余。
关键审计问题包括:
可观察性平台,特别是软件即服务 (SaaS) 解决方案,可以改变数据在网络中的流动方式,影响数据安全政策和监管合规性。安全团队应尽早参与,以防止延误和最后一刻的合规挑战。
主要安全问题包括:
组织可能会低估采用可观察性所必需的文化转变。可观察性不仅仅是一种 IT 功能。它会影响开发、运营、安全和业务利益相关者。如果没有团队的配合,采用工作就会停滞不前,数据也可能得不到有效利用。
跨团队协调的关键考虑因素包括:
可观察性方面的成功是可衡量的,但前提是组织从一开始就定义明确的 KPI。
衡量成功的关键可观察性指标包括:
当规划完成后,下一步是将可观察性付诸行动。同样,迁移旅程的很大一部分将由组织选择的合作伙伴或平台决定。但是,这些基本实践可以帮助确保平稳过渡。
可观察性的采用可能因团队准备情况、基础设施和自动化能力而有很大差异。一些组织在两周内完成迁移,而另一些组织则需要三到六个月的时间才能完全实施。
可能影响迁移速度的关键因素包括:
许多组织并不是选择一次性迁移,而是选择分阶段实施。虽然这种方法可能需要更长的时间,但它允许团队在使用现有工具的同时引入可观察性,从而最大限度地减少中断的可能性。
分阶段执行的关键步骤包括:
即使拥有完全实施的可观察性平台,团队也必须接受培训,以便有效地解读洞察分析并采取行动。否则,他们可能会误解数据、错过关键洞察分析或无效地实施可观察性。
核心培训方向包括:
部署之后工作并没有停止。为了充分利用您的投资,请考虑跟踪影响、收集反馈并微调配置,以确保可观察性带来真正的价值。
可观察性应与您的系统、团队和业务需求同步发展。积极改进和扩展您的可观察性能力,以确保您弥合差距并获得最大的长期价值。
随时间推移提高可观察性的方法包括:
选择正确的可观察性解决方案对于成功的转变至关重要。它应该做的不仅仅是收集数据。它应该提供可操作的洞察分析,适应您的基础设施并随着组织的发展而扩展。
评估平台时需要考虑的一些因素包括:
集成所有遥测数据(指标、事件、日志和跟踪)的可观察性平台可以提供一个内聚的实时视图,称为一站式界面。这种统一的视角使团队能够快速诊断问题并全面洞察系统的性能。
为了超越基本的监控,优先考虑具有人工智能驱动分析的可观察性解决方案,以帮助团队在问题升级之前检测、诊断和预防问题。异常检测、自动根本原因分析和预测洞察等功能可以实现更快的故障排除和主动系统管理。
随着组织的发展,可观察性平台应该能够处理不断增加的数据量,而不会降低性能。优先考虑支持大容量数据摄取、经济高效的存储空间和实时查询性能的可扩展解决方案,同时保持成本可控。
关注平台的定价结构,尤其是数据摄取量。随着可观察性需求的扩张,一些供应商的定价模式可能会导致不可预见的开支。
在开源和专有商业平台之间进行选择的方式取决于您组织的需求、技术专长和长期目标。
通常,开源解决方案提供定制服务,但需要设置和维护。商业解决方案成本更高,但提供更快的部署和高级自动化。
开源可观察性解决方案可以提供灵活性和供应商中立的数据收集,这有助于组织保持更大的控制力。然而,这些解决方案通常需要大量时间和专业知识才能有效实施。此外,组织通常需要大量的基础设施来自行存储和处理所有遥测数据。
或者,商业解决方案可以通过自动化、AI 驱动的洞察分析和持续支持来提供完全托管的可观察性。这些平台最大限度地减少了手动设置和维护,使团队能够专注于提高系统性能并充分利用其可观察性平台。
快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。
使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。
IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。