什么是网络可观测性?

2025 年 4 月 2 日

作者

Sanchita Chakraborti

Senior Product Marketing Manager, Network Management

IBM Automation

Chrystal R. China

Writer, automation & ITOps

什么是网络可观测性?

网络可观测性是指通过分析计算网络的外部输出,全面、实时地了解计算网络的性能、行为和健康状况(即内部状态)的实践。

它为 IT 团队提供了监控组织内整个网络基础设施(包括本地数据中心多云混合云环境)的数据流所需的工具和洞察分析。

网络可观测性的核心是将原始网络数据转化为可操作的洞察分析。但是,与传统的网络监控(侧重于预定义的指标和被动故障排除)不同,网络可观测性采取了积极的方法。

可观测性工具依靠来自广泛数据源的数据收集来进行更深入的分析并加速问题解决。它们从各种网络组件(包括路由器、交换机、服务器、API 端点服务)收集遥测数据(日志、指标、跟踪和事件),为开发团队提供网络性能的整体视图。

因此,网络可观测性使 IT 团队能够在问题升级之前发现并解决问题。这种主动的方法有助于确保无缝连接、最大限度地减少停机时间并优化用户体验。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

为什么网络可观测性在当下至关重要?

在企业依赖不间断连接和高性能应用程序的世界中,网络可观测性是一项关键能力。现代网络日趋复杂,涉及动态流量、分布式架构和多云部署。传统的监控方式难以解决这些复杂问题,使网络可观测性成为维持弹性和营造卓越用户体验的必要手段。

数据驱动的可观测性洞察分析能帮助组织做出明智的决策,预测未来需求,更有效地分配资源,并协调网络管理战略与业务目标的一致性。它们还能实现对网络流量的深度端到端可见性,以便尽早检测网络威胁,并有助于增强网络安全防御。

这些能力可帮助组织以前瞻思维应对挑战,适应不断变化的网络需求,即使业态不断演进也能从容地管理其数字基础设施。

网络可观测性的支柱

网络可观测性建立于指标、日志、跟踪、情境和关联等一系列支柱之上,可帮助组织监控、分析和优化网络性能。这些支柱协同配合,确保 IT 团队能够全面了解其网络行为和健康状况。每个支柱在为网络运营提供有效的洞察分析方面,都发挥着独特的作用。

指标:监控的基准

指标是代表各种网络组件性能和行为的量化数据点,可为网络监控提供基准参照。指标可捕获关键绩效指标 (KPI)——例如延迟、数据包丢失、带宽使用情况和设备 CPU 利用率,并为开发人员提供网络健康状况的高级概览。

借助指标,IT 团队可以监控一段时间内的趋势,识别异常并设置预警阈值。以延迟峰值为例。意外的延迟峰值可能预示网络拥塞或硬件故障。此外,如果网络达到预定的延迟阈值,可观测性软件就能向所有相关 IT 人员发送预警。

日志:事件的记录

日志详细记录了网络内发生的每个事件或行动。日志可提供事件内容、发生时间及网络位置等详细信息,从而为故障排除、调试和取证分析生成关键情境信息。

日志可通过详细说明设备配置变更、身份验证失败和连接中断等系统事件,揭示网络问题的根本原因。

跟踪:了解端到端交易

跟踪捕获整个网络的数据流,针对数据包跨越多个设备和系统时的路径及行为获取洞察分析,对于了解分布式系统和诊断延迟问题至关重要。

利用跟踪功能,IT 团队能够查看端到端交易的全过程,以便在复杂的多层次环境中准确定位路由延迟和故障。

情境:赋予数据意义

情境功能可提供有关网络环境(例如拓扑、设备角色和应用程序依赖关系)的额外信息,从而增强指标、日志和跟踪功能。缺乏情境信息的原始数据不具备可操作性。

情境功能使 IT 团队能够关联网络事件、相关应用程序、用户或服务,从而有针对性地排除故障并制定明智的决策。

关联:连点成线

关联将指标、日志、跟踪和上下文信息联系在一起,以呈现网络的内聚视图。它可帮助 IT 团队识别事件之间以及网络堆栈不同层之间的模式、根本原因以及关系。

通过关联功能来连接看似不相关的数据点,加速执行根本原因分析,以便更高效地响应网络问题。例如,关联功能可以帮助团队识别互依系统中级联故障的根源。

网络可观测性的支柱构成了理解和管理网络性能的全面框架。它们密切配合,助力 IT 团队从被动监控转向主动优化,进而提高复杂网络环境的可靠性和效率。

网络可观测性工具的关键功能

高级网络可观测性解决方案通常根据每个组织独特的网络需求量身定制,但大多数工具均可提供一组特定的关键功能和能力。其中包括:

数据收集、保留和分析

网络可观测性解决方案可收集、存储和分析来自整个网络不同来源的遥测数据,包括数据包级别的详细信息、流记录和设备指标。现代可观测性工具可与网络硬件、软件定义网络 (SDN) 和云平台无缝整合,以实现全面数据收集。

数据分析可帮助企业更好地了解网络功能和趋势,简化报告和合规性,并执行全面的根本原因分析。

仪表板和可视化

网络可观测性工具提供仪表板和可视化工具,以直观的格式呈现复杂数据。热图、流量图和实时性能指标可帮助 IT 专业人员快速评估网络的运行状况。

预警和通知

警报是由特定的网络状况或阈值触发的自动通知。可观测性解决方案提供智能警报机制,可以区分严重事件和轻微异常,减少警报疲劳并帮助 IT 团队专注于最具影响力的问题。

除了向利益相关者通报重大事件的通知外,警报还能让企业主动处理网络问题并维护高可用性计算网络。

持续性能分析

持续性能分析需对各网段的关键性能指标进行长期监控。持续性能评估可针对一段时间内的网络趋势提供洞察分析,使 IT 团队能够就升级、优化和容量规划做出明智的决策。

拓扑映射

拓扑映射可提供网络架构的可视化表示,说明各种组件如何在云端、虚拟和本地环境中实现互连。很多情况下,映射功能可以在发生变化时动态更新拓扑映射,从而为开发人员提供全面的即时网络视图。

这些功能可通过提供有关变更如何影响整体架构的洞察分析,帮助组织改进和实现战略规划自动化

AI 和预测性分析

AI机器学习 (ML) 技术使可观测性工具能够分析计算网络生成的大量数据并快速检测异常模式和系统行为。AI 驱动的功能可以跨设备和跨层自动关联遥测数据,以加速和微调根本原因分析。

而且,通过使用 ML 模型,可观测性解决方案可以利用预测性分析来预测和纠正网络性能问题,以免造成更大的问题。

变更监控

变更监控使团队能够实时跟踪网络修改(如配置更新、软件补丁和硬件变更),以便评估其对网络性能的影响。

此方法可以帮助开发人员快速识别由新配置或更新导致的任何中断或降级。但是,可观测性工具在关联变更数据与性能数据时才最为有效,团队可以借此查看变更情况及其影响网络性能的原因

与其他工具整合

网络可观测性工具通常与其他监控、日志记录和预警系统(例如应用性能监控服务)整合。这些整合可帮助 IT 人员全面洞察分析整个技术堆栈,从而提高整体网络可见性。

网络可观测性与网络性能监控

组织需要有效的工具,确保复杂网络的持续可靠性和性能。网络可观测性和网络性能监控 (NPM) 解决方案均可提供此类工具。但是,二者在方式、深度和功能方面存在显著差异。

使用简单网络管理协议 (SNMP) 和其他协议,NPM 工具收集和分析预定义的指标,以评估网络设备、链路和应用程序的性能。这是一种更传统的方法,主要用于识别和排查性能问题。

NPM 工具专注于标准网络指标,例如延迟、吞吐量、抖动、数据包丢失和设备资源利用率。它们通常监控单个设备或网段,但无法实现分布式环境的端到端可见性,且需要依赖静态阈值。如果某个指标超过阈值,NPM 解决方案将触发预警。但是,静态阈值是预先配置的,因此无法灵活适应动态网络条件。

此外,NPM 工具通常会在问题发生后进行检测和报告,因此适合诊断问题,但不一定能规避问题。由于 NPM 受限于狭窄的监控参数,因此 NPM 工具可能无法捕获网络行为的完整情境或提供有效的洞察分析。

NPM 专注于测量和报告预定义指标,而网络可观测性是一种更广泛、更主动的方法,它超越了指标,提供了全面的端到端网络行为视图。通过利用遥测、上下文和高级分析,它能更深入地洞察网络的行为。可观测性工具还可以适应不断变化的网络条件,无需依赖静态阈值即可检测异常。

最重要的是,网络可观测性解决方案可以跨层级关联数据,因此有助于加速识别和解决根本原因。此类解决方案旨在阐明发生了“什么”问题,解释其发生的原因”和“过程”。

可观测性工具还可以映射整个工作流或交易,从而跨设备、云服务和应用程序识别问题。此外,利用 AI 技术和机器学习 (ML) 算法,可观测性工具可以实施预测性分析,以预测瓶颈和故障并主动优化网络。

虽然网络性能监控为指标和设备健康状况提供了基本的可见性,但在应对现代网络的动态和复杂特性方面仍有缺陷。网络可观测性以 NPM 为基础构建,通过提供更深入的洞察分析、更丰富的情境信息和高级分析功能,主动确保性能和可靠性。

网络可观测性与 DevOps 开发运维可观测性

网络可观测性和 DevOps 开发运维可观测性是现代 IT 运营的重要组成部分,在维护计算机网络方面发挥着独特但互补的作用。

开发运维 (DevOps) 可观测性侧重于软件开发生命周期 (SDLC)——包括应用程序、基础设施和代码,旨在诊断软件开发、部署和运行过程中出现的问题。在 DevOps 环境中,可观测性对于维持功能和应用程序交付及性能的可见性至关重要,无论是本地应用还是云原生应用和相关编排工具。

DevOps 可观测性解决方案利用一系列工具和技术——包括应用性能管理 (APM)、日志管理和分布式跟踪来优化 CI/CD 管道并加速检测应用程序问题。DevOps 可观测性还能确保开发和运营团队能够获取可观测性洞察分析。这一广泛可见性有助于简化跨团队协作,并加快软件发布。

但是,DevOps 可观测性工具并非专为了解网络性能而设计。它们并未考虑网络相关的数据(例如拓扑和覆盖),因此难以证明应用性能如何关联复杂分布式网络架构中的底层基础设施性能。

网络可观测性通过实现对网络基础设施及其组件性能的可见性来弥补这一差距。它主要涉及维护网络可靠性和解决网络相关问题。但网络可观测性工具还可以将应用程序性能数据与网络遥测和业务目标关联起来,以提供企业计算环境的完整概况。

尽管存在差异,但这两种可观测性对于确保 IT 系统的无缝性能都不可或缺。同时运用 DevOps 和网络可观测性实践,有助于确保软件应用程序及其所依赖的网络维持最佳性能。这些做法还有助于确保企业能够根据用户需求和市场条件的变化,持续调整其计算环境。

网络可观测性的优势

网络可观测性解决方案为企业提供了一系列优势,包括:

优化网络性能

通过持续监控网络行为,组织可以识别和解决效率低下的问题,从而为应用程序和服务提供最佳的网络性能。

主动解决问题

网络可观测性可帮助 IT 团队在影响最终用户之前检测异常和潜在故障。团队可以设置筛选器来识别受影响的应用程序并分析指标(例如服务器工作负载),以快速确定根本原因、减少网络停机时间并最大限度地缩短平均解决时间 (MTTR)

混合云和多云可见性

针对跨越本地和云环境的网络,可观测性能实现统一的可见性,从而确保全平台无缝运营。

卓越的用户体验

传统的监控工具可评估网络状态,而网络可观测性平台则能评估用户体验,无论用户位于何处。当用户访问 Web 应用程序和 API 时,网络代理会衡量交易速度、DNS 查找时间和 TLS 握手时长,并在出现任何运行迟缓或连接故障时警示 IT 团队。

通过详细的根本原因分析,企业可以加快问题诊断,以帮助确保用户与企业网络和服务进行无缝交互。

增强安全性

不法分子经常利用网络漏洞访问数据和部署勒索软件。然而,网络可观测性工具可以通过持续剖析流量模式来强化组织的安全状况。

如果系统检测到异常(例如需求突然激增或出现可疑的 DNS 查找行为),它就会发送预警,以便团队迅速解决问题。通过将可观测性平台与防火墙相集成,团队可以在安全威胁蔓延到其他网络设备之前快速进行隔离。

更顺畅的云迁移和运营

迁移到云端可能会造成重大的性能、安全和合规风险,但可观测性工具有助于确保全平台无缝运营。

启动迁移前,企业可使用网络可观测性平台围绕本地应用程序响应时间、带宽需求和安全规则建立基线。完成迁移后,可观测性指标可以帮助团队验证容量、可用性和访问控制,并解决对系统性能产生负面影响的问题(例如数据包丢失)。

更精准的预测和容量规划

过去,预测网络容量只能靠猜测,致使带宽不足以及硬件和其他资源过度配置。利用可观测性平台的历史流量数据(例如跨区域的增长模式),可以帮助 IT 团队更准确地模拟容量需求。

降低云成本

虽然云过渡方案通常涉及敏捷性和降本承诺,但由于过度配置、未使用实例和数据传输费用,相关成本也会大幅攀升。网络可观测性工具可通过提供针对网络容量和资源利用率的准确洞察分析,帮助组织规避这些问题,并助力团队规划云承诺投入以减少支出。

为什么网络可观测性在金融服务中至关重要?

在金融服务领域,网络性能和可靠性是企业成功的基石。银行、保险公司、交易平台和其他金融机构依赖无缝连接来支持任务关键型应用和流程(如实时交易、客户交易、支付处理和监管合规)。网络可观测性在保障安全和高效运营方面起着关键作用。

现代金融机构每天要处理信用卡支付和股票交易等数百万笔实时交易,交易延迟或可导致财务损失和声誉受损。例如,在高频交易中,仅仅几毫秒的延迟就可能让机构处于重大竞争劣势。

网络可观测性工具可以实时检测并解决延迟问题,从而帮助机构减轻或规避此类风险,并维护高性能的计算网络。

此外,金融服务逐步采用云技术来提高可扩展性和灵活性,管理混合和多云环境的挑战也随之而来。网络可观测性工具可为分布式混合架构提供统一的端到端可见性,从而实现整个网络内金融平台性能的一致性。

为什么网络可观测性对于电信垂直行业至关重要?

在电信行业,网络是运营的支柱,承载着语音通话、数据服务以及物联网 (IoT) 连接等各项业务。

电信运营商需在管理日益动态化的网络环境的同时,为跨地域广泛分布的数百万用户提供不间断服务。这些系统的中断和性能下降可能会造成收入损失、监管罚款和客户流失。

现代电信网络通常使用混合和多云环境来支持虚拟化网络功能 (VNF) 和其他服务。电信运营商正在逐步推行 AIOps 实践和 ML 驱动的自动化技术,借此大规模管理现代网络。

网络可观测性是网络健康状况的基础。这些工具有助于:

  • 实时了解基站、光纤链路和核心基础设施等网络组件的健康状况和性能
  • 关联网络性能指标与面向客户的问题(例如通话掉线或互联网速度迟缓)
  • 实现自我修复网络,将可观测性与编排平台相结合
  • 实时跟踪云托管 VNF、SDN 元素和边缘计算节点的性能
  • 生成预测性分析,可以预测容量需求和潜在故障

此外,随着 5G 网络的普及,电信企业正面临着前所未有的网络复杂性挑战。5G 网络通常依赖网络切片和边缘计算能力,且普遍具备极低延迟要求。管理这些组件需要企业深入了解不同环境中的网络行为。

网络可观测性工具可以监控 5G 相关指标,提供网络切片性能的洞察分析,并为特定用例打造量身定制的解决方案。例如,电信提供商可以使用可观测性工具,确保自动驾驶汽车专用网络切片维持高度可靠的低延迟性能。

它们还能检测并解决大都市区的带宽拥堵问题,识别流媒体应用程序的服务降级,使提供商能够在用户投诉前主动修复这些问题。

产品聚焦

Hybrid Cloud Mesh

此视频展示了 Hybrid Cloud Mesh 如何随时随地在数分钟内提供以应用程序为中心的多云网络连接。

相关解决方案
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。

监控网络性能
网络解决方案

IBM 的云网络解决方案可实现高性能连接,为应用程序和业务提供支持。

深入了解云网络解决方案
技术咨询服务

利用 IBM Consulting 实现应用程序现代化改造并满足行业需求。

技术咨询服务
采取后续步骤

利用 IBM 的高性能网络解决方案,将您的网络转变为业务加速器。

深入了解云网络解决方案 预约实时演示