云原生可观测性与传统可观测性的区别在于,它特别关注云系统带来的挑战。在这些系统中,容器、虚拟机等资源可能瞬息间创建或销毁,由此产生海量且可能转瞬即逝的数据。
云原生可观测性解决方案能够帮助组织在此类动态系统中追踪关键数据点,从而支撑 DevOps 流程及其频繁、小规模、常自动化的更新迭代。
云原生可观测性平台从企业混合云环境各处采集数据,这些环境可能包含多家供应商的服务(如 Microsoft Azure 和 Amazon Web Services)、本地服务器,以及它们支持的各类工具与资源(如微服务或 Kubernetes 等容器编排工具)。平台通过对网络流量、延迟等指标及其跨平台关联性进行分析,提供可操作的洞察,并常自动执行故障修复与数据可视化。
例如,某云原生可观测性平台可能采集云服务器虚拟机的延迟指标、该虚拟机内由 Kubernetes 编排的容器记录 API 调用的日志,以及新增应用部署等网络事件信息。随后,平台可将采集数据以图表形式呈现,执行根因分析,帮助管理员清晰定位导致系统故障的具体原因。
许多现代平台借助人工智能与机器学习技术驱动自动化功能。根据 451 Research 的 2025 年度报告,在使用可观测性解决方案的组织中,71% 已应用其人工智能功能,较 2024 年增长 26%。1
诸多主流云原生可观测性工具为开源项目,例如 OpenTelemetry、Jaeger 和 Prometheus。开源工具允许开发社区针对具体问题实施平台或应用级修复,使组织在变幻莫测的云原生环境中获得更高灵活性,并能更便捷地将工具与各类系统及应用程序接口(API)对接。
云原生可观测性工具从云生态系统各处采集日志、链路追踪和指标数据,通常通过仪表板呈现原始数据、分析结果及可视化图表,帮助用户监控应用运行状态与业务目标达成情况。
在以微服务为主的云环境中,容器与虚拟机可能随时创建或消失,产生巨量遥测数据。这催生了云原生可观测性平台必须解决的新课题:如何洞察持续变化的网络全貌,并追踪那些随网络弹性伸缩而可能已消失的数据源信息。
可观测性工具助力实现复杂网络内 CPU 内存数据、应用日志、可用性信息、平均延迟等数据点的采集与整合。
云原生可观测性平台依托三大支柱:日志、链路追踪与指标。
日志是应用程序事件的记录,其特点是粒度细、带时间戳、完整且不可改变。它们可用于创建每个事件的高精度毫秒级记录,并以相关的上下文信息作为补充。 开发人员使用日志进行故障排除和调试。
链路追踪完整记录每个用户请求从前端界面到系统架构再返回用户端的端到端路径;
可视化是云原生可观测性平台的核心功能。对基于微服务的网络而言,监控容器、虚拟机、服务器等组件的能力至关重要——在这类架构中,分布式链路追踪与依赖关系图往往错综复杂、难以解析。
可观测性仪表板使用户能够监控应用健康指标(如可用性与资源使用率)及关键业务指标(如转化率或活跃用户数)。监控功能还可通过依赖关系图等工具,清晰展现服务间协作方式及其在整体架构中的定位。
传统监控依赖应用性能管理(APM)工具,其通过聚合各数据源信息生成易读的报告、仪表板及可视化图表,其核心逻辑与现代可观测性软件的监控功能相通。
在现代云计算环境中,可观测性工具常将基础遥测任务卸载至 Kubernetes 层,由容器编排软件通过原生工具在平台内部实现可观测性。此举让运维团队能聚焦于服务等级目标(SLOs)与服务等级指标(SLIs)的数据分析。
现代可观测性软件的自动化已超越数据采集、监控与分析范畴。当新服务接入网络时,这类工具还可自动化执行调试流程、插桩操作及监控仪表板的同步更新。它们还能管理代理组件——代理是在生态系统中广泛部署的小型软件模块,用于持续采集遥测数据。
在高度分布式系统中,数量庞大的重叠服务器与云原生应用持续发出信号、指标、日志和追踪数据,但这些数据往往无法顺畅共享。云原生可观测性工具通过汇集全生态系统的可观测数据,帮助管理员突破这些瓶颈,实现实时故障排查与数据驱动决策。
当管理员(或可观测性平台内的自动化工具)发现云环境中故障之间的关联性后,便可执行根因分析。例如,平台可能标记出全球范围应用响应缓慢与特定区域高延迟同时发生的现象,随后通过分析定位到配置错误或故障的服务器。
这种分析能将事故排查时间从数小时缩短至数分钟,在问题爆发前化解危机,从而减少停机时间,让 DevOps 团队能专注于其他任务。
人工智能与机器学习工具是现代可观测性平台的核心,它们能自动检测异常、执行根因分析,并运用生成式 AI 实现数据可视化。
云环境产生的海量遥测数据,使 AI 与 ML 技术成为云原生可观测性不可或缺的支柱。大规模自动化可观测性不仅能生成深度洞察,还能推动其他业务功能的自动化。例如,预测性分析可帮助企业在流量高峰来临前预先部署新的服务器基础设施。
由于需要采集与整合巨量多元数据,云原生可观测性在扩展性与复杂度、多工具协同以及数据隐私合规方面带来挑战。
企业必须在复杂云环境的可视化需求与存储成本、查询性能、数据留存等实际限制间取得平衡。若缺乏恰当的采样策略与数据优先级管理,采集的数据量可能压垮可观测性平台。
容器化微服务快速蔓延、瞬息万变的特性,意味着监控范围必须从应用层延伸至 Kubernetes 等编排工具的集群与节点层面。
云原生可观测性通过将企业各处的敏感数据汇聚至平台,可能引发合规风险。遥测数据可能包含个人身份信息(PII)、支付卡资料或受保护的健康信息,这些数据类型受《通用数据保护条例》(GDPR)、《健康保险可携性与责任法案》(HIPAA)与《加州消费者隐私法案》(CCPA)等法规监管。
若未实施数据脱敏、标记化、地理限制和基于角色的访问控制,企业可能面临敏感数据泄露或违规风险。例如,解决欧洲客户的交易问题可能需要访问包含个人身份信息的日志,若美国员工查看该数据,则可能导致违反《通用数据保护条例》。
尽管二者存在重要共性,云原生可观测性仍不同于全栈可观测性实践。云原生可观测性可视为全栈可观测性的演进形态,它针对云原生环境适配了相同的工具与技术。
全栈可观测性能够关联技术栈所有层级的遥测数据。全栈可观测性平台实时采集多系统数据,运用人工智能与机器学习技术检测异常、预测故障,并为管理员生成决策洞察。
云原生可观测性在此基础上进一步发展,将原本用于全栈可观测性的数据采集与分析工具,专为云原生技术量身打造,实现与复杂容器化微服务的无缝集成。
简而言之,全栈可观测性提供覆盖 IT 环境的全面遥测数据,而云原生可观测性则专注于通常基于无服务器架构的云环境。
快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。
使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。
IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。
1. 《可观测性工具的使用率随 AI 集成而上升 – 来自“企业之声:云原生”调研的重点发现》,451 Research,2025 年 8 月 14 日。