什么是云原生可观测性？| IBM

By Derek Robertson and Matthew Kosinski

定义云原生可观测性

云原生可观测性是指基于云应用程序和系统（通常采用微服务架构，且往往基于无服务器模式运行）的输出数据和遥测数据，理解高度复杂的云应用程序和系统的能力。

云原生可观测性与传统可观测性的区别在于，它特别关注云系统带来的挑战。在这些系统中，容器、虚拟机等资源可能瞬息间创建或销毁，由此产生海量且可能转瞬即逝的数据。

云原生可观测性解决方案能够帮助组织在此类动态系统中追踪关键数据点，从而支撑 DevOps 流程及其频繁、小规模、常自动化的更新迭代。

云原生可观测性平台从企业混合云环境各处采集数据，这些环境可能包含多家供应商的服务（如 Microsoft Azure 和 Amazon Web Services）、本地服务器，以及它们支持的各类工具与资源（如微服务或 Kubernetes 等容器编排工具）。平台通过对网络流量、延迟等指标及其跨平台关联性进行分析，提供可操作的洞察，并常自动执行故障修复与数据可视化。

例如，某云原生可观测性平台可能采集云服务器虚拟机的延迟指标、该虚拟机内由 Kubernetes 编排的容器记录 API 调用的日志，以及新增应用部署等网络事件信息。随后，平台可将采集数据以图表形式呈现，执行根因分析，帮助管理员清晰定位导致系统故障的具体原因。

许多现代平台借助人工智能与机器学习技术驱动自动化功能。根据 451 Research 的 2025 年度报告，在使用可观测性解决方案的组织中，71% 已应用其人工智能功能，较 2024 年增长 26%。¹

诸多主流云原生可观测性工具为开源项目，例如 OpenTelemetry、Jaeger 和 Prometheus。开源工具允许开发社区针对具体问题实施平台或应用级修复，使组织在变幻莫测的云原生环境中获得更高灵活性，并能更便捷地将工具与各类系统及应用程序接口（API）对接。

行业时事通讯

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

云原生可观测性如何工作？

云原生可观测性工具从云生态系统各处采集日志、链路追踪和指标数据，通常通过仪表板呈现原始数据、分析结果及可视化图表，帮助用户监控应用运行状态与业务目标达成情况。

数据收集

在以微服务为主的云环境中，容器与虚拟机可能随时创建或消失，产生巨量遥测数据。这催生了云原生可观测性平台必须解决的新课题：如何洞察持续变化的网络全貌，并追踪那些随网络弹性伸缩而可能已消失的数据源信息。

可观测性工具助力实现复杂网络内 CPU 内存数据、应用日志、可用性信息、平均延迟等数据点的采集与整合。

云原生可观测性平台依托三大支柱：日志、链路追踪与指标。

日志

日志是应用程序事件的记录，其特点是粒度细、带时间戳、完整且不可改变。它们可用于创建每个事件的高精度毫秒级记录，并以相关的上下文信息作为补充。开发人员使用日志进行故障排除和调试。

跟踪

链路追踪完整记录每个用户请求从前端界面到系统架构再返回用户端的端到端路径；

指标

指标则是衡量应用与系统长期健康度的基础标尺，例如五分钟内应用占用的内存或 CPU 资源量，或流量高峰期间应用经历的延迟程度。

监控

可视化是云原生可观测性平台的核心功能。对基于微服务的网络而言，监控容器、虚拟机、服务器等组件的能力至关重要——在这类架构中，分布式链路追踪与依赖关系图往往错综复杂、难以解析。

可观测性仪表板使用户能够监控应用健康指标（如可用性与资源使用率）及关键业务指标（如转化率或活跃用户数）。监控功能还可通过依赖关系图等工具，清晰展现服务间协作方式及其在整体架构中的定位。

分析

传统监控依赖应用性能管理（APM）工具，其通过聚合各数据源信息生成易读的报告、仪表板及可视化图表，其核心逻辑与现代可观测性软件的监控功能相通。

在现代云计算环境中，可观测性工具常将基础遥测任务卸载至 Kubernetes 层，由容器编排软件通过原生工具在平台内部实现可观测性。此举让运维团队能聚焦于服务等级目标（SLOs）与服务等级指标（SLIs）的数据分析。

现代可观测性软件的自动化已超越数据采集、监控与分析范畴。当新服务接入网络时，这类工具还可自动化执行调试流程、插桩操作及监控仪表板的同步更新。它们还能管理代理组件——代理是在生态系统中广泛部署的小型软件模块，用于持续采集遥测数据。

云原生可观测性的优势

实践云原生可观测性能让企业更全面地审视复杂系统，降低平均修复时间（MTTR），并将自动化工具深度融入 DevOps 工作流。

系统透明

在高度分布式系统中，数量庞大的重叠服务器与云原生应用持续发出信号、指标、日志和追踪数据，但这些数据往往无法顺畅共享。云原生可观测性工具通过汇集全生态系统的可观测数据，帮助管理员突破这些瓶颈，实现实时故障排查与数据驱动决策。

快速恢复

当管理员（或可观测性平台内的自动化工具）发现云环境中故障之间的关联性后，便可执行根因分析。例如，平台可能标记出全球范围应用响应缓慢与特定区域高延迟同时发生的现象，随后通过分析定位到配置错误或故障的服务器。

这种分析能将事故排查时间从数小时缩短至数分钟，在问题爆发前化解危机，从而减少停机时间，让 DevOps 团队能专注于其他任务。

提高自动化程度

人工智能与机器学习工具是现代可观测性平台的核心，它们能自动检测异常、执行根因分析，并运用生成式 AI 实现数据可视化。

云环境产生的海量遥测数据，使 AI 与 ML 技术成为云原生可观测性不可或缺的支柱。大规模自动化可观测性不仅能生成深度洞察，还能推动其他业务功能的自动化。例如，预测性分析可帮助企业在流量高峰来临前预先部署新的服务器基础设施。

云原生可观测性的挑战

由于需要采集与整合巨量多元数据，云原生可观测性在扩展性与复杂度、多工具协同以及数据隐私合规方面带来挑战。

扩展性与复杂性

企业必须在复杂云环境的可视化需求与存储成本、查询性能、数据留存等实际限制间取得平衡。若缺乏恰当的采样策略与数据优先级管理，采集的数据量可能压垮可观测性平台。

容器化微服务快速蔓延、瞬息万变的特性，意味着监控范围必须从应用层延伸至 Kubernetes 等编排工具的集群与节点层面。

使用多种工具

大多数企业运营着数十个经年累积的监控工具，每个工具服务于特定团队或技术领域。技术栈通常涵盖多种编程语言、遗留系统、多云环境、微服务、基础设施组件及框架，这种复杂性导致互操作性困难、数据碎片化，从而违背了可观测性构建系统健康统一视图的根本目标。

隐私与合规

云原生可观测性通过将企业各处的敏感数据汇聚至平台，可能引发合规风险。遥测数据可能包含个人身份信息（PII）、支付卡资料或受保护的健康信息，这些数据类型受《通用数据保护条例》(GDPR)、《健康保险可携性与责任法案》（HIPAA）与《加州消费者隐私法案》（CCPA）等法规监管。

若未实施数据脱敏、标记化、地理限制和基于角色的访问控制，企业可能面临敏感数据泄露或违规风险。例如，解决欧洲客户的交易问题可能需要访问包含个人身份信息的日志，若美国员工查看该数据，则可能导致违反《通用数据保护条例》。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

云原生可观测性与 AIOps

实施云原生可观测性是迈向 AIOps（即运用人工智能能力自动化、简化和优化 IT 服务管理与运营工作流）转型的基石。

当企业能更清晰地透视云端数据时，即使在广阔、分散且难以预测的云环境中，也能自动化执行资源调配或故障排查决策。简而言之，可观测性通过增强企业对 AI 与 ML 工具决策能力的信任，为 AIOps 的实现奠定基础。

云原生可观测性中的人工智能核心功能包括：

异常检测——算法可大规模分析数据以确定系统基线性能，并快速识别异常偏差；
根因分析——超越相关性判断，直接定位可执行的纠错措施；
预测性分析——通过人工智能模型预测未来工作负载，并据此弹性扩展或收缩网络规模。

云原生可观测性与全栈可观测性

尽管二者存在重要共性，云原生可观测性仍不同于全栈可观测性实践。云原生可观测性可视为全栈可观测性的演进形态，它针对云原生环境适配了相同的工具与技术。

全栈可观测性能够关联技术栈所有层级的遥测数据。全栈可观测性平台实时采集多系统数据，运用人工智能与机器学习技术检测异常、预测故障，并为管理员生成决策洞察。

云原生可观测性在此基础上进一步发展，将原本用于全栈可观测性的数据采集与分析工具，专为云原生技术量身打造，实现与复杂容器化微服务的无缝集成。

简而言之，全栈可观测性提供覆盖 IT 环境的全面遥测数据，而云原生可观测性则专注于通常基于无服务器架构的云环境。

作者

Derek Robertson

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor