什么是 SRE 可观测性?

2025 年 3 月 4 日

作者

Chrystal R. China

Writer, automation & ITOps

什么是 SRE 可观测性?

站点可靠性工程 (SRE) 可观测性是一种涵盖软件开发工具和方法的实践,通过分析系统或流程的外部输出,实现其内部状态的细粒度可见性。

它采用软件仪器来收集和分析整个计算环境(包括基础设施和应用程序)的数据,帮助 IT 团队更好地了解、维护和改进其架构,并提高站点长期可靠性。

SRE 可观测性超出了标准系统监控的范畴,后者可作为任何可观测性战略的重要组成部分,但无法提供优化现代计算网络所需的全面可见性。

例如,传统的监控工具具备仪表板,可实现系统状态可视化,并向 IT 人员发出故障预警。但是,如今的云原生计算环境日益分散,依赖一系列微服务边缘服务器Docker 容器无服务器功能。

这些网络呈高度动态化,需要有限的人工干预来管理网络服务,因此传统监控系统通常难以应对简单的监控任务。

可观测性的目标是为站点可靠性工程师提供维护安全、可扩展且高度可用的站点和服务所需的可操作数据。当系统可观测时,工程师就能轻松查看内部活动,并更好地排除可能会对站点可靠性产生负面影响的问题和漏洞。SRE 可观测性还能帮助工程师优化整体网络性能,并在网络服务中实施持续改进实践。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

SRE 和可观测性:简要概述

站点可靠性工程

SRE 是一种软件工程实践,它将 DevOps 与传统 IT 运营 (ITOps) 相结合,以解决客户问题、实现 ITOps 任务自动化、加快软件交付并最大限度降低 IT 风险。其重点是通过持续自动执行关键流程来提高弹性。

传统上,SRE 涉及手动 IT 运营和系统管理流程,例如日志分析、性能调校、补丁管理、生产环境测试、事件管理和事后评估。但是,现代 SRE 可以自动执行这些任务以节省时间、减少人为错误并简化开发和运营团队之间的协作。

SRE 工具可使用称为“混沌工程”的流程自动搜索系统缺陷,其中站点可靠性工程师会故意在生产和预生产环境中引发故障。此流程可帮助团队了解故障对软件系统的影响,并制定在未来减少故障的战略。

SRE 还专注于容量规划,该流程可确定运行基本业务功能、扩展此类业务功能以及开发人员构建新应用程序和功能所需的资源。借助既定的关键绩效指标 (KPI),SRE 团队可以评估更新交付和新功能的实施情况。

可观测性

可观测性在维护现代软件系统和云计算环境的可用性、性能和安全性方面起着不可或缺的作用。

“可观测性”一词源自控制理论——一种专注于动态系统自动化控制的工程理论(例如根据流量控制系统的反馈调节管道水流)。

可观测性提供了对现代分布式技术栈的深度可见性,可实现自动实时问题识别和解决。系统越容易观测,IT 团队就能越快越准确地确定性能问题的根本原因,而且通常不需要额外的测试或编码。

构建和维护可观测系统需要能够汇总、关联和分析来自应用程序及其运行所依靠的硬件和网络的稳定性能数据流的软件工具。然后,IT 团队可以使用数据来监控、排查和调试每个网络组件,帮助企业优化客户体验并满足服务水平协议 (SLA)。

可观测性经常与应用程序性能监控 (APM) 和网络性能管理 (NPM) 相混淆。然而,可观测性工具代表了 APM 和 NPM 数据收集方法的自然演变,1 更适合分布式网络和云原生应用程序部署。

SRE 可观测性的构成要素

实现可观测性需要组织收集遥测数据,包括:

指标

指标,它们是原始、衍生或汇总的定量测量值,用于衡量特定时段内的系统健康状况和性能(例如服务器或 API)。它们可帮助组织为 SRE 监控和数据分析实践奠定坚实的基础,以便工程师识别数据模式并预测系统问题。

SRE 中的常见指标包括 CPU 使用率、内存消耗、请求延迟 、错误率和网络带宽,各个指标均可提供系统状态的快照,并帮助团队在潜在问题升级之前加以解决。

日志

日志是带时间戳的详细事件文本记录,通常以纯文本、二进制或结构化格式记录。它们通常为寻求了解和诊断系统问题的工程师提供起点。

SRE 可观测性工具中的日志记录功能可收集、存储、分析和关联一系列数据(包括错误消息、启动和关闭过程以及配置更改)。它们使 SRE 团队能够按时间顺序和上下文了解事件,从而使他们更容易追踪问题的根本原因并部署解决工作流程

跟踪

跟踪(如 HTTP 请求和数据库查询)提供了数据请求从发起到完成的生命周期的全面视图。它们代表请求通过计算网络的旅程,捕获不同组件和服务之间的交互(例如,依赖关系)。

跟踪(即分布式跟踪)在微服务架构中很有价值,其中请求可以在到达目的地之前遍历多个服务。

预警

出现问题时,SRE 可观测性工具会自动发送通知,以便工程师及时解决问题,从而最大限度地减少最终用户的停机时间。

SRE 可观测性解决方案能够帮助企业近乎实时地收集和处理性能遥测数据,为 SRE 团队提供有关系统错误及其发生原因的数据驱动型洞察分析。这些洞察分析可支持组织在站点开发和维护期间减轻工程师的认知负担,确保跨职能的小型自主化团队能够更有效地管理服务。

SRE 可观测性的未来

人工智能 (AI) 和机器学习 (ML) 与 SRE 可观测性解决方案的整合,正在迅速改变企业处理站点可靠性工程的方式。AIOps 方法使 SRE 团队能够将先进的工具和算法融入可观测性实践,分析可观测性工具中的数据集以识别模式、预测中断并推荐解决方案。

SRE 不再仅仅专注于手动任务和脚本编写,而是可以成为 AI 系统的训练师和战略家,教 AI 识别模式、过滤噪音并避免代价高昂的错误。这种转变将使 SRE 功能从面向任务的角色提升为以管理智能自动化系统为中心的战略学科。

例如,SRE 可观测性工具可以运用 AI 技术在修复过程中模拟和自动执行人类决策。基于 AI 的可观测性功能可以持续监控和分析传入数据,以识别超出既定阈值的活动,并采取一系列纠正措施(例如修复脚本)来解决问题。

当(且仅当)软件无法解决问题时,它才会自动在 SRE 团队的问题管理平台中生成详细的支持工单,确保 SRE 人员只需处理可观测性平台无法应对的问题。

AI 驱动的可观测性工具还可以利用大语言模型 (LLM) 的高级文本处理功能来简化 SRE 可观测性平台中的数据洞察分析。LLM 擅长识别大量重复性文本数据中的模式,这些数据与复杂的分布式系统中的遥测数据非常相似。如今,LLM 可以通过训练(或由提示工程协议驱动),使用人类语言的语法和语义返回信息和洞察分析。

高级 LLM 可帮助 SRE 团队以自然语言编写和探索查询,从而摆脱复杂的查询语言,并支持技能水平不同的 IT 人员更有效地管理复杂的数据。

此外,SRE 可观测性工具受益于因果 AI 功能,该功能可以阐明变量之间的因果关系并建模,而不仅仅是识别相关性。传统的 AI 技术(例如 ML)通常依赖统计相关性进行预测。因果 AI 旨在找到产生相关性的底层机制,提高 SRE 可观测性工具的预测能力,并实现更有针对性的决策。

因果 AI 可以帮助 SRE 团队分析站点和网络组件之间的关系和相互依赖关系。这些功能不仅可以揭示系统问题的“时间和位置”,还可以揭示“原因”,从而提高了站点的可靠性。

Mixture of Experts | 4 月 25 日,第 52 集

解码 AI:每周新闻摘要

加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。

SRE 可观测性工具的优势

SRE 可观测性通常需要使用高级可观测性工具,这些工具可以实现以下目标:

主动问题检测和根本原因分析

借助可观测性工具,SRE 团队可使用指标、记录和分布式跟踪功能来检测系统问题并在其影响用户之前加以纠正。可观测性解决方案监控和汇总来自整个网络的数据,为系统行为提供清晰的可见性,并帮助工程师快速进行根本原因分析。他们鼓励积极主动、全企业的 SRE 实践,并帮助企业最大限度地提高网络可用性。

缩短事件响应时间

可观测性解决方案使用了汇总的情境化数据,可帮助 SRE 团队和值班工程师在检测到事件时快速启动故障排除流程,并收集有关系统状态的洞察分析。这些解决方案支持快速诊断和解决问题,帮助企业保持站点可靠性以及 SLA 合规性。

明智的决策和优化的站点性能

数据驱动型决策是 SRE 的基石。可观测性平台为团队提供所需的一切信息,以便其就系统架构、容量规划和运营战略制定明智的决策,确保根据经验证据做出变更。遥测数据还能帮助团队持续调整系统性能,以最大限度地提高可靠性。

取得更出色的业务成果

SRE 计划与更广泛的业务目标密不可分,因为用户满意度在创建和维护系统可靠性方面发挥着关键作用。SRE 可观测性解决方案通过帮助企业制定服务级别目标 (SLO),提供衡量用户满意度的工具。

与 CPU 和内存使用率等间接指标不同,SLO 可提供有关用户体验的可操作洞察分析。通常,可观测性工具可以进行定制,用于评估用户满意度(例如,识别用户在购买产品期间面临的问题)。基于 SLO 的战略可推动数据驱动型探讨,帮助企业了解何时需关注可靠性以及何时应构思新功能。

SRE 可观测性用例

SRE 可观测性可帮助组织优化跨业务部门一系列用例的站点可靠性和运行时间,包括:

电子商务

对于电子商务平台,SRE 可观测性有助于营造无缝的用户体验和交易可靠性。团队可以实时监控网站性能、交易处理和用户参与度指标。他们还可以使用可观测性工具来识别速度减慢或中断,帮助零售商规避弃购行为,同时协助现场工程师在购物高峰期优化服务器负载并扩展资源。

物流

SRE 可观测性使企业能够监控包裹运达时间、发货量和库存水平, 从而快速进行异常检测,识别发货延迟和库存不足等问题。SRE 可观测性工具还可以跟踪服务级别指标 (SLI)——即与不同服务相关的系统行为的定量测量值,例如交付成功率。

银行业务

借助 SRE 可观测性,金融机构可监控电汇、ATM 取款和在线支付等重要交易。SRE 工具还可以帮助银行自动扩展其站点和系统,以满足对数字金融服务不断增长的需求。

医疗保健

SRE 可观测性使医疗保健提供方能够实时监控和分析患者数据。例如,医院的 SRE 团队可以实施一个系统来跟踪生命体征,以便医生和护士可以在发生医疗紧急情况时快速干预。可观测性工具还可以监控医院的基础设施,识别可能阻碍员工为患者提供最高质量护理的性能问题。

相关解决方案
全栈自动化可观察性

快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。

了解更多关于 Full Stack Observability 的信息
AIOps 咨询

使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。

了解更多关于 AIOps 咨询的信息
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。

监控网络性能
采取后续步骤

了解 AI 如何为 IT 运营提供所需的洞察分析,帮助推动卓越的业务绩效。

深入了解 AIOps 解决方案 预约实时演示