全球软件 SRE 组织通过自动化变得更具弹性
IBM 软件站点可靠性工程 (SRE) 团队在维护 IBM SaaS 产品和托管服务基础设施的可靠性与安全性方面发挥着至关重要的作用。SRE 团队跨 IBM Cloud®、AWS、Microsoft Azure 和 Google Cloud Platform 运营,面向全球交付近 70 个 SaaS 解决方案,并收集直至微服务级别的大量数据。
创建全面弹性评估对该团队来说是一项重大挑战。首席站点可靠性工程师 Kevin Yu 解释说:“我们以前的方法包括召开研讨会和大量运用电子表格及对照运行手册进行评估,这可能需要几个月才能完成,且更新也是一个挑战。这些方法缺乏全面了解系统弹性状态的能力。”
SRE 团队还需要一种解决方案,以便随着时间的推移准确度量和跟踪关键弹性指标,例如可用性、可恢复性和可观测性,以识别漏洞并有效实施改进。
增强月度运营审查 (MOR) 力度也是一项关键挑战。SRE 团队现有的 MOR 流程效率低下,导致发现并解决问题的速度极为迟缓。组织孤岛进一步加剧流程复杂度,使得不同的团队难以遵循同一弹性战略。
SRE 团队部署了 IBM Concert® 平台来减少孤岛,推动持续改进并发掘可重复的弹性方法。
该解决方案将自动化和人工智能驱动的洞察分析与标准化可扩展框架相结合,以评估、增强并维持弹性。
在部署 IBM Concert 之前,弹性评估是一项劳动密集型人工任务,需要数月才能完成。该解决方案的弹性框架可实现流程自动化,提供可用性、可恢复性和可观测性等关键弹性指标的全面视图。自动化显著减少了所需的时间和精力,使 SRE 团队能够专注于提高应用程序的稳健性和可靠性。
以往的 MOR 流程低效且耗时,通常需要数百小时来提取和整理数据。借助 IBM Concert,SRE 团队就能更高效地汇总和报告数据,并向利益相关者提供最准确的信息,以进行合规评估和战略规划。该解决方案还可整合不同来源的数据,以创建统一的视图,从而提升 SRE 团队解决问题的能力。
正如 Yu 所解释的那样,“Concert 帮助我们打破了孤岛并提高了生产力。如今,我们借助可扩展框架来衡量、改进并维持 IBM 的应用程序弹性。”
在 IBM Concert 中部署弹性框架为 IBM SRE 团队带来了变革性成果。
“该解决方案彻底改变了我们实现应用程序弹性的方法。”Yu 说道,“通过自动执行关键弹性数据收集,我们解决了数据孤岛问题并实现了弹性运营。”最终,IBM Concert 弹性状态将 IBM 企业级单应用程序弹性评估所需工时减少了 62%(相比人工评估)。1
SRE 团队表示,这次转型还提高了他们的工作效率,并促进了与其他团队更好地协作。使用该解决方案的标准化框架,SRE 团队可以将组织的不同部分协调一致,遵循共同的弹性策略,他们将看到整体协调和沟通方面的改进。此外,全面、一致的报告功能增强了 IBM 内部的透明度和问责制。内部利益相关者表示,他们现在对弹性指标和问题管理有了更好的理解,从而可以做出更明智的决策。
借助 IBM Concert 的弹性状态,SRE 团队采用更精简、更有效的方法来进行弹性评估和 MOR,从而保障 IBM 的 SaaS 和托管服务基础设施的可靠性及安全性。“与人工生成报告相比,IBM Concert 弹性状态将 IBM SRE 团队投入于 MOR 的工时减少了 72%,”Yu 说。1
IBM 软件 SRE 组织是一个全球团队,专注于为 IBM 软件产品提供高度可用和可扩展的生产 SaaS。软件 SRE 团队通过标准化工具、流程、自动化、运行手册和实践来供应、部署、监控、维护和管理事件。他们与 IBM 软件开发团队们密切合作,设计并实施变更,从而在整个软件生命周期中提供高度弹性的服务。
1:基于内部测试结果。个别结果可能存在差异。
© Copyright IBM Corporation 2025。IBM、IBM 徽标、Concert、IBM Cloud 和 IBM Concert 是 IBM Corp. 在美国和/或其他国家或地区的商标或注册商标。
Microsoft 是 Microsoft Corporation 在美国和/或其他国家/地区的商标。
示例仅供说明之用。实际结果将因客户配置和条件而异,因此通常无法提供预期的结果。