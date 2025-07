A equipe de engenharia de confiabilidade local (SRE) do software IBM desempenha um papel crucial na manutenção da confiabilidade e da segurança das ofertas de SaaS e da infraestrutura de serviços gerenciados da IBM. Operando na IBM Cloud, na AWS, na Microsoft Azure e na plataforma de nuvem do Google, a equipe de SRE oferece quase 70 soluções de SaaS globalmente, coletando grandes quantidades de dados até o nível de microsserviço.

Criar uma avaliação abrangente da resiliência foi um desafio significativo para esta equipe. Kevin Yu, engenheiro principal de confiabilidade do site, explica: "Nossos métodos anteriores envolviam workshops e uso extensivo de planilhas para avaliação em relação ao nosso playbook, o que poderia literalmente levar meses para ser concluído e também era um desafio para atualizar. Esses métodos não tinham a capacidade de oferecer uma visão holística da postura de resiliência do nosso sistema".

A equipe da SRE também precisava de uma solução para medir e rastrear com precisão as principais métricas de resiliência, como disponibilidade, capacidade de recuperação e observabilidade, ao longo do tempo para identificar vulnerabilidades e implementar melhorias de forma eficaz.

Aprimorar as avaliações operacionais mensais (MORs) foi outro desafio importante. As ineficiências do processo de MOR existente da equipe de SRE prejudicaram sua capacidade de identificar e resolver problemas com rapidez. Os silos organizacionais complicaram ainda mais o processo, dificultando o alinhamento de equipes diferentes a uma estratégia comum de resiliência.