Transformando o gerenciamento de resiliência com automação

Uma organização global de SRE de software torna-se mais resiliente com automação

Funcionários conversando ao redor de um computador portátil.
Lutando com a resiliência multinuvem

A equipe de engenharia de confiabilidade local (SRE) do software IBM desempenha um papel crucial na manutenção da confiabilidade e da segurança das ofertas de SaaS e da infraestrutura de serviços gerenciados da IBM. Operando na IBM Cloud, na AWS, na Microsoft Azure e na plataforma de nuvem do Google, a equipe de SRE oferece quase 70 soluções de SaaS globalmente, coletando grandes quantidades de dados até o nível de microsserviço.

Criar uma avaliação abrangente da resiliência foi um desafio significativo para esta equipe. Kevin Yu, engenheiro principal de confiabilidade do site, explica: "Nossos métodos anteriores envolviam workshops e uso extensivo de planilhas para avaliação em relação ao nosso playbook, o que poderia literalmente levar meses para ser concluído e também era um desafio para atualizar. Esses métodos não tinham a capacidade de oferecer uma visão holística da postura de resiliência do nosso sistema".

A equipe da SRE também precisava de uma solução para medir e rastrear com precisão as principais métricas de resiliência, como disponibilidade, capacidade de recuperação e observabilidade, ao longo do tempo para identificar vulnerabilidades e implementar melhorias de forma eficaz.

Aprimorar as avaliações operacionais mensais (MORs) foi outro desafio importante. As ineficiências do processo de MOR existente da equipe de SRE prejudicaram sua capacidade de identificar e resolver problemas com rapidez. Os silos organizacionais complicaram ainda mais o processo, dificultando o alinhamento de equipes diferentes a uma estratégia comum de resiliência.

62% avaliação mais rápida de postura de resiliência em toda a empresa por aplicação 72% revisão mensal mais rápida das avaliações
O Concert nos ajudou a quebrar silos e ser mais produtivos. Agora temos um framework escalável para medir, melhorar e sustentar a resiliência de aplicação em toda a IBM.
Kevin Yu Engenheiro principal de confiabilidade do site IBM
Revolução no gerenciamento de resiliência

A equipe de SRE implementou a plataforma IBM Concert para ajudá-los a reduzir silos, impulsionar a melhoria contínua e liberar uma abordagem repetível à resiliência.

A solução combina automação e insights potencializados por IA em um framework padronizado e escalável para avaliar, aprimorar e sustentar a resiliência.

Antes de implementar o IBM Concert, as avaliações de resiliência eram uma tarefa manual e trabalhosa que poderia levar meses para ser concluída. A estrutura de resiliência da solução automatizou esse processo, apresentando uma visão abrangente das principais métricas de resiliência, como disponibilidade, capacidade de recuperação e observabilidade. A automação reduziu consideravelmente o tempo e o esforço necessários, permitindo que a equipe de SRE se concentre em aprimorar a robustez e a confiabilidade das aplicações.

O processo anterior de MOR era ineficiente e demorado, muitas vezes exigindo centenas de horas para extrair e agrupar dados. Com o IBM Concert, a equipe de SRE agora resume e relata os dados com mais eficiência e, em seguida, apresenta informações mais precisas aos stakeholders para avaliação de conformidade e planejamento estratégico. A solução também consolida dados de várias fontes para criar uma visão unificada que aprimora a capacidade da equipe de SRE de resolver problemas.

Como explica Yu, "o Concert nos ajudou a quebrar silos e ser mais produtivos. Agora temos um framework escalável para medir, melhorar e sustentar a resiliência da aplicação em toda a IBM.

Ganhos de eficiência e maior resiliência

A implementação da estrutura de resiliência no IBM Concert trouxe resultados transformadores para a equipe de SRE da IBM.

"A solução transformou nossa abordagem à resiliência de aplicação", diz Yu. “Automatizando a coleta de dados essenciais de resiliência, abordamos os silos e operacionalizamos a resiliência. Consequentemente, a postura de resiliência do IBM Concert reduziu os dias por pessoa em 62% em uma avaliação de postura de resiliência em toda a empresa da IBM por aplicação, em comparação com a avaliação manual.1

A equipe de SRE afirma que a transformação também melhorou sua produtividade e promoveu uma melhor colaboração com outras equipes. Usando o framework da solução, a equipe de SRE consegue alinhar diversas partes da organização a uma estratégia comum de resiliência, onde observam uma melhoria na coordenação geral e na comunicação. Além disso, os recursos de geração de relatórios abrangentes e consistentes melhoraram a transparência e a responsabilidade da IBM. As partes interessadas internas indicaram que agora têm melhor compreensão das métricas de resiliência e da gestão de problemas, levando a tomadas de decisão mais embasadas.

Aproveitando a postura de resiliência do IBM Concert, a equipe de SRE alcançou uma abordagem mais simplificada e eficaz para avaliação de resiliência e MORs, ajudando a garantir que a infraestrutura de serviços gerenciados e SaaS da IBM permaneça confiável e segura. "A postura de resiliência do IBM Concert reduziu as horas de trabalho da equipe IBM SRE investidas em MOR em 72% em comparação com a produção manual do relatório", diz Yu.1

Sobre a organização IBM Software SRE

A organização de software de SRE da IBM é uma equipe global dedicada à entrega de SaaS de produção altamente disponível e escalável para produtos de software da IBM. A equipe de software de SRE provisiona, implementa, monitora, mantém e gerencia incidentes padronizando ferramentas, processos, automação, guias operacionais e práticas. Eles trabalham em estreita colaboração com as equipes de desenvolvimento de software da IBM para projetar e implementar mudanças, entregando um serviço resiliente durante todo o ciclo de vida do software.

Componente da solução IBM Concert
Resiliência reimaginada

O IBM Concert combina automação e insights potencializados pela IA em um framework padronizado e escalável para avaliar, aprimorar e sustentar a resiliência.

Saiba mais Comece sua avaliação sem custo
Notas de rodapé

1: Com base nos resultados de um teste interno. Os resultados individuais podem variar.

Legal

© Copyright IBM Corporation 2025. IBM, o logotipo IBM, Concert, IBM Cloud e IBM Concert são marcas comerciais ou marcas registradas da IBM Corp. nos Estados Unidos e/ou em outros países.

Microsoft é uma marca comercial da Microsoft Corporation nos Estados Unidos, em outros países, ou em ambos.

Os exemplos apresentados têm caráter apenas ilustrativo. Os resultados reais variam de acordo com as configurações e condições do cliente e, portanto, resultados esperados em geral não podem ser garantidos.