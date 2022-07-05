“Resiliência” é uma dessas práticas de engenharia críticas para o sucesso/fracasso de qualquer iniciativa de transformação digital. Como você deve saber, a resiliência contribui diretamente para a disponibilidade geral da solução por meio de métricas como Tempo Médio de Recuperação (MTTR) e Tempo Médio Entre Falhas (MTBF), e também é diretamente responsável por tornar a experiência do usuário transformadora.

A resiliência é essencialmente a capacidade de um sistema de sustentar contra falhas. Embora as falhas nos sistemas possam, em última análise, se manifestar como erros ou indisponibilidade de um componente/sistema, a lista de fatores que podem causar falhas em um sistema distribuído e nativo da nuvem é significativa.

Já existe muito material focando em como implementar resiliência em aplicações nativas da nuvem. A prática Build for Reliability Garage da IBM oferece uma ótima introdução e framework para implementação de resiliência. Há também frameworks como Chaos Monkey ou ferramentas como Gremlin, que ajudam a "testar" a resiliência de aplicações.

No entanto, o desafio permanece: como verificar se uma solução é "resiliente o suficiente"? Especificamente, como sabemos se nossos testes abrangem os cenários necessários e suficientes? Como sabemos quais falhas induzir?

Gostaríamos de propor a seguinte abordagem em quatro etapas para lidar com o desafio acima.