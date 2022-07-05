O paradigma da arquitetura nativa da nuvem já existe há algum tempo. No cerne da arquitetura nativa da nuvem estão componentes funcionais coesivos e independentes que trazem agilidade, escalabilidade e resiliência aos negócios, contribuindo para acelerar o tempo de lançamento no mercado, vantagens competitivas e custos otimizados. Esse paradigma tem sido ativamente apoiado por um cenário de tecnologia poliglota.
As soluções obtidas com a combinação acima de arquitetura e cenário tecnológico podem se mostrar bastante complexas de manter e gerenciar, principalmente devido ao grande número de componente e aos múltiplos frameworks tecnológicos necessários para sua realização. A implementação abaixo do ideal das práticas de projeto e engenharia aumenta exponencialmente a complexidade e os riscos de manutenção de tais soluções.
“Resiliência” é uma dessas práticas de engenharia críticas para o sucesso/fracasso de qualquer iniciativa de transformação digital. Como você deve saber, a resiliência contribui diretamente para a disponibilidade geral da solução por meio de métricas como Tempo Médio de Recuperação (MTTR) e Tempo Médio Entre Falhas (MTBF), e também é diretamente responsável por tornar a experiência do usuário transformadora.
A resiliência é essencialmente a capacidade de um sistema de sustentar contra falhas. Embora as falhas nos sistemas possam, em última análise, se manifestar como erros ou indisponibilidade de um componente/sistema, a lista de fatores que podem causar falhas em um sistema distribuído e nativo da nuvem é significativa.
Já existe muito material focando em como implementar resiliência em aplicações nativas da nuvem. A prática Build for Reliability Garage da IBM oferece uma ótima introdução e framework para implementação de resiliência. Há também frameworks como Chaos Monkey ou ferramentas como Gremlin, que ajudam a "testar" a resiliência de aplicações.
No entanto, o desafio permanece: como verificar se uma solução é "resiliente o suficiente"? Especificamente, como sabemos se nossos testes abrangem os cenários necessários e suficientes? Como sabemos quais falhas induzir?
Gostaríamos de propor a seguinte abordagem em quatro etapas para lidar com o desafio acima.
Isso pode ser feito identificando "caminhos únicos" — basicamente, a sequência/combinação na qual os componentes da sua solução podem ser usados para dar suporte a cenários funcionais. Esses cenários e os componentes de suporte fornecem o conjunto básico que precisa ser testado.
Por exemplo, sua aplicação pode ser compatível com um ou mais dos seguintes itens:
Depois de identificarmos os cenários e os componentes, a próxima etapa é determinar o que pode "falhar" com esses componentes. Vamos dar um exemplo de um único microsserviço com as seguintes características:
Essa visão pode ser construída por meio da identificação das "superfícies de falha", conforme abaixo:
Cada superfície de falha identificada na etapa anterior pode falhar por vários motivos — é isso que precisamos identificar em seguida. Continuando com o mesmo exemplo anterior – mapeamento de superfícies de falha para as possíveis causas pode fornecer a seguinte lista:
As causas e superfícies de falha podem ser utilizadas para criar uma matriz, conforme mostrado abaixo. Isso agora nos permite entender e planejar a combinação com a qual precisamos planejar "ataques" à solução. Estes, por sua vez, agora podem ser implementados por meio de frameworks de testes de caos, conforme mencionado anteriormente:
Por último, mas não menos importante, o teste de falha por si só não será suficiente. Considere os seguintes cenários:
Isso requer recursos adicionais para complementar seus frameworks de testes de caos, como Infraestrutura como Código (IaC) ou reconfiguração dinâmica de recursos em nuvem.
Além disso, como o teste real com componentes é caro, você também pode querer considerar os recursos para verificação "estática", como a seguinte:
No geral, pensamos que a resiliência requer foco não apenas no pós-desenvolvimento, mas em todo o processo - desde a identificação de cenários desde o início, priorizando-os com base no impacto nos negócios e, em seguida, usando uma combinação de ataques estáticos e dinâmicos para verificar e validar a resiliência no nível do componente. A abordagem que estabelecemos neste post de blog ajudará a lidar com os principais desafios citados em toda essa jornada.
