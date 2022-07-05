Tags
Nuvem

Uma abordagem em quatro etapas para verificar a resiliência das aplicações nativas da nuvem

Imagem abstrata gerada digitalmente de vários cubos em tons de azul e roxo

Como saber se uma solução é "resiliente o suficiente" e como saber se os testes abrangem os cenários necessários?

O paradigma da arquitetura nativa da nuvem já existe há algum tempo. No cerne da arquitetura nativa da nuvem estão componentes funcionais coesivos e independentes que trazem agilidade, escalabilidade e resiliência aos negócios, contribuindo para acelerar o tempo de lançamento no mercado, vantagens competitivas e custos otimizados. Esse paradigma tem sido ativamente apoiado por um cenário de tecnologia poliglota.

As soluções obtidas com a combinação acima de arquitetura e cenário tecnológico podem se mostrar bastante complexas de manter e gerenciar, principalmente devido ao grande número de componente e aos múltiplos frameworks tecnológicos necessários para sua realização. A implementação abaixo do ideal das práticas de projeto e engenharia aumenta exponencialmente a complexidade e os riscos de manutenção de tais soluções.

     

    O que é resiliência?

    “Resiliência” é uma dessas práticas de engenharia críticas para o sucesso/fracasso de qualquer iniciativa de transformação digital. Como você deve saber, a resiliência contribui diretamente para a disponibilidade geral da solução por meio de métricas como Tempo Médio de Recuperação (MTTR) e Tempo Médio Entre Falhas (MTBF), e também é diretamente responsável por tornar a experiência do usuário transformadora.

    A resiliência é essencialmente a capacidade de um sistema de sustentar contra falhas. Embora as falhas nos sistemas possam, em última análise, se manifestar como erros ou indisponibilidade de um componente/sistema, a lista de fatores que podem causar falhas em um sistema distribuído e nativo da nuvem é significativa.

    Já existe muito material focando em como implementar resiliência em aplicações nativas da nuvem. A prática Build for Reliability Garage da IBM oferece uma ótima introdução e framework para implementação de resiliência. Há também frameworks como Chaos Monkey ou ferramentas como Gremlin, que ajudam a "testar" a resiliência de aplicações.

    No entanto, o desafio permanece: como verificar se uma solução é "resiliente o suficiente"? Especificamente, como sabemos se nossos testes abrangem os cenários necessários e suficientes? Como sabemos quais falhas induzir?

    Gostaríamos de propor a seguinte abordagem em quatro etapas para lidar com o desafio acima.

    Desenvolvimento de aplicações

    Venha conosco: desenvolvimento de aplicações para empresas na nuvem

    Neste vídeo, o Dr. Peter Haumer explica como é o desenvolvimento atual das aplicações empresariais modernas na nuvem híbrida, demonstrando diferentes componentes e práticas, incluindo o IBM® Z Open Editor, o IBM Wazi e o Zowe. 
    Explore o desenvolvimento de aplicativos na nuvem

    1. Identifique cenários e componentes de arquitetura que precisam ser testados quanto à resiliência

    Isso pode ser feito identificando "caminhos únicos" — basicamente, a sequência/combinação na qual os componentes da sua solução podem ser usados para dar suporte a cenários funcionais. Esses cenários e os componentes de suporte fornecem o conjunto básico que precisa ser testado.

    Por exemplo, sua aplicação pode ser compatível com um ou mais dos seguintes itens:

    • Pesquise/navegue no catálogo de produtos por meio de uma aplicação de canal que invoca microsserviços de back-end, que buscam dados de um armazenamento de dados persistente.
    • Processos/agendadores em lote sendo executados em tempo/frequência predefinidos.
    • Eventos publicados sobre tópicos pré-configurados e processados por microsserviços inscritos.
    • APIs expostas e invocadas por vários sistemas de consumo.

    2. Determine pontos de falha

    Depois de identificarmos os cenários e os componentes, a próxima etapa é determinar o que pode "falhar" com esses componentes. Vamos dar um exemplo de um único microsserviço com as seguintes características:

    • Ele expõe uma API por meio de um gateway.
    • Ele é implementado em um framework de contêineres habilitado para o Kubernetes.
    • Ele acessa um banco de dados.
    • Integra-se a um sistema posterior.

    Essa visão pode ser construída por meio da identificação das "superfícies de falha", conforme abaixo:

    Diagrama ilustrando uma arquitetura em camadas para microsserviços. No centro há uma caixa amarela chamada "Núcleo", cercada por uma camada cinza chamada "Pod de microsserviços". Fora disso, há uma camada azul rotulada como "Nó", seguida por uma camada azul clara rotulada como "API Gateway". Além disso, há uma camada branca rotulada como "Recursos + sistemas posteriores", e a camada externa de cor laranja claro rotulada como "Computação-armazenamento-rede". Cada camada representa um componente na hierarquia do sistema

    3. Identifique as causas de falhas em superfícies de falha

    Cada superfície de falha identificada na etapa anterior pode falhar por vários motivos — é isso que precisamos identificar em seguida. Continuando com o mesmo exemplo anterior – mapeamento de superfícies de falha para as possíveis causas pode fornecer a seguinte lista:

    • Núcleo: o próprio microsserviço central, como unidade de código, pode falhar devido a problemas de memória insuficiente, o servidor de aplicações pode falhar etc.
    • Pod e nó de microsserviços:  o nó/pod pode falhar em uma verificação de integridade. A VM que hospeda a plataforma de contêineres do Kubernetes pode falhar.
    • API Gateway: o mecanismo de API Gateway pode não responder devido à insuficiência de threads/memória necessários para as solicitações de serviço.
    • Sistema de back-end: o sistema de back-end pode demorar muito para responder e pode falhar.
    • Computação/armazenamento/rede: a rede entre o microsserviço e o sistema de back-end (que poderia estar hospedado em um local separado) pode ficar inativa.

    4. Prepare-se para o “ataque”

    As causas e superfícies de falha podem ser utilizadas para criar uma matriz, conforme mostrado abaixo. Isso agora nos permite entender e planejar a combinação com a qual precisamos planejar "ataques" à solução. Estes, por sua vez, agora podem ser implementados por meio de frameworks de testes de caos, conforme mencionado anteriormente:

    Tabela mostrando prós e contras de produtos

    Considerações adicionais

    Por último, mas não menos importante, o teste de falha por si só não será suficiente. Considere os seguintes cenários:

    • Além de introduzir a falha em uma instância do componente, você precisa se certificar de que não tem instâncias de auto-scaling/múltiplas em execução na plataforma de nuvem OU garantir que todas as réplicas falhem conforme a necessidade.
    • Para testar um resultado degradado (por exemplo, em cache), você precisaria ter recursos de testes de "antes" e "depois".

    Isso requer recursos adicionais para complementar seus frameworks de testes de caos, como Infraestrutura como Código (IaC) ou reconfiguração dinâmica de recursos em nuvem.

    Além disso, como o teste real com componentes é caro, você também pode querer considerar os recursos para verificação "estática", como a seguinte:

    • Validação do descritor de implementação para o ReplicaSet
    • Validação da configuração de auto-scaling para VMs
    • Verificações de código estático para novas tentativas, implementação de disjuntores etc.

    Saiba mais

    No geral, pensamos que a resiliência requer foco não apenas no pós-desenvolvimento, mas em todo o processo - desde a identificação de cenários desde o início, priorizando-os com base no impacto nos negócios e, em seguida, usando uma combinação de ataques estáticos e dinâmicos para verificar e validar a resiliência no nível do componente. A abordagem que estabelecemos neste post de blog ajudará a lidar com os principais desafios citados em toda essa jornada.

    Os serviços de desenvolvimento e modernização de aplicações nativas da nuvem da IBM garantem a infusão de práticas de engenharia com a consistência e o rigor necessários. Confira os links a seguir para saber mais:

