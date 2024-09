A cada dia abre-se uma nova oportunidade para a ocorrência de falhas de uma aplicação ou infraestrutura crítica de uma organização, o que pode ameaçar sua capacidade de prestar serviços aos clientes. As causas das falhas são problemas variados, como violações de segurança, configurações incorretas ou interrupções no serviço. A probabilidade de erros ou interrupções aumenta com a hospedagem de mais aplicações e dados na nuvem, o que pode levar a mais problemas de segurança.

Uma forma de lidar com as interrupções é a engenharia do caos. Não se trata de um processo aleatório em que os engenheiros encerram instâncias ou serviços ou fazem com que os sistemas falhem sem propósito algum. Esse processo identifica possíveis problemas futuros, permitindo que as equipes de engenharia solucionem proativamente e evitem tais problemas posteriormente no ambiente de produção.



A engenharia do caos é importante, pois eventuais erros ou interrupções podem desacelerar o impulso de uma organização, que gastará tempo tentando descobrir rapidamente uma solução para minimizar o tempo de inatividade. A Netflix sentiu isso na pele quando migrou do local para a nuvem1 (link externo ao site ibm.com); em 2008, a empresa sofreu uma queda que levou a uma interrupção de três dias na prestação do serviço. Isso ocorreu antes de sua conversão em operadora de streaming de vídeo, o que teria tornado a interrupção exponencialmente mais cara. Consequentemente, a Netflix decidiu que faria todo o possível para minimizar as interrupções e começou a introduzir a engenharia de caos em seus fluxos de trabalho. Com isso, eles conseguem identificar os problemas antes que ocorram e minimizar os danos em caso de uma falha inevitável.

A Netflix criou o Chaos Monkey2(link externo ao site ibm.com), uma ferramenta de código aberto que cria incidentes aleatórios em serviços de TI e infraestrutura. Seu objetivo é identificar fragilidades que possam ser corrigidas ou abordadas com procedimentos de recuperação automática durante a migração de um data center privado para o Amazon Web Services (AWS) em resposta à falta de confiabilidade da nuvem. Muitas organizações agora usam o Chaos Monkey para executar seus testes de engenharia de caos.



A engenharia de caos é uma defesa importante contra falhas de infraestrutura, interrupções ou componentes ausentes no ambiente de produção de uma organização. Ela ajuda engenheiros de confiabilidade local (SREs) e outros membros da equipe de DevOps a proporcionar entrega contínua de serviços, evitando interrupções significativas, compreendendo melhor as vulnerabilidades e sabendo como minimizar o impacto em caso de interrupção.



Até mesmo um pequeno problema no código pode ter um efeito catastrófico no ambiente geral de produção, considerando-se as diferentes dependências dos programas. Por exemplo, um erro no sistema de software de transações de uma empresa de serviços financeiros pode levar à perda de milhões de dólares3 (link externo ao site ibm.com). Talvez as organizações não possam evitar todos os incidentes de TI, mas podem minimizar os danos usando o gerenciamento do caos para entender os cenários prováveis e as melhores soluções possíveis.