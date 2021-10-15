Observabilidade é a capacidade de entender como um sistema está funcionando, para poder resolver a raiz dos problemas ou encontrar oportunidades de melhora, utilizando dados de análises de desempenho.
A diferença entre observabilidade e monitoramento, de maneira simplificada, é que apesar de ambos usarem os mesmos tipos de dados (logs, métricas e trace), o monitoramento é mais reativo e a observabilidade é mais proativa e investigativa.
A observabilidade oferece visibilidade profunda dos aplicativos distribuídos modernos para identificação e resolução de problemas mais rápidas e automáticas.
Em TI e computação em nuvem, a observabilidade envolve o uso de ferramentas e práticas de software. Essas ferramentas servem para agregar, correlacionar e analisar um fluxo constante de dados de desempenho de uma aplicação distribuída, juntamente com o hardware e a rede em que ela é executada. Esse processo ajuda a monitorar, solucionar problemas e depurar aplicativos e redes com eficiência. O objetivo é atender às expectativas de experiência do cliente, acordos de nível de serviço (SLAs) e outros requisitos de negócios.
Um tópico de TI relativamente novo, a observabilidade é muitas vezes caracterizada erroneamente como uma palavra de efeito exagerada ou uma "reformulação" do monitoramento do sistema, monitoramento de desempenho de aplicações (APM) e gerenciamento de desempenho da rede (NPM). Na verdade, a observabilidade é uma evolução natural dos métodos de coleta de dados APM e NPM, que lida melhor com a natureza cada vez mais rápida, distribuída e dinâmica das implementações de aplicativos nativas em nuvem. A observabilidade não substitui o monitoramento — ela permite um melhor monitoramento e melhores APM e NPM.
O termo "observabilidade" vem da teoria do controle, uma área da engenharia preocupada com a automação do controle de um sistema dinâmico. Exemplos incluem regular o fluxo de água através de um cano ou controlar a velocidade de um automóvel em inclinações e descidas, com base no feedback do sistema.
Nos últimos 20 anos, aproximadamente, as equipes de TI dependeram principalmente do APM para monitorar e solucionar problemas de aplicações. O APM coleta amostras e agrega periodicamente dados de aplicações e sistemas, chamados de telemetria, que são conhecidos por estarem relacionados a problemas de desempenho de aplicações.
O APM analisa a telemetria em relação aos principais indicadores de desempenho (KPIs) e reúne os resultados em um dashboard. Essas descobertas alertam as equipes de operações e suporte para condições anormais com as quais precisam lidar para resolver ou prevenir problemas.
O APM é suficientemente eficaz para monitorar e solucionar problemas de aplicações monolíticas ou aplicações distribuídas tradicionais. Nessas configurações, novas versões de código ocorrem periodicamente, e os fluxos de trabalho e as dependências entre componentes de aplicações, servidores e recursos relacionados são bem conhecidos ou fáceis de rastrear.
Atualmente, as organizações estão adotando rapidamente práticas de desenvolvimento modernas. Essas práticas incluem desenvolvimento ágil, integração contínua e implantação contínua (CI/CD), DevOps, várias linguagens de programação.
As organizações também estão adotando tecnologias nativas da nuvem , como microsserviços, contêineres Docker , Kubernetes e funções serverless . Como resultado, elas estão lançando mais serviços no mercado mais rapidamente do que nunca. Mas, no processo, estão implementando novos componentes de aplicações. Elas fazem isso em muitos lugares, em diferentes linguagens e por períodos de tempo muito variados, até mesmo segundos ou frações de segundo, para funções serverless. A amostragem de dados uma vez por minuto do APM não consegue acompanhar esse ritmo.
O que é necessário é telemetria de maior qualidade – e muito mais – que possa ser usada para criar um registro de alta fidelidade, com contexto vasto e totalmente correlacionado de cada solicitação ou transação do usuário da aplicação. Entre na observabilidade.
As plataformas de observabilidade descobrem e coletam telemetria de desempenho continuamente, integrando-se à instrumentação existente incorporada aos componentes de aplicações e infraestrutura e fornecendo ferramentas para adicionar instrumentação a esses componentes. A observabilidade se concentra em quatro tipos principais de telemetria:
Depois de reunir essa telemetria, a plataforma a correlaciona em tempo real. Esse processo fornece às equipes de DevOps, equipes de engenharia de confiabilidade local (SREs) e equipe de TI informações contextuais completas. As equipes entendem o que, onde e por que de qualquer evento que possa indicar, causar ou ser usado para lidar com um problema de desempenho das aplicações.
Muitas plataformas de observabilidade descobrem automaticamente novas fontes de telemetria à medida que podem surgir no sistema (como uma nova chamada de API para outra aplicação de software). As plataformas lidam com mais dados do que uma solução de APM padrão. Muitas plataformas incluem recursos de AIOps (inteligência artificial para operações), que separam os sinais, indicações de problemas reais, do ruído (dados não relacionados aos problemas).
A observabilidade torna um sistema mais fácil de entender (em geral e em detalhes) e monitorar, mais fácil e seguro de atualizar com novo código e mais fácil de reparar do que um sistema menos observável. Mais especificamente, a observabilidade apoia diretamente os objetivos de Ágil/DevOps/SRE de entregar software de maior qualidade mais rapidamente, permitindo que uma organização:
