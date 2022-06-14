A latência quase nunca segue uma distribuição gaussiana ou de Poisson normal. Mesmo que sua latência siga uma dessas distribuições, devido à forma como observamos a latência, isso torna as médias, as medianas e até mesmo os desvios padrões inúteis. Se, por exemplo, você estiver medindo cargas de páginas, 99,9999999999% dessas cargas podem ser piores do que a sua mediana. Isso é parte do motivo pelo qual a amostragem aleatória de sua latência causa dados imprecisos – mas falaremos mais sobre esse assunto mais tarde.

Neste ponto, você deve estar se perguntando: Se não estamos usando nenhum desvio padrão, como podemos descrever as latências de modo significativo? A resposta é que devemos analisar percentis e máximos. A maioria das pessoas pensar consigo mesmas: "OK, então eu olho para o P95 e entendo o "caso comum". O problema desse método é que o P95 ocultará todas as informações ruins. Como diz Gil Tene, CTO da Azul Systems: “É um 'sistema de marketing'. Alguém está sendo enganado.”

Veja, por exemplo, este gráfico:

Este gráfico mostra claramente por que sua mediana e média não têm significado real — elas não mostram a área do problema. Quando você vê o 95º percentil disparar para a esquerda, pensa que está vendo o cerne do problema. Claro, no entanto, isso não é verdade. Quando você investiga os motivos pelos quais seu programa teve um soluço, você não consegue ver os 5% piores do que aconteceu. Para obter esse tipo de pico, é necessário que os 5% principais dos dados sejam significativamente piores.

Agora olhe para o mesmo gráfico que também mostra o 99,99º percentil:

Essa linha vermelha é o 95º percentil, enquanto a linha verde é o 99,99º percentil. Como você pode ver claramente, o 95º percentil mostra apenas dois de 22 de seus problemas e por que você deve analisar todo o espectro de seus dados.

Muitas pessoas podem achar que os últimos 5% dos dados não têm muito significado. Claro, pode ser apenas uma reinicialização de uma máquina virtual (VM), um soluço no seu sistema ou algo parecido, mas ao ignorá-lo, você está dizendo que isso simplesmente não acontece quando poderia ser uma das coisas mais importantes para você para direcionar.

Gil Tene gosta de fazer a alegação ousada de que “O indicador número um do qual você nunca deve se livrar é o valor máximo. Isso não é ruído, isso é o sinal. O resto é ruído.” Embora o máximo seja, de fato, um grande single em um sistema em grande escala, muitas vezes não é prático buscar apenas o caso máximo. Nenhum sistema é perfeito e soluços ocorrem. Em um sistema prático de grande escala, buscar exclusivamente o caso máximo costuma ser uma boa maneira de esgotar sua equipe de desenvolvimento.

Ao olhar para o 99,99º percentil, você está vendo o que acontece com a grande maioria de seus clientes, e quaisquer picos que você vê lá você sabe que são problemas reais, enquanto qualquer picos em seu máximo pode ser apenas um soluço em seu sistema. Quando suas equipes de DevOps concentram seus esforços nesses pequenos soluços, elas estão fazendo isso com um grande custo de oportunidade, pois não podem trabalhar em questões mais importantes.

É importante observar que, se seu 99,99º percentil e seu máximo estiverem muito próximos um do outro (e ambos estiverem com picos), então é um ótimo sinal de que é um problema no qual sua equipe deve trabalhar. Dessa forma, Gil está certo de que o máximo é um ótimo sinal, mas errado ao dizer que o restante de seus dados é apenas ruído. Como você pode ver neste gráfico, nosso 99,99º percentil e máximo do nosso exemplo anterior correspondem exatamente. É um ótimo sinal de que você está vendo um bug real e não apenas um soluço: