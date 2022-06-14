La latencia casi nunca sigue una distribución gaussiana o de Poisson normal. Incluso si su latencia sigue una de estas distribuciones, debido a la forma en que observamos la latencia, hace que los promedios, las medianas e incluso las desviaciones estándar sean inútiles. Si, por ejemplo, está midiendo cargas de páginas, el 99.9999999999% de estas cargas puede ser peor que su mediana. Es parte de la razón por la que el muestreo aleatorio de su latencia provoca datos inexactos, pero hablaremos más sobre este tema más adelante.

En este punto, probablemente se esté preguntando si no estamos usando ninguna desviación estándar, ¿cómo podemos describir las latencias de manera significativa? La respuesta es que debemos fijarnos en los percentiles y los máximos. La mayoría de las personas piensan para sí mismas, está bien, así que miro P95 y entiendo el "caso común". El problema con este método es que P95 ocultará todas las cosas malas. Como dice Gil Tene, Director de Tecnología de Azul Systems: “Es un 'sistema de marketing'. Alguien está siendo engañado”.

Tomemos, por ejemplo, este gráfico:

Cuando ve este gráfico, puede ver claramente por qué su mediana y promedio no tienen un significado real—no muestran el área problemática. Cuando ve que el percentil 95 se dispara hacia la izquierda, piensa que estás viendo el corazón del problema. Aunque, por supuesto, no es cierto. Cuando investiga por qué su programa tuvo un problema, no ve el peor 5% de lo que sucedió. Para obtener este tipo de pico se requiere que el 5% superior de los datos sea significativamente peor.

Ahora mire el mismo gráfico que también muestra el percentil 99.99:

Esa línea roja es el percentil 95, mientras que la línea verde es el percentil 99.99. Como puede ver claramente, el percentil 95 solo muestra 2 de 22 de sus problemas y por qué debe analizar todo el espectro de sus datos.

Muchas personas pueden pensar que el último 5% de los datos no tiene tanta importancia. Claro, podría ser solo el reinicio de una máquina virtual (VM), un problema en su sistema o algo así, pero al ignorarlo, está diciendo que simplemente no sucede cuando podría ser una de las cosas más importantes para a su objetivo.

A Gil Tene le gusta hacer la audaz afirmación de que “El indicador número uno del que nunca debe deshacerse es el valor máximo. Eso no es ruido, es la señal. El resto es ruido”. Si bien el máximo es, de hecho, un gran único en un sistema a gran escala, a menudo no es práctico perseguir solo el caso máximo. Ningún sistema es perfecto y se producen contratiempos. En un sistema práctico a gran escala, perseguir exclusivamente el caso máximo suele ser una buena manera de agotar a su equipo de desarrollo.

Al observar el percentil 99.99, está viendo lo que le sucede a la gran mayoría de sus clientes, y cualquier pico que vea allí sabe que es un problema real, mientras que cualquier pico en su máximo puede ser solo un problema en su sistema. Cuando sus equipos de DevOps centran su esfuerzo en estos pequeños contratiempos, lo hacen con un gran costo de oportunidad, ya que no pueden trabajar en problemas más importantes.

Cabe señalar que si su percentil 99.99 y su máximo están muy cerca entre sí—y ambos tienen picos—entonces es una gran señal de que es un problema en el que su equipo debe trabajar. De esta manera, Gil tiene razón en que el máximo es una gran señal, pero está equivocado en que el resto de sus datos son solo ruido. Como puede ver en este gráfico, nuestro percentil 99.99 y el máximo de nuestro ejemplo anterior coinciden exactamente. Es una gran señal de que lo que está viendo es un error real y no solo un problema: