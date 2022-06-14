La latencia casi nunca sigue una distribución gaussiana o Poisson normal. Incluso si su latencia sigue una de estas distribuciones, debido a la forma en que observamos la latencia, hace que las medias, las medianas e incluso las desviaciones estándar sean inútiles. Si, por ejemplo, está midiendo la carga de páginas, el 99,9999999999 % de estas cargas puede ser peor que su mediana. Es parte de la razón por la que el muestreo aleatorio de su latencia provoca datos inexactos, pero hablaremos de este tema más adelante.

En este punto, probablemente se esté preguntando si no estamos utilizando ninguna desviación estándar, ¿cómo podemos describir las latencias de manera significativa? La respuesta es que debemos fijarnos en los percentiles y los máximos. La mayoría de la gente piensa que al examinar el P95 se comprende el “caso común”. El problema con este método es que P95 va a ocultar todas las cosas malas. Como dice Gil Tene, CTO de Azul Systems: “Es un 'sistema de marketing'. Alguien está siendo engañado”.

Tomemos, por ejemplo, este gráfico:

Al observarlo, se puede ver claramente por qué su mediana y su media no tienen un significado real: no muestran el área problemática. Cuando se ve que el percentil 95 se dispara hacia la izquierda, se piensa que se está viendo el núcleo del problema. Sin embargo, eso no es cierto. Cuando investiga por qué su programa tuvo un problema, no ve el 5 % peor de lo que ocurrió. Para obtener este tipo de pico, es necesario que el 5 % superior de los datos sea significativamente peor.

Ahora mire el mismo gráfico que también muestra el percentil 99,99:

Esa línea roja es el percentil 95, mientras que la línea verde es el percentil 99,99. Como puede ver claramente, el percentil 95 solo muestra 2 de 22 de sus problemas y por qué debe analizar el espectro completo de sus datos.

Mucha gente puede pensar que el último 5 % de los datos no tiene tanta importancia. Claro, podría tratarse simplemente del reinicio de una máquina virtual (VM), un fallo en su sistema o algo por el estilo, pero al ignorarlo, está diciendo que eso no ocurre, cuando podría ser una de las cosas más importantes en las que centrarse.

A Gil Tene le gusta hacer la atrevida afirmación de que “el indicador número uno del que nunca debe deshacerse es el valor máximo. Eso no es ruido, es la señal. El resto es ruido”. Si bien lo máximo es, sin duda, una gran ventaja en un sistema a gran escala, a menudo no resulta práctico perseguir únicamente el caso máximo. Ningún sistema es perfecto y siempre surgen imprevistos. En un sistema práctico a gran escala, perseguir exclusivamente el caso máximo suele ser una buena forma de agotar a su equipo de desarrollo.

Al observar el percentil 99,99, está viendo lo que le sucede a la gran mayoría de sus clientes, y cualquier pico que vea allí sabe que es un problema real, mientras que cualquier pico en su máximo puede ser solo un problema en su sistema. Cuando sus equipos de DevOps centran sus esfuerzos en estos pequeños contratiempos, lo hacen con un gran coste de oportunidad, ya que no pueden trabajar en problemas más importantes.

Cabe señalar que si su percentil 99,99 y su máximo están muy cerca el uno del otro, y ambos tienen picos, entonces es una gran señal de que es un problema en el que su equipo debe trabajar. De esta manera, Gil tiene razón en que el máximo es una gran señal, pero se equivoca en que el resto de sus datos son solo ruido. Como puede ver en este gráfico, nuestro percentil 99,99 y el máximo de nuestro ejemplo anterior coinciden exactamente. Es una buena señal de que lo que está viendo es un error real y no solo un pequeño contratiempo: