La latence ne suit presque jamais une distribution gaussienne ou poissonienne normale. Même si votre latence suit l’une de ces distributions, en raison de la façon dont nous observons la latence, elle rend les moyennes, les médianes et même les écarts-types inutiles. Si, par exemple, vous mesurez le chargement des pages, 99,9999999999 % de ces charges peuvent être en deçà de votre médiane. C’est en partie la raison pour laquelle l’échantillonnage aléatoire de la latence génère des données inexactes, mais nous en reparlerons plus tard.

À ce stade, vous vous demandez probablement si nous n’utilisons aucun écart-type, comment pouvons-nous décrire les latences de manière significative ? La réponse est que nous devons examiner les percentiles et les maximums. La plupart des gens se disent, je vais donc observer la mesure P95 pour comprendre la tendance générale. Le problème avec cette méthode est que P95 va masquer tous les mauvais éléments. Comme l’explique Gil Tene, directeur technique d’Azul Systems : « C’est un système marketing qui est trompeur. »

Prenons par exemple ce graphique :

Lorsque vous voyez ce graphique, vous pouvez clairement voir pourquoi sa médiane et sa moyenne n’ont pas de signification réelle : elles ne montrent pas la zone problématique. Lorsque vous voyez le 95e centile monter vers la gauche, vous pensez que vous êtes au cœur du problème. Bien sûr, ce n’est pas vrai. Lorsque vous recherchez pourquoi votre programme a eu un accroc, vous ne parvenez pas à identifier les 5 % qui posent problème. Pour obtenir ce type de pic, il faut que les 5 % de données les plus performantes soient nettement pires.

Regardez maintenant le même graphique qui montre également le 99,99e centile :

Cette ligne rouge correspond au 95e centile, tandis que la ligne verte correspond au 99,99e centile. Comme vous pouvez le voir clairement, le 95e fournir ne montre que 2 problèmes sur 22 et voilà pourquoi vous devez examiner l’ensemble de vos données.

Beaucoup pensent que les 5 derniers % de données n’ont pas tant d’importance. Bien sûr, il peut s’agir du redémarrage d’une machine virtuelle (VM), d’un accroc dans votre système ou autre, mais en l’ignorant, vous dites que cela n’arrive jamais alors qu’il peut s’agir de l’un des éléments les plus importants à cibler.

Gil Tene aime affirmer « L’indicateur numéro un dont vous ne devriez jamais vous débarrasser est la valeur maximale. Il ne s’agit pas de bruit, c’est le signal. Le reste, c’est du bruit. » Bien que le maximum soit en effet un excellent choix dans un système à grande échelle, il n’est souvent pas pratique de se limiter au cas maximal. Aucun système n’est parfait et des accrocs se produisent. Dans un système pratique à grande échelle, poursuivre exclusivement le cas maximum est souvent un bon moyen d’épuiser les développeurs.

Le 99,99e centile vous permet de voir ce qui se passe pour la grande majorité de vos clients, et les pics d’activité que vous voyez sont de véritables problèmes, tandis que les pics d’activité de votre maximum peuvent n’être qu’un hiérarchisation de votre système. Lorsque vos équipes DevOps concentrent leurs efforts sur ces petits obstacles, le coût est important, car elles ne peuvent pas se consacrer à des problèmes plus importants.

Il est important de noter que si votre 99,99e centile et votre maximum sont très proches l’un de l’autre, et qu’ils connaissent tous deux un pic, c’est un signal formidable : c’est un problème sur lequel votre équipe doit travailler. Ainsi, M. Gil a raison sur le fait que le maximum est un signal important, mais il a tort de dire que le reste de vos données n’est que du bruit. Comme vous pouvez le voir sur ce graphique, notre 99,99e centile et le maximum calculés dans notre exemple précédent correspondent exactement. C’est un signal fort qui dénote un véritable bogue et pas un simple accroc :