レイテンシーは、通常のガウス分布やポアソン分布に従うことはほとんどありません。レイテンシーがこれらの分布のいずれかに従っている場合でも、レイテンシーの観察方法により、平均値、中央値、標準偏差さえも役に立たなくなります。たとえば、ページの読み込みを測定している場合、これらの読み込みの99.9999999999%が中央値よりも悪くなる可能性があります。これは、遅延をランダムにサンプリングすると不正確なデータが発生する理由の1つですが、このテーマについては後ほど詳しく説明します。

この時点で、標準偏差を一切使用しないなら、どうやってレイテンシを意味ある形で説明できるのかと疑問に思っているかもしれません。その答えは、パーセンタイルと最大値に注目しなければならないということです。多くの人は、「なるほど、P95を見れば『一般的なケース』がわかるんだな」と考えます。しかしこの方法の問題点は、P95では悪いケースがすべて隠れてしまうことです。Azul Systems の CTO である Gil Tene 氏は、次のように述べています。「これは「これは『マーケティングシステム』だ。誰かが騙されている。」

たとえば、次のグラフを考えてみましょう。

このグラフを見ると、その中央値と平均値に実際的な重要性がない理由が明確にわかります。なぜなら、これらは問題領域を示していないのです。95パーセンタイルが左側に急上昇しているのを見ると、問題の核心を捉えているように思えます。もちろん、それは真実ではありません。プログラムに不具合が生じた原因を調査する際、実際に発生した最悪の5％の事象を見落としているのです。このような急上昇が発生するには、上位5％のデータが著しく悪化している必要があります。

次に、99.99パーセンタイルを示す同じグラフを見てみましょう。

赤い線は 95 パーセンタイル、緑の線は 99.99 パーセンタイルです。はっきりとわかるように、95 パーセンタイルは 22 の問題のうち 2 つと、データの全範囲を確認する必要がある理由しか示していません。

多くの人は、最後の5％のデータはそれほど重要ではないと考えているかもしれません。確かに、仮想マシン（VM）の再起動やシステムの一時的な不具合など、些細な事象かもしれません。しかし、それを無視することは「そんなことは起こらない」と決めつけることに等しく、実は最も注力すべき重要な事象の一つである可能性を否定しているのです。

Gil Tene 氏は、大胆に主張することを好みます。「決して排除すべきではない第一の指標は最大値です。それはノイズではなく、信号そのものです。それ以外の部分はノイズに過ぎません。」確かに最大値は大規模システムにおいて重要な指標ですが、最大ケースのみを追求することは現実的でない場合が少なくありません。完璧なシステムは存在せず、不具合は発生します。大規模な実用システムにおいて、最大ケースのみを追求することは、開発チームを疲弊させることにつながりかねません。

99.99 パーセンタイルを見ると、大多数の顧客に何が起こっているかがわかります。そこに見られる急上昇は実際の問題であることがわかりますが、最大値の急上昇は、単にシステムの一時的な問題である可能性があります。DevOps チームがこれらの小さな問題に注力すると、より重大な問題に取り組むことができなくなり、大きな機会損失を被ることになります。

99.99 パーセンタイルと最大値が非常に近い場合 (そして両方とも急上昇している場合)、それはチームが取り組むべき問題であるという大きなシグナルであることに留意してください。このように、最大値は優れた信号であるというGilの意見は正しいですが、残りのデータは単なるノイズであるという意見は誤りです。このグラフでわかるように、前の例の 99.99 パーセンタイルと最大値は正確に一致します。これは、見ているものが単なる一時的な問題ではなく、実際のバグであることを示す優れたシグナルです。