延迟几乎从不遵循正态（高斯）分布或泊松分布。即使您的延迟确实符合其中一种分布，由于我们观测延迟的方式，也会导致平均值、中位数甚至标准差变得无用。例如，如果您在测量页面加载时间，99.9999999999% 的加载可能比您的中位数更慢。这也是随机抽样延迟会导致数据不准确的原因之一，关于这个话题，我们稍后会详细讨论。

此时，您可能会问自己，如果我们不使用标准差，如何才能有意义地描述延迟呢？答案是我们必须关注百分位数和最大值。大多数人会想，好吧，我查看 P95，就能理解“常见情况”。问题在于，这种方法会掩盖所有不良情况。正如 Azul Systems 首席技术官 Gil Tene 所说：“这是一种‘营销系统’。有人被骗了。”

以这张图为例：

当您看到这张图时，就能清楚地理解为什么其中位数和平均值没有实际意义，它们无法显示问题区域。当看到第 95 百分位数向左急剧上升时，您可能认为自己看到了问题的核心。然而，事实并非如此。当您调查程序出现波动的原因时，实际上忽略了表现最差的 5%。要出现这种尖峰，数据中表现最差的 5% 必须明显更糟。

现在看看同一张图，同时显示了第 99.99 百分位数：

红色线表示第 95 百分位数，而绿色线表示第 99.99 百分位数。您可以清楚地看到，第 95 百分位数仅显示了 22 个问题中的 2 个，这也说明了为什么必须查看数据的完整范围。

许多人可能认为最后 5% 的数据并不重要。当然，这可能只是虚拟机 (VM) 重启、系统出现短暂波动或类似情况，但如果忽略它，您就等于在说这些情况不会发生，而它们可能正是您最需要关注的关键问题之一。

Gil Tene 喜欢发表大胆的言论：“永远不应该舍弃的首要指标是最大值。那不是噪声，那是信号。其余的都是噪声。”确实，在大规模系统中，最大值是一个很好的单一指标，但单纯追求最大值往往不切实际。没有系统是完美的，波动在所难免。在大规模的实际系统中，仅追求最大值往往会让开发团队不堪重负。

当查看第 99.99 百分位数时，您看到的是大多数客户的实际体验，任何在那里出现的尖峰都是实际问题；而最大值中的尖峰可能只是系统中的一次短暂波动。当您的 DevOps 团队将精力集中在这些小波动上时，他们付出了巨大的机会成本，因为无法同时处理更重要的问题。

值得注意的是，如果您的第 99.99 百分位数和最大值非常接近，并且两者都有尖峰，那么这就是一个很好的信号，表明这是您的团队应当处理的问题。从这个角度来看，Gil 的观点部分正确：最大值确实是一个很好的信号，但他认为其余数据都是噪声的说法则不对。正如这张图所示，在前面的例子中，我们的第 99.99 百分位数和最大值完全一致。这是一个很好的信号，表明您看到的是真正的问题所在，而不仅仅是一次短暂波动：