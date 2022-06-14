Latenz folgt fast nie einer normalen Gauß- oder Poisson-Verteilung. Selbst wenn Ihre Latenz einer dieser Verteilungen folgt, sind Durchschnittswerte, Mediane und sogar Standardabweichungen aufgrund der Art und Weise, wie Latenz beobachtet wird, nutzlos. Wenn Sie beispielsweise die Seitenaufbauten messen, können99,999999999999 % dieser Ladevorgänge schlechter sein als Ihr Durchschnitt. Das ist mit ein Grund dafür, dass zufällige Stichproben bei Latenz zu ungenauen Daten führen – dazu später mehr.

An diesem Punkt fragen Sie sich wahrscheinlich, wie wir Latenzen sinnvoll beschreiben können, wenn wir keine Standardabweichung verwenden? Die Antwort ist, dass wir uns Perzentile und Maximalwerte ansehen müssen. Die meisten Leute denken sich: okay, wenn ich mir P95 anschaue, verstehe ich den „häufigsten Fall“. Das Problem bei dieser Methode ist, dass P95 all die schlechten Dinge ausblendet. Gil Tene, CTO von Azul Systems, sagt: „Es ist ein ,Marketing-System'. Irgendjemand wird getäuscht.“

Nehmen wir zum Beispiel diese Grafik:

Wenn Sie sich dieses Diagramm ansehen, können Sie deutlich erkennen, warum der Median und der Durchschnitt keine wirkliche Bedeutung haben, da sie nicht den Problembereich zeigen. Wenn Sie sehen, wie das 95. Perzentil links nach oben schnellt, denken Sie, den Kern des Problems zu erkennen. Das stimmt aber natürlich nicht. Wenn Sie untersuchen, warum Ihr Programm ein Problem hatte, übersehen Sie die schlimmsten 5 % des Geschehens. Um einen solchen Anstieg zu erzielen, müssen die obersten 5 % der Daten deutlich schlechter sein.

Sehen Sie sich nun dasselbe Diagramm an, das auch das 99,99. Perzentil zeigt:

Diese rote Linie ist das 95. Perzentil, während die grüne Linie das 99,99. Perzentil darstellt. Wie Sie deutlich sehen können, zeigt das 95. Perzentil nur 2 von 22 Ihrer Probleme und warum Sie das gesamte Spektrum Ihrer Daten betrachten müssen.

Viele mögen denken, dass die letzten 5 % der Daten keine so große Bedeutung haben. Sicher, es könnte einfach ein Neustart einer virtuellen Maschine (VM), eine Störung n Ihrem System oder ähnliches sein,aber indem Sie es ignorieren, sagen Sie, dass es einfach nicht passiert, obwohl es eines der wichtigsten Dinge sein könnte, auf die Sie sich konzentrieren sollten.

Gil Tene stellt gerne die kühne Behauptung auf: „Der wichtigste Indikator, den Sie niemals loswerden sollten, ist der Maximalwert. Das ist kein Rauschen, das ist das Signal. Der Rest ist Datenrauschen.“ Obwohl das Maximum in der Tat ein großartiger Einzelfall in einem System mit großem Umfang ist, ist es oft nicht praktisch, nur den Maximalfall zu verfolgen. Kein System ist perfekt, und es kommt durchaus zu Problemen. In einem groß angelegten praktischen System ist es oft eine gute Möglichkeit, das Entwicklungsteam ausschließlich durch die Verfolgung des Maximalfalls zu überlasten.

Wenn Sie sich das 99,99. Perzentil ansehen, sehen Sie, was mit der großen Mehrheit Ihrer Kunden passiert, und alle dort auftretenden Spitzenwerte deuten auf tatsächliche Probleme hin, während Spitzenwerte im Maximalbereich möglicherweise nur eine vorübergehende Störung in Ihrem System darstellen. Wenn sich Ihre DevOps-Teams auf diese kleinen Probleme konzentrieren, tun sie dies mit hohen Opportunitätskosten, da sie nicht an größeren Problemen arbeiten können.

Es ist wichtig zu beachten: Wenn Ihr 99,99. Perzentil und Ihr Maximum sehr nahe beieinander liegen – und beide sprunghaft ansteigen –, ist dies ein großartiges Signal dafür, dass es sich um ein Problem handelt, an dem Ihr Team arbeiten sollte. Insofern hat Gil zwar Recht, dass das Maximum ein starkes Signal ist, aber er irrt sich, wenn er sagt, dass der Rest der Daten nur Rauschen ist. Wie Sie in dieser Grafik sehen können, stimmen unser 99,99. Perzentil und das Maximum aus unserem vorherigen Beispiel genau überein. Das ist ein deutliches Zeichen dafür, dass es sich bei dem, was Sie sehen, um einen echten Fehler und nicht nur um eine vorübergehende Störung handelt: