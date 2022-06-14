La latenza non segue quasi mai una normale distribuzione gaussiana o di Poisson. Anche se la tua latenza segue una di queste distribuzioni, per come la misuriamo, le medie, le mediane e persino le deviazioni standard non servono a niente. Se, ad esempio, stai misurando il caricamento delle pagine, il 99,899% di questi caricamenti potrebbe essere peggiore della tua mediana. È uno dei motivi per cui il campionamento casuale della latenza causa dati imprecisi, ma ne parleremo più avanti.

A questo punto, probabilmente si starà chiedendo se non stiamo usando alcuna deviazione standard, come possiamo descrivere in modo significativo le latenze? La risposta è che dobbiamo considerare i percentili e i massimi. La maggior parte delle persone Think tra sé e sé: "Ok, quindi guardo P95 e capisco il "caso comune". Il problema di questo metodo è che il P95 nasconderà tutte le cose negative. Come afferma Gil Tene, CTO di Azul Systems: «È un 'sistema di marketing'. Qualcuno si sta facendo ingannare."

Prendiamo, ad esempio, questo grafico:

Guardando questo grafico, puoi capire chiaramente perché la mediana e la media non hanno un significato reale: non mostrano l'area problematica. Quando vedi il 95° percentile alzarsi verso sinistra, pensi di vedere il cuore del problema. Certo, non è vero, però. Quando indaghi sul motivo per cui il tuo programma ha avuto un singhiozzo, non riesci a vedere il peggior 5% di ciò che è successo. Per ottenere questo tipo di picco è necessario che il 5% dei dati più in alto sia significativamente peggiore.

Ora osserva lo stesso grafico che mostra anche il 99,99° percentile:

Quella linea rossa è il 95° percentile, mentre la linea verde è il 99,99° percentile. Come puoi vedere chiaramente, il 95° percentile mostra solo 2 su 22 dei tuoi problemi e il motivo per cui devi esaminare l'intero spettro dei tuoi dati.

Molte persone potrebbero pensare che l'ultimo 5% dei dati non abbia così tanta importanza. Certo, potrebbe trattarsi semplicemente del riavvio di una macchina virtuale (VM), di un problema nel sistema o qualcosa del genere, ma ignorandolo, stai dicendo che non succede quando potrebbe essere uno degli aspetti più importanti da prendere di mira.

Gil Tene ama affermare che “L'indicatore numero uno di cui non ci si dovrebbe mai sbarazzare è il valore massimo. Questo non è rumore, è il segnale. Il resto è rumore." Sebbene il massimo sia, in effetti, un ottimo singolo in un sistema su larga scala, spesso non è pratico perseguire solo il caso massimo. Nessun sistema è perfetto e si verificano intoppi. In un sistema pratico su larga scala, perseguire esclusivamente il caso massimo è spesso un buon modo per esaurire il suo team di sviluppo.

Quando si osserva il 99,99° percentile, si vede cosa succede alla maggior parte dei clienti e tutti i picchi che si vedono lì si sa che sono problemi reali, mentre eventuali picchi nel massimo potrebbero essere solo un intoppo nel sistema. Quando i tuoi team DevOps concentrano i loro sforzi su questi piccoli intoppi, lo fanno a un costo elevato, poiché non possono occuparsi di problemi più importanti.

È da notare che se il tuo 99,99° percentile e il tuo massimo sono molto vicini l'uno all'altro, e sono entrambi a picchi, allora è un ottimo segnale che si tratta di un problema su cui il tuo team dovrebbe lavorare. In questo modo, Gil ha ragione sul fatto che il massimo è un ottimo segnale, ma sbaglia sul fatto che il resto dei tuoi dati è solo rumore. Come può vedere in questo grafico, il nostro 99,99° percentile e il massimo del nostro esempio precedente corrispondono esattamente. È un ottimo segnale che quello che stai guardando è un vero bug e non solo un singhiozzo: