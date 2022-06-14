Latensi hampir tidak pernah mengikuti distribusi Gaussian atau Poisson normal. Bahkan jika latensi Anda mengikuti salah satu distribusi ini, karena cara kami mengamati latensi, itu membuat rata-rata, median, dan bahkan standar deviasi tidak berguna.Jika, misalnya, Anda mengukur pemuatan halaman, 99,9999999999% dari beban ini mungkin lebih buruk daripada median Anda. Ini adalah bagian dari alasan mengapa pengambilan sampel latensi secara acak menyebabkan data yang tidak akurat—tetapi akan membahas topik ini nanti.

Pada titik ini, Anda mungkin bertanya pada diri sendiri, jika kita tidak menggunakan deviasi standar apa pun, bagaimana kita bisa menggambarkan latensi secara bermakna? Jawabannya adalah kita harus melihat persentil dan maksimum. Kebanyakan orang berpikir dalam hati, oke, jadi saya melihat hasil P95 dan saya mengerti "kasus umum". Masalah dengan metode ini adalah bahwa P95 akan menyembunyikan semua hal buruk. Seperti yang dikatakan Gil Tene, CTO Azul Systems, “Ini adalah 'sistem pemasaran'. Seseorang sedang ditipu.”

Ambil, misalnya, grafik ini:

Ketika Anda melihat grafik ini, Anda dapat dengan jelas melihat mengapa median dan rata-ratanya tidak memiliki signifikansi yang nyata—mereka tidak menunjukkan area masalah. Ketika Anda melihat persentil ke-95 melonjak ke kiri, Anda mengira telah melihat inti masalahnya. Tentu saja, itu tidak benar. Ketika Anda menyelidiki mengapa program Anda mengalami gangguan kecil, Anda gagal melihat 5% terburuk dari apa yang terjadi. Untuk mendapatkan lonjakan semacam ini, 5% data teratas harus lebih buruk secara signifikan.

Sekarang lihat grafik yang sama yang juga menunjukkan persentil 99,99:

Garis merah itu adalah persentil ke-95, sedangkan garis hijau adalah persentil ke-99,99. Seperti yang dapat Anda lihat dengan jelas, persentil ke-95 hanya menunjukkan 2 dari 22 masalah Anda dan karena itulah Anda harus melihat spektrum penuh data.

Banyak orang mungkin mengira bahwa 5% data terakhir tidak memiliki banyak signifikansi. Tentu, itu bisa saja akibat mesin virtual (VM) yang baru dimulai kembali, gangguan kecil dalam sistem Anda atau yang seperti itu, tetapi dengan mengabaikannya Anda mengatakan bahwa itu tidak terjadi, padahal bisa menjadi salah satu hal terpenting yang harus Anda targetkan.

Gil Tene senang membuat klaim yang berani bahwa "Indikator nomor satu yang tidak boleh Anda singkirkan adalah nilai maksimum. Itu bukan ketidakakuratan, melainkan sinyal. Sisanya adalah ketidakakuratan.” Meskipun maksimum, memang, merupakan satu hal yang bagus dalam sistem pada skala besar, namun sering kali tidak praktis untuk hanya mengejar kasus maksimum. Tidak ada sistem yang sempurna, dan gangguan kecil memang terjadi. Dalam sistem praktis berskala besar, hanya mengejar kasus maksimum sering kali merupakan cara yang baik untuk melelahkan tim pengembangan Anda.

Ketika melihat persentil ke-99,99, Anda melihat apa yang terjadi pada sebagian besar pelanggan Anda, dan lonjakan apa pun yang Anda lihat di sana, Anda tahu bahwa itu adalah masalah yang sebenarnya, sedangkan lonjakan apa pun pada maksimum Anda mungkin hanya merupakan gangguan kecil dalam sistem Anda. Ketika tim DevOps Anda memfokuskan upaya mereka pada gangguan kecil ini, mereka melakukannya dengan biaya peluang yang besar, karena mereka tidak dapat bekerja pada masalah yang lebih besar sebagai gantinya.

Perlu dicatat bahwa jika persentil ke-99,99 dan maksimum Anda sangat dekat satu sama lain, dan keduanya melonjak, maka ini merupakan sinyal yang bagus bahwa ini adalah masalah yang harus ditangani oleh tim Anda. Dengan cara ini, Gil benar bahwa maksimum adalah sinyal yang bagus, tetapi salah bahwa sisa data Anda hanyalah ketidakakuratan. Seperti yang dapat Anda lihat dalam grafik ini, persentil 99,99 dan maksimum kami dari contoh sebelumnya sama persis. Ini adalah sinyal yang bagus bahwa apa yang Anda lihat adalah bug nyata dan bukan hanya gangguan kecil: