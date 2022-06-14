지연 시간은 거의 정상적인 가우스 또는 포아송 분포를 따르지 않습니다. 지연 시간이 이러한 분포 중 하나를 따른다고 해도 지연 시간을 관찰하는 방식 때문에 평균, 중앙값, 심지어 표준 편차까지 무용지물이 됩니다. 예를 들어 페이지 로드를 측정하는 경우 99.9999999999% 로드가 중앙값보다 나쁠 수 있습니다. 무작위로 지연을 샘플링하면 데이터가 부정확해지는 이유도 여기에 일부 포함됩니다. 이 주제에 대해서는 뒤에서 더 자세히 설명하겠습니다.

이쯤 되면 표준 편차를 사용하지 않는다면 지연 시간을 어떻게 의미 있게 설명할 수 있을지 의문이 들 수 있습니다. 답은 백분위수와 최댓값을 살펴봐야 한다는 것입니다. 대부분의 사람들은 이렇게 생각합니다. “좋아, P95를 보면 ‘일반적인 경우’를 이해할 수 있겠구나.” 이 방법의 문제점은 P95가 모든 나쁜 내용을 숨긴다는 것입니다. Azul Systems의 CTO인 Gil Tene는 다음과 같이 말합니다. “이것은 '마케팅 시스템'입니다. 누군가 속고 있습니다."

다음 그래프를 예로 들어 보겠습니다.

이 그래프를 보면 중앙값과 평균이 실제 의미가 없는 이유를 명확하게 알 수 있습니다. 95번째 백분위가 왼쪽으로 급격히 치솟는 것을 보면, 문제의 핵심을 보고 있다고 생각하게 됩니다. 물론, 그건 사실이 아닙니다. 프로그램이 왜 갑자기 딸꾹질(일시적 멈춤)이 있었는지 조사할 때, 여러분은 발생한 일 중 가장 나쁜 5%를 보지 못하고 있는 것입니다. 이런 종류의 스파이크가 나타나려면, 데이터의 상위 5%가 상당히 더 나빠져야 합니다.

이제 99.99번째 백분위수를 보여주는 동일한 그래프를 살펴보세요.

빨간색 선은 95번째 백분위수이고 녹색 선은 99.99번째 백분위수입니다. 보시다시피, 95번째 백분위는 22개의 문제 중 단 2개만 보여줄 뿐이며, 그렇기 때문에 전체 데이터를 모두 살펴봐야 합니다.

많은 사람들은 데이터의 마지막 5%가 그다지 중요하지 않다고 생각할 수 있습니다. 물론, 이것이 단순히 가상 머신(VM) 재시작이거나 시스템의 작은 딸꾹질(일시적 멈춤)일 수도 있습니다. 하지만 이를 무시한다는 것은, 실제로는 가장 먼저 해결해야 할 중요한 문제일 수도 있음에도 불구하고, 그런 일은 일어나지 않는다고 간주하는 것과 같습니다.

Gil Ten은 다음과 같이 말합니다. "절대 제거해서는 안 되는 가장 중요한 지표는 최댓값입니다. 이는 노이즈가 아니라 신호입니다. 나머지는 소음입니다." 최댓값은 실제로 대규모 시스템에서 훌륭한 단일 값이지만 최댓값만 추구하는 것은 종종 실용적이지 않습니다. 완벽한 시스템은 없으며 딸꾹질은 발생하기 마련입니다. 대규모 실용 시스템에서는 최대 사례만 추구하는 것이 개발팀을 소진시키는 좋은 방법인 경우가 많습니다.

99.99번째 백분위를 볼 때는 대부분의 고객에게 어떤 일이 발생하는지를 확인하는 것이며, 그 지점에서 보이는 스파이크는 실제 문제라는 것을 알 수 있는 반면, 최댓값에서 보이는 스파이크는 시스템에서 발생한 작은 일시적 이상일 수 있습니다. DevOps 팀이 이러한 작은 일시적 이상에 노력을 집중하면, 더 큰 문제를 해결하지 못하게 되어 큰 기회비용이 발생합니다.

99.99번째 백분위와 최댓값이 매우 가깝고 둘 다 스파이크가 발생했다면, 이는 팀이 반드시 해결해야 할 문제라는 강력한 신호입니다. 이런 의미에서 최댓값이 좋은 신호라는 점은 Gil이 맞지만, 나머지 데이터가 단순한 잡음이라는 주장은 잘못되었습니다. 이 그래프에서 보듯, 이전 예시의 99.99번째 백분위와 최대값은 정확히 일치합니다. 이는 보고 있는 것이 단순한 일시적 이상이 아니라 실제 버그라는 강력한 신호입니다.