Já se passou um ano e meio desde que lançamos a funcionalidade de dimensionamento de CPU de contêiner com reconhecimento de limitação para o IBM Turbonomic, e isso tem chamado bastante atenção, por um bom motivo. Conforme ilustrado na nossa primeira postagem do blog, definir o limite de CPU de forma incorreta está silenciosamente prejudicando o desempenho da sua aplicação e, literalmente, funcionando conforme o esperado.
O Turbonomic visualiza as métricas de aceleração e, mais importante, leva a limitação em consideração ao recomendar o dimensionamento do limite de CPU. Além de revelar esse inimigo silencioso de desempenho, o Turbonomic recomendará o valor limite de CPU para minimizar seu impacto no desempenho da aplicação em contêiner.
Nesta nova postagem, falaremos sobre uma melhoria significativa na forma como medimos o nível de limitação. Antes dessa melhoria, nosso indicador de limitação era calculado com base na porcentagem de períodos limitados. Com essa medição, a limitação foi subestimada para aplicações com um limite baixo de CPU e superestimada para aquelas com um limite alto de CPU. Isso resultou em um dimensionamento excessivamente agressivo de aplicações com limites altos, já que ajustamos nossa tomada de decisão para aplicações com limites baixos, a fim de minimizar a limitação e garantir seu desempenho.
Nesta melhoria recente, medimos a limitação com base na porcentagem de tempo limitado. Nesta postagem, mostraremos como essa nova medida funciona e por que ela corrigirá tanto a subestimação quanto a superestimação mencionadas acima:
Se você assistir a este vídeo de demonstração, poderá ver uma ilustração semelhante de limitação. Trata-se de um aplicativo de contêiner single-threaded com um limite de CPU de 0,4 núcleo (ou 400m). O limite de 400m no Linux é traduzido para uma cota de CPU cgroup de 40 ms por 100 ms, que é o período de aplicação de cota padrão no Linux que o Kubernetes adota. Isso significa que o aplicativo só pode usar 40 ms de tempo de CPU a cada período de 100 ms antes de ser limitado a 60 ms. Isso se repete quatro vezes para uma tarefa de 200 ms (como a mostrada abaixo) e, finalmente, é concluído no quinto período sem ser limitado. No geral, a tarefa de 200 ms leva
100 * 4 + 40 = 440 ms para ser concluída, mais que o dobro do tempo de CPU realmente necessário:
O Linux fornece as seguintes métricas relacionadas à limitação, que o cAdvisor monitora e alimenta para o Kubernetes:
|Métrica do Linux
|Métrica do cAdvisor
|Valor (no exemplo acima)
|Explicação
|nr_periods
|container_cpu_cfs_periods_total
|5
|Este é o número de períodos executáveis. No exemplo, há cinco.
|nr_throttled
|container_cpu_cfs_throttled_periods_total
|4
|É limitado por apenas quatro dos cinco períodos executáveis. No quinto período, a solicitação é concluída e, portanto, não está mais limitada.
|throttled_time
|container_cpu_cfs_throttled_seconds_total
|240 ms
|Nos primeiros quatro períodos, é executado por 40 ms e é limitado por 60 ms. Portanto, o tempo total limitado é de 60 ms * 4 = 240 ms.
Role para ver a tabela completa
Conforme mencionado no início, costumávamos medir o nível de limitação como a porcentagem de períodos executáveis que são limitados. No exemplo acima, seria
4/5 = 80%.
Há um viés significativo nessa medição. Considere uma segunda aplicação de contêiner que tem um limite de CPU de 800m, conforme mostrado abaixo. Uma tarefa com tempo de processamento de 400 ms será executada 80 ms e depois será limitada por 20 ms em cada um dos primeiros quatro períodos de aplicação de 100 ms. Então, será concluída no quinto período. Com o método atual de medição do nível de limitação, chegaremos à mesma porcentagem: 80%. Mas, claramente, este segundo aplicativo sofre muito menos do que o primeiro. Ele é limitado por apenas
20 ms * 4 = 80 ms no total, apenas uma fração dos 400 ms de tempo de execução da CPU. O nível de limitação de 80% atualmente medido é muito alto para refletir a verdadeira situação deste aplicativo.
Precisávamos de uma maneira melhor de medir a limitação, e a criamos:
Com a nova forma, medimos o nível de limitação como a porcentagem de tempo limitado em relação ao tempo total entre o uso da CPU e a limitação. Aqui estão as novas medições dos dois aplicativos acima:
|Aplicação
|Tempo limitado
|Tempo total de execução
|Porcentagem de tempo limitado
|Primeiro
|240 ms
|200 ms + 240 ms = 440 ms
|240 ms / 440 ms = 55%
|Segundo
|80 ms
|400 ms + 80ms = 480 ms
|80 ms / 480 ms = 17%
Esses dois números (55% e 17%) fazem mais sentido do que os 80% originais. Não só são dois números diferentes que diferenciam os dois cenários de aplicação, mas seus respectivos valores também refletem de forma mais adequada o verdadeiro impacto da limitação, como talvez você possa visualizar nos dois gráficos. Intuitivamente, a nova medição pode ser interpretada como o quanto o tempo total da tarefa pode ser melhorado/reduzido ao se livrar da limitação. Para o primeiro aplicativo, podemos reduzir o tempo total da tarefa em 240 ms (55% do total). Para o segundo aplicativo, é apenas 17% se eliminarmos a limitação, não tão significativo quanto o primeiro aplicativo.
Abaixo, você verá alguns dados para comparar as medições de limitação computadas usando os períodos de limitação em comparação com a versão baseada em tempo.
Conforme esperado, para um contêiner com limites baixos de CPU, a medição baseada em tempo mostra porcentagens de limitação muito maiores em comparação com a versão mais antiga que usa apenas períodos de limitação.
À medida que os limites de CPU aumentam, as medições baseadas em tempo novamente refletem com precisão porcentagens mais baixas de limitação. Por outro lado, a versão mais antiga mostra uma porcentagem de limitação muito maior, o que pode resultar em um redimensionamento agressivo, apesar do limite de CPU ser alto o suficiente.
|Número de núcleos
|Limite de CPU
|Períodos limitados
|Total de períodos
|Média anterior
|Tempo limitado (ms)
|Uso total (ms)
|Nova média
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/kube-rbac-proxy-main
|10
|20
|21
|75
|28
|2.884,59
|76,23
|97,42537968
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/low-cpu-high-throttling-spec
|10
|20
|64
|148
|43,24324324
|9.690,95
|170,8
|98,26808196
|monitoring/kube-state-metrics-6c6f446b4-hrq7v/kube-rbac-proxy-main
|12
|20
|339
|567
|59,78835979
|43,943.63
|827,91
|98,15081538
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-njptn/kube-state-metrics
|12
|100
|360
|8154
|4,415011038
|17.296,02
|21.838,65
|44,19615579
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-sg2f9/beekman-2
|10
|200
|8202
|8563
|95,78418778
|488.921,77
|168.961,80
|74,31737012
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-5mktb/beekman-2
|12
|200
|8576
|8586
|99,88353133
|554.103,75
|171.659,58
|76,34771956
|quota-test/cpu-quota-1-7f84f77bc5-ztdbm/cpu-quota-1-spec
|12
|500
|3531
|8566
|41,2211067
|59.267,71
|357.274,10
|14,22851472
|turbo/kubeturbo-arsen-170-203-599fbdcff6-vbl55/kubeturbo-arsen-170-203-spec
|10
|1000
|101
|1739
|5,807935595
|6.300,33
|32.319,39
|16,31375702
|default/nri-bundle-newrelic-logging-v8fqb/newrelic-logging
|12
|1300
|1
|8250
|0,012121212
|11,86
|177.353,93
|0,00668406
Essa nova medição de limitação está disponível desde a versão 8.7.5 do IBM Turbonomic. Além disso, na versão 8.8.2, também permitimos que os usuários personalizem a tolerância máxima de limitação para cada aplicação individual ou grupo de aplicações, pois reconhecemos plenamente que diferentes aplicações têm necessidades diferentes em termos de tolerância à limitação. Por exemplo, aplicações sensíveis ao tempo de resposta, como aplicações de serviços web, podem ter menor tolerância, enquanto aplicações em lote, como grandes trabalhos de aprendizado de máquina, podem ter tolerância muito maior. Agora, os usuários podem configurar o nível desejado como quiserem.
