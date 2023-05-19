Ha pasado un año y medio desde que implementamos la función de dimensionamiento de CPU de contenedores consciente de la limitación para IBM Turbonomic, y ha captado bastante atención por una buena razón. Como se ilustra en nuestra primera entrada de blog, establecer un límite de CPU incorrecto está matando silenciosamente el rendimiento de su aplicación y, literalmente, está funcionando según lo diseñado.
Turbonomic visualiza las métricas de estrangulamiento y, lo que es más importante, tiene en cuenta el estrangulamiento a la hora de recomendar el dimensionamiento del límite de CPU. No solo podemos exponer este asesino silencioso del rendimiento, sino que Turbonomic prescribirá el valor límite de la CPU para minimizar su impacto en el rendimiento de su aplicación en contenedores.
En este nuevo post, vamos a hablar de una mejora significativa en la forma en que medimos el nivel de aceleración. Antes de esta mejora, nuestro indicador de limitación se calculaba en función del porcentaje de períodos limitados. Con esta medida, se subestimó la limitación en las aplicaciones con un límite de CPU bajo y se sobreestimó en las que tenían un límite de CPU alto. El resultado fue un dimensionamiento demasiado agresivo de las aplicaciones de límite alto, ya que orientamos nuestra toma de decisiones hacia las aplicaciones de límite bajo para minimizar el estrangulamiento y garantizar su rendimiento.
En esta mejora reciente, medimos la limitación en función del porcentaje de tiempo limitado. En esta publicación, le mostraremos cómo funciona esta nueva medición y por qué corregirá tanto la subestimación como la sobreestimación mencionadas anteriormente:
Si ve este vídeo de demostración, puede ver una ilustración similar de aceleración. Hay una aplicación de contenedor de un solo subproceso con un límite de CPU de 0,4 núcleos (o 400 m). El límite de 400 m en Linux se traduce en una cuota de CPU cgroup de 40 ms por cada 100 ms, que es el periodo de aplicación de cuotas por defecto en Linux que adopta Kubernetes. Esto significa que la aplicación sólo puede utilizar 40 ms de tiempo de CPU en cada periodo de 100 ms antes de que se estrangule durante 60 ms. Esto se repite cuatro veces para una tarea de 200 ms (como la que se muestra a continuación) y, por último, se completa en el quinto periodo sin que se reduzca. En general, la tarea de 200 ms tarda
100 * 4 + 40 = 440 ms en completarse, más del doble del tiempo de CPU real necesario:
Linux proporciona las siguientes métricas relacionadas con la limitación, que cAdvisor monitoriza y envía a Kubernetes:
|Métrica de Linux
|Métrica de cAdvisor
|Valor (en el ejemplo anterior)
|Explicación
|nr_periods
|container_cpu_cfs_periods_total
|5
|Este es el número de períodos ejecutables. En el ejemplo, hay cinco.
|nr_throttled
|container_cpu_cfs_throttled_periods_total
|4
|Está limitado solo durante cuatro de los cinco períodos ejecutables. En el quinto periodo, la solicitud se completa, por lo que deja de estar estrangulada.
|throttled_time
|container_cpu_cfs_throttled_seconds_total
|240 ms
|En los cuatro primeros periodos, funciona durante 40 ms y se ralentiza durante 60 ms. Por lo tanto, el tiempo total de aceleración es de 60 ms * 4 = 240 ms.
Como se mencionó al principio, solíamos medir el nivel de limitación como el porcentaje de períodos ejecutables que están limitados. En el ejemplo anterior, eso sería
4 / 5 = 80 %.
Hay un sesgo significativo con esta medición. Considere una segunda aplicación de contenedor que tiene un límite de CPU de 800 m, como se muestra a continuación. Una tarea con un tiempo de procesamiento de 400 ms ejecutará 80 ms y luego se limitará durante 20 ms en cada uno de los primeros cuatro periodos de aplicación de 100 ms. Luego se completará en el quinto período. Con la forma actual de medir el nivel de limitación, se llegará al mismo porcentaje: 80 %. Pero está claro que esta segunda aplicación sufre mucho menos que la primera aplicación. Se estrangula solo durante
20 ms * 4 = 80 ms en total, solo una fracción de los 400 ms de tiempo de ejecución de la CPU. El nivel de limitación del 80 % medido actualmente es demasiado alto para reflejar la verdadera situación de esta aplicación.
Necesitábamos una mejor forma de medir la limitación, y la creamos:
Con la nueva forma, medimos el nivel de limitación como el porcentaje de tiempo limitado frente al tiempo total entre el uso de la CPU y la limitación. Estas son las nuevas medidas de las dos aplicaciones anteriores:
|Aplicación
|Tiempo limitado
|Tiempo total de ejecución
|Porcentaje de tiempo limitado
|Primero
|240 ms
|200 ms + 240 ms = 440 ms
|240 ms / 440 ms = 55 %
|Segundo
|80 ms
|400 ms + 80 ms = 480 ms
|80 ms / 480 ms = 17 %
Estos dos números (55 % y 17 %) tienen más sentido que el 80 % original. No solo son dos números diferentes que diferencian los dos escenarios de aplicación, sino que sus valores respectivos reflejan de forma más apropiada el verdadero impacto del estrangulamiento, como quizás podría visualizar en los dos gráficos. Intuitivamente, la nueva medida puede interpretarse como cuánto se puede mejorar/reducir el tiempo total de la tarea eliminando la limitación. Para la primera aplicación, podemos reducir el tiempo total de la tarea en 240 ms (55 % del total). Para la segunda aplicación, es solo un 17 % si nos deshacemos de la limitación, no tan significativa como la primera aplicación.
A continuación, verá algunos datos para comparar las mediciones de limitación calculadas usando los periodos de limitación con la versión basada en tiempo.
Para un contenedor con límites de CPU bajos, la medición basada en el tiempo muestra porcentajes de estrangulamiento mucho más altos en comparación con la versión anterior que sólo utiliza períodos de estrangulamiento, como era de esperar.
A medida que aumentan los límites de la CPU, las mediciones basadas en el tiempo vuelven a reflejar con precisión los porcentajes de limitación más bajos. Por el contrario, la versión anterior muestra un porcentaje de limitación mucho mayor, lo que puede provocar un cambio de tamaño agresivo a pesar de que el límite de CPU es suficientemente alto.
|Número de núcleos
|Límite de CPU
|Períodos limitados
|Total de períodos
|Promedio antiguo
|Tiempo limitado (ms)
|Uso total (ms)
|Nuevo promedio
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/kube-rbac-proxy-main
|10
|20
|21
|75
|28
|2884,59
|76,23
|97,42537968
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/low-cpu-high-throttling-spec
|10
|20
|64
|148
|43,24324324
|9690,95
|170,8
|98,26808196
|monitoring/kube-state-metrics-6c6f446b4-hrq7v/kube-rbac-proxy-main
|12
|20
|339
|567
|59,78835979
|43 943,63
|827,91
|98,15081538
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-njptn/kube-state-metrics
|12
|100
|360
|8154
|4,415011038
|17 296,02
|21 838,65
|44,19615579
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-sg2f9/beekman-2
|10
|200
|8202
|8563
|95,78418778
|488 921,77
|168 961,80
|74,31737012
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-5mktb/beekman-2
|12
|200
|8576
|8586
|99,88353133
|554 103,75
|171 659,58
|76,34771956
|quota-test/cpu-quota-1-7f84f77bc5-ztdbm/cpu-quota-1-spec
|12
|500
|3531
|8566
|41,2211067
|59 267,71
|357 274,10
|14,22851472
|turbo/kubeturbo-arsen-170-203-599fbdcff6-vbl55/kubeturbo-arsen-170-203-spec
|10
|1000
|101
|1739
|5,807935595
|6300,33
|32 319,39
|16,31375702
|default/nri-bundle-newrelic-logging-v8fqb/newrelic-logging
|12
|1300
|1
|8250
|0,012121212
|11,86
|177 353,93
|0,00668406
Esta nueva medida de estrangulamiento está disponible desde la versión 8.7.5 de IBM Turbonomic. Además, en la versión 8.8.2, también permitimos a los usuarios personalizar la tolerancia máxima a la estrangulación para cada aplicación individual o grupo de aplicaciones, ya que reconocemos plenamente que diferentes aplicaciones tienen diferentes necesidades en cuanto a tolerar el estrangulamiento. Por ejemplo, las aplicaciones sensibles al tiempo de respuesta, como las aplicaciones de servicios web, pueden tener una tolerancia menor, mientras que las aplicaciones por lotes, como los grandes trabajos de machine learning, pueden tener una tolerancia mucho mayor. Ahora, los usuarios pueden configurar el nivel deseado como quieran.
