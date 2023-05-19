Es ist nun anderthalb Jahre her, seit wir die Funktion zur throttling-bewussten Container-CPU-Dimensionierung für IBM Turbonomic eingeführt haben, und sie hat aus gutem Grund viel Aufmerksamkeit auf sich gezogen. Wie in unserem ersten Blogbeitrag erläutert, beeinträchtigt die Festlegung eines unangemessenen CPU-Limits die Leistung Ihrer Anwendung und funktioniert genau wie vorgesehen.
Turbonomic visualisiert Drosselungsmetriken und berücksichtigt vor allem die Drosselung bei der Empfehlung der CPU-Limitgröße. Wir können nicht nur diesen versteckten Leistungskiller aufdecken, Turbonomic wird auch den CPU-Grenzwert festlegen, um dessen Auswirkungen auf die Leistung Ihrer containerisierten Anwendung zu minimieren.
In diesem neuen Beitrag geht es um eine bedeutende Verbesserung bei der Messung des Drosselungsgrades. Vor dieser Verbesserung wurde unser Drosselungsindikator auf der Grundlage des Prozentsatzes der gedrosselten Zeiträume berechnet. Bei einer solchen Messung wurde die Drosselung für Anwendungen mit einer niedrigen CPU-Grenze unterschätzt und für Anwendungen mit einer hohen CPU-Grenze überschätzt. Das führte dazu, dass wir Anwendungen mit hohen Limits zu aggressiv dimensionierten, während wir unsere Entscheidungsfindung auf Anwendungen mit niedrigen Limits ausrichteten, um die Drosselung zu minimieren und ihre Leistung zu garantieren.
Bei dieser jüngsten Verbesserung messen wir die Drosselung anhand des Prozentsatzes der Zeit, in der eine Drosselung stattgefunden hat. In diesem Beitrag erläutern wir Ihnen, wie diese neue Messung funktioniert und warum sie sowohl die oben erwähnte Unterschätzung als auch die Überschätzung korrigiert:
Wenn Sie sich dieses Demo-Video ansehen, können Sie eine ähnliche Darstellung der Drosselung sehen. Es handelt sich um eine Single-Thread-Container-App mit einem CPU-Limit von 0,4 Kernen (oder 400m). Das Limit Die 400-ms-Begrenzung in Linux wird in eine cgroup-CPU-Quote von 40 ms pro 100 ms umgewandelt, was der Standard-Quoten-Durchsetzungszeitraum in Linux ist, den Kubernetes übernimmt. Das bedeutet, dass die Anwendung nur 40 ms CPU-Zeit pro 100-ms-Zeitraum nutzen darf, bevor sie für 60 ms gedrosselt wird. Dies wiederholt sich viermal für eine 200-ms-Aufgabe (wie die unten gezeigte) und wird schließlich im fünften Zeitraum ohne Drosselung abgeschlossen. Insgesamt benötigt die 200-ms-Aufgabe
100 * 4 + 40 = 440ms zur Ausführung, mehr als das Doppelte der tatsächlich benötigten CPU-Zeit:
Linux bietet folgende Kennzahlen zum Thema Drosselung, die cAdvisor überwacht und an Kubernetes weitergibt:
|Linux-Metrik
|cAdvisor-Metrik
|Wert (im obigen Beispiel)
|Erklärung
|nr_periods
|container_cpu_cfs_periods_total
|5
|Dies ist die Anzahl der ausführbaren Perioden. In diesem Beispiel sind es fünf.
|nr_throttled
|container_cpu_cfs_throttled_periods_total
|4
|Die Drosselung erfolgt nur in vier von fünf ausführbaren Zeiträumen. Im fünften Zeitraum ist die Anfrage abgeschlossen, daher wird sie nicht mehr gedrosselt.
|throttled_time
|container_cpu_cfs_throttled_seconds_total
|240 ms
|In den ersten vier Perioden läuft es für 40 ms und wird für 60 ms gedrosselt. Daher beträgt die gesamte gedrosselte Zeit 60 ms * 4 = 240 ms.
Wie eingangs erwähnt, messen wir den Drosselungsgrad als den Prozentsatz der lauffähigen Perioden, die gedrosselt werden. Im obigen Beispiel wären das
4 / 5 = 80 %.
Diese Messung weist eine signifikante Verzerrung auf. Stellen Sie sich eine zweite Container-Anwendung vor, die ein CPU-Limit von 800 m hat, wie unten gezeigt. Eine Aufgabe mit einer Verarbeitungszeit von 400 ms wird 80 ms lang ausgeführt und anschließend in jeder der ersten vier Durchsetzungsperioden von 100 ms für 20 ms gedrosselt. Sie wird dann in der fünften Periode abgeschlossen sein. Bei der derzeitigen Methode zur Messung des Drosselungsgrades wird man auf denselben Prozentsatz kommen: 80 %. Aber ganz klar leidet diese zweite App weit weniger als die erste App. Sie wird nur für
20ms * 4 = 80ms insgesamt gedrosselt – nur ein Bruchteil der 400ms CPU-Laufzeit. Der aktuell gemessene Drosselungsgrad von 80 % ist viel zu hoch, um die tatsächliche Situation dieser App widerzuspiegeln.
Wir brauchten eine bessere Methode zur Messung der Drosselung, und wir haben sie entwickelt:
Mit der neuen Methode messen wir den Grad der Drosselung als Prozentsatz der Zeit, in der eine Drosselung stattfand, im Verhältnis zur Gesamtzeit zwischen der Nutzung der CPU und der Drosselung. Nachfolgend sind die neuen Messungen der beiden oben genannten Anwendungen aufgeführt:
|Anwendung
|Gedrosselte Zeit
|Gesamtlaufzeit
|Prozentsatz der gedrosselten Zeit
|Zuerst
|240 ms
|200 ms + 240 ms = 440 ms
|240 ms / 440 ms = 55 %
|Zweiter
|80 ms
|400 ms + 80 ms = 480 ms
|80 ms / 480 ms = 17 %
Diese beiden Zahlen – 55 % und 17 % – sind sinnvoller als die ursprünglichen 80 %. Es handelt sich nicht nur um zwei unterschiedliche Zahlen, die die beiden Anwendungsszenarien unterscheiden, sondern ihre jeweiligen Werte spiegeln auch die tatsächlichen Auswirkungen der Drosselung besser wider, wie Sie vielleicht anhand der beiden Grafiken erkennen können. Intuitiv kann die neue Messung so interpretiert werden, um wie viel die Gesamtzeit der Aufgabe verbessert/reduziert werden kann, wenn die Drosselung beseitigt wird. Bei der ersten App können wir die gesamte Aufgabenzeit um 240 ms (55 % der Gesamtzeit) reduzieren. Bei der zweiten App sind es nur 17 %, wenn wir das Throttling weglassen – nicht so ausgeprägt wie bei der ersten App.
Nachfolgend finden Sie einige Daten zum Vergleich der Drosselungsmessungen, die anhand der Drosselungszeiträume berechnet wurden, mit denen der zeitbasierten Version.
Bei einem Container mit niedrigen CPU-Limits zeigt die zeitbasierte Messung erwartungsgemäß deutlich höhere Drosselungsprozentsätze im Vergleich zur älteren Version, die nur Drosselungszeiträume verwendet.
Mit steigenden CPU-Grenzen spiegeln die zeitbasierten Messungen wieder genauer niedrigere Drosselungsprozentsätze wider. Im Gegensatz dazu weist die ältere Version einen deutlich höheren Drosselungsprozentsatz auf, was zu einer aggressiven Größenanpassung führen kann, obwohl die CPU-Begrenzung ausreichend hoch ist.
|Anzahl der Kerne
|CPU-Limit
|Gedrosselte Perioden
|Gesamtzahl der Perioden
|Alter Durchschnitt
|Gedrosselte Zeit (ms)
|Gesamtnutzung (ms)
|Neuer Durchschnitt
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/kube-rbac-proxy-main
|10
|20
|21
|75
|28
|2.884,59
|76,23
|97,42537968
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/low-cpu-high-throttling-spec
|10
|20
|64
|148
|43,24324324
|9.690,95
|170,8
|98,26808196
|monitoring/kube-state-metrics-6c6f446b4-hrq7v/kube-rbac-proxy-main
|12
|20
|339
|567
|59,78835979
|43,943.63
|827,91
|98,15081538
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-njptn/kube-state-metrics
|12
|100
|360
|8154
|4,415011038
|17.296,02
|21.838,65
|44,19615579
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-sg2f9/beekman-2
|10
|200
|8202
|8563
|95,78418778
|488.921,77
|168.961,80
|74,31737012
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-5mktb/beekman-2
|12
|200
|8576
|8586
|99,88353133
|554.103,75
|171.659,58
|76,34771956
|quota-test/cpu-quota-1-7f84f77bc5-ztdbm/cpu-quota-1-spec
|12
|500
|3531
|8566
|41,2211067
|59.267,71
|357.274,10
|14,22851472
|turbo/kubeturbo-arsen-170-203-599fbdcff6-vbl55/kubeturbo-arsen-170-203-spec
|10
|1.000
|101
|1739
|5,807935595
|6.300,33
|32.319,39
|16,31375702
|default/nri-bundle-newrelic-logging-v8fqb/newrelic-logging
|12
|1300
|1
|8250
|0,012121212
|11,86
|177.353,93
|0,00668406
Diese neue Drosselungsmessung ist seit IBM Turbonomic Version 8.7.5 verfügbar. Darüber hinaus können wir in Version 8.8.2 auch die maximale Drosselungstoleranz für jede einzelne Anwendung oder Gruppe von Anwendungen anpassen, da wir erkennen, dass verschiedene Anwendungen unterschiedliche Anforderungen an die Drosselung tolerieren. Zum Beispiel können reaktionszeitabhängige Anwendungen wie Web-Services-Anwendungen eine geringere Toleranz haben, während Batch-Anwendungen wie große maschinelles Lernen-Jobs eine deutlich höhere Toleranz haben. Jetzt können Nutzer das gewünschte Level nach Belieben konfigurieren.
