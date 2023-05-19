لقد مضى عام ونصف منذ أن أطلقنا ميزة تحديد حجم وحدة المعالجة المركزية للحاويات مع مراعاة التقييد في IBM Turbonomic، وقد حظيت بالكثير من الاهتمام، ولسبب وجيه. وكما هو موضح في منشور المدونة الأول، فإن تعيين الحد الخاطئ لوحدة المعالجة المركزية يؤدي بصمت إلى تدهور أداء تطبيقك، وهو في الواقع يعمل وفقًا للتصميم المقصود.
يصور برنامج Turbonomic مقاييس التقييد والأهم من ذلك أنه يأخذ التقييد بعين الاعتبار عند التوصية بتحديد حجم حد المعالج. ليس فقط أننا نستطيع كشف هذا القاتل الصامت للأداء، بل ستقوم شركة Turbonomic أيضًا بتحديد قيمة حد وحدة المعالجة المركزية لتقليل تأثيره على أداء تطبيقك في الحاويات.
في هذا المنشور الجديد، سنتناول تحسينًا مهمًا في الطريقة التي نقيس بها مستوى التقييد. وقبل هذا التحسين، كان مؤشر التقييد لدينا يُحسب استنادًا إلى نسبة الفترات التي يحدث فيها التقييد. وبهذا الأسلوب في القياس، كان التقييد يُقلل من شأنه في التطبيقات ذات حدود وحدة المعالجة المركزية المنخفضة، ويُبالَغ في تقديره في التطبيقات ذات الحدود المرتفعة ولقد أدى ذلك إلى زيادة تحجيم التطبيقات ذات الحدود المرتفعة بشكل مفرط، نتيجة توجيه آلية اتخاذ القرار لدينا نحو التطبيقات ذات الحدود المنخفضة بهدف تقليل التقييد وضمان أدائها.
وفي هذا التحسين الأخير، نقيس التقييد استنادًا إلى النسبة المئوية للوقت الذي يحدث فيه التقييد. وفي هذا المنشور، سنوضح كيف يعمل هذا القياس الجديد ولماذا سيصحّح كلاً من التقليل والمبالغة في التقدير المذكورين أعلاه:
إذا شاهدت مقطع الفيديو التوضيحي هذا، يمكنك رؤية رسم توضيحي مشابه للتقييد. يوجد تطبيق حاويات أحادي الخيط بحد لوحدة المعالجة المركزية يبلغ 0.4 نواة (أو 400 ميلي نواة). يتم ترجمة حد 400 ميلي نواة في نظام Linux إلى حصة وحدة المعالجة المركزية cgroup مقدارها 40 مللي ثانية لكل 100 مللي ثانية، وهي فترة تطبيق الحصة الافتراضية في Linux التي يعتمدها Kubernetes. وهذا يعني أن التطبيق لا يمكنه استخدام سوى 40 مللي ثانية من وقت وحدة المعالجة المركزية في كل فترة 100 مللي ثانية قبل أن يتم تقييدها لمدة 60 مللي ثانية. يتكرر هذا أربع مرات لمهمة 200 مللي ثانية (مثل المهمة الموضحة أدناه) ويكتمل أخيرًا في الفترة الخامسة دون تقييد. وبشكل عام، تستغرق مهمة 200 مللي ثانية
100 * 4 + 40 = 440 مللي ثانية، أي أكثر من ضعف الوقت الفعلي لوحدة المعالجة المركزية:
يوفر نظام Linux المقاييس التالية المتعلقة بالتقييد، والتي يقوم برنامج cAdvisor بمراقبتها وتمريرها إلى Kubernetes:
|مقياس Linux
|مقياس cAdvisor
|القيمة (في المثال أعلاه)
|الشرح
|nr_periods
|container_cpu_cfs_periods_total
|5
|هذا هو عدد الفترات القابلة للتشغيل. في المثال، هناك خمسة.
|nr_throttled
|Container_cpu_cfs_throtled_periods_total
|4
|يتم تقييده في أربع فترات تشغيل من أصل خمس فترات ممكنة. وفي الفترة الخامسة، يتم اكتمال الطلب، لذا لم يعد موجودًا.
|throttled_time
|Container_cpu_cfs_throtled_seconds_total
|240 مللي ثانية
|في الفترات الأربع الأولى، يتم التشغيل لمدة 40 مللي ثانية ويتم التقييد لمدة 60 مللي ثانية. لذلك، يبلغ إجمالي الوقت المقيد 60 مللي ثانية * 4 = 240 مللي ثانية.
قم بالتمرير لعرض الجدول الكامل
كما ذكرنا في البداية، اعتدنا على قياس مستوى التقييد كنسبة مئوية من الفترات القابلة للتشغيل التي يتم تقييدها. في المثال أعلاه، سيكون ذلك
4 / 5 = %80.
هناك تحيز كبير في هذا القياس. تخيل تطبيق حاوية ثانية بحد وحدة المعالجة المركزية 800 ميلي-نواة، كما هو موضح أدناه. سيتم تشغيل مهمة بوقت معالجة 400 مللي ثانية ثم 80 مللي ثانية ثم يتم تقييدها لمدة 20 مللي ثانية في كل من فترات التنفيذ الأربع الأولى التي تبلغ 100 مللي ثانية. ثم يتم إكمالها في الفترة الخامسة. وبالطريقة الحالية لقياس مستوى التقييد، سيصل إلى نفس النسبة المئوية: %80. لكن من الواضح أن هذا التطبيق الثاني يعاني أقل بكثير من التطبيق الأول. ويتم التقييد لمدة
20 مللي ثانية * 4 = 80 مللي ثانية إجمالي، مجرد جزء بسيط من وقت تشغيل وحدة المعالجة المركزية الذي يبلغ 400 مللي ثانية. مستوى التقييد الحالي المقاس بنسبة %80 مرتفع جدًا ليعكس الوضع الحقيقي لهذا التطبيق.
كنا بحاجة إلى طريقة أفضل لقياس التقييد، وقمنا بإنشائها:
باستخدام الطريقة الجديدة، نقيس مستوى التقييد كنسبة مئوية من الوقت مقابل الوقت الإجمالي بين استخدام وحدة المعالجة المركزية والوقت الذي يتم فيه تقييد السرعة. وفيما يلي القياسات الجديدة للتطبيقات المذكورة أعلاه:
|تحديث
|الوقت المقييد
|إجمالي وقت التشغيل
|النسبة المئوية للوقت المقيد
|أولًا
|240 مللي ثانية
|200 مللي ثانية + 240 مللي ثانية = 440 مللي ثانية
|240 مللي ثانية / 440 مللي ثانية = %55
|ثانيًا
|80 مللي ثانية
|400 مللي ثانية + 80 مللي ثانية =480 مللي ثانية
|80 مللي ثانية /480 مللي ثانية = %17
وهذان الرقمان، %55 و%17، مفيدان أكثر من الرقم الأصلي البالغ %80. ولا يقتصر الأمر على رقمين مختلفين يميزان سيناريوهين للتطبيق، ولكن قيم كل منهما تعكس أيضًا بشكل أكثر ملاءمة التأثير الحقيقي للتقييد، كما يمكنك أن تتخيل من الرسمين البيانيين. وبشكل بديهي، يمكن تفسير القياس الجديد على أنه مدى إمكانية تحسين/تقليل الوقت الإجمالي للمهمة عن طريق التخلص من التقييد. وبالنسبة للتطبيق الأول، يمكننا تقليل الوقت الإجمالي للمهمة بمقدار 240 مللي ثانية (%55 من الإجمالي). أما بالنسبة للتطبيق الثاني، فستكون النسبة %17 فقط إذا تخلصنا من التقييد، وهي ليست بنفس أهمية التطبيق الأول.
فيما يلي، سترى بعض البيانات لمقارنة قياسات التقييد المحسوبة باستخدام فترات التقييد مقابل الإصدار القائم على الوقت.
بالنسبة للحاوية ذات الحدود المنخفضة لوحدة المعالجة المركزية، يُظهر القياس المستند إلى الوقت نسب تقييد أعلى بكثير مقارنةً بالإصدار القديم الذي يستخدم فترات التقييد فقط، كما هو متوقع.
ومع زيادة حدود وحدة المعالجة المركزية، تعكس القياسات القائمة على الوقت مرة أخرى بدقة النسب المئوية الأقل من حيث التقييد. وعلى العكس، تظهر النسخة الأقدم نسبة تقليل سرعة أعلى بكثير، مما قد يؤدي إلى تغيير حجم كبير رغم أن حد وحدة المعالجة المركزية مرتفع بما فيه الكفاية.
|عدد النوى
|حد وحدة المعالجة المركزية
|الفترات المقيدة
|إجمالي الفترات
|المتوسط القديم
|الوقت المقيد (مللي ثانية)
|إجمالي الاستخدام (بالمللي ثانية)
|المتوسط الجديد
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/kube-rbac-proxy-main
|10
|20
|21
|75
|28
|2.884.59
|76.23
|97.42537968
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/low-cpu-high-throttling-spec
|10
|20
|64
|148
|43.24324324
|9.690.95
|170.8
|98.26808196
|monitoring/kube-state-metrics-6c6f446b4-hrq7v/kube-rbac-proxy-main
|12
|20
|339
|567
|59.78835979
|43.943.63
|827.91
|98.15081538
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-njptn/kube-state-metrics
|12
|100
|360
|8154
|4.415011038
|17.296.02
|21.838.65
|44.19615579
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-sg2f9/beekman-2
|10
|200
|8202
|8563
|95.78418778
|488.921.77
|168.961.80
|74.31737012
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-5mktb/beekman-2
|12
|200
|8576
|8586
|99.88353133
|554.103.75
|171.659.58
|76.34771956
|quota-test/cpu-quota-1-7f84f77bc5-ztdbm/cpu-quota-1-spec
|12
|500
|3531
|8566
|41.2211067
|59.267.71
|357.274.10
|14.22851472
|turbo/kubeturbo-arsen-170-203-599fbdcff6-vbl55/kubeturbo-arsen-170-203-spec
|10
|1000
|101
|1739
|5.807935595
|6.300.33
|32.319.39
|16.31375702
|default/nri-bundle-newrelic-logging-v8fqb/newrelic-logging
|12
|1300
|1
|8250
|0.012121212
|11.86
|177.353.93
|0.00668406
أصبح هذا القياس الجديد للتقييد متاحًا منذ إصدار IBM Turbonomic 8.7.5. علاوة على ذلك، في الإصدار 8.8.2، نسمح أيضًا للمستخدمين بتخصيص الحد الأقصى لتحمّل التقييد لكل تطبيق على حدة أو لمجموعة من التطبيقات، إذ أننا ندرك تمامًا أن التطبيقات المختلفة لها احتياجات مختلفة فيما يتعلق بتحمّل التقييد. على سبيل المثال، قد تكون التطبيقات الحساسة لزمن الاستجابة، مثل تطبيقات خدمات الويب، ذات تحمّل منخفض للتقييد، في حين أن التطبيقات الدفعيّة، مثل وظائف التعلم الآلي الكبيرة، قد تكون ذات تحمل أعلى بكثير للتقييد. والآن، يمكن للمستخدمين تكوين المستوى المطلوب كما يريدون.
