Sudah satu setengah tahun sejak kami meluncurkan fitur penentuan ukuran CPU kontainer yang mempertimbangkan pembatasan (throttling) untuk IBM Turbonomic, dan fitur ini telah menarik banyak perhatian, dan itu bukan tanpa alasan. Seperti yang diilustrasikan dalam postingan blog pertama kami, menetapkan batas CPU yang salah secara diam-diam membunuh kinerja aplikasi Anda dan benar-benar bekerja seperti yang dirancang.
Turbonomic memvisualisasikan metrik pembatasan dan, yang lebih penting, mempertimbangkan pelambatan saat merekomendasikan ukuran batas CPU. Kami tidak hanya dapat mengekspos pembunuh kinerja diam ini, Turbonomic akan menentukan nilai batas CPU untuk meminimalkan dampaknya pada kinerja aplikasi kontainer Anda.
Dalam artikel baru ini, kita akan membahas tentang perbaikan yang signifikan dalam cara kita mengukur level pembatasan. Sebelum peningkatan ini, indikator pembatasan kami dihitung berdasarkan persentase periode pembatasan. Dengan pengukuran seperti itu, throttling diremehkan untuk aplikasi dengan batas CPU rendah dan ditaksir terlalu tinggi untuk mereka yang memiliki batas CPU tinggi. Hal ini mengakibatkan ukuran aplikasi batas tinggi terlalu agresif karena kami menyesuaikan pengambilan keputusan kami terhadap aplikasi batas rendah untuk meminimalkan pembatasan dan menjamin kinerjanya.
Dalam penyempurnaan terkini ini, kami mengukur pembatasan berdasarkan persentase waktu yang dibatasi. Dalam posting ini, kami akan menunjukkan kepada Anda bagaimana pengukuran baru ini bekerja dan mengapa itu akan memperbaiki perkiraan yang diremehkan dan melebih-lebihkan yang disebutkan di atas:
Jika Anda menonton video demo ini, Anda bisa melihat ilustrasi serupa tentang pembatasan. Itu dia aplikasi kontainer berulir tunggal dengan batas CPU 0,4 inti (atau 400m). Batas 400m di Linux diterjemahkan ke kuota CPU cgroup 40ms per 100ms, yang merupakan periode penegakan kuota default di Linux yang diadopsi Kubernetes. Itu berarti bahwa aplikasi hanya dapat menggunakan waktu CPU 40ms di setiap periode 100ms sebelum dibatasi selama 60ms. Ini diulang empat kali untuk tugas 200ms (seperti yang ditunjukkan di bawah ini) dan akhirnya selesai pada periode kelima tanpa dibatasi. Secara keseluruhan, tugas 200ms membutuhkan
100 * 4 + 40 = 440ms untuk diselesaikan, lebih dari dua kali waktu CPU yang dibutuhkan sebenarnya:
Linux menyediakan metrik berikut terkait dengan pembatasan, yang dipantau dan diumpankan oleh cAdvisor ke Kubernetes:
|Metrik Linux
|Metrik cAdvisor
|Nilai (dalam contoh di atas)
|Penjelasan
|nr_periode
|container_cpu_cfs_periods_total
|5
|Ini adalah jumlah periode yang dapat dijalankan. Dalam contoh, ada lima.
|nr_throttled
|container_cpu_cfs_throttled_periods_total
|4
|Dibatasi hanya selama empat dari lima periode yang dapat dijalankan. Pada periode kelima, permintaan telah selesai, jadi tidak lagi dibatasi.
|throttled_time
|container_cpu_cfs_throttled_seconds_total
|240 ms
|Untuk empat periode pertama, ini berjalan selama 40ms dan dibatasi selama 60ms. Oleh karena itu, total waktu yang dibatasi adalah 60ms * 4 = 240ms.
Seperti yang disebutkan di awal, kami biasa mengukur level pembatasan sebagai persentase periode yang dapat dijalankan yang dibatasi. Dalam contoh di atas, itu akan menjadi
4/5 = 80%.
Ada bias yang signifikan dengan pengukuran ini. Pertimbangkan aplikasi kontainer kedua yang memiliki batas CPU 800m, seperti yang ditunjukkan di bawah ini. Tugas dengan waktu pemrosesan 400ms akan berjalan 80ms dan kemudian dibatasi selama 20ms di masing-masing dari empat periode penegakan pertama 100ms. Kemudian akan selesai pada periode kelima. Dengan cara mengukur level pembatasan saat ini, itu akan sampai pada persentase yang sama: 80%. Tapi jelas, aplikasi kedua ini menderita jauh lebih sedikit daripada aplikasi pertama. Ini dibatasi hanya
20ms * 4 = 80ms total—hanya sebagian kecil dari waktu berjalan CPU 400ms. Tingkat pembatasan yang terukur saat ini sebesar 80% terlalu tinggi untuk mencerminkan situasi sebenarnya dari aplikasi ini.
Kami membutuhkan cara yang lebih baik untuk mengukur pembatasan, dan kami membuatnya:
Dengan cara baru ini, kami mengukur tingkat pembatasan sebagai persentase waktu yang dibatasi versus total waktu antara penggunaan CPU dan saat pembatasan dilakukan. Berikut adalah pengukuran baru dari dua aplikasi di atas:
|Aplikasi
|Waktu yang Dibatasi
|Total Waktu yang Dapat Dijalankan
|Persentase Waktu Dibatasi
|Pertama
|240 ms
|200ms + 240ms = 440ms
|240 ms /440 ms = 55%
|Kedua
|80 ms
|400ms + 80ms = 480ms
|80 md / 480 md = 17%
Kedua angka ini - 55% dan 17% - lebih masuk akal daripada 80% asli. Tidak saja keduanya merupakan dua angka berbeda yang membedakan kedua skenario aplikasi, tetapi nilai masing-masing juga lebih tepat mencerminkan dampak sebenarnya dari pembatasan, seperti yang mungkin bisa Anda visualisasikan dari kedua grafik. Secara intuitif, pengukuran baru dapat diartikan sebagai seberapa banyak waktu tugas keseluruhan dapat ditingkatkan atau dikurangi dengan menghilangkan pembatasan. Untuk aplikasi pertama, kami dapat mengurangi waktu tugas keseluruhan hingga 240 ms (55% dari total). Untuk aplikasi kedua, hanya 17% jika kita menyingkirkan pembatasan—tidak signifikan seperti pada aplikasi pertama.
Di bawah ini, Anda akan melihat beberapa data untuk membandingkan pengukuran pembatasan yang dihitung menggunakan periode pembatasan versus versi berbasis waktu.
Untuk kontainer dengan batas CPU rendah, pengukuran berbasis waktu menunjukkan persentase pembatasan yang jauh lebih tinggi dibandingkan dengan versi lama yang hanya menggunakan periode pembatasan, seperti yang diharapkan.
Saat batas CPU naik, pengukuran berbasis waktu kembali secara akurat mencerminkan persentase pembatasan yang lebih rendah. Sebaliknya, versi yang lebih lama menunjukkan persentase pembatasan yang jauh lebih tinggi, yang dapat menghasilkan pengubahan ukuran agresif meskipun batas CPU cukup tinggi.
|Jumlah Inti
|Batas CPU
|Periode yang Dibatasi
|Total Periode
|Rata-rata Lama
|Waktu yang Dibatasi (ms)
|Total Penggunaan (ms)
|Rata-rata Baru
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/kube-rbac-proxy-main
|10
|20
|21
|75
|28
|2.884,59
|76,23
|97,42537968
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-p97v8/low-cpu-high-throttling-spec
|10
|20
|64
|148
|43,24324324
|9.690,95
|170,8
|98,26808196
|monitoring/kube-state-metrics-6c6f446b4-hrq7v/kube-rbac-proxy-main
|12
|20
|339
|567
|59,78835979
|43,943.63
|827,91
|98,15081538
|throttling-auto/low-cpu-high-throttling-77b6b5f84c-njptn/kube-state-metrics
|12
|100
|360
|8154
|4,415011038
|17,296.02
|21.838,65
|44,19615579
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-sg2f9/beekman-2
|10
|200
|8202
|8563
|95,78418778
|488.921,77
|168.961,80
|74,31737012
|dummy-ns/beekman-change-reconciler-5dbdcdb49b-5mktb/beekman-2
|12
|200
|8576
|8586
|99,88353133
|554.103,75
|171.659,58
|76,34771956
|Uji Kuota / CPU-Kuota-1-7F84F77BC5-ZTDBM / CPU-Kuota-1-Spesifikasi
|12
|500
|3531
|8566
|41,2211067
|59.267,71
|357.274,10
|14,22851472
|turbo / kubeturbo-arsen-170-203-599fbdcff6-vbl55 / kubeturbo-arsen-170-203-spec
|10
|1000
|101
|1739
|5,807935595
|6.300.33
|32.319,39
|16,31375702
|default/nri-bundle-newrelic-logging-v8fqb/newrelic-logging
|12
|1300
|1
|8250
|0,012121212
|11,86
|177.353,93
|0,00668406
Pengukuran pembatasan baru ini telah tersedia sejak IBM Turbonomic rilis 8.7.5. Lebih jauh lagi, pada rilis 8.8.2, kami juga mengizinkan pengguna untuk menyesuaikan toleransi pembatasan maksimum untuk setiap aplikasi atau kelompok aplikasi, karena kami sepenuhnya menyadari bahwa setiap aplikasi memiliki kebutuhan yang berbeda dalam hal toleransi pembatasan. Misalnya, aplikasi yang sensitif terhadap waktu respons seperti aplikasi layanan web mungkin memiliki toleransi yang lebih rendah sementara aplikasi batch seperti pekerjaan machine learning besar mungkin memiliki toleransi yang jauh lebih tinggi. Sekarang, pengguna dapat mengonfigurasi level yang diinginkan sesuai keinginan mereka.
