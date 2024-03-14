Apache Kafka merupakan platform peristiwa dan pemrosesan aliran sumber terbuka yang diakui secara luas. Teknologi ini telah berkembang menjadi standar de facto untuk streaming data, dengan lebih dari 80% perusahaan Fortune 500 menggunakannya. Semua penyedia cloud utama menawarkan layanan streaming data terkelola untuk memenuhi permintaan yang terus meningkat tersebut.
Salah satu keuntungan utama memilih layanan Kafka adalah pendelegasian tanggung jawab atas broker dan metrik operasional, sehingga pengguna dapat berfokus hanya pada metrik khusus aplikasi. Dalam artikel ini, Manajer Produk Uche Nwankwo memberikan panduan tentang serangkaian metrik produsen dan konsumen yang perlu dipantau pelanggan untuk mencapai kinerja optimal.
Dengan Kafka, pemantauan biasanya mencakup berbagai metrik yang berkaitan dengan topik, partisi, broker, dan kelompok konsumen. Metrik standar Kafka mencakup informasi tentang throughput, latensi, replikasi, dan penggunaan disk. Lihat dokumentasi Kafka serta alat pemantauan yang relevan untuk memahami metrik spesifik yang tersedia pada versi Kafka Anda dan cara menafsirkannya secara efektif.
Memantau instance IBM® Event Streams for IBM® Cloud Anda sangat penting untuk memastikan fungsionalitas yang optimal dan kesehatan saluran data secara keseluruhan. Memantau klien Kafka Anda membantu mengidentifikasi tanda-tanda awal kegagalan aplikasi, seperti penggunaan sumber daya yang tinggi, konsumen yang tertinggal, dan hambatan. Mengidentifikasi tanda-tanda peringatan ini sejak dini memungkinkan respons proaktif terhadap potensi masalah, sehingga meminimalkan waktu henti dan mencegah gangguan terhadap operasi bisnis.
Klien Kafka (produsen dan konsumen) memiliki seperangkat metrik tersendiri untuk memantau kinerja dan kesehatan mereka. Selain itu, layanan Event Streams mendukung serangkaian metrik kaya yang dihasilkan oleh server. Untuk informasi selengkapnya, lihat Memantau metrik Event Streams menggunakan IBM® Cloud Monitoring.
|Tingkat kesalahan catatan
|Metrik ini mengukur rata-rata jumlah catatan per detik yang dikirim dan menghasilkan kesalahan. Tingkat kesalahan catatan yang tinggi (atau meningkat) dapat mengindikasikan hilangnya data atau data yang tidak diproses sebagaimana mestinya. Semua efek ini dapat mengancam integritas data yang Anda proses dan simpan di Kafka. Memantau metrik tersebut membantu memastikan bahwa data yang dikirim oleh produsen dicatat dengan akurat dan andal di dalam topik Kafka Anda.
|Latensi permintaan rata-rata
|Berikut ini adalah latensi rata-rata untuk setiap permintaan produksi dalam ms. Peningkatan latensi berdampak pada kinerja dan dapat menandakan adanya masalah. Mengukur metrik latensi permintaan rata-rata dapat membantu mengidentifikasi hambatan dalam instans Anda. Untuk banyak aplikasi, latensi rendah sangat penting untuk memastikan pengalaman pengguna yang berkualitas tinggi, dan lonjakan latensi permintaan rata-rata dapat mengindikasikan bahwa Anda telah mencapai batas instans yang disediakan. Anda dapat memperbaiki masalah tersebut dengan menyesuaikan pengaturan produsen, misalnya dengan melakukan penggabungan atau menskalakan rencana Anda untuk mengoptimalkan kinerja.
|Tingkat byte
|Jumlah rata-rata byte yang dikirim setiap detik untuk suatu topik merupakan ukuran throughput Anda. Jika Anda melakukan streaming data secara rutin, penurunan throughput dapat mengindikasikan adanya anomali pada instans Kafka Anda. Paket Event Streams Enterprise dimulai dari 150 MB per detik untuk pemisahan satu-ke-satu antara lalu lintas masuk dan keluar, dan penting untuk mengetahui seberapa banyak yang Anda konsumsi demi perencanaan kapasitas yang efektif. Jangan melebihi dua pertiga dari throughput maksimum untuk mengantisipasi potensi dampak dari tindakan operasional, seperti pembaruan internal atau mode kegagalan (misalnya hilangnya zona ketersediaan).
|Fetch-rate
fetch-size-avg
|Jumlah permintaan pengambilan per detik (tingkat pengambilan) dan jumlah rata-rata byte yang diambil per permintaan (ukuran pengambilan rata-rata) merupakan indikator utama kinerja konsumen Kafka Anda. Tingkat pengambilan yang tinggi dapat menandakan inefisiensi, terutama ketika jumlah pesan sedikit, karena hal itu menunjukkan tidak cukup (atau bahkan tidak ada) data yang diterima setiap kali. Tingkat pengambilan dan ukuran pengambilan rata-rata dipengaruhi oleh tiga pengaturan: fetch.min.bytes, fetch.max.bytes, dan fetch.max.wait.ms. Menyetel konfigurasi ini membantu mencapai latensi keseluruhan yang diinginkan sekaligus meminimalkan jumlah permintaan pengambilan dan potensi beban pada CPU broker. Memantau serta mengoptimalkan kedua metrik tersebut memastikan bahwa Anda memproses data secara efisien untuk beban kerja saat ini maupun di masa mendatang.
|Commit-latency-avg
|Metrik ini mengukur waktu rata-rata antara pengiriman commit record dan penerimaan commit response. Mirip dengan latensi permintaan rata-rata pada produsen, latensi commit rata-rata yang stabil menunjukkan bahwa commit offset Anda dilakukan tepat waktu. Latensi commit yang tinggi dapat menandakan adanya masalah pada konsumen yang menghambatnya melakukan offset dengan cepat, dan hal ini secara langsung memengaruhi keandalan pemrosesan data. Kondisi tersebut dapat menyebabkan pemrosesan pesan duplikat jika konsumen harus memulai ulang dan memproses ulang pesan dari offset yang sebelumnya belum di-commit. Latensi commit yang tinggi juga berarti lebih banyak waktu terbuang pada operasi administratif dibandingkan pemrosesan pesan yang sebenarnya. Masalah ini dapat memicu backlog pesan yang menunggu pemrosesan, terutama di lingkungan dengan volume tinggi.
|Bytes-consumed-rate
|Ini adalah metrik pengambilan konsumen yang mengukur jumlah rata-rata byte yang dikonsumsi setiap detik. Mirip dengan tingkat byte pada metrik produsen, nilai ini harus tetap stabil dan sesuai ekspektasi. Perubahan mendadak dari tren tingkat konsumsi byte yang diharapkan dapat mengindikasikan adanya masalah pada aplikasi Anda. Kecepatan yang rendah dapat menjadi sinyal adanya ketidakefisienan dalam pengambilan data atau penggunaan sumber daya yang berlebihan. Tingkat yang lebih tinggi dapat membebani kemampuan pemrosesan konsumen dan karena itu mungkin memerlukan penskalaan, seperti menambah jumlah konsumen untuk menyeimbangkan beban atau menyesuaikan konfigurasi konsumen, misalnya ukuran pengambilan.
|Tingkat penyeimbangan ulang per jam
|Jumlah penyeimbangan ulang grup yang diikuti per jam. Penyeimbangan ulang terjadi setiap kali ada konsumen baru atau ketika konsumen keluar dari grup, dan hal ini menyebabkan keterlambatan pemrosesan. Proses ini berlangsung karena partisi harus ditugaskan kembali, sehingga konsumen Kafka menjadi kurang efisien jika terlalu banyak penyeimbangan ulang per jam. Tingkat penyeimbangan ulang per jam yang tinggi dapat disebabkan oleh kesalahan konfigurasi yang memicu perilaku konsumen yang tidak stabil. Tindakan penyeimbangan ulang tersebut dapat meningkatkan latensi dan bahkan menyebabkan aplikasi mogok. Pastikan grup konsumen Anda tetap stabil dengan menjaga tingkat penyeimbangan ulang per jam tetap rendah dan konsisten.
Metrik harus mencakup beragam aplikasi dan contoh penggunaan. Event Streams di IBM® Cloud menyediakan serangkaian metrik kaya yang didokumentasikan di sini dan akan memberikan insight tambahan sesuai dengan domain aplikasi Anda.
Anda kini memiliki pemahaman tentang klien Kafka penting yang perlu dipantau.
