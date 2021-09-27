Spark sangat penting untuk tumpukan data modern. Dengan demikian, sangat penting untuk memiliki tingkat observabilitas yang tepat untuk lingkungan Spark Anda. Ada banyak opsi untuk memantau Spark, termasuk program SaaS yang memberi Anda dasbor pra-konfigurasi untuk metrik Spark dan Spark SQL. Bagaimana jika itu tidak cukup?

Pengaturan aplikasi Spark yang khas, baik itu solusi yang di-host sendiri atau dikelola, mencakup beberapa dasbor operasional untuk pemantauan kesehatan klaster. Namun, meskipun dasbor tersebut sangat berguna, dasbor tersebut hanya memberi kita gambaran umum infrastruktur dan bukan metrik aktual yang terkait dengan data. Ya, kita dapat berasumsi mungkin ada yang salah dengan aplikasi ketika CPU telah meningkatkan penggunaan atau klaster kehabisan RAM, tetapi itu tidak membantu ketika sumber mengubah skema atau data yang berasal dari departemen lain rusak. Sebagian besar masalah yang dihadapi insinyur disebabkan oleh data dan bukan oleh infrastruktur yang mendasarinya sehingga mereka harus menghabiskan banyak waktu mereproduksi masalah atau mengutak-atik file dan bucket seperti detektif. Di sinilah pemantauan aplikasi yang sebenarnya dapat membantu.

Setiap situasi membutuhkan tingkat visibilitas yang berbeda, dan insinyur data harus memiliki kemampuan untuk mencapai tingkat yang lebih dalam daripada metrik eksekusi. Jika tidak, Anda dapat menghabiskan banyak waktu untuk men-debug masalah kualitas data di Spark.

Dalam panduan ini, Anda akan belajar cara mendapatkan tingkat observabilitas data yang tinggi dan rendah untuk Spark Untuk tingkat tinggi, Anda akan menggunakan sistem internal Spark seperti Listener API dan Query Execution Listener. Untuk tingkat rendah, Anda akan belajar cara menggunakan pustaka untuk melacak metrik kualitas data.

Setelah belajar melakukan keduanya, Anda akan memiliki opsi untuk memilih mana yang paling cocok untuk masalah yang Anda coba selesaikan.