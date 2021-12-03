Airflow adalah alat tangguh dengan cakupan terbatas. Airflow tidak melakukan koreksi apa pun jika terjadi masalah dengan data—hanya pada pipeline. Hampir setiap pengguna pernah mengalami situasi di mana Airflow memberitahu mereka bahwa suatu tugas telah selesai, namun saat memeriksa data, ternyata kolom tertentu hilang dan data tersebut salah, atau bahkan tidak ada data yang sebenarnya melewati sistem.

Hal ini terutama berlaku ketika organisasi data sudah matang dan Anda beralih dari 10 grafik acyclic data (DAG) menjadi ribuan. Dalam situasi tersebut, Anda kemungkinan besar saat ini menggunakan DAGs tersebut untuk mengimpor data dari sumber data eksternal dan API, yang membuat pengendalian kualitas data di Airflow menjadi lebih sulit. Anda tidak dapat “membersihkan” kumpulan data sumber atau menerapkan kebijakan tata kelola Anda di sana.

Meskipun Anda dapat membuat peringatan Slack untuk memeriksa setiap proses secara manual, untuk menggabungkan Airflow sebagai bagian yang bermanfaat dari organisasi rekayasa data Anda dan mencapai SLA Anda, Anda ingin mengotomatiskan pemeriksaan kualitas. Dan untuk melakukannya, Anda memerlukan visibilitas tidak hanya apakah suatu tugas telah dijalankan, tetapi juga apakah tugas tersebut dijalankan dengan benar. Dan jika tidak berjalan dengan benar, mengapa, dan di mana kesalahan tersebut berasal. Jika tidak, Anda akan hidup dalam situasi seperti Groundhog Day.

Ini bukanlah tantangan yang sederhana, dan jika kita jujur, itulah mengapa IBM® Databand diciptakan. Sebagian besar alat observabilitas produk seperti Datadog dan New Relic tidak dirancang untuk menganalisis pipeline dan tidak dapat mengidentifikasi asal mula masalah, mengelompokkan masalah yang terjadi bersamaan untuk menyarankan akar masalah, atau menyarankan solusi perbaikan.

Namun, kebutuhan akan observabilitas masih belum sepenuhnya dipahami, bahkan di dalam komunitas Airflow. Hari ini, hanya 32% yang mengatakan mereka telah menerapkan pengukuran kualitas data, meskipun fakta bahwa para penyusun survei menanyakan hal ini merupakan indikasi adanya perbaikan. Pertanyaan ini tidak diajukan dalam survei tahun 2019 atau 2020.

Bagaimana cara memantau kualitas data di Airflow? Sebenarnya, Airflow hanya membawa Anda setengah jalan. Seperti yang ditekankan oleh pengembangnya, “Ketika alur kerja didefinisikan sebagai kode, mereka menjadi lebih mudah dipelihara, dapat diubah versinya, dapat diuji, dan kolaboratif.”

Airflow menyediakan representasi formal dari kode. Yang Anda butuhkan adalah alat observabilitas yang dibuat khusus untuk memantau saluran data. Alat pemantauan produk yang dibangun sebagai langkah sementara, tetapi biasanya menjadi bagian dari proses karena mereka sudah memiliki lisensi tersebut.

Kami menemukan bahwa organisasi teknik melewati beberapa fase dalam perjalanan mereka menuju kematangan observabilitas penuh: