Masalah data

Mungkin bagian tersulit dalam mengelola pipeline data adalah memahami hantu di dalam mesin— -data ex machina, jika Anda mau.

Banyak pipeline terasa seolah memiliki kepribadian. Pipiline berubah-ubah. Pipiline secara misterius jatuh saat cuaca buruk. Pipiline juga menghasilkan output yang salah secara konsisten dan waktu yang sangat tidak konsisten. Beberapa masalah tampaknya sama sekali tidak dapat dipecahkan.

Itulah bagian besar mengapa IBM® Databand ada—untuk memberikan visibilitas insinyur data ke dalam masalah data. Semua orang menginginkan jawaban yang lebih cepat untuk pertanyaan seperti, “Mengapa kami mendapatkan kesalahan waktu proses?” atau “Mengapa pekerjaan masih terjebak dalam antrean?” Seringkali, tidak ada seorang pun yang tahu.

Tetapi dengan platform observabilitas, Anda bisa tahu. Anda akhirnya dapat melakukan analisis akar masalah (RCA) menyeluruh pada saat ini—dan tidak menambahkan tiket lain ke backlog Anda yang menjulang tinggi atau meninggalkan utang data yang Anda tahu akan kembali menggigit.

Dalam panduan ini, kami akan membagikan beberapa masalah data paling umum yang kami lihat ketika orang menjalankan pipeline, dan beberapa akar masalah yang ada di baliknya.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Penyebab Proksimal versus akar masalah untuk masalah data

Bagaimana Anda memperbaiki masalah kualitas data? Dimulai dengan mengetahui bahwa apa yang membedakan insinyur data yang luar biasa dari yang lain adalah kemampuan mereka untuk mencari akar masalah masalah data. Siapa pun dapat mengulang pipeline, tidak terlalu memikirkan penyebabnya, dan kembali bekerja seperti biasa. Sangat sedikit yang bermain detektif untuk sampai ke dasar masalah, meskipun itulah yang dibutuhkan.

Ini adalah perbedaan antara puas dengan penyebab proksimal atau akar masalah. Penyebab proksimal adalah hal-hal yang tampaknya salah—seperti kesalahan waktu proses. Akar masalah adalah hal yang menyebabkan penyebab proksimal, dan jauh lebih sulit untuk dipecahkan. Terkadang penyebab proksimal adalah akar masalah, tetapi jarang.

Pikirkan penyebab proksimal sebagai peringatan belaka. Peringatan ini memberi tahu Anda bahwa di suatu tempat di pipeline Anda ada kesalahan akar. Abaikan dengan risiko Anda sendiri, karena utang data itu bertambah.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Penyebab proksimal umum (contoh umum masalah data)

Saat hujan, hujan turun, dan ketika Anda memiliki satu masalah, Anda cenderung memiliki banyak. Di bawah ini adalah kemungkinan umum masalah data proksimal—masalah ini tidak saling eksklusif, dan daftarnya jauh dari lengkap:

Jadwal berubah
Waktu pipeline habis
Pekerjaan terjebak dalam antrean
Terjadi transformasi yang tak terduga
Kegagalan spesifik (mungkin gagal saat dimulai)
Perjalanannya memakan waktu yang sangat lama
Terjadi kegagalan sistem secara keseluruhan
Ada kesalahan transformasi
Banyak pekerjaan gagal pekerjaan malam sebelumnya
Ada ukuran input yang anomali
Ada ukuran output yang anomali
Ada waktu lari yang anomali
Sebuah tugas terhenti tiba-tiba
Ada kesalahan waktu proses

Tapi bukan itu saja, bukan? Sekali lagi, anggaplah ini bukan sebagai masalah, melainkan sebagai sinyal. Ini semua adalah hal-hal yang bisa salah yang menandakan sesuatu yang lebih meresahkan telah terjadi. Banyak yang akan muncul secara bersamaan.
Platform pengamatan dapat sangat membantu dalam memilahnya. Ini akan memungkinkan Anda untuk mengelompokkan masalah yang terjadi bersamaan untuk memahaminya.

Anda juga dapat mengelompokkan masalah sesuai dengan dimensi kualitas data yang digabungkan—seperti kebugaran, garis keturunan, tata kelola, atau stabilitas. Mengelompokkan masalah data dengan cara ini menunjukkan dimensi di mana Anda mengalami masalah paling banyak, dan dapat menempatkan apa yang tampak seperti masalah terisolasi ke dalam konteks.

Dan tentu saja, Anda tidak perlu menunggu pekerjaan gagal untuk mencoba ini juga. Jika Anda memiliki Databand, ini memungkinkan Anda menyelidiki anomali secara surut (menangkap semua metadata historis itu) sehingga Anda bisa menjelaskan apa yang biasa dan apa yang hanya berkorelasi.

Beginilah cara Anda dapat memilih masalah seperti tugas yang terhenti di antara selusin kesalahan, dan menguji banyak masalah untuk mengetahui akar masalah yang mungkin merupakan kegagalan penyediaan klaster. Dan begitulah seharusnya Anda melihatnya. Selalu mencari akar masalah dari masalah data.

15 akar masalah paling umum

Akar masalah adalah titik akhir dari semuanya. Ini harus menjadi peristiwa asli dalam garis sebab-akibat—domino pertama, sebagaimana adanya—dan sebagian besar menjelaskan masalah ini. Jika akar masalah data itu tidak terjadi, maka tidak boleh ada penyebab proksimal. Hal ini secara langsung bersifat kausal terhadap semuanya.

Akar masalah, tentu saja, tidak selalu jelas, dan korelasi tidak selalu tepat. Jika Anda tidak merasa yakin dengan jawaban Anda, salah satu cara probabilistik untuk mengetahui tingkat kepercayaan diri Anda yang sebenarnya adalah mencoba eksperimen pemikiran berikut: Bayangkan atasan Anda mengatakan bahwa tim akan sepenuhnya bertaruh pada hipotesis Anda, tidak ada yang akan mengeceknya sebelum masuk produksi, dan nama Anda akan tercantum sebagai penanggung jawabnya. Jika itu salah, itu semua salah Anda. Berapa skor kepercayaan 0-100 yang akan Anda berikan hipotesis Anda? Jika lebih rendah dari 70, teruslah menyelidiki.

Masalah akar masalah umum meliputi:

1. Kesalahan pengguna: Kami akan mulai dengan kesalahan pengguna karena kesalahan itu umum. Mungkin seseorang memasukkan skema yang salah atau nilai yang salah, yang berarti pipeline tidak membaca data, atau melakukan hal yang benar dengan nilai yang salah, dan sekarang Anda mengalami kegagalan tugas.

2. Data yang diberi label secara tidak tepat: Terkadang baris pada sebuah tabel bergeser dan label yang benar justru terpasang pada kolom yang salah.

3. Mitra data melewatkan pengiriman: Juga sangat umum. Anda dapat membangun sistem yang sangat baik, tetapi Anda tidak dapat mengendalikan apa yang tidak dapat Anda lihat. Jika masalah data terdapat pada data sumber, hal itu akan menyebabkan jaringan yang berfungsi dengan baik menjadi tidak berfungsi.

4. Ada bug dalam kode: Ini umum terjadi ketika ada versi baru dari pipeline. Anda dapat mengetahuinya dengan cukup cepat dengan perangkat lunak pembuatan versi seperti Git atau GitLab. Bandingkan kode produksi dengan versi sebelumnya dan jalankan pengujian dengan versi sebelumnya.

5. Kesalahan data OCR: Pemindai optik Anda salah membaca data, menyebabkan nilai yang asing (atau hilang).

6. Masalah data yang membusuk: Kumpulan data sangat kedaluwarsa sehingga tidak lagi valid.

7. Masalah data duplikat: Seringkali, vendor tidak dapat mengirimkan data, sehingga pipeline berjalan untuk data minggu lalu.

8. Masalah izin: Pipeline gagal karena sistem tidak memiliki izin untuk menarik data, atau melakukan transformasi.

9. Kesalahan infrastruktur: Mungkin Anda memaksimalkan memori yang tersedia atau batas panggilan API, klaster Apache Spark Anda tidak berjalan, atau gudang data Anda lambat secara tidak biasa, menyebabkan proses berjalan tanpa data.

10. Perubahan jadwal: Seseorang (atau sesuatu) mengubah penjadwalan dan itu menyebabkan pipeline kehabisan pesanan, atau tidak berjalan.

11. Kumpulan data bias: Sangat sulit untuk disortir. Tidak ada cara yang baik untuk menyimpulkan ini kecuali dengan menjalankan beberapa tes untuk melihat apakah data tersebut anomali dibandingkan dengan kumpulan data sebenarnya yang serupa, atau mencari tahu bagaimana data dikumpulkan atau dihasilkan.

12. Kegagalan orkestrator: Penjadwal pipeline Anda gagal menjadwalkan atau menjalankan pekerjaan.

13. Hantu di mesin (data ex machina): Ini benar-benar tidak dapat diketahui. Memang tidak mudah mengakui hal itu, namun untuk sebagian hal, itulah realitasnya. Yang terbaik yang dapat Anda lakukan adalah mendokumentasikan dan bersiaplah untuk waktu berikutnya ketika Anda dapat mengumpulkan lebih banyak data dan mulai menggambar korelasi.

Dan kemudian, tentu saja, ada kenyataan di mana akar masalahnya tidak sepenuhnya jelas. Banyak hal yang berkorelasi, dan mereka mungkin saling bergantung, tetapi tidak ada jawaban yang rapi—dan setelah membuat perubahan, Anda telah memperbaiki masalah data, meskipun Anda tidak yakin mengapa.

Dalam kasus tersebut, seperti halnya apa pun, catat hipotesis Anda di log, dan ketika Anda dapat kembali ke sana, lanjutkan menguji data historis, dan waspadai masalah baru dan penyebab yang lebih jelas.

Mempraktikkannya untuk mengurangi masalah data

Karakteristik yang paling memisahkan insinyur data amatir dari pakar adalah kemampuan mereka untuk memilah akar masalah, dan kenyamanan mereka dengan jawaban yang ambigu. Penyebab proksimal terkadang merupakan akar masalah, tetapi tidak selalu. Akar masalah terkadang berkorelasi dengan penyebab proksimal tertentu, tetapi tidak selalu. Terkadang tidak ada perbedaan antara apa itu bias data dan apa itu kesalahan manusia.

Insinyur data yang hebat tahu pipeline mereka berubah-ubah, dan terkadang memiliki kepribadian. Tetapi mereka selaras dengan mereka, memiliki alat untuk mengukurnya, dan selalu mencari penjelasan yang lebih dapat diandalkan.

Lihat bagaimana IBM® Databand menyediakan pemantauan pipeline data untuk mendeteksi dengan cepat insiden data seperti pekerjaan yang gagal dan berjalan sehingga Anda dapat menangani pertumbuhan pipeline. Jika Anda siap untuk melihat lebih dalam, pesan demo hari ini.

Empat langkah menuju perkiraan bisnis yang lebih baik dengan analitik

Gunakan kekuatan intelijen bisnis dan analitik untuk merencanakan, memperkirakan, dan menciptakan hasil di masa depan yang memberikan manfaat optimal bagi perusahaan dan pelanggan Anda.

Daftar 13 masalah data pipeline yang paling umum (dengan contoh)