Menumbuhkan lingkungan data yang dinamis dapat membantu perusahaan mempercepat pertumbuhan, menurut penelitian baru oleh IBM Institute for Business Value. Tetapi bagaimana organisasi dapat mengetahui apakah data mereka, pada kenyataannya, kaya dan siap untuk mendorong pertumbuhan?
Menggunakan metrik kualitas data dapat membantu.
Metrik kualitas data adalah ukuran kuantitatif untuk mengevaluasi kualitas data. Organisasi dapat memanfaatkan metrik kualitas data untuk melacak dan memantau kualitas data seiring waktu, membantu mengidentifikasi data berkualitas tinggi yang sesuai untuk pengambilan keputusan berbasis data dan contoh penggunaan kecerdasan buatan (AI).
Metrik bervariasi menurut organisasi dan dapat mencerminkan dimensi kualitas data tradisional seperti akurasi, ketepatan waktu, dan keunikan, serta karakteristik khusus untuk pipeline data modern, seperti durasi pipeline. Melalui metrik kualitas data, dimensi kualitas data dapat dipetakan ke nilai numerik.
Alat kualitas data yang didukung oleh otomatisasi dan machine learning dapat membantu insinyur data mengevaluasi metrik kualitas data dan mengidentifikasi masalah kualitas data secara real time. Hal ini memungkinkan organisasi dan tim data mereka untuk mengambil langkah-langkah yang diperlukan guna mengoptimalkan keandalan dan keakuratan kumpulan data serta pipeline data mereka.
Menjaga data yang berkualitas tinggi dan andal merupakan tujuan bagi banyak organisasi modern. Ada alasan kuat untuk hal itu.
Data yang baik berkontribusi pada kecerdasan bisnis yang berharga, efisiensi operasional, alur kerja yang dioptimalkan, kepatuhan terhadap peraturan, kepuasan pelanggan, pertumbuhan perusahaan, dan kemajuan pada indikator kinerja utama (KPI). Kualitas data yang tinggi juga penting untuk inisiatif AI yang efektif, karena model AI memerlukan pelatihan tentang data yang andal dan akurat untuk memberikan output yang berguna.
Tetapi untuk menuai hasil tersebut, organisasi harus memastikan data mereka benar-benar berkualitas tinggi. Di situlah metrik kualitas data memainkan peran kunci. Metrik kualitas data dapat membantu menentukan kualitas data Anda dengan memetakan dimensi kualitas data ke nilai numerik, seperti skor.1
Melalui penilaian kualitas data, organisasi dapat menentukan kegunaan data mereka untuk keputusan bisnis dan pelatihan model AI. Data berkualitas rendah yang diidentifikasi melalui ukuran kualitas data sering kali dapat diperbaiki melalui upaya remediasi.
Enam dimensi tradisional yang dilacak melalui metrik kualitas data adalah:
Dimensi-dimensi umum kualitas data seringkali dapat diukur melalui rasio sederhana, seperti rasio antara jumlah hasil yang diinginkan (jumlah data yang akurat, entri data yang valid, dll.) dengan total jumlah hasil.2
Misalnya, cara dasar untuk menghitung kelengkapan data adalah:
Kelengkapan = (jumlah elemen data lengkap)/(jumlah total elemen data)
Atau, menggunakan metrik terbalik yang berfokus pada data buruk juga merupakan opsi:
Kelengkapan = 1 - [(elemen data hilang)/(jumlah total elemen data)]
Metode lain untuk mengukur dimensi memerlukan perhitungan yang lebih kompleks.
Misalnya, rumus untuk menghitung ketepatan waktu data mungkin bergantung pada variabel seperti usia data, waktu pengiriman (kapan data dikirimkan), waktu input (kapan data diterima) dan volatilitas (lamanya waktu data tersebut valid).
Selain metrik data yang mewakili dimensi kualitas data tradisional, metrik kunci lainnya dapat membantu organisasi menjaga agar pipeline data mereka berjalan dengan lancar. Contohnya antara lain:
Pelajari lebih lanjut metrik kualitas data terbaik untuk lingkungan Anda.
Metrik kualitas data mendukung proses data utama seperti tata kelola data, observabilitas data, dan manajemen kualitas data.
Tata kelola data adalah disiplin manajemen data yang membantu memastikan integritas data dan keamanan data dengan mendefinisikan dan menerapkan kebijakan, standar kualitas, dan prosedur untuk pengumpulan, kepemilikan, penyimpanan, pemrosesan, dan penggunaan data. Metrik kualitas data seperti konsistensi data dan kelengkapan data membantu organisasi mengevaluasi kemajuan dalam mencapai standar yang ditetapkan melalui praktik tata kelola.
Observabilitas data adalah praktik pemantauan dan pengelolaan data untuk membantu memastikan kualitas, ketersediaan, dan keandalannya di berbagai proses, sistem, dan pipeline dalam suatu organisasi. Metrik kualitas data yang dipantau melalui praktik observabilitas data meliputi kesegaran data, jumlah nilai null, dan perubahan skema.
Manajemen kualitas data atau DQM adalah kumpulan praktik untuk meningkatkan dan mempertahankan kualitas data organisasi. Praktik inti DQM adalah profil data, yang mencakup ulasan struktur dan isi data yang ada untuk mengevaluasi kualitasnya dan menetapkan dasar untuk mengukur remediasi. Kualitas data dievaluasi berdasarkan dimensi dan metrik kualitas data.
Kualitas data yang buruk yang terungkap melalui pembuatan profil dapat diatasi melalui praktik DQM lain: pembersihan data. Pembersihan data, juga dikenal sebagai pembersihan data, adalah koreksi kesalahan data dan inkonsistensi dalam kumpulan data mentah. Pembersihan data merupakan langkah awal yang penting dalam transformasi data, yang mengubah data mentah menjadi format yang dapat digunakan untuk analisis.
Solusi perangkat lunak dapat menyediakan pemantauan kualitas data secara real-time, termasuk pemantauan kinerja pada metrik kualitas data. Solusi terkemuka dapat mencakup fitur-fitur seperti:
Tampilan terpadu dari alur kerja dan aset data suatu organisasi memudahkan pengelolaan insiden data di seluruh tumpukan data.
Pemantauan pemeriksaan kualitas data dan pelanggaran aturan perjanjian tingkat layanan (SLA) terkait dengan pengiriman data yang terlewat, perubahan skema, dan anomali.
Notifikasi yang disesuaikan dan otomatis dikirimkan kepada pemangku kepentingan data melalui alat dan platform seperti Slack, PagerDuty, dan email.
Grafik pada baris dan operasi yang ditulis dan dibaca setiap hari dapat membantu perusahaan mengidentifikasi tren penting dan pola yang bermasalah.
Silsilah data menyeluruh menunjukkan kumpulan data dan pipeline yang dipengaruhi oleh masalah kualitas data.
IBM menawarkan solusi kualitas data yang mengoptimalkan dimensi utama seperti akurasi, kelengkapan, dan konsistensi.
IBM Databand menyediakan pemantauan kualitas data secara real-time untuk mendeteksi masalah kualitas data yang buruk dan memastikan kualitas data yang lebih baik.
Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1, 2 “A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 Maret 2022.