Rahasia sukses tersembunyi dalam data: Bagaimana metrik kualitas data membantu perusahaan maju

Manajer produk memimpin rapat, menjelaskan data di layar dengan grafik.

Penyusun

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Menumbuhkan lingkungan data yang dinamis dapat membantu perusahaan mempercepat pertumbuhan, menurut penelitian baru oleh IBM Institute for Business Value. Tetapi bagaimana organisasi dapat mengetahui apakah data mereka, pada kenyataannya, kaya dan siap untuk mendorong pertumbuhan?

Menggunakan metrik kualitas data dapat membantu.

Metrik kualitas data adalah ukuran kuantitatif untuk mengevaluasi kualitas data. Organisasi dapat memanfaatkan metrik kualitas data untuk melacak dan memantau kualitas data seiring waktu, membantu mengidentifikasi data berkualitas tinggi yang sesuai untuk pengambilan keputusan berbasis data dan contoh penggunaan kecerdasan buatan (AI).

Metrik bervariasi menurut organisasi dan dapat mencerminkan dimensi kualitas data tradisional seperti akurasi, ketepatan waktu, dan keunikan, serta karakteristik khusus untuk pipeline data modern, seperti durasi pipeline. Melalui metrik kualitas data, dimensi kualitas data dapat dipetakan ke nilai numerik.

Alat kualitas data yang didukung oleh otomatisasi dan machine learning dapat membantu insinyur data mengevaluasi metrik kualitas data dan mengidentifikasi masalah kualitas data secara real time. Hal ini memungkinkan organisasi dan tim data mereka untuk mengambil langkah-langkah yang diperlukan guna mengoptimalkan keandalan dan keakuratan kumpulan data serta pipeline data mereka.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa metrik kualitas data penting?

Menjaga data yang berkualitas tinggi dan andal merupakan tujuan bagi banyak organisasi modern. Ada alasan kuat untuk hal itu.

Data yang baik berkontribusi pada kecerdasan bisnis yang berharga, efisiensi operasional, alur kerja yang dioptimalkan, kepatuhan terhadap peraturan, kepuasan pelanggan, pertumbuhan perusahaan, dan kemajuan pada indikator kinerja utama (KPI). Kualitas data yang tinggi juga penting untuk inisiatif AI yang efektif, karena model AI memerlukan pelatihan tentang data yang andal dan akurat untuk memberikan output yang berguna.

Tetapi untuk menuai hasil tersebut, organisasi harus memastikan data mereka benar-benar berkualitas tinggi. Di situlah metrik kualitas data memainkan peran kunci. Metrik kualitas data dapat membantu menentukan kualitas data Anda dengan memetakan dimensi kualitas data ke nilai numerik, seperti skor.1

Melalui penilaian kualitas data, organisasi dapat menentukan kegunaan data mereka untuk keputusan bisnis dan pelatihan model AI. Data berkualitas rendah yang diidentifikasi melalui ukuran kualitas data sering kali dapat diperbaiki melalui upaya remediasi.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Dimensi utama kualitas data

Enam dimensi tradisional yang dilacak melalui metrik kualitas data adalah:

  • Akurasi data: Data mewakili peristiwa dan nilai nyata dengan benar.
  • Kelengkapan data: Data berisi semua catatan yang diperlukan tanpa ada yang hilang.
  • Konsistensi data: Data koheren dan terstandarisasi di seluruh organisasi, memastikan bahwa catatan data dalam kumpulan data yang berbeda kompatibel.
  • Ketepatan waktu data: Nilai data selalu diperbarui, sehingga organisasi dapat menghindari pengambilan keputusan berdasarkan informasi yang sudah usang.
  • Keunikan data: Data bebas dari redundansi atau catatan ganda, yang dapat merusak analisis.
  • Validitas data: Data sesuai dengan aturan bisnis, seperti berada dalam rentang yang diizinkan untuk nilai data tertentu dan memenuhi standar format data yang ditentukan.

Dimensi-dimensi umum kualitas data seringkali dapat diukur melalui rasio sederhana, seperti rasio antara jumlah hasil yang diinginkan (jumlah data yang akurat, entri data yang valid, dll.) dengan total jumlah hasil.2

Misalnya, cara dasar untuk menghitung kelengkapan data adalah:

Kelengkapan = (jumlah elemen data lengkap)/(jumlah total elemen data)

Atau, menggunakan metrik terbalik yang berfokus pada data buruk juga merupakan opsi:

Kelengkapan = 1 - [(elemen data hilang)/(jumlah total elemen data)]

Metode lain untuk mengukur dimensi memerlukan perhitungan yang lebih kompleks.

Misalnya, rumus untuk menghitung ketepatan waktu data mungkin bergantung pada variabel seperti usia data, waktu pengiriman (kapan data dikirimkan), waktu input (kapan data diterima) dan volatilitas (lamanya waktu data tersebut valid).

Metrik kualitas data tambahan

Selain metrik data yang mewakili dimensi kualitas data tradisional, metrik kunci lainnya dapat membantu organisasi menjaga agar pipeline data mereka berjalan dengan lancar. Contohnya antara lain:

  • Kesegaran data: Kadang-kadang digunakan secara bergantian dengan ketepatan waktu data, kesegaran data merujuk secara khusus pada frekuensi pembaruan data dalam suatu sistem. Kebuntuan data terjadi ketika ada kesenjangan yang signifikan antara pembaruan data.
  • Silsilah data: Silsilah data, proses pemantauan dan pelacakan titik sentuh sepanjang perjalanan data, dapat membantu organisasi memastikan keakuratan dan konsistensi data.
  • Jumlah nol: Insinyur dan analis data dapat melacak jumlah nol atau persentase nol dalam suatu kolom. Meningkatnya jumlah nol dapat mengindikasikan masalah seperti kehilangan data dan pergeseran data.
  • Perubahan skema: Perubahan skema yang sering, seperti perubahan jenis data kolom atau penambahan kolom baru, dapat menandakan sumber data yang tidak dapat diandalkan.
  • Kegagalan pipeline: Kegagalan pipeline dapat menyebabkan masalah kesehatan data seperti perubahan skema, operasi data yang hilang, dan data basi.
  • Durasi pipeline: Pipeline data kompleks umumnya membutuhkan waktu yang serupa untuk menyelesaikan berbagai eksekusi. Perubahan besar dalam durasi dapat mengakibatkan pemrosesan data basi.

Pelajari lebih lanjut metrik kualitas data terbaik untuk lingkungan Anda.

Metrik kualitas data dalam proses data utama

Metrik kualitas data mendukung proses data utama seperti tata kelola data, observabilitas data, dan manajemen kualitas data.

Tata kelola data

Tata kelola data adalah disiplin manajemen data yang membantu memastikan integritas data dan keamanan data dengan mendefinisikan dan menerapkan kebijakan, standar kualitas, dan prosedur untuk pengumpulan, kepemilikan, penyimpanan, pemrosesan, dan penggunaan data. Metrik kualitas data seperti konsistensi data dan kelengkapan data membantu organisasi mengevaluasi kemajuan dalam mencapai standar yang ditetapkan melalui praktik tata kelola.

Observabilitas data

Observabilitas data adalah praktik pemantauan dan pengelolaan data untuk membantu memastikan kualitas, ketersediaan, dan keandalannya di berbagai proses, sistem, dan pipeline dalam suatu organisasi. Metrik kualitas data yang dipantau melalui praktik observabilitas data meliputi kesegaran data, jumlah nilai null, dan perubahan skema.

Manajemen kualitas data

Manajemen kualitas data atau DQM adalah kumpulan praktik untuk meningkatkan dan mempertahankan kualitas data organisasi. Praktik inti DQM adalah profil data, yang mencakup ulasan struktur dan isi data yang ada untuk mengevaluasi kualitasnya dan menetapkan dasar untuk mengukur remediasi. Kualitas data dievaluasi berdasarkan dimensi dan metrik kualitas data.

Kualitas data yang buruk yang terungkap melalui pembuatan profil dapat diatasi melalui praktik DQM lain: pembersihan data. Pembersihan data, juga dikenal sebagai pembersihan data, adalah koreksi kesalahan data dan inkonsistensi dalam kumpulan data mentah. Pembersihan data merupakan langkah awal yang penting dalam transformasi data, yang mengubah data mentah menjadi format yang dapat digunakan untuk analisis.

Alat untuk melacak metrik kualitas data

Solusi perangkat lunak dapat menyediakan pemantauan kualitas data secara real-time, termasuk pemantauan kinerja pada metrik kualitas data. Solusi terkemuka dapat mencakup fitur-fitur seperti:

Dasbor yang komprehensif

Tampilan terpadu dari alur kerja dan aset data suatu organisasi memudahkan pengelolaan insiden data di seluruh tumpukan data.

Pemantauan real-time

Pemantauan pemeriksaan kualitas data dan pelanggaran aturan perjanjian tingkat layanan (SLA) terkait dengan pengiriman data yang terlewat, perubahan skema, dan anomali.

Peringatan yang disesuaikan

Notifikasi yang disesuaikan dan otomatis dikirimkan kepada pemangku kepentingan data melalui alat dan platform seperti Slack, PagerDuty, dan email.

Grafik tingkat tren

Grafik pada baris dan operasi yang ditulis dan dibaca setiap hari dapat membantu perusahaan mengidentifikasi tren penting dan pola yang bermasalah.

Silsilah menyeluruh

Silsilah data menyeluruh menunjukkan kumpulan data dan pipeline yang dipengaruhi oleh masalah kualitas data.

Solusi terkait
Solusi kualitas data

IBM menawarkan solusi kualitas data yang mengoptimalkan dimensi utama seperti akurasi, kelengkapan, dan konsistensi.

Jelajahi solusi kualitas data
IBM Databand

IBM Databand menyediakan pemantauan kualitas data secara real-time untuk mendeteksi masalah kualitas data yang buruk dan memastikan kualitas data yang lebih baik.

Jelajahi Databand
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data
Catatan kaki

1, 2A Survey of Data Quality Measurement and Monitoring Tools.” Frontiers in Big Data. 30 Maret 2022.