Berita teknologi terbaru, didukung oleh insight dari pakar
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Data buruk mengacu pada informasi yang membahayakan pengambilan keputusan karena tidak akurat, tidak lengkap, tidak konsisten, usang, duplikat, tidak valid, atau bias.
Penyebab data buruk bervariasi. Terkadang berasal dari arsitektur data yang buruk; di lain waktu, hal ini merupakan akibat dari kesalahan manusia. Terlepas dari asalnya, ketika organisasi secara tidak sengaja menggunakan data buruk, konsekuensinya dapat berkisar dari ketidaknyamanan kecil, seperti mengirim dokumen pajak ke alamat yang salah, hingga risiko parah seperti pelanggaran peraturan, kerusakan reputasi, dan kerugian finansial.
Bahaya unik dari data yang buruk terletak pada sifatnya yang tersembunyi. Tidak seperti pemadaman sistem, efek data buruk dapat tidak terdeteksi sampai kerusakan signifikan terjadi. Organisasi dapat secara tidak sadar beroperasi pada data buruk selama bertahun-tahun. Misalnya, tim penjualan akan segera melihat jika dasbor Salesforce mereka tidak dimuat, tetapi akan membutuhkan waktu lebih lama untuk menyadari bahwa data yang ditampilkan salah.
Karena volume big data meroket dan para pemimpin bisnis semakin bergantung pada data untuk memperkuat kecerdasan buatan (AI) dan pengambilan keputusan, memaksimalkan kualitas data lebih penting dari sebelumnya. Melalui tata kelola data yang kuat, praktik manajemen kualitas data, dan alat observabilitas data, organisasi dapat membantu memastikan aset data mereka mendorong pertumbuhan, bukan menjadi risiko yang tidak terlihat.
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Data buruk dapat dikategorikan secara luas menggunakan dimensi kunci kualitas data:
Akurasi data mengukur seberapa dekat data mencerminkan peristiwa dan nilai dunia nyata. Ketika data tidak akurat, itu mengandung kesalahan dan tidak dapat diandalkan untuk pengambilan keputusan. Misalnya, data pelanggan yang tidak akurat (seperti titik data tentang harga) dapat mendistorsi pemahaman perusahaan tentang audiens dan menyebabkan tindakan salah arah yang mengikis tingkat kepuasan pelanggan.
Data yang tidak lengkap kehilangan catatan dan nilai yang diperlukan, kesenjangan yang berdampak pada pemrosesan data dan analisis data. Kesenjangan besar bahkan dapat menimbulkan bias, karena hasil analisis mungkin tidak mewakili kumpulan data yang sebenarnya. Misalnya, jika sebagian besar entri dalam basis data pelanggan tidak memiliki informasi kontak, tim penjualan akan kehilangan kesempatan untuk berinteraksi dengan pelanggan mereka.
Data yang tidak konsisten tidak memiliki standar dan sebagian besar tidak kompatibel di seluruh kumpulan data dan sistem yang berbeda. Perbedaan dalam format tanggal, konvensi penamaan, dan unit pengukuran dapat menyebabkan kebingungan di antara pengguna, membuat silo data dalam platform tertentu dan menimbulkan kesalahan dalam pelaporan atau analisis.
Data yang ketinggalan zaman adalah informasi yang tidak lagi terkini, yang dapat menyebabkan pengambil keputusan menggunakan informasi yang tidak relevan yang tidak mewakili kondisi dunia nyata. Kesegaran data adalah metrik yang menunjukkan seberapa sering informasi basis data diperbarui. Kesenjangan yang sangat panjang antara pembaruan dapat mengakibatkan kebasian data.
Data duplikat (atau data redundan) mengacu pada entri yang berulang dalam sebuah kumpulan data, data unik hanya muncul satu kali. Ini dapat mengubah analisis dengan merepresentasikan nilai atau tren data tertentu secara berlebihan. (Penting untuk dicatat bahwa ada contoh penggunaan redundansi data yang disengaja dalam desain basis data untuk membantu memastikan ketersediaan tinggi, integritas data, dan konsistensi.)
Data yang tidak valid adalah informasi yang tidak sesuai dengan aturan sistem atau bisnis (seperti rentang nilai yang diizinkan, format yang diperlukan, dan jenis data yang ditentukan). Contohnya termasuk data yang berisi karakter khusus yang tidak didukung atau nomor telepon yang diformat tanpa tanda hubung yang diperlukan.
Meskipun bias itu sendiri bukan dimensi kualitas data, ini merupakan faktor penting bagi pemangku kepentingan untuk dipertimbangkan karena mempengaruhi beberapa dimensi. Data bias tidak akurat atau tidak mewakili peristiwa, populasi, dan kondisi aktual. Ini dapat menyebabkan hasil yang tidak adil, tidak akurat dan tidak dapat diandalkan, dan ketika digunakan dalam sistem machine learning (ML) dan AI, dapat mengakibatkan konsekuensi serius bagi individu, organisasi, dan masyarakat.
Data buruk adalah antitesis dari data yang baik. Sementara data berkualitas tinggi mendorong pertumbuhan dan inovasi, data berkualitas buruk memperlambat kemajuan.
Organisasi mengandalkan data untuk keputusan berdasarkan informasi, insight yang dapat ditindaklanjuti, dan perkiraan untuk operasi internal serta pengalaman pelanggan. Keputusan berdasarkan data buruk dapat menyebabkan peluang yang terlewatkan, inefisiensi operasional, dan reputasi yang rusak. Dalam industri seperti keuangan atau layanan kesehatan, di mana data membantu menginformasikan keputusan berisiko tinggi, data buruk dapat memiliki dampak yang parah atau bahkan bencana.
Pertimbangkan studi klinis yang berisi data pasien yang tidak konsisten. Para peneliti akan berjuang untuk membandingkan hasil, yang dapat menunda pengembangan perawatan potensial. Dalam bidang keuangan, data yang tidak akurat atau hilang dapat menimbulkan biaya kepatuhan yang tinggi. Laporan keuangan yang tidak akurat dapat menyebabkan pelanggaran peraturan seperti Undang-Undang Sarbanes-Oxley (SOX), yang dapat membawa denda hingga 1 juta USD dan hingga 10 tahun penjara.
Risiko data buruk meningkat dalam konteks kecerdasan buatan. Ketika model AI atau ML dilatih dengan data yang tidak akurat, tidak konsisten, atau bias, hasilnya akan mencerminkan kesalahan-kesalahan tersebut. Untuk membantu memaksimalkan investasi dalam AI dan ML, organisasi harus memastikan data mereka siap untuk AI.
Unity Technologies adalah contoh utama dari konsekuensi data yang buruk dalam AI dan ML. Pada tahun 2022, algoritma penempatan iklan perusahaan video game menelan data buruk dari pelanggan besar. Kinerja algoritma menurun sampai mereka harus membangunnya kembali. Insiden itu berkontribusi terhadap penurunan 37% pada saham Unity dan diperkirakan berdampak sebesar 110 juta USD bagi perusahaan.
Di sisi lain, data yang baik dan akurat dapat menjadi pendorong bagi inisiatif AI. Riset oleh IBM Institute for Business Value menemukan bahwa organisasi yang memiliki data tepercaya dapat merealisasikan hampir dua kali lipat laba atas investasi dari kemampuan AI mereka. Intinya: Data yang baik adalah prioritas yang tidak dapat dinegosiasikan untuk AI atau strategi berbasis data apa pun.
Data buruk tidak berasal dari satu akar masalah. Ini dapat muncul dari teknologi, proses, atau manusia, dan umumnya merupakan kombinasi dari beberapa hal. Beberapa penyebab umum dari kualitas data yang buruk meliputi:
Arsitektur data yang dirancang dengan buruk dapat menyebabkan silo data, kinerja yang lambat, dan bug perangkat lunak yang menurunkan konsistensi dan keandalan data. Ketika sistem gagal, file dapat rusak atau dibiarkan tidak lengkap, mengakibatkan missing values dan ketidakakuratan dalam proses hilir.
Banyak jenis data bisnis (seperti metrik perilaku konsumen) dapat membusuk jika tidak diperbarui secara teratur. Ketika basis data usang, insight atau keputusan apa pun berdasarkan pada data yang sudah usang, dan kemungkinan tidak akurat.
Data buruk dapat berasal dari pengumpulan, dan bukan hanya dari sumber atau penyedia data berkualitas rendah. Bias, metode yang tidak konsisten, alat yang salah, atau pengukuran yang tidak akurat selama entri dan pemrosesan data semuanya dapat membahayakan kualitas data.
Sebagai sebuah disiplin, tata kelola data mendefinisikan dan mengimplementasikan kebijakan, standar, dan prosedur untuk seluruh siklus hidup data. Ketika praktik-praktik ini diterapkan secara tidak konsisten atau tanpa akuntabilitas, kualitas data dengan cepat terkikis.
Kesalahan manusia sering menjadi penyebab data buruk. Kesalahan ketik selama entri data manual, pengodean data yang tidak konsisten, bias atau salah tafsir semuanya dapat menyebabkan ketidakakuratan data. Kesalahan manusia diperburuk oleh tekanan waktu, pelatihan yang tidak memadai, dan sistem yang dirancang dengan buruk.
Migrasi data atau integrasi data tanpa proses, perencanaan, dan teknologi yang tepat dapat mengakibatkan hilangnya data, inkonsistensi, dan ketidakakuratan. Masalah ini sering muncul dari format dan struktur data yang tidak cocok atau dependensi yang tidak teramati.
Di dunia yang sempurna, data buruk akan ditangkap pada sumbernya dan tidak pernah mencapai sistem hilir atau alur kerja analitik data. Namun, pada kenyataannya, kualitas data dapat menurun pada titik mana pun dalam siklus hidupnya dan karena berbagai alasan.
Mencegah data buruk di semua tahap memerlukan strategi komprehensif yang menangani risiko di setiap fase. Strategi ini dapat menggabungkan praktik-praktik berikut:
Membangun tata kelola data yang kuat adalah langkah pertama yang penting dalam mencegah data buruk. Ini mendefinisikan dan memberlakukan kebijakan, standar, dan prosedur yang diperlukan untuk mempertahankan data yang akurat dan berkualitas tinggi melalui siklus hidupnya. Kerangka kerja tata kelola yang kuat dapat membantu organisasi mengidentifikasi dan mengatasi ketidakakuratan sebelum hal tersebut mempengaruhi pengambilan keputusan dan efisiensi operasional.
Tata kelola data yang efektif harus melengkapi dan meningkatkan strategi data organisasi yang lebih luas. Biasanya, hal ini bekerja bersama dengan disiplin ilmu lain, seperti manajemen data, keamanan data, dan arsitektur data-untuk menjaga agar data tetap konsisten dan dapat diandalkan.
Anda tidak dapat memperbaiki data buruk jika Anda tidak tahu data itu ada. Organisasi dapat menggunakan beberapa proses untuk mendapatkan visibilitas ke dalam dan terus memantau kesehatan data mereka:
Dengan kesalahan data dan akar penyebabnya diidentifikasi, data buruk kemudian harus diperbaiki. Proses pembersihan data berfungsi untuk mengatasi masalah kualitas data umum seperti catatan duplikat, missing values, inkonsistensi, kesalahan sintaks, data yang tidak relevan, dan kesalahan struktural. Teknik yang umum digunakan meliputi standarisasi, mengatasi outlier dan hilangnya nilai, deduplikasi, dan validasi data.
Tim data semakin meningkatkan penggunaan AI untuk mengotomatiskan dan mengoptimalkan beberapa langkah ini, terutama tugas-tugas seperti standardisasi dan deduplikasi.
Organisasi yang sadar data memiliki keterampilan untuk membaca, memahami, menggunakan, dan berkomunikasi dengan data untuk pengambilan keputusan yang lebih baik. Kemampuan untuk mengevaluasi data secara kritis juga meningkatkan kualitas data secara keseluruhan: Karyawan dengan keterampilan data dasar pun lebih siap untuk mengenali bias, inkonsistensi, ketidakakuratan, atau missing values.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.