Apa itu data buruk?

By Alexandra Jonker , Tom Krantz

Data buruk, dijelaskan

Data buruk mengacu pada informasi yang membahayakan pengambilan keputusan karena tidak akurat, tidak lengkap, tidak konsisten, usang, duplikat, tidak valid, atau bias.

Penyebab data buruk bervariasi. Terkadang berasal dari arsitektur data yang buruk; di lain waktu, hal ini merupakan akibat dari kesalahan manusia. Terlepas dari asalnya, ketika organisasi secara tidak sengaja menggunakan data buruk, konsekuensinya dapat berkisar dari ketidaknyamanan kecil, seperti mengirim dokumen pajak ke alamat yang salah, hingga risiko parah seperti pelanggaran peraturan, kerusakan reputasi, dan kerugian finansial.

Bahaya unik dari data yang buruk terletak pada sifatnya yang tersembunyi. Tidak seperti pemadaman sistem, efek data buruk dapat tidak terdeteksi sampai kerusakan signifikan terjadi. Organisasi dapat secara tidak sadar beroperasi pada data buruk selama bertahun-tahun. Misalnya, tim penjualan akan segera melihat jika dasbor Salesforce mereka tidak dimuat, tetapi akan membutuhkan waktu lebih lama untuk menyadari bahwa data yang ditampilkan salah.

Karena volume big data meroket dan para pemimpin bisnis semakin bergantung pada data untuk memperkuat kecerdasan buatan (AI) dan pengambilan keputusan, memaksimalkan kualitas data lebih penting dari sebelumnya. Melalui tata kelola data yang kuat, praktik manajemen kualitas data, dan alat observabilitas data, organisasi dapat membantu memastikan aset data mereka mendorong pertumbuhan, bukan menjadi risiko yang tidak terlihat.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Jenis-jenis data buruk

Data buruk dapat dikategorikan secara luas menggunakan dimensi kunci kualitas data:

Data tidak akurat
Data tidak lengkap
Data tidak konsisten
Data usang
Data duplikat
Data tidak valid
Data bias

Data tidak akurat

Akurasi data mengukur seberapa dekat data mencerminkan peristiwa dan nilai dunia nyata. Ketika data tidak akurat, itu mengandung kesalahan dan tidak dapat diandalkan untuk pengambilan keputusan. Misalnya, data pelanggan yang tidak akurat (seperti titik data tentang harga) dapat mendistorsi pemahaman perusahaan tentang audiens dan menyebabkan tindakan salah arah yang mengikis tingkat kepuasan pelanggan.

Data tidak lengkap

Data yang tidak lengkap kehilangan catatan dan nilai yang diperlukan, kesenjangan yang berdampak pada pemrosesan data dan analisis data. Kesenjangan besar bahkan dapat menimbulkan bias, karena hasil analisis mungkin tidak mewakili kumpulan data yang sebenarnya. Misalnya, jika sebagian besar entri dalam basis data pelanggan tidak memiliki informasi kontak, tim penjualan akan kehilangan kesempatan untuk berinteraksi dengan pelanggan mereka.

Data yang tidak konsisten

Data yang tidak konsisten tidak memiliki standar dan sebagian besar tidak kompatibel di seluruh kumpulan data dan sistem yang berbeda. Perbedaan dalam format tanggal, konvensi penamaan, dan unit pengukuran dapat menyebabkan kebingungan di antara pengguna, membuat silo data dalam platform tertentu dan menimbulkan kesalahan dalam pelaporan atau analisis.

Data usang

Data yang ketinggalan zaman adalah informasi yang tidak lagi terkini, yang dapat menyebabkan pengambil keputusan menggunakan informasi yang tidak relevan yang tidak mewakili kondisi dunia nyata. Kesegaran data adalah metrik yang menunjukkan seberapa sering informasi basis data diperbarui. Kesenjangan yang sangat panjang antara pembaruan dapat mengakibatkan kebasian data.

Data duplikat

Data duplikat (atau data redundan) mengacu pada entri yang berulang dalam sebuah kumpulan data, data unik hanya muncul satu kali. Ini dapat mengubah analisis dengan merepresentasikan nilai atau tren data tertentu secara berlebihan. (Penting untuk dicatat bahwa ada contoh penggunaan redundansi data yang disengaja dalam desain basis data untuk membantu memastikan ketersediaan tinggi, integritas data, dan konsistensi.)

Data tidak valid

Data yang tidak valid adalah informasi yang tidak sesuai dengan aturan sistem atau bisnis (seperti rentang nilai yang diizinkan, format yang diperlukan, dan jenis data yang ditentukan). Contohnya termasuk data yang berisi karakter khusus yang tidak didukung atau nomor telepon yang diformat tanpa tanda hubung yang diperlukan.

Data bias

Meskipun bias itu sendiri bukan dimensi kualitas data, ini merupakan faktor penting bagi pemangku kepentingan untuk dipertimbangkan karena mempengaruhi beberapa dimensi. Data bias tidak akurat atau tidak mewakili peristiwa, populasi, dan kondisi aktual. Ini dapat menyebabkan hasil yang tidak adil, tidak akurat dan tidak dapat diandalkan, dan ketika digunakan dalam sistem machine learning (ML) dan AI, dapat mengakibatkan konsekuensi serius bagi individu, organisasi, dan masyarakat.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Apa dampak dari data buruk?

Data buruk adalah antitesis dari data yang baik. Sementara data berkualitas tinggi mendorong pertumbuhan dan inovasi, data berkualitas buruk memperlambat kemajuan.

Organisasi mengandalkan data untuk keputusan berdasarkan informasi, insight yang dapat ditindaklanjuti, dan perkiraan untuk operasi internal serta pengalaman pelanggan. Keputusan berdasarkan data buruk dapat menyebabkan peluang yang terlewatkan, inefisiensi operasional, dan reputasi yang rusak. Dalam industri seperti keuangan atau layanan kesehatan, di mana data membantu menginformasikan keputusan berisiko tinggi, data buruk dapat memiliki dampak yang parah atau bahkan bencana.

Pertimbangkan studi klinis yang berisi data pasien yang tidak konsisten. Para peneliti akan berjuang untuk membandingkan hasil, yang dapat menunda pengembangan perawatan potensial. Dalam bidang keuangan, data yang tidak akurat atau hilang dapat menimbulkan biaya kepatuhan yang tinggi. Laporan keuangan yang tidak akurat dapat menyebabkan pelanggaran peraturan seperti Undang-Undang Sarbanes-Oxley (SOX), yang dapat membawa denda hingga 1 juta USD dan hingga 10 tahun penjara.

Risiko data buruk meningkat dalam konteks kecerdasan buatan. Ketika model AI atau ML dilatih dengan data yang tidak akurat, tidak konsisten, atau bias, hasilnya akan mencerminkan kesalahan-kesalahan tersebut. Untuk membantu memaksimalkan investasi dalam AI dan ML, organisasi harus memastikan data mereka siap untuk AI.

Unity Technologies adalah contoh utama dari konsekuensi data yang buruk dalam AI dan ML. Pada tahun 2022, algoritma penempatan iklan perusahaan video game menelan data buruk dari pelanggan besar. Kinerja algoritma menurun sampai mereka harus membangunnya kembali. Insiden itu berkontribusi terhadap penurunan 37% pada saham Unity dan diperkirakan berdampak sebesar 110 juta USD bagi perusahaan.

Di sisi lain, data yang baik dan akurat dapat menjadi pendorong bagi inisiatif AI. Riset oleh IBM Institute for Business Value menemukan bahwa organisasi yang memiliki data tepercaya dapat merealisasikan hampir dua kali lipat laba atas investasi dari kemampuan AI mereka. Intinya: Data yang baik adalah prioritas yang tidak dapat dinegosiasikan untuk AI atau strategi berbasis data apa pun.

Apa penyebab data buruk?

Data buruk tidak berasal dari satu akar masalah. Ini dapat muncul dari teknologi, proses, atau manusia, dan umumnya merupakan kombinasi dari beberapa hal. Beberapa penyebab umum dari kualitas data yang buruk meliputi:

Kegagalan sistem
Peluruhan data
Pengumpulan data yang tidak andal
Tata kelola data yang lemah
Kesalahan manusia
Integrasi data atau gangguan migrasi

Kegagalan sistem

Arsitektur data yang dirancang dengan buruk dapat menyebabkan silo data, kinerja yang lambat, dan bug perangkat lunak yang menurunkan konsistensi dan keandalan data. Ketika sistem gagal, file dapat rusak atau dibiarkan tidak lengkap, mengakibatkan missing values dan ketidakakuratan dalam proses hilir.

Peluruhan data

Banyak jenis data bisnis (seperti metrik perilaku konsumen) dapat membusuk jika tidak diperbarui secara teratur. Ketika basis data usang, insight atau keputusan apa pun berdasarkan pada data yang sudah usang, dan kemungkinan tidak akurat.

Pengumpulan data yang tidak andal

Data buruk dapat berasal dari pengumpulan, dan bukan hanya dari sumber atau penyedia data berkualitas rendah. Bias, metode yang tidak konsisten, alat yang salah, atau pengukuran yang tidak akurat selama entri dan pemrosesan data semuanya dapat membahayakan kualitas data.

Tata kelola data yang lemah

Sebagai sebuah disiplin, tata kelola data mendefinisikan dan mengimplementasikan kebijakan, standar, dan prosedur untuk seluruh siklus hidup data. Ketika praktik-praktik ini diterapkan secara tidak konsisten atau tanpa akuntabilitas, kualitas data dengan cepat terkikis.

Kesalahan manusia

Kesalahan manusia sering menjadi penyebab data buruk. Kesalahan ketik selama entri data manual, pengodean data yang tidak konsisten, bias atau salah tafsir semuanya dapat menyebabkan ketidakakuratan data. Kesalahan manusia diperburuk oleh tekanan waktu, pelatihan yang tidak memadai, dan sistem yang dirancang dengan buruk.

Kegagalan integrasi atau migrasi

Migrasi data atau integrasi data tanpa proses, perencanaan, dan teknologi yang tepat dapat mengakibatkan hilangnya data, inkonsistensi, dan ketidakakuratan. Masalah ini sering muncul dari format dan struktur data yang tidak cocok atau dependensi yang tidak teramati.

Cara mencegah data buruk

Di dunia yang sempurna, data buruk akan ditangkap pada sumbernya dan tidak pernah mencapai sistem hilir atau alur kerja analitik data. Namun, pada kenyataannya, kualitas data dapat menurun pada titik mana pun dalam siklus hidupnya dan karena berbagai alasan.

Mencegah data buruk di semua tahap memerlukan strategi komprehensif yang menangani risiko di setiap fase. Strategi ini dapat menggabungkan praktik-praktik berikut:

Tata kelola dan strategi
Pemantauan dan visibilitas
Pembersihan dan remediasi
Keterampilan dan literasi data

Tata Kelola dan strategi

Membangun tata kelola data yang kuat adalah langkah pertama yang penting dalam mencegah data buruk. Ini mendefinisikan dan memberlakukan kebijakan, standar, dan prosedur yang diperlukan untuk mempertahankan data yang akurat dan berkualitas tinggi melalui siklus hidupnya. Kerangka kerja tata kelola yang kuat dapat membantu organisasi mengidentifikasi dan mengatasi ketidakakuratan sebelum hal tersebut mempengaruhi pengambilan keputusan dan efisiensi operasional.

Tata kelola data yang efektif harus melengkapi dan meningkatkan strategi data organisasi yang lebih luas. Biasanya, hal ini bekerja bersama dengan disiplin ilmu lain, seperti manajemen data, keamanan data, dan arsitektur data-untuk menjaga agar data tetap konsisten dan dapat diandalkan.

Pemantauan dan visibilitas

Anda tidak dapat memperbaiki data buruk jika Anda tidak tahu data itu ada. Organisasi dapat menggunakan beberapa proses untuk mendapatkan visibilitas ke dalam dan terus memantau kesehatan data mereka:

Garis keturunan data: Alat-alat ini memberikan pandangan yang jelas tentang bagaimana data (dan metadatanya) bergerak dan berubah sepanjang siklus hidupnya, termasuk asal dan tujuan akhirnya. Visibilitas ke dalam silsilah data mendukung analisis akar masalah dan kepatuhan terhadap peraturan.
Audit data: Ulasan dan analisis rutin data perusahaan membantu memetakan visual lingkungan data. Audit membantu organisasi menemukan, mengklasifikasikan, dan memantau data mereka untuk mengungkap risiko, ketidakakuratan, dan ketidakkonsistenan.
Pembuatan profil data: Proses pembuatan profil data menganalisis data untuk mendapatkan insight tentang struktur dan kualitasnya sehingga tim dapat merencanakan remediasi. Ini biasanya dilakukan oleh insinyur data yang menggunakan berbagai aturan bisnis dan algoritme analitik.
Observabilitas data: Melampaui pemantauan tradisional, alat observabilitas data menggunakan otomatisasi dan kecerdasan untuk membantu mengidentifikasi, memecahkan masalah, dan menyelesaikannya masalah data nyaris seketika, sebelum mereka memiliki kesempatan untuk menyebar ke operasi bisnis.

Pembersihan dan remediasi

Dengan kesalahan data dan akar penyebabnya diidentifikasi, data buruk kemudian harus diperbaiki. Proses pembersihan data berfungsi untuk mengatasi masalah kualitas data umum seperti catatan duplikat, missing values, inkonsistensi, kesalahan sintaks, data yang tidak relevan, dan kesalahan struktural. Teknik yang umum digunakan meliputi standarisasi, mengatasi outlier dan hilangnya nilai, deduplikasi, dan validasi data.

Tim data semakin meningkatkan penggunaan AI untuk mengotomatiskan dan mengoptimalkan beberapa langkah ini, terutama tugas-tugas seperti standardisasi dan deduplikasi.

Keterampilan dan literasi data

Organisasi yang sadar data memiliki keterampilan untuk membaca, memahami, menggunakan, dan berkomunikasi dengan data untuk pengambilan keputusan yang lebih baik. Kemampuan untuk mengevaluasi data secara kritis juga meningkatkan kualitas data secara keseluruhan: Karyawan dengan keterampilan data dasar pun lebih siap untuk mengenali bias, inkonsistensi, ketidakakuratan, atau missing values.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Render 3D dari spiral beberapa ikon yang berbaris seperti kamera, kenop volume, dan clipboard

Baca panduan Pemimpin Data untuk mempelajari cara Anda dapat membuat data organisasi Anda yang siap untuk AI.

Sumber daya

Render 3D dari beberapa ikon berjajar seperti mikrofon dan kamera

Agen AI berjalan pada data. Apakah data Anda siap?

Data Anda adalah keunggulan kompetitif Anda. Pelajari cara memanfaatkan dengan aman dan mendorong ROI terukur dari AI di webinar singkat ini.

Penjelasan tentang manajemen data

Techsplainers oleh IBM menjelaskan dasar-dasar data untuk AI, dari konsep kunci ke contoh penggunaan dunia nyata. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Rendering 3D dari beberapa ikon berjajar, seperti tombol volume dan clipboard

Satukan dan akses data Anda untuk membantu meningkatkan skala AI Anda

Pelajari mengapa jalur menuju data yang siap untuk AI sering dimulai dengan akses efektif ke data terstruktur dan tidak terstruktur dan tantangan yang dapat menghambat para pemimpin data.

Biaya hukum berubah menjadi insight strategis

Pelajari bagaimana agen hukum yang didukung AI membantu mempercepat pengambilan keputusan, mengurangi pekerjaan manual, dan meningkatkan kepatuhan.

Akademi AI: Membangun Strategi data untuk AI perusahaan

Dalam episode ini, Cathy Reese menjelaskan bagaimana organisasi saat ini membutuhkan strategi data yang siap untuk AI canggih, yang akan mengharuskan mereka untuk memanfaatkan aset data kualitas tertinggi mereka.

Render 3D dari beberapa ikon berjajar seperti kamera dan pesawat kertas

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Render 3D dari dua baris dari beberapa ikon seperti kamera, kenop volume, dan clipboard

Panduan pemimpin data untuk data siap AI

Pahami langkah-langkah yang dapat ditindaklanjuti yang dapat diambil oleh pemimpin data untuk mengatasi tantangan data, membangun dasar untuk landasan data tepercaya, dan membantu menyiapkan data organisasi Anda untuk AI.

Render 3D dari beberapa ikon berbaris seperti kamera, kenop volume, dan clipboard

Bagaimana C-suite mengubah informasi menjadi dampak

Jelajahi insight dari 1.700 CDO dalam laporan lintas-industri untuk pemimpin data ini.

Solusi terkait

Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data

IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data

Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik

Ambil langkah selanjutnya