Apa itu data kotor?

By Alexandra Jonker , Judith Aquino

Data kotor, didefinisikan

Data kotor adalah informasi yang tidak akurat, tidak valid, tidak lengkap atau tidak konsisten, sehingga tidak dapat diandalkan untuk penggunaan bisnis.

Data kotor dapat mengambil berbagai bentuk. Ini mungkin termasuk catatan duplikat, nilai hilang atau nol, format yang tidak konsisten, informasi usang, entri tidak valid, hubungan yang rusak antara catatan atau definisi yang bertentangan di seluruh sistem.

Masalah kualitas data seperti ini dapat terjadi di setiap titik dalam siklus hidup data, mulai dari pengambilan awal hingga analisis dan distribusi hilir. Mengatasinya sangat penting karena input yang tidak akurat atau tidak konsisten dapat merusak akurasi keputusan, mendistorsi hasil analisis data, menurunkan kinerja model kecerdasan buatan (AI) dan meningkatkan risiko dengan menskalakan kesalahan di seluruh sistem dan proses.

Organisasi dapat memanfaatkan berbagai alat dan teknik untuk membersihkan data kotor, termasuk pembuatan profil, validasi, deduplikasi, standardisasi, dan pemantauan. Upaya-upaya ini akan lebih efektif jika didukung oleh tata kelola data yang kuat. Tata kelola menyediakan struktur yang diperlukan untuk menentukan kepemilikan, menetapkan standar dan menanamkan kontrol yang mencegah masalah kualitas data muncul kembali dan mempertahankan peningkatan.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Biaya data kotor

Organisasi yang gagal mengatasi data kotor rentan terhadap biaya keuangan dan operasional yang besar. Ketika tim mengandalkan data yang tidak akurat—sering disebut sebagai data kotor atau data buruk—mereka cenderung membuat keputusan bisnis yang tidak sesuai dengan kenyataan dan kondisi pasar.

Risiko-risiko ini diakui secara luas: Laporan IBM Institute for Business Value (IBV) 2025 menemukan bahwa 43% dari chief operasi officer menyebut kualitas data sebagai prioritas data utama mereka.¹ Dan lebih dari seperempat organisasi memperkirakan kerugian tahunan melebihi USD 5 juta karena kualitas data yang buruk, menurut Forrester.²

Data kotor juga dapat menyebabkan:

Keputusan dan perencanaan yang buruk karena data yang ketinggalan zaman dan catatan duplikat
Kampanye pemasaran yang tidak efektif, keputusan penjualan dan hasil pengalaman pelanggan didorong oleh data pelanggan yang tidak lengkap
Denda ketidakpatuhan dan kegagalan audit yang disebabkan oleh data yang tidak akurat, informasi yang hilang, dan ketidakakuratan lainnya
Pembersihan data dan rekonsiliasi data yang memakan waktu untuk memperbaiki kesalahan seperti kesalahan pengetikan dan data yang hilang
Peningkatan ketergantungan pada TI untuk akses dan perbaikan data dasar
Kepercayaan yang lebih rendah dalam analisis data, yang menyebabkan pengambilan keputusan tertunda
Inovasi yang lebih lambat dan mengurangi ROI dari analitik dan investasi AI
Kehilangan keunggulan kompetitif karena eksekusi berbasis data yang buruk

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Dampak data kotor terhadap AI

Data yang kotor memiliki dampak yang lebih besar pada sistem AI, termasuk model bahasa besar (LLM). Sistem ini (dan algoritma yang mendasarinya) belajar dengan mengidentifikasi pola statistik di seluruh kumpulan data dalam skala besar. Oleh karena itu, kesalahan atau bias apa pun dalam dataset dapat dipelajari selama pelatihan dan tercermin dalam output yang cacat dan menyesatkan selama inferensi. Bahkan, Gartner memprediksi bahwa “hingga 2026, organisasi akan meninggalkan 60% proyek AI yang tidak didukung oleh data Siap untuk AI.”³

Akibatnya, pentingnya data berkualitas tinggi dan diatur dengan baik makin terasa dengan meningkatnya adopsi AI. Praktik kualitas data yang kuat mendukung output model yang lebih akurat, andal, dan dapat dipercaya. Keuntungan ini diterjemahkan ke dalam dampak bisnis yang terukur. Penelitian dari IBV menunjukkan bahwa perusahaan dengan volume data besar yang dipercaya oleh pemangku kepentingan internal dan eksternal mencapai hampir dua kali lipat pengembalian investasi dari kemampuan AI mereka.⁴

Akar masalah data kotor

Data berkualitas rendah atau data kotor, tidak muncul secara spontan; hal ini adalah hasil dari faktor organisasi, teknis, dan manusia. Akar masalah data kotor sering kali dapat ditelusuri kembali ke sumber dan praktik berikut ini:

Kesalahan manusia
Silo data
Tata kelola data yang lemah
Integrasi data yang cacat
Utang teknis
Kurangnya validasi dan kontrol kualitas
Prioritas yang tidak selaras
Lingkaran masukan machine learning

Kesalahan manusia

Entri data manual secara inheren rawan kesalahan karena pengulangan, tekanan waktu, dan beban kognitif, yang dapat mengakibatkan data yang salah seperti kesalahan ketik, karakter yang ditransposisikan, materi sumber yang salah baca, dan kesalahan salin-tempel. Ketika kesalahan manusia seperti itu sistematis, mereka dapat dengan cepat berkembang biak dan membutuhkan proses pembersihan yang ekstensif.

Silo data

Data silo dapat menghasilkan data yang kotor dengan memecah informasi di seluruh departemen. Ketika tim memelihara kumpulan data terisolasi tanpa standar atau koordinasi bersama, catatan duplikat dan tidak selaras dapat berkembang biak.

Tata kelola data yang lemah

Data kotor dapat berkembang tanpa adanya pengawasan terpusat, kepemilikan data yang ditentukan, standar yang dapat ditegakkan, dan keunggulan lain dari tata kelola data yang kuat.

Dalam kondisi ini, departemen menangkap dan mengelola data secara tidak konsisten, mengakibatkan masalah yang menumpuk dari waktu ke waktu, seperti format dan konvensi penamaan yang bertentangan, definisi data yang tidak konsisten, dan entri yang tidak valid yang merusak keandalan data.

Integrasi data yang cacat

Mengintegrasikan data di berbagai sistem yang berbeda dan terspesialisasi dapat menimbulkan kesalahan melalui ketidaksesuaian skema, transformasi yang salah, dan transfer yang tidak lengkap. Risiko-risiko ini meningkat dengan arsitektur cloud dan hybrid , di mana data berpindah antar-lingkungan dengan format dan aturan validasi yang berbeda.

Utang teknis

Sistem lama sering kali mengandalkan model data yang sudah ketinggalan zaman, validasi yang terbatas, dan antarmuka yang rapuh yang tidak lagi sesuai dengan kebutuhan bisnis saat ini. Seiring berkembangnya persyaratan, sistem ini menumpuk hutang teknis yang memaksa solusi manual. Ini juga meningkatkan kemungkinan kesalahan data struktural, termasuk outlier yang tidak ditandai yang mendistorsi pelaporan dan analisis hilir.

Kurangnya validasi dan kontrol kualitas

Ketika data diterima tanpa validasi real time— seperti pemeriksaan rentang, penegakan format, bidang wajib, atau batasan keunikan—kesalahan masuk ke sistem secara diam-diam. Setelah tertelan, cacat ini menyebar ke hilir, menjadi lebih sulit dan lebih mahal untuk deteksi dan diperbaiki.

Prioritas yang tidak selaras

Data kotor mungkin mencerminkan prioritas organisasi daripada kekurangan teknis. Ketika kecepatan, volume, atau pengiriman jangka pendek lebih diutamakan daripada keakuratan dan pengelolaan data, tingkat kesalahan sering kali meningkat dan tanggung jawab untuk menjaga data yang bersih menjadi tidak jelas.

Lingkaran masukan machine learning

Sistem machine learning dapat secara tidak sengaja memperkenalkan atau memperkuat data kotor. Ketika ilmuwan data melatih model pada kumpulan data yang cacat, bias, atau tidak lengkap, output model nantinya dapat diintegrasikan kembali sebagai input tanpa validasi atau pengawasan yang memadai.

Cara membersihkan data kotor

Membersihkan data kotor adalah praktik manajemen data dasar yang menggabungkan proses, teknik, perkakas, dan tata kelola. Pembersihan data melibatkan pemahaman bagaimana data dikumpulkan dari sumber data yang berbeda dan dikelola di seluruh siklus hidupnya; mengidentifikasi dan memperbaiki kesalahan seperti data duplikat, data yang tidak konsisten, data tidak lengkap; memvalidasi hasil dan menyematkan kontrol untuk mempertahankan data yang andal.

Delapan langkah pembersihan data yang paling umum meliputi:

Menangkap konteks dan penggunaan data
Memahami konteks bisnis, siklus hidup, dan bagaimana data diperoleh, diintegrasikan, dan digunakan untuk analisis atau pengambilan keputusan.
Mendefinisikan persyaratan dan hubungan data
Mengklarifikasi bidang yang diperlukan, relevansi setiap elemen, dan hubungan yang diharapkan di dalam dan di antara tabel untuk memastikan data mendukung tujuan analisis atau operasional yang diinginkan.
Meninjau sampel
Memeriksa sampel data representatif untuk mengidentifikasi masalah kualitas yang jelas, seperti catatan yang tidak relevan, format yang tidak konsisten, dan kesalahan struktural yang diperkenalkan selama pengumpulan atau Integrasi data.
Menetapkan garis dasar kualitas data
Membuat profil data (menganalisis jumlah baris, distribusi, missing values, duplikat dan inkonsistensi) untuk menetapkan garis dasar kualitas dan menilai kesesuaian keseluruhan untuk digunakan.
Mengidentifikasi aturan dan batasan kualitas data
Mendokumentasikan aturan kualitas data untuk bidang dan hubungan, termasuk format, rentang, nilai yang diizinkan, kunci, dan aturan yang memastikan catatan terkait tetap terhubung dengan tepat.
Menganalisis akar masalah
Mengevaluasi pengecualian dan kegagalan untuk menentukan akar masalah, seperti kesalahan entri data, keterbatasan sistem, kelemahan Integrasi atau definisi bisnis yang ambigu.
Menerapkan remediasi dan kontrol pencegahan
Mengatasi masalah yang teridentifikasi dan menerapkan proses atau kontrol sistem yang selaras dengan tata kelola. Misalnya, validasi saat entri, definisi standar, dan pemeriksaan otomatis, untuk mengurangi pengulangan dan meningkatkan manajemen data jangka panjang.
Melacak dan mengatur metrik kualitas data
Menetapkan dan memantau metrik kualitas data (termasuk kelengkapan, akurasi, konsistensi, ketepatan waktu, dan validitas) untuk melacak peningkatan dan mendukung kepatuhan.

Alat dan teknik pembersihan data

Berbagai macam alat dan teknik pembersihan data—beberapa dengan kemampuan yang tumpang tindih—dirancang untuk mengatasi berbagai tantangan kualitas data, kasus penggunaan, dan tingkat kompleksitas di seluruh siklus hidup data:

Platform pembersihan dan integrasi ujung-ke-ujung

Platform integrasi data terpadu
Platform ini dibuat untuk memindahkan, mengubah, dan menyatukan data dalam berbagai format di seluruh sistem. Mereka biasanya menawarkan kemampuan pembersihan menyeluruh, termasuk profil data, validasi, deduplikasi, transformasi, dan pembersihan berbasis aturan, sering kali dengan antarmuka rendah atau tanpa kode.
Platform pencocokan dan kualitas serba dalam satu
Dibandingkan dengan platform integrasi data terpadu, platform ini lebih fokus pada peningkatan kepercayaan dan konsistensi data dengan kemampuan yang lebih dalam untuk pencocokan data, resolusi entitas, standardisasi, dan pengelolaan.
Platform data yang berfokus pada pelanggan
Platform ini biasanya menawarkan fitur kualitas data, deduplikasi, dan resolusi identitas yang membantu mengelola dan merekonsiliasi catatan pelanggan di seluruh sistem.

Solusi pembersihan data spesialis

Alat bantu kualitas yang berorientasi pada pengguna bisnis
Alat bantu ini dirancang untuk tim non-teknis, dengan dukungan pencocokan probabilistik, deduplikasi, validasi kontak dan alamat, serta standardisasi berbasis aturan.
Layanan validasi khusus domain
Solusi ini dapat mencakup validasi alamat dan pos, verifikasi email dan validasi nomor telepon, sering disampaikan sebagai layanan atau antarmuka pemrograman aplikasi (API).

Kemampuan yang berorientasi pada analisis dan rekayasa

Observabilitas data dan alat pemantauan
Alat ini dirancang untuk terus memantau pipeline data untuk perubahan skema, anomali, dan pelanggaran harapan kualitas untuk mendeteksi masalah lebih awal.
Fitur persiapan dan pengujian data bawaan
Banyak kerangka kerja intelijen bisnis (BI), ekstrak, transformasi, muat (ETL) dan transformasi mencakup pembuatan profil, aturan validasi, dan pengujian yang menerapkan pemeriksaan kualitas data inti sebagai bagian dari alur kerja data rutin.

Mengapa tata kelola data penting untuk kualitas data jangka panjang

Memperbaiki data kotor dalam organisasi lebih dari sekedar mengatasi masalah yang terisolasi; itu juga membutuhkan koreksi masalah kualitas data yang tertanam dalam proses, teknologi, dan model kepemilikan.

Tata kelola data menyediakan kerangka kerja organisasi yang membantu memastikan data dapat dipercaya dan dapat digunakan di seluruh bisnis dengan mendefinisikan kebijakan, peran, proses, dan alat untuk mengelola data di seluruh siklus hidupnya. Dengan menanamkan akuntabilitas dan kontrol di hulu, tata kelola membantu mencegah masalah kualitas berulang dan mendukung peningkatan berkelanjutan dalam kualitas data.

Dalam survei IBV, 54% eksekutif melaporkan bahwa penerapan tata kelola data dan manajemen data yang efektif adalah prioritas bagi organisasi mereka.⁵

Untuk memahami mengapa tata kelola data telah menjadi fokus penting, ini membantu untuk memperjelas apa yang dilakukan tata kelola dalam praktiknya. Tata kelola menentukan siapa pemilik data, bagaimana data tersebut harus ditangani, dan aturan apa yang harus dipatuhi agar dianggap sebagai data yang dapat diandalkan. Pertimbangkan tata kelola sebagai sistem “kontrol lalu lintas udara” untuk data: Sistem ini Orchestrate akses, standar kualitas, dan kepatuhan sehingga data Verify mengalir ke pengguna dan sistem yang tepat.

Kerangka kerja tata kelola data yang kuat biasanya mencakup:

Peran dan tanggung jawab yang telah ditentukan
Kebijakan dan standar yang jelas
Prosedur audit dan pemantauan

Peran dan tanggung jawab yang jelas

Dewan tata kelola atau komite pengarah menetapkan strategi data, prioritas, dan otoritas pengambilan keputusan di seluruh organisasi. Pemilik data bertanggung jawab atas kualitas data dalam domain bisnis tertentu, sementara penjaga data menangani manajemen kualitas data sehari-hari dan bekerja untuk menstandarkan definisi data dan business rules.

Kebijakan dan standar yang jelas

Pedoman terdokumentasi menentukan bagaimana data harus diformat, diberi nama, diakses, dan dilindungi. Kebijakan ini juga mempromosikan konsistensi, mengurangi ambiguitas dan memastikan data ditangani dengan cara yang sesuai dan aman.

Prosedur audit dan pemantauan

Audit berkelanjutan dan proses pemantauan digunakan untuk menilai kualitas data, kepatuhan kebijakan, dan kepatuhan terhadap standar yang ditentukan dari waktu ke waktu. Kegiatan ini membantu mengidentifikasi masalah sejak dini, melacak perbaikan dan memberikan transparansi dan akuntabilitas tentang bagaimana data dikelola dan digunakan.

Penyusun

Alexandra Jonker

Staff Editor

IBM Think

Judith Aquino

Staff Writer

IBM Think

Render 3D dari spiral beberapa ikon yang berbaris seperti kamera, kenop volume, dan clipboard

Baca panduan Pemimpin Data untuk mempelajari cara Anda dapat membuat data organisasi Anda yang siap untuk AI.

Sumber daya

Render 3D dari beberapa ikon berjajar seperti mikrofon dan kamera

Agen AI berjalan pada data. Apakah data Anda siap?

Data Anda adalah keunggulan kompetitif Anda. Pelajari cara memanfaatkan dengan aman dan mendorong ROI terukur dari AI di webinar singkat ini.

Penjelasan tentang manajemen data

Techsplainers oleh IBM menjelaskan dasar-dasar data untuk AI, dari konsep kunci ke contoh penggunaan dunia nyata. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Rendering 3D dari beberapa ikon berjajar, seperti tombol volume dan clipboard

Satukan dan akses data Anda untuk membantu meningkatkan skala AI Anda

Pelajari mengapa jalur menuju data yang siap untuk AI sering dimulai dengan akses efektif ke data terstruktur dan tidak terstruktur dan tantangan yang dapat menghambat para pemimpin data.

Biaya hukum berubah menjadi insight strategis

Pelajari bagaimana agen hukum yang didukung AI membantu mempercepat pengambilan keputusan, mengurangi pekerjaan manual, dan meningkatkan kepatuhan.

Akademi AI: Membangun Strategi data untuk AI perusahaan

Dalam episode ini, Cathy Reese menjelaskan bagaimana organisasi saat ini membutuhkan strategi data yang siap untuk AI canggih, yang akan mengharuskan mereka untuk memanfaatkan aset data kualitas tertinggi mereka.

Render 3D dari beberapa ikon berjajar seperti kamera dan pesawat kertas

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Render 3D dari dua baris dari beberapa ikon seperti kamera, kenop volume, dan clipboard

Panduan pemimpin data untuk data siap AI

Pahami langkah-langkah yang dapat ditindaklanjuti yang dapat diambil oleh pemimpin data untuk mengatasi tantangan data, membangun dasar untuk landasan data tepercaya, dan membantu menyiapkan data organisasi Anda untuk AI.

Render 3D dari beberapa ikon berbaris seperti kamera, kenop volume, dan clipboard

Bagaimana C-suite mengubah informasi menjadi dampak

Jelajahi insight dari 1.700 CDO dalam laporan lintas-industri untuk pemimpin data ini.

Solusi terkait

Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data

IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data

Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik

Ambil langkah selanjutnya