Apa itu data gelap?

Data gelap adalah informasi yang dikumpulkan organisasi tetapi sering tidak pernah digunakan untuk analitik atau pengambilan keputusan.

Sebagian besar perusahaan saat ini menyimpan data gelap dalam jumlah besar. Dalam riset global Splunk terhadap lebih dari 1.300 pengambil keputusan bisnis dan TI, 60% responden melaporkan bahwa setengah atau lebih dari data organisasi mereka dianggap gelap. Sepertiga responden melaporkan jumlah ini 75% atau lebih.¹

Data gelap terakumulasi karena organisasi telah menganut gagasan bahwa menyimpan semua informasi yang dapat mereka tangkap di dalam data lake besar. Hal ini sebagian disebabkan oleh munculnya penyimpanan yang murah, yang mempermudah justifikasi untuk menyimpan begitu banyak data—dengan asumsi data tersebut mungkin akan bernilai di kemudian hari.

Pada akhirnya, sebagian besar perusahaan bahkan tidak pernah menggunakan sebagian kecil dari data yang mereka simpan karena repositori penyimpanan tersebut tidak mendokumentasikan label metadata dengan baik, sebagian data berada dalam format yang tidak dapat dibaca oleh tools terintegrasi, atau data tersebut tidak dapat diambil melalui kueri.

Data gelap merupakan faktor penghalang utama dalam menghasilkan analisis data yang baik karena kualitas analisis data apa pun bergantung pada informasi yang dapat diakses oleh alat analitik, baik secara cepat maupun secara detail.

Masalah lain dari data gelap adalah bahwa hal ini menciptakan kewajiban, biaya penyimpanan yang signifikan, dan peluang yang terlewatkan karena tim tidak menyadari data apa saja yang berpotensi tersedia bagi mereka.

IBM® watsonx.governance

Diakui sebagai salah satu Produk Manajemen TI terbaik dalam Penghargaan Perangkat Lunak Terbaik G2 2026

Mengapa data menjadi gelap

Ada banyak penyebab data organisasi menjadi gelap, termasuk:

Kurangnya kesadaran: Data yang diperoleh selama operasi bisnis normal sering menjadi gelap karena organisasi tidak menyadari keberadaannya, atau tidak memahami nilai atau relevansinya.
Data terjebak dalam silo: Ketika departemen yang berbeda dalam sebuah organisasi mengumpulkan dan menyimpan data secara independen, hal ini dapat menyebabkan fragmentasi dan isolasi data. Silo data ini mungkin tidak dapat diakses atau dilihat oleh tim lain, yang berpotensi menemukan data yang berharga.
Kurangnya tata kelola data: Tanpa adanya kerangka kerja tata kelola data yang solid, organisasi mungkin akan kesulitan untuk mengelola dan melacak data di seluruh ekosistem mereka secara efektif. Hal ini menyebabkan data menjadi tidak teratur, hilang, dan tidak dapat digunakan.
Sistem lama: Saat organisasi meningkatkan perangkat lunak dan perangkat keras mereka, sistem lama mungkin akan dihentikan atau menjadi kurang relevan. Data yang disimpan dalam sistem lama ini akan menjadi gelap jika tidak dapat diintegrasikan dengan alat analitik modern organisasi.
Integrasi data yang tidak lengkap: Proses integrasi data yang tidak lengkap atau tidak efektif dapat menyebabkan kesenjangan dan inkonsistensi data. Hal ini dapat menyebabkan kumpulan data tertentu tidak dapat diakses atau tidak terhubung dengan baik ke sumber data lainnya.
Prioritas bisnis yang berubah: Seiring dengan perubahan prioritas bisnis, kumpulan data tertentu mungkin menjadi kurang relevan atau tidak lagi menjadi fokus. Data yang dulunya digunakan secara aktif mungkin tidak digunakan lagi seiring dengan perubahan tujuan organisasi.
Sumber daya dan literasi yang terbatas: Organisasi dengan sumber daya terbatas mungkin memprioritaskan pengumpulan dan penyimpanan data daripada analisis data. Selain itu,literasi data yang tidak memadai di antara karyawan dapat menghambat penemuan dan pemanfaatan data yang berharga.
Masalah kualitas data: Kualitas data yang buruk, seperti data yang tidak akurat atau tidak lengkap, dapat menyebabkan data diabaikan atau diabaikan. Data yang dianggap tidak dapat diandalkan cenderung tidak digunakan, secara efektif membuatnya gelap.
Tujuan kepatuhan regulasi: Banyak standar kepatuhan dan tata kelola mewajibkan organisasi mengikuti aturan ketat terkait lamanya penyimpanan data sensitif. Mereka sering kali akhirnya menyimpan data tersebut jauh melewati periode wajib karena gagal melacak data sensitif mana yang seharusnya dimusnahkan.
Data yang redundan, usang, dan trivial (ROT): ROT tercipta ketika karyawan menyimpan banyak salinan dari informasi yang sama, informasi yang sudah ketinggalan zaman, dan informasi asing yang tidak membantu organisasi mencapai tujuannya.

Berita teknologi terbaru, didukung oleh insight dari pakar

Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.

Jenis data gelap

Dalam hal kemampuannya untuk ditemukan untuk inisiatif analitik data yang tepat waktu dan lengkap, data gelap dapat berupa data terstruktur, data tidak terstruktur, atau data semi-terstruktur.

Data terstruktur adalah informasi yang ditambahkan ke bidang spreadsheet atau basis data yang didefinisikan dengan jelas sebelum disimpan.

File log server, data sensorInternet of Things (IoT) , basis data manajemen hubungan pelanggan (CRM), dan sistem perencanaan sumber daya perusahaan (ERP) adalah contoh data gelap yang tercipta dari sumber data terstruktur.

Meskipun sebagian besar bentuk data sensitif—seperti laporan bank elektronik, catatan medis, dan data pelanggan terenkripsi—biasanya dalam bentuk terstruktur, sulit untuk dilihat dan dikategorikan karena masalah izin.

Tidak seperti data terstruktur, data tidak terstruktur mencakup informasi yang tidak dapat diatur dalam basis data atau spreadsheet untuk analisis tanpa konversi, kodifikasi, pemeringkatan, dan penataan.

Korespondensi email, PDF, dokumen teks, postingan media sosial, rekaman pusat panggilan, log obrolan, dan rekaman video pengawasan adalah contoh data gelap yang dibuat dari sumber data tidak terstruktur.

Data semi-terstruktur adalah data tidak terstruktur yang berisi beberapa informasi dalam bidang data yang ditentukan. Meskipun tidak memiliki kemudahan penemuan data gelap yang sama dengan data terstruktur, data ini dapat dicari atau dikatalogkan.

Contohnya termasuk kode HTML, faktur, grafik, tabel dan dokumen XML.

AI Academy

Apakah manajemen data merupakan rahasia AI generatif?

Jelajahi mengapa data berkualitas tinggi sangat penting untuk keberhasilan penggunaan AI generatif.

Buka episode

Biaya data gelap

Biaya penyimpanan data gelap bisa sangat besar dan melampaui biaya finansial langsung dari penyimpanan data gelap. Biaya langsung dan tidak langsung meliputi:

Biaya penyimpanan data

Menyimpan data, meskipun tidak digunakan secara aktif, membutuhkan infrastruktur penyimpanan fisik atau digital. Solusi ini dapat mencakup server, pusat data, solusi penyimpanan awan, dan sistem pencadangan. Semakin banyak data di ekosistem Anda, semakin banyak kapasitas penyimpanan data yang Anda butuhkan, yang menyebabkan peningkatan biaya infrastruktur.

Biaya pertanggungjawaban

Pemerintah telah memperkenalkan sejumlah undang-undang privasi global selama beberapa tahun terakhir, yang berlaku untuk semua data—bahkan data yang tidak terpakai di repositori analitik.

Biaya peluang

Banyak perusahaan kehilangan peluang karena tidak menggunakan data ini. Meskipun baik untuk menyingkirkan data gelap yang tidak dapat digunakan—karena risiko dan biaya—ada baiknya terlebih dahulu menganalisis data apa yang tersedia untuk menentukan apa yang mungkin dapat digunakan.

Biaya inefisiensi

Mengelola volume data yang besar, termasuk data gelap, dapat memperlambat proses pengambilan dan analisis data. Karyawan mungkin menghabiskan lebih banyak waktu untuk mencari informasi yang relevan, yang menyebabkan berkurangnya produktivitas dan meningkatnya biaya tenaga kerja.

Biaya risiko

Data gelap dapat menimbulkan risiko dalam hal keamanan siber yang tidak memadai, pelanggaran data, pelanggaran kepatuhan, dan kehilangan data. Risiko ini dapat mengakibatkan kerusakan reputasi dan konsekuensi keuangan.

Masalah kualitas data dan data gelap

Terkadang data gelap tercipta karena masalah kualitas data.

Sebagai contoh, transkrip dari rekaman audio dibuat secara otomatis, tetapi AI yang menghasilkan transkrip membuat beberapa kesalahan dalam transkripsi. Seseorang tetap menyimpan transkrip tersebut dengan berpikir bahwa masalah itu akan diselesaikan suatu saat nanti, tetapi kenyataannya tidak pernah terjadi.

Ketika organisasi mencoba membersihkan data berkualitas buruk, terkadang mereka tidak menyadari penyebab utama masalah tersebut. Tanpa pemahaman yang memadai, sulit untuk memastikan masalah kualitas data tidak akan kembali muncul di kemudian hari.

Situasi ini kemudian menjadi siklus, karena alih-alih menerapkan kebijakan penghapusan untuk data gelap yang tidak pernah digunakan, organisasi membiarkan data tersebut terus berada di sana dan berkontribusi pada masalah kualitas data yang terus berkembang.

Untungnya, ada tiga langkah untuk manajemen kualitas data yang dapat diambil organisasi untuk membantu mengatasi masalah ini:

Menganalisis dan mengidentifikasi situasi “apa adanya“: Untuk memprioritaskan masalah, pertama-tama kenali semua masalah yang ada saat ini, standar data yang ada, dan dampak bisnis.
Mencegah data buruk muncul kembali: Selanjutnya, evaluasi akar penyebab setiap masalah dan terapkan sumber daya untuk mengatasi masalah secara berkelanjutan sehingga tidak akan terjadi lagi.
Sering-seringlah berkomunikasi di sepanjang jalan: Bagikan apa yang sedang terjadi, apa yang sedang dilakukan tim, dampak dari pekerjaan tersebut, dan bagaimana upaya tersebut terhubung dengan tujuan bisnis.

Cara menemukan data gelap

Terlepas dari semua masalah biaya dan kualitas data dari data gelap, ada sisi positifnya. Seperti yang dikatakan Splunk, “data gelap mungkin merupakan salah satu sumber daya terbesar organisasi yang belum dimanfaatkan.”²

Dengan mengambil pendekatan proaktif dalam mengelola data gelap, organisasi dapat menyinari data gelap. Hal ini tidak hanya mengurangi tanggung jawab dan biaya, tetapi juga memberi tim sumber daya yang mereka butuhkan untuk menemukan insight dari data tersembunyi.

Saat menangani data gelap dan berpotensi menggunakannya untuk mengambil keputusan berbasis data yang lebih baik, ada beberapa praktik terbaik yang perlu diikuti:

Hancurkan silo

Data gelap sering muncul karena silo dalam organisasi. Sebuah tim membuat data yang bisa jadi berguna bagi yang lain, tetapi tim lain tidak mengetahuinya. Data tersebut dapat tersedia untuk tim yang membutuhkannya jika silo ini dipecahkan. Data yang tadinya tidak dimanfaatkan ini kini dapat memberikan nilai yang sangat besar.

Tingkatkan manajemen data

Penting untuk memahami data apa yang ada dalam organisasi. Upaya ini dimulai dengan mengklasifikasikan semua data dalam organisasi untuk mendapatkan tampilan yang lengkap dan akurat. Dari situ, tim dapat mulai mengatur data mereka dengan lebih baik dengan tujuan memudahkan individu di seluruh tim untuk menemukan dan menggunakan apa yang mereka butuhkan.

Tetapkan kebijakan tata kelola data

Memperkenalkan kebijakan tata kelola data dapat membantu meningkatkan tantangan jangka panjang. Kebijakan ini harus mencakup bagaimana semua data yang masuk ditinjau dan memberikan panduan yang jelas tentang apa yang harus disimpan (dan diorganisasikan guna menjaga manajemen data yang jelas), diarsipkan, atau dimusnahkan. Bagian penting dari kebijakan ini adalah bersikap ketat tentang data apa yang harus dihancurkan dan waktunya. Menerapkan tata kelola data dan meninjau praktik-praktiknya secara teratur dapat membantu meminimalkan jumlah data gelap yang tidak akan digunakan.

Gunakan alat ML dan AI untuk mengurai data

Untuk membantu menemukan data gelap, machine learning (ML) dan kecerdasan buatan (AI) dapat melakukan tugas berat dalam mengategorikan data gelap dengan melakukan analisis pada data yang mungkin mengandung insight berharga. Selain itu,otomatisasi ML dapat membantu peraturan kepatuhan privasi data dengan secara otomatis menyunting informasi sensitif dari data yang disimpan.

Techsplainers | Podcast

Lihat: 'Apa itu data gelap?'

Ikuti Techsplainers: Spotify dan Apple Podcasts

Temukan episode lainnya

Render 3D dari spiral beberapa ikon yang berbaris seperti kamera, kenop volume, dan clipboard

Baca panduan Pemimpin Data untuk mempelajari cara Anda dapat membuat data organisasi Anda yang siap untuk AI.

Sumber daya

Render 3D dari beberapa ikon berjajar seperti mikrofon dan kamera

Agen AI berjalan pada data. Apakah data Anda siap?

Data Anda adalah keunggulan kompetitif Anda. Pelajari cara memanfaatkan dengan aman dan mendorong ROI terukur dari AI di webinar singkat ini.

Penjelasan tentang manajemen data

Techsplainers oleh IBM menjelaskan dasar-dasar data untuk AI, dari konsep kunci ke contoh penggunaan dunia nyata. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Rendering 3D dari beberapa ikon berjajar, seperti tombol volume dan clipboard

Satukan dan akses data Anda untuk membantu meningkatkan skala AI Anda

Pelajari mengapa jalur menuju data yang siap untuk AI sering dimulai dengan akses efektif ke data terstruktur dan tidak terstruktur dan tantangan yang dapat menghambat para pemimpin data.

Biaya hukum berubah menjadi insight strategis

Pelajari bagaimana agen hukum yang didukung AI membantu mempercepat pengambilan keputusan, mengurangi pekerjaan manual, dan meningkatkan kepatuhan.

Akademi AI: Membangun Strategi data untuk AI perusahaan

Dalam episode ini, Cathy Reese menjelaskan bagaimana organisasi saat ini membutuhkan strategi data yang siap untuk AI canggih, yang akan mengharuskan mereka untuk memanfaatkan aset data kualitas tertinggi mereka.

Render 3D dari beberapa ikon berjajar seperti kamera dan pesawat kertas

Data lakehouse hybrid terbuka untuk AI

Sederhanakan akses data dan otomatiskan tata kelola data. Temukan kekuatan mengintegrasikan strategi data lakehouse ke dalam arsitektur data Anda, termasuk mengoptimalkan biaya beban kerja Anda dan menskalakan AI dan analitik dengan semua data Anda, di mana saja.

Laporan Biaya Pelanggaran Data 2025

Biaya pelanggaran data telah mencapai rekor tertingginya. Dapatkan insight terkini tentang ancaman keamanan siber dan dampak keuangannya terhadap organisasi.

Render 3D dari dua baris dari beberapa ikon seperti kamera, kenop volume, dan clipboard

Panduan pemimpin data untuk data siap AI

Pahami langkah-langkah yang dapat ditindaklanjuti yang dapat diambil oleh pemimpin data untuk mengatasi tantangan data, membangun dasar untuk landasan data tepercaya, dan membantu menyiapkan data organisasi Anda untuk AI.

Render 3D dari beberapa ikon berbaris seperti kamera, kenop volume, dan clipboard

Bagaimana C-suite mengubah informasi menjadi dampak

Jelajahi insight dari 1.700 CDO dalam laporan lintas-industri untuk pemimpin data ini.

Solusi terkait

Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data

IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data

Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik

Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Catatan kaki

¹Keadaan Data Gelap, Splunk, 2019

²Data Gelap: Penemuan, Penggunaan & Manfaat Data Tersembunyi , Splunk, 03 Agustus 2023

Apa itu data gelap?