Menurut Gartner, data gelap mengacu pada aset informasi yang dikumpulkan, diproses, dan disimpan oleh organisasi selama aktivitas bisnis reguler, tetapi umumnya tidak digunakan untuk tujuan lain, seperti analitik, hubungan bisnis, dan menghasilkan uang secara langsung.1
Sebagian besar perusahaan saat ini menyimpan data gelap dalam jumlah besar. Dalam survei penelitian global Splunk terhadap lebih dari 1.300 pengambil keputusan bisnis dan TI, 60 persen responden melaporkan bahwa setengah atau lebih dari data organisasi mereka dianggap gelap. Sepertiga responden melaporkan jumlah ini sebesar 75 persen atau lebih.2
Data gelap terakumulasi karena organisasi telah menganut gagasan bahwa menyimpan semua informasi yang dapat mereka tangkap di dalam data lake besar adalah hal yang berharga. Hal ini sebagian disebabkan oleh munculnya penyimpanan yang murah, yang mempermudah justifikasi untuk menyimpan begitu banyak data—kalau-kalau suatu saat data tersebut bisa bermanfaat.
Pada akhirnya, sebagian besar perusahaan tidak pernah menggunakan bahkan sebagian kecil dari apa yang mereka simpan karena tempat penyimpanan tidak mendokumentasikan label metadata dengan tepat. Beberapa data dalam format yang tidak dapat dibaca oleh alat terintegrasi atau data tidak dapat diambil melalui kueri.
Data gelap merupakan faktor penghalang utama dalam menghasilkan analisis data yang baik karena kualitas analisis data apa pun bergantung pada informasi yang dapat diakses oleh alat analitik, baik secara cepat maupun secara detail.
Masalah lain dari data gelap adalah bahwa hal ini menciptakan kewajiban, biaya penyimpanan yang signifikan, dan peluang yang terlewatkan karena tim tidak menyadari data apa saja yang berpotensi tersedia bagi mereka.
Ada banyak penyebab data organisasi menjadi gelap, termasuk:
Dalam hal visibilitas untuk inisiatif analisis data yang tepat waktu dan lengkap, data gelap dapat berupa data terstruktur, data tidak terstruktur, atau data semi-terstruktur.
Data terstruktur adalah informasi yang ditambahkan ke spreadsheet atau bidang basis data yang ditentukan dengan jelas sebelum disimpan.
File log server, data sensor Internet of Things (IoT), basis data manajemen hubungan pelanggan (CRM), dan sistem perencanaan sumber daya perusahaan (ERP) adalah contoh data gelap yang tercipta dari sumber data terstruktur.
Meskipun sebagian besar bentuk data sensitif, seperti laporan bank elektronik, rekam medis, dan data pelanggan yang terenkripsi biasanya dalam bentuk terstruktur, tetapi sulit untuk dilihat dan dikategorikan karena masalah izin.
Tidak seperti data terstruktur, data tidak terstruktur mencakup informasi yang tidak dapat diatur dalam basis data atau spreadsheet untuk analisis tanpa konversi, kodifikasi, pemeringkatan, dan penataan.
Korespondensi email, PDF, dokumen teks, postingan media sosial, rekaman pusat panggilan, log obrolan, dan rekaman video pengawasan adalah contoh data gelap yang dibuat dari sumber data tidak terstruktur.
Data semi-terstruktur adalah data tidak terstruktur yang berisi beberapa informasi dalam bidang data yang ditentukan. Meskipun tidak memiliki kemudahan penemuan data gelap yang sama dengan data terstruktur, data ini dapat dicari atau dikatalogkan.
Contohnya termasuk kode HTML, faktur, grafik, tabel dan dokumen XML.
Biaya penyimpanan data gelap bisa sangat besar dan melampaui biaya finansial langsung dari penyimpanan data gelap. Biaya langsung dan tidak langsung meliputi:
Untuk menyimpan data, meskipun tidak digunakan secara aktif, diperlukan infrastruktur penyimpanan fisik atau digital. Penyimpanan ini dapat mencakup server, pusat data, solusi penyimpanan cloud, dan sistem cadangan. Makin banyak data di ekosistem Anda, makin banyak kapasitas penyimpanan data yang Anda butuhkan, yang menyebabkan peningkatan biaya infrastruktur.
Pemerintah telah memperkenalkan sejumlah undang-undang privasi global selama beberapa tahun terakhir, yang berlaku untuk semua data—bahkan data yang tidak terpakai di repositori analitik.
Banyak perusahaan kehilangan peluang karena tidak menggunakan data ini. Meskipun baik untuk menyingkirkan data gelap yang sebenarnya tidak dapat digunakan—karena risiko dan biaya—akan lebih baik jika kita menganalisis terlebih dahulu data apa yang ada untuk menentukan data yang mungkin dapat digunakan.
Mengelola volume data yang besar, termasuk data gelap, dapat memperlambat proses pengambilan dan analisis data. Karyawan dapat menghabiskan lebih banyak waktu untuk mencari informasi yang relevan, yang menyebabkan berkurangnya produktivitas dan meningkatnya biaya tenaga kerja.
Data gelap dapat menimbulkan risiko dalam hal keamanan siber yang tidak memadai, pelanggaran data, pelanggaran kepatuhan, dan kehilangan data. Risiko ini dapat mengakibatkan kerusakan reputasi dan konsekuensi keuangan.
Terkadang data gelap tercipta karena masalah kualitas data.
Sebagai contoh, transkrip dari rekaman audio dibuat secara otomatis, tetapi AI yang membuat transkrip membuat beberapa kesalahan dalam transkripsi. Seseorang menyimpan transkrip, berpikir bahwa mereka akan memperbaikinya suatu saat, yang tidak pernah mereka lakukan.
Ketika mencoba membersihkan data berkualitas buruk, organisasi terkadang melewatkan apa yang menyebabkan masalah. Tanpa pemahaman yang tepat, tidak mungkin untuk memastikan bahwa masalah kualitas data tidak akan terus terjadi di masa mendatang.
Situasi ini kemudian menjadi siklus, karena alih-alih menerapkan kebijakan penghapusan untuk data gelap yang tidak pernah digunakan, organisasi membiarkan data tersebut terus berada di sana dan berkontribusi pada masalah kualitas data yang terus berkembang.
Untungnya, ada tiga langkah manajemen kualitas data yang dapat diambil oleh organisasi untuk membantu mengatasi masalah ini:
Terlepas dari semua masalah biaya dan kualitas, data gelap memiliki sisi positifnya. Seperti yang dikatakan Splunk, "data gelap mungkin merupakan salah satu sumber daya terbesar organisasi yang belum dimanfaatkan."3
Dengan mengambil pendekatan proaktif dalam mengelola data gelap, organisasi dapat menyinari data gelap. Hal ini tidak hanya mengurangi tanggung jawab dan biaya, tetapi juga memberi tim sumber daya yang mereka butuhkan untuk menemukan insight dari data tersembunyi.
Dalam hal menangani data gelap dan berpotensi menggunakannya untuk membuat keputusan berbasis data yang lebih baik, ada beberapa praktik terbaik yang harus diikuti:
Data gelap sering muncul karena silo dalam organisasi. Sebuah tim membuat data yang bisa jadi berguna bagi yang lain, tetapi tim lain tidak mengetahuinya. Data tersebut dapat tersedia untuk tim yang membutuhkannya jika silo ini dipecahkan. Data yang tadinya tidak dimanfaatkan ini kini dapat memberikan nilai yang sangat besar.
Penting untuk memahami data apa yang ada dalam organisasi. Upaya ini dimulai dengan mengklasifikasikan semua data dalam organisasi untuk mendapatkan tampilan yang lengkap dan akurat. Dari sana, tim dapat mulai mengatur data mereka dengan lebih baik dengan tujuan memudahkan individu di seluruh tim untuk menemukan dan menggunakan apa yang mereka butuhkan.
Memperkenalkan kebijakan tata kelola data dapat membantu meningkatkan tantangan jangka panjang. Kebijakan ini harus mencakup bagaimana semua data yang masuk ditinjau dan memberikan panduan yang jelas tentang apa yang harus disimpan (dan ditata untuk menjaga manajemen data yang jelas), diarsipkan, atau dimusnahkan. Bagian penting dari kebijakan ini adalah bersikap ketat tentang data apa yang harus dihancurkan dan kapan. Menerapkan tata kelola data dan meninjau praktiknya secara teratur dapat membantu meminimalkan jumlah data gelap yang tidak akan pernah digunakan.
Untuk membantu menemukan data gelap, machine learning (ML) dan kecerdasan buatan (AI) dapat membantu mengkategorikan data gelap dengan melakukan analisis pada data yang mungkin mengandung insight yang berharga. Selain itu, otomatisasi ML dapat membantu peraturan kepatuhan privasi data dengan secara otomatis menyunting informasi sensitif dari data yang disimpan.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 Daftar Istilah Gartner, Gartner
2 The State of Dark Data, Splunk, 2019
3 Data Gelap: Penemuan, Penggunaan & Manfaat Data Tersembunyi , Splunk, 03 Agustus 2023