Berita teknologi terbaru, didukung oleh insight dari pakar
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Data gelap adalah informasi yang dikumpulkan organisasi tetapi sering tidak pernah digunakan untuk analitik atau pengambilan keputusan.
Sebagian besar perusahaan saat ini menyimpan data gelap dalam jumlah besar. Dalam riset global Splunk terhadap lebih dari 1.300 pengambil keputusan bisnis dan TI, 60% responden melaporkan bahwa setengah atau lebih dari data organisasi mereka dianggap gelap. Sepertiga responden melaporkan jumlah ini 75% atau lebih.1
Data gelap terakumulasi karena organisasi telah menganut gagasan bahwa menyimpan semua informasi yang dapat mereka tangkap di dalam data lake besar. Hal ini sebagian disebabkan oleh munculnya penyimpanan yang murah, yang mempermudah justifikasi untuk menyimpan begitu banyak data—dengan asumsi data tersebut mungkin akan bernilai di kemudian hari.
Pada akhirnya, sebagian besar perusahaan bahkan tidak pernah menggunakan sebagian kecil dari data yang mereka simpan karena repositori penyimpanan tersebut tidak mendokumentasikan label metadata dengan baik, sebagian data berada dalam format yang tidak dapat dibaca oleh tools terintegrasi, atau data tersebut tidak dapat diambil melalui kueri.
Data gelap merupakan faktor penghalang utama dalam menghasilkan analisis data yang baik karena kualitas analisis data apa pun bergantung pada informasi yang dapat diakses oleh alat analitik, baik secara cepat maupun secara detail.
Masalah lain dari data gelap adalah bahwa hal ini menciptakan kewajiban, biaya penyimpanan yang signifikan, dan peluang yang terlewatkan karena tim tidak menyadari data apa saja yang berpotensi tersedia bagi mereka.
Ada banyak penyebab data organisasi menjadi gelap, termasuk:
Tetap terinformasi tentang tren industri yang paling penting—dan menarik—tentang AI, otomatisasi, data, dan di luarnya dengan buletin Think. Lihat Pernyataan Privasi IBM®.
Dalam hal kemampuannya untuk ditemukan untuk inisiatif analitik data yang tepat waktu dan lengkap, data gelap dapat berupa data terstruktur, data tidak terstruktur, atau data semi-terstruktur.
Data terstruktur adalah informasi yang ditambahkan ke bidang spreadsheet atau basis data yang didefinisikan dengan jelas sebelum disimpan.
File log server, data sensorInternet of Things (IoT) , basis data manajemen hubungan pelanggan (CRM), dan sistem perencanaan sumber daya perusahaan (ERP) adalah contoh data gelap yang tercipta dari sumber data terstruktur.
Meskipun sebagian besar bentuk data sensitif—seperti laporan bank elektronik, catatan medis, dan data pelanggan terenkripsi—biasanya dalam bentuk terstruktur, sulit untuk dilihat dan dikategorikan karena masalah izin.
Tidak seperti data terstruktur, data tidak terstruktur mencakup informasi yang tidak dapat diatur dalam basis data atau spreadsheet untuk analisis tanpa konversi, kodifikasi, pemeringkatan, dan penataan.
Korespondensi email, PDF, dokumen teks, postingan media sosial, rekaman pusat panggilan, log obrolan, dan rekaman video pengawasan adalah contoh data gelap yang dibuat dari sumber data tidak terstruktur.
Data semi-terstruktur adalah data tidak terstruktur yang berisi beberapa informasi dalam bidang data yang ditentukan. Meskipun tidak memiliki kemudahan penemuan data gelap yang sama dengan data terstruktur, data ini dapat dicari atau dikatalogkan.
Contohnya termasuk kode HTML, faktur, grafik, tabel dan dokumen XML.
Biaya penyimpanan data gelap bisa sangat besar dan melampaui biaya finansial langsung dari penyimpanan data gelap. Biaya langsung dan tidak langsung meliputi:
Menyimpan data, meskipun tidak digunakan secara aktif, membutuhkan infrastruktur penyimpanan fisik atau digital. Solusi ini dapat mencakup server, pusat data, solusi penyimpanan awan, dan sistem pencadangan. Semakin banyak data di ekosistem Anda, semakin banyak kapasitas penyimpanan data yang Anda butuhkan, yang menyebabkan peningkatan biaya infrastruktur.
Pemerintah telah memperkenalkan sejumlah undang-undang privasi global selama beberapa tahun terakhir, yang berlaku untuk semua data—bahkan data yang tidak terpakai di repositori analitik.
Banyak perusahaan kehilangan peluang karena tidak menggunakan data ini. Meskipun baik untuk menyingkirkan data gelap yang tidak dapat digunakan—karena risiko dan biaya—ada baiknya terlebih dahulu menganalisis data apa yang tersedia untuk menentukan apa yang mungkin dapat digunakan.
Mengelola volume data yang besar, termasuk data gelap, dapat memperlambat proses pengambilan dan analisis data. Karyawan mungkin menghabiskan lebih banyak waktu untuk mencari informasi yang relevan, yang menyebabkan berkurangnya produktivitas dan meningkatnya biaya tenaga kerja.
Data gelap dapat menimbulkan risiko dalam hal keamanan siber yang tidak memadai, pelanggaran data, pelanggaran kepatuhan, dan kehilangan data. Risiko ini dapat mengakibatkan kerusakan reputasi dan konsekuensi keuangan.
Terkadang data gelap tercipta karena masalah kualitas data.
Sebagai contoh, transkrip dari rekaman audio dibuat secara otomatis, tetapi AI yang menghasilkan transkrip membuat beberapa kesalahan dalam transkripsi. Seseorang tetap menyimpan transkrip tersebut dengan berpikir bahwa masalah itu akan diselesaikan suatu saat nanti, tetapi kenyataannya tidak pernah terjadi.
Ketika organisasi mencoba membersihkan data berkualitas buruk, terkadang mereka tidak menyadari penyebab utama masalah tersebut. Tanpa pemahaman yang memadai, sulit untuk memastikan masalah kualitas data tidak akan kembali muncul di kemudian hari.
Situasi ini kemudian menjadi siklus, karena alih-alih menerapkan kebijakan penghapusan untuk data gelap yang tidak pernah digunakan, organisasi membiarkan data tersebut terus berada di sana dan berkontribusi pada masalah kualitas data yang terus berkembang.
Untungnya, ada tiga langkah untuk manajemen kualitas data yang dapat diambil organisasi untuk membantu mengatasi masalah ini:
Terlepas dari semua masalah biaya dan kualitas data dari data gelap, ada sisi positifnya. Seperti yang dikatakan Splunk, “data gelap mungkin merupakan salah satu sumber daya terbesar organisasi yang belum dimanfaatkan.”2
Dengan mengambil pendekatan proaktif dalam mengelola data gelap, organisasi dapat menyinari data gelap. Hal ini tidak hanya mengurangi tanggung jawab dan biaya, tetapi juga memberi tim sumber daya yang mereka butuhkan untuk menemukan insight dari data tersembunyi.
Saat menangani data gelap dan berpotensi menggunakannya untuk mengambil keputusan berbasis data yang lebih baik, ada beberapa praktik terbaik yang perlu diikuti:
Data gelap sering muncul karena silo dalam organisasi. Sebuah tim membuat data yang bisa jadi berguna bagi yang lain, tetapi tim lain tidak mengetahuinya. Data tersebut dapat tersedia untuk tim yang membutuhkannya jika silo ini dipecahkan. Data yang tadinya tidak dimanfaatkan ini kini dapat memberikan nilai yang sangat besar.
Penting untuk memahami data apa yang ada dalam organisasi. Upaya ini dimulai dengan mengklasifikasikan semua data dalam organisasi untuk mendapatkan tampilan yang lengkap dan akurat. Dari situ, tim dapat mulai mengatur data mereka dengan lebih baik dengan tujuan memudahkan individu di seluruh tim untuk menemukan dan menggunakan apa yang mereka butuhkan.
Memperkenalkan kebijakan tata kelola data dapat membantu meningkatkan tantangan jangka panjang. Kebijakan ini harus mencakup bagaimana semua data yang masuk ditinjau dan memberikan panduan yang jelas tentang apa yang harus disimpan (dan diorganisasikan guna menjaga manajemen data yang jelas), diarsipkan, atau dimusnahkan. Bagian penting dari kebijakan ini adalah bersikap ketat tentang data apa yang harus dihancurkan dan waktunya. Menerapkan tata kelola data dan meninjau praktik-praktiknya secara teratur dapat membantu meminimalkan jumlah data gelap yang tidak akan digunakan.
Untuk membantu menemukan data gelap, machine learning (ML) dan kecerdasan buatan (AI) dapat melakukan tugas berat dalam mengategorikan data gelap dengan melakukan analisis pada data yang mungkin mengandung insight berharga. Selain itu,otomatisasi ML dapat membantu peraturan kepatuhan privasi data dengan secara otomatis menyunting informasi sensitif dari data yang disimpan.
Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.
watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.
Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.
1 Keadaan Data Gelap, Splunk, 2019
2 Data Gelap: Penemuan, Penggunaan & Manfaat Data Tersembunyi , Splunk, 03 Agustus 2023