Apa itu data gelap?

Tiga programmer sedang duduk bersama di kantor dan berdiskusi

Apa itu data gelap?

Menurut Gartner, data gelap mengacu pada aset informasi yang dikumpulkan, diproses, dan disimpan oleh organisasi selama aktivitas bisnis reguler, tetapi umumnya tidak digunakan untuk tujuan lain, seperti analitik, hubungan bisnis, dan menghasilkan uang secara langsung.1

Sebagian besar perusahaan saat ini menyimpan data gelap dalam jumlah besar. Dalam survei penelitian global Splunk terhadap lebih dari 1.300 pengambil keputusan bisnis dan TI, 60 persen responden melaporkan bahwa setengah atau lebih dari data organisasi mereka dianggap gelap. Sepertiga responden melaporkan jumlah ini sebesar 75 persen atau lebih.2

Data gelap terakumulasi karena organisasi telah menganut gagasan bahwa menyimpan semua informasi yang dapat mereka tangkap di dalam data lake besar adalah hal yang berharga. Hal ini sebagian disebabkan oleh munculnya penyimpanan yang murah, yang mempermudah justifikasi untuk menyimpan begitu banyak data—kalau-kalau suatu saat data tersebut bisa bermanfaat.

Pada akhirnya, sebagian besar perusahaan tidak pernah menggunakan bahkan sebagian kecil dari apa yang mereka simpan karena tempat penyimpanan tidak mendokumentasikan label metadata dengan tepat. Beberapa data dalam format yang tidak dapat dibaca oleh alat terintegrasi atau data tidak dapat diambil melalui kueri.

Data gelap merupakan faktor penghalang utama dalam menghasilkan analisis data yang baik karena kualitas analisis data apa pun bergantung pada informasi yang dapat diakses oleh alat analitik, baik secara cepat maupun secara detail.

Masalah lain dari data gelap adalah bahwa hal ini menciptakan kewajiban, biaya penyimpanan yang signifikan, dan peluang yang terlewatkan karena tim tidak menyadari data apa saja yang berpotensi tersedia bagi mereka.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa data menjadi gelap

Ada banyak penyebab data organisasi menjadi gelap, termasuk:

  • Kurangnya kesadaran: Data yang diperoleh dalam operasi bisnis normal sering kali menjadi gelap karena organisasi tidak menyadari keberadaannya atau tidak memahami nilai atau relevansinya.

  • Data terjebak dalam silo: Ketika departemen yang berbeda dalam sebuah organisasi mengumpulkan dan menyimpan data secara independen, hal ini dapat menyebabkan fragmentasi dan isolasi data. Silo data ini mungkin tidak dapat diakses atau dilihat oleh tim lain, yang berpotensi menemukan data yang cukup berharga.

  • Kurangnya tata kelola data: Tanpa adanya kerangka kerja tata kelola data yang solid, organisasi mungkin akan kesulitan untuk mengelola dan melacak data di seluruh ekosistem mereka secara efektif. Hal ini menyebabkan data menjadi tidak teratur, hilang, dan tidak dapat digunakan.

  • Sistem lama: Saat organisasi meningkatkan perangkat lunak dan perangkat keras mereka, sistem lama mungkin akan berhenti digunakan atau menjadi kurang relevan. Data yang disimpan dalam sistem lama ini akan menjadi gelap jika tidak dapat diintegrasikan dengan alat analitik modern organisasi.

  • Integrasi data yang tidak lengkap: Proses integrasi data yang tidak lengkap atau tidak efektif dapat menyebabkan kesenjangan dan inkonsistensi data. Hal ini dapat menyebabkan kumpulan data tertentu tidak dapat diakses atau tidak terhubung dengan baik ke sumber data lainnya.

  • Prioritas bisnis yang berubah: Seiring dengan perubahan prioritas bisnis, kumpulan data tertentu mungkin menjadi kurang relevan atau tidak lagi menjadi fokus. Data yang dulunya digunakan secara aktif mungkin tidak digunakan lagi seiring dengan perubahan tujuan organisasi.

  • Sumber daya dan literasi yang terbatas: Organisasi dengan sumber daya terbatas mungkin memprioritaskan pengumpulan dan penyimpanan data daripada analisis data. Selain itu, literasi data yang tidak memadai di antara karyawan dapat menghambat penemuan dan pemanfaatan data yang berharga.

  • Masalah kualitas data: Kualitas data yang buruk, seperti data yang tidak akurat atau tidak lengkap, dapat menyebabkan data tidak diperhitungkan atau diabaikan. Data yang dianggap tidak dapat diandalkan cenderung tidak akan digunakan, sehingga menjadikannya data gelap.

  • Tujuan kepatuhan terhadap peraturan: Banyak standar kepatuhan dan peraturan yang memaksa organisasi untuk mengikuti peraturan ketat tentang berapa lama mereka harus menyimpan data sensitif. Mereka sering kali menyimpannya lama setelah periode wajib karena gagal melacak data sensitif apa saja yang harus dimusnahkan.

  • Data yang redundan, usang, dan trivial (ROT): ROT tercipta ketika karyawan menyimpan banyak salinan dari informasi yang sama, informasi yang sudah ketinggalan zaman, dan informasi asing yang tidak membantu organisasi mencapai tujuannya.
Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Jenis data gelap

Dalam hal visibilitas untuk inisiatif analisis data yang tepat waktu dan lengkap, data gelap dapat berupa data terstruktur, data tidak terstruktur, atau data semi-terstruktur.

Data terstruktur adalah informasi yang ditambahkan ke spreadsheet atau bidang basis data yang ditentukan dengan jelas sebelum disimpan.

File log server, data sensor Internet of Things (IoT), basis data manajemen hubungan pelanggan (CRM), dan sistem perencanaan sumber daya perusahaan (ERP) adalah contoh data gelap yang tercipta dari sumber data terstruktur.

Meskipun sebagian besar bentuk data sensitif, seperti laporan bank elektronik, rekam medis, dan data pelanggan yang terenkripsi biasanya dalam bentuk terstruktur, tetapi sulit untuk dilihat dan dikategorikan karena masalah izin.

Tidak seperti data terstruktur, data tidak terstruktur mencakup informasi yang tidak dapat diatur dalam basis data atau spreadsheet untuk analisis tanpa konversi, kodifikasi, pemeringkatan, dan penataan.

Korespondensi email, PDF, dokumen teks, postingan media sosial, rekaman pusat panggilan, log obrolan, dan rekaman video pengawasan adalah contoh data gelap yang dibuat dari sumber data tidak terstruktur.

Data semi-terstruktur adalah data tidak terstruktur yang berisi beberapa informasi dalam bidang data yang ditentukan. Meskipun tidak memiliki kemudahan penemuan data gelap yang sama dengan data terstruktur, data ini dapat dicari atau dikatalogkan.

Contohnya termasuk kode HTML, faktur, grafik, tabel dan dokumen XML.

Biaya data gelap

Biaya penyimpanan data gelap bisa sangat besar dan melampaui biaya finansial langsung dari penyimpanan data gelap. Biaya langsung dan tidak langsung meliputi:

Biaya penyimpanan data

Untuk menyimpan data, meskipun tidak digunakan secara aktif, diperlukan infrastruktur penyimpanan fisik atau digital. Penyimpanan ini dapat mencakup server, pusat data, solusi penyimpanan cloud, dan sistem cadangan. Makin banyak data di ekosistem Anda, makin banyak kapasitas penyimpanan data yang Anda butuhkan, yang menyebabkan peningkatan biaya infrastruktur.

Biaya pertanggungjawaban

Pemerintah telah memperkenalkan sejumlah undang-undang privasi global selama beberapa tahun terakhir, yang berlaku untuk semua data—bahkan data yang tidak terpakai di repositori analitik.

Biaya peluang

Banyak perusahaan kehilangan peluang karena tidak menggunakan data ini. Meskipun baik untuk menyingkirkan data gelap yang sebenarnya tidak dapat digunakan—karena risiko dan biaya—akan lebih baik jika kita menganalisis terlebih dahulu data apa yang ada untuk menentukan data yang mungkin dapat digunakan.

Biaya inefisiensi

Mengelola volume data yang besar, termasuk data gelap, dapat memperlambat proses pengambilan dan analisis data. Karyawan dapat menghabiskan lebih banyak waktu untuk mencari informasi yang relevan, yang menyebabkan berkurangnya produktivitas dan meningkatnya biaya tenaga kerja.

Biaya risiko

Data gelap dapat menimbulkan risiko dalam hal keamanan siber yang tidak memadai, pelanggaran data, pelanggaran kepatuhan, dan kehilangan data. Risiko ini dapat mengakibatkan kerusakan reputasi dan konsekuensi keuangan.

Masalah kualitas data dan data gelap

Terkadang data gelap tercipta karena masalah kualitas data.

Sebagai contoh, transkrip dari rekaman audio dibuat secara otomatis, tetapi AI yang membuat transkrip membuat beberapa kesalahan dalam transkripsi. Seseorang menyimpan transkrip, berpikir bahwa mereka akan memperbaikinya suatu saat, yang tidak pernah mereka lakukan.

Ketika mencoba membersihkan data berkualitas buruk, organisasi terkadang melewatkan apa yang menyebabkan masalah. Tanpa pemahaman yang tepat, tidak mungkin untuk memastikan bahwa masalah kualitas data tidak akan terus terjadi di masa mendatang.

Situasi ini kemudian menjadi siklus, karena alih-alih menerapkan kebijakan penghapusan untuk data gelap yang tidak pernah digunakan, organisasi membiarkan data tersebut terus berada di sana dan berkontribusi pada masalah kualitas data yang terus berkembang.

Untungnya, ada tiga langkah manajemen kualitas data yang dapat diambil oleh organisasi untuk membantu mengatasi masalah ini:

  1. Menganalisis dan mengidentifikasi situasi "apa adanya": Untuk memprioritaskan masalah, pertama-tama kenali semua masalah yang ada saat ini, standar data yang ada, dan dampak bisnis.

  2. Mencegah data buruk muncul kembali: Selanjutnya, evaluasi akar penyebab setiap masalah dan terapkan sumber daya untuk mengatasi masalah secara berkelanjutan sehingga tidak akan terjadi lagi.

  3. Sering-seringlah berkomunikasi di sepanjang jalan: Bagikan apa yang sedang terjadi, apa yang sedang dilakukan tim, dampak dari pekerjaan tersebut, dan bagaimana upaya tersebut terhubung dengan tujuan bisnis.

Cara menemukan data gelap

Terlepas dari semua masalah biaya dan kualitas, data gelap memiliki sisi positifnya. Seperti yang dikatakan Splunk, "data gelap mungkin merupakan salah satu sumber daya terbesar organisasi yang belum dimanfaatkan."3

Dengan mengambil pendekatan proaktif dalam mengelola data gelap, organisasi dapat menyinari data gelap. Hal ini tidak hanya mengurangi tanggung jawab dan biaya, tetapi juga memberi tim sumber daya yang mereka butuhkan untuk menemukan insight dari data tersembunyi.

Dalam hal menangani data gelap dan berpotensi menggunakannya untuk membuat keputusan berbasis data yang lebih baik, ada beberapa praktik terbaik yang harus diikuti:

Hancurkan silo

Data gelap sering muncul karena silo dalam organisasi. Sebuah tim membuat data yang bisa jadi berguna bagi yang lain, tetapi tim lain tidak mengetahuinya. Data tersebut dapat tersedia untuk tim yang membutuhkannya jika silo ini dipecahkan. Data yang tadinya tidak dimanfaatkan ini kini dapat memberikan nilai yang sangat besar.

Tingkatkan manajemen data

Penting untuk memahami data apa yang ada dalam organisasi. Upaya ini dimulai dengan mengklasifikasikan semua data dalam organisasi untuk mendapatkan tampilan yang lengkap dan akurat. Dari sana, tim dapat mulai mengatur data mereka dengan lebih baik dengan tujuan memudahkan individu di seluruh tim untuk menemukan dan menggunakan apa yang mereka butuhkan.

Tetapkan kebijakan tata kelola data

Memperkenalkan kebijakan tata kelola data dapat membantu meningkatkan tantangan jangka panjang. Kebijakan ini harus mencakup bagaimana semua data yang masuk ditinjau dan memberikan panduan yang jelas tentang apa yang harus disimpan (dan ditata untuk menjaga manajemen data yang jelas), diarsipkan, atau dimusnahkan. Bagian penting dari kebijakan ini adalah bersikap ketat tentang data apa yang harus dihancurkan dan kapan. Menerapkan tata kelola data dan meninjau praktiknya secara teratur dapat membantu meminimalkan jumlah data gelap yang tidak akan pernah digunakan.

Gunakan alat ML dan AI untuk mengurai data

Untuk membantu menemukan data gelap, machine learning (ML) dan kecerdasan buatan (AI) dapat membantu mengkategorikan data gelap dengan melakukan analisis pada data yang mungkin mengandung insight yang berharga. Selain itu, otomatisasi ML dapat membantu peraturan kepatuhan privasi data dengan secara otomatis menyunting informasi sensitif dari data yang disimpan.

Solusi terkait
Perangkat lunak dan solusi manajemen data

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data
IBM watsonx.data™

watsonx.data memungkinkan Anda untuk menskalakan analitik dan AI dengan semua data Anda, di mana pun data berada, melalui penyimpanan data yang terbuka, hybrid, dan diatur.

Temukan watsonx.data
Layanan konsultasi data dan analitik

Dapatkan nilai data perusahaan dengan IBM Consulting, untuk membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
Ambil langkah selanjutnya

Rancang strategi data yang menghilangkan silo data, mengurangi kompleksitas, dan meningkatkan kualitas data untuk pengalaman pelanggan dan karyawan yang luar biasa.

Jelajahi solusi manajemen data Temukan watsonx.data
Catatan kaki