Apa yang dimaksud dengan penemuan data?

Penemuan data, dijelaskan

­­Penemuan data adalah proses mengumpulkan, mengevaluasi, dan menjelajahi data dari berbagai sumber, yang sering kali berbeda. Ini membantu organisasi mengungkap data tersembunyi atau terisolasi, memastikan bahwa tidak ada informasi berharga yang luput dari perhatian atau analisis.

Selama penemuan data, profesional data mengidentifikasi dan mengekstrak data mentah dari seluruh database organisasi, aplikasi, file internal, dan repositori lainnya. Mereka memeriksa karakteristik data, format, garis keturunan, kualitas dan potensi penggunaan data, proses yang disebut profil data, membangun dasar untuk penyerapan data yang sukses. Insight yang ditemukan selama proses penemuan data digunakan untuk menginformasikan dan menyederhanakan keputusan bisnis di bidang-bidang seperti strategi pemasaran, pengalaman pelanggan, dan operasi rantai pasokan.

Analisis data eksplorasi (EDA) adalah pendekatan yang banyak digunakan untuk penemuan data. Dalam EDA, metode statistik dan algoritma digunakan untuk menyelidiki kumpulan data dan meringkas karakteristik utamanya. Temuan ini membantu ilmuwan data menentukan cara terbaik untuk memanipulasi sumber data untuk mendapatkan insight yang berharga.

Selain membantu organisasi mengidentifikasi dan memanfaatkan semua sumber data mereka, penemuan data juga meningkatkan keamanan data, meningkatkan akurasi data, dan mendukung kepatuhan terhadap peraturan privasi data tertentu. Ketika ditambah dengan teknik kecerdasan buatan (AI) dan machine learning (ML), hal ini dapat memberikan visibilitas yang lebih besar kepada organisasi untuk mengontrol aset data mereka.

Apakah tim Anda akan mampu mendeteksi zero-day berikutnya tepat waktu?

Bergabunglah dengan para pemimpin keamanan yang mengandalkan Buletin Think untuk berita yang dikurasi tentang AI, keamanan siber, data, dan otomatisasi. Pelajari dengan cepat dari tutorial pakar dan penjelas—dikirimkan langsung ke kotak masuk Anda. Lihat Pernyataan Privasi IBM®.

Langganan Anda akan disediakan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM® kami untuk informasi lebih lanjut.

https://www.ibm.com/id-id/privacy

Penemuan data vs. analisis data tradisional

Sekilas, penemuan data dan analisis data mungkin tampak identik. Namun, mereka adalah proses manajemen data yang berbeda yang bekerja paling baik ketika digunakan bersama.

Penemuan data seringkali terjadi terlebih dahulu. Ini adalah fase eksplorasi yang membantu organisasi menemukan dan memahami semua data yang tersedia, termasuk informasi yang tersimpan atau tersembunyi. Analis mungkin tidak tahu persis data apa yang mereka cari pada tahap ini.

Setelah mereka menemukan data, mereka dapat memulai analisis data. Proses ini melibatkan penggunaan teknik dan kueri khusus untuk menafsirkan data dan mengungkap insight yang berarti.

Pertimbangkan analogi ini: Penemuan data mirip dengan mencari bahan-bahan dapur Anda, termasuk yang tersembunyi di bagian belakang kabinet. Analisis data menggunakan bahan-bahan yang Anda temukan untuk membuat makanan bergizi dan berkualitas tinggi. Semakin menyeluruh penemuan Anda, semakin baik hasil Anda.

Mengapa penemuan data penting?

Data sangat penting untuk bisnis modern. Setiap hari, mereka mengumpulkan sejumlah besar informasi dari ekosistem sumber yang berkembang yang mencakup departemen, unit bisnis, dan geografi. Data ini ditangani oleh berbagai pengguna dan disimpan di berbagai repositori data dan perangkat karyawan yang berbeda.

Tetapi ketika data ada di mana-mana, itu menjadi lebih sulit untuk ditemukan, diakses, dan digunakan. Faktanya, diperkirakan 68% data perusahaan tidak terpakai. Kegagalan untuk menganalisis semua jenis data menyebabkan insight yang terlewatkan dan peluang yang belum dijelajahi. Sebagai contoh, bagaimana jika kunci untuk meningkatkan retensi pelanggan tersembunyi dalam catatan rapat dan email, namun tim penjualan hanya mengandalkan data dari sistem manajemen hubungan pelanggan (CRM) mereka?

Tidak mengetahui data apa yang Anda miliki dan di mana datanya berada juga mengekspos organisasi terhadap risiko, seperti ketidakpatuhan terhadap daftar peraturan privasi data yang mengatur data pribadi yang terus bertambah. Namun, penemuan data merupakan masalah privasi data dan keamanan data. Jika Anda tidak tahu di mana data sensitif Anda berada, Anda juga tidak dapat melindunginya dengan benar.  

Manfaat penemuan data

Penemuan data membantu organisasi mengeksplorasi dan memanfaatkan semua data yang tersedia, mendukung manfaat berikut:

  • Pengambilan keputusan yang ditingkatkan
  • Peningkatan akurasi dan kualitas data
  • Keamanan data yang diperkuat
  • Kepatuhan menyeluruh
Pengambilan keputusan yang ditingkatkan

Dengan menggali data yang belum dimanfaatkan, penemuan data memberikan jalan baru untuk eksplorasi data. Pemangku kepentingan dapat menemukan pola dan korelasi tersembunyi, insight yang dapat ditindaklanjuti, dan tren pasar baru. Akibatnya, bisnis dapat membuat keputusan yang lebih tepat dan mengoptimalkan kinerja untuk mencapai efisiensi operasional.

Peningkatan akurasi dan kualitas data

Dengan pandangan holistik tentang inventaris data organisasi, lebih mudah bagi analis data untuk mengidentifikasi masalah kualitas data seperti data yang tidak konsisten atau outlier dalam kumpulan data. Mencapai tingkat akurasi yang lebih tinggi dapat membantu meminimalkan kesalahan positif dan negatif selama klasifikasi data.

Keamanan data yang diperkuat

Penemuan data membantu memastikan bahwa semua data sensitif dalam organisasi (seperti informasi identifikasi pribadi (PII) dan kekayaan intelektual) diidentifikasi dan ditemukan. Hal ini memudahkan tim keamanan untuk menerapkan langkah-langkah keamanan siber yang disesuaikan. (Untuk informasi selengkapnya, lihat: “Penemuan data dalam keamanan data.”)

Kepatuhan menyeluruh

Menemukan lokasi semua data dapat membantu organisasi memahami garis keturunan data dan menerapkan aturan khusus seputar perlindungan, berbagi, dan akses ke informasi sensitif. Misalnya, penemuan data dapat membantu organisasi menentukan kapan data termasuk dalam Peraturan Perlindungan Data Umum (GDPR) atau California Consumer Privacy Act (CCPA).

Penemuan data dalam keamanan data

Data yang belum ditemukan dan tidak dikelola, sering disebut sebagai data bayangan, menimbulkan risiko keamanan yang signifikan, terutama ketika berisi informasi sensitif. Menurut Laporan Biaya Pelanggaran Data IBM 2024, pelanggaran data yang melibatkan data bayangan menyumbang sepertiga dari semua insiden, dan menelan biaya rata-rata 5,27 juta USD, 16% lebih tinggi dari biaya pelanggaran rata-rata yang dihitung dalam laporan.

Inti dalam mengamankan semua data organisasi adalah memahami bagaimana dan di mana data memasuki jaringan, dan bagaimana dan di mana data itu dibagikan dan disimpan. Oleh karena itu, proses penemuan data yang kuat merupakan elemen penting dari keamanan data dan perlindungan data. Penggunaan AI dan ML untuk melatih sistem untuk secara otomatis mengidentifikasi file yang berisi data sensitif dapat lebih meningkatkan upaya ini.

Praktik penemuan data juga dapat membantu mengurangi permukaan serangan organisasi secara keseluruhan. Permukaan serangan adalah semua kerentanan, jalur, atau metode organisasi yang dapat digunakan peretas untuk mendapatkan akses tidak sah ke data sensitif atau meluncurkan serangan siber. Melalui penemuan data, data yang tidak digunakan atau duplikat dihilangkan, hanya menyisakan data sensitif yang paling diperlukan. Organisasi kemudian dapat memprioritaskan dan menyesuaikan langkah-langkah keamanan data untuk aset penting ini.

Bagaimana cara kerja penemuan data?

Penemuan data adalah kombinasi dari proses teknis, alat dan strategi yang dapat dikelompokkan ke dalam langkah-langkah berikut:

  • Cakupan tujuan
  • Pengumpulan dan integrasi data
  • Data preparation
  • Visualisasi data
  • Analisis data

Cakupan tujuan

Langkah pertama ini biasanya melibatkan penentuan tujuan dari proses penemuan data. Tujuan-tujuan ini harus selaras dengan strategi data organisasi secara keseluruhan. Di sini, pemimpin C-suite dan unit bisnis bekerja sama untuk menentukan insight apa yang ingin mereka temukan, yang membantu memandu eksplorasi data.

Pengumpulan dan integrasi data

Selanjutnya, data dikumpulkan dari berbagai sumber menggunakan metode ekstraksi seperti mengkueri database, menarik file jarak jauh atau mengambil data melalui antarmuka pemrograman aplikasi (API). Data yang dikumpulkan diserap, diintegrasikan, dan diubah menjadi format terpadu dan konsisten untuk disimpan dalam katalog data (inventaris terperinci aset data dalam organisasi).

Persiapan data

Setelah dikumpulkan dan digabungkan, data menjalani berbagai proses jaminan kualitas untuk membantu memastikan data bebas dari kesalahan, inkonsistensi, dan masalah integritas data lainnya. Persiapan ini dapat mencakup validasi data, pembersihan data, dan teknik standardisasi.

Visualisasi data

Tim data dapat membuat representasi visual dari data yang disiapkan, seperti grafik, bagan, dasbor, dan infografis, yang menampilkan hubungan data yang kompleks dalam antarmuka yang ramah pengguna.

Analisis data

Alat visualisasi data bahkan dapat mendukung analisis layanan mandiri. Alat-alat ini memungkinkan pengguna non-teknis untuk mengakses dan menganalisis visualisasi, sehingga membantu mendorong pengambilan keputusan berbasis data. Analisis tingkat lanjut juga dapat diterapkan pada tahap ini, yang menggunakan pemodelan prediktif dan teknik canggih lainnya untuk menghasilkan perkiraan.

Di sepanjang proses, tata kelola data yang kuat membantu memastikan integritas data dan keamanan data. Tata kelola data menentukan dan mengimplementasikan kebijakan, standar dan prosedur untuk pengumpulan data, kepemilikan, penyimpanan, pemrosesan, dan penggunaan.

Alat penemuan data AI dan ML

Menggunakan AI, ML, dan pemrosesan bahasa alami (NLP) dalam penemuan data akan menambah kecepatan dan kecerdasan dalam prosesnya. Teknologi ini memberi organisasi visibilitas dan kontrol yang lebih besar atas data mereka. Contoh dan kasus penggunaan utama meliputi:

  • Penemuan data otomatis: Alat ini secara otomatis memindai perangkat jaringan dan sistem penyimpanan, mengindeks data baru dan metadata nyaris seketika untuk identifikasi aset yang lebih cepat.

  • Klasifikasi data otomatis: Fungsionalitas ini mengotomatiskan penandaan data baru berdasarkan aturan yang telah ditetapkan sebelumnya, seperti tingkat sensitivitas, kontrol akses data, dan aturan kepatuhan.

  • Pencarian cerdas: Pencarian yang didukung AI menggunakan NLP untuk menafsirkan permintaan pencarian pengguna, memahami maksud, dan kemudian memberikan hasil data yang relevan. Asisten AI dapat memberikan panduan bahasa alami yang intuitif.

  • NLP untuk data yang tidak terstruktur: Alat bantu NLP, termasuk model bahasa besar (LLM), dapat mengekstrak data terstruktur dari sumber data tidak terstruktur seperti dokumen, email, dan transkrip obrolan.

Mengintegrasikan AI, ML, dan NLP ke dalam alur kerja penemuan data mempercepat waktu penemuan insight, meningkatkan akurasi, dan dapat membantu memperkuat kepatuhan terhadap peraturan. Seiring volume data terus bertambah, penemuan data yang didukung AI akan menjadi kemampuan penting dan keunggulan kompetitif.

Penulis

Alexandra Jonker

Staff Editor

IBM Think

Solusi terkait
Solusi keamanan dan perlindungan data

Lindungi data di berbagai lingkungan, penuhi peraturan privasi, dan sederhanakan kompleksitas operasional.

    Jelajahi solusi keamanan data
    IBM® Guardium

    Temukan IBM Guardium, rangkaian perangkat lunak keamanan data yang melindungi data sensitif di lokasi dan cloud.

     

      Jelajahi IBM Guardium
      Layanan keamanan data

      IBM menyediakan layanan keamanan data yang komprehensif untuk melindungi data perusahaan, aplikasi, dan AI.

      Jelajahi layanan keamanan data
      Ambil langkah selanjutnya

      Lindungi data organisasi Anda di seluruh hybrid cloud dan sederhanakan persyaratan kepatuhan dengan solusi keamanan data.

      Jelajahi solusi keamanan data Pesan demo langsung