Bagaimana cara kerja deduplikasi data?

Teknisi komputer dengan laptop sedang berlutut di sebelah server jaringan

Pada beberapa tahun terakhir, kita telah menyaksikan ledakan dalam penggunaan unit penyimpanan mandiri. Unit gudang besar ini bermunculan di skala nasional sebagai industri yang berkembang pesat karena satu alasan—orang saat ini rata-rata memiliki lebih banyak barang dari yang mereka butuhkan.

Situasi dasar yang sama juga mengganggu dunia TI. Kita berada di tengah-tengah ledakan data. Bahkan objek sehari-hari yang relatif sederhana sekarang secara rutin menghasilkan data sendiri berkat fungsionalitas Internet of Things (IoT). Belum pernah sebelumnya dalam sejarah begitu banyak data dibuat, dikumpulkan, dan dianalisis. Dan belum pernah ada lebih banyak pengelola data yang bergulat dengan masalah bagaimana menyimpan begitu banyak data.

Sebuah perusahaan mungkin awalnya tidak menyadari bahwa hal itu dapat menjadi masalah atau tidak mengira bahwa data mereka dapat menjadi begitu besar, kemudian perusahaan tersebut harus menemukan solusi penyimpanan yang lebih besar. Nantinya, data perusahaan itu juga dapat melampaui kapasitas sistem penyimpanan mereka, sehingga membutuhkan lebih banyak investasi. Hal ini pasti melelahkan bagi perusahaan dan mereka akan mencari opsi yang lebih murah dan sederhana, yang mengarahkan kita ke deduplikasi data.

Meskipun banyak organisasi menggunakan teknik deduplikasi data (atau "dedupe") sebagai bagian dari sistem manajemen data mereka, tidak banyak yang benar-benar memahami apa itu proses deduplikasi dan tujuannya. Jadi, mari kita bahas lebih rinci tentang deduplikasi dan jelaskan cara kerja deduplikasi data.

Bagaimana cara kerja deduplikasi?

Pertama, mari kita perjelas istilah utama kita. Deduplikasi data adalah proses yang digunakan organisasi untuk merampingkan kepemilikan data dan mengurangi jumlah data yang mereka arsipkan dengan menghapus salinan data yang berlebihan.

Selain itu, kita harus menekankan bahwa ketika berbicara tentang data yang berlebihan, kita sebenarnya berbicara di tingkat file dan mengacu pada pertambahan file data yang tidak terkendali. Jadi ketika kita membahas upaya deduplikasi data, sebenarnya sistem yang dibutuhkan adalah deduplikasi file.

Apa tujuan utama deduplikasi?

Beberapa orang memiliki gagasan yang salah tentang sifat data dan melihatnya sebagai komoditas yang hanya ada untuk dikumpulkan dan dipanen, seperti apel dari pohon yang tumbuh di halaman belakang Anda sendiri.

Kenyataannya adalah bahwa setiap file data baru membutuhkan biaya. Pertama-tama, biasanya perlu biaya untuk mendapatkan data tersebut (melalui pembelian daftar data). Atau dibutuhkan investasi finansial yang besar bagi organisasi untuk dapat mengumpulkan dan mengolah data sendiri, bahkan jika itu adalah data yang diproduksi dan dikumpulkan oleh organisasi itu sendiri secara organik. Oleh karena itu, kumpulan data adalah investasi, dan seperti investasi berharga lainnya, kumpulan data itu harus dilindungi dengan ketat.

Dalam contoh ini, kita berbicara tentang ruang penyimpanan data, baik dalam bentuk server perangkat keras on premises atau melalui penyimpanan cloud lewat pusat data berbasis cloud yang harus dibeli atau disewa.

Oleh karena itu, salinan data yang telah mengalami replikasi mengurangi keuntungan karena menambah biaya penyimpanan di luar biaya yang terkait dengan sistem penyimpanan utama dan ruang penyimpanannya. Singkatnya, aset media penyimpanan yang harus dikhususkan untuk mengakomodasi data baru dan data yang sudah disimpan akan semakin bertambah. Pada titik tertentu dalam perjalanan perusahaan, data duplikat hanya akan menjadi beban keuangan.

Jadi ringkasnya, tujuan utama dari deduplikasi data adalah untuk menghemat uang dengan memungkinkan organisasi mengeluarkan lebih sedikit biaya untuk penyimpanan ekstra.

Manfaat tambahan dari deduplikasi

Selain masalah kapasitas penyimpanan, ada alasan yang sangat penting bagi perusahaan untuk menggunakan solusi deduplikasi data, yaitu fungsi perlindungan dan peningkatan data. Organisasi perlu menyempurnakan dan mengoptimalkan beban kerja data yang dideduplikasi sehingga dapat berjalan lebih efisien daripada data yang penuh dengan file duplikat.

Aspek penting lain dari dedupe adalah manfaatnya dalam mendorong upaya pemulihan bencana secara cepat dan sukses, dan meminimalkan jumlah kehilangan data yang sering terjadi akibat peristiwa semacam itu. Dedupe memungkinkan proses pencadangan yang tangguh sehingga sistem pencadangan organisasi juga mencakup tugas menangani data pencadangannya. Selain membantu pencadangan penuh, dedupe juga membantu upaya retensi.

Manfaat lain dari deduplikasi data adalah kemampuannya bekerja sama secara lancar dengan penerapan infrastruktur desktop virtual (VDI), karena hard disk virtual di belakang desktop jarak jauh VDI beroperasi dengan cara yang sama persis. Contoh Produk Desktop sebagai Layanan (DaaS) yang populer adalah Azure Virtual Desktop, dari Microsoft dan Windows VDI-nya. Produk ini membuat mesin virtual (VM), yang dibuat selama proses virtualisasi server. Nantinya, mesin virtual ini yang memberdayakan teknologi VDI.

Metodologi deduplikasi

Bentuk deduplikasi data yang paling umum digunakan adalah deduplikasi blok. Metode ini beroperasi dengan menggunakan fungsi otomatis untuk mengidentifikasi duplikasi dalam blok data, kemudian menghapus duplikasi tersebut. Dengan bekerja di tingkat blok, potongan data unik dapat dianalisis dan ditentukan sebagai layak untuk divalidasi dan disimpan. Kemudian, ketika perangkat lunak deduplikasi mendeteksi pengulangan blok data yang sama, pengulangan tersebut akan dihapus dan referensi ke data asli akan dimasukkan sebagai gantinya.

Itulah bentuk utama dedupe, tetapi bukan satu-satunya metode. Dalam contoh penggunaan lain, metode alternatif deduplikasi data beroperasi pada tingkat file. Penyimpanan instance tunggal membandingkan salinan penuh data dalam server file, bukan potongan atau blok data. Seperti metode sebelumnya, deduplikasi file bergantung pada penyimpanan file asli dalam sistem file dan menghapus salinan tambahan.

Perlu dicatat bahwa teknik deduplikasi tidak bekerja dengan cara yang sama dengan algoritma kompresi data (misalnya, LZ77, LZ78), meskipun benar bahwa keduanya memiliki tujuan umum yang sama untuk mengurangi redundansi data. Teknik deduplikasi mencapai hal ini dalam skala makro yang lebih besar daripada algoritma kompresi, yang tujuannya bukan untuk mengganti file yang identik dengan salinan bersama, tetapi lebih kepada penyandian redundansi data secara efisien.

Jenis deduplikasi data

Ada berbagai jenis deduplikasi data tergantung pada kapan proses deduplikasi terjadi:

  • Deduplikasi sebaris: Bentuk deduplikasi data ini terjadi secara real-time saat data mengalir di dalam sistem penyimpanan. Sistem ini membawa lalu lintas data yang lebih sedikit karena tidak melakukan transfer atau menyimpan duplikasi data. Hal ini dapat menyebabkan pengurangan jumlah total bandwidth yang dibutuhkan oleh organisasi tersebut.
  • Deduplikasi pasca-proses: Jenis deduplikasi ini terjadi setelah data ditulis dan ditempatkan pada beberapa jenis perangkat penyimpanan.

Di sini perlu dijelaskan bahwa kedua jenis deduplikasi data dipengaruhi oleh perhitungan hash yang melekat pada deduplikasi data. Perhitungan kriptografi ini merupakan bagian integral untuk mengidentifikasi pola berulang dalam data. Selama deduplikasi sebaris, perhitungan tersebut dilakukan saat itu juga, yang dapat mendominasi dan membanjiri sementara fungsionalitas komputer. Dalam deduplikasi pasca-pemrosesan, penghitungan hash dapat dilakukan kapan saja setelah data ditambahkan dengan cara dan waktu yang tidak membebani sumber daya komputer organisasi.

Perbedaan kecil antara jenis deduplikasi bukan hanya itu saja. Cara kedua untuk mengklasifikasikan jenis deduplikasi didasarkan pada tempat proses tersebut terjadi.

  • Deduplikasi sumber: Bentuk deduplikasi ini terjadi di dekat tempat data baru dihasilkan. Sistem memindai area tersebut dan mendeteksi salinan file baru, yang kemudian dihapus.
  • Deduplikasi target: Jenis deduplikasi lainnya adalah seperti kebalikan deduplikasi sumber. Dalam deduplikasi target, sistem mendeduplikasi salinan apa pun yang ditemukan di area selain tempat data asli dibuat.

Karena ada berbagai jenis metode deduplikasi yang dipraktikkan, organisasi yang berpandangan ke depan harus membuat keputusan yang hati-hati dan mempertimbangkan jenis deduplikasi yang mereka pilih, dengan menyeimbangkan metode tersebut dengan kebutuhan khusus perusahaan itu.

Dalam banyak contoh penggunaan, pilihan metode deduplikasi organisasi mungkin akan bergantung pada berbagai variabel internal, seperti berikut ini:

  • Berapa banyak dan jenis kumpulan data apa yang dibuat
  • Sistem penyimpanan utama organisasi
  • Lingkungan virtual mana yang digunakan
  • Aplikasi mana yang diandalkan perusahaan

Perkembangan deduplikasi data terbaru

Seperti semua output komputer, deduplikasi data siap untuk meningkatkan penggunaan kecerdasan buatan (AI) yang terus berkembang. Dedupe akan semakin canggih karena dapat menangkap lebih banyak perbedaan kecil yang membantunya dalam mencari pola redundansi saat memindai blok data.

Salah satu tren yang muncul dalam dedupe adalah pembelajaran penguatan. Sistem ini menggunakan sistem penghargaan dan hukuman (seperti dalam pelatihan penguatan) dan menerapkan kebijakan yang optimal untuk memisahkan catatan atau menggabungkannya.

Tren lain yang patut dicermati adalah penggunaan metode ensambel, di mana model atau algoritma berbeda digunakan bersama-sama untuk memastikan akurasi yang lebih tinggi dalam proses dedupe.

Dilema yang sedang berlangsung

Dunia TI menjadi semakin terpaku pada masalah proliferasi data yang sedang berlangsung dan apa yang harus dilakukan untuk mengatasinya. Banyak perusahaan berada dalam posisi serba salah karena secara bersamaan ingin menyimpan semua data yang telah mereka kumpulkan dan juga ingin menyimpan data baru yang meluap dalam kontainer penyimpanan apa pun yang memungkinkan, setidaknya untuk menyingkirkannya sementara.

Sementara dilema seperti itu masih ada, penekanan pada upaya deduplikasi data akan terus berlanjut karena organisasi melihat deduplikasi sebagai alternatif yang lebih murah daripada membeli lebih banyak penyimpanan. Karena pada akhirnya, meskipun secara intuitif kita memahami bahwa bisnis membutuhkan data, kita juga tahu bahwa data sering kali membutuhkan deduplikasi.

Penulis

Phill Powell

Staff Writer

IBM Think