Apa itu deduplikasi data?

3 Januari 2024

Penyusun

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

Apa itu deduplikasi data?

Deduplikasi data adalah proses penyederhaan yang mengurangi data yang berlebihan dengan menghilangkan salinan ekstra dari informasi yang sama. Tujuan dari deduplikasi data, atau "dedupe" seperti yang biasa disingkat, adalah untuk mengurangi kebutuhan penyimpanan organisasi yang sedang berlangsung.

Organisasi dapat menerapkan proses dan teknik deduplikasi data untuk memastikan bahwa hanya satu instans data yang unik yang ada di dalam sistem penyimpanan mereka. Data duplikat atau berlebihan dihapus dan pengguna diarahkan ke satu instans data.

Jika berhasil, deduplikasi data dapat meningkatkan pemanfaatan penyimpanan organisasi secara keseluruhan dan membantu mengurangi biaya.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Mengapa deduplikasi data diperlukan?

Jadi, mengapa perusahaan membuat data duplikat? Mungkin ada satu atau beberapa dari sejumlah alasan yang valid, termasuk yang berikut:

  • Organisasi atau salah satu departemennya mungkin perlu menggunakan kembali data asli, sehingga salinan data baru dibuat.
  • Perusahaan mungkin ingin menyimpan salinan duplikat sebagai bagian dari sistem cadangan jika terjadi kehilangan data.
  • Sebuah organisasi mungkin menyimpan beberapa salinan data yang sama tetapi disimpan dalam format yang berbeda.

Alasan utama lain untuk duplikasi data adalah karena itulah yang sering terjadi di sebagian besar organisasi dengan banyak departemen. Data secara teratur dibuat atau dibuat ulang sebagai hal yang dianggap wajar dan alami dalam menjalankan bisnis dalam konteks modern. Oleh karena itu, pembuatan atau replikasi data bukanlah masalah yang sebenarnya, melainkan proliferasi data yang berlebihan.

Jika tidak ada beban keuangan tambahan yang terkait dengannya, proliferasi data mungkin tampaknya tidak akan terlalu menjadi masalah. Sebuah organisasi dapat memilih untuk menyimpan data di berbagai lokasi dalam arsitektur IT mereka dan tidak peduli dengan redundansi tersebut.

Namun faktanya, perusahaan harus menanggung konsekuensi finansial dengan menyimpan sejumlah besar data yang berlebihan dalam bentuk biaya penyimpanan ekstra. Organisasi yang tidak dapat berhenti menciptakan redundansi data perlu mengalokasikan lebih banyak tenaga kerja dan anggaran untuk mengimplementasikan solusi penyimpanan dan manajemen data baru, baik itu melalui pembelian perangkat keras baru atau penambahan penyimpanan cloud.

IBM Storage FlashSystem

IBM Storage FlashSystem: Mengoptimalkan VMware untuk biaya, kesederhanaan, dan ketahanan

Temukan cara IBM FlashSystem mengoptimalkan lingkungan VMware untuk efisiensi biaya, kesederhanaan, dan ketahanan. Sesi ini menyoroti bagaimana FlashSystem dapat meningkatkan keamanan data, aksesibilitas, dan kinerja, yang menjadikannya solusi ideal untuk infrastruktur TI modern.

Manfaat deduplikasi data

Manfaat yang paling jelas dari teknik deduplikasi data adalah bahwa menyingkirkan data yang tidak diperlukan akan mengurangi jumlah total data yang harus disimpan dan dikelola oleh organisasi. Hal ini secara efektif meningkatkan kapasitas penyimpanan organisasi dengan memiliki lebih sedikit data yang memenuhi ruang penyimpanan.

Selain mengurangi biaya penyimpanan, deduplikasi data juga menawarkan manfaat utama lainnya, seperti mendukung rencana cadangan data dan langkah darurat untuk melindungi pemulihan bencana.

Manfaat lainnya adalah merevitalisasi integritas data dengan menghapus data “beban” dan memastikan bahwa data yang tersisa telah dibersihkan dengan benar. Data yang dideduplikasi terbukti berjalan lebih baik dan mengonsumsi lebih sedikit energi.

Manfaat lain dari deduplikasi data adalah seberapa baik deduplikasi ini bekerja dengan penerapan virtual desktop infrastructure (VDI) , berkat fakta bahwa hard disk virtual di belakang desktop jarak jauh VDI beroperasi secara identik. Produk Desktop sebagai Layanan (DaaS) yang populer termasuk Azure Virtual Desktop, dari Microsoft dan Windows VDI. Produk-produk ini membuat virtual machines (VMs), yang dibuat selama proses virtualisasi server. Virtual machines ini kemudian memberdayakan teknologi VDI.

Bagaimana cara kerja deduplikasi data?

Pada tingkat yang paling dasar, deduplikasi data beroperasi melalui fungsi otomatis untuk mengidentifikasi duplikasi dalam blok data, kemudian menghapus duplikasi tersebut. Dengan bekerja di tingkat blok ini, potongan data unik dapat dianalisis dan ditentukan sebagai layak untuk disimpan. Kemudian, ketika perangkat lunak deduplikasi mendeteksi pengulangan blok data yang sama, pengulangan tersebut akan dihapus dan referensi ke data asli akan dimasukkan sebagai gantinya.

Metode alternatif deduplikasi data dilakukan pada tingkat file. Penyimpanan data instans tunggal membandingkan salinan penuh data dalam sistem file, tetapi bukan potongan atau blok data. Seperti metode rekannya, deduplikasi file juga pada dasarnya dilakukan dengan menyimpan file asli dan menghapus salinan tambahan.

Teknik deduplikasi tidak bekerja dengan cara yang sama dengan algoritma kompresi data (misalnya, LZ77, LZ78), meskipun benar bahwa keduanya memiliki tujuan yang sama yaitu untuk mengurangi redundansi data. Teknik deduplikasi mencapai hal ini dalam skala makro yang lebih besar daripada algoritma kompresi, yang tujuannya bukan untuk mengganti file yang identik dengan salinan bersama, tetapi lebih kepada penyandian redundansi data secara efisien.

Jenis deduplikasi data

Ada dua jenis dasar deduplikasi data yang bergantung pada kapan prosesnya terjadi.

Deduplikasi sebaris

Bentuk deduplikasi data ini terjadi secara real-time saat data mengalir di dalam sistem. Sistem ini membawa lalu lintas data yang lebih sedikit karena tidak melakukan transfer atau menyimpan duplikasi data. Hal ini dapat menyebabkan pengurangan jumlah total bandwidth yang dibutuhkan oleh organisasi tersebut.

Deduplikasi pasca-pemrosesan

Jenis deduplikasi ini terjadi setelah data ditulis dan ditempatkan pada beberapa jenis perangkat penyimpanan.

Kedua jenis deduplikasi data dipengaruhi oleh perhitungan hash yang melekat pada deduplikasi data. Perhitungan kriptografi ini merupakan bagian integral untuk mengidentifikasi pola berulang dalam data. Selama deduplikasi sebaris, perhitungan tersebut dilakukan saat itu juga, yang dapat mendominasi dan sementara membanjiri fungsionalitas komputer. Dalam deduplikasi pasca-pemrosesan, perhitungan hash dapat dilakukan kapan saja setelah data ditambahkan.

Perbedaan kecil antara jenis deduplikasi tidak berakhir di situ. Cara kedua untuk mengklasifikasikan jenis deduplikasi didasarkan pada tempat proses tersebut terjadi.

Deduplikasi sumber

Bentuk deduplikasi ini terjadi di dekat tempat data baru dihasilkan. Sistem memindai area tersebut dan mendeteksi salinan file baru, yang kemudian dihapus.

Deduplikasi target

Deduplikasi target pada dasarnya adalah kebalikan dari deduplikasi sumber. Dalam deduplikasi target, sistem mendeduplikasi salinan apa pun yang ditemukan di area selain tempat data asli dibuat.

Karena ada berbagai jenis metode deduplikasi yang dipraktikkan, organisasi yang berpandangan ke depan harus membuat keputusan yang hati-hati dan mempertimbangkan jenis deduplikasi yang mereka pilih, dengan menyeimbangkan metode tersebut dengan kebutuhan khusus perusahaan itu.

Dalam banyak contoh penggunaan, pilihan metode deduplikasi suatu organisasi bisa jadi bergantung pada berbagai variabel internal, seperti berikut ini:

  • Berapa banyak dan jenis kumpulan data apa yang dibuat
  • Sistem penyimpanan utama organisasi
  • Lingkungan virtual mana yang digunakan
  • Aplikasi mana yang diandalkan perusahaan
Solusi terkait
IBM Storage DS8000

IBM Storage DS8000 adalah sistem penyimpanan tercepat, paling andal, dan aman untuk server IBM zSystems dan IBM Power.

Jelajahi Storage DS8000
Solusi Penyimpanan Data Perusahaan

IBM Storage adalah sebuah rangkaian perangkat keras penyimpanan data, penyimpanan berbasis perangkat lunak, dan perangkat lunak manajemen penyimpanan.

Jelajahi solusi penyimpanan data
Layanan Dukungan Perangkat Keras dan Perangkat Lunak  

IBM menyediakan ProActive Support untuk server web dan infrastruktur pusat data guna mengurangi waktu henti dan meningkatkan ketersediaan TI.

Layanan server web
Ambil langkah selanjutnya

Dari mengelola hybrid cloud hingga memastikan ketahanan data, solusi IBM Storage memudahkan Anda untuk mendapatkan insight dari data Anda sembari mempertahankan perlindungan yang kuat terhadap ancaman.

Jelajahi solusi penyimpanan data Ikuti tur produk