Apa itu deduplikasi data?

Cahaya matahari terbenam menerangi kabel baja jembatan

Penyusun

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Apa itu deduplikasi data?

Deduplikasi data adalah proses penyederhaan yang mengurangi data yang berlebihan dengan menghilangkan salinan ekstra dari informasi yang sama. Tujuan dari deduplikasi data, atau "dedupe" seperti yang biasa disingkat, adalah untuk mengurangi kebutuhan penyimpanan organisasi yang sedang berlangsung.

Organisasi dapat menerapkan proses dan teknik deduplikasi data untuk memastikan bahwa hanya satu instans data yang unik yang ada di dalam sistem penyimpanan mereka. Data duplikat atau berlebihan dihapus dan pengguna diarahkan ke satu instans data.

Jika berhasil, deduplikasi data dapat meningkatkan pemanfaatan penyimpanan organisasi secara keseluruhan dan membantu mengurangi biaya.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Mengapa deduplikasi data diperlukan?

Jadi, mengapa perusahaan membuat data duplikat? Mungkin ada satu atau beberapa dari sejumlah alasan yang valid, termasuk yang berikut:

Organisasi atau salah satu departemennya mungkin perlu menggunakan kembali data asli, sehingga salinan data baru dibuat.
Perusahaan mungkin ingin menyimpan salinan duplikat sebagai bagian dari sistem cadangan jika terjadi kehilangan data.
Sebuah organisasi mungkin menyimpan beberapa salinan data yang sama tetapi disimpan dalam format yang berbeda.

Alasan utama lain untuk duplikasi data adalah karena itulah yang sering terjadi di sebagian besar organisasi dengan banyak departemen. Data secara teratur dibuat atau dibuat ulang sebagai hal yang dianggap wajar dan alami dalam menjalankan bisnis dalam konteks modern. Oleh karena itu, pembuatan atau replikasi data bukanlah masalah yang sebenarnya, melainkan proliferasi data yang berlebihan.

Jika tidak ada beban keuangan tambahan yang terkait dengannya, proliferasi data mungkin tampaknya tidak akan terlalu menjadi masalah. Sebuah organisasi dapat memilih untuk menyimpan data di berbagai lokasi dalam arsitektur IT mereka dan tidak peduli dengan redundansi tersebut.

Namun faktanya, perusahaan harus menanggung konsekuensi finansial dengan menyimpan sejumlah besar data yang berlebihan dalam bentuk biaya penyimpanan ekstra. Organisasi yang tidak dapat berhenti menciptakan redundansi data perlu mengalokasikan lebih banyak tenaga kerja dan anggaran untuk mengimplementasikan solusi penyimpanan dan manajemen data baru, baik itu melalui pembelian perangkat keras baru atau penambahan penyimpanan cloud.

IBM Storage FlashSystem

IBM Storage FlashSystem: Mengoptimalkan VMware untuk biaya, kesederhanaan, dan ketahanan

Temukan cara IBM FlashSystem mengoptimalkan lingkungan VMware untuk efisiensi biaya, kesederhanaan, dan ketahanan. Sesi ini menyoroti bagaimana FlashSystem dapat meningkatkan keamanan data, aksesibilitas, dan kinerja, yang menjadikannya solusi ideal untuk infrastruktur TI modern.

Jelajahi IBM Storage FlashSystem

Manfaat deduplikasi data

Manfaat yang paling jelas dari teknik deduplikasi data adalah bahwa menyingkirkan data yang tidak diperlukan akan mengurangi jumlah total data yang harus disimpan dan dikelola oleh organisasi. Hal ini secara efektif meningkatkan kapasitas penyimpanan organisasi dengan memiliki lebih sedikit data yang memenuhi ruang penyimpanan.

Selain mengurangi biaya penyimpanan, deduplikasi data juga menawarkan manfaat utama lainnya, seperti mendukung rencana cadangan data dan langkah darurat untuk melindungi pemulihan bencana.

Manfaat lainnya adalah merevitalisasi integritas data dengan menghapus data “beban” dan memastikan bahwa data yang tersisa telah dibersihkan dengan benar. Data yang dideduplikasi terbukti berjalan lebih baik dan mengonsumsi lebih sedikit energi.

Manfaat lain dari deduplikasi data adalah seberapa baik deduplikasi ini bekerja dengan penerapan virtual desktop infrastructure (VDI) , berkat fakta bahwa hard disk virtual di belakang desktop jarak jauh VDI beroperasi secara identik. Produk Desktop sebagai Layanan (DaaS) yang populer termasuk Azure Virtual Desktop, dari Microsoft dan Windows VDI. Produk-produk ini membuat virtual machines (VMs), yang dibuat selama proses virtualisasi server. Virtual machines ini kemudian memberdayakan teknologi VDI.

Bagaimana cara kerja deduplikasi data?

Pada tingkat yang paling dasar, deduplikasi data beroperasi melalui fungsi otomatis untuk mengidentifikasi duplikasi dalam blok data, kemudian menghapus duplikasi tersebut. Dengan bekerja di tingkat blok ini, potongan data unik dapat dianalisis dan ditentukan sebagai layak untuk disimpan. Kemudian, ketika perangkat lunak deduplikasi mendeteksi pengulangan blok data yang sama, pengulangan tersebut akan dihapus dan referensi ke data asli akan dimasukkan sebagai gantinya.

Metode alternatif deduplikasi data dilakukan pada tingkat file. Penyimpanan data instans tunggal membandingkan salinan penuh data dalam sistem file, tetapi bukan potongan atau blok data. Seperti metode rekannya, deduplikasi file juga pada dasarnya dilakukan dengan menyimpan file asli dan menghapus salinan tambahan.

Teknik deduplikasi tidak bekerja dengan cara yang sama dengan algoritma kompresi data (misalnya, LZ77, LZ78), meskipun benar bahwa keduanya memiliki tujuan yang sama yaitu untuk mengurangi redundansi data. Teknik deduplikasi mencapai hal ini dalam skala makro yang lebih besar daripada algoritma kompresi, yang tujuannya bukan untuk mengganti file yang identik dengan salinan bersama, tetapi lebih kepada penyandian redundansi data secara efisien.

Jenis deduplikasi data

Ada dua jenis dasar deduplikasi data yang bergantung pada kapan prosesnya terjadi.

Deduplikasi sebaris

Bentuk deduplikasi data ini terjadi secara real-time saat data mengalir di dalam sistem. Sistem ini membawa lalu lintas data yang lebih sedikit karena tidak melakukan transfer atau menyimpan duplikasi data. Hal ini dapat menyebabkan pengurangan jumlah total bandwidth yang dibutuhkan oleh organisasi tersebut.

Deduplikasi pasca-pemrosesan

Jenis deduplikasi ini terjadi setelah data ditulis dan ditempatkan pada beberapa jenis perangkat penyimpanan.

Kedua jenis deduplikasi data dipengaruhi oleh perhitungan hash yang melekat pada deduplikasi data. Perhitungan kriptografi ini merupakan bagian integral untuk mengidentifikasi pola berulang dalam data. Selama deduplikasi sebaris, perhitungan tersebut dilakukan saat itu juga, yang dapat mendominasi dan sementara membanjiri fungsionalitas komputer. Dalam deduplikasi pasca-pemrosesan, perhitungan hash dapat dilakukan kapan saja setelah data ditambahkan.

Perbedaan kecil antara jenis deduplikasi tidak berakhir di situ. Cara kedua untuk mengklasifikasikan jenis deduplikasi didasarkan pada tempat proses tersebut terjadi.

Deduplikasi sumber

Bentuk deduplikasi ini terjadi di dekat tempat data baru dihasilkan. Sistem memindai area tersebut dan mendeteksi salinan file baru, yang kemudian dihapus.

Deduplikasi target

Deduplikasi target pada dasarnya adalah kebalikan dari deduplikasi sumber. Dalam deduplikasi target, sistem mendeduplikasi salinan apa pun yang ditemukan di area selain tempat data asli dibuat.

Karena ada berbagai jenis metode deduplikasi yang dipraktikkan, organisasi yang berpandangan ke depan harus membuat keputusan yang hati-hati dan mempertimbangkan jenis deduplikasi yang mereka pilih, dengan menyeimbangkan metode tersebut dengan kebutuhan khusus perusahaan itu.

Dalam banyak contoh penggunaan, pilihan metode deduplikasi suatu organisasi bisa jadi bergantung pada berbagai variabel internal, seperti berikut ini:

Berapa banyak dan jenis kumpulan data apa yang dibuat
Sistem penyimpanan utama organisasi
Lingkungan virtual mana yang digunakan
Aplikasi mana yang diandalkan perusahaan

Temukan Risiko Tersembunyi dalam Strategi Penyimpanan dan Cadangan Anda

Dapatkan Penilaian Ketahanan Siber yang dipimpin oleh pakar untuk mengevaluasi kesiapan infrastruktur Anda terhadap kehilangan data, ransomware, dan peristiwa pemulihan. Dapatkan insight yang dapat ditindaklanjuti dan peta jalan untuk memperkuat keberlangsungan bisnis.

Sumber daya

Gartner Magic Quadrant 2025 untuk Platform Penyimpanan Enterprise

IBM telah diakui sebagai Pemimpin dalam Gartner Magic Quadrant 2025 untuk Platform Penyimpanan Enterprise. Kami percaya pengakuan ini menggarisbawahi dedikasi IBM untuk memberikan solusi penyimpanan yang aman, cerdas, dan berkinerja tinggi yang memungkinkan organisasi mempercepat transformasi digital mereka.

Lihat IBM Storage FlashSystem beraksi dengan Storage Insights

Rasakan langsung pengalaman menggunakan IBM Storage Insights. Coba demo layanan mandiri atau daftar uji coba gratis untuk melihat bagaimana pemantauan prediktif mengoptimalkan kinerja FlashSystem dan mendorong keputusan hemat biaya.

Memaksimalkan kinerja dengan teknologi penyimpanan flash

Pelajari jenis memori dan penyimpanan flash serta jelajahi bagaimana bisnis menggunakan teknologi flash untuk meningkatkan efisiensi, mengurangi latensi, dan mempertahankan keefektifan infrastruktur penyimpanan data mereka di masa depan.

Institut Meteorologi Denmark (DMI)

Penyimpanan terintegrasi IBM membantu DMI menyajikan data iklim secara gratis ke seluruh dunia. Dengan penyimpanan tape, disk, dan flash terpadu, DMI memangkas biaya energi, menskalakan secara efisien, dan membangun fondasi berkelanjutan untuk AI dan machine learning.

Pemimpin Penyimpanan File dan Object Storage Terungkap — Lihat Siapa yang Teratas

Gartner mengevaluasi kinerja dan skalabilitas di seluruh platform penyimpanan paling penting saat ini untuk penerapan hybrid cloud.

Meningkatkan ketahanan siber dengan IBM® FlashSystem

Pelajari bagaimana IBM® FlashSystem meningkatkan keamanan dan ketahanan data, guna melindungi dari ransomware dan serangan siber dengan strategi kinerja dan pemulihan yang dioptimalkan.

Mondi Group

Mondi Group bermigrasi ke SAP S/4HANA pada IBM Power Systems dan penyimpanan FlashSystem. Dengan 100% waktu aktif, dukungan pertumbuhan data 9 TB/bulan, dan kinerja aplikasi 20% lebih cepat, Mondi membangun fondasi yang tangguh untuk inovasi pengemasan yang digerakkan oleh keberlanjutan.

Mengoptimalkan data dan beban kerja AI dengan solusi penyimpanan IBM

Pelajari cara mengatasi tantangan data Anda dengan penyimpanan file dan penyimpanan objek berkinerja tinggi, yang dirancang untuk meningkatkan AI, machine learning, dan proses analisis sambil memastikan keamanan dan skalabilitas data.

Solusi terkait

IBM FlashSystem

IBM® FlashSystem adalah portofolio solusi penyimpanan flash perusahaan yang dibangun untuk kecepatan, skalabilitas, dan perlindungan data.

Jelajahi IBM FlashSystem

Solusi penyimpanan data perusahaan

IBM Storage adalah sebuah rangkaian perangkat keras penyimpanan data, penyimpanan yang ditentukan oleh perangkat lunak, dan perangkat lunak manajemen penyimpanan.

Jelajahi solusi penyimpanan data

Layanan Dukungan Perangkat Keras dan Perangkat Lunak

IBM menyediakan dukungan proaktif untuk server web dan infrastruktur pusat data guna mengurangi waktu henti dan meningkatkan ketersediaan TI.

Jelajahi layanan server web

Ambil langkah selanjutnya

Dari mengelola hybrid cloud hingga memastikan ketahanan data, solusi IBM Storage memudahkan Anda untuk mendapatkan insight dari data Anda sembari mempertahankan perlindungan yang kuat terhadap ancaman.