La deduplicazione dei dati è un processo di razionalizzazione in cui i dati ridondanti vengono ridotti eliminando copie aggiuntive delle stesse informazioni. L'obiettivo della deduplicazione è ridurre il fabbisogno di spazio di storage.
Le imprese implementano i processi e le tecniche di deduplicazione per fare in modo che nelle loro memorie sia conservata soltanto un'unica istanza di dati. I dati duplicati o in eccesso vengono pertanto eliminati, e gli utenti indirizzati verso una singola istanza dei dati.
Quando la deduplicazione dei dati ha esito positivo, l'effetto è quello di migliorare l'utilizzo complessivo dello spazio di storage da parte di un'organizzazione, riducendo di conseguenza i costi.
Perché un'azienda dovrebbe creare dei duplicati di dati? Potrebbero esserci uno o più motivi validi, tra cui i seguenti:
Un altro dei motivi alla per la duplicazione dei dati è semplicemente che questo è ciò che accade in aziende complesse, con numerose funzioni. I dati vengono regolarmente creati o ricreati come una modalità accettata e organica del fare business all'interno di un contesto moderno. Pertanto, né la creazione né la replica dei dati rappresentano il vero problema, mentre lo è l'eccessiva proliferazione dei dati.
Quando non ci sono oneri finanziari aggiuntivi associati, la proliferazione dei dati potrebbe sembrare un problema minore di quanto non sia. Un'organizzazione potrebbe scegliere di memorizzare i dati in varie posizioni all'interno della propria architettura IT e non preoccuparsi delle duplicazioni.
Rimane però il fatto che le ridondanze inutili di dati rendono un'azienda soggetta a maggiori oneri finanziari, in quanto aumentano i costi di storage. Le organizzazioni che non riescono a smettere di creare ridondanze di dati devono allocare più manodopera e budget per implementare nuove soluzioni di storage e gestione dei dati, che possono consistere nell'acquisto di nuovo hardware o nell'incremento dello storage su cloud.
Il vantaggio più evidente delle tecniche di deduplicazione è che, eliminando i dati in eccesso, si riduce la mole complessiva di dati che un'organizzazione deve memorizzare e gestire. Questo consente di aumentare a tutti gli effetti la capacità di storage di un'azienda.
Oltre alla riduzione dei costi di storage, la deduplica dei dati offre ulteriori vantaggi, come la promozione dei piani di data backup e il supporto delle misure di emergenza per salvaguardare il disaster recovery.
Un altro vantaggio consiste nella rivitalizzazione dell'integrità dei dati rimuovendo i "pesi morti" e assicurandosi che i dati rimanenti siano stati adeguatamente puliti. I dati deduplicati funzionano meglio e consumano meno energia.
Un altro vantaggio della deduplica dei dati è il suo funzionamento con le implementazioni Virtual Desktop Infrastructure (VDI), grazie al fatto che i dischi rigidi virtuali alla base dei desktop remoti della VDI funzionano in modo identico. I prodotti Desktop as a Service (DaaS) più diffusi includono Azure Virtual Desktop di Microsoft e il relativo Windows VDI. Questi prodotti creano macchine virtuali (VM), che vengono create durante il processo di virtualizzazione del server. A loro volta, queste macchine virtuali potenziano la tecnologia VDI.
Al livello più elementare, la deduplicazione dei dati opera mediante funzioni automatizzate che identificano le duplicazioni presenti nei blocchi dati e provvedono ad eliminarle. Lavorando a questo livello di blocco, le sezioni dati possono essere analizzate ed essere giudicate o meno degne di essere preservate. Quindi, quando il software di deduplicazione rileva una ripetizione dello stesso blocco dati, essa viene rimossa e al suo posto viene incluso un riferimento ai dati originali.
Un metodo alternativo di deduplicazione dei dati opera a livello di file. Un data storage a istanza singola confronta copie complete dei dati all'interno del sistema di file, ma non sezioni o blocchi di dati. Come il metodo precedente, la deduplicazione dei file dipende dal mantenimento del file originale e dalla rimozione di copie aggiuntive.
Le tecniche di deduplicazione non funzionano allo stesso modo degli algoritmi di compressione dei dati (ad esempio, LZ77, LZ78), anche se è vero che entrambi perseguono lo stesso obiettivo generale di ridurre il livello di ridondanza. Esse raggiungono questo obiettivo su una scala macro più ampia rispetto agli algoritmi di compressione, il cui obiettivo non è tanto quello di sostituire file identici con copie condivise quanto quello di codificare in modo efficiente le ridondanze dei dati.
Esistono due tipologie di base di deduplica dei dati che dipendono dal momento in cui si verificano i processi.
Questa forma di deduplicazione dei dati avviene in tempo reale, mentre i dati fluiscono all'interno del sistema. Il sistema trasporta meno traffico dati, in quanto non trasferisce né memorizza dati duplicati. Ciò può portare a una riduzione della quantità totale di larghezza di banda necessaria all'organizzazione.
Questo tipo di deduplicazione avviene dopo che i dati sono stati scritti e collocati su un qualche tipo di dispositivo di storage.
Entrambi i tipi di deduplicazioni sono influenzate dai calcoli hash inerenti alla procedura di deduplicazione. Questi calcoli crittografici sono fondamentali per l'identificazione di schemi ripetuti nei dati. Durante la deduplicazione in linea, questi calcoli vengono eseguiti al momento, il che può sovraccaricare temporaneamente la funzionalità del computer. Nelle deduplicazioni post-elaborazione, i calcoli hash possono essere eseguiti in qualsiasi momento dopo l'aggiunta dei dati.
Le sottili differenze tra i tipi di deduplica non finiscono qui. Un secondo modo per classificarle si basa sul luogo in cui si verificano tali processi.
Questa forma di deduplicazione avviene vicino al punto in cui vengono generati nuovi dati. Il sistema esegue la scansione di quell'area e rileva nuove copie dei file, che vengono poi rimosse.
La deduplicazione alla destinazione è fondamentalmente l'opposto della deduplicazione dell'origine. Nella deduplicazione alla destinazione, il sistema deduplica tutte le copie che si trovano in aree diverse da quella in cui sono stati creati i dati originali.
Poiché esistono diversi tipi di metodi di deduplicazione praticati, un'azienda lungimirante deve prendere decisioni attente e ponderate in merito alla tipologia scelta, deliberando la scelta in base alle proprie esigenze particolari.
In molti casi d'uso, la scelta del metodo di deduplicazione da parte di un'organizzazione può dipendere da diverse variabili interne, come le seguenti:
IBM Storage DS8000 è il sistema di storage più veloce, affidabile e sicuro per IBM zSystems e server IBM Power.
IBM Storage è una famiglia di hardware di data storage, storage software-defined e software di gestione dello storage.
IBM fornisce supporto proattivo per i server web e per l'infrastruttura dei data center al fine di ridurre i tempi di inattività e migliorare la disponibilità dell'IT.