Negli ultimi anni si è assistito all'aumento esponenziale di unità di self-storage. Queste grandi unità di magazzino si sono affermate a livello nazionale come un'industria in crescita per una ragione: le persone oggi hanno in media più beni di quelli che possono realmente utilizzare.
La stessa situazione affligge anche il mondo dell'informatica. Siamo nel bel mezzo di un'esplosione di dati. Anche gli oggetti di uso quotidiano relativamente semplici ormai generano dati in modo autonomo e sistematico, grazie alla funzionalità dell'Internet of Things (IoT). Mai prima d'ora nella storia sono stati creati, raccolti e analizzati così tanti dati. E mai prima d'ora un numero maggiore di gestori di dati ha lottato con il problema di come archiviare un numero di dati così grande.
Inizialmente, un'azienda potrebbe non riconoscere il problema o la sua portata, e quindi dovrà trovare una soluzione di storage più efficace. Col tempo, l'azienda potrebbe anche superare quel sistema di storage, richiedendo ulteriori investimenti. Inevitabilmente, l'azienda si stancherà di questa situazione e cercherà un'opzione più economica e semplice, il che ci porta alla deduplicazione dei dati.
Anche se molte organizzazioni utilizzano tecniche di deduplicazione dei dati (o "dedupe") come parte del loro sistema di gestione dei dati, non molte comprendono veramente cosa sia il processo di deduplicazione e quali siano le sue potenzialità. Quindi, cerchiamo di chiarire questo concetto e di spiegare come funziona la deduplicazione dei dati.
Innanzitutto, chiariamo il termine principale. La deduplicazione dei dati è un processo che le organizzazioni utilizzano per semplificare la conservazione dei dati e ridurre la quantità di dati archiviati eliminando le copie ridondanti dei dati.
Inoltre, dovremmo sottolineare che quando parliamo di dati ridondanti, in realtà parliamo a livello di file e ci riferiamo quindi a una proliferazione dilagante di file di dati. Quindi, quando parliamo di sforzi di deduplicazione dei dati, in realtà è necessario un sistema di deduplicazione dei file.
Alcune persone hanno una concezione errata sulla natura dei dati: li vedono come una merce che esiste semplicemente per essere raccolta e conservata, come mele di un albero del proprio giardino.
La realtà è che ogni nuovo file di dati ha un costo. In primo luogo, di solito ottenere tali dati comporta un costo (tramite l'acquisto di elenchi di dati). Oppure, per un'organizzazione, riuscire a raccogliere e analizzare i dati autonomamente richiede un sostanziale investimento finanziario, anche se si tratta di dati che l'organizzazione stessa produce e raccoglie in modo organico. I set di dati, quindi, sono un investimento e, come ogni investimento di valore, devono essere protetti in modo rigoroso.
In questo caso, stiamo parlando di spazio di storage dei dati—sia sotto forma di server hardware on-premise che tramite storage sul cloud tramite un data center basato sul cloud—che deve essere acquistato o noleggiato.
Le copie duplicate dei dati sottoposti a replica riducono quindi i profitti imponendo costi di storage aggiuntivi oltre a quelli associati al sistema di storage principale e al suo spazio di archiviazione. In breve, è necessario dedicare più risorse di archiviazione per accogliere sia i nuovi dati che quelli già memorizzati. Ad un certo punto nella traiettoria di un'azienda, i dati duplicati possono facilmente diventare una passività finanziaria.
Quindi, per riassumere, l'obiettivo principale della deduplicazione dei dati è quello di risparmiare denaro consentendo alle organizzazioni di spendere meno per uno storage aggiuntivo.
Ci sono anche altri motivi, oltre alla capacità di archiviazione, per cui le aziende adottano soluzioni di deduplicazione dei dati, ma probabilmente nessuno è più essenziale della protezione e del miglioramento dei dati che queste soluzioni offrono. Le organizzazioni perfezionano e ottimizzano i workload dei dati deduplicati in modo che funzionino in modo più efficiente rispetto ai dati che contengono molti file duplicati.
Un altro aspetto importante della deduplicazione è il modo in cui contribuisce a potenziare un ripristino rapido ed efficace in caso di disastro e riduce al minimo la quantità di dati persi che spesso può derivare da un evento del genere. La deduplicazione aiuta a consentire un processo di backup solido, in modo che il sistema di backup di un'organizzazione sia all'altezza del compito di gestire i suoi dati di backup. Oltre a facilitare i backup completi, la deduplicazione agevola anche gli sforzi di conservazione.
Un ulteriore vantaggio della deduplicazione è l'efficacia con cui funziona in combinazione con un'infrastruttura desktop virtuale (VDI) , grazie al fatto che i dischi rigidi virtuali dei desktop remoti della VDI funzionano in modo identico. Tra i prodotti Desktop as a Service (DaaS) più diffusi troviamo Azure Virtual Desktop di Microsoft e la VDI di Windows. Questi prodotti creano delle macchine virtuali (VM) che vengono generate durante il processo di virtualizzazione dei server. Saranno poi queste macchine virtuali ad alimentare la tecnologia VDI.
La forma più comunemente utilizzata di deduplicazione dei dati è la deduplicazione a a livello di blocco. Questo metodo funziona opera mediante funzioni automatizzate che identificano le duplicazioni nei blocchi di dati e provvedono a eliminarle. Lavorando a livello di blocco, le singole sezioni di dati possono essere analizzate e giudicate come degne di essere convalidate e preservate. Quindi, quando il software di deduplicazione rileva una ripetizione dello stesso blocco dati, essa viene rimossa e al suo posto viene incluso un riferimento ai dati originali.
Questa è la forma principale di deduplicazione, ma non è l'unica. In altri casi d'uso, un metodo alternativo di deduplicazione dei dati opera a livello di file. Uno storage a istanza singola confronta copie complete dei dati all'interno del sistema di file, ma non sezioni o blocchi di dati. Come il metodo precedente, la deduplicazione dei file dipende dal mantenimento del file originale all'interno del file system e dalla rimozione di copie aggiuntive.
È importante notare che le tecniche di deduplicazione non funzionano allo stesso modo degli algoritmi di compressione dei dati (ad esempio, LZ77, LZ78), anche se è vero che entrambi perseguono lo stesso obiettivo generale di ridurre il livello di ridondanza. Esse raggiungono questo obiettivo su una scala macro più ampia rispetto agli algoritmi di compressione, il cui obiettivo non è tanto quello di sostituire file identici con copie condivise quanto quello di codificare in modo più efficiente le ridondanze dei dati.
Esistono diversi tipi di deduplicazione dei dati che dipendono dal momento in cui si verificano i processi di deduplicazione:
Bisogna specificare che entrambi i tipi di deduplicazione dei dati sono influenzati dai calcoli hash inerenti alla procedura di deduplicazione. Questi calcoli crittografici sono fondamentali per l'identificazione di schemi ripetuti nei dati. Durante la deduplicazione in linea, questi calcoli vengono eseguiti al momento, il che può sovraccaricare temporaneamente la funzionalità del computer. Nelle deduplicazioni post-elaborazione, i calcoli hash possono essere eseguiti in qualsiasi momento dopo l'aggiunta dei dati in modo e in un momento che non sovraccarichi le risorse informatiche dell'organizzazione.
Le sottili differenze tra i tipi di deduplicazione non finiscono qui. Un altro modo per classificarli si basa sul luogo in cui si verificano tali processi.
Poiché esistono diversi tipi di metodi di deduplicazione praticati, un'azienda lungimirante deve prendere decisioni attente e ponderate in merito alla tipologia scelta, deliberando la scelta in base alle proprie esigenze particolari.
In molti casi d'uso, la scelta del metodo di deduplicazione da parte di un'organizzazione può dipendere da diverse variabili interne, come le seguenti:
Come tutti gli output di computer, la deduplicazione dei dati si appresta a fare un uso crescente dell'intelligenza artificiale (AI) man mano che continua a evolversi. La deduplicazione diventerà sempre più sofisticata man mano che svilupperà ulteriori sfumature che la aiuteranno a individuare pattern di ridondanza durante la scansione di blocchi di dati.
Una tendenza emergente nella deduplicazione è l'apprendimento per rinforzo. Questo utilizza un sistema di ricompense e penalità (come nell'addestramento per rinforzo) e applica una politica ottimale per separare o unire i record.
Un'altra tendenza degna di nota è l'uso di metodi d'insieme, in cui diversi modelli o algoritmi vengono utilizzati insieme per garantire una precisione ancora maggiore nel processo di deduplicazione.
Il mondo dell'IT è sempre più interessato al problema attuale della proliferazione dei dati e a come affrontarlo. Molte aziende si trovano nella scomoda posizione di voler contemporaneamente conservare tutti i dati che hanno accumulato e di voler anche inserire i loro nuovi dati in eccesso in qualsiasi contenitore di storage possibile, anche solo per toglierli di mezzo.
Finché persisterà questo dilemma, l'enfasi sugli sforzi di deduplicazione dei dati continuerà, perché le organizzazioni considereranno la deduplicazione come l'alternativa più economica all'acquisto di uno spazio di archiviazione aggiuntivo. Perché in definitiva, sebbene comprendiamo intuitivamente che le aziende hanno bisogno di dati, sappiamo anche che i dati molto spesso richiedono la deduplicazione.
Scopri come IBM Storage FlashSystem può aiutarti con le tue esigenze di storage