Cos'è la deduplicazione dei dati?

La luce del tramonto illumina il cavo d'acciaio del ponte

Autori

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Cos'è la deduplicazione dei dati?

La deduplicazione dei dati è un processo di razionalizzazione in cui i dati ridondanti vengono ridotti eliminando copie aggiuntive delle stesse informazioni. L'obiettivo della deduplicazione è ridurre il fabbisogno di spazio di storage.

Le imprese implementano i processi e le tecniche di deduplicazione per fare in modo che nelle loro memorie sia conservata soltanto un'unica istanza di dati. I dati duplicati o in eccesso vengono pertanto eliminati, e gli utenti indirizzati verso una singola istanza dei dati.

Quando la deduplicazione dei dati ha esito positivo, l'effetto è quello di migliorare l'utilizzo complessivo dello spazio di storage da parte di un'organizzazione, riducendo di conseguenza i costi.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Perché è necessaria la deduplicazione dei dati?

Perché un'azienda dovrebbe creare dei duplicati di dati? Potrebbero esserci uno o più motivi validi, tra cui i seguenti:

  • Un'organizzazione o uno dei suoi dipartimenti potrebbe aver bisogno di utilizzare i dati originali per altri scopi e, per questo, si procede alla creazione di copie.
  • Un'azienda potrebbe voler conservare copie duplicate a titolo di backup, in caso di eventi di perdita dati.
  • Un'organizzazione potrebbe ritrovarsi a conservare più copie degli stessi dati, memorizzandoli però in formati diversi.

Un altro dei motivi alla per la duplicazione dei dati è semplicemente che questo è ciò che accade in aziende complesse, con numerose funzioni. I dati vengono regolarmente creati o ricreati come una modalità accettata e organica del fare business all'interno di un contesto moderno. Pertanto, né la creazione né la replica dei dati rappresentano il vero problema, mentre lo è l'eccessiva proliferazione dei dati.

Quando non ci sono oneri finanziari aggiuntivi associati, la proliferazione dei dati potrebbe sembrare un problema minore di quanto non sia. Un'organizzazione potrebbe scegliere di memorizzare i dati in varie posizioni all'interno della propria architettura IT e non preoccuparsi delle duplicazioni.

Rimane però il fatto che le ridondanze inutili di dati rendono un'azienda soggetta a maggiori oneri finanziari, in quanto aumentano i costi di storage. Le organizzazioni che non riescono a smettere di creare ridondanze di dati devono allocare più manodopera e budget per implementare nuove soluzioni di storage e gestione dei dati, che possono consistere nell'acquisto di nuovo hardware o nell'incremento dello storage su cloud.

IBM Storage FlashSystem

IBM Storage FlashSystem: ottimizzazione di VMware in termini di costi, semplicità e resilienza

Scopri come IBM FlashSystem ottimizza gli ambienti VMware per l'efficienza dei costi, la semplicità e la resilienza. Questa sessione evidenzia come FlashSystem può migliorare la sicurezza, l'accessibilità e le prestazioni dei dati, dimostrandosi una soluzione ideale per le moderne infrastrutture IT.

I vantaggi della deduplicazione

Il vantaggio più evidente delle tecniche di deduplicazione è che, eliminando i dati in eccesso, si riduce la mole complessiva di dati che un'organizzazione deve memorizzare e gestire. Questo consente di aumentare a tutti gli effetti la capacità di storage di un'azienda.

Oltre alla riduzione dei costi di storage, la deduplica dei dati offre ulteriori vantaggi, come la promozione dei piani di data backup e il supporto delle misure di emergenza per salvaguardare il disaster recovery.

Un altro vantaggio consiste nella rivitalizzazione dell'integrità dei dati rimuovendo i "pesi morti" e assicurandosi che i dati rimanenti siano stati adeguatamente puliti. I dati deduplicati funzionano meglio e consumano meno energia.

Un altro vantaggio della deduplica dei dati è il suo funzionamento con le implementazioni Virtual Desktop Infrastructure (VDI), grazie al fatto che i dischi rigidi virtuali alla base dei desktop remoti della VDI funzionano in modo identico. I prodotti Desktop as a Service (DaaS) più diffusi includono Azure Virtual Desktop di Microsoft e il relativo Windows VDI. Questi prodotti creano macchine virtuali (VM), che vengono create durante il processo di virtualizzazione del server. A loro volta, queste macchine virtuali potenziano la tecnologia VDI.

Come funziona la deduplicazione dei dati?

Al livello più elementare, la deduplicazione dei dati opera mediante funzioni automatizzate che identificano le duplicazioni presenti nei blocchi dati e provvedono ad eliminarle. Lavorando a questo livello di blocco, le sezioni dati possono essere analizzate ed essere giudicate o meno degne di essere preservate. Quindi, quando il software di deduplicazione rileva una ripetizione dello stesso blocco dati, essa viene rimossa e al suo posto viene incluso un riferimento ai dati originali.

Un metodo alternativo di deduplicazione dei dati opera a livello di file. Un data storage a istanza singola confronta copie complete dei dati all'interno del sistema di file, ma non sezioni o blocchi di dati. Come il metodo precedente, la deduplicazione dei file dipende dal mantenimento del file originale e dalla rimozione di copie aggiuntive.

Le tecniche di deduplicazione non funzionano allo stesso modo degli algoritmi di compressione dei dati (ad esempio, LZ77, LZ78), anche se è vero che entrambi perseguono lo stesso obiettivo generale di ridurre il livello di ridondanza. Esse raggiungono questo obiettivo su una scala macro più ampia rispetto agli algoritmi di compressione, il cui obiettivo non è tanto quello di sostituire file identici con copie condivise quanto quello di codificare in modo efficiente le ridondanze dei dati.

Tipi di deduplicazione dei dati

Esistono due tipologie di base di deduplica dei dati che dipendono dal momento in cui si verificano i processi.

Deduplicazione in linea

Questa forma di deduplicazione dei dati avviene in tempo reale, mentre i dati fluiscono all'interno del sistema. Il sistema trasporta meno traffico dati, in quanto non trasferisce né memorizza dati duplicati. Ciò può portare a una riduzione della quantità totale di larghezza di banda necessaria all'organizzazione.

Deduplicazione post-elaborazione

Questo tipo di deduplicazione avviene dopo che i dati sono stati scritti e collocati su un qualche tipo di dispositivo di storage.

Entrambi i tipi di deduplicazioni sono influenzate dai calcoli hash inerenti alla procedura di deduplicazione. Questi calcoli crittografici sono fondamentali per l'identificazione di schemi ripetuti nei dati. Durante la deduplicazione in linea, questi calcoli vengono eseguiti al momento, il che può sovraccaricare temporaneamente la funzionalità del computer. Nelle deduplicazioni post-elaborazione, i calcoli hash possono essere eseguiti in qualsiasi momento dopo l'aggiunta dei dati.

Le sottili differenze tra i tipi di deduplica non finiscono qui. Un secondo modo per classificarle si basa sul luogo in cui si verificano tali processi.

Deduplicazione all'origine

Questa forma di deduplicazione avviene vicino al punto in cui vengono generati nuovi dati. Il sistema esegue la scansione di quell'area e rileva nuove copie dei file, che vengono poi rimosse.

Deduplicazione alla destinazione

La deduplicazione alla destinazione è fondamentalmente l'opposto della deduplicazione dell'origine. Nella deduplicazione alla destinazione, il sistema deduplica tutte le copie che si trovano in aree diverse da quella in cui sono stati creati i dati originali.

Poiché esistono diversi tipi di metodi di deduplicazione praticati, un'azienda lungimirante deve prendere decisioni attente e ponderate in merito alla tipologia scelta, deliberando la scelta in base alle proprie esigenze particolari.

In molti casi d'uso, la scelta del metodo di deduplicazione da parte di un'organizzazione può dipendere da diverse variabili interne, come le seguenti:

  • Quanti e quali tipi di set di dati vengono creati
  • Il sistema di storage primario di un'organizzazione
  • Quali ambienti virtuali sono in uso
  • Su quali app l'azienda fa affidamento
Soluzioni correlate
IBM Storage DS8000

IBM Storage DS8000 è il sistema di storage più veloce, affidabile e sicuro per IBM zSystems e server IBM Power.

Esplora Storage DS8000
Soluzioni di data storage aziendali

IBM Storage è una famiglia di hardware di data storage, storage software-defined e software di gestione dello storage.

Esplora le soluzioni di data storage
Servizi di supporto hardware e software  

IBM fornisce supporto proattivo per i server web e per l'infrastruttura dei data center al fine di ridurre i tempi di inattività e migliorare la disponibilità dell'IT.

Servizi di server web
Fai il passo successivo

Dalla gestione degli ambienti hybrid cloud alla garanzia di resilienza dei dati, le soluzioni IBM Storage ti consentono di sbloccare insight dai tuoi dati mantenendo al contempo una solida protezione dalle minacce.

Esplora le soluzioni di data storage Fai un tour del prodotto