Cos'è la deduplicazione dei dati?

Data di pubblicazione: 3 gennaio 2023
Autori: Phill Powell, Ian Smalley

La deduplicazione dei dati è un processo di razionalizzazione in cui i dati ridondanti vengono ridotti eliminando copie aggiuntive delle stesse informazioni. L'obiettivo della deduplicazione è ridurre il fabbisogno di spazio di storage.

Le imprese implementano i processi e le tecniche di deduplicazione per fare in modo che nelle loro memorie sia conservata soltanto un'unica istanza di dati. I dati duplicati o in eccesso vengono pertanto eliminati, e gli utenti indirizzati verso una singola istanza dei dati.

Quando la deduplicazione dei dati ha esito positivo, l'effetto è quello di migliorare l'utilizzo complessivo dello spazio di storage da parte di un'organizzazione, riducendo di conseguenza i costi.

Demistificare i dati con AI su IBM Z

Scopri i punti critici dei clienti che l’AI può affrontare, quali funzionalità sono disponibili oggi e come IBM Z è la piattaforma AI ideale.

Contenuti correlati

Registrati per ricevere l'ebook per modernizzare le tue app più velocemente

Perché è necessaria la deduplicazione dei dati?

Perché un'azienda dovrebbe creare dei duplicati di dati? Potrebbero esserci uno o più motivi validi, tra cui i seguenti:

Un'organizzazione o uno dei suoi dipartimenti potrebbe aver bisogno di utilizzare i dati originali per altri scopi, e per questo si procede alla creazione di copie.
Un'azienda potrebbe voler conservare copie duplicate a titolo di backup, in caso di eventi di perdita dati.
Un'organizzazione potrebbe ritrovarsi a conservare più copie degli stessi dati, memorizzandoli però in formati diversi.

Un altro dei motivi alla per la duplicazione dei dati è semplicemente che questo è ciò che accade in aziende complesse, con numerose funzioni. I dati vengono regolarmente creati o ricreati come una modalità accettata e organica del fare business all'interno di un contesto moderno. Pertanto, né la creazione né la replica dei dati rappresentano il vero problema, mentre lo è l'eccessiva proliferazione dei dati.

Quando non ci sono oneri finanziari aggiuntivi associati, la proliferazione dei dati potrebbe sembrare un problema minore di quanto non sia. Un'organizzazione potrebbe scegliere di memorizzare i dati in varie posizioni all'interno della propria architettura IT e non preoccuparsi delle duplicazioni.

Rimane però il fatto che le ridondanze inutili di dati rendono un'azienda soggetta a maggiori oneri finanziari, in quanto aumentano i costi di storage. Le organizzazioni che non riescono a smettere di creare ridondanze di dati devono allocare più manodopera e budget per implementare nuove soluzioni di storage e gestione dei dati, che possono consistere nell'acquisto di nuovo hardware o nell'incremento dello storage su cloud.

I vantaggi della deduplicazione

Il vantaggio più evidente delle tecniche di deduplicazione è che eliminando i dati in eccesso si riduce la mole complessiva di dati che un'organizzazione deve memorizzare e gestire. Questo consente di aumentare a tutti gli effetti la capacità di storage di un'azienda.

Oltre alla riduzione dei costi di storage, la deduplicazione dei dati offre ulteriori vantaggi, come la promozione dei piani di data backup e il supporto delle misure di emergenza per salvaguardare i ripristini di emergenza.

Un altro vantaggio consiste nella rivitalizzazione dell'integrità dei dati rimuovendo i "pesi morti" e assicurandosi che i dati rimanenti siano stati adeguatamente puliti. I dati deduplicati funzionano meglio e consumano meno energia.

Un ulteriore vantaggi della deduplicazione è l'efficacia con cui funziona con un'infrastruttura desktop virtuale (VDI) , grazie al fatto che i dischi rigidi virtuali dei desktop remoti della VDI funzionano in modo identico. Tra i prodotti Desktop as a Service (DaaS) più diffusi troviamo Azure Virtual Desktop di Microsoft e la VDI di Windows. Questi prodotti creano delle macchine virtuali (VM) che vengono generate durante il processo di virtualizzazione dei server. Saranno poi queste macchine virtuali ad alimentare la tecnologia VDI.

Come funziona la deduplicazione dei dati?

Al livello più elementare, la deduplicazione dei dati opera mediante funzioni automatizzate che identificano le duplicazioni presenti nei blocchi dati e provvedono ad eliminarle. Lavorando a questo livello di blocco, le sezioni dati possono essere analizzate ed essere giudicate o meno degne di essere preservate. Quindi, quando il software di deduplicazione rileva una ripetizione dello stesso blocco dati, essa viene rimossa e al suo posto viene incluso un riferimento ai dati originali.

Un metodo alternativo di deduplicazione dei dati opera a livello di file. Un data storage a istanza singola confronta copie complete dei dati all'interno del sistema di file, ma non sezioni o blocchi di dati. Come il metodo precedente, la deduplicazione dei file dipende dal mantenimento del file originale e dalla rimozione di copie aggiuntive.

Le tecniche di deduplicazione non funzionano allo stesso modo degli algoritmi di compressione dei dati (ad esempio, LZ77, LZ78), anche se è vero che entrambi perseguono lo stesso obiettivo generale di ridurre il livello di ridondanza. Esse raggiungono questo obiettivo su una scala macro più ampia rispetto agli algoritmi di compressione, il cui obiettivo non è tanto quello di sostituire file identici con copie condivise quanto quello di codificare in modo efficiente le ridondanze dei dati.

Tipi di deduplicazioni di dati

Esistono due tipologie di base di deduplicazione dei dati che dipendono dal momento in cui si verificano i processi.

Deduplicazione in linea

Questa forma di deduplicazione dei dati avviene in tempo reale, mentre i dati fluiscono all'interno del sistema. Il sistema trasporta meno traffico dati, in quanto non trasferisce né memorizza dati duplicati. Ciò può portare ad una riduzione della quantità totale di larghezza di banda necessaria all'organizzazione.

Deduplicazione post-elaborazione

Questo tipo di deduplicazione avviene dopo che i dati sono stati scritti e collocati su un qualche tipo di dispositivo di storage.

Entrambi i tipi di deduplicazioni sono influenzate dai calcoli hash inerenti alla procedura di deduplicazione. Questi calcoli crittografici sono fondamentali per l'identificazione di schemi ripetuti nei dati. Durante la deduplicazione in linea, questi calcoli vengono eseguiti al momento, il che può sovraccaricare temporaneamente la funzionalità del computer. Nelle deduplicazioni post-elaborazione, i calcoli hash possono essere eseguiti in qualsiasi momento dopo l'aggiunta dei dati.

Le sottili differenze tra i tipi di deduplicazione non finiscono qui. Un secondo modo per classificarli si basa sul luogo in cui si verificano tali processi.

Deduplicazione all'origine

Questa forma di deduplicazione avviene vicino al punto in cui vengono generati nuovi dati. Il sistema esegue la scansione di quell'area e rileva nuove copie dei file, che vengono poi rimosse.

Deduplicazione alla destinazione

La deduplicazione alla destinazione è fondamentalmente l'opposto della deduplicazione dell'origine. Nella deduplicazione alla destinazione, il sistema deduplica tutte le copie che si trovano in aree diverse da quella in cui sono stati creati i dati originali.

Poiché esistono diversi tipi di metodi di deduplicazione praticati, un'azienda lungimirante deve prendere decisioni attente e ponderate in merito alla tipologia scelta, deliberando la scelta in base alle proprie esigenze particolari.

In molti casi d'uso, la scelta del metodo di deduplicazione da parte di un'organizzazione può dipendere da diverse variabili interne, come le seguenti:

Quanti e quali tipi di set di dati vengono creati
Il sistema di storage primario di un'organizzazione
Quali ambienti virtuali sono in uso
Su quali app l'azienda fa affidamento

Soluzioni correlate

IBM® Storage FlashSystem

Riduci al minimo il rischio di disagi operativi e isola i carichi di lavoro dagli attacchi ransomware e da altre minacce informatiche. Aggiungi velocità alla tua postura di resilienza informatica, in modo che la tua azienda possa subire meno perdite e tornare all'operatività ordinaria più rapidamente.

Esplora IBM Storage FlashSystem

IBM Storage Protect

Potenzia il backup e il ripristino dei dati con IBM Storage Protect. Scopri il software che migliora la resilienza dei dati dei file server fisici, fornendo ulteriori efficienze e una soluzione scalabile per gestire miliardi di oggetti per server di backup.

Esplora IBM Storage Protect

IBM Storage as-a-Service

Riduci i costi dell'infrastruttura di storage con una soluzione di data storage on-premise. Tu metti i dati, IBM fornisce il sistema di storage. L'hardware FlashSystem e IBM DS8900F ti offrono un modello STaaS più flessibile e a consumo, proprio come il cloud.

Esplora IBM Storage come sistema

Risorse

Che cos'è il data storage?

Esplora le nozioni di base sul data storage, inclusi i tipi di dispositivi di archiviazione e i diversi formati di data storage.

Cos'è la migrazione dei dati?

Scopri di più sul modo in cui i dati si spostano da un sistema di storage o ambiente informatico a un altro.

Cos'è l'architettura dei dati?

Scopri perché una gestione dei dati di successo inizia con una architettura dei dati ben progettata.

Cos'è la sicurezza dei dati?

Non c’è argomento più urgente nell’informatica o nel business. Acquisisci le nozioni di base sulla protezione dei dati.

Fai il passo successivo

Semplifica la gestione dei dati e dell'infrastruttura con IBM Storage FlashSystem, una soluzione di all flash storage ad alte prestazioni che semplifica l'amministrazione e la complessità operativa in ambienti on-premise, di cloud ibrido, virtualizzati e containerizzati.

Esplora Storage FlashSystem

Fai un tour