La ridondanza dei dati si verifica quando più copie degli stessi dati sono memorizzate in posizioni, formati o sistemi diversi.
Sebbene la ridondanza involontaria dei dati possa condurre a inefficienze, come aumento dei costi di storage e incoerenza dei dati, la ridondanza intenzionale dei dati è una componente fondamentale di una gestione efficace dei dati. È attualmente particolarmente utile in quanto le organizzazioni gestiscono set di dati di grandi dimensioni e volumi di dati in costante aumento. Le copie ridondanti dei dati sono spesso fondamentali per la progettazione e lo schema del database, poiché contribuiscono a garantire un'elevata disponibilità, integrità e coerenza dei dati.
Anche la ridondanza intenzionale dei dati riveste un ruolo critico nel disaster recovery. Ad esempio, nel 2024 le violazioni dei dati sono costate in media alle aziende 4,88 milioni di dollari. Le copie ridondanti dei dati sono fondamentali in caso di danni ai dati o in caso di guasti dell'hardware, poiché offrono un backup affidabile. Tuttavia, mentre la ridondanza e il ripristino dei dati si concentrano entrambi sulla prevenzione della perdita di dati, la ridondanza dà priorità alla disponibilità e alla continuità dei dati, mentre il ripristino si concentra sul loro recupero.
Nella gestione dei database, esistono 2 tipi di ridondanza dei dati: intenzionale e non intenzionale.
Le organizzazioni implementano deliberatamente la ridondanza dei dati per migliorare la disponibilità del sistema e proteggersi dalla perdita di dati. Contribuendo a garantire che i sistemi continuino a funzionare anche in caso di guasti hardware, la ridondanza intenzionale dei dati migliora la coerenza dei dati e soddisfa i requisiti di disponibilità elevata. Questi vantaggi la rendono particolarmente utile nei sistemi di gestione di database relazionali (DBMS) e nei data warehouse.
La ridondanza non intenzionale dei dati si verifica quando i sistemi creano inavvertitamente dati duplicati, con conseguenti inefficienze. Ad esempio, le copie ridondanti dei dati possono aumentare i costi di storage, causare discrepanze nell'analisi e peggiorare le prestazioni a causa del lungo processo di manutenzione di copie di dati non necessarie.
La ridondanza intenzionale dei dati offre diversi benefici chiave che possono migliorare la qualità, la sicurezza e la disponibilità dei dati:
Per implementare in modo efficace la ridondanza intenzionale dei dati, le organizzazioni utilizzano diversi strumenti e tecniche, come data replication, configurazioni RAID e file system distribuiti:
La tecnologia Redundant Array of Independent Disks (RAID) combina più dischi rigidi in un'unica unità. Questa tecnologia di data storage migliora la ridondanza dei dati e la tolleranza ai guasti, ovvero la capacità del sistema di continuare a funzionare anche in caso di guasto dei componenti.
RAID 1, ad esempio, esegue il mirroring dei dati tra due unità, contribuendo a garantire che, in caso di guasto di un'unità, i dati rimangano disponibili. Le configurazioni RAID bilanciano prestazioni, capacità di storage e parità, rendendole ideali per ambienti con set di dati di grandi dimensioni.
I sistemi di file distribuiti (DFS) memorizzano i dati su più macchine o nodi, replicando automaticamente i dati per garantire ridondanza e alta disponibilità. Con questa architettura con tolleranza ai guasti, se un nodo o un disco si guastano, è comunque possibile accedere ai dati da altri nodi, contribuendo a garantire che l'accesso ai dati rimanga ininterrotto.
La tecnologia di data replication prevede la creazione di copie dei dati in diverse sedi per contribuire a garantire la disponibilità dei dati. Può essere in tempo reale (sincrono) o ritardato (asincrono). La data replication è fondamentale per fornire un accesso continuo ai dati, in particolare negli scenari di disaster recovery.
La ridondanza non intenzionale dei dati comporta diversi rischi che possono avere un impatto sulla qualità, sulle prestazioni e sulla sicurezza dei dati, tra cui:
Per affrontare la ridondanza involontaria dei dati, le organizzazioni possono ricorrere a varie strategie di mitigazione, tra cui:
La normalizzazione del database organizza i dati in campi separati e correlati per eliminare i dati duplicati e ridurre la ridondanza. Questo processo aiuta a garantire che ogni singolo dato venga memorizzato una sola volta, migliorando l'integrità e la coerenza dei dati. Il processo segue una serie di regole, spesso classificate come prima, seconda, terza e quarta forma normale.
La deduplica dei dati identifica e rimuove i dati duplicati tra i sistemi, memorizzando solo una singola istanza di ogni immissione di dati. Questa tecnica è comunemente usata nei data center e negli ambienti di storage cloud per ottimizzare lo spazio di storage e ridurre i problemi di ridondanza.
La compressione dei dati riduce le dimensioni dei set di dati eliminando gli elementi ripetitivi. Questa tecnica è ampiamente utilizzata nei sistemi di backup, nella trasmissione di rete e nel cloud storage per ottimizzare lo spazio di storage e migliorare l'efficienza del recupero dei dati.
Il Master Data Management (MDM) consolida i dati aziendali essenziali in un'unica fonte, migliorando la coerenza dei dati tra i sistemi. Crea un master record per i dati chiave come clienti, prodotti e dipendenti, eliminando così i dati duplicati e riducendo la ridondanza.
Il collegamento dei dati utilizza le chiavi esterne nei sistemi di gestione dei database (DBMS) per creare relazioni tra i campi di dati, riducendo la ridondanza. Ad esempio, i dati dei clienti possono essere memorizzati in una tabella "cliente", dove gli ordini sono collegati al cliente attraverso l'ID cliente, per garantire l'accuratezza e la coerenza dei dati.
Sebbene la ridondanza dei dati e il ripristino dei dati affrontino entrambi la perdita di dati, hanno scopi diversi. La ridondanza dei dati è spesso utilizzata come strategia proattiva. Aiuta a garantire un'elevata disponibilità e riduce al minimo il tempo di inattività memorizzando copie ridondanti dei dati in più sedi.
Tuttavia, il ripristino dei dati è un processo reattivo. Ripristina i dati dopo incidenti come danni, cancellazione accidentale o attacchi informatici. Esistono diversi metodi di ripristino dei dati utilizzati per ripristinare i dati persi e i sistemi a uno stato precedente, tra cui:
Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.
Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.
Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.