Che cos'è la ridondanza dei dati?

Immagine di forme variabili su un sistema a griglia

Autori

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Che cos'è la ridondanza dei dati?

La ridondanza dei dati si verifica quando più copie degli stessi dati sono memorizzate in posizioni, formati o sistemi diversi.

Sebbene la ridondanza involontaria dei dati possa condurre a inefficienze, come aumento dei costi di storage e incoerenza dei dati, la ridondanza intenzionale dei dati è una componente fondamentale di una gestione efficace dei dati. È attualmente particolarmente utile in quanto le organizzazioni gestiscono set di dati di grandi dimensioni e volumi di dati in costante aumento. Le copie ridondanti dei dati sono spesso fondamentali per la progettazione e lo schema del database, poiché contribuiscono a garantire un'elevata disponibilitàintegrità e coerenza dei dati.

Anche la ridondanza intenzionale dei dati riveste un ruolo critico nel disaster recovery. Ad esempio, nel 2024 le violazioni dei dati sono costate in media alle aziende 4,88 milioni di dollari. Le copie ridondanti dei dati sono fondamentali in caso di danni ai dati o in caso di guasti dell'hardware, poiché offrono un backup affidabile. Tuttavia, mentre la ridondanza e il ripristino dei dati si concentrano entrambi sulla prevenzione della perdita di dati, la ridondanza dà priorità alla disponibilità e alla continuità dei dati, mentre il ripristino si concentra sul loro recupero.

Design 3D di palline che rotolano su una pista

Le ultime notizie e insight sull'AI


Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think. 

Ridondanza dei dati intenzionale e non intenzionale

Nella gestione dei database, esistono 2 tipi di ridondanza dei dati: intenzionale e non intenzionale.

Intenzionale

Le organizzazioni implementano deliberatamente la ridondanza dei dati per migliorare la disponibilità del sistema e proteggersi dalla perdita di dati. Contribuendo a garantire che i sistemi continuino a funzionare anche in caso di guasti hardware, la ridondanza intenzionale dei dati migliora la coerenza dei dati e soddisfa i requisiti di disponibilità elevata. Questi vantaggi la rendono particolarmente utile nei sistemi di gestione di database relazionali (DBMS) e nei data warehouse.

Non intenzionale

La ridondanza non intenzionale dei dati si verifica quando i sistemi creano inavvertitamente dati duplicati, con conseguenti inefficienze. Ad esempio, le copie ridondanti dei dati possono aumentare i costi di storage, causare discrepanze nell'analisi e peggiorare le prestazioni a causa del lungo processo di manutenzione di copie di dati non necessarie.

AI Academy

È la gestione dei dati il segreto dell’AI generativa?

Scopri perché i dati di alta qualità sono fondamentali per un uso efficace dell'AI generativa.

Benefici della ridondanza intenzionale dei dati

La ridondanza intenzionale dei dati offre diversi benefici chiave che possono migliorare la  qualità, la sicurezza e la disponibilità dei dati:

  • Integrità dei dati: le copie ridondanti dei dati aiutano i sistemi a riprendersi da errori, guasti hardware o discrepanze. Se un dato viene danneggiato, i sistemi possono accedere rapidamente a una versione pulita e non danneggiata da un'altra copia, migliorando l'accesso ai dati e il tempo di attività.

  • Coerenza dei dati: le copie sincronizzate dei dati critici aiutano a mantenere gli aggiornamenti su tutte le copie dei dati, prevenendone l'incoerenza. Ciò è particolarmente importante in ambienti che richiedono elevati livelli di coerenza dei dati, come i sistemi di cloud storage o di pianificazione delle risorse aziendali (ERP). 

  • Sicurezza dei dati: copie ridondanti dei dati proteggono dalla corruzione, perdita o violazione dei dati. La memorizzazione dei dati in diverse sedi o sistemi di storage aiuta a garantire che, se un sistema è compromesso, i dati siano ancora accessibili da un'altra fonte sicura.

  • Efficienza operativa: la ridondanza intenzionale dei dati migliora l'efficienza operativa riducendo i tempi di inattività. Con copie ridondanti dei dati, le aziende possono mantenere l'accesso ai dati e la produttività, anche in caso di guasti o interruzioni dell'hardware.

 

Strumenti e tecniche per la ridondanza intenzionale dei dati

Per implementare in modo efficace la ridondanza intenzionale dei dati, le organizzazioni utilizzano diversi strumenti e tecniche, come data replication, configurazioni RAID e file system distribuiti:

Configurazioni RAID

La tecnologia Redundant Array of Independent Disks (RAID) combina più dischi rigidi in un'unica unità. Questa tecnologia di data storage migliora la ridondanza dei dati e la tolleranza ai guasti, ovvero la capacità del sistema di continuare a funzionare anche in caso di guasto dei componenti. 

RAID 1, ad esempio, esegue il mirroring dei dati tra due unità, contribuendo a garantire che, in caso di guasto di un'unità, i dati rimangano disponibili. Le configurazioni RAID bilanciano prestazioni, capacità di storage e parità, rendendole ideali per ambienti con set di dati di grandi dimensioni.

Sistemi di file distribuiti

I sistemi di file distribuiti (DFS) memorizzano i dati su più macchine o nodi, replicando automaticamente i dati per garantire ridondanza e alta disponibilità. Con questa architettura con tolleranza ai guasti, se un nodo o un disco si guastano, è comunque possibile accedere ai dati da altri nodi, contribuendo a garantire che l'accesso ai dati rimanga ininterrotto.

Replica dei dati

La tecnologia di data replication prevede la creazione di copie dei dati in diverse sedi per contribuire a garantire la disponibilità dei dati. Può essere in tempo reale (sincrono) o ritardato (asincrono). La data replication è fondamentale per fornire un accesso continuo ai dati, in particolare negli scenari di disaster recovery.

Rischi della ridondanza non intenzionale dei dati

La ridondanza non intenzionale dei dati comporta diversi rischi che possono avere un impatto sulla qualità, sulle prestazioni e sulla sicurezza dei dati, tra cui:

  • Aumento dei costi di storage: la memorizzazione di copie ridondanti dei dati su più sistemi o sedi aumenta i requisiti di spazio di storage. Ciò aumenta anche i costi dello storage, soprattutto negli ambienti cloud in cui i prezzi si basano spesso sul volume di data storage utilizzato. 

  • Incoerenza dei dati: quando gli aggiornamenti o le cancellazioni di dati non sono sincronizzati correttamente, possono verificarsi incoerenze. Queste discrepanze possono causare errori nel recupero delle informazioni e nell'analisi dei dati, compromettendo l'integrità del sistema e portando a segnalazioni o a un processi decisionali errati.

  • Corruzione e perdita di dati: le copie ridondanti dei dati, se non gestite correttamente, possono aumentare il rischio di corruzione dei dati. Ad esempio, se il danneggiamento non viene rilevato e viene replicato in tutte le copie dei dati, influisce sull'intero set di dati. Processi di replica o backup inadeguati possono anche esporre alla perdita di dati critici.

  • Degrado delle prestazioni: sebbene la replica possa contribuire a garantire la coerenza dei dati, può anche introdurre latenza quando gli aggiornamenti vengono eseguiti su più copie. Questo può rallentare il recupero dei dati, soprattutto nei sistemi che gestiscono grandi serie di dati o elevati volumi di transazioni.

  • Rischi per la sicurezza e la conformità: i dati ridondanti aumentano il numero di potenziali vulnerabilità, rendendo i sistemi più suscettibili ai agli attacchi informatici. Più copie di dati possono anche violare i principi di riduzione dei dati previsti da normative come il Regolamento generale sulla protezione dei dati (GDPR) e il California Consumer Privacy Act (CCPA).

Tattiche di mitigazione per la ridondanza non intenzionale dei dati

Per affrontare la ridondanza involontaria dei dati, le organizzazioni possono ricorrere a varie strategie di mitigazione, tra cui:

Normalizzazione del database

La normalizzazione del database organizza i dati in campi separati e correlati per eliminare i dati duplicati e ridurre la ridondanza. Questo processo aiuta a garantire che ogni singolo dato venga memorizzato una sola volta, migliorando l'integrità e la coerenza dei dati. Il processo segue una serie di regole, spesso classificate come prima, seconda, terza e quarta forma normale.

Deduplicazione dei dati

La deduplica dei dati identifica e rimuove i dati duplicati tra i sistemi, memorizzando solo una singola istanza di ogni immissione di dati. Questa tecnica è comunemente usata nei data center e negli ambienti di storage cloud per ottimizzare lo spazio di storage e ridurre i problemi di ridondanza.

Compressione dei dati

La compressione dei dati riduce le dimensioni dei set di dati eliminando gli elementi ripetitivi. Questa tecnica è ampiamente utilizzata nei sistemi di backup, nella trasmissione di rete e nel cloud storage per ottimizzare lo spazio di storage e migliorare l'efficienza del recupero dei dati. 

Master Data Management

Il Master Data Management (MDM) consolida i dati aziendali essenziali in un'unica fonte, migliorando la coerenza dei dati tra i sistemi. Crea un master record per i dati chiave come clienti, prodotti e dipendenti, eliminando così i dati duplicati e riducendo la ridondanza.

Collegamento dei dati

Il collegamento dei dati utilizza le chiavi esterne nei sistemi di gestione dei database (DBMS) per creare relazioni tra i campi di dati, riducendo la ridondanza. Ad esempio, i dati dei clienti possono essere memorizzati in una tabella "cliente", dove gli ordini sono collegati al cliente attraverso l'ID cliente, per garantire l'accuratezza e la coerenza dei dati.

Ridondanza dei dati e ripristino dei dati

Sebbene la ridondanza dei dati e il ripristino dei dati affrontino entrambi la perdita di dati, hanno scopi diversi. La ridondanza dei dati è spesso utilizzata come strategia proattiva. Aiuta a garantire un'elevata disponibilità e riduce al minimo il tempo di inattività memorizzando copie ridondanti dei dati in più sedi.

Tuttavia, il ripristino dei dati è un processo reattivo. Ripristina i dati dopo incidenti come danni, cancellazione accidentale o attacchi informatici. Esistono diversi metodi di ripristino dei dati utilizzati per ripristinare i dati persi e i sistemi a uno stato precedente, tra cui:

  • Backup dei dati: i backup regolari memorizzano le copie dei dati separatamente dal sistema principale, in genere in ambienti di storage esterni o cloud. Questi backup sono essenziali per il disaster recovery, poiché aiutano a garantire il ripristino dei dati in caso di guasti o corruzione.

  • Snapshot: gli snapshot creano copie temporali dei dati, catturando lo stato esatto dei dati nel momento in cui vengono acquisiti. Questa tecnica facilita il recupero veloce dei dati in ambienti virtualizzati e aiuta nel disaster recovery senza bisogno di backup completi.

  • Protezione continua dei dati: i sistemi di protezione continua dei dati (CDP) tengono traccia delle modifiche a livello di blocco, contribuendo a garantire che vengano aggiornati solo i blocchi di dati modificati. I sistemi CDP operano in tempo reale per conservare i dati più recenti e includono funzioni di deduplica per ridurre le copie non necessarie dei dati, ottimizzando così lo spazio di storage.
Soluzioni correlate
Software e soluzioni per la gestione dei dati

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati
IBM watsonx.data™

Watsonx.data ti consente di scalare l'analytics e l'AI con tutti i tuoi dati, ovunque risiedano, attraverso uno storage dei dati aperto, ibrido e governato.

Scopri watsonx.data
Servizi di consulenza per dati e analytics

Sblocca il valore dei dati enterprise con IBM Consulting, creando un'organizzazione basata su insight in grado di generare vantaggi aziendali.

Esplora i servizi di analytics
Fai il passo successivo

Progetta una strategia dati che elimini i silo, riduca la complessità e migliori la qualità dei dati per esperienze eccezionali di clienti e dipendenti.

Esplora le soluzioni di gestione dei dati Scopri watsonx.data