La data replication è il processo di creazione e mantenimento di più copie degli stessi dati in diverse location, al fine di garantire disponibilità, affidabilità e resilienza dei dati all'interno di un'organizzazione.
Replicando i dati da una posizione di origine a una o più posizioni di destinazione, le repliche offrono agli utenti globali di un'organizzazione un accesso immediato ai dati di cui hanno bisogno senza problemi di latenza.
Quando esistono più copie degli stessi dati in posizioni diverse, anche se una copia diventa inaccessibile a causa di un disastro, un'interruzione o qualsiasi altro motivo, un'altra copia può essere utilizzata come backup. Questa ridondanza aiuta le organizzazioni a ridurre al minimo il tempo di inattività e la perdita di dati e a migliorare la continuità aziendale.
Scopri gli ostacoli all’adozione dell’AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell’AI.
La Data Replication può avvenire su una storage area network, una rete locale o una rete geografica, nonché sul cloud. La replica può avvenire in modo sincrono o asincrono, facendo riferimento al modo in cui vengono gestite le operazioni di scrittura.
Sebbene la replica sincrona assicuri che non si verifichino perdite di dati, la replica asincrona richiede una larghezza di banda sostanzialmente inferiore ed è meno costosa.
Utilizzando un'efficace strategia di data replication, le organizzazioni possono trarre beneficio nei seguenti modi:
La Data Replication può essere utilizzata come parte integrante di una strategia di scalabilità per soddisfare le crescenti richieste di traffico e workload. La replica crea scalabilità distribuendo i dati su più nodi, consentendo una maggiore potenza di elaborazione e migliori prestazioni del server.
La conservazione delle copie dei dati in luoghi diversi aiuta a ridurre al minimo la perdita di dati e il tempo di inattività in caso di interruzione elettrica, attacco alla cybersecurity o disastro naturale. La possibilità di eseguire il ripristino da una replica remota consente di garantire la robustezza del sistema, l'affidabilità e la sicurezza dell'organizzazione.
Un database distribuito a livello globale significa che deve percorrere una distanza minore per raggiungere l'utente finale. Ciò riduce la latenza e aumenta la velocità e le prestazioni del server, che sono particolarmente importanti per i workload basati su tempo reale nei sistemi di gioco o di raccomandazione o per i sistemi ad alto consumo di risorse come gli strumenti di progettazione.
La replica migliora la tolleranza agli errori garantendo ridondanza. Se una copia dei dati viene danneggiata o persa a causa di un errore, il sistema può ricorrere a una delle altre repliche, prevenendo la perdita di dati e assicurando la continuità operativa.
Distribuendo le richieste di accesso ai dati su più server o sedi, la data replication può portare a prestazioni ottimizzate dei server mettendo meno stress sui singoli server. Questo bilanciamento del carico può aiutare a gestire volumi elevati di richieste e garantire un'esperienza utente più reattiva.
La Data Replication può essere classificata in varie tipologie in base al metodo, allo scopo e alle caratteristiche del processo di replica. Le tre tipologie principali di Data Replication sono la replica transazionale, la replica istantanea e la replica di tipo merge.
La replica transazionale consiste nel copiare i database nella loro interezza dal server primario (l'editore) e inviarli ai server secondari (sottoscrittori). Eventuali modifiche ai dati vengono aggiornate in modo coerente e continuo. Poiché i dati vengono replicati in tempo reale e inviati dal database principale ai server secondari nell'ordine in cui si verificano, la coerenza transazionale è garantita. Questo tipo di replica del database è comunemente utilizzato negli ambienti server-to-server.
Con la replica snapshot, un'istantanea del database viene distribuita dal server principale ai server secondari. Invece di procedere con aggiornamenti continui, i dati vengono inviati così come sono al momento dell'istantanea. Questo tipo di replica del database è consigliato quando non sono presenti molte modifiche ai dati o quando si avvia per la prima volta la sincronizzazione tra editore e abbonato. Sebbene non sia utile per il data backup perché non ne monitora le modifiche, la replica snapshot può aiutare con i ripristini in caso di eliminazione accidentale.
La replica di tipo merge è costituita dalla combinazione di due database in un unico database. Di conseguenza, qualsiasi modifica ai dati può essere aggiornata dall'editore agli abbonati. Si tratta di un tipo complesso di replica del database, poiché entrambe le parti (il server primario e i server secondari) possono apportare modifiche ai dati. Questo tipo di replica è consigliato solo per l'utilizzo in un ambiente server-client.
Gli schemi di replica sono le operazioni e le attività necessarie per eseguire la data replication. I tre principali schemi di data replication sono la replica completa, la replica parziale e nessuna replica.
Con la replica completa, un database primario viene copiato nella sua interezza in ogni sito del sistema distribuito. Questo schema di distribuzione globale offre un'elevata ridondanza del database, una latenza ridotta e un'esecuzione accelerata delle query. Gli svantaggi della replica completa sono la difficoltà di ottenere la concomitanza e la lentezza dei processi di aggiornamento.
In uno schema di replica parziale, alcune sezioni del database vengono replicate su alcuni o tutti i siti, in genere i dati che sono stati aggiornati di recente. La replica parziale consente di stabilire le priorità dei dati importanti e che devono essere replicati, nonché di distribuire le risorse in base alle esigenze sul campo.
Nessuna replica è uno schema in cui tutti i dati vengono archiviati in un solo sito. In questo modo è possibile recuperare facilmente i dati e ottenere la simultaneità. Gli svantaggi dell'assenza di replica sono che influisce negativamente sulla disponibilità, oltre a rallentare l'esecuzione delle query.
Le tecniche di data replication si riferiscono ai metodi e ai meccanismi utilizzati per replicare i dati da una fonte primaria a uno o più sistemi o posizioni di destinazione. Le tecniche di data replication più utilizzate sono la replica a tabella completa, la replica basata su chiavi e la replica basata su log.
Con la replica a tabella completa, tutti i dati vengono copiati dall'origine dati alla destinazione, inclusi tutti i dati nuovi ed esistenti. Questa tecnica è consigliata se i record vengono eliminati regolarmente o se altre tecniche sono tecnicamente impossibili. A causa delle dimensioni del set di dati, la replica a tabella completa richiede più risorse di elaborazione e di rete, oltre ad essere più costosa.
Nella replica incrementale basata su chiavi, vengono replicati solo i nuovi dati aggiunti dopo l'aggiornamento precedente. Questa tecnica è più efficiente perché vengono copiate meno righe. Un aspetto negativo della replica incrementale basata su chiavi è che non consente di replicare i dati di un aggiornamento precedente che è stato cancellato.
La replica basata su log acquisisce le modifiche apportate ai dati nell'origine dei dati monitorando i record di log del database (file di log o ChangeLog). Queste modifiche vengono quindi replicate nei sistemi di destinazione e si applicano solo alle origini di database supportate. La replica basata su log è consigliata quando la struttura del database di origine è statica, perché altrimenti potrebbe diventare un processo molto dispendioso in termini di risorse.
La data replication è una tecnica versatile utile in vari settori e scenari per migliorare la disponibilità dei dati, la tolleranza ai guasti e le prestazioni. Alcuni dei casi d'uso più comuni per la data replication includono:
Quando si implementa una strategia di data replication, la crescente complessità dei sistemi di dati e l'aumento della distanza fisica tra i server all'interno di un sistema comportano diversi rischi, tra cui:
Gli strumenti di Data Replication devono garantire che i dati rimangano coerenti in tutte le repliche. Ritardi di replica, problemi di rete o conflitti negli aggiornamenti simultanei possono causare anomalie nello schema e nella profilazione dei dati, come conteggi null, modifiche del tipo e distorsione.
Sebbene la Data Replication sia spesso utilizzata per il backup e il disaster recovery dei dati, non tutte le strategie di replica forniscono protezione dei dati in tempo reale (link esterno a ibm.com). Se si verifica un ritardo tra le modifiche ai dati e la loro replica durante un errore, potrebbe verificarsi una perdita di dati.
La data replication su una rete può causare latenza e consumare larghezza di banda. Un'elevata latenza di rete o una larghezza di banda limitata possono causare ritardi di replica, compromettendo la tempestività degli aggiornamenti dei dati.
La data replication in più posizioni può comportare rischi per la sicurezza. Le organizzazioni devono assicurarsi che gli strumenti di data replication utilizzati proteggano adeguatamente i dati durante la replica e a riposo in tutte le sedi di destinazione.
Le organizzazioni che operano in settori regolamentati devono garantire che le pratiche di data replication siano conformi alle normative specifiche del settore e alle leggi sulla privacy dei dati, il che può aggiungere complessità alle strategie di replica.
Implementando un sistema di gestione dei dati per supervisionare e monitorare il processo di data replication, le organizzazioni possono ridurre significativamente i rischi connessi. Una piattaforma di osservabilità dei dati basata sul software as a service (SaaS) è uno di questi sistemi che può aiutare a garantire che:
Monitorando le pipeline di dati coinvolte nel processo di replica, gli ingegneri di DataOps possono garantire che tutti i dati propagati attraverso la pipeline siano accurati, completi e affidabili. In questo modo si garantisce che i dati replicati in ogni istanza possano essere utilizzati in modo affidabile dagli stakeholder. In termini di monitoraggio, un'efficace piattaforma di osservabilità SaaS sarà:
Il tracciamento delle pipeline consente la risoluzione sistematica dei problemi, in modo da identificare eventuali errori e poterli risolvere in tempo. Questo garantisce agli utenti di beneficiare costantemente di dati aggiornati, affidabili e sani nelle loro analisi. I vari tipi di metadati che possono essere tracciati includono la durata dell'attività, lo stato dell'attività, quando i dati sono stati aggiornati e altro ancora. In caso di anomalie, il tracciamento (e gli avvisi) aiutano gli ingegneri di DataOps a garantire l'integrità dei dati.
L'avviso di anomalia della pipeline di dati è un passo essenziale che chiude il ciclo di osservabilità. Con gli avvisi, gli ingegneri di DataOps possono correggere qualsiasi problema di integrità dei dati prima che influisca sulla data replication in varie istanze. All'interno dei sistemi di dati esistenti, gli ingegneri dei dati possono attivare avvisi per:
Impostando in modo proattivo gli avvisi e monitorandoli tramite le dashboard e altri strumenti preferiti (Slack, PagerDuty, ecc.), le organizzazioni possono veramente ottimizzare i benefici della Data Replication e garantire la continuità aziendale.
IBM Databand è un software di osservabilità per pipeline di dati e warehouse che raccoglie automaticamente i metadati per creare linee di base cronologiche, rilevare anomalie e valutare gli avvisi per correggere i problemi di qualità dei dati.
Fornendo la data replication in tempo reale tra storage dei dati eterogenei, il software IBM Data Replication è disponibile on-premise, come prodotto SaaS e all'interno di IBM Cloud Pak for Data.
Supportando i modelli ETL ed ELT, IBM® DataStage® offre un'integrazione dati flessibile e quasi in tempo reale, sia on-premise che nel cloud.
Catalogo intelligente di dati per l'era dell'AI, IBM® Knowledge Catalog ti consente di accedere, rendere accurati, categorizzare e condividere i dati, gli asset di conoscenza e le loro relazioni, ovunque si trovino.
Esaminalo dettagliatamente, per capire che cos’è l’osservabilità dei dati, perché è importante, come si è evoluta con i moderni sistemi di dati e le best practice per implementare un framework di osservabilità dei dati.
Scopri come configurare la Data Replication utilizzando le best practice di Snowflake, compresi i fondamenti per il monitoraggio dell’integrità dei dati.
Origini dati eterogenee distribuite in più ambienti cloud e on-premise richiedono un nuovo approccio all’integrazione dei dati.