Início
topics
Replicação de dados
Data replication é o processo de criar e manter várias cópias dos mesmos dados em diferentes locais como forma de garantir a disponibilidade, confiabilidade e resiliência dos dados em toda uma organização.
Ao replicar dados de um local de origem para um ou mais locais de destino, as réplicas oferecem aos usuários globais de uma organização acesso imediato aos dados de que precisam, sem sofrer problemas de latência.
Quando existem várias cópias dos mesmos dados em locais diferentes, mesmo que uma cópia se torne inacessível devido a um desastre, interrupção ou qualquer outro motivo, outra cópia pode ser usada como backup. Essa redundância ajuda as organizações a minimizar o downtime e a perda de dados e melhorar a continuidade de negócios.
Saiba mais sobre as barreiras à adoção da IA, particularmente a falta de soluções de governança e gerenciamento de riscos da IA.
A data replication pode ocorrer em uma rede de área de armazenamento, rede local ou rede de área ampla local, bem como na nuvem. A replicação pode ocorrer de forma síncrona ou assíncrona, que se refere a como as operações de escrita são gerenciadas.
Embora a replicação síncrona garanta que nenhum dado seja perdido, a replicação assíncrona requer substancialmente menos largura de banda e é mais barata.
Empregando uma estratégia eficaz de data replication, as organizações podem se beneficiar das seguintes maneiras:
A data replication pode ser usada como parte de uma estratégia de expansão para acomodar o aumento do tráfego e as demandas das cargas de trabalho. A replicação cria escalabilidade ao distribuir dados em vários nós, o que pode permitir maior capacidade de processamento e melhor desempenho do servidor.
Manter cópias de dados em locais diferentes ajuda a minimizar a perda de dados e o downtime em caso de queda de energia, ataque de cibersegurança ou desastre natural. A capacidade de restaurar a partir de uma réplica remota ajuda a garantir a robustez do sistema, a confiabilidade organizacional e a segurança.
Um banco de dados distribuído globalmente significa que ele deve percorrer uma distância menor até o usuário final. Isso reduz a latência e aumenta a velocidade e o desempenho do servidor, que são especialmente importantes para cargas de trabalho baseadas em tempo real em sistemas de jogos ou recomendação, ou sistemas com muitos recursos, como ferramentas de projeto.
A replicação aumenta a tolerância a falhas ao fornecer redundância. Se uma cópia dos dados for corrompida ou perdida devido a uma falha, o sistema poderá recorrer a uma das outras réplicas. Isso ajuda a evitar perda de dados e garante operações ininterruptas.
Ao distribuir solicitações de acesso a dados entre vários servidores ou locais, a data replication pode levar ao desempenho otimizado dos servidores, colocando menos estresse em servidores individuais. Esse balanceamento de carga ajuda a gerenciar grandes volumes de solicitações e garantir uma experiência do usuário mais responsiva.
A data replication pode ser classificada em vários tipos com base no método, na finalidade e nas características do processo de data replication. Os três principais tipos de data replication são a replicação transacional, a replicação de instantâneos e a replicação de mesclagem.
A replicação transacional consiste em bancos de dados sendo copiados integralmente do servidor primário (o editor) e enviados para servidores secundários (assinantes). Todas as alterações de dados são atualizadas de forma consistente e contínua. Como os dados são replicados em tempo real e enviados do banco de dados primário para servidores secundários na ordem de sua ocorrência, a consistência transacional é garantida. Esse tipo de replicação de banco de dados é comumente usado em ambientes de servidor para servidor.
Com a replicação de instantâneos, um instantâneo do banco de dados é distribuído do servidor primário para os servidores secundários. Em vez de atualizações contínuas, os dados são enviados como existem no momento do instantâneo. Esse tipo de replicação de banco de dados é recomendado quando não há muitas alterações de dados ou ao iniciar a sincronização entre o editor e o assinante. Embora não seja útil para backups de dados porque não monitora alterações de dados, a replicação de instantâneos pode ajudar nas recuperações em caso de exclusão acidental.
A replicação de mesclagem consiste na combinação de dois bancos de dados em um único banco de dados. Como resultado, todas as alterações nos dados podem ser atualizadas do editor para os assinantes. Esse é um tipo complexo de replicação de banco de dados, pois ambas as partes (o servidor primário e os servidores secundários) podem fazer alterações nos dados. Esse tipo de replicação só é recomendado para uso em um ambiente de servidor para cliente.
Os esquemas de replicação são as operações e tarefas necessárias para realizar a data replication. Os três principais esquemas de data replication são a replicação completa, a replicação parcial e a ausência de replicação.
Com a replicação completa, um banco de dados primário é copiado em sua totalidade para todos os locais no sistema distribuído. Esse esquema de distribuição global oferece alta redundância de banco de dados, latência reduzida e execução acelerada de consultas. As desvantagens da replicação completa são a dificuldade de alcançar a simultaneidade, e os processos de atualização são lentos.
Em um esquema de replicação parcial, algumas seções do banco de dados são replicadas em alguns ou em todos os sites, geralmente dados que foram atualizados recentemente. A replicação parcial permite priorizar quais dados são importantes e devem ser replicados, bem como a distribuição de recursos de acordo com o que o campo precisa.
Nenhuma replicação é um esquema em que todos os dados são armazenados em apenas um site. Isso permite recuperar facilmente os dados e alcançar a simultaneidade. As desvantagens de não haver replicação são que isso afeta negativamente a disponibilidade e também retarda a execução de consultas.
Técnicas de data replication referem-se aos métodos e mecanismos usados para replicar dados de uma fonte primária para um ou mais sistemas ou locais de destino. As técnicas de data replication mais amplamente utilizadas são replicação de tabela completa, replicação baseada em chave e replicação baseada em log.
Com a replicação de tabela completa, todos os dados são copiados da fonte de dados para o destino, incluindo todos os dados novos e existentes. Essa técnica é recomendada se os registros forem excluídos regularmente ou se outras técnicas forem tecnicamente impossíveis. Devido ao tamanho dos conjuntos de dados, a replicação de tabela completa requer mais recursos de processamento e rede, além de ser mais cara.
Nas replicações incrementais baseadas em chaves, somente os novos dados que foram adicionados desde a atualização anterior são replicados. Essa técnica é mais eficiente porque menos linhas são copiadas. Uma desvantagem da replicação incremental baseada em chave é que ela não permite a replicação de dados de uma atualização anterior que tenha sido excluída.
A replicação baseada em log captura alterações feitas nos dados na fonte de dados ao monitorar registros de log do banco de dados (arquivo de log ou ChangeLog). Essas alterações são então replicadas para os sistemas de destino e se aplicam somente às fontes de banco de dados compatíveis. A replicação baseada em log é recomendada quando a estrutura do banco de dados de origem é estática; caso contrário, pode se tornar um processo que consome muitos recursos.
A data replication é uma técnica versátil que é útil em vários setores e cenários para melhorar a disponibilidade de dados, tolerância a falhas e desempenho. Alguns dos casos de uso mais comuns de data replication incluem:
Ao implementar uma estratégia de data replication, a crescente complexidade dos sistemas de dados e o aumento da distância física entre os servidores em um sistema representam vários riscos, incluindo:
As ferramentas de data replication devem garantir que os dados permaneçam consistentes em todas as réplicas. Atrasos de replicação, problemas de rede ou conflitos em atualizações simultâneas podem causar anomalias no esquema de dados e na criação de perfis de dados, como contagens nulas, alterações de tipos e distorções.
Embora a data replication seja frequentemente usada para backup de dados e recuperação de desastres, nem todas as estratégias de data replication fornecem proteção de dados em tempo real (link externo a ibm.com). Se houver defasagem entre as alterações de dados e sua replicação durante uma falha, poderá haver perda de dados.
A replicação de dados em uma rede pode introduzir latência e consumir largura de banda. A alta latência da rede ou a largura de banda limitada podem levar a atrasos na replicação, afetando a pontualidade das atualizações de dados.
Replicar dados para vários locais pode introduzir riscos de segurança. As organizações devem garantir que todas as ferramentas de data replication usadas protejam adequadamente os dados durante a replicação e em repouso em todos os locais de destino.
As organizações que operam em setores regulamentados devem garantir que as práticas de data replication estejam em conformidade com os regulamentos específicos do setor e as leis de privacidade de dados, o que pode adicionar complexidade às estratégias de data replication.
Ao implementar um sistema de gerenciamento de dados para supervisionar e monitorar o processo de data replication, as organizações podem reduzir significativamente os riscos envolvidos. Uma plataforma de observabilidade de dados baseada em software como serviço (SaaS) é um desses sistemas que pode ajudar a garantir que:
Ao monitorar os pipelines de dados envolvidos no processo de replicação, os engenheiros de DataOps podem garantir que todos os dados propagados pelo pipeline sejam precisos, completos e confiáveis. Isso garante que os dados replicados em cada instância possam ser usados de forma confiável pelos stakeholders. Em termos de monitoramento, uma plataforma de observabilidade SaaS eficaz será:
O rastreamento de pipelines permite a solução sistemática de problemas, para que quaisquer erros sejam identificados e corrigidos a tempo. Isso garante que os usuários se beneficiem constantemente de dados atualizados, confiáveis e íntegros em suas análises. Vários tipos de metadados que podem ser rastreados incluem duração da tarefa, status da tarefa, quando os dados foram atualizados e muito mais. Em caso de anomalias, o rastreamento (e o alerta) ajudam os engenheiros do DataOps a garantir a integridade dos dados.
O alerta de anomalias no pipeline de dados é uma etapa essencial que fecha o ciclo de observabilidade. Com o alerta, os engenheiros de DataOps podem corrigir qualquer problema de integridade de dados antes que eles afetem a data replication em várias instâncias. Nos sistemas de dados existentes, os engenheiros de dados podem acionar alertas para:
Ao configurar alertas de forma proativa e monitorá-los por meio de dashboards e outras ferramentas preferidas (Slack, PagerDuty etc.), as organizações podem realmente maximizar os benefícios da data replication e garantir a continuidade de negócios.
O IBM Databand é um software de observabilidade para pipelines e warehouses de dados que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e fazer triagem de alertas para corrigir problemas de qualidade de dados.
Oferecendo data replication em tempo real entre armazenamentos de dados heterogêneos, o software IBM Data Replication está disponível no local, como um produto SaaS e dentro do IBM Cloud Pak for Data.
Com suporte para os padrões ETL e ELT, o IBM® DataStage® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.
Um catálogo de dados inteligente para a era da IA, o IBM® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.
Faça uma análise detalhada para compreender o que é a observabilidade de dados, por que ela é importante, como evoluiu junto com os sistemas de dados modernos e as melhores práticas para implementar um framework de observabilidade de dados.
Aprenda como configurar a data replication usando as melhores práticas do Snowflake, incluindo bons fundamentos para rastrear a integridade dos dados.
Fontes de dados dispersas exigem uma nova abordagem para integração de dados em diversos ambientes de nuvem e no local.