Início

topics

Replicação de dados

O que é data replication?
Explore a solução de data replication da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos
O que é data replication?

Data replication é o processo de criar e manter várias cópias dos mesmos dados em diferentes locais como forma de garantir a disponibilidade, confiabilidade e resiliência dos dados em toda uma organização.

Ao replicar dados de um local de origem para um ou mais locais de destino, as réplicas oferecem aos usuários globais de uma organização acesso imediato aos dados de que precisam, sem sofrer problemas de latência.

Quando existem várias cópias dos mesmos dados em locais diferentes, mesmo que uma cópia se torne inacessível devido a um desastre, interrupção ou qualquer outro motivo, outra cópia pode ser usada como backup. Essa redundância ajuda as organizações a minimizar o downtime e a perda de dados e melhorar a continuidade de negócios.

Por que a governança da IA é um imperativo empresarial para escalar a IA empresarial

Saiba mais sobre as barreiras à adoção da IA, particularmente a falta de soluções de governança e gerenciamento de riscos da IA.

Conteúdo relacionado Registre-se para o ebook sobre armazenamento de dados de IA
Como funciona a data replication

A data replication pode ocorrer em uma rede de área de armazenamento, rede local ou rede de área ampla local, bem como na nuvem. A replicação pode ocorrer de forma síncrona ou assíncrona, que se refere a como as operações de escrita são gerenciadas.

  • A data replication síncrona significa que os dados são constantemente copiados para o servidor principal e para todos os servidores de réplica simultaneamente.

  • A data replication assíncrona significa que os dados são copiados primeiro para o servidor principal e só depois copiados para servidores de réplica em lotes.

Embora a replicação síncrona garanta que nenhum dado seja perdido, a replicação assíncrona requer substancialmente menos largura de banda e é mais barata.

Benefícios da data replication

Empregando uma estratégia eficaz de data replication, as organizações podem se beneficiar das seguintes maneiras:

Escalabilidade aprimorada

A data replication pode ser usada como parte de uma estratégia de expansão para acomodar o aumento do tráfego e as demandas das cargas de trabalho. A replicação cria escalabilidade ao distribuir dados em vários nós, o que pode permitir maior capacidade de processamento e melhor desempenho do servidor.

Recuperação de desastres mais rápida

Manter cópias de dados em locais diferentes ajuda a minimizar a perda de dados e o downtime em caso de queda de energia, ataque de cibersegurança ou desastre natural. A capacidade de restaurar a partir de uma réplica remota ajuda a garantir a robustez do sistema, a confiabilidade organizacional e a segurança.

Menor latência

Um banco de dados distribuído globalmente significa que ele deve percorrer uma distância menor até o usuário final. Isso reduz a latência e aumenta a velocidade e o desempenho do servidor, que são especialmente importantes para cargas de trabalho baseadas em tempo real em sistemas de jogos ou recomendação, ou sistemas com muitos recursos, como ferramentas de projeto.

Melhor tolerância a falhas

A replicação aumenta a tolerância a falhas ao fornecer redundância. Se uma cópia dos dados for corrompida ou perdida devido a uma falha, o sistema poderá recorrer a uma das outras réplicas. Isso ajuda a evitar perda de dados e garante operações ininterruptas.

Desempenho otimizado

Ao distribuir solicitações de acesso a dados entre vários servidores ou locais, a data replication pode levar ao desempenho otimizado dos servidores, colocando menos estresse em servidores individuais. Esse balanceamento de carga ajuda a gerenciar grandes volumes de solicitações e garantir uma experiência do usuário mais responsiva.

Tipos de data replication

A data replication pode ser classificada em vários tipos com base no método, na finalidade e nas características do processo de data replication. Os três principais tipos de data replication são a replicação transacional, a replicação de instantâneos e a replicação de mesclagem.

A replicação transacional consiste em bancos de dados sendo copiados integralmente do servidor primário (o editor) e enviados para servidores secundários (assinantes). Todas as alterações de dados são atualizadas de forma consistente e contínua. Como os dados são replicados em tempo real e enviados do banco de dados primário para servidores secundários na ordem de sua ocorrência, a consistência transacional é garantida. Esse tipo de replicação de banco de dados é comumente usado em ambientes de servidor para servidor.

Com a replicação de instantâneos, um instantâneo do banco de dados é distribuído do servidor primário para os servidores secundários. Em vez de atualizações contínuas, os dados são enviados como existem no momento do instantâneo. Esse tipo de replicação de banco de dados é recomendado quando não há muitas alterações de dados ou ao iniciar a sincronização entre o editor e o assinante. Embora não seja útil para backups de dados porque não monitora alterações de dados, a replicação de instantâneos pode ajudar nas recuperações em caso de exclusão acidental.

A replicação de mesclagem consiste na combinação de dois bancos de dados em um único banco de dados. Como resultado, todas as alterações nos dados podem ser atualizadas do editor para os assinantes. Esse é um tipo complexo de replicação de banco de dados, pois ambas as partes (o servidor primário e os servidores secundários) podem fazer alterações nos dados. Esse tipo de replicação só é recomendado para uso em um ambiente de servidor para cliente.

Esquemas de data replication

Os esquemas de replicação são as operações e tarefas necessárias para realizar a data replication. Os três principais esquemas de data replication são a replicação completa, a replicação parcial e a ausência de replicação.

Com a replicação completa, um banco de dados primário é copiado em sua totalidade para todos os locais no sistema distribuído. Esse esquema de distribuição global oferece alta redundância de banco de dados, latência reduzida e execução acelerada de consultas. As desvantagens da replicação completa são a dificuldade de alcançar a simultaneidade, e os processos de atualização são lentos.

Em um esquema de replicação parcial, algumas seções do banco de dados são replicadas em alguns ou em todos os sites, geralmente dados que foram atualizados recentemente. A replicação parcial permite priorizar quais dados são importantes e devem ser replicados, bem como a distribuição de recursos de acordo com o que o campo precisa.

Nenhuma replicação é um esquema em que todos os dados são armazenados em apenas um site. Isso permite recuperar facilmente os dados e alcançar a simultaneidade. As desvantagens de não haver replicação são que isso afeta negativamente a disponibilidade e também retarda a execução de consultas.

Técnicas de data replication

Técnicas de data replication referem-se aos métodos e mecanismos usados para replicar dados de uma fonte primária para um ou mais sistemas ou locais de destino. As técnicas de data replication mais amplamente utilizadas são replicação de tabela completa, replicação baseada em chave e replicação baseada em log.

Com a replicação de tabela completa, todos os dados são copiados da fonte de dados para o destino, incluindo todos os dados novos e existentes. Essa técnica é recomendada se os registros forem excluídos regularmente ou se outras técnicas forem tecnicamente impossíveis. Devido ao tamanho dos conjuntos de dados, a replicação de tabela completa requer mais recursos de processamento e rede, além de ser mais cara.

Nas replicações incrementais baseadas em chaves, somente os novos dados que foram adicionados desde a atualização anterior são replicados. Essa técnica é mais eficiente porque menos linhas são copiadas. Uma desvantagem da replicação incremental baseada em chave é que ela não permite a replicação de dados de uma atualização anterior que tenha sido excluída.

A replicação baseada em log captura alterações feitas nos dados na fonte de dados ao monitorar registros de log do banco de dados (arquivo de log ou ChangeLog). Essas alterações são então replicadas para os sistemas de destino e se aplicam somente às fontes de banco de dados compatíveis. A replicação baseada em log é recomendada quando a estrutura do banco de dados de origem é estática; caso contrário, pode se tornar um processo que consome muitos recursos.

Casos de uso de data replication

A data replication é uma técnica versátil que é útil em vários setores e cenários para melhorar a disponibilidade de dados, tolerância a falhas e desempenho. Alguns dos casos de uso mais comuns de data replication incluem:

  • Melhorar a disponibilidade e o failover: a data replication é comumente usada para manter cópias redundantes de dados críticos. No caso de uma falha de hardware ou sistema, as aplicações podem mudar para uma réplica, minimizando o downtime e a perda de dados.

  • Fortalecer a posição de recuperação de desastres (DR): ao replicar dados em diferentes locais, as organizações podem garantir que os dados sejam preservados durante desastres naturais, incêndios ou outros eventos catastróficos que afetam o data center primário.

  • Aumento do desempenho por meio do balanceamento de carga: a distribuição de solicitações de leitura em várias réplicas de banco de dados ajuda a equilibrar a carga no sistema primário, garantindo, assim, o desempenho ideal durante um pico de uso.

  • Reduzir a latência para a força de trabalho global: organizações que têm várias filiais em vários continentes podem replicar dados para data centers localizados mais perto de cada usuário. Isso reduz a latência e melhora a experiência do usuário.

  • Melhorar a business intelligence e o aprendizado de máquina: ao sincronizar relatórios de business intelligence baseados em nuvem e permitir a movimentação de dados de várias fontes de dados para armazenamentos de dados, incluindo data warehouses ou data lakes, a data replication torna-se compatível com análise de dados avançada.

  • Melhorar o acesso a dados de saúde: a replicação de registros eletrônicos de saúde (EHRs) e dados de pacientes fornece aos profissionais de saúde acesso rápido a informações críticas do paciente e, ao mesmo tempo, mantém a redundância de dados.

  • Jogos e multijogador online: replicar dados de jogos e informações de estado em servidores de jogo ajuda a compatibilidade com jogos multijogador online, garantindo sincronização e experiências consistentes para os jogadores.
Riscos da data replication

Ao implementar uma estratégia de data replication, a crescente complexidade dos sistemas de dados e o aumento da distância física entre os servidores em um sistema representam vários riscos, incluindo:

Dados inconsistentes

As ferramentas de data replication devem garantir que os dados permaneçam consistentes em todas as réplicas. Atrasos de replicação, problemas de rede ou conflitos em atualizações simultâneas podem causar anomalias no esquema de dados e na criação de perfis de dados, como contagens nulas, alterações de tipos e distorções.

Perda de dados

Embora a data replication seja frequentemente usada para backup de dados e recuperação de desastres, nem todas as estratégias de data replication fornecem proteção de dados em tempo real (link externo a ibm.com). Se houver defasagem entre as alterações de dados e sua replicação durante uma falha, poderá haver perda de dados.

Atrasos de latência

A replicação de dados em uma rede pode introduzir latência e consumir largura de banda. A alta latência da rede ou a largura de banda limitada podem levar a atrasos na replicação, afetando a pontualidade das atualizações de dados.

Problemas de segurança de dados

Replicar dados para vários locais pode introduzir riscos de segurança. As organizações devem garantir que todas as ferramentas de data replication usadas protejam adequadamente os dados durante a replicação e em repouso em todos os locais de destino.

Complexidades da conformidade

As organizações que operam em setores regulamentados devem garantir que as práticas de data replication estejam em conformidade com os regulamentos específicos do setor e as leis de privacidade de dados, o que pode adicionar complexidade às estratégias de data replication.

Gerenciamento de data replication

Ao implementar um sistema de gerenciamento de dados para supervisionar e monitorar o processo de data replication, as organizações podem reduzir significativamente os riscos envolvidos. Uma plataforma de observabilidade de dados baseada em software como serviço (SaaS) é um desses sistemas que pode ajudar a garantir que:

  • Os dados são replicados com sucesso para outras instâncias, incluindo instâncias de nuvem
  • Os pipelines de replicação e migração estejam funcionando conforme o esperado
  • Pipelines interrompidos ou volumes de dados irregulares são alertados imediatamente
  • Os dados são entregues no prazo
  • Os dados entregues são seguros e confiáveis para uso em análise de dados

Ao monitorar os pipelines de dados envolvidos no processo de replicação, os engenheiros de DataOps podem garantir que todos os dados propagados pelo pipeline sejam precisos, completos e confiáveis. Isso garante que os dados replicados em cada instância possam ser usados de forma confiável pelos stakeholders. Em termos de monitoramento, uma plataforma de observabilidade SaaS eficaz será:

  • Granular — indica onde o problema está com especificidade
  • Persistente — segue a linhagem para entender onde os erros começaram
  • Automatizado — reduz erros manuais e permite o uso de limites
  • Onipresente — oferece cobertura de pipeline de ponta a ponta
  • Oportuna — permite detectar erros a tempo, antes que eles tenham um impacto

O rastreamento de pipelines permite a solução sistemática de problemas, para que quaisquer erros sejam identificados e corrigidos a tempo. Isso garante que os usuários se beneficiem constantemente de dados atualizados, confiáveis e íntegros em suas análises. Vários tipos de metadados que podem ser rastreados incluem duração da tarefa, status da tarefa, quando os dados foram atualizados e muito mais. Em caso de anomalias, o rastreamento (e o alerta) ajudam os engenheiros do DataOps a garantir a integridade dos dados.

O alerta de anomalias no pipeline de dados é uma etapa essencial que fecha o ciclo de observabilidade. Com o alerta, os engenheiros de DataOps podem corrigir qualquer problema de integridade de dados antes que eles afetem a data replication em várias instâncias. Nos sistemas de dados existentes, os engenheiros de dados podem acionar alertas para:

  • Entregas de dados perdidas
  • Alterações inesperadas de esquema
  • Perda de SLA
  • Anomalias em estatísticas em nível de coluna, como valores nulos e distribuições
  • Volumes e tamanhos de dados irregulares
  • Falhas, ineficiências e erros de pipeline

Ao configurar alertas de forma proativa e monitorá-los por meio de dashboards e outras ferramentas preferidas (Slack, PagerDuty etc.), as organizações podem realmente maximizar os benefícios da data replication e garantir a continuidade de negócios.

Produtos relacionados
IBM Databand

O IBM Databand é um software de observabilidade para pipelines e warehouses de dados que coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e fazer triagem de alertas para corrigir problemas de qualidade de dados.

Explore o Databand

Replicação de dados da IBM

Oferecendo data replication em tempo real entre armazenamentos de dados heterogêneos, o software IBM Data Replication está disponível no local, como um produto SaaS e dentro do IBM Cloud Pak for Data.

Explore a data replication

IBM DataStage

Com suporte para os padrões ETL e ELT, o IBM® DataStage® oferece integração de dados flexível e quase em tempo real, tanto no local quanto na nuvem.

Conheça o DataStage

IBM Knowledge Catalog

Um catálogo de dados inteligente para a era da IA, o IBM® O Knowledge Catalog permite acessar, organizar, categorizar e compartilhar dados e ativos de conhecimento, independentemente de onde estejam armazenados.

Conheça o Knowledge Catalog
Recursos O que é observabilidade de dados?

Faça uma análise detalhada para compreender o que é a observabilidade de dados, por que ela é importante, como evoluiu junto com os sistemas de dados modernos e as melhores práticas para implementar um framework de observabilidade de dados.

Melhores práticas de data replication da PostgreSQL para o Snowflake com Python

Aprenda como configurar a data replication usando as melhores práticas do Snowflake, incluindo bons fundamentos para rastrear a integridade dos dados.

Integração de dados na multinuvem para abastecer a IA com dados em tempo real

Fontes de dados dispersas exigem uma nova abordagem para integração de dados em diversos ambientes de nuvem e no local.

Dê o próximo passo

Implemente hoje mesmo a observabilidade proativa de dados com o IBM Databand para saber quando há problemas de integridade de dados antes de chegarem ao conhecimento de seus usuários.

Explore a data replication Agende uma demonstração em tempo real