O que é captura de dados de alterações?

Mulher trabalhando em notebook em armazém.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

O que é captura de dados de alterações?

Captura de dados de alterações, ou CDC, é uma técnica para identificar e registrar alterações de dados em um banco de dados. O CDC entrega essas alterações em tempo real para diferentes sistemas de destino, permitindo a sincronização de dados em toda a organização imediatamente após a ocorrência de uma alteração no banco de dados.

 

A captura de dados de mudanças é um método de integração de dados em tempo real que funciona para combinar e harmonizar dados que podem estar isolados ou inconsistentes em toda a organização. Outros métodos são integração de dados de fluxo, virtualização de dados e integração de aplicativos.

A capacidade da CDC de manter os sistemas atualizados em tempo real (e com baixa latência) é fundamental para o sucesso da análise de dados em tempo real, das migrações para a nuvem e até mesmo dos modelos de IA. Conta com uma variedade de casos de uso em diversos setores, de varejo a finanças e saúde, auxiliando na detecção de fraudes, no gerenciamento da cadeia de suprimentos e na conformidade regulatória.

Há várias abordagens de captura de dados de mudanças, com a CDC baseada em log, a CDC baseada em registro de data e hora e a CDC baseada em gatilho entre as mais comuns. As empresas podem implementar a captura de dados de alterações por meio de ferramentas nativas de banco de dados, plataformas de código aberto e soluções de terceiros.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Quais os benefícios da captura de dados de alterações?

No gerenciamento de dados moderno, a captura de dados de alterações emergiu como um mecanismo crítico de engenharia de dados. Os ambientes de dados corporativos de hoje são cada vez mais grandes e complexos. Podem conter dados de dispositivos da Internet das Coisas (IoT), bancos de dados distribuídos, aplicações e outras fontes diversas. A manutenção de dados consistentes e de qualidade em todo esse ecossistema de dados em crescimento é um desafio constante.

Ao mesmo tempo, a empresa exige informações precisas e atualizadas que possam ser aproveitadas para tomada de decisão em tempo real. A captura de dados de alterações é um dos vários métodos que ajudam as organizações a atender a essa demanda.

A captura de dados de alterações permite um pipeline de dados de baixa latência que apresenta dados novos de uma forma mais eficiente e menos intensiva em recursos do que outros métodos de integração de dados. Por exemplo, data replication envolve a cópia de conjuntos de dados completos. Por outro lado, o CDC envia somente os dados que foram alterados, reduzindo assim a carga nos sistemas de origem, o tráfego de rede e as demandas por energia computacional.

Isso ajuda-os a acessar informações mais recentes e precisas de forma rápida e eficiente, trazendo vários benefícios:

Tomada de decisão em tempo real

Um fluxo de mudanças de dados em tempo real permite análise de dados em tempo real e business intelligence. Com esses recursos, as empresas podem atender às exigências do ambiente de negócios atual, que é sensível ao tempo e funciona 24 horas por dia, 7 dias por semana.

Migração bem-sucedida para a nuvem

Durante as migrações para a nuvem, o CDC entrega rapidamente as alterações de dados que ocorrem no local para as tabelas de dados relevantes baseadas na nuvem, garantindo a consistência entre os dois ambientes. Esse recurso também minimiza o tempo de inatividade do sistema durante a migração.

Melhoria do processo de ETL

ETL (extrair, transformar, carregar) pipelines de dados são fundamentais para fluxos de trabalho de análise de dados e aprendizado de máquina. Mas a execução do ETL, que depende do processamento em lote, tende a migrar lentamente e sobrecarregar os recursos do sistema. A integração do CDC ao ETL pode otimizar o uso de recursos e acelerar a movimentação de dados.

Melhor desempenho de inteligência artificial (IA)

A implementação da captura de dados de alteração pode ajudar a fazer com que os dados de origem do modelo estejam atualizados, para que os grandes modelos de linguagem (LLMs) possam entregar resultados precisos e oportunos. Por exemplo, em casos de uso de geração aumentada via recuperação (RAG), os modelos de IA se conectam a bases de conhecimento externas para obter respostas mais relevantes.

Mixture of Experts | 12 de dezembro, episódio 85

Decodificando a IA: resumo semanal das notícias

Participe do nosso renomado painel de engenheiros, pesquisadores, líderes de produtos e outros enquanto filtram as informações sobre IA para trazerem a você as mais recentes notícias e insights sobre IA.

Como funciona a captura de dados de alteração?

A captura de dados de alteração identifica e registra eventos de mudança que ocorrem em várias fontes de dados. Essas fontes podem ser bancos de dados relacionais como Oracle, PostgreSQL, MySQL, Azure SQL da Microsoft, SQL Server da Microsoft, bem como bancos de dados não relacionais (NoSQL) como Apache Cassandra e MongoDB.

Após a identificação das alterações, elas são transferidas do banco de dados de origem em tempo real ou quase em tempo real para os sistemas de destino. Armazenamentos de dados como data lakes e data warehouses; plataformas de análise em tempo real e de dados em streaming, como Apache Kafka e Apache Spark; e soluções ETL (extrair, transformar, carregar) e ELT (extrair, carregar, transformar) são todos exemplos de sistemas de destino.

A captura de dados pode ser iniciada tanto pelos sistemas de destino (o que é conhecido como uma abordagem "push") quanto pelos sistemas de origem (uma abordagem "pull"). No primeiro, um sistema de origem "empurra" ou envia alterações para os sistemas de destino. Nesse último, um sistema de destino pesquisa regularmente os sistemas de origem e "extrai" as alterações quando elas são encontradas.

Métodos comuns para captura de dados de alterações

Há vários métodos para executar a captura de dados de alterações. Os tipos comuns de CDC são: 

  • CDC baseado em logs
  • CDC baseado em registro de data e hora
  • CDC baseado em gatilho

CDC baseado em logs

Os logs de transações de bancos de dados são uma funcionalidade padrão dos bancos de dados e são usados para registrar todas as transações do banco de dados. (Os arquivos de log de transações podem ser usados para recuperar bancos de dados no caso de uma falha do sistema.)

Na CDC baseada em log, uma aplicação de CDC processa as alterações no banco de dados registradas no log e compartilha as atualizações com outros sistemas. A CDC baseada em logs tem se tornado cada vez mais popular, em parte devido à sua dependência de logs em vez de consultas que podem degradar o desempenho do sistema de origem. No entanto, a variação nos formatos de log de transações pode complicar a execução de CDC baseada em log em diferentes bancos de dados.

CDC baseado em registro de data e hora

A captura de dados de alteração baseada em carimbo de data/hora, também conhecida como CDC baseada em consulta, exige que os esquemas das tabelas do banco de dados tenham colunas, como colunas de carimbo de data/hora, que registrem a data e a hora das alterações nos registros. Uma ferramenta CDC pode ser usada para identificar registros alterados por meio da coluna de registro de data e hora em uma tabela de origem e, em seguida, entregar atualizações aos sistemas de destino.

Embora a CDC baseada em registro de data e hora possa ser simples de implementar, pode também colocar carga adicional em um sistema quando a pesquisa de dados de registro de data e hora ocorre com frequência. A CDC baseada em registro de data e hora também falha na captura de operações de exclusão quando o registro de data e hora é excluído junto com o restante de uma linha.

CDC baseado em gatilho

Na captura de dados alterados baseada em gatilhos, procedimentos armazenados ou funções conhecidas como gatilhos de banco de dados são executados quando modificações específicas (como inserções, exclusões e atualizações) ocorrem em um banco de dados. Os dados alterados são então armazenados no que geralmente é chamado de tabela de alterações ou tabela sombra.

Assim como a CDC baseada em registro de data e hora, a CDC baseada em gatilho pode ser simples de implementar. No entanto, também pode sobrecarregar os sistemas de origem, pois os gatilhos são "disparados" toda vez que ocorre uma transação na tabela de origem.

Ferramentas de captura de alterações de dados

As ferramentas que fazem a captura de dados de alterações podem ser nativas de ambientes e sistemas de banco de dados específicos, como o AWS Database Migration Service, ou podem ser implementadas mais amplamente. As soluções de software de captura de dados de alterações não nativas incluem plataformas de código aberto, como o Debezium, e plataformas comerciais, como o IBM Streamsets e o Oracle GoldenGate.

À medida que as empresas avaliam qual solução escolher, podem considerar fatores como preços, conectores para sistemas de origem e de destino e interfaces de programação de aplicativos (APIs) para integração de sistemas.

Casos de uso para captura de dados alterados

As empresas podem implementar a captura de dados de mudanças para uma variedade de usos:

Detecção de fraudes

O rastreamento contínuo de mudanças nos registros financeiros por meio da captura de dados de alterações pode permitir a detecção de atividades fraudulentas antes que elas resultem em perdas substanciais.

Recursos para a Internet das Coisas (IoT)

A CDC pode integrar com eficiência as enormes quantidades de dados em tempo real gerados pelos dispositivos de IoT, permitindo a manutenção preditiva e o monitoramento em tempo real.

Gestão de estoque e cadeia de suprimentos

O acesso a informações em tempo real sobre vendas, inventário e cadeia de suprimentos, apoiadas pela captura de dados de mudanças, pode ajudar as empresas a evitar a falta de estoque e a tomar decisões lucrativas sobre preços.

Conformidade regulamentar

A captura de dados de alterações pode ajudar empresas altamente regulamentadas a manter registros precisos necessários para relatórios e conformidade com regulamentos e leis como GDPR, a Lei Sarbanes-Oxley (SOX) e HIPAA nos EUA.

Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM Databand

Conheça o IBM Databand, o software de observabilidade para pipelines de dados. Ele coleta metadados automaticamente para criar linhas de base históricas, detectar anomalias e criar fluxos de trabalho para corrigir problemas de qualidade dos dados.

Explore o Databand
Soluções de integração de dados

Crie pipelines de dados resilientes, de alto desempenho e de baixo custo para suas iniciativas de IA generativa, análise de dados em tempo real, modernização de armazéns e necessidades operacionais com as soluções de integração de dados da IBM.

Conheça soluções de integração de dados
Dê o próximo passo

Conheça o IBM® DataStage, uma ferramenta de ETL (extração, transformação e carregamento) que oferece uma interface visual para projetar, desenvolver e implementar pipelines de dados. Está disponível como SaaS gerenciado na IBM® Cloud, para auto-hospedagem, e como complemento ao IBM® Cloud Pak for Data.

Conheça o DataStage Explore os serviços de análise de dados