O que é ETL (Extrair, Transformar, Carregar)?–

O que é ETL?

ETL (que significa extrair, transformar, carregar ) é um processo de integração de dados de longa data usado para combinar dados de várias fontes em um conjunto de dados único e consistente para carregar em um data warehouse, data lake ou outro sistema de destino.

Conforme os bancos de dados se tornavam mais populares na década de 1970, o ETL foi introduzido como um processo para integração e carregamento de dados para computação e análise, tornando-se eventualmente o método principal para processar dados em projetos de data warehousing.

O ETL fornece a base para análise de dados e fluxos de trabalho de aprendizado de máquina. Por meio de uma série de business rules. o ETL limpa e organiza dados de forma a atender necessidades específicas de business intelligence, como relatórios mensais, mas também pode lidar com análises mais avançadas, que podem melhorar processos de back-end ou experiências de usuário final.

O ETL é frequentemente usado por uma organização para:

Extraia dados de sistemas legados
Limpe os dados para melhorar a qualidade de dados e estabelecer consistência
Carregar dados em um banco de dados de destino

Aprenda e opere o Presto

Explore o ebook gratuito de O’Reilly ebook para aprender como começar a usar o Presto, o mecanismo SQL de código aberto para análise de dados.

Conteúdo relacionado

Cadastre-se para receber o white paper sobre governança de IA

Como funciona o ETL

O processo ETL é dividido em três etapas:

Extrair (extract)
Transformar (transform)
Carregar (load)

Extrair

Durante a extração de dados, os dados brutos são copiados ou exportados das localizações de origem para uma área de preparação.

As equipes de gerenciamento de dados podem extrair dados de uma variedade de fontes de dados, que podem ser estruturadas ou não estruturadas.

Essas fontes incluem, entre outras:

Servidores SQL ou NoSQL
Sistemas CRM e ERP
Arquivos simples
E-mail
Páginas da web

Transformar

Na área de preparação, os dados brutos passam por processamento de dados.

Aqui, os dados são transformados e consolidados para o caso de uso analítico pretendido. Essa fase pode envolver as seguintes tarefas:

Filtrando, limpando, eliminando a duplicação, validando e autenticando os dados.
Realizar cálculos, traduções ou resumos com base nos dados brutos. Isso pode incluir a alteração de cabeçalhos de linhas e colunas para consistência, a conversão de moedas ou outras unidades de medida, a edição de strings de texto e muito mais.
Realização de auditorias para garantir a qualidade e a conformidade dos dados.
Remover, criptografar ou proteger dados regidos por reguladores setoriais ou governamentais.
Formatar os dados em tabelas ou tabelas unidas para corresponder ao esquema do armazém de dados de destino.

Carregar

Nesta última etapa, os dados transformados são movidos da área de preparação para um armazém de dados de destino.

Normalmente, isso envolve uma carga inicial de todos os dados, seguida por carregamentos periódicos de mudanças incrementais nos dados e, menos frequentemente, atualizações completas para apagar e substituir os dados no armazém.

Para a maioria das organizações que utilizam ETL, o processo é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ETL ocorre fora do horário comercial, quando o tráfego nos sistemas de origem e no data warehouse é mais baixo.

Os benefícios e desafios do ETL

As soluções ETL melhoram a qualidade ao realizar a limpeza dos dados antes de carregá-los em um repositório diferente.

Uma operação em lote que consome tempo, o ETL é recomendado com mais frequência para criar repositórios de dados de destino menores que requerem atualizações menos frequentes, enquanto outros métodos de integração de dados, incluindo ELT (extração, carga, transformação), captura de mudanças de dados (CDC) e virtualização de dados, são usados para integrar volumes cada vez maiores de dados que mudam ou fluxos de dados em tempo real.

Saiba mais sobre a integração de dados

Ferramentas ETL

No passado, as organizações escreviam seu próprio código ETL. Atualmente, há muitas ferramentas de ETL comerciais e de código aberto e serviços de nuvem para escolher. Os recursos típicos desses produtos incluem o seguinte:

Automação abrangente e facilidade de uso
Uma interface visual de arrastar e soltar
Suporte para gerenciamento de dados complexo
Segurança e conformidade

Automação abrangente e facilidade de uso

As principais ferramentas de ETL automatizam todo o fluxo de dados, desde as fontes de dados até o data warehouse de destino. Muitas ferramentas recomendam regras para extrair, transformar e carregar os dados.

Uma interface visual de arrastar e soltar

Essa funcionalidade pode ser usada para especificar regras e fluxos de dados.

Suporte para gerenciamento de dados complexos

Isso inclui assistência com cálculos complexos, integrações de dados e manipulações de string.

Segurança e conformidade

As melhores ferramentas de ETL criptografam dados em movimento e em repouso e são certificadas em conformidade com as regulamentações governamentais ou do setor, como HIPAA e GDPR.

Além disso, muitas ferramentas de ETL evoluíram para incluir o recurso ELT e oferecer suporte à integração de dados em tempo real e streaming para aplicativos de inteligência artificial (IA).

O futuro da integração - API usando EAI

As Interfaces de Programação de Aplicativos (APIs) utilizando Integração de Aplicações Empresariais (EAI) podem ser usadas no lugar do ETL para uma solução mais flexível e escalável que inclui integração de fluxo de trabalho. Embora o ETL ainda seja o principal recurso de integração de dados, o EAI é cada vez mais usado com APIs em configurações baseadas na web.

ETL versus ELT

A diferença mais óbvia entre ETL e ELT é a diferença na ordem das operações.

O ELT copia ou exporta os dados das localizações de origem, mas em vez de carregá-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente no armazenamento de dados de destino para serem transformados conforme necessário.

Embora ambos os processos utilizem uma variedade de repositórios de dados, como bancos de dados, data warehouses e data lakes, cada processo tem suas vantagens e desvantagens.

O ELT é particularmente útil para conjuntos de dados não estruturados e de alto volume, pois o carregamento pode ocorrer diretamente da fonte. O ELT pode ser mais ideal para gerenciamento de big data, pois não requer muito planejamento inicial para extração e armazenamento de dados.

O processo ETL, por outro lado, requer mais definição no início. Pontos de dados específicos precisam ser identificados para extração, juntamente com quaisquer "chaves" em potencial para integração em sistemas de origem díspares.

Mesmo após a conclusão desse trabalho, as business rules para transformações de dados precisam ser construídas. Esse trabalho geralmente pode ter dependências dos requisitos de dados para um determinado tipo de análise de dados, o que determinará o nível de resumo que os dados precisam ter.

Embora o ELT tenha se tornado cada vez mais popular com a adoção de cloud databases, ele tem suas próprias desvantagens por ser um processo mais recente, o que significa que as melhores práticas ainda estão sendo estabelecidas.

ETL e outros métodos de integração de dados

ETL e ELT são apenas dois métodos de integração de dados, e existem outras abordagens que também são usadas para facilitar os fluxos de trabalho de integração de dados. Alguns deles incluem:

Captura de dados de mudança (CDC)
Data Replication
A virtualização de dados
A integração de dados de fluxo (SDI)

Captura de dados de mudança (CDC)

Identifica e captura apenas os dados de origem que foram alterados e move esses dados para o sistema de destino.

A CDC pode ser usada para reduzir os recursos necessários durante a etapa de "extração" de ETL; ele também pode ser usado de forma independente para mover dados que foram transformados em um data lake ou outro repositório em tempo real.

Data Replication

Copia as alterações nas fontes de dados em tempo real ou em lotes para um banco de dados central.

Data Replication é frequentemente listada como um método de integração de dados. Na verdade, ele é usado com mais frequência para criar backups para recuperação de desastres.

A virtualização de dados

Usa uma camada de abstração de software para criar uma visão unificada, integrada e totalmente utilizável dos dados, sem copiar, transformar ou carregar fisicamente os dados de origem em um sistema de destino.

A funcionalidade de virtualização de dados permite que uma organização crie data warehouses virtuais, data lakes e data marts a partir dos mesmos dados de origem para armazenamento de dados sem o custo e a complexidade de construir e gerenciar plataformas separadas para cada um. Embora a virtualização de dados possa ser usada em conjunto com o ETL, ela é cada vez mais vista como uma alternativa ao ETL e a outros métodos físicos de integração de dados.

A integração de dados de fluxo (SDI)

É exatamente o que parece: consome continuamente fluxos de dados em tempo real, transforma-os e carrega-os em um sistema de destino para análise.

A palavra-chave aqui é continuamente. Em vez de integrar instantâneos de dados extraídos de fontes em um determinado momento, a SDI integra dados constantemente à medida que eles se tornam disponíveis. A SDI permite um armazenamento de dados para potencializar a análise, o aprendizado de máquina e os aplicativos em tempo real para melhorar a experiência do cliente, a detecção de fraudes e muito mais.

Soluções relacionadas

IBM Cloud Pak for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análises, em qualquer nuvem.

Conheça o IBM Cloud Pak for Data

IBM DataOps

IA está desbloqueando o valor dos dados de novas maneiras. Organize seus dados para torná-los prontos para um mundo de IA e multinuvem com soluções DataOps.

Explore o IBM DataOps

Integração de dados

A integração de dados permite que você transforme dados estruturados e não estruturados e os entregue a qualquer sistema em uma plataforma de big data escalável.

Explore a integração de dados

Recursos

Hive como ferramenta para ETL ou ELT

Aprenda como extrair, transformar e carregar OU extrair, carregar e então transformar enquanto descobre maneiras de processar e analisar conjuntos de dados grandes com facilidade usando esta ferramenta.

ELT vs. ETL: Qual é a diferença?

Conheça as semelhanças e diferenças nas definições, benefícios e casos de uso de ELT e ETL.

Implementação de fluxos de ETL com Node-RED

Descubra o poder dos fluxos de ETL com o Node-RED e saiba como simplificar, implementar e automatizar esses processos críticos e liberar todo o potencial de seus dados.

Dê o próximo passo

IBM DataStage é uma ferramenta líder de mercado em integração de dados que permite projetar, desenvolver e executar tarefas para mover e transformar dados. No seu núcleo, o DataStage suporta padrões de extração, transformação e carregamento (ETL) e de extração, carregamento e transformação (ELT).

Conheça o DataStage

Faça um teste gratuito

O que é ETL (extrair, transformar, carregar)?