ETL (extrair, transformar e carregar)

menu icon

ETL (extrair, transformar e carregar)

ETL é um processo que extrai, transforma e carrega dados de diversas fontes em um armazém de dados ou outro repositório de dados unificado.

O que é ETL?

ETL, que significa extrair, transformar e carregar, é um processo de integração de dados que combina dados de várias fontes em um armazenamento único e consistente para depois carregá-lo em um armazém de dados ou outro sistema de destino.

Com o crescimento da popularidade dos bancos de dados na década de 1970, a ETL foi lançada como um processo de integração e carregamento de dados para cálculo e análise, tornando-se mais tarde o principal método de processar dados para projetos de data warehousing.

O ETL fornece a estrutura para os fluxos de trabalho de análise de dados e aprendizado de máquina. Utilizando uma série de regras de negócios, o ETL limpa e organiza os dados para atender a necessidades específicas de inteligência de negócios, como relatórios mensais, mas também para dar conta de análises mais avançadas, que podem melhorar os processos de back-end ou as experiências do usuário final . O ETL é geralmente usado por uma organização para: 

  • Extrair dados de sistemas legados
  • Limpar dados para melhorar sua qualidade e estabelecer consistência
  • Carregar dados em um banco de dados de destino

ETL versus ELT

A diferença mais evidente entre ETL e ELT (extrair, carregar e transformar) é a sequência das operações. O ELT copia ou exporta os dados dos locais de origem, mas em vez de carregá-los para a área de preparação para transformação, ele carrega os dados brutos diretamente no armazenamento de dados de destino para serem transformados quando necessário.

Embora os dois processos utilizem uma variedade de repositórios de dados, tais como bancos de dados, armazéns de dados e data lakes, cada processo tem suas vantagens e desvantagens. O ELT é especialmente útil para conjuntos de dados não estruturados e de grande volume, pois o carregamento pode ocorrer diretamente da fonte. O ELT pode ser mais adequado para grandes gerenciamentos de dados, pois não precisa de muito planejamento antecipado para extração e armazenamento de dados. O processo ETL, por outro lado, requer mais definição no início. É preciso identificar pontos de dados específicos para extração junto com possíveis “chaves” para integração em sistemas de origem díspares. Mesmo após a conclusão desse trabalho, é preciso construir as regras de negócios para as transformações de dados. Esse trabalho pode geralmente depender dos requisitos de dados para um determinado tipo de análise de dados, o que determinará o nível de sumarização que eles precisam ter. Embora o ELT esteja se tornado cada vez mais popular com a adoção de bancos de dados em nuvem, ele tem a desvantagem de que suas melhores práticas ainda precisam ser definidas por completo, pois é um processo recente.

Como o ETL funciona?

A maneira mais fácil de entender como o ETL funciona é compreender o que acontece em cada etapa do processo.

Extração

Durante a extração, os dados brutos são copiados ou exportados dos locais de origem para uma área de preparação. As equipes de gerenciamento de dados podem extrair dados de várias fontes, que podem ser estruturadas ou não estruturadas. Algumas dessas fontes são, entre outras:

  • Servidores SQL ou NoSQL 
  • Sistemas ERP e CRM
  • Arquivos simples
  • E-mail
  • Páginas da web

Transformação

Na área de preparação, os dados brutos são submetidos ao processamento. Aqui, os dados são transformados e consolidados para seu caso de uso analítico pretendido. Esta fase pode envolver as seguintes tarefas:

  • Filtrar, limpar, deduplicar, validar e autenticar os dados.
  • Executar cálculos, conversões ou sumarizações com base nos dados brutos. Isso pode  incluir a troca de cabeçalhos de linha e coluna para obter consistência, conversão de moedas ou de outras unidades de medida, edição de sequências de texto e muito mais.
  • Realização de auditorias para garantir a qualidade e conformidade dos dados.
  • Remoção, criptografia ou proteção de dados regidos por reguladores setoriais ou governamentais.
  • Formatação dos dados em tabelas ou tabelas unidas para corresponder ao esquema do armazém de dados de destino.

Carregamento

Nesta última etapa, os dados transformados são migrados da área de preparação para um armazém de dados de destino. Normalmente, isso envolve um carregamento inicial de todos os dados, seguido por um carregamento periódico das mudanças incrementais neles e, com menos frequência, atualizações completas para apagar e substituir os dados no warehouse. Para a maioria das organizações que utilizam ETL, o processo é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ETL ocorre durante as horas ociosas, quando o tráfego nos sistemas de origem e no armazém de dados está no seu ponto mais baixo.

ETL e outros métodos de integração de dados

ETL e ELT são apenas dois métodos de integração de dados. Existem outras abordagens que também são utilizadas para facilitar os fluxos de trabalho dessa integração. Dentre eles:

  • A Captura de Dados de Mudança (CDC) identifica e captura somente os dados de origem que mudaram e os move para o sistema de destino. O CDC pode ser usado para reduzir os recursos necessários durante a etapa de “extração” do ETL; também pode ser usado de forma independente para migrar dados que tenham sido transformados em um data lake ou outro repositório em tempo real.
  • A replicação de dados copia as mudanças nas fontes de dados em tempo real ou em lotes para um banco de dados central. A  replicação de dados é frequentemente listada como um método de integração de dados. Na verdade, ela é mais usada para criar backups para recuperação de desastres.
  • A virtualização de dados utiliza uma camada de abstração de software para criar uma visão unificada, integrada e totalmente utilizável dos dados, sem copiá-los fisicamente, transformando-os ou carregando-os em um sistema de destino. A funcionalidade da virtualização de dados possibilita a uma organização criar armazéns de dados virtuais, data lakes e data marts a partir dos mesmos dados de origem para armazenamento, mas sem os custos e a complexidade de criar e gerenciar plataformas separadas para cada um deles. Embora a virtualização de dados possa ser usada juntamente com ETL, ela é cada vez mais vista como uma alternativa à ETL e a outros métodos de integração de dados físicos.
  • A Integração da Transmissão de Dados (SDI) é exatamente isso: ela consome continuamente fluxos de dados em tempo real, transforma-os e carrega-os para um sistema alvo para análise. A palavra-chave aqui é continuamente. Em vez de integrar capturas instantâneas de dados extraídos de fontes em um determinado momento, a SDI integra os dados constantemente à medida que eles se tornam disponíveis. Ela possibilita o armazenamento de dados para alimentar análise de dados, aprendizado de máquina e aplicações em tempo real, melhorando a experiência do cliente, detectando fraudes e muito mais.  

Os benefícios e desafios do ETL

As soluções ETL melhoram a qualidade ao realizar a limpeza dos dados antes de carregá-los em um repositório diferente. Por ser uma operação em lote demorada, o ETL é recomendado com mais frequência para a criação de repositórios de dados de destino menores que requeiram atualização menos constante, enquanto outros métodos de integração de dados — incluindo ELT (extrair, carregar, transformar), captura de dados de mudança (CDC) e virtualização de dados — são usados para integrar volumes cada vez maiores de dados que mudam ou fluxos de dados em tempo real.

Saiba mais sobre integração de dados.

Ferramentas de ETL

No passado, as organizações escreviam seu próprio código de ETL. Agora há muitas ferramentas de ETL de código aberto e comerciais e serviços de nuvem para escolher. Os recursos típicos desses produtos incluem:

  • Automação completa e facilidade de uso: as principais ferramentas de ETL automatizam todo o fluxo de dados, desde as fontes até o armazém de destino. Muitas ferramentas recomendam regras para extrair, transformar e carregar os dados.
  • Uma interface de arrastar e soltar e visual: esta funcionalidade pode ser usada para especificar regras e fluxos de dados.
  • Suporte para gerenciamento de dados complexos: inclui assistência com cálculos complexos, integrações de dados e manipulações de sequências.
  • Segurança e conformidade: as melhores ferramentas de ETL criptografam dados em movimento e em repouso e são certificadas em conformidade com a regulamentação do setor ou do governo como, por exemplo, a HIPAA (a Lei de Portabilidade e Responsabilidade do Seguro Saúde, dos EUA) e o RGPD.

Além disso, muitas ferramentas de ETL evoluíram para incluir recurso ELT e permitir a integração e o streaming de dados em tempo real para aplicações de inteligência artificial (IA).

O futuro da integração - API usando EAI

As Interfaces de Programação de Aplicações (APIs) que utilizam Integração de Aplicações Corporativas (EAI) podem ser usadas no lugar do ETL para uma solução mais flexível e escalável que inclui a integração do fluxo de trabalho . Enquanto o ETL ainda é o principal recurso de integração de dados , a EAI é cada vez mais utilizada com APIs em configurações baseadas na web.

ETL, integração de dados e IBM Cloud®

A IBM oferece várias ferramentas e diversos serviços de integração de dados projetados para promover um pipeline de dados prontos para negócios e dar à sua empresa as ferramentas necessárias para escalar com eficiência.

Líder em integração de dados, a IBM garante às empresas a confiança necessária para gerenciarem grandes projetos de dados, aplicações SaaS e tecnologia de aprendizado de máquina. Com plataformas líderes de mercado como IBM Cloud Pak® for Data, as organizações podem modernizar seus processos de DataOps enquanto usam as melhores ferramentas de virtualização da categoria para obter a velocidade e a escalabilidade que seus negócios precisam agora e no futuro.

Para mais informações sobre como sua empresa pode criar e executar uma estratégia eficaz de integração de dados, conheça o conjunto de ofertas de integração de dados da IBM.

Inscreva-se para um IBMid e crie sua conta da IBM Cloud.

Recursos

FlightSafety International

Vista das montanhas de uma cabine de comando de um avião em pleno voo

A FlightSafety International trabalhou com o IBM Garage™ para desenvolver a FlightSmart, uma tecnologia de aprendizado adaptável que se integra a um simulador de voo.

Leia o estudo de caso →