ETL (extract, transform, load) é um processo de integração de dados que combina, limpa e organiza dados de diferentes fontes em um único repositório de dados armazenado em um data warehouse, data lake ou outro sistema de destino.
Os pipelines de dados ETL fornecem a base para a análise de dados e fluxos de trabalho de aprendizado de máquina. Por meio de uma série de business rules, o ETL limpa e organiza os dados para atender a necessidades específicas de business intelligence, como geração de relatórios mensais, mas também pode lidar com análise de dados mais avançada, que pode melhorar os processos de back-end e as experiências do usuário final. Os pipelines de ETL são frequentemente usados pelas organizações para:
Extrair dados de sistemas legados
Limpe os dados para melhorar a qualidade de dados e estabelecer consistência
Carregar dados em um banco de dados de destino
A diferença mais óbvia entre o ETL e o ELT (extrair, carregar, transformar) é a diferença na ordem das operações. O ELT copia ou exporta os dados das localizações de origem, mas, em vez de carregá-los para uma área de preparação para transformação, carrega os dados brutos diretamente no armazenamento de dados de destino para serem transformados conforme a necessidade.
Embora ambos os processos aproveitem uma variedade de repositórios de dados, como bancos de dados, data warehouses e data lakes, cada processo tem suas vantagens e desvantagens. O ELT é útil para ingestão de conjuntos de dados não estruturados de alto volume, pois o carregamento pode ocorrer diretamente da fonte. O ELT pode ser mais ideal para gerenciamento de big data, pois não requer muito planejamento inicial para extração e armazenamento de dados.
O processo de ETL requer mais definição no início. Pontos de dados específicos precisam ser identificados para extração, juntamente com quaisquer "chaves" em potencial para integração em sistemas de origem díspares. A fonte dos dados de entrada geralmente é rastreada usando metadados. Mesmo após a conclusão desse trabalho, as business rules para transformações de dados precisam ser construídas. Esse trabalho geralmente pode ter dependências nos requisitos de dados para um determinado tipo de análise de dados, o que determinará o nível de sumarização que os dados precisam ter.
Embora os pipelines de ELT tenham se tornado cada vez mais populares com a adoção de cloud databases, a tecnologia de ELT ainda é um processo em desenvolvimento, o que significa que as melhores práticas ainda estão sendo estabelecidas.
A maneira mais fácil de entender como o ETL funciona é compreender o que acontece em cada etapa do processo.
Durante a extração de dados, os dados brutos são copiados ou exportados das localizações de origem para uma área de preparação. As equipes de gerenciamento de dados podem extrair dados de diversas fontes diferentes, que podem ser estruturados ou não estruturados. Esses tipos de dados incluem, entre outros:
Na área de preparação, os dados brutos passam por processamento de dados. Aqui, os dados são transformados e consolidados para o caso de uso analítico pretendido. Essa fase do processo de transformação pode incluir:
Nessa última etapa, os dados transformados são migrados da área de preparação para um data warehouse de destino. Normalmente, isso envolve um carregamento inicial de todos os dados, seguida por carregamentos periódicos de mudanças incrementais nos dados e, menos frequentemente, atualizações completas para apagar e substituir os dados no warehouse. Para a maioria das organizações que utilizam o ETL, o processo é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o processo de carregar do ETL ocorre fora do horário de expediente, quando o tráfego nos sistemas de origem e no data warehouse é menor.
ETL e ELT são apenas dois métodos de integração de dados, e existem outras abordagens que também são usadas para facilitar os fluxos de trabalho de integração de dados. Alguns exemplos incluem:
As soluções de ETL melhoram a qualidade ao realizar a limpeza de dados antes de carregá-los em um repositório diferente. Uma operação em lote que consome tempo, o ETL é recomendado com mais frequência para criar repositórios de dados de destino menores que requerem atualizações menos frequentes, enquanto outros métodos de integração de dados, incluindo ELT (extrair, carregar, transformar), change data capture (CDC) e virtualização de dados, são usados para integrar volumes cada vez maiores de dados que são alterados ou fluxos de dados em tempo real.
No passado, as organizações escreviam seu próprio código de ETL. Agora, existem muitas ferramentas de ETL comerciais e de código aberto e serviços baseados em nuvem para você escolher. Os recursos típicos desses produtos incluem:
Além disso, muitas ferramentas de ETL evoluíram para incluir o recurso de ELT e proporcionar compatibilidade com a integração de dados em tempo real e de streaming para aplicações de inteligência artificial (IA).
As empresas geram dados desde a era do ábaco, mas a análise de dados moderna só se tornou possível com a chegada do computador digital e do armazenamento de dados.
Um grande passo à frente chegou na década de 1970, com uma mudança para bancos de dados centralizados maiores. Então, o ETL foi lançado como um processo para integração e carregamento de dados para computação e análise, tornando-se eventualmente o método principal para processar dados para projetos de data warehousing.
No final da década de 1980, os data warehouses e a migração de bancos de dados transacionais para bancos de dados relacionais, que armazenavam as informações em formatos de dados relacionais, ganharam popularidade. Os bancos de dados transacionais mais antigos armazenavam informações transação por transação, com informações duplicadas do cliente armazenadas em cada transação, de modo que não havia uma maneira fácil de acessar os dados do cliente de forma unificada ao longo do tempo. Com os bancos de dados relacionais, a análise de dados tornou-se a base do business intelligence (BI) e uma ferramenta importante para a tomada de decisão.
Até a chegada de software de ETL mais sofisticado, as primeiras tentativas eram, em grande parte, esforços manuais da equipe de TI para extrair dados de vários sistemas e conectores, transformar os dados em um formato comum e, em seguida, carregá-los em tabelas interconectadas. Ainda assim, as etapas iniciais do ETL valeram o esforço, pois algoritmos avançados , além da ascensão de redes neurais, produziram oportunidades cada vez mais profundas para insights analíticos.
A era do big data chegou na década de 1990, conforme a velocidade da computação e a capacidade de armazenamento continuavam crescendo rapidamente, com grandes volumes de dados sendo extraídos de novas fontes, como redes sociais e a Internet das Coisas (IoT). Mas continuou a haver um fator limitante, com dados frequentemente armazenados em data warehouses no local.
O próximo grande passo na computação e no ETL foi a computação em nuvem, que se tornou popular no final da década de 1990. Usando data warehouses como Amazon Web Services (AWS), Microsoft Azure e Snowflake, os dados agora podem ser acessados de todo o mundo e rapidamente escalados para permitir que as soluções de ETL forneçam insights detalhados notáveis e vantagens competitivas recém-descobertas.
A evolução mais recente são as soluções de ETL que usam dados de streaming para fornecer insights atualizados a partir de grandes quantidades de dados.
As interfaces de programação de aplicativos (APIs) utilizando integração de aplicações empresariais (EAI) podem ser usadas no lugar do ETL para uma solução mais flexível e escalável que inclui integração de fluxos de trabalho. Embora o ETL ainda seja o principal recurso de integração de dados, o EAI é cada vez mais usado com APIs em cenários baseados na web.
Crie um pipeline de dados confiável com uma ferramenta ETL modernizada em uma plataforma de insights nativa da nuvem.
Crie pipelines de dados resilientes, de alto desempenho e de baixo custo para suas iniciativas de IA generativa, análise de dados em tempo real, modernização de armazéns e necessidades operacionais com as soluções de integração de dados da IBM.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.