É possível confundir o ELT com seu processo irmão, conhecido por um acrônimo quase idêntico. No entanto, existem várias diferenças distintas entre o ELT e o ETL, que significa extrair, transformar e carregar. É um processo de integração de dados que combina dados de várias fontes de dados em um único armazenamento de dados consistente, que é carregado para um data warehouse ou outro sistema de destino. As ferramentas tradicionais de ETL foram projetadas para criar armazenamento de dados compatíveis com aplicações de business intelligence (BI) e inteligência artificial (IA).
ETL e ELT – quais são as diferenças?
A diferença óbvia é que o processo ELT executa a função "carregar" antes da função "transformar" – uma reversão da segunda e terceira etapas do processo ETL. O ELT copia ou exporta os dados das localizações de origem, mas em vez de transferi-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente para o armazenamento de dados de destino, onde podem ser transformados conforme a necessidade. O ELT não transforma nenhum dado em trânsito.
No entanto, a ordem das etapas não é a única diferença. No ELT, o armazenamento de dados de destino pode ser um data warehouse, mas, na maioria das vezes, é um data lake, que é um grande armazenamento central projetado para armazenar dados estruturados e não estruturados em escala maciça.
Os data lakes são gerenciados usando uma plataforma de big data (como o Apache Hadoop) ou um sistema de gerenciamento de dados NoSQL distribuído. Eles podem ser compatíveis com a business intelligence, mas, com mais frequência, são criados para serem compatíveis com a inteligência artificial, o aprendizado de máquina, a análise de dados preditiva e as aplicações orientadas por streams de dados e eventos em tempo real.
Também existem outras diferenças entre o ETL e o ELT. Por exemplo, como transforma os dados antes de transferi-los para o repositório central, o ETL pode tornar a conformidade com a privacidade de dados mais simples ou sistemática do que o ELT (por exemplo, se os analistas não transformarem dados confidenciais antes de precisarem usá-los, eles poderão ficar desmascarados no data lake). No entanto, os cientistas de dados podem preferir o ELT, que permite que eles joguem em uma "sandbox" de dados brutos e façam sua própria transformação de dados adaptada a aplicações específicas. Mas, na maioria dos casos, a escolha entre ETL e ELT dependerá da escolha entre os recursos e necessidades de negócios disponíveis.