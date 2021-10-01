ELT, que significa "Extrair, Carregar, Transformar (Extract, Load, Transform)", é outro tipo de processo de integração de dados, semelhante ao ETL, "Extrair, Transformar, Carregar (Extract, Transform, Load)". Esse processo migra dados brutos de um sistema de origem para um recurso de destino, como um data warehouse.
Embora semelhante ao ETL, o ELT é uma abordagem fundamentalmente diferente para o pré-processamento de dados, que só recentemente ganhou adoção com a transição para ambientes de nuvem.
Use esta estrutura de seleção de framework para escolher o modelo mais apropriado e, ao mesmo tempo, equilibrar seus requisitos de desempenho com custo, riscos e necessidades de implementação.
O ELT consiste em três estágios principais: extrair, carregar e transformar. Cada um desses estágios é detalhado abaixo.
Durante a extração de dados, os dados são copiados ou exportados das localizações de origem para uma área de preparação. O conjunto de dados pode consistir em muitos tipos de dados e vir de praticamente qualquer fonte estruturada ou não estruturada, incluindo, entre outros:
Dito isso, é mais comumente usado com dados não estruturados.
Nessa etapa, os dados transformados são migrados da área de preparo para uma área de armazenamento de dados, como um data warehouse ou data lake.
Para a maioria das organizações, o processo de carregamento de dados é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ELT ocorre durante o horário comercial, quando o tráfego nos sistemas de origem e no data warehouse está em seu pico e os consumidores estão esperando para usar os dados para análise ou outros motivos.
Nesse estágio, é empregada uma abordagem de esquema na gravação, que aplica o esquema aos dados usando SQL ou transforma os dados antes da análise. Esse estágio pode envolver o seguinte:
É possível confundir o ELT com seu processo irmão, conhecido por um acrônimo quase idêntico. No entanto, existem várias diferenças distintas entre o ELT e o ETL, que significa extrair, transformar e carregar. É um processo de integração de dados que combina dados de várias fontes de dados em um único armazenamento de dados consistente, que é carregado para um data warehouse ou outro sistema de destino. As ferramentas tradicionais de ETL foram projetadas para criar armazenamento de dados compatíveis com aplicações de business intelligence (BI) e inteligência artificial (IA).
A diferença óbvia é que o processo ELT executa a função "carregar" antes da função "transformar" – uma reversão da segunda e terceira etapas do processo ETL. O ELT copia ou exporta os dados das localizações de origem, mas em vez de transferi-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente para o armazenamento de dados de destino, onde podem ser transformados conforme a necessidade. O ELT não transforma nenhum dado em trânsito.
No entanto, a ordem das etapas não é a única diferença. No ELT, o armazenamento de dados de destino pode ser um data warehouse, mas, na maioria das vezes, é um data lake, que é um grande armazenamento central projetado para armazenar dados estruturados e não estruturados em escala maciça.
Os data lakes são gerenciados usando uma plataforma de big data (como o Apache Hadoop) ou um sistema de gerenciamento de dados NoSQL distribuído. Eles podem ser compatíveis com a business intelligence, mas, com mais frequência, são criados para serem compatíveis com a inteligência artificial, o aprendizado de máquina, a análise de dados preditiva e as aplicações orientadas por streams de dados e eventos em tempo real.
Também existem outras diferenças entre o ETL e o ELT. Por exemplo, como transforma os dados antes de transferi-los para o repositório central, o ETL pode tornar a conformidade com a privacidade de dados mais simples ou sistemática do que o ELT (por exemplo, se os analistas não transformarem dados confidenciais antes de precisarem usá-los, eles poderão ficar desmascarados no data lake). No entanto, os cientistas de dados podem preferir o ELT, que permite que eles joguem em uma "sandbox" de dados brutos e façam sua própria transformação de dados adaptada a aplicações específicas. Mas, na maioria dos casos, a escolha entre ETL e ELT dependerá da escolha entre os recursos e necessidades de negócios disponíveis.
O ELT oferece várias vantagens para os usuários que integram o processo a seus fluxos de trabalho. Vamos dar uma olhada em alguns dos benefícios notáveis:
Quando grandes quantidades de dados de streaming são geradas, o ELT permite que esses dados sejam carregados imediatamente e os transforma após chegarem ao seu destino. Isso evita qualquer lentidão que pode ocorrer com frequência se a transformação ocorrer antes da função "Carregar", como no ETL. Muitas vezes, é preciso tomar decisões em relação a esses dados, e atrasos são inaceitáveis. Um exemplo disso é o mercado de ações, que gera grandes quantidades de dados que são consumidos em tempo real. Em cenários como esse, o ELT é a solução ideal, pois a transformação ocorre após os dados chegarem ao seu destino.
Como os dados são transformados quando chegam ao seu destino, o ELT permite que o destinatário dos dados controle a manipulação dos dados. Com o ELT, o desacoplamento dos estágios de transformação e carregamento garante que um erro de codificação ou outro erro no estágio de transformação não afete outro estágio.
O ELT utiliza o poder e o tamanho do data warehouse para permitir a transformação, ou computação escalável, em grande escala. O data warehouse de destino pode aumentar ou diminuir nós conforme a necessidade, especialmente em um cenário de nuvem no qual há vários nós em cada cluster e vários clusters que podem ser utilizados. Isso permite flexibilidade e escalabilidade sob demanda.
O ELT requer um servidor menos potente para transformação de dados e aproveita os recursos já existentes no warehouse. Isso resulta em economia de custos e eficiência de recursos.
O ELT permite o uso do repositório de destino de sua escolha, para flexibilidade de custos e recursos. Os data warehouses usam a arquitetura MPP (Massively Parallel Processing), incluindo armazenamento baseado em memória colunar de volumes de dados. Os processos de data lake que aplicam um esquema ou modelo de transformação assim que os dados são recebidos (também cunhados como "esquema na leitura") também são compatíveis. Esses processos eficientes oferecem flexibilidade para grandes quantidades de dados.
A operação contínua é ideal para qualquer ambiente que exija acesso rápido aos dados. O ELT é adequado para dados utilizados em ambientes de nuvem, que frequentemente incluem aplicativos acessados sob demanda continuamente. Da mesma forma, a transformação do ELT nativa da nuvem fornece a escalabilidade e a flexibilidade mencionadas anteriormente.
Uma organização pode optar por fazer a transição de uma arquitetura ETL para uma arquitetura ELT. O motivo da transição pode ser uma mudança no uso de seu produto ou serviço, de modo que resposta e interação em tempo real sejam necessárias, ou a quantidade de dados cresceu exponencialmente e a transformação está atrasando o estágio de "Carregamento" devido às demandas de alto volume de processamento na infraestrutura. Uma organização também pode optar por fazer a transição do ETL para ELT se tiver migrado para a nuvem e quiser descarregar o processamento ou usar dados no local de destino mais cedo.
Em um cenário de transição, é realista esperar encontrar desafios. Em primeiro lugar, lógica e código completamente diferentes são usados no ELT e ETL. Isso pode exigir uma reconfiguração completa e, possivelmente, uma nova infraestrutura ou um novo provedor com infraestrutura na nuvem. Além disso, com o ELT, os dados brutos são enviados para o warehouse de destino. Portanto, a segurança é uma consideração e deve ser implementada para manter os dados seguros.
O ELT não é uma tecnologia nova. As tabelas de preparação eram usadas anteriormente para migrar dados para um warehouse para processamento e transformação, muitas vezes usando scripts SQL. Os scripts SQL são codificados permanentemente e, portanto, sujeitos a possíveis erros de codificação. Com o uso do SQL, os clientes tinham que escolher entre a execução nativa do warehouse usando scripts SQL e programação declarativa, também conhecida como autoria declarativa. A autoria declarativa fornece os benefícios de ambientes de data warehouse mais modernos e baseados em nuvem por meio da criação de código que descreve o que o programa deve alcançar em vez de como ele o alcançará. Esse processo evita os erros de codificação inerentes a outros processos, especialmente quando a transformação ocorre antes da função "Carregar".
O ELT é normalmente usado em ambientes de uso de dados de alto volume ou em tempo real. Exemplos específicos são:
