Minha IBM Efetue login Inscreva-se

Início

topics

ELT

O que é Extract, Load, Transform (ELT)?

O que é Extract, Load, Transform (ELT)?

Explore a solução ELT da IBM Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos
O que é ELT?

O que é ELT?

ELT, que significa "Extrair, Carregar, Transformar (Extract, Load, Transform)", é outro tipo de processo de integração de dados, semelhante ao ETL, "Extrair, Transformar, Carregar (Extract, Transform, Load)". Esse processo migra dados brutos de um sistema de origem para um recurso de destino, como um data warehouse.

Embora semelhante ao ETL, o ELT é uma abordagem fundamentalmente diferente para o pré-processamento de dados, que só recentemente ganhou adoção com a transição para ambientes de nuvem.

Como escolher os modelos de base de IA corretos

Use esta estrutura de seleção de framework para escolher o modelo mais apropriado e, ao mesmo tempo, equilibrar seus requisitos de desempenho com custo, riscos e necessidades de implementação.

Conteúdo relacionado Registre-se para o ebook sobre armazenamento de dados de IA
Como funciona o ELT

Como funciona o ELT

O ELT consiste em três estágios principais: extrair, carregar e transformar. Cada um desses estágios é detalhado abaixo.

Extrair

Durante a extração de dados, os dados são copiados ou exportados das localizações de origem para uma área de preparação. O conjunto de dados pode consistir em muitos tipos de dados e vir de praticamente qualquer fonte estruturada ou não estruturada, incluindo, entre outros:

  • Servidores SQL ou NoSQL
  • Sistemas CRM e ERP
  • Arquivos de texto e documentos
  • E-mail
  • Páginas da web

Dito isso, é mais comumente usado com dados não estruturados.

Carregar

Nessa etapa, os dados transformados são migrados da área de preparo para uma área de armazenamento de dados, como um data warehouse ou data lake.

Para a maioria das organizações, o processo de carregamento de dados é automatizado, bem definido, contínuo e orientado por lotes. Normalmente, o ELT ocorre durante o horário comercial, quando o tráfego nos sistemas de origem e no data warehouse está em seu pico e os consumidores estão esperando para usar os dados para análise ou outros motivos.

Transformar

Nesse estágio, é empregada uma abordagem de esquema na gravação, que aplica o esquema aos dados usando SQL ou transforma os dados antes da análise. Esse estágio pode envolver o seguinte:

  • Filtragem, limpeza, eliminação de duplicações, validação e autenticação dos dados.
  • Realização de cálculos, traduções, análises de dados ou resumos com base nos dados brutos. Isso pode incluir tudo, desde alterar cabeçalhos de linhas e colunas para fins de consistência até converter moedas ou unidades de medida, bem como editar strings de texto e adicionar ou calcular médias de valores, o que for necessário para atender aos propósitos analíticos ou de BI específicos da organização.
  • Remoção, criptografia, ocultação ou proteção de outra forma dos dados governados pelo governo ou pelas regulamentações do setor.
  • Formatação dos dados em tabelas ou tabelas unidas com base no esquema implementado no warehouse.
ETL versus ELT

ETL versus ELT

É possível confundir o ELT com seu processo irmão, conhecido por um acrônimo quase idêntico. No entanto, existem várias diferenças distintas entre o ELT e o ETL, que significa extrair, transformar e carregar. É um processo de integração de dados que combina dados de várias fontes de dados em um único armazenamento de dados consistente, que é carregado para um data warehouse ou outro sistema de destino. As ferramentas tradicionais de ETL foram projetadas para criar armazenamento de dados compatíveis com aplicações de business intelligence (BI) e inteligência artificial (IA).

ETL e ELT – quais são as diferenças?

A diferença óbvia é que o processo ELT executa a função "carregar" antes da função "transformar" – uma reversão da segunda e terceira etapas do processo ETL. O ELT copia ou exporta os dados das localizações de origem, mas em vez de transferi-los para uma área de preparação para transformação, ele carrega os dados brutos diretamente para o armazenamento de dados de destino, onde podem ser transformados conforme a necessidade. O ELT não transforma nenhum dado em trânsito.

No entanto, a ordem das etapas não é a única diferença. No ELT, o armazenamento de dados de destino pode ser um data warehouse, mas, na maioria das vezes, é um data lake, que é um grande armazenamento central projetado para armazenar dados estruturados e não estruturados em escala maciça.

Os data lakes são gerenciados usando uma plataforma de big data (como o Apache Hadoop) ou um sistema de gerenciamento de dados NoSQL distribuído. Eles podem ser compatíveis com a business intelligence, mas, com mais frequência, são criados para serem compatíveis com a inteligência artificial, o aprendizado de máquina, a análise de dados preditiva e as aplicações orientadas por streams de dados e eventos em tempo real.

Também existem outras diferenças entre o ETL e o ELT. Por exemplo, como transforma os dados antes de transferi-los para o repositório central, o ETL pode tornar a conformidade com a privacidade de dados mais simples ou sistemática do que o ELT (por exemplo, se os analistas não transformarem dados confidenciais antes de precisarem usá-los, eles poderão ficar desmascarados no data lake). No entanto, os cientistas de dados podem preferir o ELT, que permite que eles joguem em uma "sandbox" de dados brutos e façam sua própria transformação de dados adaptada a aplicações específicas. Mas, na maioria dos casos, a escolha entre ETL e ELT dependerá da escolha entre os recursos e necessidades de negócios disponíveis.

Benefícios do ELT

Benefícios do ELT

O ELT oferece várias vantagens para os usuários que integram o processo a seus fluxos de trabalho. Vamos dar uma olhada em alguns dos benefícios notáveis:

Migre os dados para o destino mais rapidamente para uma disponibilidade mais rápida

Quando grandes quantidades de dados de streaming são geradas, o ELT permite que esses dados sejam carregados imediatamente e os transforma após chegarem ao seu destino. Isso evita qualquer lentidão que pode ocorrer com frequência se a transformação ocorrer antes da função "Carregar", como no ETL. Muitas vezes, é preciso tomar decisões em relação a esses dados, e atrasos são inaceitáveis. Um exemplo disso é o mercado de ações, que gera grandes quantidades de dados que são consumidos em tempo real. Em cenários como esse, o ELT é a solução ideal, pois a transformação ocorre após os dados chegarem ao seu destino.

Preocupações separadas

Como os dados são transformados quando chegam ao seu destino, o ELT permite que o destinatário dos dados controle a manipulação dos dados. Com o ELT, o desacoplamento dos estágios de transformação e carregamento garante que um erro de codificação ou outro erro no estágio de transformação não afete outro estágio.

Evite problemas de dimensionamento do servidor

O ELT utiliza o poder e o tamanho do data warehouse para permitir a transformação, ou computação escalável, em grande escala. O data warehouse de destino pode aumentar ou diminuir nós conforme a necessidade, especialmente em um cenário de nuvem no qual há vários nós em cada cluster e vários clusters que podem ser utilizados. Isso permite flexibilidade e escalabilidade sob demanda.

Economize dinheiro

O ELT requer um servidor menos potente para transformação de dados e aproveita os recursos já existentes no warehouse. Isso resulta em economia de custos e eficiência de recursos.

Flexibilidade

O ELT permite o uso do repositório de destino de sua escolha, para flexibilidade de custos e recursos. Os data warehouses usam a arquitetura MPP (Massively Parallel Processing), incluindo armazenamento baseado em memória colunar de volumes de dados. Os processos de data lake que aplicam um esquema ou modelo de transformação assim que os dados são recebidos (também cunhados como "esquema na leitura") também são compatíveis. Esses processos eficientes oferecem flexibilidade para grandes quantidades de dados.

Operações contínuas

A operação contínua é ideal para qualquer ambiente que exija acesso rápido aos dados. O ELT é adequado para dados utilizados em ambientes de nuvem, que frequentemente incluem aplicativos acessados sob demanda continuamente. Da mesma forma, a transformação do ELT nativa da nuvem fornece a escalabilidade e a flexibilidade mencionadas anteriormente.

Desafios associados à mudança de uma arquitetura ETL para ELT

Desafios associados à mudança de uma arquitetura ETL para ELT

Uma organização pode optar por fazer a transição de uma arquitetura ETL para uma arquitetura ELT. O motivo da transição pode ser uma mudança no uso de seu produto ou serviço, de modo que resposta e interação em tempo real sejam necessárias, ou a quantidade de dados cresceu exponencialmente e a transformação está atrasando o estágio de "Carregamento" devido às demandas de alto volume de processamento na infraestrutura. Uma organização também pode optar por fazer a transição do ETL para ELT se tiver migrado para a nuvem e quiser descarregar o processamento ou usar dados no local de destino mais cedo.

Em um cenário de transição, é realista esperar encontrar desafios. Em primeiro lugar, lógica e código completamente diferentes são usados no ELT e ETL. Isso pode exigir uma reconfiguração completa e, possivelmente, uma nova infraestrutura ou um novo provedor com infraestrutura na nuvem. Além disso, com o ELT, os dados brutos são enviados para o warehouse de destino. Portanto, a segurança é uma consideração e deve ser implementada para manter os dados seguros.

O passado e o futuro do ELT

O passado e o futuro do ELT

O ELT não é uma tecnologia nova. As tabelas de preparação eram usadas anteriormente para migrar dados para um warehouse para processamento e transformação, muitas vezes usando scripts SQL. Os scripts SQL são codificados permanentemente e, portanto, sujeitos a possíveis erros de codificação. Com o uso do SQL, os clientes tinham que escolher entre a execução nativa do warehouse usando scripts SQL e programação declarativa, também conhecida como autoria declarativa. A autoria declarativa fornece os benefícios de ambientes de data warehouse mais modernos e baseados em nuvem por meio da criação de código que descreve o que o programa deve alcançar em vez de como ele o alcançará. Esse processo evita os erros de codificação inerentes a outros processos, especialmente quando a transformação ocorre antes da função "Carregar".

Casos de uso

Casos de uso

O ELT é normalmente usado em ambientes de uso de dados de alto volume ou em tempo real. Exemplos específicos são:

  • Organizações que precisam de acesso instantâneo. Os exemplos incluem bolsas de valores ou distribuidores atacadistas em grande escala de ações, componentes industriais e outros materiais, que precisam de acesso em tempo real aos dados atuais para acesso imediato à business intelligence.
  • Organizações com enormes volumes de dados. Os exemplos incluem sistemas meteorológicos, como serviços climáticos, que coletam, agrupam e usam grandes quantidades de dados regularmente. Empresas com grandes volumes de transações também podem se enquadrar nessa categoria. Uma organização como um laboratório de astronomia com telescópios extremamente grandes gera uma grande quantidade de dados que precisarão ser coletados e analisados. Pode haver sobreposição entre as duas categorias, pois há muitos setores que produzem e usam uma grande quantidade de dados e precisam de acesso em tempo real a esses dados.
Soluções relacionadas

Soluções relacionadas

IBM Cloud Pak for Data

O IBM Cloud Pak for Data é uma plataforma de dados aberta e extensível que fornece uma malha de dados para disponibilizar todos os dados para IA e análises, em qualquer nuvem.

Conheça o IBM Cloud Pak for Data
IBM DataOps

IA está desbloqueando o valor dos dados de novas maneiras. Organize seus dados para torná-los prontos para um mundo de IA e multinuvem com soluções DataOps.

Explore o IBM DataOps
Integração de dados

A integração de dados permite que você transforme dados estruturados e não estruturados e os entregue a qualquer sistema em uma plataforma de big data escalável.

Explore a integração de dados
Dê o próximo passo

IBM DataStage é uma ferramenta líder de mercado em integração de dados que permite projetar, desenvolver e executar tarefas para mover e transformar dados. No seu núcleo, o DataStage suporta padrões de extração, transformação e carregamento (ETL) e de extração, carregamento e transformação (ELT).

Conheça o DataStage Faça um teste gratuito