Minha IBM Efetue login Inscreva-se

Data warehouses versus data lakes versus data lakehouses 

20 de novembro de 2024

Autores

Matthew Kosinski

Enterprise Technology Writer

Data warehouses versus data lakes versus data lakehouses

Data warehouses, data lakes e data lakehouses são tipos diferentes de soluções de gerenciamento de dados com diferentes funções:

  • Data warehouses agregam, limpam e preparam dados para que possam ser usados em esforços de business intelligence (BI) e análise de dados. 

  • Os data lakes armazenam grandes quantidades de dados brutos por um baixo custo. 

  • Data lakehouses combinam o armazenamento de dados flexível de um lake e os recursos de análise de dados de alto desempenho de um warehouse em uma única solução.

Como essas soluções têm recursos diferentes e servem a finalidades diferentes, muitas arquiteturas de dados corporativas usam duas ou todas as três em uma malha de dados holística:

  • Uma organização pode usar um data lake como uma solução de armazenamento de uso geral para todos os dados recebidos em qualquer formato.

  • Os dados do lake podem ser enviados para data warehouses personalizados para unidades de negócios individuais, onde podem informar a tomada de decisões.

Data lakehouses também são populares como um caminho de modernização para arquiteturas de dados existentes. As organizações podem implementar novos lakehouses sem destruir nem substituir seus lakes e warehouses atuais, agilizando a transição para uma solução unificada de armazenamento de dados e análise de dados.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionadas por especialistas sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Principais características dos data warehouses

Um data warehouse agrega dados de fontes díspares (bancos de dados, aplicações de negócios e feeds de redes sociais) em um único armazenamento. A funcionalidade definidora de uma ferramenta de armazenamento de dados é que ela limpa e prepara os conjuntos de dados que ingere. 

Data warehouses usam uma abordagem chamada "schema-on-write", que aplica um esquema consistente a todos os dados à medida que são gravados no armazenamento. Isso ajuda a otimizar os dados para business intelligence e análise de dados.

Por exemplo, um warehouse para dados de vendas no varejo ajudaria a garantir que detalhes como data, valor e número da transação sejam formatados corretamente e atribuídos às células corretas em uma tabela relacional. 

Um data mart é um tipo de data warehouse que contém dados específicos de uma linha de negócios ou departamento particular, em vez de uma empresa inteira. Por exemplo, uma equipe de marketing pode ter seu próprio data mart, os recursos humanos podem ter um e assim por diante. 

Arquitetura de data warehouse  

Um data warehouse típico tem três camadas:

  • A camada intermediária é construída em torno de um analytics engine, como um sistema de processamento analítico online (OLAP) ou um mecanismo baseado em SQL. Essa camada intermediária permite que os usuários consultem conjuntos de dados e executem análise de dados diretamente no warehouse. 

  • A camada superior inclui interfaces de usuário e ferramentas de geração de relatórios que permitem aos usuários realizar análises de dados ad hoc em seus dados de negócios.  

Os primeiros data warehouses eram hospedados no local, mas muitos agora são hospedados na nuvem ou entregues como serviços de nuvem. Abordagens híbridas também são comuns. 

Como os data warehouses tradicionais dependem de sistemas de bancos de dados relacionais e um esquema rigoroso, eles são mais eficazes com dados estruturados. Alguns warehouses modernos evoluíram para acomodar dados semiestruturados e não estruturados, mas muitas organizações preferem data lakes e lakehouses para esses tipos de dados.

Casos de uso dos data warehouses

Os data warehouses são usados por analistas de negócios, cientistas de dados e engenheiros de dados para conduzir esforços de análise de dados de autoatendimento.  

A aplicação de um esquema definido a todos os dados promove a consistência dos dados, o que torna os dados mais confiáveis e fáceis de trabalhar. Como um data warehouse armazena dados em um esquema estruturado e relacional, ele é compatível com consultas de linguagem de consulta estruturada (SQL) de alto desempenho.

As organizações podem usar ferramentas de análise de dados e BI integradas ou conectadas para analisar dados transacionais e dados históricos, gerar visualizações de dados e criar dashboards para apoiar a tomada de decisões baseada em dados.

Desafios dos data warehouses

Warehouses podem ser caros de manter. Os dados devem ser transformados antes de serem carregados em um warehouse, o que requer tempo e recursos. Como o armazenamento e a computação estão fortemente acoplados em warehouses tradicionais, a escalabilidade pode ser cara. Se os dados não forem mantidos adequadamente, o desempenho das consultas poderá ser prejudicado. 

Como podem ter dificuldades com conjuntos de dados não estruturados e semiestruturados, os data warehouses não são adequados para cargas de trabalho de IA e ML.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Principais características dos data lakes

Data lakes são soluções de armazenamento de dados de baixo custo projetadas para lidar com volumes maciços de dados. Os data lakes usam uma abordagem de "schema-on-read", o que significa que não aplicam um formato padrão aos dados recebidos. Em vez disso, os esquemas são aplicados quando os usuários acessam os dados por meio de uma ferramenta de análise de dados ou outra interface.

Os data lakes armazenam dados em seu formato nativo. Isso permite que um data lake armazene dados estruturados, dados não estruturados e dados semiestruturados, todos na mesma plataforma de dados.  

Os data lakes surgiram para ajudar as organizações a gerenciar a enxurrada de big data desencadeada pela Web 2.0 e a ascensão da nuvem e da computação móvel no final da década de 2000 e início da década de 2010. As organizações se viram lidando com muito mais dados do que nunca, muitos deles em formatos não estruturados (como texto e imagens de formato livre) que os warehouses tradicionais não conseguem gerenciar facilmente.

Arquitetura dos data lakes 

Os primeiros data lakes eram frequentemente construídos com base no sistema de arquivos distribuídos do Apache Hadoop (HDFS). Data lakes modernos frequentemente usam um armazenamento de objetos em nuvem, como o Amazon Simple Storage Service (S3), Microsoft Azure Blob armazenamento ou IBM Cloud Object Storage.

Os data lakes separam o armazenamento de dados dos recursos de computação, o que os torna mais econômicos e escaláveis do que os data warehouses. As organizações podem adicionar mais armazenamento sem escalar os recursos de computação junto com ele. O armazenamento é compatível com uma maior escalabilidade, pois as organizações podem aumentar o armazenamento sem expandir os recursos no local.

Para processar dados em um data lake, os usuários podem conectar ferramentas externas de processamento de dados, como o Apache Spark. Ao contrário de um data warehouse, essas ferramentas de processamento não são incorporadas ao lake.

Casos de uso dos data lakes

Os data lakes são uma opção popular para armazenamento de dados de uso geral devido ao seu baixo custo, escalabilidade e capacidade de armazenar dados de qualquer formato.

As organizações frequentemente usam data lakes para manter backup e arquivar dados antigos e não utilizados. As organizações também podem usar lakes para armazenar todos os novos dados recebidos, incluindo dados sem um propósito definido. Os dados podem permanecer no lake até que a organização tenha um uso para eles.

As organizações também usam data lakes para armazenar conjuntos de dados para cargas de trabalho de ML, IA e análise de big data, como descoberta de dados, treinamento de modelos e projetos de análise de dados experimental.  

Desafios dos data lakes

Como não impõem um esquema rigoroso e não possuem ferramentas de processamento integradas, os data lakes podem ter dificuldades com a governança de dados e a qualidade de dados. Eles também são menos adequados para os esforços diários de BI e análise de dados dos usuários corporativos.

As organizações frequentemente precisam de ferramentas separadas (como um catálogo de dados abrangente e um sistema de gerenciamento de metadados) para manter a precisão e a qualidade. Sem essas ferramentas, os data lakes podem facilmente se tornar pântanos de dados.

Principais características dos data lakehouses

Um data lakehouse mescla as funcionalidades principais de data lakes e data warehouses em uma única solução de gerenciamento de dados. 

Assim como um data lake, um data lakehouse pode armazenar dados em qualquer formato (estruturado, não estruturado ou semiestruturado) por um baixo custo. 

Assim como um warehouse, um data lakehouse é compatível com consultas rápidas e análise de dados otimizada.

Arquitetura de data lakehouse

Um data lakehouse combina tecnologias e ferramentas anteriormente díspares em uma solução holística. A arquitetura típica de um lakehouse inclui essas camadas:

Camada de ingestão

A camada de ingestão reúne dados de streaming em lote e em tempo real de uma variedade de fontes. Embora os lakehouses possam usar processos de ETL para capturar dados, muitos usam extrair, carregar e transformar (ELT). O lakehouse pode carregar dados brutos no armazenamento e transformá-los mais tarde, quando forem necessários para análise.

Camada de armazenamento

A camada de armazenamento normalmente é o Cloud Object Storage, como em um data lake. 

Camada de metadados

A camada de metadados fornece um catálogo unificado de metadados para cada objeto na camada de armazenamento. Essa camada de metadados ajuda os lakehouses a fazerem muitas coisas que os lakes não conseguem: indexar dados para consultas mais rápidas, impor esquemas e aplicar controles de governança e qualidade.

Camada de interface de programação de aplicativos (API)

A camada de API permite que os usuários conectem ferramentas para análise de dados avançada.

Camada de consumo

A camada de consumo hospeda aplicativos e ferramentas do cliente para BI, ML e outros projetos de ciência de dados e análise de dados.

Como em um data lake, os recursos de computação e armazenamento são separados, possibilitando escalabilidade.

Os data lakes dependem fortemente de tecnologias de código aberto. Formatos de dados como Apache Parquet e Apache Iceberg permitem que as organizações migrem livremente cargas de trabalho entre ambientes. O Delta Lake, uma camada de armazenamento de código aberto, é compatível com funcionalidades que ajudam os usuários a executar análise de dados em conjuntos de dados brutos, como controle de versões e transações ACID. "ACID" é a abreviação de atomicidade, consistência, isolamento e durabilidade, propriedades-chave que ajudam a garantir a integridade nas transações de dados.

As organizações podem construir seus próprios lakehouses a partir de componentes ou usar ofertas pré-construídas, como Databricks, Snowflake ou IBM watsonx.data.

Casos de uso de data lakehouses

Os data lakehouses podem ajudar as organizações a superar alguns dos limites e complexidades de warehouses e lakes.  

Como data warehouses e data lakes servem a finalidades diferentes, muitas organizações implementam ambos em seus stacks de dados. No entanto, isso significa que os usuários precisam lidar com dois sistemas de dados díspares, especialmente para projetos de análise de dados mais avançados. Isso pode levar a fluxos de trabalho ineficientes, dados duplicados, desafios de governança de dados e outros problemas.

Os lakehouses podem ajudar a simplificar os esforços de análise de dados, ao apoiar a integração de dados. Todos os dados, independentemente do tipo, podem ser armazenados no mesmo repositório central, reduzindo a necessidade de duplicação. Todos os tipos de usuários corporativos podem usar lakehouses para seus projetos, incluindo BI, análise preditiva de dados, IA e ML.

Os data lakehouses também podem servir como um caminho de modernização para arquiteturas de dados existentes. Como as arquiteturas de lakehouse abertas se encaixam facilmente em lakes e warehouses existentes, as organizações podem começar a transição para novas soluções integradas sem remoção e substituição disruptivas.

Desafios dos data lakehouses

Embora os lakehouses possam otimizar muitos fluxos de trabalho de dados, pode ser complicado colocá-los em funcionamento. Os usuários também podem ter que passar por uma curva de aprendizado, pois o uso de um lakehouse pode ser diferente dos warehouses com os quais estão acostumados. Os lakehouses também são uma tecnologia relativamente nova, e a framework ainda está evoluindo.

Como data warehouses, data lakes e data lakehouses trabalham juntos em uma arquitetura de dados

Data warehouses, data lakes e data lakehouses atendem a diferentes necessidades de negócios e dados. Muitas organizações usam dois ou todos os três sistemas em conjunto para simplificar os pipelines de dados e apoiar a IA, ML e análise de dados.   

A título de analogia, considere uma cozinha comercial. Todos os dias, essa cozinha recebe remessas de ingredientes (dados) que chegam em caminhões (bancos de dados transacionais, aplicativos de negócios etc.)  

Todos os ingredientes, independentemente do tipo, chegam na doca de carga (o data lake). Os ingredientes são processados e classificados em refrigeradores, despensas e outras áreas de armazenamento (data warehouses). Lá, os ingredientes estão prontos para serem usados pelos chefs sem nenhum processamento adicional.  

Esse processo é bastante eficiente, mas expõe alguns dos desafios dos data lakes e data warehouses tradicionais. Assim como os ingredientes em uma doca de carga, os dados em um data lake não podem ser usados sem processamento adicional. Assim como os ingredientes na cozinha, os dados em um data warehouse devem ser devidamente preparados e entregues no lugar certo antes de poderem ser usados.

Um data lakehouse é como combinar uma doca de carga, despensa e refrigerador em um único local. Obviamente, essa combinação pode não ser realista no âmbito das cozinhas comerciais. No entanto, no mundo dos dados corporativos, isso permite que as organizações obtenham o mesmo valor dos dados, reduzindo os custos de processamento, redundâncias e silos de dados.

Comparações rápidas e principais diferenças

Data warehouses versus data lakes

  • Os data warehouses armazenam dados limpos e processados, enquanto os data lakes abrigam dados brutos em seu formato nativo. 

  • Os data warehouses têm Analytics Engine e ferramentas de geração de relatórios integrados, enquanto os data lakes exigem ferramentas externas para o processamento.

  • Os data lakes têm armazenamento mais barato, flexível e escalável. Os data warehouses oferecem desempenho de consultas otimizado.

  • Os warehouses são mais adequados para apoiar os esforços de business intelligence e análise de dados dos usuários corporativos. Os data lakes são mais adequados para operações que exigem grandes volumes de dados em vários formatos de dados, como inteligência artificial, aprendizado de máquina e ciência de dados. 

  • Os warehouses são compatíveis com transações ACID. Os data lakes não.

Data warehouses versus data lakehouses

  • Lakehouses e warehouses têm recursos de análise de dados e consultas similares, mas lakehouses são mais compatíveis com cargas de trabalho complexas de IA e ML do que warehouses.

  • Lakehouses oferecem armazenamento mais barato, flexível e escalável para todos os tipos de dados. Warehouses são compatíveis principalmente com dados estruturados.

  • Warehouses usam ETL, enquanto lakehouses podem usar ETL ou ELT.

  • Lakehouses podem lidar com dados em lote e de streaming. Warehouses trabalham em lotes.  

Data lakes versus data lakehouses

  • Tanto os data lakes quanto os lakehouses são compatíveis com grandes volumes de dados e diferentes estruturas de dados. Ambos usam sistemas de armazenamento de dados semelhantes, normalmente Cloud Object Storage. 

  • Data lakes não aplicam esquemas aos dados ingeridos. Data lakehouses têm a opção de aplicar esquemas.

  • Tanto data lakes quanto lakehouses são compatíveis com cargas de trabalho de IA e ML, mas lakehouses são mais compatíveis com esforços de BI e análise de dados do que data lakes.

  • Lakehouses têm ferramentas de análise de dados incorporadas ou estão totalmente integrados a frameworks de análise de dados. Data lakes exigem ferramentas externas para processamento de dados.  

  • Lakehouses têm governança, integridade e controles de qualidade de dados mais fortes do que data lakes.  

  • Lakehouses são compatíveis com transações ACID; data lakes não.

  • Data lakes geralmente são criados para processamento em lote e podem não ser compatíveis com dados de streaming. Lakehouses são compatívis com dados em lote e de streaming.

Soluções relacionadas

Soluções relacionadas

Software e soluções de gerenciamento de dados

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights que ofereça vantagens para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data