A primeira camada em muitas plataformas de dados é a camada de armazenamento de dados. O tipo de armazenamento de dados usado depende das necessidades da organização e pode incluir armazenamento no local e na nuvem. Os armazenamentos de dados comuns incluem:
Data warehouses
Um data warehouse—ou data warehouse corporativo (EDW)—agrega dados de diferentes fontes em um armazenamento de dados único, central e consistente para dar suporte à análise de dados, mineração de dados, IA e aprendizado de máquina. Os data warehouses são usados com mais frequência para gerenciar dados estruturados com casos de uso de análise de dados claramente definidos.
Data lakes
Um data lake é um ambiente de armazenamento de menor custo, que normalmente hospeda petabytes de dados brutos. Um data lake pode armazenar dados estruturados e não estruturados em vários formatos, permitindo que os pesquisadores trabalhem mais facilmente com uma ampla variedade de dados.
Os data lakes foram construídos originalmente no ecossistema Hadoop , um projeto de código aberto baseado no NoSQL. Por volta de 2015, muitos data lakes começaram a migrar para nuvem. Uma arquitetura típica de data lake agora pode armazenar dados em uma plataforma de object storage , como o Amazon S3 da Amazon Web Services (AWS), e usar uma ferramenta como o Spark para processar os dados.
Data lakehouses
Um data lakehouse combina os recursos de data warehouses e data lakes em uma única solução de gerenciamento de dados.
Embora os data warehouses ofereçam melhor desempenho do que os data lakes, frequentemente eles são mais caros e limitados em sua capacidade de escalar. Os data lakes otimizam os custos de armazenamento, mas não têm estrutura para análise de dados útil.
O data lakehouse é projetado para lidar com esses desafios ao utilizar o cloud object storage para armazenar uma gama mais ampla de tipos de dados (ou seja, dados estruturados, dados não estruturados e dados semiestruturados). Uma arquitetura de data lakehouse combina esse armazenamento com ferramentas para permitir esforços de análise de dados avançada, como business intelligence e aprendizado de máquina.