Enquanto os data warehouses armazenam dados processados, um data lake armazena dados brutos, geralmente em volumes de petabytes. Um data lake pode armazenar dados estruturados e não estruturados, o que o torna exclusivo de outros repositórios de dados. Essa flexibilidade nos requisitos de armazenamento é útil para analistas de dados, cientistas de dados, engenheiros de dados e desenvolvedores, permitindo acesso a dados para exercícios de descoberta de dados e projetos de aprendizado de máquina (ML).

Os data lakes foram criados originalmente como resposta à incapacidade do data warehouse de lidar com o crescimento do volume, da velocidade e da variedade do big data. Embora os data lakes sejam mais lentos que os data warehouses, eles também são mais baratos, pois exigem pouca ou nenhuma preparação dos dados antes da ingestão. Atualmente, eles continuam a evoluir como parte dos esforços de migração de dados para a nuvem.

Os data lakes atendem a uma ampla variedade de casos de uso, pois os objetivos de negócio para os dados não precisam estar definidos no momento da coleta. No entanto, dois casos de uso principais incluem a exploração em ciência de dados e os esforços de backup e recuperação de dados.

Cientistas de dados podem usar os data lakes para provas de conceito. As aplicações de aprendizado de máquina se beneficiam da capacidade de armazenar dados estruturados e não estruturados no mesmo lugar, o que não é possível com um sistema de banco de dados relacional.

Os data lakes também podem ser usados para testar e desenvolver projetos de análise de big data. Quando a aplicação é desenvolvida e os dados úteis são identificados, é possível exportar os dados para um data warehouse para uso operacional e utilizar automação para fazer a aplicação escalar.

Os data lakes também podem ser usados para backup e recuperação de dados, graças à sua capacidade de escalar com baixo custo. Pelas mesmas razões, os data lakes são úteis para armazenar dados “por precaução”, cujas necessidades de negócio ainda não foram definidas. Armazenar os dados agora garante sua disponibilidade futura, conforme surgem novas iniciativas.