Durante muito tempo, as organizações dependeram de bancos de dados relacionais (desenvolvidos na década de 1970) e data warehouse (desenvolvidos na década de 1980) para gerenciar seus dados. Essas soluções ainda são partes importantes dos ecossistemas de TI de muitas organizações, mas foram projetadas principalmente para conjuntos de dados estruturados.
Com o crescimento da internet, e especialmente com a chegada das redes sociais e do streaming de mídia, as organizações se viram lidando com vastas quantidades de dados não estruturados, como textos e imagens em formato livre. Os data warehouses e bancos de dados relacionais estavam mal preparados para lidar com esse fluxo de dados em tempo real devido à sua rigidez de esquemas e seus custos de armazenamento relativamente caros.
Em 2011, James Dixon, então diretor de tecnologia da Pentaho, cunhou o termo "data lake". Dixon viu o lago como uma alternativa ao data warehouse. Enquanto os warehouses fornecem dados processados para casos de uso comerciais direcionados, Dixon imaginou um data lake como um grande corpo de dados armazenados em seu formato natural. Os usuários poderiam extrair os dados de que precisavam desse lake e usá-los como quisessem.
Muitos dos primeiros data lakes foram construídos com base no Hadoop Distributed File System (HDFS), um framework de código aberto e um dos principais componentes do Apache Hadoop. Esses primeiros data lakes eram hospedados localmente, mas isso rapidamente se tornou um problema à medida que o volume de dados continuou aumentando. A computação em nuvem ofereceu uma solução: migrar os data lakes para serviços de armazenamento de objetos baseado na nuvem mais escaláveis.
Atualmente, os data lakes ainda estão evoluindo. Muitas soluções de data lake agora oferecem funcionalidades além do armazenamento escalável e barato, como segurança de dados e ferramentas de governança, catálogos de dados e gerenciamento de metadados.
Os data lakes também são componentes centrais dos data lakehouses, uma solução de gerenciamento de dados relativamente nova que combina o armazenamento de baixo custo de um data lake e as capacidades de análise de dados de alto desempenho de um warehouse.