Os data lakes são comumente desenvolvidos em plataformas de big data como o Apache Hadoop. São conhecidos por seu baixo custo e flexibilidade de armazenamento, pois não possuem os esquemas predefinidos dos data warehouses tradicionais. Eles também armazenam diferentes tipos de dados, como áudio, vídeo e texto. Uma vez que os produtores de dados geram muitos dados não estruturados, essa é uma distinção importante, pois isso também possibilita mais projetos de ciência de dados e inteligência artificial (IA), o que, por sua vez, gera insights mais inovadores e melhora a tomada de decisão em uma organização. No entanto, data lakes não estão livres de seus próprios desafios. O tamanho e a complexidade dos data lakes podem exigir mais recursos técnicos, como cientistas de dados e engenheiros de dados, para navegar na quantidade de dados que armazena. Além disso, uma vez que a governança de dados é implementada mais a jusante nesses sistemas, data lakes tendem a ser mais propensos a silos de dados, que podem evoluir posteriormente para um data swamp. Quando isso acontece, o data lake pode se tornar inutilizável.
Data lakes e data warehouses são tipicamente usados em conjunto. Data lakes atuam como um sistema de captura para novos dados, e data warehouses aplicam estrutura downstream a dados específicos deste sistema. No entanto, coordenar esses sistemas para fornecer dados confiáveis pode ser custoso tanto em tempo quanto em recursos. Tempos de processamento longos contribuem para a obsolescência dos dados e camadas adicionais de ETL introduzem mais risco à qualidade dos dados.