Per molto tempo, le organizzazioni si sono affidate ai database relazionali (sviluppati negli anni '70) e ai data warehouse (sviluppati negli anni '80) per gestire i loro dati. Queste soluzioni sono ancora parti importanti degli ecosistemi IT di molte organizzazioni, ma sono state progettate principalmente per set di dati strutturati.
Con la crescita di internet, e soprattutto con l'arrivo dei social media e dello streaming, le organizzazioni si sono trovate a gestire enormi quantità di dati non strutturati, come testi e immagini di forma libera. I data warehouse e i database relazionali erano poco attrezzati per gestire questo afflusso di dati in tempo reale a causa dei loro schemi rigorosi e dei costi di storage relativamente elevati.
Nel 2011, James Dixon, allora Chief Technology Officer di Pentaho, coniò il termine “data lake". Dixon vedeva il data lake come un'alternativa al data warehouse. Mentre i data warehouse forniscono dati elaborati per casi d’uso aziendali specifici, Dixon immaginava un data lake come un ampio insieme di dati conservati nel loro formato naturale. Gli utenti potevano estrarre da questo data lake i dati di cui avevano bisogno e utilizzarli a loro piacimento.
Molti dei primi data lake sono stati costruiti sull'Hadoop Distributed File System (HDFS), un framework open source e uno dei componenti principali di Apache Hadoop. Questi primi data lake erano ospitati on-premise, ma questo è rapidamente diventato un problema man mano che il volume di dati continuava a aumentare. Il cloud computing ha offerto una soluzione: spostare i data lake verso servizi di object storage basati su cloud più scalabili.
I data lake sono ancora in evoluzione oggi. Molte soluzioni data lake ora offrono caratteristiche oltre lo storage economico e Scalabile, come sicurezza dei dati e strumenti di governance, data catalog e metadata management.
I data lake sono anche componenti fondamentali dei data lakehouse, una soluzione di gestione dei dati relativamente nuova che combina lo storage a basso costo di un data lake e le funzionalità di analytics ad alte prestazioni di un data warehouse.