Un data lake è una soluzione di storage per enormi quantità di dati non elaborati, privo di schemi predefiniti. I data lake contengono spesso dati non strutturati e dati semi-strutturati, come documenti, video, log Internet of Things (IoT) e post per social media. Sono generalmente costruiti su piattaforme per big data come Apache Hadoop.



I data lake sono progettati principalmente per offrire storage a basso costo per grandi quantità di dati. Per mantenere bassi i costi di storage, in genere non trasformano i dati oppure li ottimizzano per l'analytics, come nel caso di un warehouse.