Originariamente coniato dall'ex CTO di Pentaho, un data lake è un ambiente di storage a basso costo, che in genere ospita petabyte di dati non elaborati. A differenza di un data warehouse, un data lake può memorizzare dati strutturati e dati non strutturati e non richiede uno schema definito per memorizzare i dati, una caratteristica nota come «schema-on-read». Questa flessibilità nei requisiti di storage è particolarmente utile per data scientist, data engineer e sviluppatori, poiché consente loro di accedere ai dati per esercizi di data discovery e progetti di machine learning.

Un report recente Voice of the Enterprise (link esterno a ibm.com) condotto da 451 Research ha stabilito che quasi "tre quarti (71%) delle aziende stanno attualmente utilizzando o sperimentando un ambiente data lake o pianificano di farlo entro i prossimi 12 mesi e il 53% degli intervistati è già in fase di implementazione o di POC." Gli intervistati in questo report mettono in risalto l'agilità aziendale come un vantaggio chiave derivante dalle loro implementazioni, che può variare. Hanno inoltre scoperto che i data lake sono generalmente ospitati nel cloud oppure "on-premise" attraverso i data center di un'organizzazione.



Se da un lato le aziende che adottano i data lake ne trovano il valore, dall'altro alcune possono essere vittime di data swamp o data pit. Un data swamp è il risultato di un data lake gestito non correttamente, ovvero privo di pratiche adeguate di qualità dei dati e di governance dei dati per fornire informazioni utili. Senza un'adeguata supervisione, i dati contenuti in questi archivi saranno resi inutili. I data pit, invece, sono simili ai data swamp in quanto offrono scarso valore aziendale, ma in questi casi l'origine del problema dei dati non è chiara. Allo stesso modo, il coinvolgimento dei team di data governance e data science può aiutare a prevenire queste insidie.