Während Data Warehouses verarbeitete Daten speichern, enthält ein Data Lake Rohdaten, in der Regel in Petabytes. Ein Data Lake kann sowohl strukturierte als auch unstrukturierte Daten speichern, was ihn von anderen Datenspeichern unterscheidet. Diese flexiblen Vorgaben bei der Speicherung sind für Datenanalysten, Data Scientists, Dateningenieure und Entwickler nützlich, da sie so auf Daten für Datenerkennungsübungen und ML-Projekte zugreifen können.

Data Lakes wurden ursprünglich als Reaktion auf die Unfähigkeit des Data Warehouse erstellt, das wachsende Volumen, die Geschwindigkeit und die Vielfalt von Big Data zu bewältigen. Data Lakes sind zwar langsamer als Data Warehouses, aber auch günstiger, da vor der Aufnahme kaum bis gar keine Datenaufbereitung erfolgt. Heute werden sie im Rahmen der Datenmigration in die Cloud weiterentwickelt.

Data Lakes unterstützen eine Vielzahl von Anwendungsfällen, da die Geschäftsziele für die Daten nicht zum Zeitpunkt der Datenerfassung definiert werden müssen. Zu den wichtigsten Anwendungsfällen gehören jedoch die Erforschung von Data Science sowie das Backup und die Wiederherstellung von Daten.

Data Scientists können Data Lakes für Machbarkeitsnachweise nutzen. Anwendungen für maschinelles Lernen profitieren von der Möglichkeit, strukturierte und unstrukturierte Daten am selben Ort zu speichern, was mit einem relationalen Datenbanksystem nicht möglich ist.

Außerdem können Data Lakes zum Testen und Entwickeln von Big-Data-Analyseprojekten verwendet werden. Wenn die Anwendung entwickelt und die nützlichen Daten identifiziert wurden, können die Daten zur betrieblichen Nutzung in ein Data Warehouse exportiert und die Anwendung mithilfe von Automatisierung skaliert werden.

Data Lakes können auch für die Datensicherung und -wiederherstellung verwendet werden, da sie kostengünstig skalierbar sind. Aus den gleichen Gründen eignen sich Data Lakes auch für die Speicherung von Notfalldaten, deren Geschäftsanforderungen noch nicht definiert sind. Wenn die Daten jetzt gespeichert werden, stehen sie später zur Verfügung, wenn neue Initiativen entwickelt werden.