Da Data Lakes in erster Linie für ihre Fähigkeit genutzt werden, riesige Mengen an Rohdaten zu speichern, muss der Geschäftszweck der Daten nicht unbedingt zu Beginn definiert werden. Im Folgenden finden Sie dennoch zwei Hauptanwendungsfälle für Data Lakes:
- Proof of Concepts, (POCs): Data Lake-Speicherung ist ideal für Proof-of-Concept Projekte. Ihre Fähigkeit, verschiedene Arten von Daten zu speichern, ist besonders für Modelle des maschinellen Lernens von Vorteil, da sie die Möglichkeit bieten, sowohl strukturierte als auch unstrukturierte Daten in Vorhersagemodelle einzubeziehen. Dies kann für Anwendungsfälle wie die Textklassifizierung nützlich sein, da Datenwissenschaftler hierfür keine relationalen Datenbanken verwenden können (zumindest nicht ohne Vorverarbeitung der Daten, um sie an die Schemaanforderungen anzupassen). Data Lakes können auch als Sandbox für andere Big-Data-Analytics-Projekte fungieren. Dies kann von der groß angelegten Dashboard-Entwicklung bis hin zur Unterstützung von IoT-Apps reichen, für die in der Regel Streaming-Daten in Echtzeit erforderlich sind. Nachdem Zweck und Wert der Daten ermittelt wurden, können diese einer ETL- oder ELT-Verarbeitung zur Speicherung in einem nachgelagerten Data Warehouse unterzogen werden.
- Daten-Backup und Wiederherstellung: Hohe Speicherkapazität und niedrige Speicherkosten machen Data Lakes zu einer Speicheralternative für die Wiederherstellung im Katastrophenfall. Sie können auch für Datenprüfungen zur Qualitätssicherung von Nutzen sein, da die Daten in ihrem ursprünglichen Format gespeichert werden (d. h. ohne Transformationen). Dies kann besonders nützlich sein, wenn in einem Data Warehouse die entsprechende Dokumentation über die Datenverarbeitung fehlt, so dass die Teams die Arbeit früherer Dateneigentümer gegenprüfen können.
Da die Daten in einem Data Lake nicht unbedingt einen unmittelbaren Verwendungszweck haben müssen, kann er auch eine Möglichkeit sein, kalte oder inaktive Daten zu einem kostengünstigen Preis zu speichern, die zu einem späteren Zeitpunkt für behördliche Untersuchungen oder neue Nettoanalysen nützlich sein können.