Lange Zeit waren Unternehmen auf relationale Datenbanken (entwickelt in den 1970er Jahren) und Data Warehouses (entwickelt in den 1980er Jahren) zur Verwaltung ihrer Daten angewiesen. Diese Lösungen sind nach wie vor wichtige Bestandteile der IT-Ökosysteme vieler Unternehmen, wurden aber in erster Linie für strukturierte Datensätze entwickelt.
Mit dem Wachstum des Internets – und insbesondere mit dem Aufkommen von Social Media und Streaming-Medien – sahen sich Unternehmen mit riesigen Mengen unstrukturierter Daten konfrontiert, wie zum Beispiel Freitext und Bilder. Data Warehouses und relationale Datenbanken waren aufgrund ihrer strengen Schemata und der vergleichsweise hohen Speicherkosten schlecht gerüstet, um diesen Zustrom an Echtzeitdaten zu bewältigen.
Im Jahr 2011 prägte James Dixon, damals Chief Technology Officer bei Pentaho, den Begriff „Data Lake“. Dixon sah in dem Lake eine Alternative zum Data Warehouse. Während Warehouses vorverarbeitete Daten für gezielte Anwendungsfall liefern, stellte sich Dixon einen Data Lake als eine große Datenmenge vor, die in ihrem natürlichen Format aufbewahrt wird. Die Benutzer konnten die benötigten Daten aus diesem Data Lake beziehen und sie nach Belieben verwenden.
Viele der ersten Data Lakes wurden auf dem Hadoop Distributed File System (HDFS) aufgebaut, einem Open-Source-Framework und einer der Hauptkomponenten von Apache Hadoop. Diese frühen Data Lakes wurden lokal gehostet, was sich jedoch schnell als Problem erwies, da das Datenvolumen stetig zunahm. Cloud Computing bot eine Lösung: die Verlagerung von Data Lakes in besser skalierbare cloudbasierte Object Storage Services.
Data Lakes entwickeln sich auch heute noch weiter. Viele Data-Lake-Lösungen bieten inzwischen Funktionen, die über kostengünstigen, skalierbaren Speicher hinausgehen, z. B. Tools für Datensicherheit und Governance, Datenkataloge und Metadatenmanagement.
Data Lakes sind auch eine Kernkomponente von Data Lakehouses, einer relativ neuen Datenverwaltungslösung, die den kostengünstigen Speicher eines Lakes mit den leistungsstarken Analysefunktionen eines Data Warehouses kombiniert.