Ein Data Lake ist eine kostengünstige Datenspeicherumgebung, die für die Verarbeitung riesiger Mengen an Rohdaten in jedem Format ausgelegt ist, einschließlich strukturierter, halbstrukturierter und unstrukturierter Daten. Die meisten Data Lakes verwenden cloudbasierten Objektspeicher, wie z. B. AWS S3, Google Cloud Storage oder IBM Cloud® Object Storage.
Data Lakes wurden entwickelt, um Unternehmen bei der Bewältigung der Flut von Big Data zu unterstützen, die in den späten 2000er- und frühen 2010er-Jahren von internetfähigen Anwendungen und Diensten erzeugt wurden und größtenteils unstrukturiert sind.
Im Gegensatz zu herkömmlichen Datenbanken und Data Warehouses müssen bei Data Lakes nicht alle Daten einem bestimmten Schema folgen. Stattdessen können Data Lakes verschiedene Arten von Daten in unterschiedlichen Formaten in einem zentralen Repository speichern. Data Lakes nutzen auch die Vorteile des Cloud Computing, um die Datenspeicherung skalierbarer und kostengünstiger zu machen.
Data Lakes sind heute Kernkomponenten der Datenarchitektur vieler Unternehmen. Laut der IBM CDO-Studie investieren 75 % der führenden Chief Data Officers (CDOs) in Data Lakes.
Dank ihrer flexiblen Speicherung können Data Lakes Unternehmen dabei helfen, Datensilos abzubauen und ganzheitliche Datenstrukturen aufzubauen. Sie sind auch für Data Scientists und Dateningenieure nützlich, die häufig Data Lakes verwenden, um die umfangreichen unstrukturierten Datensätze zu verwalten, die für künstliche Intelligenz (KI) und maschinelles Lernen (ML) erforderlich sind.
Lange Zeit verließen sich Unternehmen auf relationale Datenbanken (entwickelt in den 1970er Jahren) und Data Warehouses (entwickelt in den 1980er Jahren), um ihre Daten zu verwalten. Diese Lösungen sind nach wie vor wichtige Bestandteile des IT-Ökosystems vieler Unternehmen, aber sie wurden in erster Linie für strukturierte Datensätze entwickelt.
Mit dem Wachstum des Internets – und insbesondere mit dem Aufkommen von Social Media und Streaming-Medien – mussten sich Unternehmen mit viel mehr unstrukturierten Daten wie Freitexten und Bildern auseinandersetzen. Aufgrund ihrer strengen Schemata und der vergleichsweise hohen Speicherkosten waren Warehouses und relationale Datenbanken für diesen Datenzustrom schlecht gerüstet.
Im Jahr 2011 prägte James Dixon, damals Chief Technology Officer bei Pentaho, den Begriff „Data Lake“. Dixon sah in dem Lake eine Alternative zum Data Warehouse. Während Warehouses vorverarbeitete Daten für gezielte Anwendungsfall liefern, stellte sich Dixon einen Data Lake als eine große Datenmenge vor, die in ihrem natürlichen Format aufbewahrt wird. Die Benutzer konnten die benötigten Daten aus diesem Data Lake beziehen und sie nach Belieben verwenden.
Viele der ersten Data Lakes wurden auf Apache Hadoop aufgebaut, einem Open-Source-Framework für die verteilte Verarbeitung großer Datensätze. Diese frühen Data Lakes wurden lokal gehostet, aber dies wurde schnell zu einem Problem, als das Datenvolumen weiter anstieg.
Cloud Computing bot eine Lösung: die Verlagerung von Data Lakes in besser skalierbare Cloud Object Storage Services.
Data Lakes entwickeln sich auch heute noch weiter. Viele Data-Lake-Lösungen bieten inzwischen Funktionen, die über kostengünstigen, skalierbaren Speicher hinausgehen, z. B. Tools für Datensicherheit und Governance, Datenkataloge und Metadatenmanagement.
Data Lakes sind auch Kernkomponenten von Data Lakehouses, einer relativ neuen Datenmanagementlösung, die die kostengünstige Speicherung eines Data Lakes mit den leistungsstarken Analysefunktionen eines Data Warehouses kombiniert. (Weitere Informationen finden Sie unter „Data Lakes vs. Data Lakehouses“).
Während die ersten Data Lakes auf Hadoop basierten, ist der Kern eines modernen Data Lakes ein Cloud Object Storage Service. Zu den gängigen Optionen gehören Amazon Simple Storage Service (Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage und IBM Cloud Object Storage.
Cloud Object Storage ermöglicht Unternehmen, verschiedene Arten von Rohdaten alle im selben Datenspeicher zu speichern. Es ist im Allgemeinen auch skalierbarer und kostengünstiger als Speicher vor Ort. Cloud-Speicheranbieter ermöglichen es Benutzern, große Cluster auf Abruf einzurichten, wobei nur die Bezahlung für den verwendeten Speicher erforderlich ist.
Speicher- und Rechenressourcen sind in einer Data Lake-Architektur voneinander getrennt. Um Daten zu verarbeiten, müssen Benutzer externe Datenverarbeitungstools verbinden. Apache Spark, das Schnittstellen wie Python, R und Spark SQL unterstützt, ist eine beliebte Wahl.
Die Entkopplung von Speicher und Rechenleistung hilft, die Kosten niedrig und die Skalierbarkeit hoch zu halten.Unternehmen können mehr Speicher hinzufügen, ohne die Rechenleistung entsprechend zu skalieren.
Der zentrale Data-Lake-Speicher ist über eine Aufnahmeschicht mit verschiedenen Datenquellen wie Datenbanken, Apps, IoT-Geräten und Sensoren verbunden.
Die meisten Data Lakes verwenden zum Aufnehmen von Daten einen ELT-Prozess (Extract, Load, Transform) anstelle eines ETL-Prozesses (Extract, Transform, Load). Die Daten verbleiben in ihrem ursprünglichen Zustand, wenn sie vom Lake aufgenommen werden, und werden erst transformiert, wenn sie benötigt werden. Dieser Ansatz, bei dem ein Schema nur angewendet wird, wenn auf Daten zugegriffen wird, wird als „Schema-on-Read“ bezeichnet.
Zusätzlich zu diesen Kernkomponenten können Unternehmen weitere Schichten in ihre Data-Lake-Architekturen einbauen, um sie sicherer und benutzerfreundlicher zu machen. Diese Ebenen können Folgendes umfassen:
Mehrere, unterschiedliche Speicherebenen zur Aufnahme verschiedener Phasen der Datenverarbeitung. Ein Data Lake kann beispielsweise eine Schicht für Rohdaten, eine Schicht für bereinigte Daten und eine Schicht für vertrauenswürdige Anwendungsdaten haben.
Sicherheits- und Governance-Ebenen, wie z. B. integrierte Data-Governance-Lösungen oder Identity und Access Management (IAM)-Kontrollen halten die Datenqualität aufrecht und schützen vor unbefugtem Zugriff.
Ein Datenkatalog, der Benutzern das einfache Auffinden von Daten mithilfe von Metadatenfiltern oder anderen Methoden erleichtert.
Data Lakes, Data Warehouses und Data Lakehouses sind alle Arten von Datenverwaltung, aber sie haben wichtige Unterschiede. Sie werden oft zusammen in einer integrierten Datenarchitektur verwendet, um verschiedene Anwendungsfall zu unterstützen.
Wie ein Data Lake aggregiert ein Data Warehouse Daten aus verteilten Datenquellen in einem einzigen Speicher, in der Regel einem relationalen Datenbanksystem. Der Hauptunterschied besteht darin, dass Data Warehouses die Daten bereinigen und vorbereiten, sodass sie für die Datenanalyse verwendet werden können.
Data Warehouses sind in erster Linie darauf ausgelegt, Hochleistungsabfragen, Analysen nahezu in Echtzeit und BI (Business Intelligence)-Maßnahmen zu unterstützen. Als solche sind sie für strukturierte Daten optimiert und eng mit Analytics Engines, Dashboards und Datenvisualisierungs-Werkzeugen integriert.
Warehouse-Systeme bieten in der Regel eine teurere, weniger flexible und weniger skalierbare Speicherung als Data Lakes. Unternehmen nutzen Warehouse-Systeme in der Regel für spezifische Analyseprojekte, während sie sich bei der Speicherung großer Datenmengen für verschiedene Zwecke auf Data Lakes verlassen.
Ein Data Lakehouse ist eine Datenverwaltungslösung, die flexible Datenspeicherung eines Data Lake und die leistungsstarken Analysefunktionen eines Data Warehouse kombiniert.
Wie ein Data Lake kann ein Data Lakehouse Daten in jedem beliebigen Format zu geringen Kosten speichern. Data Lakehouses bauen außerdem eine Warehouse-ähnliche Analyseinfrastruktur auf dem Cloud-Data-Lake-Speichersystem auf und vereinen so die Funktionen der beiden Lösungen.
Unternehmen können Lakehouses zur Unterstützung zahlreicher Workloads nutzen, darunter KI, ML, BI und Datenanalysen. Lakehouses können auch als Modernisierungsweg für Datenarchitekturen dienen. Unternehmen können Lakehouses neben bestehenden Seen und Lagern einsetzen, ohne dass ein kostspieliger Austausch erforderlich ist.
Viele Unternehmen nutzen Data Lake als Allzweck-Speicherlösung für eingehende Daten, da sie problemlos Petabyte an Daten in jedem Format aufnehmen können.
Anstatt unterschiedliche Datenpipelines für verschiedene Arten von Daten einzurichten, können Unternehmen alle eingehenden Daten in Data Lake Speicher ablegen. Benutzer können entweder direkt auf Daten aus dem Data Lake zugreifen oder sie je nach Bedarf in ein Warehouse oder eine andere Datenplattform verschieben.
Unternehmen können Data Lakes sogar verwenden, um „nur für den Fall“ -Daten mit noch undefinierten Anwendungsfallen zu speichern. Da Data Lakes günstig und skalierbar sind, müssen sich Unternehmen keine Gedanken darüber machen, Ressourcen für Daten auszugeben, die sie vielleicht noch nicht benötigen.
Hohe Speicherkapazitäten und niedrige Speicherkosten machen Data Lakes zu einer gängigen Wahl für Backups und Notfallwiederherstellung.
Datenseen können auch eine Möglichkeit sein, „kalte“ oder inaktive Daten zu einem niedrigen Preis zu speichern. Dies ist nützlich für die Archivierung alter Daten und die Pflege historischer Aufzeichnungen, die bei Compliance-Prüfungen, behördlichen Anfragen oder sogar bei späteren Netzwerkanalysen hilfreich sein können.
Data Lakes spielen eine wichtige Rolle bei AI-, ML- und Big-Data-Analyse-Workloads, z. B. beim Erstellen von Vorhersagemodellen und beim Trainieren von Anwendungen der generativen KI (Gen AI). Diese Projekte erfordern große Mengen an unstrukturierten Daten, die Data Lakes kostengünstig und effizient verarbeiten können.
Laut der IBM CEO-Studie sind 72 % der leistungsstärksten CEOs der Meinung, dass die fortschrittlichsten generativen KI-Tools einem Unternehmen einen Wettbewerbsvorteil verschaffen. Angesichts der Bedeutung von KI und ML ist es sinnvoll, dass Data Lakes für viele Unternehmen zu einer zentralen Investition in die Datenarchitektur geworden sind.
Data Lakes können dazu beitragen, Datenintegrations-Initiativen zu unterstützen, die darauf abzielen, Daten aus mehreren Quellen zu kombinieren und zu harmonisieren, damit sie für verschiedene Analyse-, Betriebs- und Entscheidungszwecke verwendet werden können.
Laut Benchmarking-Daten des IBM Institute for Business Value geben 64 % der Unternehmen an, dass der Abbau organisatorischer Barrieren für die gemeinsame Nutzung von Daten eine ihrer größten personalbezogenen Herausforderungen ist. Untersuchungen zeigen, dass bis zu 68 % der Unternehmensdaten nie analysiert werden. Unternehmen können nicht den vollen Nutzen aus ihren Daten ziehen, wenn die Mitarbeiter sie nicht bei Bedarf nutzen können.
Data Lakes können den Datenzugriff und die gemeinsame Nutzung von Daten erleichtern, indem sie Unternehmen eine einfache Möglichkeit bieten, alle Arten von Daten in einem zugänglichen zentralen Repository zu speichern.
Data Lakes können Unternehmen dabei helfen, mehr Nutzen aus ihren Geschäftsdaten zu ziehen, indem sie die Speicherung, Teilen und Nutzung dieser Daten vereinfachen. Genauer gesagt können Data Lake Folgendes bieten:
Flexibilität: Data Lakes können strukturierte, halbstrukturierte und unstrukturierte Datensätze aufnehmen. Dadurch müssen Unternehmen keine separaten Speichersysteme für verschiedene Datentypen mehr unterhalten, was zur Vereinfachung der Datenarchitektur beitragen kann.
Geringe Kosten: Die Daten müssen keinen kostspieligen Bereinigungs- und Transformationsprozess durchlaufen, und der Objektspeicher in der Cloud ist in der Regel günstiger als lokale Alternativen. Unternehmen können ihre Budgets und Ressourcen über Datenverwaltungsinitiativen effektiver optimieren.
Skalierbarkeit: Weil Data Lakes Rechen- und Speicherressourcen entkoppeln und weil sie in der Regel Cloud-Speicher verwenden, lassen sie sich leichter nach oben oder unten skalieren als viele andere Datenspeicherlösungen.
Weniger Data Silos: Laut Benchmarking-Daten des IBM Institute for Business Value geben 61 % der Unternehmen an, dass Data Silos eine ihrer größten Herausforderungen sind. Data Lakes können helfen, Data Silos abzubauen, indem sie die Notwendigkeit beseitigen, verschiedene Arten von Daten an verschiedenen Orten zu speichern. Ein zentraler Data Lake oder eine Reihe von Data Lakes können leichter zugänglich sein als unterschiedliche Datenspeicher, die über Geschäftsbereiche verteilt sind.
Da Data Lakes kein striktes Schema erzwingen und viele verschiedene Datentypen aus vielen Quellen akzeptieren, können sie Probleme mit der Data Governance und der Datenqualität haben. Ohne eine angemessene Verwaltung können Data Lakes leicht zu „Datensümpfen“ werden – unübersichtliche Sümpfe aus unzuverlässigen Daten, die es den Nutzern erschweren, umsetzbare Erkenntnisse zu gewinnen.
Um der Datenflut entgegenzuwirken, können Unternehmen in Tagging- und Klassifizierungstools investieren, etwa in Metadatenverwaltungssysteme und Datenkataloge, die die Navigation erleichtern.
Data-Governance- und Sicherheitslösungen, wie z. B. Zugriffskontrollen, Tools zur Verhinderung von Datenverlusten und Lösungen zur Datenerkennung und -reaktion, können dazu beitragen, dass nicht unbefugt auf Daten zugegriffen, diese verwendet oder geändert werden.
Data Lakes verfügen nicht über integrierte Verarbeitungs- und Abfragetools, wie es bei vielen Warehouses und Lakehouses der Fall ist. Darüber hinaus kann die Abfrage- und Analyse-Performance leiden, wenn das in einen Data Lake eingespeiste Datenvolumen wächst, insbesondere wenn die Daten nicht für den Abruf optimiert sind.
Die Verwendung der richtigen Tools und Konfigurationen – wie optimierte Speicherformate und Abfrage-Engines – kann unabhängig von der Größe des Data Lake eine hohe Leistung gewährleisten.
Mit dem offenen, hybriden Data Lakehouse für KI und Analysen lassen Sie Ihre Daten dort arbeiten, wo sie sich befinden.
Lösen Sie die heutigen Datenherausforderungen mit einer Lakehouse-Architektur. Stellen Sie in wenigen Minuten eine Verbindung zu Ihren Daten her, erhalten Sie schnell zuverlässige Erkenntnisse und reduzieren Sie Ihre Data Warehouse-Kosten.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.