Data Warehouses, Data Lakes und Data Lakehouses im Vergleich 

20. November 2024

Autoren

Matthew Kosinski

Enterprise Technology Writer

Data Warehouses, Data Lakes und Data Lakehouses im Vergleich

Data Warehouses, Data Lakes und Data Lakehouses sind verschiedene Arten von Datenverwaltung Lösungen mit unterschiedlichen Funktionen:

  • Data Warehouses aggregieren, bereinigen und bereiten Daten auf, sodass sie für Business Intelligence (BI) und Datenanalyse genutzt werden können. 

  • Data Lake speichern große Mengen an Rohdaten zu geringen Kosten. 

  • Data Lakehouses kombinieren die flexible Datenspeicherung eines Lake und die leistungsstarken Analysefunktionen eines Warehouse in einer einzigen Lösung.

Da diese Lösungen unterschiedliche Funktionen haben und unterschiedlichen Zwecken dienen, verwenden viele Unternehmensdatenarchitekturen zwei oder alle drei dieser Lösungen in einem ganzheitlichen Data Fabric:

  • Ein Data Lake kann von einem Unternehmen als universelle Speicherlösung für alle eingehenden Daten in beliebigen Formaten genutzt werden.

  • Die Daten aus dem Lake können in Datenlager eingespeist werden, die auf einzelne Geschäftsbereiche zugeschnitten sind, und dort als Entscheidungsgrundlage dienen.

Data Lakehouses sind auch als Modernisierungsweg für bestehende Datenarchitekturen beliebt. Unternehmen können neue Lakehouses implementieren, ohne ihre aktuellen Lakes und Warehouses zu ersetzen, und so den Übergang zu einer einheitlichen Datenspeicher- und Analyselösung optimieren.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Hauptmerkmale von Data Warehouses

Ein Data Warehouse aggregiert Daten aus verteilten Datenquellen – Datenbanken, Geschäftsanwendungen und Social-Media-Feeds – in einem einzigen Speicher. Die Hauptfunktion eines Data-Warehousing-Tools besteht darin, die aufgenommenen Datensätze zu bereinigen und aufzubereiten. 

Data Warehouses verwenden einen Ansatz, der als „Schema-on-Write“ bezeichnet wird und bei dem ein konsistentes Schema auf alle Daten angewendet wird, während diese in den Speicher geschrieben werden. Dies trägt zur Optimierung von Daten für Business Intelligence und Analysen bei.

Ein Warehouse für Einzelhandelsverkaufsdaten würde beispielsweise sicherstellen, dass Details wie Datum, Betrag und Transaktionsnummer korrekt formatiert und den richtigen Zellen in einer relationalen Tabelle zugeordnet werden. 

Ein Data Mart ist eine Art Data Warehouse, das Daten enthält, die für einen bestimmten Geschäftsbereich oder eine bestimmte Abteilung spezifisch sind, und nicht für ein ganzes Unternehmen. Zum Beispiel könnte ein Marketingteam über einen eigenen Data Mart verfügen, die Personalabteilung könnte einen haben und so weiter. 

Data-Warehouse-Architektur  

Ein typisches Data Warehouse besteht aus 3 Schichten:

  • Die mittlere Ebene basiert auf einer Analysemaschine, wie z. B. einem OLAP-System (Online Analytical Processing) oder einer SQL-basierten Maschine. Diese mittlere Datenebene ermöglicht es Benutzern, Datensätze abzufragen und Analysen direkt im Warehouse durchzuführen. 

  • Die oberste Ebene umfasst Benutzeroberflächen und Berichterstellungstools, mit denen Benutzer Ad-hoc-Datenanalysen ihrer Geschäftsdaten durchführen können.  

Frühe Data Warehouses wurden vor Ort gehostet, aber viele werden heute in der Cloud gehostet oder als Cloud-Services bereitgestellt. Hybride Ansätze sind ebenfalls gängig. 

Da traditionelle Data Warehouses auf relationalen Datenbanksystemen und einem strengen Schema basieren, sind sie am effektivsten bei strukturierten Daten. Einige moderne Lagerhäuser haben sich weiterentwickelt, um halbstrukturierte und unstrukturierte Daten aufzunehmen, aber für diese Art von Daten bevorzugen viele Unternehmen Data Lakes und Lakehouses.

Anwendungsfallsfälle für Data Warehouses

Data Warehouses werden von Geschäftsanalysten, Data Scientists und Dateningenieuren genutzt, um Self-Service-Analysen durchzuführen.  

Die Anwendung eines definierten Schemas auf alle Daten fördert die Datenkonsistenz, wodurch die Daten zuverlässiger werden und die Arbeit mit ihnen erleichtert wird. Da ein Data Warehouse Daten in einem strukturierten, relationalen Schema speichert, unterstützt das System leistungsstarke SQL-Abfragen (Structured Query Language).

Unternehmen können integrierte oder verbundene BI- und Datenanalysetools verwenden, um Transaktions- und Verlaufsdaten zu analysieren, Datenvisualisierungen zu erstellen und Dashboards zu erstellen, um datengestützte Entscheidungen zu unterstützen.

Herausforderungen im Zusammenhang mit Data Warehouses

Das Unterhalten von Warehouses kann kostspielig sein. Daten müssen konvertiert werden, bevor sie in ein Warehouse geladen werden, was Zeit und Ressourcen erfordert. Da Speicher und Computing in traditionellen Warehouses eng miteinander gekoppelt sind, kann die Skalierung teuer sein. Wenn Daten nicht ordnungsgemäß gepflegt werden, beeinträchtigt dies die Abfrageleistung. 

Da sie mit unstrukturierten und halbstrukturierten Datensätzen zu kämpfen haben, sind Data Warehouses für KI- und ML-Workloads nicht gut geeignet.

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Hauptmerkmale von Data Lakes

Data Lakes sind kostengünstige Datenspeicherlösungen, die für die Verarbeitung riesiger Datenmengen konzipiert sind. Data Lakes verwenden einen „Schema-on-Read“-Ansatz, d. h. sie wenden kein Standardformat auf eingehende Daten an. Stattdessen werden Schemata durchgesetzt, wenn Benutzer über ein Analysetool oder eine andere Schnittstelle auf die Daten zugreifen.

Data Lakes speichern Daten in ihrem nativen Format. Dadurch kann ein Data Lake strukturierte, unstrukturierte und halbstrukturierte Daten auf derselben Datenplattform speichern.  

Data Lakes entstanden, um Unternehmen bei der Bewältigung der Flut von Big Data zu unterstützen, die durch das Web 2.0 und den Aufstieg von Cloud- und Mobile-Computing Ende der 2000er und Anfang der 2010er Jahre ausgelöst wurde. Unternehmen mussten mehr Daten als je zuvor verarbeiten, viele davon in unstrukturierten Formaten wie Freitext und Bilder, die in traditionellen Warehouses nur schwer verwaltet werden können.

Data Lake – Architektur 

Frühe Data Lakes wurden häufig auf dem verteilten Dateisystem Apache Hadoop (HDFS) erstellt. Moderne Data Lakes verwenden häufig einen Cloud-Objektspeicher wie Amazon Simple Storage Service (S3), Microsoft Azure Blob Storage oder IBM Cloud® Object Storage.

Data Lakes trennen die Datenspeicherung von den Rechenressourcen, was sie kostengünstiger und skalierbarer macht als Data Warehouses. Unternehmen können mehr Speicherplatz hinzufügen, ohne die Rechenressourcen entsprechend skalieren zu müssen. Cloud-Speicher unterstützt weitere Skalierbarkeit, da Unternehmen mehr Speicher bereitstellen können, ohne die On-Premises-Ressourcen zu erweitern.

Um Daten in einem Data Lake zu verarbeiten, können Benutzer externe Datenverarbeitungstools wie Apache Spark verbinden. Im Gegensatz zu einem Data Warehouse sind diese Verarbeitungstools nicht in den Lake integriert.

Anwendungsfälle für Data Lakes

Data Lakes sind eine beliebte Wahl für die allgemeine Datenspeicherung, da sie kostengünstig und skalierbar sind und Daten in jedem Format speichern können.

Unternehmen nutzen Data Lakes oft, um Backups zu verwalten und alte und ungenutzte Daten zu archivieren. Unternehmen können Lakes auch zur Speicherung aller eingehenden neuen Daten verwenden, einschließlich Daten ohne definierten Zweck. Die Daten können so lange im Lake bleiben, bis das Unternehmen eine Verwendung dafür hat.

Unternehmen verwenden Data Lakes auch, um Datensätze für ML-, KI- und Big-Data-Analyse-Workloads wie Datenerkennung, Modelltraining und experimentelle Analyseprojekte zu speichern.  

Herausforderungen bei Data Lakes

Da sie kein striktes Schema durchsetzen und keine integrierten Verarbeitungswerkzeuge haben, können Data Lakes mit der Data Governance und Datenqualität zu kämpfen haben. Sie sind auch weniger für die täglichen BI- und Datenanalyseaufgaben von Geschäftsanwendern geeignet.

Unternehmen benötigen oft separate Tools – wie einen umfassenden Datenkatalog und ein Metadaten-Managementsystem –, um Genauigkeit und Qualität zu gewährleisten. Ohne solche Tools können Data Lakes leicht zu Datensümpfen werden.

Hauptmerkmale von Data Lakehouses

Ein Data Lakehouse führt die Kernfunktionen von Data Lakes und Data Warehouses in einer Datenverwaltung zusammen. 

Wie ein Data Lake kann ein Data Lakehouse Daten in jedem Format – strukturiert, unstrukturiert oder semistrukturiert – zu geringen Kosten speichern. 

Wie ein Warehouse unterstützt ein Data Lakehouse schnelle Abfragen und optimierte Analysen.

Data-Lakehouse-Architektur

Ein Data Lakehouse kombiniert zuvor verteilte Technologien und Tools zu einer ganzheitlichen Lösung. Eine typische Lakehouse-Architektur umfasst die folgenden Schichten:

Aufnahmeschicht

Die Aufnahme-Schicht sammelt Batch- und Echtzeit-Streamingdaten aus einer Reihe von Quellen. Während Lakehouses ETL-Prozesse zum Erfassen von Daten verwenden können, verwenden viele Extrahieren, Laden und Transformieren (ELT). Das Lakehouse kann Rohdaten in den Speicher laden und sie später transformieren, wenn sie für die Analyse benötigt werden.

Speicherschicht

Die Speicherschicht ist in der Regel ein Cloud Object Storage, wie in einem Data Lake. 

Metadatenschicht

Die Metadatenschicht bietet einen einheitlichen Katalog von Metadaten für jedes Objekt in der Speicher-Schicht. Mit dieser Metadatenebene können Lakehouses viele Dinge tun, die Lakes nicht können: Daten für schnellere Abfragen indizieren, Schemata durchsetzen und Governance- und Qualitätskontrollen anwenden.

Schicht der Anwendungsprogrammierschnittstelle (API)

Die API-Ebene ermöglicht es Benutzern, Tools für erweiterte Analysen zu verbinden.

Nutzungsschicht

Die Nutzungsschicht beherbergt Client-Apps und Tools für BI, ML und andere datenwissenschaftliche und analytische Projekte.

Wie in einem Data Lake sind Computing- und Speicherressourcen getrennt, was Skalierbarkeit ermöglicht.

Data Lake hängen stark von Open-Source-Technologien ab. Datenformate wie Apache Parquet und Apache Iceberg ermöglichen es Unternehmen, Workloads frei zwischen Umgebungen zu verschieben. Delta Lake, eine Open-Source-Speicherebene, unterstützt Funktionen, die Benutzern bei der Durchführung von Analysen an Rohdatensätzen helfen, wie z. B. Versionierung und ACID-Transaktionen. „ACID“ ist die Abkürzung für Atomarität, Konsistenz, Isolation und Haltbarkeit; Schlüsseleigenschaften, die Integrität bei Datentransaktionen gewährleisten.

Unternehmen können ihre eigenen Lakehouses aus Einzelteilen bauen oder vorgefertigte Angebote wie Databricks, Snowflake oder IBM® watsonx.data™ nutzen.

Anwendungsfälle für Data Lakehouse

Data Lakehouses können Unternehmen dabei helfen, einige der Grenzen und Komplexitäten von Warehouses und Lakes zu überwinden.  

Da Data Warehouses und Lakes unterschiedlichen Zwecken dienen, implementieren viele Unternehmen beide in ihren Daten-Stacks. Das bedeutet jedoch, dass Benutzer zwei unterschiedliche Datensysteme verwenden müssen, insbesondere bei fortgeschritteneren Analyseprojekten. Dies kann zu ineffizienten Workflows, doppelten Daten, Herausforderungen bei der Verwaltung und anderen Problemen führen.

Lakehouses können zur Rationalisierung von Analysen beitragen, indem sie die Datenintegration unterstützen. Alle Daten, unabhängig von ihrem Typ, können im selben zentralen Speicher abgelegt werden, wodurch die Notwendigkeit von Duplikaten reduziert wird. Alle Arten von Geschäftsanwendern können Lakehouses für ihre Projekte nutzen, einschließlich BI, prädiktive Analysen, KI und ML.

Data Lakehouses können auch als Modernisierungsweg für bestehende Datenarchitekturen dienen. Da offene Lakehouse-Architekturen leicht an bestehende Lakes und Warehouses angepasst werden können, können Unternehmen mit der Umstellung auf neue integrierte Lösungen beginnen, ohne dass eine Unterbrechung erforderlich ist.

Herausforderungen im Zusammenhang mit Data Lakehouses

Während Lakehouses viele Daten-Workflows optimieren können, kann es kompliziert sein, ein solches in Betrieb zu nehmen. Benutzer müssen sich möglicherweise auch erst an die Nutzung eines Lakehouse gewöhnen, da sich diese von der Nutzung der ihnen vertrauten Warehouses unterscheiden kann. Lakehouses sind ebenfalls eine relativ neue Technologie und das Framework befindet sich noch in der Entwicklung.

Wie Data Warehouses, Data Lakes und Data Lakehouses in einer Datenarchitektur zusammenarbeiten

Data Warehouses, Data Lakes und Data Lakehouses erfüllen unterschiedliche Geschäfts- und Datenanforderungen. Viele Unternehmen nutzen zwei oder alle drei dieser Systeme in Kombination, um Datenpipelines zu optimieren und KI, ML und Analysen zu unterstützen.   

Betrachten Sie als Analogie eine Großküche. Jeden Tag erhält diese Küche Lieferungen von Zutaten (Daten), die auf Lkws (Transaktionsdatenbanken, Geschäftsanwendungen usw.) geliefert werden.  

Alle Zutaten, unabhängig von ihrer Art, landen auf der Laderampe (dem Data Lake). Die Zutaten werden verarbeitet und in Kühlschränke, Vorratskammern und andere Lagerbereiche (Data Warehouses) sortiert. Dort stehen die Zutaten den Köchen ohne weitere Verarbeitung zur Verfügung.  

Dieser Prozess ist recht effizient, bringt jedoch einige der Herausforderungen traditioneller Data Lakes und Data Warehouses mit sich. Wie Zutaten auf einem Ladedock können Daten in einem Data Lake nicht ohne weitere Verarbeitung verwendet werden. Wie Zutaten in der Küche müssen Daten in einem Data Warehouse richtig aufbereitet und an den richtigen Ort geliefert werden, bevor sie verwendet werden können.

Ein Data Lakehouse ist ein bisschen so, als würde man Laderampe, Speisekammer und Kühlschrank an einem Ort vereinen. Natürlich ist diese Kombination im Bereich der Großküchen unrealistisch. In der Welt der Unternehmensdaten versetzt es Unternehmen jedoch in die Lage, den gleichen Wert aus Daten zu ziehen und gleichzeitig die Verarbeitungskosten, Redundanzen und Datensilos zu reduzieren.

Schnelle Vergleiche und wichtige Unterschiede

Data Warehouse und Data Lake im Vergleich

  • In Data Warehouses werden bereinigte und verarbeitete Daten gespeichert, während in Data Lakes Rohdaten in ihrem nativen Format gespeichert werden. 

  • Data Warehouses verfügen über integrierte Analyse-Engines und Berichterstellungstools, während Data Lakes externe Tools für die Verarbeitung benötigen.

  • Data Lakes bieten eine kostengünstigere, flexible und skalierbare Speicherung. Data Warehouses bieten eine optimierte Abfrageleistung.

  • Warehouses eignen sich am besten zur Unterstützung der Business-Intelligence- und Datenanalyse-Bemühungen von Geschäftsanwendern. Data Lakes eignen sich am besten für Vorgänge, die große Datenmengen in verschiedenen Datenformaten erfordern, wie z. B. künstliche Intelligenz, maschinelles Lernen und Data Science. 

  • Warehouses unterstützen ACID-Transaktionen. Bei Data Lakes ist das nicht der Fall.

Data Warehouses und Data Lakehouses im Vergleich

  • Lakehouses und Warehouses verfügen über ähnliche Analyse- und Abfragefunktionen, aber Lakehouses können komplexe KI- und ML-Workloads besser unterstützen als Warehouses.

  • Lakehouses bieten günstigeren, flexiblen und skalierbaren Speicher für alle Arten von Daten. Warehouses unterstützen hauptsächlich strukturierte Daten.

  • Warehouses verwenden ETL, während Lakehouses ETL oder ELT verwenden können.

  • Lakehouses können Batch- und Streamingdaten verarbeiten. Warehouses arbeiten in Batches.  

Data Lakes vs. Data Lakehouses

  • Sowohl Data Lake als auch Lakehouses können große Datenmengen und verschiedene Datenstrukturen unterstützen. Beide verwenden ähnliche Datenspeichersysteme, in der Regel Cloud Object Storage. 

  • Data Lake wenden keine Schemata auf aufgenommene Daten an. Data Lakehouses bieten die Möglichkeit, Schemata anzuwenden.

  • Sowohl Data Lakes als auch Lakehouses können KI- und ML-Workloads unterstützen, aber Lakehouses bieten eine bessere Unterstützung für BI- und Datenanalyse-Bemühungen als Data Lakes.

  • Lakehouses verfügen über integrierte Analysetools oder sind eng mit Analyse-Frameworks verknüpft. Data Lake erfordern externe Tools zur Datenverarbeitung.  

  • Lakehouses verfügen über eine stärkere Data Governance, Integrität und Qualitätskontrollen als Data Lakes.  

  • Lakehouses unterstützen ACID-Transaktionen, Data Lakes jedoch nicht.

  • Data Lakes werden oft für die Stapelverarbeitung erstellt und unterstützen möglicherweise keine Streaming-Daten. Lakehouses können Batch- und Streaming-Daten unterstützen.

Weiterführende Lösungen
Software und Lösungen für die Datenverwaltung

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken