Was ist ein Data Lakehouse?

Data Lakehouses versuchen, die zentralen Herausforderungen sowohl in Data Warehouses als auch in Data Lakes zu lösen, um eine idealere Datenverwaltungslösung für Unternehmen zu schaffen. Sie stellen die nächste Entwicklung von Datenverwaltungslösungen auf dem Markt dar.

Ein Data Lakehouse ist eine Datenplattform, die die besten Aspekte von Data Warehouses und Data Lakes in einer Datenverwaltungslösung vereint. Data Warehouses sind in der Regel leistungsfähiger als Data Lakes, aber sie können teurer und in ihrer Skalierbarkeit eingeschränkt sein. Ein Data Lakehouse versucht, dieses Problem zu lösen, indem es Cloud Object Storage nutzt, um ein breiteres Spektrum von Datentypen zu speichern, d. h. strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten. Durch die Zusammenführung dieser Vorteile in einer Datenarchitektur können Datenteams ihre Datenverarbeitung beschleunigen, da sie nicht mehr zwei verteilte Datensysteme verwenden müssen, um fortschrittlichere Analysen, wie z. B. maschinelles Lernen, durchzuführen und zu skalieren.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung künstlicher Intelligenz im Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book über verantwortungsvolle KI-Workflows

Data Warehouse, Data Lake und Data Lakehouse im Vergleich

Da Data Lakehouses aus den Herausforderungen von Data Warehouses und Data Lakes entstanden sind, lohnt es sich, diese verschiedenen Datenrepositorys zu definieren und zu untersuchen, wie sie sich unterscheiden.

Data Warehouse

Ein Data Warehouse sammelt Rohdaten aus mehreren Quellen in einem zentralen Repository und organisiert sie in einer relationalen Datenbankinfrastruktur. Dieses Datenverwaltungssystem unterstützt in erster Linie Datenanalyse- und Business-Intelligence-Anwendungen, wie z. B. Berichterstellung in Unternehmen. Das System verwendet für das Extrahieren, das Konvertieren und das Laden der Daten am Ziel ETL-Prozesse. Allerdings ist diese Methode durch ihre Ineffizienz und ihre Kosten mit Einschränkungen verbunden, insbesondere wenn die Anzahl der Datenquellen und die Datenmenge im Laufe der Zeit zunehmen.

Data Lake

Data Lakes werden üblicherweise auf Big-Data-Plattformen wie Apache Hadoop erstellt. Sie sind für ihre niedrigen Kosten und ihre Speicherflexibilität bekannt, da sie nicht über die vordefinierten Schemata herkömmlicher Data Warehouses verfügen. Sie enthalten auch verschiedene Arten von Daten, wie Audio, Video und Text. Da Datenproduzenten größtenteils unstrukturierte Daten generieren, ist dies eine wichtige Unterscheidung, weil dadurch auch mehr Projekte im Bereich Data Science und künstliche Intelligenz (KI) realisiert werden können, was wiederum zu neuartigeren Erkenntnissen und einer besseren Entscheidungsfindung im gesamten Unternehmen führt. Allerdings sind Data Lakes ebenfalls mit eigenen Herausforderungen verbunden. Aufgrund ihrer Größe und Komplexität können Data Lakes mehr technische Ressourcen wie Data Scientists und Data Engineers erfordern, um die darin gespeicherten Datenmengen zu bewältigen. Da Data Governance in diesen Systemen eher nachgelagert implementiert wird, neigen Data Lakes außerdem eher dazu, mehr Datensilos zu bilden, die sich anschließend zu einem Datensumpf entwickeln können. In solch einem Fall kann der Data Lake unbrauchbar werden.

Data Lakes und Data Warehouses werden in der Regel zusammen verwendet. Data Lakes fungieren als Auffangsystem für neue Daten und Data Warehouses wenden eine nachgelagerte Struktur auf bestimmte Daten aus diesem System an. Die Koordinierung dieser Systeme zur Bereitstellung zuverlässiger Daten kann jedoch sowohl zeit- als auch ressourcenintensiv sein. Lange Verarbeitungszeiten haben zur Folge, dass die Daten veralten, und zusätzliche ETL-Ebenen erhöhen das Risiko für eine Verschlechterung der Datenqualität.

Data Lakehouse

Das Data Lakehouse optimiert die Fehler in Data Warehouses und Data Lakes, um ein besseres Datenverwaltungssystem zu bilden. Es bietet Unternehmen einen schnellen und kostengünstigen Speicher für ihre Unternehmensdaten und ist gleichzeitig flexibel genug, um sowohl Datenanalysen als auch Workloads für maschinelles Lernen zu unterstützen.

Weiterführende Lösungen

Lösungen für die Datenverwaltung

Data-Lake-Lösungen

Hauptmerkmale eines Data Lakehouse

Wie bereits erwähnt, kombinieren Data Lakehouses die besten Funktionen von Data Warehousing mit den optimalsten Funktionen von Data Lakes. Dabei werden ähnliche Datenstrukturen wie in Data Warehouses genutzt und mit der kostengünstigen Speicherung und Flexibilität von Data Lakes kombiniert. So können Unternehmen Big Data schneller und effizienter speichern und darauf zugreifen und gleichzeitig potenzielle Probleme mit der Datenqualität abmildern. Es werden verschiedene Datensätze unterstützt, d. h. sowohl strukturierte als auch unstrukturierte Daten, wodurch die Anforderungen von Business Intelligence und Data Science erfüllt werden. Dabei werden in der Regel Programmiersprachen wie Python, R und hochleistungsfähiges SQL unterstützt.

Data Lakehouses unterstützen auch AKID-Transaktionen bei größeren Daten-Workloads. AKID steht für Atomarität, Konsistenz, Isolation und Dauerhaftigkeit. All dies sind Schlüsseleigenschaften, die eine Transaktion definieren, um die Datenintegrität sicherzustellen. Atomarität lässt sich so definieren, dass alle Änderungen an Daten so ausgeführt werden, als wären sie ein einziger Vorgang. Man spricht von Konsistenz, wenn sich die Daten zu Beginn und am Ende einer Transaktion in einem konsistenten, also einheitlichen, Zustand befinden. Die Isolation bezieht sich auf den Zwischenzustand der Transaktion, der für andere Transaktionen unsichtbar ist. Dies hat zur Folge, dass Transaktionen, die gleichzeitig ausgeführt werden, seriell zu sein scheinen. Dauerhaftigkeit bedeutet, dass nach erfolgreichem Abschluss einer Transaktion Änderungen an Daten bestehen bleiben und auch bei einem Systemausfall nicht rückgängig gemacht werden. Dieses Merkmal ist entscheidend für die Sicherstellung der Datenkonsistenz, da mehrere Benutzer gleichzeitig Daten lesen und schreiben.

Data-Lakehouse-Architektur

Ein Data Lakehouse besteht in der Regel aus fünf Schichten: Aufnahmeschicht, Speicherschicht, Metadatenschicht, API-Schicht und Nutzungsschicht. Diese Schichten bilden das architektonische Muster von Data Lakehouses.

Aufnahmeschicht

Diese erste Schicht sammelt Daten aus verschiedenen Quellen und wandelt sie in ein Format um, das in einem Lakehouse gespeichert und analysiert werden kann. Die Aufnahmeschicht kann Protokolle verwenden, um sich mit internen und externen Quellen wie Datenbankmanagementsystemen, NoSQL-Datenbanken, sozialen Medien und anderen zu verbinden. Wie der Name schon sagt, ist diese Schicht für die Aufnahme von Daten verantwortlich.

Speicherschicht

In dieser Schicht werden die strukturierten, unstrukturierten und halbstrukturierten Daten in Open-Source-Dateiformaten wie Parquet oder Optimized Row Columnar (ORC) gespeichert. Der eigentliche Vorteil eines Lakehouse ist die Fähigkeit des Systems, alle Datentypen zu erschwinglichen Kosten zu akzeptieren.

Metadatenschicht

Die Metadatenschicht bildet das Fundament des Data Lakehouse. Es handelt sich hierbei um einen einheitlichen Katalog, der Metadaten für jedes Objekt im Lake-Speicher bereitstellt und dabei hilft, die Daten im System zu organisieren und Informationen darüber zur Verfügung zu stellen. Diese Schicht bietet Benutzern auch die Möglichkeit, Verwaltungsfunktionen wie AKID-Transaktionen, Datei-Caching und Indizierung für schnellere Abfragen zu nutzen. Benutzer können innerhalb dieser Schicht vordefinierte Schemata implementieren, die Data Governance und Auditing-Funktionen ermöglichen.

API-Schicht

Ein Data Lakehouse verwendet APIs, um die Aufgabenverarbeitung zu verbessern und fortschrittlichere Analysen durchzuführen. Insbesondere bietet diese Schicht Verbrauchern und/oder Entwicklern die Möglichkeit, eine Reihe von Sprachen und Bibliotheken, wie TensorFlow, auf einer abstrakten Ebene zu verwenden. Die APIs sind für die Nutzung von Datenassets optimiert.

Datennutzungsschicht

Diese letzte Ebene der Data-Lakehouse-Architektur hostet Client-Apps und -Tools, sodass sie Zugriff auf alle im Lake gespeicherten Metadaten und Daten hat. Benutzer in einem Unternehmen können das Lakehouse nutzen und analytische Aufgaben wie Business-Intelligence-Dashboards, Datenvisualisierung und andere Aufgaben des maschinellen Lernens ausführen.

Vorteile eines Data Lakehouse

Da ein Data Lakehouse so konzipiert, dass es die besten Merkmale eines Data Warehouse und eines Data Lakes vereint, bietet es seinen Benutzern spezifische wichtige Vorteile. Dazu gehören:

Reduzierte Datenredundanz: Das zentrale Datenspeichersystem sorgt für eine optimierte Plattform, um alle Anforderungen an die Geschäftsdaten zu erfüllen. Data Lakehouses vereinfachen auch die Daten-Observability, indem sie die Datenmenge reduzieren, die durch die Datenpipelines in mehrere Systeme übertragen werden.
Kostengünstig: Da Data Lakehouses von den niedrigeren Kosten für Cloud Object Storage profitieren, sind die Betriebskosten eines Data Lakehouses vergleichsweise geringer als bei Data Warehouses. Außerdem macht die Hybridarchitektur eines Data Lakehouse die Wartung mehrerer Datenspeichersysteme überflüssig, wodurch der Betrieb kostengünstiger wird.
Unterstützung einer Vielzahl von Workloads: Data Lakehouses können unterschiedliche Anwendungsfälle im gesamten Lebenszyklus der Datenverwaltung angehen. Sie können darüber hinaus sowohl Business-Intelligence- und Datenvisualisierungs-Workstreams als auch komplexere Data-Science-Workstreams unterstützen.
Bessere Verwaltung: Die Data-Lakehouse-Architektur reduziert die üblichen Governance-Probleme, die mit Data Lakes einhergehen. So lässt sich beispielsweise bei der Aufnahme und beim Hochladen von Daten sicherstellen, dass die Daten den definierten Schemaanforderungen entsprechen, wodurch spätere Datenqualitätsprobleme reduziert werden.
Mehr Skalierbarkeit: In traditionellen Data Warehouses waren Computing und Speicherplatz miteinander gekoppelt, wodurch die Betriebskosten in die Höhe getrieben wurden. Data Lakehouses trennen Speicher und Computing, sodass Datenteams auf denselben Datenspeicher zugreifen und gleichzeitig verschiedene Computing-Knoten für unterschiedliche Anwendungen nutzen können. Dies führt zu mehr Skalierbarkeit und Flexibilität.
Streaming-Unterstützung: Das Data Lakehouse wurde für moderne Unternehmen und Technologien entwickelt und viele Datenquellen nutzen Echtzeit-Streaming direkt von Geräten. Das Lakehouse-System unterstützt diese Echtzeitaufnahme, deren Beliebtheit in Zukunft noch zunehmen wird.

Weiterführende Produkte

Data Lakehouse

IBM watsonx.data

Skalieren Sie KI-Workloads standortunabhängig für alle Ihre Daten. IBM watsonx.data ist der branchenweit einzige offene Datenspeicher, der es Ihnen ermöglicht, mehrere Abfrage-Engines zu nutzen, um geregelte Workloads auszuführen, unabhängig davon, wo sie sich befinden. Das führt zu einer maximalen Ressourcennutzung und geringeren Kosten.

IBM watsonx.data entdecken

Sehen Sie sich die interaktive Demo an

Datenmanagement

IBM Db2

Dank jahrzehntelanger Innovation in den Bereichen Datensicherheit, Skalierbarkeit und Verfügbarkeit sind Ihre Anwendungen und Analysen mit IBM Db2 überall geschützt, hochleistungsfähig und resilient.

IBM Db2 kennenlernen

Datenmanagement

Netezza Performance Server

Das fortschrittliche cloudnative Data Warehouse wurde für einheitliche, skalierbare Analysen und Erkenntnisse entwickelt, die überall verfügbar sind. Mit granularer, elastischer Skalierung und Pausen- und Fortsetzungsfunktionen bietet Netezza Performance Server Kosten- und Ressourcenkontrolle für Unternehmen im großen Maßstab.

Netezza Performance Server kennenlernen

Data-Lakehouse-Ressourcen

AIOps ist für ein einheitliches Resilienzmanagement in Data Lakehouses unerlässlich

Nach Ansicht von IBM Research bietet der einheitliche Ansatz von Data Lakehouses eine einzigartige Gelegenheit für ein einheitliches Management der Datenresilienz.

The Forrester Wave™: Data Management for Analytics, Q1 2023

Die Lösungen von IBM bieten Funktionen, die die Herausforderungen der Analyseumgebung lösen. Erfahren Sie, warum IBM als führender Anbieter im Bereich Datenverwaltung für Analyselösungen angesehen wird.

Die Dreifaltigkeit der Datenplattform: Wettbewerbsfähig oder ergänzend?

Verstehen Sie, wie diese drei Konzepte zueinander führen oder miteinander verwendet werden können.

Presto-Grundlagen: Was ist Presto?

Erfahren Sie mehr über die schnelle und flexible Open-Source-Abfrage-Engine, die mit der offenen Data Lakehouse-Architektur von watsonx.data verfügbar ist.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo

Fußnoten

¹ Lakehouse: A New Generation of Open Platforms that Unify
Data Warehousing and Advanced Analytics (Link befindet sich außerhalb von ibm.com), Stanford, 2021