Startseite
Themen
Was ist ein Data Lakehouse?
Data Lakehouses versuchen, die zentralen Herausforderungen sowohl in Data Warehouses als auch in Data Lakes zu lösen, um eine idealere Datenverwaltungslösung für Unternehmen zu schaffen. Sie stellen die nächste Entwicklung von Datenverwaltungslösungen auf dem Markt dar.
Ein Data Lakehouse ist eine Datenplattform, die die besten Aspekte von Data Warehouses und Data Lakes in einer Datenverwaltungslösung vereint. Data Warehouses sind in der Regel leistungsfähiger als Data Lakes, aber sie können teurer und in ihrer Skalierbarkeit eingeschränkt sein. Ein Data Lakehouse versucht, dieses Problem zu lösen, indem es Cloud Object Storage nutzt, um ein breiteres Spektrum von Datentypen zu speichern, d. h. strukturierte Daten, unstrukturierte Daten und halbstrukturierte Daten. Durch die Zusammenführung dieser Vorteile in einer Datenarchitektur können Datenteams ihre Datenverarbeitung beschleunigen, da sie nicht mehr zwei verteilte Datensysteme verwenden müssen, um fortschrittlichere Analysen, wie z. B. maschinelles Lernen, durchzuführen und zu skalieren.
Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.
Da Data Lakehouses aus den Herausforderungen von Data Warehouses und Data Lakes entstanden sind, lohnt es sich, diese verschiedenen Datenrepositorys zu definieren und zu untersuchen, wie sie sich unterscheiden.
Ein Data Warehouse sammelt Rohdaten aus mehreren Quellen in einem zentralen Repository und organisiert sie in einer relationalen Datenbankinfrastruktur. Dieses Datenverwaltungssystem unterstützt in erster Linie Datenanalyse- und Business-Intelligence-Anwendungen, wie z. B. Berichterstellung in Unternehmen. Das System verwendet für das Extrahieren, das Konvertieren und das Laden der Daten am Ziel ETL-Prozesse. Allerdings ist diese Methode durch ihre Ineffizienz und ihre Kosten mit Einschränkungen verbunden, insbesondere wenn die Anzahl der Datenquellen und die Datenmenge im Laufe der Zeit zunehmen.
Data Lakes werden üblicherweise auf Big-Data-Plattformen wie Apache Hadoop erstellt. Sie sind für ihre niedrigen Kosten und ihre Speicherflexibilität bekannt, da sie nicht über die vordefinierten Schemata herkömmlicher Data Warehouses verfügen. Sie enthalten auch verschiedene Arten von Daten, wie Audio, Video und Text. Da Datenproduzenten größtenteils unstrukturierte Daten generieren, ist dies eine wichtige Unterscheidung, weil dadurch auch mehr Projekte im Bereich Data Science und künstliche Intelligenz (KI) realisiert werden können, was wiederum zu neuartigeren Erkenntnissen und einer besseren Entscheidungsfindung im gesamten Unternehmen führt. Allerdings sind Data Lakes ebenfalls mit eigenen Herausforderungen verbunden. Aufgrund ihrer Größe und Komplexität können Data Lakes mehr technische Ressourcen wie Data Scientists und Data Engineers erfordern, um die darin gespeicherten Datenmengen zu bewältigen. Da Data Governance in diesen Systemen eher nachgelagert implementiert wird, neigen Data Lakes außerdem eher dazu, mehr Datensilos zu bilden, die sich anschließend zu einem Datensumpf entwickeln können. In solch einem Fall kann der Data Lake unbrauchbar werden.
Data Lakes und Data Warehouses werden in der Regel zusammen verwendet. Data Lakes fungieren als Auffangsystem für neue Daten und Data Warehouses wenden eine nachgelagerte Struktur auf bestimmte Daten aus diesem System an. Die Koordinierung dieser Systeme zur Bereitstellung zuverlässiger Daten kann jedoch sowohl zeit- als auch ressourcenintensiv sein. Lange Verarbeitungszeiten haben zur Folge, dass die Daten veralten, und zusätzliche ETL-Ebenen erhöhen das Risiko für eine Verschlechterung der Datenqualität.
Das Data Lakehouse optimiert die Fehler in Data Warehouses und Data Lakes, um ein besseres Datenverwaltungssystem zu bilden. Es bietet Unternehmen einen schnellen und kostengünstigen Speicher für ihre Unternehmensdaten und ist gleichzeitig flexibel genug, um sowohl Datenanalysen als auch Workloads für maschinelles Lernen zu unterstützen.
Wie bereits erwähnt, kombinieren Data Lakehouses die besten Funktionen von Data Warehousing mit den optimalsten Funktionen von Data Lakes. Dabei werden ähnliche Datenstrukturen wie in Data Warehouses genutzt und mit der kostengünstigen Speicherung und Flexibilität von Data Lakes kombiniert. So können Unternehmen Big Data schneller und effizienter speichern und darauf zugreifen und gleichzeitig potenzielle Probleme mit der Datenqualität abmildern. Es werden verschiedene Datensätze unterstützt, d. h. sowohl strukturierte als auch unstrukturierte Daten, wodurch die Anforderungen von Business Intelligence und Data Science erfüllt werden. Dabei werden in der Regel Programmiersprachen wie Python, R und hochleistungsfähiges SQL unterstützt.
Data Lakehouses unterstützen auch AKID-Transaktionen bei größeren Daten-Workloads. AKID steht für Atomarität, Konsistenz, Isolation und Dauerhaftigkeit. All dies sind Schlüsseleigenschaften, die eine Transaktion definieren, um die Datenintegrität sicherzustellen. Atomarität lässt sich so definieren, dass alle Änderungen an Daten so ausgeführt werden, als wären sie ein einziger Vorgang. Man spricht von Konsistenz, wenn sich die Daten zu Beginn und am Ende einer Transaktion in einem konsistenten, also einheitlichen, Zustand befinden. Die Isolation bezieht sich auf den Zwischenzustand der Transaktion, der für andere Transaktionen unsichtbar ist. Dies hat zur Folge, dass Transaktionen, die gleichzeitig ausgeführt werden, seriell zu sein scheinen. Dauerhaftigkeit bedeutet, dass nach erfolgreichem Abschluss einer Transaktion Änderungen an Daten bestehen bleiben und auch bei einem Systemausfall nicht rückgängig gemacht werden. Dieses Merkmal ist entscheidend für die Sicherstellung der Datenkonsistenz, da mehrere Benutzer gleichzeitig Daten lesen und schreiben.
Ein Data Lakehouse besteht in der Regel aus fünf Schichten: Aufnahmeschicht, Speicherschicht, Metadatenschicht, API-Schicht und Nutzungsschicht. Diese Schichten bilden das architektonische Muster von Data Lakehouses.
Diese erste Schicht sammelt Daten aus verschiedenen Quellen und wandelt sie in ein Format um, das in einem Lakehouse gespeichert und analysiert werden kann. Die Aufnahmeschicht kann Protokolle verwenden, um sich mit internen und externen Quellen wie Datenbankmanagementsystemen, NoSQL-Datenbanken, sozialen Medien und anderen zu verbinden. Wie der Name schon sagt, ist diese Schicht für die Aufnahme von Daten verantwortlich.
In dieser Schicht werden die strukturierten, unstrukturierten und halbstrukturierten Daten in Open-Source-Dateiformaten wie Parquet oder Optimized Row Columnar (ORC) gespeichert. Der eigentliche Vorteil eines Lakehouse ist die Fähigkeit des Systems, alle Datentypen zu erschwinglichen Kosten zu akzeptieren.
Die Metadatenschicht bildet das Fundament des Data Lakehouse. Es handelt sich hierbei um einen einheitlichen Katalog, der Metadaten für jedes Objekt im Lake-Speicher bereitstellt und dabei hilft, die Daten im System zu organisieren und Informationen darüber zur Verfügung zu stellen. Diese Schicht bietet Benutzern auch die Möglichkeit, Verwaltungsfunktionen wie AKID-Transaktionen, Datei-Caching und Indizierung für schnellere Abfragen zu nutzen. Benutzer können innerhalb dieser Schicht vordefinierte Schemata implementieren, die Data Governance und Auditing-Funktionen ermöglichen.
Ein Data Lakehouse verwendet APIs, um die Aufgabenverarbeitung zu verbessern und fortschrittlichere Analysen durchzuführen. Insbesondere bietet diese Schicht Verbrauchern und/oder Entwicklern die Möglichkeit, eine Reihe von Sprachen und Bibliotheken, wie TensorFlow, auf einer abstrakten Ebene zu verwenden. Die APIs sind für die Nutzung von Datenassets optimiert.
Diese letzte Ebene der Data-Lakehouse-Architektur hostet Client-Apps und -Tools, sodass sie Zugriff auf alle im Lake gespeicherten Metadaten und Daten hat. Benutzer in einem Unternehmen können das Lakehouse nutzen und analytische Aufgaben wie Business-Intelligence-Dashboards, Datenvisualisierung und andere Aufgaben des maschinellen Lernens ausführen.
Da ein Data Lakehouse so konzipiert, dass es die besten Merkmale eines Data Warehouse und eines Data Lakes vereint, bietet es seinen Benutzern spezifische wichtige Vorteile. Dazu gehören:
Skalieren Sie KI-Workloads standortunabhängig für alle Ihre Daten. IBM watsonx.data ist der branchenweit einzige offene Datenspeicher, der es Ihnen ermöglicht, mehrere Abfrage-Engines zu nutzen, um geregelte Workloads auszuführen, unabhängig davon, wo sie sich befinden. Das führt zu einer maximalen Ressourcennutzung und geringeren Kosten.
Dank jahrzehntelanger Innovation in den Bereichen Datensicherheit, Skalierbarkeit und Verfügbarkeit sind Ihre Anwendungen und Analysen mit IBM Db2 überall geschützt, hochleistungsfähig und resilient.
Das fortschrittliche cloudnative Data Warehouse wurde für einheitliche, skalierbare Analysen und Erkenntnisse entwickelt, die überall verfügbar sind. Mit granularer, elastischer Skalierung und Pausen- und Fortsetzungsfunktionen bietet Netezza Performance Server Kosten- und Ressourcenkontrolle für Unternehmen im großen Maßstab.
Nach Ansicht von IBM Research bietet der einheitliche Ansatz von Data Lakehouses eine einzigartige Gelegenheit für ein einheitliches Management der Datenresilienz.
Die Lösungen von IBM bieten Funktionen, die die Herausforderungen der Analyseumgebung lösen. Erfahren Sie, warum IBM als führender Anbieter im Bereich Datenverwaltung für Analyselösungen angesehen wird.
Verstehen Sie, wie diese drei Konzepte zueinander führen oder miteinander verwendet werden können.
Erfahren Sie mehr über die schnelle und flexible Open-Source-Abfrage-Engine, die mit der offenen Data Lakehouse-Architektur von watsonx.data verfügbar ist.
1 Lakehouse: A New Generation of Open Platforms that Unify
Data Warehousing and Advanced Analytics (Link befindet sich außerhalb von ibm.com), Stanford, 2021