Data Lakehouse-Architektur und -Vorteile

Überblick

Ein Data Lakehouse ist eine Datenplattform, welche die besten Aspekte von Data Warehouses und Data Lakes in einer Datenverwaltungslösung vereint.

IBMs Data Lakehouse und Governance-Architektur für hybride Cloud-Umgebungen basieren auf der watsonx.data-Plattform. Diese Plattform ermöglicht es Unternehmen, Analysen und KI zu skalieren und bietet einen robusten Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert. Die Architektur verbindet die Leistungs- und Benutzerfreundlichkeitsattribute eines Data Warehouse mit der Flexibilität und Skalierbarkeit eines Data Lake und bietet so eine ausgewogene Lösung für Datenverwaltungs- und Analyseaufgaben.

Bereitstellung

Die watsonx.data-Plattform wird sowohl als SaaS-Angebot als auch als On-Premises-Lösung angeboten. Für Kunden in einer Region, in der es kein SaaS-Angebot gibt, oder für Kunden, die die Lakehouse-Plattform aufgrund gesetzlicher oder sonstiger Beschränkungen weiterhin lokal nutzen möchten, bietet IBM mit den folgenden Bereitstellungsoptionen Flexibilität, um Data-Lakehouse-Funktionen überall zu ermöglichen:

Bereitstellung von watsonx.data SaaS auf IBM Cloud oder AWS
Bereitstellung von watsonx.data als Standalone-Lösung auf OpenShift im On-Prem-Prinzip oder anderen Hyperscalern mit Managed OpenShift
Bereitstellung von watsonx.data als Teil des IBM CloudPak for Data (CP4D)-Clusters.

Bereitstellung von watsonx.data als Teil des IBM CloudPak for Data (CP4D)-Cluster-Workflow-Diagramms

Eine Data-Lakehouse-Architektur, die die Verwendung mehrerer zweckmäßiger Abfrage-Engines ermöglicht und gleichzeitig den Zugriff auf dieselben Daten über alle Engines hinweg bietet

Datenquellen – Dazu gehören sowohl strukturierte Daten aus Datenbanken und Anwendungen als auch unstrukturierte Daten aus Dateien, sozialen Medien, IoT-Geräten usw. sowie Data Warehouses von Unternehmen und andere unstrukturierte Datenspeicher, sowohl von On-Prem-Anwendungen der Kunden als auch SaaS.
Kundenanwendungen – Kunden haben möglicherweise On-Premises- oder SaaS-Anwendungen mit eigenen Datenspeichern (strukturiert und unstrukturiert), deren Daten sich möglicherweise nicht im Data Lake befinden, und möchten diese Daten zur einfachen Abfrage in das Lakehouse bringen.
Data Lakehouse – watsonx.data ist die Datenspeicherarchitektur der nächsten Generation, welche die Fähigkeiten von Data Lakes und Data Warehouses in sich vereint. Dies ist die Grundlage für den Data Lakehouse-Ansatz von IBM, der die Skalierung von KI- und ML-Workloads erleichtert und gleichzeitig eine effiziente Datenverwaltung gewährleistet.
GENai-Plattform – Das Data Lakehouse kann optional mit einer GenAI-Plattform verbunden werden, um Abfragen mit LLMs zu ergänzen. Benutzer können einen Prompt eingeben, der an ein fein abgestimmtes LLM gesendet wird, um Abfragen zu generieren, die von den im Data Lakehouse unterstützten Engines ausgeführt werden können.

Lakehouse-Muster

Lakehouse-Muster 1: Mehrere zweckorientierte Abfrage-Engines

Nutzen Sie die zweckgebundene Datenverarbeitung, um die Kosten zu optimieren, indem Sie die richtige Engine für die richtige Workload einsetzen und gleichzeitig Daten und Metadaten zwischen allen Engines, einem gemeinsamen Metaspeicher (d. h. Data Catalog) und derselben Umgebung gemeinsam nutzen.

Ablaufdiagramm mehrerer zweckorientierter Abfrage-Engines

Eine Data-Lakehouse-Architektur, die die Verwendung mehrerer Abfrage-Engines zur Optimierung von Kosten und Leistung ermöglicht.

Lakehouse-Muster 2: Eine zentrale Oberfläche für alle Ihre Daten

Ein Data Lakehouse ermöglicht einen modernen Ansatz für aktuelle Datenarchitekturen, in denen Unternehmen im Laufe der Jahre mehrere Silos von Datenspeichern aufgebaut haben, um unterschiedlichen Anforderungen gerecht zu werden – von strukturierten, hochleistungsfähigen Enterprise Data Warehouses (EDW) bis hin zu hochvolumigen, unstrukturierten/halbstrukturierten Data Lakes, die sich meist in einen Datensumpf verwandeln (Duplizierung, Datenqualität, fehlende Governance). Ein Data Lakehouse mit watsonx.data ermöglicht eine zentrale Zugriffsebene auf eine Vielzahl von Datenspeichern durch mehrere Abfrage-Engines, offene Datenformate und Governance, ohne die Notwendigkeit von Datenbewegungen.

Eine Single Pane of Glass für alle Ihre Daten, ohne dass Sie Daten verschieben müssen.

Eine Data-Lakehouse-Architektur, die eine einzige Zugriffsebene (Single Pane of Glass) für alle Datenspeicher eines Unternehmens bietet, einschließlich Object Storage, relationale Daten und Data Lakes.

Lakehouse-Muster 3: Optimierung von Data Warehouse-Workloads zur Kostenoptimierung

Reduzieren Sie die Kosten für die Datenspeicherung und behalten Sie gleichzeitig die zeitlichen Abfragemöglichkeiten bei, indem Sie die günstigen Speicher- und Rechenkapazitäten von Lakehouse nutzen und mehreren Abfrage-Engines die Verwendung desselben Datensatzes ermöglichen. Abfrage-Engines wie Spark ermöglichen die Durchführung von vakuumierten/materialisierten Abfragen von Daten in ihrem aktuellen Zustand (z. B. nicht alle Datenänderungen in der Vergangenheit), was die Größe der Datenabfrage und die Kosten für die Abfrageberechnung reduziert. Darüber hinaus ermöglichen die Vorverarbeitungs- und selektiven Transformationsfunktionen im Lakehouse eine optimale Verteilung der Data-Warehouse-Workloads und senken so die Kosten.

Optimieren Sie Data Warehouse-Workloads, um die Kosten zu optimieren, reduzieren Sie die Warehousing-Kosten und behalten Sie gleichzeitig die zeitlichen Abfragefunktionen bei, indem Sie

Eine Data-Lakehouse-Architektur zur Minimierung der Data-Warehouse-Kosten und zur Optimierung der Leistung von Warehouse-Abfragen.

Lakehouse-Muster 4: Hybride Multi-Cloud-Bereitstellung

Greifen Sie aus der Ferne über eine Hybrid Cloud auf Daten zu und nutzen Sie die Möglichkeit zur Zwischenspeicherung dezentraler Quellen.

Eine Data-Lakehouse-Architektur zur Integration von On-Premise- und On-Cloud-Daten über mehrere Anbieter hinweg.

Lakehouse-Muster 5: Integration von Mainframe-Daten in das analytische Ökosystem

Synchronisieren und integrieren Sie Db2 for z/OS-Daten für Lakehouse-Analysen und führen Sie Echtzeit-Analysen auf dem Mainframe mit VSAM- und Db2-Daten durch. Bei der Datenvirtualisierung werden die Daten immer direkt vom Mainframe abgefragt, wobei zusätzliche Belastungen in Betracht gezogen werden. Gleichzeitig erfasst CDC die Informationen im Eisbergformat, das auf der von der Verwaltung festgelegten Häufigkeit basiert (was Ihren Mainframe nicht zusätzlich belastet, aber auch keine Echtzeitdaten liefert).

Synchronisieren und integrieren Sie Db2 for z/OS-Daten für Lakehouse-Analysen und führen Sie Echtzeitanalysen auf Mainframe von VSAM- und Db2-Daten durch

Eine Data-Lakehouse-Architektur, die ein Data Gateway und Datenvirtualisierung verwendet, um Mainframe-Daten mit Daten zu integrieren, die nicht aus dem Mainframe stammen.

Weitere Lakehouse-Anwendungsfälle

Speicherebene für neue Datenbestände: Moderne Anwendungen stützen sich häufig auf neue Datensätze und fortschrittliche Datenverarbeitungstechniken, um effizientere, skalierbare und datengesteuerte Dienste anzubieten. Data Lakehouse kann die erforderliche Daten-/Speicherebene, Integration, Leistung, Skalierbarkeit und Kosteneffizienz bieten..
Natürlichsprachliche Datenabfragen und Antworten: In Verbindung mit generativer KI und LLM-Funktionen (watsonx.ai) ermöglicht das Data Lakehouse (watsonx.data) Analysten, die die technische Struktur der Informationen nicht kennen und kein SQL beherrschen, mithilfe natürlichsprachlicher Abfragen eine Queranalyse der verschiedenen Datenspeicher durchzuführen und Antworten vom LLM zu erhalten.

Architekturentscheidungen

Auswahl der Abfrage-Engine

Die Auswahl der zu verwendenden Abfrage-Engine hängt im Allgemeinen von der Art der Daten ab, die abgefragt werden sollen.

Die Presto-Abfrage-Engine eignet sich am besten für die Verwendung mit Hive- und Parquet-Tabellen/-Buckets.
Die Spark-Abfrage-Engine eignet sich am besten, wenn SCALA-Codierung innerhalb einer bestehenden Hadoop/Cloudera-Umgebung verwendet wird.
Die DB2-Abfrageengine eignet sich am besten für die Verwendung mit DB2-Datenspeichern.
Die Netezza-Abfrage-Engine eignet sich am besten für die Abfrage des Netezza Data Warehouse.

Eigenschaften eines Data Lakehouse

Datenverwaltung: Die Sicherstellung, dass das Data Lakehouse als Single-Source-of-Truth (SSOT) dient, ist ein entscheidender Faktor für die Konsistenz und Zuverlässigkeit der Analyse und Entscheidungsfindung.
Datenintegration: Die Integration von Daten aus verschiedenen Quellen und in verschiedenen Formaten sollte nahtlos und mit Unterstützung für die Echtzeit- und Batch-Datenaufnahme erfolgen.
Abfrageleistung: Optimierte Abfrageleistung zur Unterstützung von Analyse- und Berichtsanforderungen in Übereinstimmung mit den SLAs/SLOs des Unternehmens.
Data Governance: Erfolgreiche Implementierungen eines Data Lakehouse erfordern ein tragfähiges Framework für die Data Governance, um die Datenqualität, die Verwaltung von Metadaten und die Nachverfolgung der Datenabstammung sicherzustellen.
Sicherheit: Stellen Sie Datenverschlüsselung, Zugriffskontrolle und Prüfprotokolle sicher, um die organisatorischen und gesetzlichen Anforderungen zu erfüllen.
Flexibilität bei der Bereitstellung: Die Unterstützung von On-Premises-, Hybrid- und Multi-Cloud-Implementierungen bietet Flexibilität und hilft bei der Optimierung von Kosten und Leistung.
Datensensibilität: Sorgen Sie für eine einfache Datenverschiebung in verschiedenen Umgebungen bei gleichzeitiger Wahrung der Datenkonsistenz und -integrität.
Überwachung und Verwaltung: Implementieren Sie Überwachungs-, Protokollierungs- und Verwaltungstools, um einen Überblick über Datenbewegungen, Zeiten und Raten der Jobausführung und Leistungsoptimierung zu erhalten.