Ein Data Lakehouse ist eine Datenplattform, welche die besten Aspekte von Data Warehouses und Data Lakes in einer Datenverwaltungslösung vereint.
IBMs Data Lakehouse und Governance-Architektur für hybride Cloud-Umgebungen basieren auf der watsonx.data-Plattform. Diese Plattform ermöglicht es Unternehmen, Analysen und KI zu skalieren und bietet einen robusten Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert. Die Architektur verbindet die Leistungs- und Benutzerfreundlichkeitsattribute eines Data Warehouse mit der Flexibilität und Skalierbarkeit eines Data Lake und bietet so eine ausgewogene Lösung für Datenverwaltungs- und Analyseaufgaben.
Die watsonx.data-Plattform wird sowohl als SaaS-Angebot als auch als On-Premises-Lösung angeboten. Für Kunden in einer Region, in der es kein SaaS-Angebot gibt, oder für Kunden, die die Lakehouse-Plattform aufgrund gesetzlicher oder sonstiger Beschränkungen weiterhin lokal nutzen möchten, bietet IBM mit den folgenden Bereitstellungsoptionen Flexibilität, um Data-Lakehouse-Funktionen überall zu ermöglichen:
Data Lakehouse – watsonx.data ist die Datenspeicherarchitektur der nächsten Generation, welche die Fähigkeiten von Data Lakes und Data Warehouses in sich vereint. Dies ist die Grundlage für den Data Lakehouse-Ansatz von IBM, der die Skalierung von KI- und ML-Workloads erleichtert und gleichzeitig eine effiziente Datenverwaltung gewährleistet.
GENai-Plattform – Das Data Lakehouse kann optional mit einer GenAI-Plattform verbunden werden, um Abfragen mit LLMs zu ergänzen. Benutzer können einen Prompt eingeben, der an ein fein abgestimmtes LLM gesendet wird, um Abfragen zu generieren, die von den im Data Lakehouse unterstützten Engines ausgeführt werden können.
Lakehouse-Muster 1: Mehrere zweckorientierte Abfrage-Engines
Nutzen Sie die zweckgebundene Datenverarbeitung, um die Kosten zu optimieren, indem Sie die richtige Engine für die richtige Workload einsetzen und gleichzeitig Daten und Metadaten zwischen allen Engines, einem gemeinsamen Metaspeicher (d. h. Data Catalog) und derselben Umgebung gemeinsam nutzen.
Lakehouse-Muster 2: Eine zentrale Oberfläche für alle Ihre Daten
Ein Data Lakehouse ermöglicht einen modernen Ansatz für aktuelle Datenarchitekturen, in denen Unternehmen im Laufe der Jahre mehrere Silos von Datenspeichern aufgebaut haben, um unterschiedlichen Anforderungen gerecht zu werden – von strukturierten, hochleistungsfähigen Enterprise Data Warehouses (EDW) bis hin zu hochvolumigen, unstrukturierten/halbstrukturierten Data Lakes, die sich meist in einen Datensumpf verwandeln (Duplizierung, Datenqualität, fehlende Governance). Ein Data Lakehouse mit watsonx.data ermöglicht eine zentrale Zugriffsebene auf eine Vielzahl von Datenspeichern durch mehrere Abfrage-Engines, offene Datenformate und Governance, ohne die Notwendigkeit von Datenbewegungen.
Lakehouse-Muster 3: Optimierung von Data Warehouse-Workloads zur Kostenoptimierung
Reduzieren Sie die Kosten für die Datenspeicherung und behalten Sie gleichzeitig die zeitlichen Abfragemöglichkeiten bei, indem Sie die günstigen Speicher- und Rechenkapazitäten von Lakehouse nutzen und mehreren Abfrage-Engines die Verwendung desselben Datensatzes ermöglichen. Abfrage-Engines wie Spark ermöglichen die Durchführung von vakuumierten/materialisierten Abfragen von Daten in ihrem aktuellen Zustand (z. B. nicht alle Datenänderungen in der Vergangenheit), was die Größe der Datenabfrage und die Kosten für die Abfrageberechnung reduziert. Darüber hinaus ermöglichen die Vorverarbeitungs- und selektiven Transformationsfunktionen im Lakehouse eine optimale Verteilung der Data-Warehouse-Workloads und senken so die Kosten.
Lakehouse-Muster 4: Hybride Multi-Cloud-Bereitstellung
Greifen Sie aus der Ferne über eine Hybrid Cloud auf Daten zu und nutzen Sie die Möglichkeit zur Zwischenspeicherung dezentraler Quellen.
Lakehouse-Muster 5: Integration von Mainframe-Daten in das analytische Ökosystem
Synchronisieren und integrieren Sie Db2 for z/OS-Daten für Lakehouse-Analysen und führen Sie Echtzeit-Analysen auf dem Mainframe mit VSAM- und Db2-Daten durch. Bei der Datenvirtualisierung werden die Daten immer direkt vom Mainframe abgefragt, wobei zusätzliche Belastungen in Betracht gezogen werden. Gleichzeitig erfasst CDC die Informationen im Eisbergformat, das auf der von der Verwaltung festgelegten Häufigkeit basiert (was Ihren Mainframe nicht zusätzlich belastet, aber auch keine Echtzeitdaten liefert).
Die Auswahl der zu verwendenden Abfrage-Engine hängt im Allgemeinen von der Art der Daten ab, die abgefragt werden sollen.