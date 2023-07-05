Data Lakes gibt es schon seit gut einem Jahrzehnt und sie unterstützen die analytischen Operationen einiger der größten Weltkonzerne. Einige argumentieren jedoch, dass die überwiegende Mehrheit dieser Bereitstellungen inzwischen zu „Datensümpfen“ geworden ist. Unabhängig davon, auf welcher Seite man in dieser Kontroverse steht, ist die Realität, dass in diesen Systemen immer noch eine Menge Daten gespeichert sind. Solche Datenmengen lassen sich nicht einfach verschieben, migrieren oder modernisieren.
Data Lakes sind auf einer hohen Ebene einzelne Repositorien von Daten in großem Maßstab. Daten können in ihrer ursprünglichen Rohform gespeichert oder in ein anderes Format optimiert werden, das für die Verarbeitung durch spezialisierte Engines geeignet ist.
Im Fall von Hadoop, einem der beliebtesten Data Lakes, bedeutete das Versprechen, ein solches Repository mit Open-Source-Software zu implementieren und alles auf handelsüblicher Hardware laufen zu lassen, dass man sehr viele Daten zu sehr geringen Kosten auf diesen Systemen speichern konnte. Daten können in offenen Datenformaten persistiert werden, was ihre Nutzung demokratisiert, und sie können automatisch repliziert werden, was Ihnen hilft, eine hohe Verfügbarkeit zu gewährleisten. Das Standard-Verarbeitungsframework bot die Möglichkeit, Fehler während des Betriebs zu beheben. Dies war zweifellos eine erhebliche Abkehr von traditionellen Analyseumgebungen, die oft eine Anbieterbindung und die Unmöglichkeit bedeuteten, mit Daten in großem Maßstab zu arbeiten.
Eine weitere unerwartete Herausforderung war die Einführung von Spark als Framework für Big Data. Es gewann rasch an Popularität aufgrund seiner Unterstützung für Datenkonvertierung, Streaming und SQL. Allerdings ließ es sich nie problemlos in bestehende Data-Lake-Umgebungen integrieren. Daher waren häufig zusätzliche dedizierte Rechencluster erforderlich, nur um Spark ausführen zu können.
Knapp 15 Jahre später ist die Realität der mit dieser Technologie verbundenen Kompromisse und Abwägungen deutlich geworden. Aufgrund der schnellen Verbreitung verloren die Kunden bald den Überblick darüber, was letztendlich im Data Lake landete. Und ebenso schwierig war es, herauszufinden, woher die Daten stammten, wie sie aufgenommen und wie sie dabei umgewandelt worden waren. Data Governance ist nach wie vor ein unerforschtes Gebiet für diese Technologie. Die Software mag zwar Open Source sein, doch jemand muss lernen, sie zu nutzen, zu warten und zu unterstützen. Sich auf Community-Support zu verlassen, liefert nicht immer die von Unternehmen geforderten Reaktionszeiten. Hohe Verfügbarkeit durch Replikation bedeutete mehr Datenkopien auf mehr Festplatten, höhere Speicherkosten und häufigere Ausfälle. Ein hochverfügbares verteiltes Verarbeitungsframework bedeutete, auf Leistung zugunsten von Resilienz zu verzichten (wir sprechen hier von Leistungsverschlechterungen um Größenordnungen bei interaktiver Analyse und BI).
Data Lakes haben sich dort als erfolgreich erwiesen, wo Unternehmen in der Lage waren, den Fokus auf bestimmte Nutzungsszenarien zu beschränken. Es ist jedoch klar, dass es dringend erforderlich ist, diese Bereitstellungen zu modernisieren und die Investitionen in die Infrastruktur, die Fähigkeiten und die Daten, die in diesen Systemen gespeichert sind, zu schützen.
Auf der Suche nach Antworten untersuchte die Branche die bestehenden Technologien und deren Stärken. Es wurde deutlich, dass ein effektiver Ansatz darin bestand, die wichtigsten Merkmale traditioneller (sozusagen veralteter) Data Warehouses oder Data Marts mit den besten Funktionen von Data Lakes zu kombinieren. Mehrere Punkte kristallisierten sich schnell als Grundvoraussetzungen heraus:
Das oben Genannte hat zur Entstehung des Data Lakehouse geführt. Ein Data Lakehouse ist eine Datenplattform, die die besten Aspekte von Data Warehouses und Data Lakes in einer einheitlichen und zusammenhängenden Datenverwaltungslösung vereint.
Die Antwort von IBM auf die aktuelle Herausforderung im Bereich Analyse lautet watsonx.data. Dies ist ein neuer offener Datenspeicher für die Verwaltung von Daten im großen Maßstab, der es Unternehmen ermöglicht, ihre bestehenden Data Lakes und Data Warehouses zu umgeben, zu modernisieren und zu erweitern, ohne dass eine Migration erforderlich ist. Aufgrund seines hybriden Charakters können Sie watsonx.data auf einer vom Kunden verwalteten Infrastruktur (lokal und/oder IaaS) und in der Cloud ausführen. Die Lösung baut auf einer Lakehouse-Architektur auf und beinhaltet einen einzigen Satz von Lösungen (und einen gemeinsamen Software-Stack) für alle Formfaktoren.
Im Gegensatz zu konkurrierenden Angeboten auf dem Markt baut der Ansatz von IBM auf einem Open-Source-Stack und einer Open-Source-Architektur auf. Es handelt sich hierbei nicht um neue, sondern um in der Branche etablierte Komponenten. IBM hat sich um ihre Interoperabilität, Koexistenz und den Austausch von Metadaten gekümmert. Benutzer können schnell loslegen, wodurch die Einstiegs- und Einführungskosten drastisch gesenkt werden, da die übergeordnete Architektur und die grundlegenden Konzepte vertraut und intuitiv sind:
Watsonx.data bietet Unternehmen die Möglichkeit, ihre jahrzehntelangen Investitionen in Data Lakes und Data Warehousing zu schützen. Sie können damit ihre Installationen sofort erweitern und schrittweise modernisieren, indem sie jede Komponente auf die für sie wichtigsten Nutzungsszenarien ausrichten.
Ein wesentliches Unterscheidungsmerkmal ist die Multi-Engine-Strategie, die es den Benutzern ermöglicht, über eine einheitliche Datenplattform die richtige Technologie für die richtige Aufgabe zum richtigen Zeitpunkt einzusetzen. Watsonx.data ermöglicht es Kunden, vollständig dynamische mehrstufige Speichersysteme (und die damit verbundenen Rechenleistungen) zu implementieren. Dies kann im Laufe der Zeit zu erheblichen Einsparungen bei den Kosten für Datenverwaltung und -verarbeitung führen.
Und wenn Ihr Ziel letztlich darin besteht, Ihre bestehenden Data Lake-Bereitstellungen mit einem modernen Data Lakehouse zu modernisieren, erleichtert watsonx.data diese Aufgabe, indem es die Daten- und Anwendungsmigration durch die Wahl der Rechenleistung minimiert.
In den letzten Jahren haben Data Lakes eine wichtige Rolle bei der Datenverwaltungsstrategie der meisten Unternehmen gespielt. Wenn Ihr Ziel darin besteht, Ihre Datenverwaltungsstrategie in Richtung einer echten hybriden Analytics-Cloud-Architektur weiterzuentwickeln und zu modernisieren, dann verdient der neue Datenspeicher von IBM, watsonx.data, der auf einer Data-Lakehouse-Architektur basiert, Ihre Aufmerksamkeit.
