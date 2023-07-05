Data Lakes sind auf einer hohen Ebene einzelne Repositorien von Daten in großem Maßstab. Daten können in ihrer ursprünglichen Rohform gespeichert oder in ein anderes Format optimiert werden, das für die Verarbeitung durch spezialisierte Engines geeignet ist.

Im Fall von Hadoop, einem der beliebtesten Data Lakes, bedeutete das Versprechen, ein solches Repository mit Open-Source-Software zu implementieren und alles auf handelsüblicher Hardware laufen zu lassen, dass man sehr viele Daten zu sehr geringen Kosten auf diesen Systemen speichern konnte. Daten können in offenen Datenformaten persistiert werden, was ihre Nutzung demokratisiert, und sie können automatisch repliziert werden, was Ihnen hilft, eine hohe Verfügbarkeit zu gewährleisten. Das Standard-Verarbeitungsframework bot die Möglichkeit, Fehler während des Betriebs zu beheben. Dies war zweifellos eine erhebliche Abkehr von traditionellen Analyseumgebungen, die oft eine Anbieterbindung und die Unmöglichkeit bedeuteten, mit Daten in großem Maßstab zu arbeiten.

Eine weitere unerwartete Herausforderung war die Einführung von Spark als Framework für Big Data. Es gewann rasch an Popularität aufgrund seiner Unterstützung für Datenkonvertierung, Streaming und SQL. Allerdings ließ es sich nie problemlos in bestehende Data-Lake-Umgebungen integrieren. Daher waren häufig zusätzliche dedizierte Rechencluster erforderlich, nur um Spark ausführen zu können.

Knapp 15 Jahre später ist die Realität der mit dieser Technologie verbundenen Kompromisse und Abwägungen deutlich geworden. Aufgrund der schnellen Verbreitung verloren die Kunden bald den Überblick darüber, was letztendlich im Data Lake landete. Und ebenso schwierig war es, herauszufinden, woher die Daten stammten, wie sie aufgenommen und wie sie dabei umgewandelt worden waren. Data Governance ist nach wie vor ein unerforschtes Gebiet für diese Technologie. Die Software mag zwar Open Source sein, doch jemand muss lernen, sie zu nutzen, zu warten und zu unterstützen. Sich auf Community-Support zu verlassen, liefert nicht immer die von Unternehmen geforderten Reaktionszeiten. Hohe Verfügbarkeit durch Replikation bedeutete mehr Datenkopien auf mehr Festplatten, höhere Speicherkosten und häufigere Ausfälle. Ein hochverfügbares verteiltes Verarbeitungsframework bedeutete, auf Leistung zugunsten von Resilienz zu verzichten (wir sprechen hier von Leistungsverschlechterungen um Größenordnungen bei interaktiver Analyse und BI).