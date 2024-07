Im Gegensatz zu einem Data Warehouse können in einem Data Lake sowohl strukturierte als auch unstrukturierte Daten gespeichert werden, und es ist kein definiertes Schema erforderlich, um Daten zu speichern. Diese Flexibilität bei den Speicheranforderungen ist besonders für Data Scientists, Dateningenieure und Entwickler nützlich, da sie so auf Daten für Datenerkennungsübungen und maschinelle Lernprojekte zugreifen können.

Aus einem kürzlich veröffentlichten Voice of the Enterprise-Bericht (Link befindet sich außerhalb von ibm.com) von 451 Research geht hervor, dass fast „drei Viertel (71 %) der Unternehmen derzeit eine Data Lake-Umgebung nutzen oder in einem Pilotprojekt testen oder dies innerhalb der nächsten 12 Monate planen, und 53 % der Befragten befinden sich bereits in der Implementierungs- oder POC-Phase“. Die Befragten in diesem Bericht heben die geschäftliche Agilität als einen der Hauptvorteile ihrer Implementierungen hervor, die unterschiedlich ausfallen können. Es wurde auch festgestellt, dass Data Lakes in der Regel entweder in der Cloud oder „On-Premises“ in den Rechenzentren eines Unternehmens gehostet werden.



Während Anwender den Wert von Data Lakes erkennen, können andere Gruppen Opfer von Datensümpfen oder Datengruben werden. Ein Data Swamp ist das Ergebnis eines schlecht verwalteten Data Lake, d. h. es fehlt an angemessener Datenqualität und Data-Governance-Verfahren, um aufschlussreiche Erkenntnisse zu gewinnen. Ohne die richtige Überwachung werden die Daten in diesen Repositorys nutzlos dargestellt. Data Pits hingegen ähneln den Data Swamps insofern, als sie nur einen geringen geschäftlichen Nutzen bieten, wobei die Quelle des Datenproblems in diesen Fällen unklar ist. Ebenso kann die Einbindung von Data-Governance- und Data-Science-Teams dazu beitragen, sich vor diesen Fallstricken zu schützen.