Data Lake wurde ursprünglich vom ehemaligen CTO von Pentaho geprägt und ist eine kostengünstige Speicherumgebung, in der in der Regel Petabytes an Rohdaten gespeichert werden.
Im Gegensatz zu einem Data Warehouse können in einem Data Lake sowohl strukturierte als auch unstrukturierte Daten gespeichert werden, und es ist kein definiertes Schema erforderlich, um Daten zu speichern. Diese Flexibilität bei den Speicheranforderungen ist besonders für Data Scientists, Dateningenieure und Entwickler nützlich, da sie so auf Daten für Datenerkennungsübungen und maschinelle Lernprojekte zugreifen können.
Aus einem kürzlich veröffentlichten Voice of the Enterprise-Bericht (Link befindet sich außerhalb von ibm.com) von 451 Research geht hervor, dass fast „drei Viertel (71 %) der Unternehmen derzeit eine Data Lake-Umgebung nutzen oder in einem Pilotprojekt testen oder dies innerhalb der nächsten 12 Monate planen, und 53 % der Befragten befinden sich bereits in der Implementierungs- oder POC-Phase“. Die Befragten in diesem Bericht heben die geschäftliche Agilität als einen der Hauptvorteile ihrer Implementierungen hervor, die unterschiedlich ausfallen können. Es wurde auch festgestellt, dass Data Lakes in der Regel entweder in der Cloud oder „On-Premises“ in den Rechenzentren eines Unternehmens gehostet werden.
Während Anwender den Wert von Data Lakes erkennen, können andere Gruppen Opfer von Datensümpfen oder Datengruben werden. Ein Data Swamp ist das Ergebnis eines schlecht verwalteten Data Lake, d. h. es fehlt an angemessener Datenqualität und Data-Governance-Verfahren, um aufschlussreiche Erkenntnisse zu gewinnen. Ohne die richtige Überwachung werden die Daten in diesen Repositorys nutzlos dargestellt. Data Pits hingegen ähneln den Data Swamps insofern, als sie nur einen geringen geschäftlichen Nutzen bieten, wobei die Quelle des Datenproblems in diesen Fällen unklar ist. Ebenso kann die Einbindung von Data-Governance- und Data-Science-Teams dazu beitragen, sich vor diesen Fallstricken zu schützen.
Lesen Sie, warum IBM in „IDC MarketScape: Worldwide AI Governance Platforms 2023“ als führender Anbieter ausgezeichnet wurde.
Leitfaden für Datenverantwortliche lesen
Data Lakes und Data Warehouses speichern zwar beide Daten, aber jedes Repository hat seine eigenen Anforderungen an die Speicherung, was es zu einer idealen Wahl für unterschiedliche Szenarien macht. Zum Beispiel erfordern Data Warehouses ein definiertes Schema, um spezifische Datenanalyseanforderungen für Datenausgaben wie Dashboards, Datenvisualisierungen und andere Business Intelligence-Aufgaben zu erfüllen. Diese Anforderungen werden in der Regel von Geschäftsanwendern und anderen relevanten Stakeholdern spezifiziert, die die Berichtsergebnisse regelmäßig nutzen. Die zugrunde liegende Struktur eines Data Warehouse wird in der Regel als relationales System (d. h. in einem strukturierten Datenformat) organisiert und beschafft Daten aus Transaktionsdatenbanken. Data Lakes hingegen integrieren Daten sowohl aus relationalen als auch aus nicht relationalen Systemen und ermöglichen es Data Scientists, strukturierte und unstrukturierte Daten in mehr Data-Science-Projekte einzubeziehen.
Jedes System hat auch seine eigenen Vor- und Nachteile. Beispielsweise sind Data Warehouses tendenziell leistungsfähiger, aber auch mit höheren Kosten verbunden. Data Lakes geben möglicherweise langsamere Abfrageergebnisse zurück, haben aber geringere Speicherkosten. Darüber hinaus ist die Speicherkapazität von Data Lakes ideal für Unternehmensdaten.
Während die Akzeptanz sowohl für Data Lakes als auch für Data Warehouses mit dem Wachstum neuer Datenquellen nur zunehmen wird, führen die Einschränkungen beider Datenrepositories zu einer Konvergenz dieser Technologien. Ein Data Lakehouse verbindet die Kostenvorteile eines Data Lake mit der Datenstruktur und den Datenverwaltungsfunktionen eines Data Warehouse. Laut einem anderen Umfragebericht (Link befindet sich außerhalb von ibm.com) von 415 Research „nutzen oder pilotieren bereits zwei Drittel der Unternehmen eine Data-Lakehouse-Umgebung oder planen, dies innerhalb von 12 Monaten zu tun“. Darüber hinaus fand man heraus, dass 93 % der Unternehmen, die Data Lakes eingeführt haben, auch planen, in den nächsten 12 Monaten ein Data Lakehouse einzuführen.
Data Lakes werden häufig auch mit Apache Hadoop in Verbindung gebracht, einem Open-Source-Software-Framework, das eine kostengünstige, zuverlässige verteilte Verarbeitung für die Speicherung großer Datenmengen bietet. Traditionell handelte es sich um eine On-Premise-Bereitstellung, aber wie im Bericht von 451 Research angedeutet, wechseln die Anwender schnell zu Cloud-Umgebungen, da diese den Endbenutzern mehr Flexibilität bieten. Anders als bei der On-Premise-Bereitstellung können die Nutzer bei Cloud-Speicheranbietern große Cluster nach Bedarf einrichten und müssen nur für den angegebenen Speicherplatz bezahlen. Wenn Sie also zusätzliche Rechenleistung benötigen, um einen Auftrag in einigen Stunden statt in einigen Tagen auszuführen, können Sie dies auf einer Cloud-Plattform durch den Erwerb zusätzlicher Rechenknoten problemlos erreichen. Forrester Research (Link befindet sich außerhalb von ibm.com) berichtet, dass Unternehmen, die Cloud-Data Lakes anstelle von lokalen Data Lakes verwenden, Einsparungen von rund 25 % erzielen.
Innerhalb von Hadoop speichert und repliziert das Hadoop Distributed File System (HDFS) Daten auf mehreren Servern, während Yet Another Resource Negotiator (YARN) bestimmt, wie die Ressourcen auf diesen Servern verteilt werden. Anschließend können Sie mit Apache Spark einen großen Speicherplatz für die Datenverarbeitung erstellen, sodass fortgeschrittenere Benutzer über Schnittstellen mit Python, R und Spark SQL auf Daten zugreifen können.
Da das Datenvolumen exponentiell wächst, sind Data Lakes ein wesentlicher Bestandteil der Datenpipeline.
Da Data Lakes in erster Linie für ihre Fähigkeit genutzt werden, riesige Mengen an Rohdaten zu speichern, muss der Geschäftszweck der Daten nicht unbedingt zu Beginn definiert werden. Im Folgenden finden Sie dennoch zwei Hauptanwendungsfälle für Data Lakes:
- Proof of Concepts, (POCs): Data Lake-Speicherung ist ideal für Proof-of-Concept Projekte. Ihre Fähigkeit, verschiedene Arten von Daten zu speichern, ist besonders für Modelle des maschinellen Lernens von Vorteil, da sie die Möglichkeit bieten, sowohl strukturierte als auch unstrukturierte Daten in Vorhersagemodelle einzubeziehen. Dies kann für Anwendungsfälle wie die Textklassifizierung nützlich sein, da Datenwissenschaftler hierfür keine relationalen Datenbanken verwenden können (zumindest nicht ohne Vorverarbeitung der Daten, um sie an die Schemaanforderungen anzupassen). Data Lakes können auch als Sandbox für andere Big-Data-Analytics-Projekte fungieren. Dies kann von der groß angelegten Dashboard-Entwicklung bis hin zur Unterstützung von IoT-Apps reichen, für die in der Regel Streaming-Daten in Echtzeit erforderlich sind. Nachdem Zweck und Wert der Daten ermittelt wurden, können diese einer ETL- oder ELT-Verarbeitung zur Speicherung in einem nachgelagerten Data Warehouse unterzogen werden.
- Daten-Backup und Wiederherstellung: Hohe Speicherkapazität und niedrige Speicherkosten machen Data Lakes zu einer Speicheralternative für die Wiederherstellung im Katastrophenfall. Sie können auch für Datenprüfungen zur Qualitätssicherung von Nutzen sein, da die Daten in ihrem ursprünglichen Format gespeichert werden (d. h. ohne Transformationen). Dies kann besonders nützlich sein, wenn in einem Data Warehouse die entsprechende Dokumentation über die Datenverarbeitung fehlt, so dass die Teams die Arbeit früherer Dateneigentümer gegenprüfen können.
Da die Daten in einem Data Lake nicht unbedingt einen unmittelbaren Verwendungszweck haben müssen, kann er auch eine Möglichkeit sein, kalte oder inaktive Daten zu einem kostengünstigen Preis zu speichern, die zu einem späteren Zeitpunkt für behördliche Untersuchungen oder neue Nettoanalysen nützlich sein können.
Flexibler: Data Lakes können sowohl strukturierte, halbstrukturierte als auch unstrukturierte Datensätze aufnehmen und eignen sich daher ideal für fortgeschrittene Analysen und maschinelles Lernen.
Kosten: Da Data Lakes nicht so viel Vorausplanung erfordern, um die Daten aufzunehmen (z. B Schema- und Transformationsdefinition), muss weniger Geld in Personalressourcen investiert werden. Außerdem sind die tatsächlichen Speicherkosten von Data Lakes im Vergleich zu anderen Speichersystemen wie Data Warehouses geringer. Dadurch können Unternehmen ihre Budgets und Ressourcen bei Datenverwaltungsinitiativen effektiver optimieren.
Skalierbarkeit: Data Lakes können Unternehmen auf verschiedene Weise bei der Skalierung helfen. Die Self-Service-Funktionalität und die Gesamtspeicherkapazität machen Data Lakes im Vergleich zu anderen Speicherdiensten skalierbarer. Darüber hinaus bieten Data Lakes eine Sandbox, in der Mitarbeiter erfolgreiche POCs entwickeln können. Sobald sich ein Projekt in kleinerem Maßstab als wertvoll erwiesen hat, ist es einfacher, diesen Workflow durch Automatisierung in größerem Maßstab zu erweitern.
Verringerung von Datensilos: Vom Gesundheitswesen bis zur Versorgungskette gibt es in Unternehmen verschiedener Branchen Datensilos innerhalb ihrer Organisation. Da Data Lakes Rohdaten über verschiedene Funktionen hinweg aufnehmen, beginnen sich diese Abhängigkeiten von selbst zu beseitigen, da es keinen einzigen Eigentümer mehr für einen bestimmten Datensatz gibt.
Verbesserte Customer Experience: Auch wenn dieser Vorteil nicht sofort ersichtlich ist, kann ein erfolgreicher Proof of Concept das gesamte Nutzererlebnis verbessern und es den Teams ermöglichen, die Customer Journey durch neuartige, aufschlussreiche Analysen besser zu verstehen und zu personalisieren.
Data Lakes bieten zwar eine Reihe von Vorteilen, sind aber auch nicht ohne Herausforderungen. Einige davon sind:
- Leistung: Das wachsende Datenvolumen, das in einen Data Lake eingespeist wird, geht auf Kosten der Leistung, die bereits langsamer ist als bei anderen alternativen Datenspeichersystemen.
- Steuerung: Die Fähigkeit eines Data Lake, verschiedene Datenquellen aufzunehmen, verschafft Unternehmen zwar einen Vorteil bei der Datenverwaltung, erfordert aber auch eine starke Governance, um sie angemessen zu verwalten. Die Daten sollten mit relevanten Metadaten gekennzeichnet und klassifiziert werden, um einen Datensumpf zu vermeiden, und diese Informationen sollten über einen Datenkatalog leicht zugänglich sein, der Selbstbedienungsfunktionen für weniger technisches Personal, wie z. B. Unternehmensanalysten, ermöglicht. Schließlich sollten auch Vorkehrungen getroffen werden, um den Datenschutz und die gesetzlichen Vorschriften zu erfüllen; dazu können Zugangskontrollen, Datenverschlüsselung und mehr gehören.
Unterstützen Sie Ihre Anwendungen, Analysen und KI mit beliebigen Daten in offenen Cloud-Daten.
Erfahren Sie mehr über die Partnerschaft von IBM und Cloudera zur Bereitstellung einer Unternehmensdatenplattform für die Hybrid Cloud.
Lernen Sie die Best Practices zur Gewährleistung von Datenqualität, -zugänglichkeit und -sicherheit als Grundlage für eine KI-zentrierte Datenarchitektur kennen.
Erfahren Sie, wie die State Bank of India mehrere IBM Lösungen zusammen mit der IBM Garage™ Methodik zur Entwicklung einer umfassenden Online-Banking-Plattform eingesetzt hat.
Erfahren Sie mehr über die nächste Entwicklung von Datenmanagementlösungen auf dem Markt.