Cloud Data Lake vs. Data Warehouse vs. Data Mart

Abstrakte fließende Lichtpfade

Dieser Beitrag befasst sich mit den drei heute existierenden Arten von Cloud-Speicher-Repositories, erkundet die Unterschiede und zeigt auf, welche Lösung für Ihren Anwendungsfall am besten geeignet ist.

Cloudbasierte Datenspeicher für Geschäftsdaten – insbesondere Big Data – steht heute ganz oben auf der Agenda, unabhängig davon, ob Sie sich darauf verlassen, um Routinegeschäfte zu erledigen oder um bestimmte Aufgaben zu erfüllen.

Daten steuern viele Geschäftsfunktionen – von der Erstellung gezielter Programme für Kunden und Interessenten über die Optimierung von Herstellungs- und Betriebsprozessen bis hin zur Entwicklung, Prüfung, Verteilung und Verfolgung von Virentests und Impfungen. Moderne Unternehmen verlassen sich auf die Verfügbarkeit der benötigten Daten, wenn sie sie benötigen. Es ist jedoch keine leichte Aufgabe, die beste Option für Ihre Bedürfnisse zu finden und kann mehrere verschiedene Arten von Repositorys für verschiedene Kategorien umfassen.

Beginnen wir mit den Grundlagen und gehen wir dann auf einige Beispiele dafür ein, wie ein Datenspeicher oder viele Arten von Datenspeichern für die Bedürfnisse Ihres Unternehmens erforderlich sein können.

 

Drei Arten von Cloud-Speicher-Repositorys

Heutzutage gibt es drei verschiedene Arten von Cloud-Speicher-Repositorys, die jeweils einem anderen Zweck dienen, um eine bestimmte Adresse zu decken:

Data Lake

Ein Data Lake ist ein großes Repository mit Rohdaten, entweder unstrukturiert oder halbstrukturiert. Diese Daten werden aus verschiedenen Quellen aggregiert und einfach gespeichert. Sie werden nicht so verändert, dass sie einem bestimmten Zweck entsprechen oder in ein bestimmtes Format passen. Die Vorbereitung dieser Daten für die Analyse ist mit einer zeitaufwändigen Aufbereitung, Bereinigung und Neuformatierung der Daten verbunden, um sie zu vereinheitlichen. Data Lakes sind großartige Ressourcen für Kommunen oder andere Unternehmen, die Informationen zu Betriebsunterbrechungen, Datenverkehr, Kriminalität oder demografischen Daten speichern. Die Daten könnten zu einem späteren Zeitpunkt verwendet werden, um die Budgets und Ressourcen des DPW oder der Notfalldienste zu aktualisieren.

Data Warehouse

Ein Data Warehouse ist eine Aggregation von Daten aus vielen Quellen in einem einzigen, zentralen Repository, das die Datenqualitäten und das Format vereinheitlicht und es für Data Scientists bei Data Mining, künstlicherIntelligenz (KI), maschinellem Lernen und letztendlich in der Geschäftswelt nützlich macht Analysen und Business Intelligence. Eine Großstadt könnte Data Warehousing nutzen, um elektronische Transaktionen verschiedener Abteilungen zusammenzufassen, darunter Strafzettel für zu schnelle Fahrten, Hundeführerscheine, Verbrauchsteuerzahlungen und andere Transaktionen. Diese strukturierten Daten würden von der Stadt analysiert, um Folgerechnungen zu stellen und die Umfragedaten und die Polizeiprotokolle zu aktualisieren. Es könnte auch von einem Entwickler genutzt werden, um Terabytes an Daten zu sammeln, die von Sensoren an Autos generiert werden, um die Entscheidungsfindung für eine Lösung für autonomes Fahren zu unterstützen.

Data Mart

Ein Data Mart ist ein Teilbereich eines Data Warehouse, der einer bestimmten Gruppe von Benutzern innerhalb eines Unternehmens oder einer Geschäftseinheit zugute kommt. Ein Data Mart könnte von der Marketingabteilung eines Produktionsunternehmens verwendet werden, um die ideale demografische oder Persona-Zielgruppe zu bestimmen und so die Entwicklung von Marketingplänen zu unterstützen. Er könnte auch von einer Fertigungsabteilung genutzt werden, um Leistung und Fehlerraten zu analysieren und so kontinuierliche Verbesserungen zu ermöglichen. Datensätze innerhalb eines Data Mart werden oft in Echtzeit genutzt, um aktuelle Analysen und umsetzbare Ergebnisse zu erzielen.

Data Lake, Data Warehouse und Data Mart: Die wichtigsten Unterschiede

Obwohl alle drei Arten von Cloud-Datenspeichern Daten enthalten, bestehen sehr deutliche Unterschiede zwischen ihnen. Ein Data Warehouse und ein Data Lake sind beispielsweise beides große Datenansammlungen, aber ein Data Lake ist in der Regel kostengünstiger zu implementieren und zu warten, da er weitgehend unstrukturiert ist. 

Die Data-Lake-Architektur hat sich in den letzten Jahren weiterentwickelt, um größere Datenmengen und Cloud-Computing zu unterstützen. Große Datenmengen werden von mehreren Datenquellen an einem zentralen Ort empfangen. 

Ein Data Warehouse kann auf drei Arten strukturiert sein:

  1. Als Managed Service, der von Cloud-Providern angeboten wird.
  2. Als Softwarelösung, die eine interne Kontrolle und strenge Sicherheitsprotokolle bietet, was bei der Einhaltung von Vorschriften hilfreich sein kann.
  3. Als Appliance, bei der es sich in der Regel um eine gebündelte Plug-and-Play-Software- und Hardwarelösung handelt.

Daten in einem Data Warehouse können für verschiedene Zwecke einfacher genutzt werden als Daten in einem Data Lake. Der Grund dafür ist, dass ein Data Warehouse strukturiert ist und leichter extrahiert oder analysiert werden kann.

Ein Data Mart hingegen enthält eine geringere Datenmenge als ein Data Lake und ein Data Warehouse, und die Daten sind für einen bestimmten Verwendungszweck oder nach einer bestimmten Bevölkerungsgruppe oder Geschäftsbereich kategorisiert. Ein Data Mart kann in vielen verschiedenen Formaten (Stern, Schneeflocke oder Vault) existieren, die durch die logische Struktur der Daten definiert sind, wobei eine Vault-Struktur flexibler, skalierbarer und agiler ist als die anderen Formate.

Es gibt drei Arten von Data Mart:

  1. Ein abhängiger Data Mart, der aus Data-Warehouse-Partitionen des Unternehmens besteht. Es handelt sich um eine Teilmenge der Primärdaten in einem Warehouse.
  2. Ein unabhängiger Data Mart, der ein eigenständiges System ist, das auf einen bestimmten Teil des Unternehmens beschränkt ist.
  3. Ein hybrider Data Mart, der aus Daten aus einem Warehouse und unabhängigen Quellen besteht. Dieser Typ bietet in der Regel einen schnelleren Datenzugriff und eine benutzerfreundliche Schnittstelle.

Für welche Art von Datenspeicher Sie sich entscheiden und wie er aufgebaut ist, hängt vor allem von den Bedürfnissen und Anforderungen Ihres Unternehmens ab. Wenn es für Ihr Unternehmen sinnvoll ist, profitieren Sie von den Vorteilen der auf Hybrid Clouds basierenden Speicherung für mehr Flexibilität, Skalierbarkeit und einen breiteren, fundierten Ansatz zur Problemlösung und Entscheidungsfindung.

Branchenanwendungsfälle von cloudbasierten Datenspeicherlösungen

Herstellung

Ein großes multinationales Fertigungsunternehmen generiert große Datenmengen für verschiedene Zwecke. Einige der Daten sind wichtig, während andere Daten in Zukunft möglicherweise einen Zweck haben oder nicht. Das Unternehmen nutzt ein cloudbasiertes Data Warehouse für die Speicherung von Massendaten, was günstiger ist als andere Datenspeicheroptionen. Das Unternehmen verfügt jedoch auch über abhängige Data Marts für bestimmte Geschäftsbereiche, die Wert für Geschäftsanwender in Abteilungen wie Finanzen, Fertigung und Marketing bieten. Jeder dieser Marts enthält Daten, die für einen bestimmten Verwendungszweck bestimmt und so formatiert sind, dass sie leicht analysiert werden können. Einige Beispiele:

  • Die Finanzabteilung nutzt ihren Data Mart, um Kundenkontoauszüge zu erstellen und Bilanzen zu führen.
  • Die Fertigungsabteilung nutzt ihren Data Mart, um die Effizienz der Montagelinie zu analysieren, Daten zur Eingabe in KI-Lösungen zu verarbeiten und Beschaffung zu pflegen.
  • Die Marketingabteilung nutzt ihren Data Mart, um die Effektivität von Kampagnen und Kommunikation zu ermitteln und gleichzeitig Umfrageantworten zu analysieren und zusammenzustellen.

Große Gemeinde

Eine große Gemeinde benötigt eine erschwingliche Lösung, die Daten auf erschwingliche und einigermaßen nutzbare Weise bereitstellt. Die Stadtverwaltung nutzt einen Data Lake in der Cloud, um Verkehrsdaten zu verwalten. Das Unternehmen kann es sich im Moment nicht leisten, diese Daten zu analysieren und Maßnahmen zu ergreifen, wird aber bereit sein, wenn die Finanzierung erfolgt. Außerdem wird ein lokales Software-Data-Warehouse verwendet, um den Status von Steuerrechnungen zu verfolgen. Darüber hinaus nutzt die Stadtverwaltung einen hybriden Data Mart, um die Ausbreitung eines Virus unter den Einwohnern zu verfolgen. Daten aus verschiedenen Krankenhäusern und kommunalen Gesundheitsdiensten werden in einem einzigen Repository zusammengefasst, damit sie vom Gesundheitsministerium analysiert und genutzt werden können.

Gängige Missverständnisse über cloudbasierte Datenspeicher

Es gibt viele Missverständnisse bezüglich cloudbasierter Datenspeicher. Zu den häufigsten Missverständnissen gehören die folgenden:

  • Einheitslösung: Das ist absolut nicht der Fall, wenn es um Cloud-Datenspeicherlösungen geht. Jedes Unternehmen hat unterschiedliche Budgetbeschränkungen, Ziele, Ressourcenzuweisungen und Präferenzen. Es ist wichtig, dass Sie Ihre geschäftlichen Anforderungen und Ihr Budget bewerten und sich davon die Lösung diktieren lassen, mit der Sie Ihre Ziele erreichen können.
  • Dateninseln lassen Ihre Daten in einem Repository gestrandet: Das ist falsch. Die Natur der Cloud-Speicherung besteht darin, dass sie den Zugriff auf die Daten von überall aus ermöglicht, sofern die entsprechenden Berechtigungen gelten.
  • Cloudbasierte Lösungen sind weniger sicher: Tatsächlich können Cloud-Provider eine stärkere Sicherheit bieten, indem sie regelmäßige Updates und die aktuellsten verfügbaren Protokolle bereitstellen. Sie verfügen oft über Teams von Sicherheitsexperten mit den aktuellsten Zertifizierungen, die dediziert sind, um sicherzustellen, dass die strengste Sicherheitslösung Ihre Daten schützt. Viele Anbieter verfügen auch über Teams, die mit Aufsichtsbehörden zusammenarbeiten, um ihre Lösung zu optimieren. In einigen Branchen (z. B. Gesundheitswesen und Finanzwesen) kann die Einhaltung gesetzlicher Vorschriften jedoch die Möglichkeit erfordern, ohne Internetverbindung auf Daten zuzugreifen, wofür lokales Equipment erforderlich wäre.
  • Cloudbasierte Datenspeicher sind teuer: Cloudbasierte Speicher können günstiger sein als lokale Lösungen, da keine großen Vorabinvestitionen in die Infrastruktur, keine Kosten für Kühlung oder Stellfläche, keine laufenden Wartungskosten oder keine Teams von internen Experten erforderlich sind. Die monatlichen Kosten variieren je nach Anbieter oder Cloud-Provider.

 

Wie Sie herausfinden, welche Cloud-Speicherlösung für Ihr Unternehmen am besten geeignet ist

Ihr Unternehmen ist einzigartig und verfügt über spezifische Ressourcen, Ziele und Herausforderungen. Prüfen Sie Ihre Optionen sorgfältig, um festzustellen, welche Lösung Ihren Anforderungen am besten entspricht. Beachten Sie Folgendes:

  • Ihre Geschäfts- und Technologieziele
  • Ihr Budget
  • Die Menge der Daten, die gespeichert werden müssen
  • Die Häufigkeit des benötigten Zugriffs
  • Unabhängig davon, ob Sie heute oder kurzfristig spezifische Anforderungen haben

Diese Überlegungen helfen Ihnen zu bestimmen, welche Lösung oder Kombination von Lösungen Ihnen hilft, Ihre Ziele zu erreichen.

IBM Datenrepositorys in der Cloud: Lösungen und Management

IBM bietet verschiedene Lösungen, die Sie bei Ihren Anforderungen in den Bereichen Cloud-Speicher und Data Science unterstützen.

  • IBM Db2 Warehouse on Cloud ist ein flexibles Cloud Data Warehouse, das eine unabhängige Skalierung von Speicherung und Rechenleistung ermöglicht. Kleinere Data Marts können die Funktion Flex One nutzen, ein flexibles Data Warehouse, das zur Analyse mit hoher Leistung entwickelt wurde. Dieses System kann ab 40 GB Speicherplatz bei mehreren Cloud-Providern eingesetzt werden.
  • Eine weitere erwägenswerte Option ist IBM InfoSphere Master Data Management (MDM). Dieses anpassbare System verwaltet alle Aspekte Ihrer kritischen Unternehmensdaten und ermöglicht den Nutzern den Zugriff in einer einzigen, vertrauenswürdigen Ansicht. Über dieses Dashboard können Benutzer detaillierte Analysen durchführen, umsetzbare Erkenntnisse gewinnen und die vollständige Einhaltung von Data Governance und Richtlinien im gesamten Unternehmen sicherstellen.
  • Netezza Performance Server, die nächste Evolutionsstufe der IBM Netezza Appliance, baut auf der hyperkonvergenten Architektur des IBM Cloud Pak for Data System auf und bietet ein cloudnatives Entscheidungssystem zur Unterstützung der komplexesten Analysen Ihres Unternehmens. Es ist jetzt auch auf AWS und Azure verfügbar.
  • IBM Watson Studio, ein Angebot für Data Science und maschinelles Lernen, ermöglicht es Unternehmen, Assets zu nutzen und Prognosen in Geschäftsprozesse und moderne Anwendungen einfließen zu lassen.

    Autor

    Tanmay Sinha

    Program Director, Db2 Portfolio