Ein Data Mart ist eine Teilmenge eines Data Warehouse, die sich auf einen bestimmten Geschäftszweig, eine Abteilung oder einen Themenbereich konzentriert. Data Marts können die Teameffizienz verbessern, Kosten senken und eine intelligentere taktische Entscheidungsfindung in Unternehmen ermöglichen.
Data Marts stellen bestimmte Daten einer definierten Gruppe von Benutzern zur Verfügung, sodass diese Benutzer schnell auf wichtige Erkenntnisse zugreifen können, ohne ihre Zeit mit der Suche in einem ganzen Data Warehouse zu verschwenden. Viele Unternehmen haben beispielsweise einen Data Mart, der auf eine bestimmte Abteilung des Unternehmens abgestimmt ist, z. B. Finanzen, Vertrieb oder Marketing.
Data Marts, Data Warehouses und Data Lakes sind wichtige zentrale Datenspeicher, aber sie dienen unterschiedlichen Zwecken innerhalb eines Unternehmens.
Ein Data Warehouse ist ein System, das Daten aus verschiedenen Quellen in einem einzigen, zentralen und einheitlichen Datenspeicher zusammenfasst, um Data Mining, künstliche Intelligenz (KI) und maschinelles Lernen zu unterstützen, was letztlich anspruchsvolle Analysen und die Business Intelligence verbessern kann. Durch diesen strategischen Erfassungsprozess konsolidieren Data-Warehouse-Lösungen die Daten aus den verschiedenen Quellen, um sie in einer einheitlichen Form verfügbar zu machen.
Ein Data Mart (wie oben erwähnt) ist eine konzentrierte Version eines Data Warehouse, die eine kleinere Teilmenge von Daten enthält, die für ein einzelnes Team oder eine ausgewählte Gruppe von Benutzern innerhalb eines Unternehmens wichtig sind und benötigt werden. Ein Data Mart wird aus einem bestehenden Data Warehouse (oder anderen Datenquellen) durch ein komplexes Verfahren erstellt, das mehrere Technologien und Tools umfasst. Dabei wird eine physische Datenbank konzipiert und aufgebaut und mit Daten befüllt, woraufhin komplizierte Zugriffs- und Verwaltungsprotokolle eingerichtet werden.
Obwohl dies ein anspruchsvoller Prozess ist, ermöglicht er es einem Geschäftsbereich, schneller gezieltere Erkenntnisse zu gewinnen als bei der Arbeit mit einem breiteren Datensatz aus dem Data Warehouse. Beispielsweise können Marketingteams von der Erstellung eines Data Marts aus einem bestehenden Warehouse profitieren, da ihre Aktivitäten in der Regel unabhängig vom Rest des Unternehmens durchgeführt werden. Daher benötigt das Team keinen Zugriff auf alle Unternehmensdaten.
Auch ein Data Lake ist ein Repositorium für Daten. Ein Data Lake bietet massiven Speicherplatz für unstrukturierte oder Rohdaten, die aus mehreren Quellen stammen, aber noch nicht für die Analyse verarbeitet oder aufbereitet wurden. Da Daten in einem Rohformat gespeichert werden können, sind Data Lakes leichter zugänglich und kostengünstiger als Data Warehouses. Die Daten müssen vor der Aufnahme nicht bereinigt oder verarbeitet werden.
Beispielsweise können Behörden Technologien einsetzen, um Daten zum Verkehrsverhalten, zum Stromverbrauch und zu Wasserwegen zu erfassen und in einem Data Lake zu speichern, während sie überlegen, wie sie diese Daten nutzen können, um „intelligentere Städte“ mit effizienteren Dienstleistungen zu schaffen.
Data Marts sind darauf ausgelegt, die Anforderungen bestimmter Gruppen zu erfüllen, indem sie einen vergleichsweise engen Datenbereich abdecken. Ein Data Mart kann zwar immer noch Millionen von Datensätzen enthalten, sein Ziel ist es jedoch, Geschäftsanwendern in kürzester Zeit die relevantesten Daten zur Verfügung zu stellen.
Mit seinem kleineren, fokussierten Design bietet ein Data Mart dem Endnutzer mehrere Vorteile, darunter die folgenden:
Es gibt drei Arten von Data Marts, die sich durch ihre Beziehung zum Data Warehouse und die jeweiligen Datenquellen der einzelnen Systeme unterscheiden.
Ein Data Mart ist eine themenorientierte relationale Datenbank, die Transaktionsdaten in Zeilen und Spalten speichert, wodurch sie leicht zugänglich, organisierbar und verständlich ist. Da sie historische Daten enthält, erleichtert diese Struktur einem Analysten die Ermittlung von Datentrends. Typische Datenfelder sind numerische Reihenfolge, Zeitwert und Verweise auf ein oder mehrere Objekte.
Unternehmen organisieren Data Marts in einem mehrdimensionalen Schema als Blaupause, um die Bedürfnisse der Personen zu erfüllen, die Datenbanken für analytische Aufgaben nutzen. Die drei Haupttypen von Schemata sind Stern, Schneeflocke und Tresor.
Das Sternschema ist eine logische Anordnung von Tabellen in einer multidimensionalen Datenbank, die einer Sternform ähnelt. In diesem Blueprint befindet sich eine Faktentabelle – eine Metrikgruppe, die sich auf ein bestimmtes Geschäftsereignis oder einen bestimmten Geschäftsprozess bezieht – im Zentrum des Sterns, umgeben von mehreren zugehörigen Dimensionstabellen.
Es gibt keine Abhängigkeiten zwischen Dimensionstabellen, sodass ein Sternschema beim Schreiben von Abfragen weniger Joins erfordert. Diese Struktur erleichtert die Abfrage, sodass Sternschemata für Analysten, die auf große Datensätze zugreifen und darin navigieren möchten, äußerst effizient sind.
Ein Schneeflockenschema ist eine logische Erweiterung eines Sternschemas, bei dem der Blueprint durch zusätzliche Dimensionstabellen ergänzt wird. Die Dimensionstabellen werden normalisiert, um die Datenintegrität zu schützen und die Datenredundanz zu minimieren.
Diese Methode benötigt zwar weniger Platz zum Speichern von Dimensionstabellen, aber es handelt sich um eine komplexe Struktur, die schwierig zu verwalten sein kann. Der Hauptvorteil der Verwendung des Snowflake-Schemas ist der geringe Bedarf an Festplattenspeicher, aber der Vorbehalt wirkt sich aufgrund der zusätzlichen Tabellen negativ auf die Leistung aus.
Data Vault ist eine moderne Technik zur Datenbankmodellierung, mit der IT-Experten agile Data Warehouses für Unternehmen entwerfen können. Dieser Ansatz erzwingt eine mehrschichtige Struktur und wurde speziell entwickelt, um Probleme mit Agilität, Flexibilität und Skalierbarkeit zu bekämpfen, die bei der Verwendung der anderen Schemamodelle auftreten.
Der Data Vault macht die Bereinigung des Sternschemas überflüssig und vereinfacht das Hinzufügen neuer Datenquellen, ohne das bestehende Schema zu beeinträchtigen.
Data Marts unterstützen wichtige Geschäftsentscheidungen auf Abteilungsebene. Beispielsweise kann ein Marketingteam Data Marts zur Analyse des Verbraucherverhaltens nutzen, während Vertriebsmitarbeiter Data Marts zur Erstellung von Quartalsberichten verwenden können. Da diese Aufgaben innerhalb der jeweiligen Abteilungen ausgeführt werden, benötigen die Teams keinen Zugriff auf alle Unternehmensdaten.
Normalerweise wird ein Data Mart von der jeweiligen Geschäftsabteilung erstellt und verwaltet, die ihn verwenden möchte. Der Prozess zur Erstellung eines Data Marts umfasst in der Regel die folgenden Schritte:
Wenn die Vorarbeit geleistet ist, können Sie den größtmöglichen Nutzen aus einem Data Mart ziehen, indem Sie spezielle Business-Intelligence-Tools wie Qlik oder SiSense verwenden. Diese Lösungen umfassen ein Dashboard und Visualisierungen, mit denen sich Erkenntnisse aus den Daten leicht erkennen lassen, wodurch letztlich intelligentere Entscheidungen zum Vorteil des Unternehmens getroffen werden können.
Während Data Marts Unternehmen Vorteile wie höhere Effizienz und Flexibilität bieten, stellt das unaufhaltsame Datenwachstum ein Problem für Unternehmen dar, die weiterhin eine lokale Lösung verwenden.
Wenn Data Warehouses in die Cloud verlagert werden, werden Data Marts folgen. Durch die Konsolidierung von Datenressourcen in einem einzigen Repository, das alle Data Marts enthält, können Unternehmen Kosten senken und sicherstellen, dass alle Abteilungen uneingeschränkten Zugriff auf die benötigten Daten in Echtzeit haben.
Cloudbasierte Plattformen ermöglichen die einfache Erstellung, gemeinsame Nutzung und Speicherung riesiger Datensätze und ebnen den Weg für einen effizienteren und effektiveren Datenzugriff und eine effizientere Datenanalyse. Cloud-Systeme sind auf nachhaltiges Unternehmenswachstum ausgelegt. Viele moderne Software-as-a-Service (SaaS)-Anbieter trennen Datenspeicherung von Datenverarbeitung, um die Skalierbarkeit bei der Datenabfrage zu verbessern.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Skalieren Sie ständig verfügbare, leistungsstarke Analysen und KI-Workloads auf verwalteten Daten in Ihrem gesamten Unternehmen
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.