Was ist eine Datenarchitektur?

Eine Datenarchitektur beschreibt, wie Daten verwaltet werden - von der Erfassung über die Transformationen bis hin zur Verteilung und zum Einsatz Sie gibt den Entwurf für Daten und die Art und Weise vor, wie sie durch Datenspeichersysteme fließen. Sie ist die Grundlage für Datenverarbeitungsvorgänge und Anwendungen der künstlichen Intelligenz (KI).

Der Entwurf einer Datenarchitektur sollte sich an den geschäftlichen Anforderungen orientieren, die Datenarchitekten und Dateningenieure nutzen, um das jeweilige Datenmodell und die zugrunde liegenden Datenstrukturen zu definieren, da diese das Modell unterstützen. Diese Entwürfe erleichtern in der Regel einen geschäftlichen Bedarf, z. B. eine Berichterstattungs- oder Datenwissenschaftsinitiative.

Da durch aufstrebende Technologien wie das Internet der Dinge (IoT) neue Datenquellen entstehen, stellt eine gute Datenarchitektur sicher, dass die Daten verwaltbar und nützlich sind und das Data-Lifecycle-Management unterstützt wird. Sie kann insbesondere redundante Datenspeicherung vermeiden, die Datenqualität durch Bereinigung und Deduplizierung verbessern und neue Anwendungen ermöglichen. Moderne Datenarchitekturen bieten auch Mechanismen zur Integration von Daten über verschiedene Bereiche hinweg, z. B. zwischen Abteilungen oder Regionen. Auf diese Weise werden Datensilos aufgebrochen, ohne dass die Speicherung an einem einzigen Ort zu einer großen Komplexität führt.

Moderne Datenarchitekturen nutzen häufig Cloud-Plattformen zur Verwaltung und Verarbeitung von Daten Obwohl es teurer kommen kann, ermöglicht ihre Skalierbarkeit wichtige Datenverarbeitungsaufgaben in kürzester Zeit zu erledigen. Die Skalierbarkeit des Speichers trägt auch dazu bei, steigende Datenmengen zu bewältigen und sicherzustellen, dass alle relevanten Daten bereitstehen, um die Qualität des Trainings von KI-Anwendungen zu verbessern.

Konzeptionelle im Vergleich zu logischen und physischen Datenmodellen

Die Dokumentation der Datenarchitektur umfasst drei Arten von Datenmodellen

Konzeptionelle Modelle: Sie werden auch als Domänenmodelle bezeichnet und bieten einen Überblick darüber, was das System enthalten soll, wie es organisiert sein soll und welche Business Rules beteiligt sind. Konzeptuelle Modelle werden in der Regel als Teil des Prozesses zur Erfassung der ersten Projektanforderungen erstellt. Sie umfassen in der Regel Entitätsklassen (die die Arten von Dingen definieren, die für das Unternehmen wichtig sind und im Datenmodell dargestellt werden müssen), ihre Merkmale und Einschränkungen, die Beziehungen zwischen ihnen und die relevanten Sicherheits- und Datenintegritätsanforderungen.
Logische Datenmodelle: Sie sind weniger abstrakt und stellen detailliertere Informationen über die Konzepte und Beziehungen in dem betrachteten Bereich bereit. Es wird eines von mehreren formalen Notationssystemen für die Datenmodellierung verwendet. Diese geben Datenattribute an, wie z. B. Datentypen und ihre entsprechenden Längen, und zeigen die Beziehungen zwischen den Entitäten. Logische Datenmodelle spezifizieren keine technischen Systemanforderungen.
Physische Datenmodelle: Sie sind weniger abstrakt und liefern detailliertere Informationen über die Konzepte und Beziehungen in dem betrachteten Bereich. Es wird eines von mehreren formalen Notationssystemen für die Datenmodellierung verwendet. Diese geben Datenattribute an, wie z. B. Datentypen und ihre entsprechenden Längen, und zeigen die Beziehungen zwischen den Entitäten. Logische Datenmodelle spezifizieren keine technischen Systemanforderungen.

Vielfach eingesetzte Datenarchitektur-Frameworks

Eine Datenarchitektur kann sich auf gängige Unternehmensarchitektur-Frameworks stützen, darunter TOGAF, DAMA-DMBOK 2 und das Zachman Framework for Enterprise Architecture.

The Open Group Architecture Framework (TOGAF)

Diese Methodik der Unternehmensarchitektur wurde in 1995 von The Open Group entwickelt, bei der IBM ein Platinmitglied.

Die Architektur besteht aus vier Säulen:

Geschäftsarchitektur, die die Struktur, die Geschäftsstrategie und die Prozesse des Unternehmens definiert.
Datenarchitektur, die die konzeptionellen, logischen und physischen Datenbestände und deren Speicherung und Verwaltung während ihres gesamten Lebenszyklus beschreibt.
Anwendungsarchitektur, die die Anwendungssysteme und deren Beziehung zu den wichtigsten Geschäftsprozessen und zueinander darstellt.
Technische Architektur, die die technologische Infrastruktur (Hardware, Software und Netzbetrieb) beschreibt, die zur Unterstützung geschäftskritischer Anwendungen erforderlich ist.

TOGAF bietet somit ein vollständiges Famework für den Entwurf und die Implementierung der IT-Architektur eines Unternehmens, einschließlich der Datenarchitektur.

DAMA-DMBOK 2

DAMA International, ursprünglich als Data Management Association International gegründet, ist eine gemeinnützige Organisation, die sich für die Förderung des Daten- und Informationsmanagements einsetzt. Ihr Data Management Body of Knowledge, DAMA-DMBOK 2, erstreckt sich auf die Datenarchitektur sowie auf Governance und Ethik, Datenmodellierung und -design, Speicherung, Sicherheit und Integration.

Zachman Framework for Enterprise Architecture

Ursprünglich wurde dieses Framework von John Zachman bei IBM in 1987 entwickelt. Er verwendete eine Matrix aus sechs Ebenen, die von kontextuellen bis hin zu detaillierten Informationen reichen und sechs Fragen wie „Warum“, „Wie“ und „Was“ zugeordnet sind. Es bietet eine formale Möglichkeit, Daten zu organisieren und zu analysieren, sieht aber keine Methoden dafür vor.

Arten von Datenarchitekturen und zugrunde liegende Komponenten

Eine Datenarchitektur veranschaulicht aus einer übergeordneten Perspektive, wie verschiedene Datenverwaltungssysteme zusammenarbeiten. Dazu gehören eine Reihe verschiedener Datenspeicher wie Data Lakes, Data Warehouses, Data Marts, Datenbanken und so weiter. Zusammen können sie zu Datenarchitekturen wie Datengewebe und Datennetze führen, die sich immer größerer Beliebtheit erfreuen. Diese Architekturen legen den Schwerpunkt stärker auf Daten als Produkte. Sie sorgen für eine stärkere Standardisierung von Metadaten und eine zunehmende Demokratisierung von Daten in verschiedenen Unternehmen über APIs.

Im folgenden Abschnitt werden die einzelnen Speicherkomponenten und Datenarchitekturtypen näher erläutert:

Arten von Datenverwaltungssystemen

Data-Warehouse:Ein Data-Warehouse fasst Daten aus verschiedenen relationalen Datenquellen eines Unternehmens in einem einzigen, zentralen und konsistenten Repository zusammen. Nach der Extraktion durchlaufen die Daten eine ETL-Datenpipeline. Sie werden verschiedenen Datentransformationen unterzogen, um dem vordefinierten Datenmodell zu entsprechen. Sobald die Daten in das Data-Warehouse geladen sind, unterstützen sie verschiedene Business Intelligence (BI)- und Data Science-Anwendungen.
Data-Marts: Ein Data-Mart ist eine fokussierte Version eines Data-Warehouse, die eine kleinere Teilmenge von Daten enthält, die für ein einzelnes Team oder eine ausgewählte Gruppe von Benutzern, wie z. B. die Personalabteilung, wichtig sind und von ihnen benötigt werden. Da sie eine kleinere Teilmenge von Daten enthalten, ermöglichen Data-Marts einer Abteilung oder einem Geschäftszweig, gezieltere Erkenntnisse schneller zu gewinnen, als dies bei der Arbeit mit dem breiteren Data-Warehouse-Datensatz möglich ist. Data-Marts entstanden ursprünglich als Reaktion auf die Schwierigkeiten, die Unternehmen in den 1990er Jahren bei der Einstellung von Data-Warehouses bewältigen mussten. Die Integration von Daten, die aus dem gesamten Unternehmen stammten, erforderte damals viel manuelle Codierung und war unpraktisch und zeitaufwändig. Aufgrund des begrenzteren Umfangs der Data-Marts waren sie einfacher und schneller zu implementieren als zentralisierte Data- Warehouses.
Data-Lakes:Im Gegensatz zu Data-Warehouses, in denen verarbeitete Daten gespeichert werden, beherbergt ein Data-Lake in der Regel Petabytes an Rohdaten. Ein Data-Lake kann sowohl strukturierte als auch unstrukturierte Daten speichern, was ihn von anderen Datenspeichern unterscheidet. Diese Flexibilität bei den Speicheranforderungen ist besonders für Datenwissenschaftler, Dateningenieure und Entwickler nützlich, weil sie dadurch auf Daten für Datenerkennungsübungen und Projekte zum maschinellen Lernen zugreifen können. Data-Lakes wurden ursprünglich als Reaktion auf das Versagen von Data-Warehouses bei der Bewältigung des wachsenden Volumens, der Geschwindigkeit und der Vielfalt von Big Data geschaffen. Data-Lakes sind zwar langsamer als Data-Warehouses, aber auch kostengünstiger, da vor der Aufnahme der Daten nur eine geringe oder gar keine Datenaufbereitung stattfindet. Heute werden sie im Rahmen der Datenmigration in die Cloud weiterentwickelt. Data-Lakes unterstützen eine breite Palette von Anwendungsfällen, da die Geschäftsziele für die Daten nicht zum Zeitpunkt der Datenerfassung definiert werden müssen. Zu den beiden wichtigsten gehören jedoch die Erforschung der Datenwissenschaft und die Datensicherung und -wiederherstellung. Datenwissenschaftler können Data-Lakes für Machbarkeitsstudien (Proof-of-Concepts) nutzen. Anwendungen für maschinelles Lernen profitieren von der Möglichkeit, strukturierte und unstrukturierte Daten am selben Ort zu speichern, was mit einem relationalen Datenbanksystem nicht möglich ist. Data-Lakes können auch zum Testen und Entwickeln von Big-Data-Analyseprojekten verwendet werden. Nach der Entwicklung der Anwendung und der Ermittlung der nützlichen Daten können diese in ein Data-Warehouse exportiert werden, um sie für den Betrieb zu nutzen. Durch die Automatisierung lässt sich die Anwendung skalieren. Data-Lakes können auch für die Datensicherung und -wiederherstellung genutzt werden, da sie zu geringen Kosten skaliert werden können. Aus denselben Gründen eignen sich Data-Lakes für die Speicherung von Daten, für die noch keine Geschäftsanforderungen definiert wurden, und zwar „nur für den Fall der Fälle“. Wenn die Daten jetzt gespeichert werden, stehen sie auch später noch zur Verfügung, wenn neue Initiativen aufkommen.

Arten von Datenarchitekturen

Data-Fabric: EineData-Fabric ist eine Architektur, die sich auf die Automatisierung von Datenintegration, Data Engineering und Governance in einer Datenwertschöpfungskette zwischen Datenanbietern und Datenkonsumenten konzentriert. Eine Data-Fabric basiert auf dem Konzept der „aktiven Metadaten“, das Wissensgraphen, Semantik, Data-Mining und die Technologie des maschinellen Lernens (ML) einsetzt, um Muster in verschiedenen Arten von Metadaten (z. B. Systemprotokolle, soziale Daten usw.) zu ermitteln. Im Anschluss daran werden diese Erkenntnisse genutzt, um die Datenwertschöpfungskette zu automatisieren und zu orchestrieren. Ein Datenkonsument kann zum Beispiel ein Datenprodukt finden und dieses dann automatisch bereitgestellt bekommen. Der verbesserte Datenzugriff zwischen Datenprodukten und Datenkonsumenten führt zu einer Verringerung der Datensilos und bietet ein vollständigeres Bild der Unternehmensdaten. Data-Fabrics gehören zu den aufstrebenden Technologien mit enormem Potenzial und können zur Erstellung von Kundenprofilen, zur Betrugserkennung und zur vorbeugenden Wartung eingesetzt werden. Laut Gartner reduzieren Data-Fabrics die Entwicklungszeit für die Integration um 30 %, die Bereitstellungszeit um 30 % und die Wartungszeit um 70 %.

Datennetze: EinDatennetz (Data Mesh) ist eine dezentralisierte Datenarchitektur, die die Daten nach Geschäftsbereichen organisiert. Wenn ein Datennetz verwendet wird, kann ein Unternehmen aufhören, Daten als Nebenprodukt eines Prozesses zu betrachten. Stattdessen kann es beginnen, Daten als eigenständige Produkte zu betrachten. Datenproduzenten agieren als Eigentümer von Datenprodukten. Da die Datenproduzenten Experten auf diesem Gebiet sind, können sie ihr Wissen über die Hauptverbraucher der Daten nutzen, um APIs für diese zu entwickeln. Auf diese APIs kann auch von anderen Teilen des Unternehmens aus zugegriffen werden, so dass ein breiterer Zugriff auf die verwalteten Daten möglich ist.

Tradionionelle Speichersysteme wie Data-Lakes und Data-Warehouses können als multiple, dezentrale Datenspeicher verwendet werden, um ein Datennetz zu realisieren. Ein Datennetz kann auch mit einer Data-Fabric zusammenwirken, wobei die Automatisierung der Data-Fabric die schnellere Erstellung neuer Datenprodukte oder die Durchsetzung einer globalen Governance ermöglicht.

Vorteile von Datenarchitekturen

Eine gut konstruierte Datenarchitektur kann Unternehmen eine Reihe von Vorteilen bieten, unter anderem:

Reduzierung der Redundanz: Es kann zu Überlappungen von Datenfeldern in verschiedenen Quellen kommen. Dies birgt das Risiko von Inkonsistenzen, ungenauen Daten und verpassten Möglichkeiten der Datenintegration. Eine gute Datenarchitektur kann die Art und Weise der Datenspeicherung standardisieren und möglicherweise doppelte Arbeit vermeiden, was eine bessere Qualität und ganzheitliche Analysen ermöglicht.
Verbesserung der Datenqualität: Gut durchdachte Datenarchitekturen können einige der Probleme schlecht verwalteter Data-Lakes, auch bekannt als „Datensümpfe“, lösen. Einem Datensumpf mangelt es an angemessener Datenqualität und Datengovernance-Praktiken, um aufschlussreiche Erkenntnisse bereitzustellen. Datenarchitekturen können zur Durchsetzung von Datengovernance- und Datensicherheitsstandards beitragen, so dass die Datenpipeline wie vorgesehen funktionieren kann. Durch die Verbesserung von Datenqualität und Governance können Datenarchitekturen sicherstellen, dass die Daten so gespeichert werden, dass sie jetzt und in Zukunft nützlich sind.
Ermöglichung der Integration: Daten wurden häufig aufgrund technischer Beschränkungen bei der Datenspeicherung und organisatorischer Hindernisse innerhalb des Unternehmens isoliert. Heutige Datenarchitekturen sollten darauf abzielen, die bereichsübergreifende Datenintegration zu erleichtern, so dass verschiedene Regionen und Geschäftsfunktionen Zugang zu den Daten der jeweils anderen haben. Dies führt zu einem besseren und einheitlicheren Verständnis gemeinsamer Kennzahlen (z. B. Ausgaben, Einnahmen und die damit verbundenen Antriebsfaktoren). Es ermöglicht auch eine ganzheitliche Sicht auf Kunden, Produkte und Regionen, um eine bessere Entscheidungsfindung zu ermöglichen.
Data-Lifecycle-Management: Eine moderne Datenarchitektur kann berücksichtigen, wie Daten im Laufe der Zeit verwaltet werden Je älter die Daten sind und je seltener sie abgerufen werden, desto weniger nützlich sind sie in der Regel. Im Laufe der Zeit können die Daten auf billigere, langsamere Speichertypen migriert werden, damit sie für Berichte und Audits verfügbar bleiben, ohne dass sie Kosten für Hochleistungsspeicher verursachen.

Moderne Datenarchitektur

Wenn Unternehmen ihre Roadmap für die Anwendungen von morgen erstellen - einschließlich KI, Blockchain und Workloads des Internets der Dinge (IoT) - benötigen sie eine moderne Datenarchitektur, die die Datenanforderungen unterstützen kann.

Die sieben wichtigsten Merkmale einer modernen Datenarchitektur sind:

Cloudnativ und cloudfähig, damit die Datenarchitektur von der elastischen Skalierung und hohen Verfügbarkeit der Cloud Nutzen erzielen kann
Robuste, skalierbare und übertragbare Datenpipelines, die intelligente Workflows, kognitive Analysen und Echtzeit-Integration in einem einzigen Framework vereinen.
Nahtlose Datenintegration, unter Verwendung von Standard-API Schnittstellen, um Verbindung zu traditionellen Anwendungen herzustellen.
Datenaktivierung in Echtzeit, einschließlich Validierung, Klassifizierung, Verwaltung und Governance.
Entkoppelt und erweiterbar, so dass es keine Abhängigkeiten zwischen den Services gibt und offene Standards die Interoperabilität ermöglichen.
Basierend auf gemeinsamen Datendomänen, Ereignissen und Microservices.
Optimiert für ein ausgewogenes Verhältnis zwischen Kosten und Einfachheit.

IBM Lösungen

IBM Cloud Pak for Data

IBM Cloud Pak for Data ist eine offene, erweiterbare Datenplattform, die ein Data Fabric zur Verfügung stellt, um alle Daten für KI und Analytics in jeder Cloud verfügbar zu machen.

IBM Cloud Pak for Data kennenlernen

IBM® Watson Studio

Erstellen Sie KI-Modelle, führen Sie sie aus und verwalten Sie sie. Bereiten Sie Daten vor und erstellen Sie Modelle in jeder beliebigen Cloud mit Open-Source-Code oder visueller Modellierung. Prognostizieren und optimieren Sie Ihre Ergebnisse.

IBM Watson Studio kennenlernen

IBM® Db2 on Cloud

Erfahren Sie mehr über Db2 on Cloud, eine vollständig verwaltete SQL-Cloud-Datenbank, die für eine robuste Leistung konfiguriert und optimiert ist.

IBM Db2 on Cloud kennenlernen

Machen Sie den nächsten Schritt

IBM unterstützt die Implementierung moderner Datenarchitekturen durch seine Data-Fabric-Lösungen. Der Ansatz von IBM für eine Data-Fabric ist die Lösung für vier wichtige gemeinsame Kundenprobleme: Datengovernance und Datenschutz, Multicloud-Datenintegration, MLOps und vertrauenswürdige KI und Customer 360, die alle auf der Hybrid-Cloudplattform von IBM Cloud Pak for Data bereitgestellt werden.

Weitere Informationen zu IBM Cloud Pak for Data