Ein IBM-Architekturleitfaden für Data Fabric

Überblick

Data Fabric ist ein Architekturmuster, das darauf abzielt, die Datennutzung in Unternehmen zu maximieren, unabhängig von der Art und dem Format der Daten, den Datenquellen, dem Speicherort der Daten und der Art der Datennutzung. Die verschiedenen Aspekte des Datenlebenszyklus, vom Datenzugriff bis zur Datennutzung, die von Data Fabric abgedeckt werden, sind Datenerkennung, Data Governance, Datenqualität, Datenklassifizierung, Geschäftskontextzuordnung, Datenabstammung, Self-Service und Datenoperationalisierung, um die richtigen Daten am richtigen Ort und zur richtigen Zeit verfügbar zu machen. Klicken Sie hier, um weitere Hinweise zu erhalten.

Die Referenzarchitektur für Data Fabric ist eine Vorlage, die Unternehmen als Leitfaden nutzen können, um verschiedene Komponenten von Data Fabric in ihren jeweiligen Umgebungen zu implementieren. Die Data Fabric-Referenzarchitektur besteht aus fünf Hauptmodulen – nämlich Metadatenimport, Metadatenanreicherung, Metadatenkatalogisierung, Datenpflege und Transformation sowie Datennutzung. Diese Module sind entscheidend, um die oben genannten Vorteile von Data Fabric zu nutzen.

Die Referenzarchitektur umfasst Schlüsselkomponenten, die beteiligten Schritte und die Architekturentscheidungen für jede Komponente, die bei der Verwirklichung des Ziels der fünf Module helfen können. Außerdem werden die verschiedenen Technologieoptionen behandelt, die in der IBM Technologielandschaft zur Implementierung der Komponenten und Schritte verfügbar sind.

Für das Modul Datennutzung wird das generische Nutzungs- und Verbrauchsmuster unter der Annahme abgedeckt, dass die Details jedes Anwendungsfalls durch die jeweilige Referenzarchitektur jedes Anwendungsfalls abgedeckt werden. Von Interesse dürfte auch die Gesamtreferenzarchitektur für Daten und KI sein.

Diagramm zur Darstellung einer Data Fabric

IBM Z im Überblick

Die IBM Z Systems Data Fabric Referenzarchitektur ist eine Spezialisierung des umfassenderen IBM Data and Analytics Data Fabric Architekturmusters, das darauf abzielt, die Datennutzung in Unternehmen unabhängig von Art und Format der Daten, Datenquellen, Speicherort der Daten und Art der Datennutzung zu optimieren. Die verschiedenen Aspekte des Datenlebenszyklus, vom Datenzugriff bis zur Nutzung, die von Data Fabric abgedeckt werden, sind Datenerkennung, Data Governance, Datenqualität, Datenklassifizierung, Geschäftskontextzuordnung, Datenabstammung, Self-Service und Datenoperationalisierung, um die richtigen Daten am richtigen Ort und zur richtigen Zeit verfügbar zu machen. Hier finden Sie weitere Anleitungen:

Die Spezialisierung des breiteren Data Fabric-Architekturmusters in Bezug auf IBM Z Systeme geht auf zwei Aspekte ein:

• Der Umgang mit Governance und der Zugriff auf verschiedene Datenquellen auf IBM Z-Systemen (z. B. VSAM, IMS, DB2, ...)
• Linux auf IBM Z oder LinuxONE (MongoDB,...) und
• Implementierung von Komponenten der unternehmensweiten Data Fabric-Architektur auf IBM Z Systems und Linux auf IBM Z/LinuxONE. Die Lösung umfasst Komponenten, die auf zSystems / LinuxONE und/oder externen Systemen laufen.

Die Referenzarchitektur für Data Fabric ist eine Vorlage, die Unternehmen als Leitfaden nutzen können, um verschiedene Komponenten von Data Fabric in ihren jeweiligen Umgebungen zu implementieren. Die Data Fabric-Referenzarchitektur besteht aus fünf Schlüsselmodulen – nämlich Metadatenimport, Metadatenanreicherung, Metadatenkatalogisierung, Datenpflege und Transformation sowie Datennutzung Diese Module sind entscheidend, um die oben genannten Vorteile von Data Fabric zu nutzen.

Die Referenzarchitektur umfasst Schlüsselkomponenten, die beteiligten Schritte und die Architekturentscheidungen für jede Komponente, die bei der Verwirklichung des Ziels der fünf Module helfen können. Außerdem werden die verschiedenen Technologieoptionen behandelt, die in der IBM Technologielandschaft zur Implementierung der Komponenten und Schritte verfügbar sind.

Für das Modul Datennutzung wird das generische Nutzungs- und Verbrauchsmuster unter der Annahme abgedeckt, dass die Details jedes Anwendungsfalls durch die jeweilige Referenzarchitektur jedes Anwendungsfalls abgedeckt werden. Die Anwendungsmodernisierung für die IBM-Z-Architektur beschreibt weitere architektonische Muster für modernen, einfacheren Zugriff auf System-of-Record (SOR) Daten auf IBM Z und LinuxONE sowie verschiedene datenintegrationszentrierte Muster. Dies ist wichtig, um Einblicke in den datengesteuerten Geschäftswert zu gewinnen, da Anwendungen System-of-Record-Daten (SOR) gemeinsam nutzen, entweder durch direkten Zugriff, Replikation, Caching oder Datenvirtualisierungskonzepte, die Datenbestände im gesamten Unternehmen kombinieren.

Von Interesse dürfte auch die Gesamtreferenzarchitektur für Daten, Analysen und KI sein:

Diagramm zur Darstellung einer Referenzarchitektur für Data Fabric

Name

Problemstellung

Annahmen

Motivation

Datenstandort, Schweregrad und Souveränität

AD01

Angemessene Kontroll- und Datenzugriffsmethoden müssen vorhanden sein, um Verfügbarkeit und regulatorische Anforderungen zu unterstützen.

Die gewählte Implementierungsmethode hat direkte Auswirkungen auf die Kosten, die Realisierbarkeit der Latenzanforderungen, die Einhaltung behördlicher Auflagen und die allgemeine Kundenzufriedenheit.

Angemessene Kontroll- und Datenzugriffsmethoden müssen vorhanden sein, um Verfügbarkeit und regulatorische Anforderungen zu unterstützen.

Datenbewegung und Replikation sollten minimiert werden, um Einfachheit, Governance, Kosten und regulatorische Bedenken zu verbessern und gleichzeitig eine effektive, resiliente und flexible Plattform für die Analyse (einschließlich Deep Analytics, Decision Optimization und KI-Workloads) bereitzustellen.

Die gewählte Implementierungsmethode hat direkte Auswirkungen auf die Kosten, die Realisierbarkeit der Latenzanforderungen, die Einhaltung behördlicher Auflagen und die allgemeine Kundenzufriedenheit..

Basierend auf dem Speicherort der Daten wird bestimmt, ob die Daten verschoben oder virtuell abgerufen werden sollen, basierend auf der Workload, Latenz und rechtlichen Überlegungen, genau zum richtigen Zeitpunkt.

Wissenskatalog(e) Unternehmen und Beziehungen

AD02

Unternehmen müssen möglicherweise die Existenz mehrerer Kataloge unterstützen, abhängig von den verschiedenen Anforderungen, wie der Existenz hybrider Multi-Cloud-Ökosysteme, in denen Kataloge virtuell miteinander verbunden werden müssen. Weitere Katalogstrukturen können auf Projekt-, LOB- und Unternehmensüberlegungen basieren. Möglicherweise besteht auch der Bedarf an experimentellen/Sandbox-Instanzen für die Entwicklung innerhalb von Unternehmen.

Die Instanziierung des Katalogs sollte so implementiert werden, dass die Bedürfnisse des Unternehmens unterstützt werden, ohne dass die Verwaltung und der Zugriff auf den Katalog übermäßig komplex sind.

Die Katalogauswahl wirkt sich auf die Fähigkeiten des Unternehmens aus, Daten aus internen Ökosystemen und potenziellen Geschäftspartner-Ökosystemen zu nutzen.

Datenbestände und Beziehungen, einschließlich Metadatenerfassung und -anreicherung

AD03

Datenbestände werden in immer größerem Tempo erstellt und verbraucht. Unternehmen können sich bei der Erfassung und Katalogisierung von Datenbeständen und den dazugehörigen Metadaten nicht mehr auf manuelle und wenig automatisierte Prozesse verlassen.

Automatisierung ist der Schlüssel zur rechtzeitigen Erfassung und Anreicherung der Metadaten, die für die verschiedenen Datenbestände erstellt werden.

Ohne Automatisierung sind Unternehmen nicht in der Lage, einen aktuellen und nutzbaren Datenbestandskatalog zu pflegen, was wiederum die Fähigkeit der Unternehmen einschränkt, ihre Datenbestände zu nutzen, um als datengesteuertes Unternehmen voranzukommen.

Sicherstellung der geeigneten Transformation und Pflege auf der Grundlage der jeweiligen Workload und Berücksichtigung nichtfunktionaler Anforderungen

AD04

Unternehmen benötigen verschiedene Arten von Implementierungen (z. B. in Echtzeit, nahezu in Echtzeit (Streaming), Batch (mikro/mini/groß) für kleine, mittlere, große und extrem große Workloads, die Transformation und Pflege benötigen.

Unabhängig vom gewählten Implementierungsweg müssen die Transformationen und Pflege der Daten konstant bleiben, damit die entsprechenden Funktionen für Data Science, Analyse und Reporting korrekt sind.

Die Auswahl der geeigneten Methode zur Datenkonvertierung und -pflege gewährleistet, dass das Unternehmen in der Lage ist, seine Ziele in verschiedenen Anwendungsfällen zu erreichen, einschließlich vertrauenswürdiger KI, Customer 360 und Erkenntnisentwicklung.

Ressourcen

Was ist eine Data Fabric-Architektur?

Lesen Sie in diesem Blog-Beitrag mehr über die sechs Kernfunktionen einer Data Fabric-Architektur.