Startseite
Themen
Moderne Datenplattform
Eine moderne Datenplattform ist eine Suite von cloudnativen Cloud-First-Softwareprodukten, die die Erfassung, Bereinigung, Transformation und Analyse der Daten eines Unternehmens ermöglichen, um die Entscheidungsfindung zu verbessern.
Die heutigen Datenpipelines werden immer komplexer und bedeutender für Datenanalysen und datengesteuerte Entscheidungen. Eine moderne Datenplattform schafft Vertrauen in diese Daten, indem sie sie in einer Weise aufnimmt, speichert, verarbeitet und umwandelt, die genaue und zeitnahe Informationen gewährleistet, Datensilos reduziert, Self-Service ermöglicht und die Datenqualität verbessert.
Eine moderne Datenplattform, auch als moderner Datenstack bezeichnet, besteht aus fünf entscheidenden Grundschichten: Datenspeicherung und -verarbeitung, Datenaufnahme, Datenkonvertierung, Business Intelligence (BI) sowie Analyse und Datenbeobachtbarkeit.
Die beiden Grundprinzipien moderner Datenplattformen sind:
Erfahren Sie, wie Sie durch proaktive Datenbeobachtbarkeit Datenvorfälle früher erkennen und schneller beheben können.
Eine moderne Datenplattform wird nicht nur von Technologie, sondern auch von den Philosophien DevOps, DataOps und Agil unterstützt. Obwohl DevOps und DataOps völlig unterschiedliche Zwecke erfüllen, ähneln beide der agilen Philosophie, die darauf abzielt, die Projektarbeitszyklen zu beschleunigen.
DevOps konzentriert sich auf die Produktentwicklung, während sich DataOps auf die Erstellung und Pflege eines verteilten Datenarchitektursystems konzentriert, das einen geschäftlichen Nutzen aus den Daten zieht.
Agil ist eine Philosophie für die Softwareentwicklung, die Geschwindigkeit und Effizienz fördert, ohne jedoch den „menschlichen“ Faktor zu eliminieren. Sie legt den Schwerpunkt auf persönliche Gespräche, um die Kommunikation zu maximieren, und betont gleichzeitig die Automatisierung als Mittel zur Minimierung von Fehlern.
Die erste grundlegende Schicht einer modernen Datenplattform ist die Speicherung und Verarbeitung.
Moderne Datenspeichersysteme sind auf die effiziente Nutzung von Daten ausgerichtet. Dazu zählt, wo die Daten gespeichert sind und wie sie verarbeitet werden sollen. Die beiden beliebtesten Speicherformate sind Data Warehouses und Data Lakes, wobei Data Lakehouses und Data Mesh zunehmend beliebter werden.
Das Data Warehouse
Data Warehouses sind für die Verwaltung strukturierter Daten mit klaren und definierten Anwendungsfällen konzipiert.
Der Einsatz von Data Warehouses lässt sich bis in die 1990er Jahre zurückverfolgen, als Datenbanken zur Speicherung von Daten genutzt wurden. Diese Data Warehouses waren lokal und hatten eine sehr begrenzte Speicherkapazität.
Etwa im Jahr 2013 begann die Verlagerung von Data Warehouses in die Cloud, wo plötzlich Skalierbarkeit möglich war. Cloudbasierte Data Warehouses sind nach wie vor das bevorzugte Datenspeichersystem, da sie die Rechenleistung und Verarbeitungsgeschwindigkeit optimieren.
Damit ein Data Warehouse ordnungsgemäß funktioniert, müssen die Daten gesammelt, neu formatiert, bereinigt und in das Warehouse hochgeladen werden. Alle Daten, die nicht neu formatiert werden können, können verloren gehen.
Der Data Lake
Im Januar 2008 veröffentlichte Yahoo Hadoop (basierend auf NoSQL) als Open-Source-Projekt für die Apache Software Foundation. Data Lakes wurden ursprünglich auf Hadoop aufgebaut, waren skalierbar und für den lokalen Einsatz konzipiert. Leider ist das Hadoop-Ökosystem extrem komplex und schwer zu bedienen. Um 2015 begann die Verlagerung von Data Lakes in die Cloud, wodurch sie deutlich kostengünstiger und benutzerfreundlicher wurden.
Data Lakes wurden ursprünglich entwickelt, um rohe, unstrukturierte Daten zu sammeln, ohne dass Schemata (Formate) vorgeschrieben sind, damit Forschende mehr Erkenntnisse aus einem breiten Spektrum von Daten gewinnen können. Aufgrund von Problemen beim Parsen alter, ungenauer oder unbrauchbarer Informationen können Data Lakes zu weniger effektiven „Data Swamps“ werden.
Eine typische Data-Lake-Architektur kann Daten auf einem Object Storage wie Amazon S3 von AWS speichern, gepaart mit einem Tool wie Spark zur Verarbeitung der Daten.
Das Data Lakehouse
Data Lakehouses vereinen die Flexibilität, Kosteneffizienz und Skalierbarkeit von Data Lakes mit den Datenverwaltungsfunktionen und ACID-Transaktionen (Atomarität, Konsistenz, Isolation und Dauerhaftigkeit) von Data Warehouses. (ACID ist ein Akronym für die 4 Haupteigenschaften, die eine Transaktion definieren: Atomarität, Konsistenz, Isolation und Dauerhaftigkeit.)
Data Lakehouses unterstützen BI und maschinelles Lernen und ein Hauptvorteil des Data Lakehouses besteht darin, Metadatenschichten zu verwenden. Data Lakehouses verwenden außerdem eine neue Abfrage-Engine, die für leistungsstarke SQL-Suchen entwickelt wurde.
Data Mesh
Im Gegensatz zu Data Warehouses, Data Lakes und Data Lakehouses dezentralisiert ein Data Mesh das Dateneigentum. Bei diesem Architekturmodell besitzt eine bestimmte Domäne (z. B. Geschäftspartner oder Abteilung) ihre Daten nicht, sondern teilt sie frei mit anderen Domänen. Das bedeutet, dass alle Daten innerhalb des Datennetzsystems ein einheitliches Format beibehalten sollten.
Data-Mesh-Systeme können für Unternehmen nützlich sein, die mehrere Datendomänen unterstützen. Innerhalb des Data-Mesh-Designs gibt es eine Data-Governance-Schicht und eine Beobachtbarkeitsschicht. Weiterhin gibt es eine universelle Interoperabilitätsschicht.
Data Mesh kann für Unternehmen nützlich sein, die schnell wachsen und Skalierbarkeit für die Datenspeicherung benötigen.
Der Prozess des Einspeicherns von Daten in ein Speichersystem zur späteren Verwendung wird als Datenaufnahme bezeichnet und ist die zweite Schicht einer modernen Datenplattform.
Einfach ausgedrückt bedeutet Datenaufnahme, Daten aus verschiedenen Quellen an einen zentralen Ort zu verschieben. Von dort aus können die Daten zu Aufzeichnungszwecken oder zur weiteren Verarbeitung und Analyse verwendet werden, wofür zugängliche, konsistente und genaue Daten benötigt werden.
Unternehmen treffen Geschäftsentscheidungen anhand der Daten aus ihrer Analyse-Infrastruktur. Der Wert dieser Daten hängt davon ab, wie gut sie aufgenommen und integriert wurden. Wenn es während des Aufnahmeprozesses Probleme gibt, z. B. fehlende oder veraltete Datensätze, wird jeder Schritt des Analyseprozesses dadurch beeinträchtigt. Dies gilt insbesondere, wenn es um Big Data geht.
Modelle der Datenverarbeitung
Die Datenaufnahme kann auf unterschiedliche Weise erfolgen, und die Art und Weise, wie eine bestimmte Datenaufnahmeschicht entworfen wird, kann auf unterschiedlichen Verarbeitungsmodellen basieren. Daten können aus einer Vielzahl unterschiedlicher Quellen stammen, darunter SaaS-Plattformen, Internet-of-Things-Geräte (IoT) und mobile Geräte. Ein gutes Datenverarbeitungsmodell dient als Grundlage für eine effiziente Datenstrategie. Daher müssen Unternehmen entscheiden, welches Modell für ihre Situation am besten geeignet ist.
Die nächste Schicht, die Datenkonvertierung, befasst sich mit der Änderung der Werte, der Struktur und des Formats von Daten, was bei Datenanalyseprojekten häufig erforderlich ist. Bei Verwendung einer Datenpipeline können Daten entweder vor oder nach der Ankunft am Speicherziel konvertiert werden.
Bis vor Kurzem verwendeten moderne Datenerfassungsmodelle ein ETL--Verfahren (Extrahieren, Transformieren, Laden), um Daten aus ihrer Quelle zu entnehmen, sie neu zu formatieren und an ihr Ziel zu transportieren. Dieses Verfahren ergab Sinn, als Unternehmen teure interne Analysesysteme verwenden mussten. Durch die Durchführung der Vorbereitungsarbeiten vor der Auslieferung, einschließlich der Konvertierungen, konnten die Kosten gesenkt werden. Unternehmen, die weiterhin lokale Data Warehouses verwenden, nutzen normalerweise einen ETL-Prozess.
Viele Unternehmen bevorzugen heute cloudbasierte Data Warehouses (IBM, Snowflake, Google BigQuery, Microsoft Azure und andere), da sie dadurch Rechen- und Speicherressourcen nach Bedarf skalieren können. Durch die Cloud-Skalierbarkeit können Konvertierungen vor der Installation umgangen werden, sodass Rohdaten schneller an das Data Warehouse gesendet werden können. Die Daten werden dann nach dem Eintreffen mithilfe eines ELT-Modells (Extrahieren, Laden, Transformieren) konvertiert – typischerweise bei der Beantwortung einer Anfrage.
Zu diesem Zeitpunkt können die Daten in ein SQL-Format übersetzt und während der Forschung im Data Warehouse ausgeführt werden.
Die Datenkonvertierung hat mehrere Vorteile:
Die vierte Schicht der modernen Datenplattform besteht aus Analyse- und Business Intelligence-Tools (BI).
1865 stellte Richard Millar Devens den Begriff „Business Intelligence“ in der „Cyclopædia of Commercial and Business Anecdotes“ vor. Er benutzte diesen Begriff, um zu beschreiben, wie der Bankier Sir Henry Furnese von Informationen profitierte, indem er sie sammelte und vor seiner Konkurrenz nutzte.
Derzeit werden viele Geschäftsinformationen aus Geschäfts- und Datenanalysen gesammelt. Mit BI- und Analysetools können Daten abgerufen, analysiert und in Visualisierungen umgewandelt werden, die verständliche Erkenntnisse liefern. Wenn Forschende und Data Scientists mit detaillierten Informationen versorgt werden, können sie taktische und strategische Geschäftsentscheidungen treffen.
Die letzte der fünf Grundschichten einer modernen Datenplattform ist die Datenbeobachtbarkeit.
Datenbeobachtbarkeit beschreibt die Fähigkeit, den Zustand von Daten zu beobachten und zu verfolgen. Sie umfasst eine Reihe von Aktivitäten und Technologien, die es dem Benutzer ermöglichen, Datenschwierigkeiten nahezu in Echtzeit zu erkennen und zu beheben.
Die Beobachtbarkeit ermöglicht es Datenentwicklungsteams, spezifische Fragen darüber zu beantworten, was in extrem verteilten Systemen hinter den Kulissen vor sich geht. Sie kann zeigen, wo sich Daten langsam bewegen und was kaputt ist.
Manager, Datenteams und verschiedene andere Stakeholder können Warnungen über potenzielle Probleme erhalten, damit sie diese proaktiv lösen können. Die Vorhersagbarkeitsfunktion kann zwar hilfreich sein, garantiert jedoch nicht, dass alle Probleme erkannt werden.
Um die Datenbeobachtbarkeit nutzbar zu machen, müssen diese Funktionen enthalten sein:
Für viele Unternehmen ist die Beobachtbarkeit isoliert, was bedeutet, dass nur bestimmte Abteilungen auf die Daten zugreifen können. Philosophisch gesehen löst ein Data-Mesh-System dieses Problem, indem es die gemeinsame Nutzung von Daten erfordert, wovon in herkömmlichen Speicher- und Verarbeitungssystemen im Allgemeinen abgeraten wird.
Zusätzlich zu den fünf oben genannten grundlegenden Schichten gehören zu den weiteren Schichten, die in einem modernen Datenstack üblich sind:
Unzugängliche Daten sind im Wesentlichen nutzlose Daten. Die Datenerkennung trägt dazu bei, dass diese nicht einfach nur herumliegen. Sie sammelt, bewertet und untersucht Daten aus verschiedenen Quellen, um Führungskräften ein Verständnis für die in den Daten gefundenen Trends und Muster zu vermitteln. Sie kann Daten bereinigen und aufbereiten und wird manchmal mit BI in Verbindung gebracht, weil sie siloartige Daten zur Analyse zusammenführen kann.
Moderne Datenplattformen legen Wert auf Data-Governance und -Sicherheit, um sensible Informationen zu schützen, die Einhaltung von Vorschriften zu gewährleisten und die Datenqualität zu verwalten. Tools, die diese Schicht unterstützen, umfassen Datenzugriffskontrolle, Verschlüsselung, Prüfung und Datenabstammungsverfolgung.
Die Datenkatalogisierung und das Metadatenmanagement sind entscheidend für das Finden und Verstehen verfügbarer Daten-Assets. Dies hilft Benutzern, die richtigen Daten für ihre Analyse zu finden.
Einige moderne Datenplattformen bieten maschinelles Lernen und KI-Funktionen für prädiktive Analysen, Anomalieerkennung und eine automatisierte Entscheidungsfindung.
IBM® Databand® ist eine Beobachtbarkeitssoftware für Data-Pipelines und -Warehouses, die Metadaten automatisch erfasst, um historische Baselines zu erstellen, Unregelmäßigkeiten zu erkennen und Warnungen zu sichten, um Probleme mit der Datenqualität zu beheben.
IBM® DataStage® unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.
IBM® Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.
Tauchen Sie tief in das Thema Datenbeobachtung ein, um zu verstehen, warum sie wichtig ist und wie sie sich zusammen mit modernen Datensystemen und bewährten Best Practices für die Implementierung eines Datenbeobachtbarkeitsframeworks entwickelt hat.
Erfahren Sie, was ELT ist, wie der Prozess funktioniert, wie er sich von ETL unterscheidet und welche Herausforderungen, Einschränkungen sowie Best Practices es bei der Implementierung von ELT-Pipelines gibt.
Jahrelang ruhten die Lieferketten von Unternehmen auf dem wackeligen Fundament unzusammenhängender, nicht verifizierbarer und nicht zeitnaher Daten. Saubere, vernetzte Daten sind die Grundlage für Lieferkettenabläufe der nächsten Generation.
Erfahren Sie, wie Data Science geschäftliche Erkenntnisse freisetzen, die digitale Transformation beschleunigen und eine datengesteuerte Entscheidungsfindung ermöglichen kann.