Was ist eine moderne Datenplattform?
Databand erkunden
Foto einer modern aussehenden Digitalanzeige
Was ist eine moderne Datenplattform?

Eine moderne Datenplattform ist eine Suite von cloudnativen Cloud-First-Softwareprodukten, die die Erfassung, Bereinigung, Transformation und Analyse der Daten eines Unternehmens ermöglichen, um die Entscheidungsfindung zu verbessern.

Die heutigen Datenpipelines werden immer komplexer und bedeutender für Datenanalysen und datengesteuerte Entscheidungen. Eine moderne Datenplattform schafft Vertrauen in diese Daten, indem sie sie in einer Weise aufnimmt, speichert, verarbeitet und umwandelt, die genaue und zeitnahe Informationen gewährleistet, Datensilos reduziert, Self-Service ermöglicht und die Datenqualität verbessert.

Eine moderne Datenplattform, auch als moderner Datenstack bezeichnet, besteht aus fünf entscheidenden Grundschichten: Datenspeicherung und -verarbeitung, Datenaufnahme, Datenkonvertierung, Business Intelligence (BI) sowie Analyse und Datenbeobachtbarkeit.

Die beiden Grundprinzipien moderner Datenplattformen sind:

  • Verfügbarkeit: Daten sind in einem Data Lake oder Data Warehouse, in denen Speicherung und Computing getrennt sind, leicht verfügbar. Durch die Aufteilung dieser Funktionen ist es möglich, große Datenmengen relativ kostengünstig zu speichern.

  • Elastizität: Die Rechenfunktionen sind cloudbasiert, was eine automatische Skalierbarkeit ermöglicht. Wenn beispielsweise ein Großteil der Daten und Analysen an einem bestimmten Tag und zu einer bestimmten Uhrzeit verbraucht wird, kann die Verarbeitung automatisch hochskaliert werden, um eine bessere Customer Experience zu erzielen, und bei sinkenden Workload-Anforderungen wieder herunterskaliert werden.
Buchen Sie noch heute eine IBM Databand-Demo

Erfahren Sie, wie Sie durch proaktive Datenbeobachtbarkeit Datenvorfälle früher erkennen und schneller beheben können.

Ähnliche Inhalte

IBM Newsletter abonnieren

Moderne Datenplattform-Philosophien

Eine moderne Datenplattform wird nicht nur von Technologie, sondern auch von den Philosophien DevOps, DataOps und Agil unterstützt. Obwohl DevOps und DataOps völlig unterschiedliche Zwecke erfüllen, ähneln beide der agilen Philosophie, die darauf abzielt, die Projektarbeitszyklen zu beschleunigen.

DevOps konzentriert sich auf die Produktentwicklung, während sich DataOps auf die Erstellung und Pflege eines verteilten Datenarchitektursystems konzentriert, das einen geschäftlichen Nutzen aus den Daten zieht.

Agil ist eine Philosophie für die Softwareentwicklung, die Geschwindigkeit und Effizienz fördert, ohne jedoch den „menschlichen“ Faktor zu eliminieren. Sie legt den Schwerpunkt auf persönliche Gespräche, um die Kommunikation zu maximieren, und betont gleichzeitig die Automatisierung als Mittel zur Minimierung von Fehlern.

Datenspeicherung und -verarbeitung

Die erste grundlegende Schicht einer modernen Datenplattform ist die Speicherung und Verarbeitung.

Moderne Datenspeichersysteme sind auf die effiziente Nutzung von Daten ausgerichtet. Dazu zählt, wo die Daten gespeichert sind und wie sie verarbeitet werden sollen. Die beiden beliebtesten Speicherformate sind Data Warehouses und Data Lakes, wobei Data Lakehouses und Data Mesh zunehmend beliebter werden.

Das Data Warehouse

Data Warehouses sind für die Verwaltung strukturierter Daten mit klaren und definierten Anwendungsfällen konzipiert.

Der Einsatz von Data Warehouses lässt sich bis in die 1990er Jahre zurückverfolgen, als Datenbanken zur Speicherung von Daten genutzt wurden. Diese Data Warehouses waren lokal und hatten eine sehr begrenzte Speicherkapazität.

Etwa im Jahr 2013 begann die Verlagerung von Data Warehouses in die Cloud, wo plötzlich Skalierbarkeit möglich war. Cloudbasierte Data Warehouses sind nach wie vor das bevorzugte Datenspeichersystem, da sie die Rechenleistung und Verarbeitungsgeschwindigkeit optimieren.

Damit ein Data Warehouse ordnungsgemäß funktioniert, müssen die Daten gesammelt, neu formatiert, bereinigt und in das Warehouse hochgeladen werden. Alle Daten, die nicht neu formatiert werden können, können verloren gehen.

Der Data Lake

Im Januar 2008 veröffentlichte Yahoo Hadoop (basierend auf NoSQL) als Open-Source-Projekt für die Apache Software Foundation. Data Lakes wurden ursprünglich auf Hadoop aufgebaut, waren skalierbar und für den lokalen Einsatz konzipiert. Leider ist das Hadoop-Ökosystem extrem komplex und schwer zu bedienen. Um 2015 begann die Verlagerung von Data Lakes in die Cloud, wodurch sie deutlich kostengünstiger und benutzerfreundlicher wurden.

Data Lakes wurden ursprünglich entwickelt, um rohe, unstrukturierte Daten zu sammeln, ohne dass Schemata (Formate) vorgeschrieben sind, damit Forschende mehr Erkenntnisse aus einem breiten Spektrum von Daten gewinnen können. Aufgrund von Problemen beim Parsen alter, ungenauer oder unbrauchbarer Informationen können Data Lakes zu weniger effektiven „Data Swamps“ werden.

Eine typische Data-Lake-Architektur kann Daten auf einem Object Storage wie Amazon S3 von AWS speichern, gepaart mit einem Tool wie Spark zur Verarbeitung der Daten.

Das Data Lakehouse

Data Lakehouses vereinen die Flexibilität, Kosteneffizienz und Skalierbarkeit von Data Lakes mit den Datenverwaltungsfunktionen und ACID-Transaktionen (Atomarität, Konsistenz, Isolation und Dauerhaftigkeit) von Data Warehouses. (ACID ist ein Akronym für die 4 Haupteigenschaften, die eine Transaktion definieren: Atomarität, Konsistenz, Isolation und Dauerhaftigkeit.)

Data Lakehouses unterstützen BI und maschinelles Lernen und ein Hauptvorteil des Data Lakehouses besteht darin, Metadatenschichten zu verwenden. Data Lakehouses verwenden außerdem eine neue Abfrage-Engine, die für leistungsstarke SQL-Suchen entwickelt wurde.

Data Mesh

Im Gegensatz zu Data Warehouses, Data Lakes und Data Lakehouses dezentralisiert ein Data Mesh das Dateneigentum. Bei diesem Architekturmodell besitzt eine bestimmte Domäne (z. B. Geschäftspartner oder Abteilung) ihre Daten nicht, sondern teilt sie frei mit anderen Domänen. Das bedeutet, dass alle Daten innerhalb des Datennetzsystems ein einheitliches Format beibehalten sollten.

Data-Mesh-Systeme können für Unternehmen nützlich sein, die mehrere Datendomänen unterstützen. Innerhalb des Data-Mesh-Designs gibt es eine Data-Governance-Schicht und eine Beobachtbarkeitsschicht. Weiterhin gibt es eine universelle Interoperabilitätsschicht.

Data Mesh kann für Unternehmen nützlich sein, die schnell wachsen und Skalierbarkeit für die Datenspeicherung benötigen.

Datenaufnahme

Der Prozess des Einspeicherns von Daten in ein Speichersystem zur späteren Verwendung wird als Datenaufnahme bezeichnet und ist die zweite Schicht einer modernen Datenplattform.

Einfach ausgedrückt bedeutet Datenaufnahme, Daten aus verschiedenen Quellen an einen zentralen Ort zu verschieben. Von dort aus können die Daten zu Aufzeichnungszwecken oder zur weiteren Verarbeitung und Analyse verwendet werden, wofür zugängliche, konsistente und genaue Daten benötigt werden.

Unternehmen treffen Geschäftsentscheidungen anhand der Daten aus ihrer Analyse-Infrastruktur. Der Wert dieser Daten hängt davon ab, wie gut sie aufgenommen und integriert wurden. Wenn es während des Aufnahmeprozesses Probleme gibt, z. B. fehlende oder veraltete Datensätze, wird jeder Schritt des Analyseprozesses dadurch beeinträchtigt. Dies gilt insbesondere, wenn es um Big Data geht.

Modelle der Datenverarbeitung

Die Datenaufnahme kann auf unterschiedliche Weise erfolgen, und die Art und Weise, wie eine bestimmte Datenaufnahmeschicht entworfen wird, kann auf unterschiedlichen Verarbeitungsmodellen basieren. Daten können aus einer Vielzahl unterschiedlicher Quellen stammen, darunter SaaS-Plattformen, Internet-of-Things-Geräte (IoT) und mobile Geräte. Ein gutes Datenverarbeitungsmodell dient als Grundlage für eine effiziente Datenstrategie. Daher müssen Unternehmen entscheiden, welches Modell für ihre Situation am besten geeignet ist.

  • Die Stapelverarbeitung ist die gängigste Form der Datenaufnahme, obwohl sie nicht für die Verarbeitung in Echtzeit ausgelegt ist. Stattdessen werden Quelldaten erfasst und in Stapel gruppiert, die an das Ziel gesendet werden. Die Stapelverarbeitung kann mithilfe eines einfachen Zeitplans initiiert oder aktiviert werden, wenn bestimmte vorgegebene Bedingungen vorliegen. Sie wird in der Regel verwendet, wenn keine Echtzeitdaten erforderlich sind, da sie weniger Arbeit erfordert und weniger kostspielig ist als die Echtzeitverarbeitung.
     
  • Bei der Echtzeitverarbeitung (auch Streaming oder Stream-Verarbeitung genannt) werden keine Daten gruppiert. Stattdessen werden Daten abgerufen, transformiert und geladen, sobald sie erkannt werden. Die Verarbeitung in Echtzeit ist teurer, da sie eine ständige Überwachung der Datenquellen erfordert und neue Informationen automatisch akzeptiert.
Datenkonvertierung

Die nächste Schicht, die Datenkonvertierung, befasst sich mit der Änderung der Werte, der Struktur und des Formats von Daten, was bei Datenanalyseprojekten häufig erforderlich ist. Bei Verwendung einer Datenpipeline können Daten entweder vor oder nach der Ankunft am Speicherziel konvertiert werden.

Bis vor Kurzem verwendeten moderne Datenerfassungsmodelle ein ETL--Verfahren (Extrahieren, Transformieren, Laden), um Daten aus ihrer Quelle zu entnehmen, sie neu zu formatieren und an ihr Ziel zu transportieren. Dieses Verfahren ergab Sinn, als Unternehmen teure interne Analysesysteme verwenden mussten. Durch die Durchführung der Vorbereitungsarbeiten vor der Auslieferung, einschließlich der Konvertierungen, konnten die Kosten gesenkt werden. Unternehmen, die weiterhin lokale Data Warehouses verwenden, nutzen normalerweise einen ETL-Prozess.

Viele Unternehmen bevorzugen heute cloudbasierte Data Warehouses (IBM, Snowflake, Google BigQuery, Microsoft Azure und andere), da sie dadurch Rechen- und Speicherressourcen nach Bedarf skalieren können. Durch die Cloud-Skalierbarkeit können Konvertierungen vor der Installation umgangen werden, sodass Rohdaten schneller an das Data Warehouse gesendet werden können. Die Daten werden dann nach dem Eintreffen mithilfe eines ELT-Modells (Extrahieren, Laden, Transformieren) konvertiert – typischerweise bei der Beantwortung einer Anfrage.

Zu diesem Zeitpunkt können die Daten in ein SQL-Format übersetzt und während der Forschung im Data Warehouse ausgeführt werden.

Die Datenkonvertierung hat mehrere Vorteile:

  • Brauchbarkeit: Die Standardisierung von Daten und deren Überführung in die richtige Struktur ermöglicht es Ihrem Data-Engineering-Team, aus sonst unbrauchbaren, unanalysierten Daten einen Geschäftswert zu generieren.
  • Datenqualität: Durch die Konvertierung von Rohdaten können Datenfehler, Inkonsistenzen und fehlende Werte identifiziert und korrigiert werden, was zu saubereren und genaueren Daten führt.

  • Bessere Organisation: Konvertierte Daten können sowohl von Menschen als auch von Computern einfacher verarbeitet werden.
Business Intelligence und Analysen

Die vierte Schicht der modernen Datenplattform besteht aus Analyse- und Business Intelligence-Tools (BI).

1865 stellte Richard Millar Devens den Begriff „Business Intelligence“ in der „Cyclopædia of Commercial and Business Anecdotes“ vor. Er benutzte diesen Begriff, um zu beschreiben, wie der Bankier Sir Henry Furnese von Informationen profitierte, indem er sie sammelte und vor seiner Konkurrenz nutzte.

Derzeit werden viele Geschäftsinformationen aus Geschäfts- und Datenanalysen gesammelt. Mit BI- und Analysetools können Daten abgerufen, analysiert und in Visualisierungen umgewandelt werden, die verständliche Erkenntnisse liefern. Wenn Forschende und Data Scientists mit detaillierten Informationen versorgt werden, können sie taktische und strategische Geschäftsentscheidungen treffen.

Beobachtbarkeit von Daten

Die letzte der fünf Grundschichten einer modernen Datenplattform ist die Datenbeobachtbarkeit.

Datenbeobachtbarkeit beschreibt die Fähigkeit, den Zustand von Daten zu beobachten und zu verfolgen. Sie umfasst eine Reihe von Aktivitäten und Technologien, die es dem Benutzer ermöglichen, Datenschwierigkeiten nahezu in Echtzeit zu erkennen und zu beheben.

Die Beobachtbarkeit ermöglicht es Datenentwicklungsteams, spezifische Fragen darüber zu beantworten, was in extrem verteilten Systemen hinter den Kulissen vor sich geht. Sie kann zeigen, wo sich Daten langsam bewegen und was kaputt ist.

Manager, Datenteams und verschiedene andere Stakeholder können Warnungen über potenzielle Probleme erhalten, damit sie diese proaktiv lösen können. Die Vorhersagbarkeitsfunktion kann zwar hilfreich sein, garantiert jedoch nicht, dass alle Probleme erkannt werden.

Um die Datenbeobachtbarkeit nutzbar zu machen, müssen diese Funktionen enthalten sein:

  • SLA-Tracking: Misst Pipeline-Metadaten und Datenqualität anhand vordefinierter Standards.
  • Überwachung: Ein detailliertes Dashboard, das die operativen Metriken eines Systems oder einer Pipeline anzeigt.
  • Protokollierung: Historische Datensätze (Tracking, Vergleiche, Analysen) von Ereignissen werden für den Vergleich mit neu entdeckten Anomalien aufbewahrt.
  • Warnsystem: Warnungen werden sowohl für Anomalien als auch für erwartete Ereignisse gesendet.
  • Analysen: Ein automatisierter Erkennungsprozess, der sich an Ihr System anpasst.
  • Tracking: Bietet die Möglichkeit, bestimmte Metriken und Ereignisse zu verfolgen.
  • Vergleiche: Bieten einen historischen Hintergrund und Anomaliewarnungen.

Für viele Unternehmen ist die Beobachtbarkeit isoliert, was bedeutet, dass nur bestimmte Abteilungen auf die Daten zugreifen können. Philosophisch gesehen löst ein Data-Mesh-System dieses Problem, indem es die gemeinsame Nutzung von Daten erfordert, wovon in herkömmlichen Speicher- und Verarbeitungssystemen im Allgemeinen abgeraten wird.

Andere moderne Datenplattformschichten

Zusätzlich zu den fünf oben genannten grundlegenden Schichten gehören zu den weiteren Schichten, die in einem modernen Datenstack üblich sind:

Datenerkennung

Unzugängliche Daten sind im Wesentlichen nutzlose Daten. Die Datenerkennung trägt dazu bei, dass diese nicht einfach nur herumliegen. Sie sammelt, bewertet und untersucht Daten aus verschiedenen Quellen, um Führungskräften ein Verständnis für die in den Daten gefundenen Trends und Muster zu vermitteln. Sie kann Daten bereinigen und aufbereiten und wird manchmal mit BI in Verbindung gebracht, weil sie siloartige Daten zur Analyse zusammenführen kann.

Datengovernance

Moderne Datenplattformen legen Wert auf Data-Governance und -Sicherheit, um sensible Informationen zu schützen, die Einhaltung von Vorschriften zu gewährleisten und die Datenqualität zu verwalten. Tools, die diese Schicht unterstützen, umfassen Datenzugriffskontrolle, Verschlüsselung, Prüfung und Datenabstammungsverfolgung.

Datenkatalog- und Metadatenmanagement

Die Datenkatalogisierung und das Metadatenmanagement sind entscheidend für das Finden und Verstehen verfügbarer Daten-Assets. Dies hilft Benutzern, die richtigen Daten für ihre Analyse zu finden.

Maschinelles Lernen und KI

Einige moderne Datenplattformen bieten maschinelles Lernen und KI-Funktionen für prädiktive Analysen, Anomalieerkennung und eine automatisierte Entscheidungsfindung.

Weiterführende Produkte
IBM Databand

IBM® Databand® ist eine Beobachtbarkeitssoftware für Data-Pipelines und -Warehouses, die Metadaten automatisch erfasst, um historische Baselines zu erstellen, Unregelmäßigkeiten zu erkennen und Warnungen zu sichten, um Probleme mit der Datenqualität zu beheben.

Databand erkunden

IBM DataStage

IBM® DataStage® unterstützt ETL- und ELT-Muster und ermöglicht eine flexible und nahezu Echtzeit-Datenintegration sowohl On-Premise als auch in der Cloud.

Mehr zu DataStage

IBM Knowledge Catalog

IBM® Knowledge Catalog ist ein intelligenter Datenkatalog für das Zeitalter der KI, mit dem Sie Daten, Wissensressourcen und ihre Beziehungen abrufen, kuratieren, kategorisieren und teilen können – wo auch immer sie sich befinden.

Mehr zum Knowledge Catalog
Ressourcen Was ist Datenbeobachtbarkeit?

Tauchen Sie tief in das Thema Datenbeobachtung ein, um zu verstehen, warum sie wichtig ist und wie sie sich zusammen mit modernen Datensystemen und bewährten Best Practices für die Implementierung eines Datenbeobachtbarkeitsframeworks entwickelt hat.

Was ist ELT (Extrahieren, Laden, Transformieren)? Ein Leitfaden für Anfänger

Erfahren Sie, was ELT ist, wie der Prozess funktioniert, wie er sich von ETL unterscheidet und welche Herausforderungen, Einschränkungen sowie Best Practices es bei der Implementierung von ELT-Pipelines gibt.

Eine moderne Cloud-Datenplattform bildet die Grundlage aller intelligenten Lieferketten

Jahrelang ruhten die Lieferketten von Unternehmen auf dem wackeligen Fundament unzusammenhängender, nicht verifizierbarer und nicht zeitnaher Daten. Saubere, vernetzte Daten sind die Grundlage für Lieferkettenabläufe der nächsten Generation.

Was ist Data Science?

Erfahren Sie, wie Data Science geschäftliche Erkenntnisse freisetzen, die digitale Transformation beschleunigen und eine datengesteuerte Entscheidungsfindung ermöglichen kann.

Machen Sie den nächsten Schritt

Implementieren Sie noch heute die proaktive Datenbeobachtbarkeit mit IBM Databand, damit Sie ein Problem mit dem Allgemeinzustand ihrer Daten erkennen können, bevor es Ihren Benutzern auffällt.

Databand erkunden