Was ist der moderne Daten-Stack?

Verschiedene Stapel von horizontal und vertikal ausgerichteten Büchern

Autoren

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Was ist der moderne Daten-Stack?

Modern Data Stack (MDS) bezieht sich auf integrierte, Cloud-Tools und Technologien, die die Erfassung, Aufnahme, Speicherung, Bereinigung, Transformation, Analyse und Verwaltung von Daten ermöglichen. Wie der Name schon sagt, stellt ein Daten-Stack – oder „Datenplattform“ – die Tools bereit, die Unternehmen benötigen, um Datenqualität zu erhalten und den Wert ihrer Informationen zu erschließen.

Traditionelle Legacy Data Stacks (LDS) basieren auf einer starren, lokalen Infrastruktur, die mit Skalierbarkeit, Flexibilität und Echtzeitverarbeitung zu kämpfen hat. Im Gegensatz dazu bietet der MDS eine Cloud-native, modulare Lösung, die darauf ausgelegt ist, die Automatisierung zu rationalisieren, die Kosten zu optimieren und die Erkenntnisse zu beschleunigen. Vielleicht am bemerkenswertesten ist, dass MDS Selbstbedienungsanalysen und Künstliche Intelligenz (KI) Anwendungen ermöglicht, auf die viele Unternehmen heute setzen.

Datenplattformen bilden das Rückgrat der modernen Softwareentwicklung und bieten ein Netzwerk von Tools und Frameworks zur effizienten Erstellung und Verwaltung von Anwendungen. Stellen Sie sich MDS wie das Fließband digitaler Operationen vor – jede Komponente spielt eine Rolle bei der nahtlosen Weiterleitung der Daten von der Erfassung bis zur Analyse. Durch die Automatisierung und Skalierung von Workflows stellt MDS sicher, dass Unternehmen Daten präzise verarbeiten, speichern und nutzen können, was zu besseren Entscheidungen und Innovationen führt.

Zu den Hauptfunktionen des MDB gehören:

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Warum ist der moderne Daten-Stack wichtig?

Zwischen 2012 und 2016 fand eine große Veränderung der Daten-Workflows statt, die Art und Weise, wie Unternehmen Daten speichern und verarbeiten. Cloudbasierte Plattformen wie Snowflake, Google BigQuery und Amazon Redshift machten Cloud Data Warehouses populär und boten beispiellose Skalierbarkeit, Rechenleistung und Effizienz.

Gleichzeitig wechselten Unternehmen von den traditionellen Workflows zum Extrahieren, Transformieren und Laden (ETL), bei denen die Daten vor der Speicherung konvertiert wurden, zu dem Verfahren des Extrahierens, Ladens und Transformierens (ELT), bei dem die Daten zuerst gespeichert und später verarbeitet werden. Dieser Ansatz erhöht die Flexibilität und macht Echtzeit-Einsichten besser zugänglich, indem er Konnektoren oder Erweiterungen verwendet, um die Datenbewegung zu rationalisieren.

In dieser Zeit automatisierten Tools wie Fivetran und Airflow die Datenaufnahme, während Plattformen wie Tableau, Power BI und Looker die BI revolutionierten. Durch Reverse ETL wurde der Datenfluss verbessert, indem Erkenntnisse aus Lagern in operative Systeme wie Customer Relationship Management-Systeme (CRM) übertragen wurden, was eine bessere Automatisierung, Entscheidungsfindung und Personalisierung ermöglichte. Diese Innovationen legten den Grundstein für das MDS, das skalierbare, automatisierte und flexible Daten-Workflows ermöglicht. Durch die Rationalisierung der Datenbewegung und -integration haben Unternehmen eine größere betriebliche Agilität erreicht.

Alter Daten-Stack vs. moderner Daten-Stack

Um die Bedeutung des MDS zu verstehen, ist es hilfreich, ihn mit dem LDS zu vergleichen:

Die wichtigsten Unterschiede auf einen Blick

  • Infrastruktur: LDS basiert auf physischen Servern; MDS ist cloudnativ.
  • Skalierbarkeit: LDS erfordert manuelle Skalierung; MDS skaliert dynamisch mit Bedarf.
  • Integration: LDS basiert auf benutzerdefinierten Workflows; MDS automatisiert die Datenaufnahme.
  • Flexibilität: LDS ist monolithisch; MDS ist modular und ermöglicht eine nahtlose Integration von Werkzeugen.
  • Analyse: LDS unterstützt Batch-Berichte; MDS bietet Erkenntnisse in Echtzeit und interaktive Dashboards.
  • Kosten: LDS beinhaltet erhebliche Vorabinvestitionen; MDS verwendet Pay-as-you-go-Modelle.

Herkömmliche LDS basieren auf einer Infrastruktur vor Ort und erfordern erhebliche Investitionen in Hardware, Wartung und manuelle Skalierung. Sie basieren auf ETL-Workflows, was bedeutet, dass die Daten vor der Speicherung bereinigt und strukturiert werden müssen. Während sie für statische Berichte effektiv sind, haben LDS Probleme mit der Echtzeitverarbeitung, Skalierbarkeit und dem Umgang mit unstrukturierten Daten wie Sensorprotokollen, Bildern oder Audio.

MDS löst diese Herausforderungen mit einem cloudnativen, modularen Ansatz, der es Unternehmen ermöglicht, große Mengen von strukturierten und unstrukturierten Daten effizienter zu speichern, zu verarbeiten und zu analysieren. ELT-Workflows bieten mehr Flexibilität, da sie häufig Python-basierte Skripte für die Automatisierung und Datenverarbeitung verwenden.

Im Gegensatz zu LDS, das kostspielige Infrastrukturerweiterungen erfordert, bietet MDS eine bedarfsgerechte Skalierbarkeit und seine modulare Natur bedeutet, dass Unternehmen Daten-Stack-Tools integrieren können, ohne sich an einen Anbieter zu binden. Schließlich ermöglicht MDS Einblicke in Echtzeit und KI-gesteuerte Analysen und Automatisierung, wodurch Daten im gesamten Unternehmen leichter zugänglich und umsetzbar werden.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Grundlegende Komponenten des modernen Daten-Stacks

Das MDS besteht aus mehreren Kernkomponenten, darunter:

  • Datenspeicher
  • Datenaufnahme
  • Datenkonvertierung
  • BI und Analysen
  • Daten-Observability

Datenspeicher

Die Datenspeicherschicht dient als Grundlage des MDS und bietet eine zentrale Umgebung für die Verwaltung strukturierter und unstrukturierter Daten. Unternehmen können aus Speicherlösungen von Anbietern wie IBM, AWS oder Microsoft wählen, die auf Faktoren wie Kosten, Leistung und Skalierbarkeit basieren.

Arten der Datenspeicherung:

  • Data Warehouses: Strukturierte Daten aus mehreren Quellen werden in einem einzigen, zentralen Datenspeicher zusammengefasst, der für Analysen, KI und ML optimiert ist. Zu den Anbietern gehören Snowflake, GoogleBigQuery und Amazon Redshift.
  • Data Lake: Data Lake enthalten rohe, strukturierte und unstrukturierte Daten in verschiedenen Formaten. Sie ermöglichen es Unternehmen, riesige Datenmengen zu speichern, die für KI-, ML- und Forschungsanwendungen oft Petabyte-Größe und mehr erreichen. Viele Data Lakes wurden ursprünglich auf Hadoop aufgebaut, aber die meisten modernen Architekturen verwenden jetzt Cloud Object-Storage-Lösungen wie AWS S3 und IBM Cloud Object Storage (COS).
  • Data Lakehouses: Ein hybrider Ansatz, der die Skalierbarkeit von Data Lakes mit den strukturierten Abfragefunktionen von Data Warehouses kombiniert. Mit anderen Worten: ein scheinbar unbegrenztes Archiv mit einem unglaublich präzisen Index. Lakehouses speichern strukturierte, semistrukturierte und unstrukturierte Daten und unterstützen BI-, Analyse- und ML-Workloads.

Datenaufnahme

Die Datenaufnahme ist der Prozess des Sammelns und Verschiebens von Daten aus verschiedenen Quellen in ein zentrales Speichersystem zur Verarbeitung und Analyse. Die Effektivität einer Datenpipeline hängt davon ab, wie gut Big Data aufgenommen und integriert wird. Dateningenieure spielen eine entscheidende Rolle, da Fehler in dieser Phase zu Problemen in den Analysen und KI-Modellen führen können.

Arten der Datenaufnahme:

  • Stapelverarbeitung: Die häufigste Aufnahme-Methode, Batch-Verarbeitung, sammelt Daten in Gruppen (oder Stapeln) und sendet sie in geplanten Intervallen an den Speicher. Dieser Ansatz ist kostengünstig und ideal, wenn keine Echtzeit-Aktualisierungen erforderlich sind.
  • Echtzeit-Verarbeitung: Diese auch als „Stream Processing“ bezeichnete Methode nimmt kontinuierlich Daten auf und verarbeitet sie, während sie generiert werden. Sie ist entscheidend für KI-Anwendungen, Betrugserkennung und Echtzeit-Analysen. Es sind jedoch höhere Rechenressourcen erforderlich.

Automatisierte Aufnahme-Tools wie Apache Airflow, Stitch und Fivetran helfen Unternehmen dabei, Daten nahtlos zwischen Systemen zu verschieben, den manuellen Aufwand zu reduzieren und die Datenintegration zu verbessern.

Datenkonvertierung

Rohdaten sind oft inkonsistent oder unstrukturiert, wenn sie aufgenommen werden, was die Analyse in ihrem ursprünglichen Format erschwert. Die Datenkonvertierungsschicht stellt sicher, dass die Daten sauber, strukturiert und für Aufgaben wie Analyse, Berichte und ML optimiert sind.

Häufige Datenkonvertierungsaufgaben:

  • Datenbereinigung: Entfernen von Fehlern, Nullwerten und Duplikaten.
  • Normalisierung: Standardisierung von Datenformaten aus Gründen der Konsistenz.
  • Aggregation: Zusammenfassung großer Datensätze für die Berichterstattung.
  • Zusammenführen: Zusammenführen von Daten aus mehreren Quellen in einem einheitlichen Datensatz.

In der Vergangenheit folgte die Datenkonvertierung dem ETL-Workflow. Mit dem Aufkommen von cloudbasierten Speicherlösungen nutzen die meisten Unternehmen jedoch nun ELT-Prozesse. Datenkonvertierungstools wie dbt und Dataform automatisieren Arbeitsabläufe und stellen sicher, dass die Daten genau, konsistent und bereit für Analysen sind.

BI und Analysen

Die BI- und Analyseschicht verwandelt Rohdaten in verwertbare Erkenntnisse durch Datenanalyse, Visualisierung, Trendanalyse, strukturierte Abfragesprache (SQL) und KI-gesteuerte Automatisierung. Tools wie Tableau, Power BI und Looker bieten interaktive Dashboards und Datenanalysen in Echtzeit, mit denen Unternehmen ihre Leistung verfolgen und ihre Strategien verfeinern können.

Über die Datenvisualisierung hinaus verbessern KI-gestützte Analysen und Data Science die Entscheidungsfindung durch Erkennung von Anomalien, Vorhersage von Trends und Automatisierung von Workflows – all dies hängt von einer soliden Datenverwaltungspraxis ab. Ob für die Analyse des Kundenverhaltens, finanzielle Prognosen oder Lieferkettenoptimierung, BI-Tools sorgen dafür, dass Unternehmen Daten sowohl für strategische als auch für operative Zwecke nutzen können.

Daten-Observability 

Die Daten-Observability gewährleistet die Qualität, Verfügbarkeit und Zuverlässigkeit der Daten durch kontinuierliche Überwachung des Zustands der Daten. Diese Ebene hilft Datenteams, unterbrochene Pipelines, fehlende Datensätze oder langsame Verarbeitung zu erkennen, bevor sie sich auf die Analyse auswirken.

Observability-Tools wie Monte Carlo und Datadog bieten Erkenntnis in die Datenflüsse und ermöglichen es Ingenieuren, Workflows in Echtzeit zu diagnostizieren und zu verbessern. Durch die proaktive Lösung von Problemen können Unternehmen die Datenintegrität wahren und die datengesteuerte Entscheidungsfindung verbessern. Starke Observability-Praktiken unterstützen ein gut strukturiertes Datenmodell und stellen sicher, dass die Stakeholder auf die Erkenntnisse während des gesamten Datenlebenszyklus vertrauen können.

Zusätzliche moderne Daten-Stack-Ebenen

Neben den fünf grundlegenden Ebenen enthalten MDS häufig weitere Komponenten, um die Zugänglichkeit und Funktionalität zu verbessern. Diese Komponenten können umfassen: 

  • Datenerkennung: Datenerkennung hilft Unternehmen, versteckte oder isolierte Datenquellen aufzudecken und zu bewerten, um sicherzustellen, dass Datenteams wertvolle Informationen extrahieren und effektiv nutzen können.
  • Data Governance: Die Festlegung von Richtlinien und Schutzmaßnahmen kann dazu beitragen, Sicherheit, Einhaltung von Vorschriften und Datenkonsistenz zu gewährleisten. Durch die Verwaltung von Datenflüssen und die Durchsetzung eines strukturierten Datenmodells unterstützt Governance effiziente Workflows und trägt dazu bei, eine Compliance-Überwachung in Echtzeit sicherzustellen.
  • Datenkatalogisierung: Teams können Metadaten verwenden, um einen strukturierten Bestand von Daten-Assets in Data Warehouses, Data Lakes und anderen Speicherumgebungen zu erstellen. Ein gut gepflegter Katalog unterstützt den gesamten Datenlebenszyklus und ermöglicht Stakeholdern den schnellen Zugriff auf und die Nutzung wichtiger Informationen.
  • ML und KI: Einige Datenplattformen integrieren ML und KI, um die Datenverarbeitung zu verfeinern, die prädiktive Modellierung zu optimieren, Erkenntnisse zu automatisieren und die Erkennung von Anomalien zu verbessern. ML optimieren auch Workflows, indem sie Ineffizienzen identifizieren und in Echtzeit Verbesserungen für Datenteams vorschlagen.

Moderne Daten-Stack-Anwendungsfälle

Unternehmen können ihre eigenen MDS bereitstellen, um die KI-gestützte Personalisierung, Kunden-Erkenntnisse, Logistik und Betrugserkennung zu verbessern.

KI-gestützte Personalisierung

MDS ermöglicht Unternehmen die Bereitstellung datengesteuerter KI-Personalisierung. Diese Personalisierung kann dazu beitragen,die Erfahrungen in Bereichen wie E-Commerce, Streaming-Plattformen und Software-as-a-Service (SaaS)-Anwendungen zu optimieren. Mit Apache Spark für die Echtzeitverarbeitung und Databricks für skalierbare Analysen können Data Scientists die Vorlieben und das Engagement von Kunden analysieren, um Empfehlungsmaschinen und Content Delivery Networks zu verbessern.

Erkenntnisse über Kunden und Umsatzoptimierung

Unternehmen nutzen MDS- und SaaS-Analysetools, um das Kundenverhalten zu verfolgen und Marketingstrategien zu optimieren. Cloud-Plattformen wie Snowflake und Looker generieren Echtzeit-Dashboards für categories wie Kaufmuster und Preisgestaltung – all dies kann Unternehmen dabei helfen, die Konversionsraten und die Kundenbindung zu steigern.

Logistik- und Lieferkettenoptimierung

Durch die Integration von Fivetran für die Datenaufnahme und dbt für die Datenumwandlung können Unternehmen ihren Bestand in Echtzeit überwachen und Ausfälle vorhersagen. Diese Integration kann zu einer schnelleren Auftragsabwicklung, geringeren Kosten und einer verbesserten Bedarfsplanung  in Branchen wie dem Einzelhandel, der Fertigung und dem Transportwesen führen.

Betrugserkennung und Risikomanagement

Finanzinstitute und E-Commerce-Plattformen verwenden MDS, um Betrug zu erkennen und Datenschutzverletzungen zu verhindern. Durch die Verwendung von ML-Modellen, Anwendungsprogrammierschnittstellen (APIs) und Diensten wie Amazon Redshift können Unternehmen verdächtige Transaktionen identifizieren und die Betrugserkennung automatisieren.

Welche Unternehmen benötigen einen modernen Daten-Stack?

Unternehmen, die auf Echtzeit-Entscheidungsfindung, Automatisierung und KI-gestützten Erkenntnissen angewiesen sind, nutzen MDS, um die Datenzugriff zu verbessern und die Abläufe zu optimieren. Branchen wie Technologie, Finanzen, Gesundheitswesen, E-Commerce und Logistik nutzen MDS häufig, um große Datenquellen zu integrieren, die Analysefunktionen zu verbessern und eine effizientere Entscheidungsfindung und Orchestrierung zu unterstützen.

In einer Welt, in der Daten fast jeden Aspekt der Geschäftsabläufe beeinflussen, lautet die eigentliche Frage jedoch nicht, welche Branchen von MDS profitieren, sondern wie es Unternehmen helfen kann, ihre Effizienz und Anpassungsfähigkeit zu steigern. Mit der Einführung von KI, Open-Source-Tools und der Datenverarbeitung in Echtzeit entwickelt sich MDS zu einem immer häufigeren Ansatz für Unternehmen, ihre Datenarchitektur zu modernisieren.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
Data-Fabric-Lösungen

Entwerfen Sie eine Datenarchitektur, die die Datenbereitschaft für generative KI beschleunigt und eine beispiellose Produktivität für Datenteams freisetzt.

Mehr über Data-Fabric-Lösungen erfahren
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entdecken Sie IBM DataStage, ein ETL-Tool (Extract, Transform, Load), das eine visuelle Benutzeroberfläche für die Gestaltung, Entwicklung und Bereitstellung von Datenpipelines bietet. Es ist als verwaltete SaaS-Lösung in der IBM Cloud, zum Selbsthosting und als Add-on zu IBM Cloud Pak for Data verfügbar.

Mehr zu DataStage Analysedienste erkunden