Was sind Streaming-Daten?

Was sind Streaming-Daten?

Streaming-Daten sind der kontinuierliche Fluss von Echtzeitdaten aus verschiedenen Quellen. Im Gegensatz zur Batch-Verarbeitung, bei der Datensätze in geplanten Intervallen verarbeitet werden, werden Streaming-Daten sofort verarbeitet, wenn sie eintreffen, um unmittelbare Erkenntnisse in Echtzeit zu erhalten.

Unternehmen generieren heutzutage große Mengen an Daten über alles, von Geräten des Internet der Dinge (IoT) bis hin zu E-Commerce-Transaktionen. Streaming-Daten, auch bekannt als „Datenstreaming“ oder „Echtzeit-Datenstreaming“, helfen Unternehmen bei der Verarbeitung dieser kontinuierlichen Datenströme, sobald sie eingehen.

Beispiele für Streaming-Daten sind:

  • Finanzmarktdaten, die Aktienkurse und Handelsaktivitäten verfolgen
  • IoT-Sensorwerte überwachen die Geräteleistung
  • Social-Media-Aktivitätsströme, die das Engagement der Nutzer erfassen
  • Clickstream-Daten der Website, die Verhaltensmuster der Besucher zeigen

Unternehmen verwenden Streaming-Daten häufig, um Geschäftsinitiativen zu unterstützen, die sich auf Echtzeitdaten für eine schnelle, datengesteuerte Entscheidungsfindung verlassen, z. B. Datenanalyse und Business Intelligence (BI).

Das Streaming von Daten ist häufig Teil der Big-Data-Sammlung und -verarbeitung. Beispielsweise können Organisationen kontinuierliche Datenströme mithilfe von Big-Data-Analysen analysieren, um Einblicke in operative Effizienz, Verbrauchertrends und veränderte Marktdynamiken zu gewinnen.

Da Streaming-Daten kontinuierlich fließen, erfordern sie andere Verarbeitungsmethoden als die herkömmliche Stapelverarbeitung. Dazu gehören häufig skalierbare Streaming-Architekturen und Stream-Prozessoren, die die Datenerfassung, -verarbeitung und -analyse verwalten und gleichzeitig eine optimale Leistung gewährleisten.

In den letzten Jahren hat der Aufstieg von künstlicher Intelligenz (KI) und maschinellem Lernen den Fokus auf Streaming-Daten-Funktionen weiter verstärkt. Diese Technologien basieren oft auf Streaming-Datenverarbeitung, um Erkenntnisse und Prognosen in Echtzeit zu generieren.

Laut Gartner geben 61 % der Unternehmen an, dass sie ihr Daten- und Analysemodell aufgrund der Auswirkungen von KI-Technologien weiterentwickeln oder überdenken müssen.1

WealthAPI, ein Fintech, hat seine Finanzanalyseplattform auf einer ereignisgesteuerten Streaming-Architektur aufgebaut, um kontinuierliche Ströme inkonsistenter Bank- und Transaktionsdaten in Echtzeit zu verarbeiten. Eingehende Daten werden über Google Publish/Subscribe gepuffert und verteilt, einen Nachrichtendienst, der Datenproduzenten von nachgelagerten Systemen entkoppelt und es mehreren Diensten ermöglicht, denselben Strom gleichzeitig zu konsumieren. IBM watsonx.data übernimmt anschließend leistungsstarke strukturierte Datenabrufe, liefert finanzielle Erkenntnisse bis zu 80 % schneller, bedient Zehntausende von Nutzern und skaliert ohne architektonische Änderungen auf Millionen.

Streaming-Daten vs. Batch-Verarbeitung

Unternehmen können Daten auf zwei primären Wegen verarbeiten: Batch-Verarbeitung oder Streaming-Daten.

Beide Methoden verarbeiten zwar große Datenmengen, bedienen aber unterschiedliche Anwendungsfälle und erfordern unterschiedliche Architekturen.

Die wichtigsten Unterschiede:

  • Verarbeitungsmodell: Die Batch-Verarbeitung aggregiert und analysiert Datensatz-Batches in festen Intervallen, während beim Streaming von Daten Echtzeit-Datenverarbeitungstools verwendet werden, um Daten sofort zu verarbeiten. Das bedeutet, dass Streaming-Systeme Erkenntnisse liefern und sofort Maßnahmen ergreifen können, während Batch-Systeme nach einem regelmäßigen Zeitplan arbeiten.
  • Infrastrukturanforderungen: Batch-Systeme verwenden häufig traditionelle Datenspeicher- und Analysetools wie Data Warehouses, während Streaming spezielle Frameworks und Datenstreaming-Plattformen erfordert, die für die Verarbeitung von Datenflüssen in Echtzeit entwickelt wurden.

  • Leistungsanforderungen: Batch-Systeme können die Ressourcen-Nutzung während geplanter Ausführung optimieren, während die Stream-Verarbeitung fehlertolerante Systeme mit geringer Latenz benötigt. Mit anderen Worten: Streaming-Systeme müssen Daten in Echtzeit und ohne Verzögerungen verarbeiten, auch wenn die Datenmengen hoch sind oder Probleme auftreten.

Unternehmen entscheiden sich in der Regel je nach Datenvolumen, Latenzanforderungen und Geschäftszielen für die Batch- oder die Stream-Verarbeitung. Viele nutzen beide Ansätze innerhalb einer einheitlichen Datenstruktur, um verschiedene Arten von Datenaufgaben zu bewältigen.

Ein E-Commerce-Unternehmen könnte beispielsweise die Batch-Verarbeitung nutzen, um tägliche Verkaufsberichte zu erstellen, und gleichzeitig Streaming-Daten und Echtzeitanalyse-Systeme verwenden, um wichtige Website-Metriken zu überwachen.  

AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

So funktioniert das Streamen von Daten

Auf hoher Ebene funktioniert das Streamen von Daten durch die kontinuierliche Erfassung, Verarbeitung und Analyse von Echtzeit-Datenströmen aus verschiedenen Quellen. Dieser Prozess besteht aus vier Hauptphasen:

  • Datenaufnahme
  • Daten-Streaming
  • Datenanalyse
  • Datenspeicher

Datenaufnahme

In der ersten Phase werden eingehende Daten-Streams aus verschiedenen Quellen erfasst. Moderne Tools zur Datenaufnahme wie Apache Kafka puffern und standardisieren diese Streams bei ihrem Eintreffen, wodurch sowohl Skalierbarkeit als auch Datenkonsistenz gewährleistet werden.

Unternehmen integrieren in der Regel Datenerfassungstools mit anderen Komponenten, um einheitliche Workflows zu erstellen. Datenintegrations-Tools können auch dazu beitragen, unterschiedliche Datentypen in ein standardisiertes Format für die Verarbeitung abzustimmen, um sicherzustellen, dass Daten aus mehreren Quellen effektiv kombiniert und analysiert werden können.

Stream-Verarbeitung

In der Verarbeitungsphase analysieren und transformieren Stream-Processing-Frameworks wie Apache Flink Daten während der Übertragung. Diese Frameworks ermöglichen Unternehmen Folgendes:

  • Komplexe Ereignisse in Echtzeit verarbeiten

  • Datenaggregation in großem Maßstab durchführen, z. B. die Berechnung von Durchschnittswerten, das Zählen von Ereignissen oder das Addieren von Transaktionswerten

  • Transformationen anwenden – wie das Filtern, Anreichern oder Formatieren von Daten – während die Daten die Datenpipeline durchlaufen

Datenanalyse und Visualisierung

In dieser Phase gewinnen Unternehmen durch Datenvisualisierung und andere Analysetools umsetzbare Geschäftserkenntnisse aus Streaming-Datenströmen.

Zu den wichtigsten Anwendungen gehören:

  • Echtzeit-Dashboards, die wichtige Metriken und KPIs liefern

  • Betriebsanwendungen, die Workflows automatisieren und Prozesse optimieren

  • Modelle für maschinelles Lernen, die Muster analysieren, um Ergebnisse vorherzusagen

Datenspeicher

Bei der Speicherung von Streaming-Daten müssen Unternehmen die Notwendigkeit eines schnellen Zugriffs auf Daten für die Echtzeitnutzung mit der langfristigen Datenspeicherung, Kosteneffizienz und Daten-Compliance in Einklang bringen.

Viele Unternehmen nutzen Data Lakes und Data Lakehouses, um Streaming-Daten zu speichern, da diese Lösungen kostengünstige, flexible Speicherumgebungen für große Datenmengen bieten. Nachdem die Streaming-Daten erfasst wurden, könnten sie an ein Data Warehouse gesendet werden, wo sie bereinigt und für die Nutzung vorbereitet werden können.  

Unternehmen implementieren oft mehrere Datenspeicherlösungen zusammen in einer einheitlichen Data Fabric. Beispielsweise könnten Finanzinstitute Data Lakes verwenden, um rohe Transaktionsströme zu speichern, während sie Data Warehouses für Analysen und zur Berichterstellung nutzen.

Arten von Streaming-Daten

Unternehmen können viele Arten von Streaming-Daten nutzen, um Echtzeit-Analysen und Entscheidungsfindung zu unterstützen. Zu den häufigsten Streaming-Datenströmen gehören:

Event Streams

Event Streams erfassen Systemaktionen oder -änderungen, sobald sie auftreten, wie z. B. Aufrufe der Programmierschnittstelle (Application Programming Interface, API), Klicks auf der Website oder App-Protokolleinträge. Event Streams werden häufig verwendet, um systemübergreifende Aktivitäten in Echtzeit zu verfolgen und so die sofortige Reaktion auf Benutzerinteraktionen oder Systemereignisse zu ermöglichen.

Transaktionsdaten in Echtzeit

Transaktionsdaten in Echtzeit erfassen kontinuierliche Abläufe von Geschäftstransaktionen, wie digitale Zahlungen oder E-Commerce-Käufe. Transaktionsdaten in Echtzeit unterstützen Anwendungen wie Betrugserkennung und sofortige Entscheidungsfindung.

IoT- und Sensordaten

IoT- und Sensordaten enthalten Informationen zu Umgebungsbedingungen, der Leistung von Geräten und physischen Prozessen. Diese Datenströme unterstützen häufig die Geräteüberwachung in Echtzeit und die Prozessautomatisierung.

Anwendungsfälle für Streamingdaten

Das Streaming von Daten ermöglicht es Unternehmen, große Mengen an Echtzeitinformationen zu verarbeiten, um sofort Erkenntnisse zu gewinnen und Maßnahmen zu ergreifen.

Zu den gängigen Anwendungen gehören:

Finanzdienstleistungen

Finanzinstitute nutzen häufig Streaming-Analysen, um Marktdaten, Transaktionen und Kundeninteraktionen zu verarbeiten.

Zum Beispiel verlassen sich Kreditkartenunternehmen auf Streaming-Daten für Betrugserkennung. Streaming-Datenplattformen ermöglichen es diesen Unternehmen, Tausende von Transaktionen pro Sekunde zu analysieren, um ungewöhnliche Aktivitäten zu erkennen und verdächtige Transaktionen zu kennzeichnen oder zu blockieren.

Herstellung

Moderne Produktionsanlagen nutzen häufig IoT-Gerätesensoren und Echtzeit-Datenverarbeitung, um die betriebliche Effizienz zu verbessern.

So kann beispielsweise ein Automobilwerk Tausende von Sensoren am Fließband überwachen und Metriken wie Temperatur, Vibration und Leistung verfolgen. Diese Daten können den Betreibern helfen, Ineffizienzen frühzeitig zu erkennen und vorbeugende Wartung zu planen, um Ausfallzeiten zu vermeiden.

Gesundheitswesen

Gesundheitsdienstleister verlassen sich auf Streaming-Anwendungen, um Daten von medizinischen Geräten und Patientenüberwachungssystemen zu verarbeiten.

Auf Intensivstationen übertragen beispielsweise Monitore am Krankenbett die Vitaldaten über Datenleitungen an zentrale Prozessoren. Diese Prozessoren können dann besorgniserregende Muster erkennen und das medizinische Personal automatisch benachrichtigen, wenn eine Intervention erforderlich ist.

Einzelhandel und E-Commerce

Einzelhändler und E-Commerce-Unternehmen nutzen Streaming-Daten von Kassensystemen, Bestandssensoren und Online-Plattformen, um ihre Betriebsabläufe zu optimieren.

Beispielsweise kann eine große E-Commerce-Plattform Apache Kafka verwenden, um Clickstreams von Millionen von Käufern zu verarbeiten, um die Nachfrage zu messen und die Customer Experience zu personalisieren.

Transport und Logistik

Transportunternehmen nutzen häufig Streaming Analytics, um GPS-Daten und IoT-Sensorwerte zur Fuhrparkoptimierung zu verarbeiten.

So kann beispielsweise ein Logistikdienstleister Echtzeitdaten von Tausenden von Fahrzeugen mit Wetter- und Verkehrsdatensätzen verknüpfen. Stream-Prozessoren können dann eine automatische Routenoptimierung mit minimaler Latenzzeit ermöglichen, um Verzögerungen für die Fahrer zu vermeiden. 

Cybersicherheit

Streaming-Daten unterstützen Maßnahmen zur Cybersicherheit wie die automatische Erkennung von Anomalien. KI- und maschinelle Lernsysteme können Datenströme von Überwachungstools im gesamten System analysieren, um ungewöhnliche Muster oder verdächtiges Verhalten zu erkennen und so sofort auf potenzielle Probleme reagieren zu können. 

KI und maschinelles Lernen

Streaming-Daten spielen ebenfalls eine entscheidende Rolle bei KI und maschinellem Lernen. Beispielsweise können Stream-Processing-Frameworks das kontinuierliche KI-Modell-Training unterstützen, sodass sich maschinelle Lernalgorithmen nahezu in Echtzeit an sich ändernde Muster anpassen können.

Maschinelle Lernsysteme können durch einen Prozess, der als Online Learning bezeichnet wird, auch schrittweise aus Streaming-Datenquellen lernen, indem sie spezialisierte Algorithmen verwenden, um die Genauigkeit zu verbessern, ohne dass ein vollständiges Neutraining des Modells erforderlich ist.

Tools und Technologien für Streaming-Daten

Mit Hilfe von Open-Source- und kommerziellen Streaming-Datenlösungen können Unternehmen skalierbare und fehlertolerante Datenpipelines aufbauen, d. h. sie können sich von Störungen ohne Datenverlust oder Ausfallzeiten erholen.

Den meisten Streaming-Datenimplementierungen liegen zwei Schlüsseltechnologien zugrunde: Stream-Processing-Frameworks und Streaming-Datenplattformen.

Stream-Processing-Frameworks

Frameworks für die Stream-Verarbeitung bilden die Grundlage für die Verarbeitung kontinuierlicher Daten-Streams. Diese Frameworks helfen Unternehmen beim Aufbau leistungsstarker Datenpipelines, die große Datenmengen schnell und zuverlässig verarbeiten.

Drei Open-Source-Frameworks dominieren die Streaming-Landschaft:

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

Kafka ist eine führende Streaming-Plattform und kann riesige Datenmengen mit einer Latenz im Millisekundenbereich verarbeiten. Unternehmen nutzen Kafka häufig, um Pipelines für das Aktivitätstracking, die Betriebsüberwachung und die Protokollaggregation zu erstellen. 

Apache Flink

Apache Flink ist auf die Verarbeitung komplexer Ereignisse und zustandsabhängige Berechnungen spezialisiert. Die Technologie ist äußerst wertvoll für Echtzeitanalysen, Betrugserkennung und vorausschauende Wartung, wo das Verständnis des Kontexts von Ereignissen im Zeitverlauf von entscheidender Bedeutung ist.

Apache Spark

Spark ist für seine einheitlichen Analysefunktionen bekannt und kann sowohl Batch- als auch Streaming-Daten gleichzeitig verarbeiten. Diese Fähigkeit macht es in Szenarien nützlich, in denen Unternehmen historische Daten neben Live-Daten analysieren müssen.

Streaming-Datenplattformen und -dienste

Streaming-Datenplattformen bieten verschiedene Tools und Funktionen, die den gesamten Lebenszyklus von Streaming-Daten unterstützen, von der Aufnahme und Verarbeitung bis hin zur Speicherung und Integration.

Viele große Cloud-Provider bieten verwaltete Streaming-Datenlösungen an, die es Unternehmen erleichtern, Anwendungen für das Streaming großer Datenmengen einzurichten. Services wie Amazon Kinesis von Amazon Web Services (AWS), Microsoft Azure Stream Analytics, Google Clouds Dataflow und IBM Event Streams bieten einsatzbereite Tools. Unternehmen müssen keine komplexe Infrastruktur von Grund auf neu aufbauen.

Diese Dienstleistungen können auch in lokale Streaming-Tools integriert werden, um hybride Architekturen zu schaffen, die Leistungsanforderungen mit Datenschutzanforderungen in Einklang bringen können. 

Unternehmen können auch Tools wie IBM StreamSets und Confluent verwenden, um Streaming-Datenpipelines zu erstellen, die auf ihr individuelles IT-Ökosystem zugeschnitten sind.

Herausforderungen beim Streamen von Daten

Während Streaming-Daten viele Vorteile bieten können, können Unternehmen beim Aufbau der Datenarchitekturen, die zur Unterstützung von Streaming-Anwendungen erforderlich sind, vor Herausforderungen stehen.

Zu den häufigsten Herausforderungen gehören:

  • Skalierung der Datenarchitektur: Die Verarbeitung von Streaming-Daten erfordert oft die Bearbeitung riesiger Datenmengen aus vielen Quellen. Unternehmen können Schwierigkeiten haben, wenn ihre Streaming-Architekturen nicht effizient skaliert werden können, um große Datenmengen zu verarbeiten.

  • Aufrechterhaltung der Fehlertoleranz: Streaming-Systeme müssen fehlertolerant sein, während sie potenziell Millionen von Ereignissen pro Sekunde verarbeiten. Andernfalls riskieren Unternehmen, Daten aufgrund von Systemfehlfunktionen und Fehlverhalten zu verlieren.

  • Leistungsüberwachung: Echtzeitanwendungen erfordern eine ständige Überwachung von Kennzahlen wie Latenz, Durchsatz und Ressourcennutzung, um eine optimale Leistung zu gewährleisten. Diese Anforderung kann bereits überlastete Verarbeitungssysteme überfordern.

  • Implementierung von Data Governance: Unternehmen müssen berücksichtigen, wie sie Streaming-Daten speichern und verarbeiten, die personenbezogene Daten (PII) oder andere vertrauliche Informationen enthalten, die unter die Gerichtsbarkeit der Datenschutz-Grundverordnung (DSGVO), des California Consumer Privacy Act (CCPA) oder anderer Data Governance-Anforderungen fallen.

Autoren

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Weiterführende Lösungen
DataOps-Plattformlösungen

Organisieren Sie Ihre Daten mit IBM DataOps-Plattformlösungen, um sie vertrauenswürdig und für KI-Anwendungen bereit zu machen.

DataOps-Lösungen erkunden
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Integrieren Sie sowohl strukturierte als auch unstrukturierte Daten mithilfe verschiedener Methoden – darunter Batch-Verarbeitung, Echtzeit-Streaming und Replikation –, damit Sie keine Zeit und kein Geld damit verschwenden, zwischen verschiedenen Tools hin- und herzuwechseln.

  1. IBM watsonx.data integration erkunden
  2. Erkunden Sie die Datenintegrationslösungen