Was sind Streaming-Daten?

Luftbild mehrerer Flüsse in einer Landschaft

Autoren

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Was sind Streaming-Daten?

Streaming-Daten sind der kontinuierliche Fluss von Echtzeitdaten aus verschiedenen Quellen. Im Gegensatz zur Batch-Verarbeitung, bei der Datensätze in geplanten Intervallen verarbeitet werden, werden Streaming-Daten sofort verarbeitet, wenn sie eintreffen, um unmittelbare Erkenntnis in Echtzeit zu erhalten.

Unternehmen generieren heutzutage große Mengen an Daten über alles, von Geräten des Internet der Dinge (IoT) bis hin zu E-Commerce-Transaktionen. Streaming-Daten, auch als „Datenstreaming“ oder „Echtzeit-Datenstreaming“ bezeichnet, hilft Unternehmen, diese kontinuierlichen Datenströme zu verarbeiten, sobald sie eingehen.

Beispiele für Streaming-Daten sind:

  • Finanzmarktdaten, die Aktienkurse und Handelsaktivitäten verfolgen
  • IoT-Sensorwerte überwachen die Geräteleistung
  • Social-Media-Aktivitätsströme, die das Engagement der Nutzer erfassen
  • Clickstream-Daten der Website, die Verhaltensmuster der Besucher zeigen

Unternehmen verwenden Streaming-Daten häufig, um Geschäftsinitiativen zu unterstützen, die sich auf Echtzeitdaten für eine schnelle, datengesteuerte Entscheidungsfindung verlassen, z. B. Datenanalyse und Business Intelligence (BI).

Das Streamen von Daten ist häufig Teil der Big-Data-Erfassung und -Verarbeitung. So können Unternehmen beispielsweise kontinuierliche Datenströme analysieren, indem sie Big Data Analytics verwenden, um Einblicke in die betriebliche Effizienz, Verbrauchertrends und sich ändernde Marktdynamiken zu erhalten.

Da Streaming-Daten kontinuierlich fließen, erfordern sie andere Verarbeitungsmethoden als die herkömmliche Stapelverarbeitung. Dazu gehören häufig skalierbare Streaming-Architekturen und Stream-Prozessoren, die die Datenerfassung, -verarbeitung und -analyse verwalten und gleichzeitig eine optimale Leistung gewährleisten.

In den letzten Jahren hat der Aufstieg von künstlicher Intelligenz (KI) und maschinellem Lernen den Fokus auf Funktionen von Streaming-Daten erhöht. Diese Technologie beruht häufig auf der Verarbeitung von Streaming-Daten, um Erkenntnisse und Vorhersagen in Echtzeit zu generieren.

Laut Gartner geben 61 % der Unternehmen an, dass sie ihr Daten- und Analysemodell aufgrund der Auswirkungen von KI-Technologien weiterentwickeln oder überdenken müssen.1

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think. 

Streaming-Daten vs. Batch-Verarbeitung

Unternehmen können Daten auf zwei Arten verarbeiten: Batch-Verarbeitung oder Streaming-Daten.

Beide Methoden verarbeiten zwar große Datenmengen, bedienen aber unterschiedliche Anwendungsfälle und erfordern unterschiedliche Architekturen.

Die wichtigsten Unterschiede:

  • Verarbeitungsmodell: Die Batch-Verarbeitung aggregiert und analysiert Datensätze stapelweise in festen Intervallen, während beim Streaming von Daten Echtzeit-Datenverarbeitungstools verwendet werden, um Daten sofort zu verarbeiten. Das bedeutet, dass Streaming-Systeme Erkenntnisse liefern und sofort Maßnahmen ergreifen können, während Batch-Systeme nach einem regelmäßigen Zeitplan arbeiten.

  • Infrastrukturanforderungen: Batch-Systeme verwenden häufig traditionelle Datenspeicher- und Analysetools wie Data Warehouses, während Streaming spezielle Frameworks und Datenstreaming-Plattformen erfordert, die für die Verarbeitung von Datenflüssen in Echtzeit entwickelt wurden.

  • Leistungsanforderungen: Batch-Systeme können die Ressourcen-Nutzung während geplanter Ausführung optimieren, während die Stream-Verarbeitung fehlertolerante Systeme mit geringer Latenz benötigt. Mit anderen Worten: Streaming-Systeme müssen Daten in Echtzeit und ohne Verzögerungen verarbeiten, auch wenn die Datenmengen hoch sind oder Probleme auftreten.

Unternehmen entscheiden sich in der Regel je nach Datenvolumen, Latenzanforderungen und Geschäftszielen für die Stapel- oder die Stream-Verarbeitung. Viele nutzen beide Ansätze innerhalb einer einheitlichen Datenstruktur, um verschiedene Arten von Datenaufgaben zu bewältigen.

Ein E-Commerce-Unternehmen könnte beispielsweise die Stapelverarbeitung nutzen, um tägliche Verkaufsberichte zu erstellen, und gleichzeitig Streaming-Daten und Echtzeitanalyse-Systeme verwenden, um wichtige Website-Metriken zu überwachen.  

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

So funktioniert das Streamen von Daten

Auf hoher Ebene funktioniert das Streamen von Daten durch die kontinuierliche Erfassung, Verarbeitung und Analyse von Echtzeit-Datenströmen aus verschiedenen Quellen. Dieser Prozess besteht aus vier Hauptphasen:

  • Datenaufnahme
  • Stream-Verarbeitung
  • Datenanalyse
  • Datenspeicher

Datenaufnahme

In der ersten Phase werden eingehende Datenströme aus verschiedenen Quellen erfasst. Moderne Tools zur Datenaufnahme wie Apache Kafka puffern und standardisieren diese Ströme bei ihrem Eintreffen, wodurch sowohl Skalierbarkeit als auch Datenkonsistenz gewährleistet werden.

Unternehmen integrieren Tools zur Datenerfassung in der Regel mit anderen Komponenten, um einheitliche Workflows zu schaffen. Datenintegrationstools können auch dazu beitragen, unterschiedliche Datentypen in einem standardisierten Format für die Verarbeitung zusammenzuführen, um sicherzustellen, dass Daten aus verschiedenen Quellen effektiv kombiniert und analysiert werden können.

Stream-Verarbeitung

In der Verarbeitungsphase analysieren und transformieren Stream-Processing-Frameworks wie Apache Flink Daten während der Übertragung. Diese Frameworks ermöglichen Unternehmen Folgendes:

  • Verarbeiten Sie komplexe Ereignisse in Echtzeit

  • Führen Sie Datenaggregation in großem Maßstab durch, z. B. die Berechnung von Durchschnittswerten, das Zählen von Ereignissen oder das Addieren von Transaktionswerten

  • Wenden Sie Transformationen an – wie das Filtern, Anreichern oder Formatieren von Daten – während die Daten die Datenpipeline durchlaufen.

Datenanalyse und Visualisierung

In dieser Phase gewinnen Unternehmen durch Datenvisualisierung und andere Analysetools umsetzbare Geschäftserkenntnisse aus Streaming-Datenströmen.

Zu den wichtigsten Anwendungen gehören:

  • Echtzeit-Dashboards, die wichtige Metriken und KPIs liefern

  • Betriebsanwendungen, die Workflows automatisieren und Prozesse optimieren

  • Modelle für maschinelles Lernen, die Muster analysieren, um Ergebnisse vorherzusagen

Datenspeicher

Bei der Speicherung von Streaming-Daten müssen Unternehmen die Notwendigkeit eines schnellen Zugriffs auf Daten für die Echtzeitnutzung mit der langfristigen Datenspeicherung, Kosteneffizienz und Datenkonformität in Einklang bringen.

Viele Unternehmen verwenden Data Lakes und Data Lakehouses zum Speichern von Streamingdaten, da diese Lösungen kostengünstige, flexible Speicherumgebungen für große Datenmengen bieten. Nachdem Streamingdaten erfasst wurden, können sie an ein Data Warehouse gesendet werden, wo sie bereinigt und für die Verwendung vorbereitet werden können.  

Unternehmen implementieren oft mehrere Datenspeicherlösungen zusammen in einer einheitlichen Data Fabric. Beispielsweise könnten Finanzinstitute Data Lakes verwenden, um rohe Transaktionsströme zu speichern, während sie Data Warehouses für Analysen und zur Berichterstellung nutzen.

Arten von Streaming-Daten

Unternehmen können viele Arten von Streaming-Daten nutzen, um Echtzeit-Analysen und Entscheidungsfindung zu unterstützen. Zu den häufigsten Streaming-Datenströmen gehören:

Event Streams

Event Streams erfassen Systemaktionen oder -änderungen, sobald sie auftreten, wie z. B. Aufrufe der Programmierschnittstelle (Application Programming Interface, API), Klicks auf der Website oder App-Protokolleinträge. Event Streams werden häufig verwendet, um systemübergreifende Aktivitäten in Echtzeit zu verfolgen und so die sofortige Reaktion auf Benutzerinteraktionen oder Systemereignisse zu ermöglichen.

Transaktionsdaten in Echtzeit

Transaktionsdaten in Echtzeit erfassen kontinuierliche Abläufe von Geschäftstransaktionen, wie digitale Zahlungen oder E-Commerce-Käufe. Transaktionsdaten in Echtzeit unterstützen Anwendungen wie Betrugserkennung und sofortige Entscheidungsfindung.

IoT- und Sensordaten

IoT- und Sensordaten enthalten Informationen zu Umgebungsbedingungen, der Leistung von Geräten und physischen Prozessen. Diese Datenströme unterstützen häufig die Geräteüberwachung in Echtzeit und die Prozessautomatisierung

.

Anwendungsfälle für Streamingdaten

Das Streaming von Daten ermöglicht es Unternehmen, große Mengen an Echtzeitinformationen zu verarbeiten, um sofort Erkenntnisse zu gewinnen und Maßnahmen zu ergreifen.

Zu den gängigen Anwendungen gehören:

Finanzdienstleistungen

Finanzinstitute nutzen häufig Streaming-Analysen, um Marktdaten, Transaktionen und Kundeninteraktionen zu verarbeiten.

Zum Beispiel verlassen sich Kreditkartenunternehmen auf Streaming-Daten zur Betrugserkennung. Streaming-Datenplattformen ermöglichen es diesen Unternehmen, Tausende von Transaktionen pro Sekunde zu analysieren, um ungewöhnliche Aktivitäten zu erkennen und verdächtige Transaktionen zu kennzeichnen oder zu blockieren.

Herstellung

Moderne Produktionsanlagen nutzen häufig IoT-Gerätesensoren und Echtzeit-Datenverarbeitung, um die betriebliche Effizienz zu verbessern.

So kann beispielsweise ein Automobilwerk Tausende von Sensoren am Fließband überwachen und Metriken wie Temperatur, Vibration und Leistung verfolgen. Diese Daten können den Betreibern helfen, Ineffizienzen frühzeitig zu erkennen und vorbeugende Wartung zu planen, um Ausfallzeiten zu vermeiden.

Gesundheitswesen

Gesundheitsdienstleister verlassen sich auf Streaming-Anwendungen, um Daten von medizinischen Geräten und Patientenüberwachungssystemen zu verarbeiten.

Auf Intensivstationen übertragen beispielsweise Monitore am Krankenbett die Vitaldaten über Datenleitungen an zentrale Prozessoren. Diese Prozessoren können dann besorgniserregende Muster erkennen und das medizinische Personal automatisch benachrichtigen, wenn eine Intervention erforderlich ist.

Einzelhandel und E-Commerce

Einzelhändler und E-Commerce-Unternehmen nutzen Streaming-Daten von Kassensystemen, Bestandssensoren und Online-Plattformen, um ihre Betriebsabläufe zu optimieren.

Beispielsweise kann eine große E-Commerce-Plattform Apache Kafka verwenden, um Clickstreams von Millionen von Käufern zu verarbeiten, um die Nachfrage zu messen und die Customer Experience zu personalisieren.

Transport und Logistik

Transportunternehmen nutzen häufig Streaming Analytics, um GPS-Daten und IoT-Sensorwerte zur Fuhrparkoptimierung zu verarbeiten.

So kann beispielsweise ein Logistikdienstleister Echtzeitdaten von Tausenden von Fahrzeugen mit Wetter- und Verkehrsdatensätzen verknüpfen. Stream-Prozessoren können dann eine automatische Routenoptimierung mit minimaler Latenzzeit ermöglichen, um Verzögerungen für die Fahrer zu vermeiden. 

Cybersicherheit

Streaming-Daten unterstützen Maßnahmen zur Cybersicherheit wie die automatische Erkennung von Anomalien. KI- und maschinelle Lernsysteme können Datenströme von Überwachungstools im gesamten System analysieren, um ungewöhnliche Muster oder verdächtiges Verhalten zu erkennen und so sofort auf potenzielle Probleme reagieren zu können. 

KI und maschinelles Lernen

Streaming-Daten spielen auch eine entscheidende Rolle bei KI und maschinellem Lernen. Beispielsweise können Stream-Processing-Frameworks das kontinuierliche KI-Modell-Training unterstützen, sodass sich maschinelle Lernalgorithmen nahezu in Echtzeit an sich ändernde Muster anpassen können.

Systeme des maschinellen Lernens können durch einen Prozess, der als Online Learning bezeichnet wird, auch schrittweise aus Streaming-Datenquellen lernen. Dabei werden spezielle Algorithmen verwendet, um die Genauigkeit zu verbessern, ohne dass ein vollständiges Neutraining des Modells erforderlich ist.

Tools und Technologien für Streaming-Daten

Mit Hilfe von Open-Source- und kommerziellen Streaming-Datenlösungen können Unternehmen skalierbare und fehlertolerante Datenpipelines aufbauen, d. h. sie können sich von Störungen ohne Datenverlust oder Ausfallzeiten erholen.

Den meisten Streaming-Datenimplementierungen liegen zwei Schlüsseltechnologien zugrunde: Stream-Processing-Frameworks und Streaming-Datenplattformen.

Stream-Processing-Frameworks

Frameworks für die Stream-Verarbeitung bilden die Grundlage für die Verarbeitung kontinuierlicher Datenströme. Diese Frameworks helfen Unternehmen beim Aufbau leistungsstarker Datenpipelines, die große Datenmengen schnell und zuverlässig verarbeiten.

Drei Open-Source-Frameworks dominieren die Streaming-Landschaft:

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

Kafka ist eine führende Streaming-Plattform und kann riesige Datenmengen mit einer Latenz im Millisekundenbereich verarbeiten. Unternehmen nutzen Kafka häufig, um Pipelines für das Aktivitätstracking, die Betriebsüberwachung und die Protokollaggregation zu erstellen. 

Apache Flink

Apache Flink ist auf die Verarbeitung komplexer Ereignisse und zustandsabhängige Berechnungen spezialisiert. Die Technologie ist äußerst wertvoll für Echtzeitanalysen, Betrugserkennung und vorausschauende Wartung, wo das Verständnis des Kontexts von Ereignissen im Zeitverlauf von entscheidender Bedeutung ist.

Apache Spark

Spark ist für seine einheitlichen Analysefunktionen bekannt und kann sowohl Batch- als auch Streaming-Daten gleichzeitig verarbeiten. Diese Fähigkeit macht es in Szenarien nützlich, in denen Unternehmen historische Daten neben Live-Daten analysieren müssen.

Streaming-Datenplattformen und -dienste

Streaming-Datenplattformen bieten verschiedene Tools und Funktionen, die den gesamten Lebenszyklus von Streaming-Daten unterstützen, von der Aufnahme und Verarbeitung bis hin zur Speicher und Integration.

Viele große Cloud-Provider bieten verwaltete Streaming-Datenlösungen an, die es Organisationen erleichtern, Anwendungen für das Streaming großer Datenmengen einzurichten. Services wie Amazon Kinesis von Amazon Web Services (AWS), Microsoft Azure Stream Analytics, Google Clouds Dataflow und IBM Event Streams bieten einsatzbereite Tools. Unternehmen müssen keine komplexe Infrastruktur von Grund auf neu aufbauen.

Diese Services können auch in lokale Streaming-Tools integriert werden, um hybride Architekturen zu schaffen, die Leistungsanforderungen mit Datenschutzanforderungen in Einklang bringen können. 

Unternehmen können auch Tools wie IBM StreamSets und Confluent verwenden, um Streaming-Datenpipelines zu erstellen, die auf ihr individuelles IT-Ökosystem zugeschnitten sind.

Herausforderungen beim Streamen von Daten

Während Streaming-Daten viele Vorteile bieten können, können Unternehmen beim Aufbau der Datenarchitekturen, die zur Unterstützung von Streaming-Anwendungen erforderlich sind, vor Herausforderungen stehen.

Zu den häufigsten Herausforderungen gehören:

  • Skalierung der Datenarchitektur: Bei der Verarbeitung von Streaming-Daten müssen oft riesige Datenmengen aus vielen Quellen verarbeitet werden. Unternehmen können Probleme bekommen, wenn ihre Streaming-Architekturen nicht effizient skaliert werden können, um große Datenmengen zu verarbeiten.

  • Aufrechterhaltung der Fehlertoleranz: Streaming-Systeme müssen fehlertolerant sein, während sie potenziell Millionen von Ereignissen pro Sekunde verarbeiten. Andernfalls riskieren Unternehmen, Daten aufgrund von Systemfehlfunktionen und Fehlverhalten zu verlieren.

  • Leistungsüberwachung: Echtzeitanwendungen erfordern eine ständige Überwachung von Kennzahlen wie Latenz, Durchsatz und Ressourcennutzung, um eine optimale Leistung zu gewährleisten. Diese Anforderung kann bereits überlastete Verarbeitungssysteme überfordern.

  • Implementierung von Data Governance: Unternehmen müssen berücksichtigen, wie sie Streaming-Daten speichern und verarbeiten, die personenbezogene Daten (PII) oder andere vertrauliche Informationen enthalten, die unter die Gerichtsbarkeit der Datenschutz-Grundverordnung (DSGVO), des California Consumer Privacy Act (CCPA) oder anderer Data Governance-Anforderungen fallen.
Weiterführende Lösungen
DataOps-Plattformlösungen

Organisieren Sie Ihre Daten mit IBM DataOps-Plattformlösungen, um sie vertrauenswürdig und für KI-Anwendungen bereit zu machen.

Erkunden Sie DataOps-Lösungen
IBM Databand

Erkunden Sie IBM Databand, die Observability-Software für Datenpipelines. Sie erfasst automatisch Metadaten, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und Workflows zu erstellen, damit Probleme mit der Datenqualität behoben werden können.

Databand erkunden
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting und bauen Sie ein erkenntnisorientiertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Entdecken Sie die Analyse-Services
Machen Sie den nächsten Schritt

Organisieren Sie Ihre Daten mit IBM DataOps-Plattformlösungen, um sie vertrauenswürdig und für KI-Anwendungen bereit zu machen.

DataOps-Lösungen erkunden Analysedienste erkunden