Datenpipeline-Observability: Ein Modell für Data Engineers

Blick von oben auf Menschen, die in einem modernen Büro arbeiten

Autor

Eitan Chazbani

Observability einer Datenpipeline ist Ihre Fähigkeit, den Zustand einer Datenpipeline jederzeit zu überwachen und zu verstehen. Insbesondere bietet Observability Erkenntnisse in die internen Zustände der Pipeline und wie diese mit den Ausgaben des Systems interagieren.

Wir sind der Meinung, dass die Datenpipelines weltweit eine bessere Daten-Observability benötigen. Doch leider ist heutzutage nur sehr wenig von dem, was im Bereich Data Engineering geschieht, beobachtbar. Die meisten Datenpipelines sind zum Verschieben, aber nicht zum Überwachen ausgelegt. Zum Messen, aber nicht zum Verfolgen. Zum Verwandeln, aber nicht zum Erzählen. Das Ergebnis ist der berüchtigte Fall der Blackbox.

Die neuesten Tech-News – von Experten bestätigt

Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben sich angemeldet.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Achtung vor dem Blackbox-Szenario

Sie wissen, was reingeht. Sie wissen, was rauskommt. Aber was passiert dazwischen? Und warum die Diskrepanz? Leider sind das Rätsel, für deren Lösung die meisten Pipelines nicht gebaut wurden. Die meisten wurden für das Best-Case-Szenario entwickelt.
Doch die Realität wird natürlich eher von Murphys Gesetz bestimmt, und auf der Ausgabeseite der Blackbox sieht man oft eine Vielzahl seltsamer Werte und kryptischer fehlender Spalten. Data Engineers rätseln und erkennen, dass man zum Korrigieren zuerst beobachten muss.

Dieser Leitfaden behandelt die folgenden Punkte:

  1. Was ist Datenbeobachtbarkeit?
  2. Was ist Datenpipeline-Observability?
  3. Warum ist Daten-Observability für Pipelines wichtig?
  4. Wie implementiert man Observability für Datenpipelines?
  5. Wie können Daten-Observability-Plattformen helfen?
AI Academy

Ist Datenverwaltung das Geheimnis generativer KI?

Erfahren Sie, warum qualitativ hochwertige Daten für den erfolgreichen Einsatz generativer KI unerlässlich sind.

Was ist Daten-Observability?

„Observability“ ist zu einem Modebegriff geworden, also ist es wohl am besten, ihn zu definieren: Daten-Observability ist der Oberbegriff für die Überwachung und Verbesserung des Zustands von Daten in Anwendungen und Systemen wie Datenpipelines.

Daten-Observability versus Monitoring: Was ist der Unterschied?

„Datenmonitoring“ informiert Sie über den aktuellen Zustand Ihrer Datenpipeline oder Ihrer Daten. Es gibt Auskunft darüber, ob die Daten vollständig, korrekt und aktuell sind. Es zeigt Ihnen an, ob Ihre Pipelines erfolgreich waren oder nicht. Die Datenüberwachung kann Ihnen zeigen, ob Dinge funktionieren oder kaputt sind, aber darüber hinaus gibt sie Ihnen nicht viel Kontext.

Die Überwachung ist also nur eine Funktion der Observability. „Daten-Observability“ ist ein Oberbegriff, der Folgendes umfasst:

  • Überwachung: Ein Dashboard, das eine operative Ansicht Ihrer Pipeline oder Ihres Systems bietet
  • Benachrichtigungen: Sowohl für erwartete Ereignisse als auch für Anomalien
  • Tracking: Möglichkeit, bestimmte Ereignisse festzulegen und zu verfolgen
  • Vergleiche: Überwachung im Zeitverlauf, mit Warnungen bei Anomalien
  • Analyse: Automatisierte Problemerkennung, die sich an Ihre Pipeline und Daten-Zustand anpasst
  • Nächste beste Maßnahme: Empfohlene Maßnahmen zur Fehlerbehebung

Indem sie nicht nur eine Aktivität – die Überwachung – umfasst, sondern vielmehr eine ganze Reihe von Aktivitäten, ist Observability für Ingenieure wesentlich nützlicher. Die Daten-Observability endet nicht mit der Beschreibung des Problems. Sie bietet Kontext und Vorschläge, um das Problem zu lösen.

„Daten-Observability geht tiefer als nur Überwachung, indem sie Systemmetriken mehr Kontext verleiht, einen tieferen Überblick über den Systembetrieb bietet und anzeigt, ob Ingenieure eingreifen und Fixes anwenden müssen“, erklärt Evgeny Shulman, Mitgründer und CTO von IBM Databand. „Mit anderen Worten, während die Überwachung Ihnen sagt, dass ein Microservice eine bestimmte Menge an Ressourcen verbraucht, sagt Ihnen Observability, dass sein aktueller Zustand mit kritischen Ausfällen zusammenhängt und Sie eingreifen müssen.“

Dieser proaktive Ansatz ist insbesondere bei Datenpipelines von großer Bedeutung.

Was ist die Observability der Datenpipeline?

Observability einer Datenpipeline bezeichnet die Fähigkeit, den Zustand einer Datenpipeline zu jedem Zeitpunkt zu überwachen und zu verstehen, insbesondere im Hinblick auf deren interne Zustände, basierend auf den Ausgaben des Systems. Es geht über die grundlegende Überwachung hinaus und bietet ein tieferes Verständnis dafür, wie Daten in einer Pipeline bewegt und transformiert werden. Häufig wird es mit Metriken, Protokollierung und der Verfolgung von Datenpipelines in Verbindung gebracht.

Datenpipelines umfassen oft eine Reihe von Phasen, in denen Daten gesammelt, transformiert und gespeichert werden. Dies kann Prozesse wie Datenextraktion aus verschiedenen Quellen, Datenbereinigung, Datenkonvertierung (wie Aggregation) und das Laden der Daten in eine Datenbank oder ein Data Warehouse umfassen. Jede dieser Phasen kann unterschiedliche Verhaltensweisen und potenzielle Probleme aufweisen, die sich auf die Datenqualität, die Zuverlässigkeit und die Gesamtleistung des Systems auswirken können.

Observability bietet Erkenntnisse darüber, wie jede Phase der Datenpipeline funktioniert und wie ihr inneres Funktionieren mit bestimmten Arten von Ausgaben korreliert – insbesondere Ausgaben, die nicht das erforderliche Maß an Leistung, Qualität oder Genauigkeit bieten. Diese Erkenntnisse ermöglichen es den Data-Engineering-Teams, zu verstehen, was schiefgelaufen ist, und es zu beheben.

Warum ist Daten-Observability für Pipelines so wichtig?

Die Observability von Datenpipelines ist deshalb wichtig, weil Pipelines sich von kompliziert zu komplex entwickelt haben – von vielen gleichzeitigen Systemen zu vielen voneinander abhängigen Systemen.

Pipelines sind für eine schnell expandierende Branche unverzichtbar

Es ist wahrscheinlicher denn je, dass Softwareanwendungen nicht nur von Datenpipelines profitieren – sie sind darauf angewiesen. Das gilt auch für die Endnutzer. Wenn große Anbieter wie AWS Ausfällehaben und die Dashboards von Anwendungen auf der ganzen Welt nicht mehr existieren, können Sie überall um Sie herum Anzeichen dafür sehen, dass Komplexität zu gefährlichen Abhängigkeiten führt.

Aktuell verzeichnet die Analytics-Branche eine kombinierte jährliche Wachstumsrate von 12 %. Laut Gartner wird der Wert bis 2027 unglaubliche 105 Milliarden US-Dollar erreichen – das entspricht in etwa der Größe der ukrainischen Wirtschaft. Bei diesem Tempo wächst das Datenvolumen der Unternehmen derzeit jeden Monat um 62 %. All diese Unternehmen, die all diese Daten speichern und analysieren? Sie setzen ihr Geschäft darauf und darauf, dass die Datenpipelines, die sie betreiben, weiterhin funktionieren.

Kontext ist entscheidend (und fehlt oft)

Eine Hauptursache für Datenqualitätsprobleme und Pipelineausfälle sind Transformationen innerhalb dieser Pipelines. Die meisten Datenarchitekturen sind heutzutage undurchsichtig – man kann nicht erkennen, was im Inneren vor sich geht. Es finden zwar Transformationen statt, aber wenn die Ergebnisse nicht wie erwartet ausfallen, haben die Dateningenieure nicht viel Kontext, warum dies geschieht.

Zu viele DataOps-Teams verbringen viel zu viel Zeit damit, Probleme ohne Kontext zu diagnostizieren. Und wenn Sie Ihrem ersten Impuls folgen und ein Application Performance Management-Tool zur Überwachung einer DataOps-Pipeline verwenden, funktioniert das selten.

Observability sorgt dafür, dass die Ingenieure auf dem Laufenden (und zuversichtlich) sind

„Datenpipelines verhalten sich ganz anders als Anwendungen und Infrastrukturen“, sagt Evgeny. „Data Engineering-Teams können zwar Erkenntnis in den Status der High-Level-Jobs (oder DAG) und die zusammengefasste Leistung erhalten, haben aber keinen Einblick in das richtige Informationsniveau, das sie zur Verwaltung ihrer Pipelines benötigen. Diese Lücke führt dazu, dass viele Teams viel Zeit mit der Fehlersuche verbringen oder in einem Zustand ständiger Paranoia arbeiten.“

Ein größeres und spezialisierteres Datenteam kann hilfreich sein, aber es kann auch schaden, wenn diese Teammitglieder sich nicht koordinieren. Mehr Mitarbeiter, die auf die Daten zugreifen und ihre eigenen Pipelines und Transformationen ausführen, verursachen Fehler und beeinträchtigen die Datenstabilität.

Immer mehr Ingenieure machen sich heutzutage Gedanken über die Datenstabilität und darüber, ob ihre Daten für die Nutzung durch die Verbraucher innerhalb und außerhalb des Unternehmens geeignet sind. Deshalb interessieren sich immer mehr Teams für Daten-Observability.

Wie implementieren Sie Observability für Datenpipelines?

Daten-Observability arbeitet mit Ihrer Datenpipeline zusammen, indem sie Erkenntnisse in den Datenfluss und die Datenverarbeitung vom Anfang bis zum Ende bietet. Hier ist eine detailliertere Erklärung, wie Daten-Observability innerhalb der Datenpipeline funktioniert:

  • Datenaufnahme: Observability beginnt an dem Punkt, an dem Daten in die Pipeline aufgenommen werden. Sie können überwachen, wie viele Daten eingelesen werden, wie schnell sie verarbeitet werden und ob es Fehler oder Verzögerungen gibt.
  • Datenverarbeitung: Wenn Daten verschiedene Verarbeitungsphasen durchlaufen, können Observability-Tools den Betrieb jeder Stufe überwachen. Dazu gehören die Überwachung von Ausfällen, die Messung von Latenzzeiten, die Überwachung der Ressourcennutzung und die Sicherstellung der korrekten Datenumwandlung.
  • Datenspeicher und -bereitstellung: Die Observability setzt sich auch in der Speicher- und Bereitstellungsphase fort. Sie kann überwachen, wie schnell Daten in die Datenbank oder das Data Warehouse geschrieben werden, sicherstellen, dass die Daten an die richtigen Ziele geliefert werden, und Sie auf etwaige Probleme aufmerksam machen.
  • Fehlerverfolgung und Fehlerbehebung: Observability-Tools können dabei helfen, festzustellen, wo Fehler aufgetreten sind, ihre Ursache zu ermitteln und sogar Sanierung vorzuschlagen. Dies ist kritisch, um Ausfallzeit zu minimieren und die Zuverlässigkeit Ihrer Datenpipeline zu gewährleisten.
  • Leistungsoptimierung: Durch die Überwachung der Leistung Ihrer Datenpipeline können Observability-Tools helfen, Engpässe und Möglichkeiten für die Leistungsoptimierung zu identifizieren. Dies kann zu einer effizienteren Nutzung der Ressourcen und kürzeren Bearbeitungszeiten führen.
  • Anomalie-Erkennung: Observability kann helfen, Anomalien zu erkennen, die auf mögliche Probleme oder Verbesserungsmöglichkeiten hinweisen könnten. Wenn beispielsweise Daten deutlich länger als üblich verarbeitet werden, könnte dies auf ein Problem in einer bestimmten Phase der Pipeline hinweisen.
  • Alarmierung und Berichterstattung: Observability-Tools enthalten oft Funktionen, die Sie in Echtzeit über potenzielle Probleme informieren und so eine schnelle Reaktion ermöglichen. Außerdem bieten sie häufig umfassende Funktionen, die Ihnen helfen können, die Leistung und den allgemeinen Zustand Ihrer Datenpipeline zu verstehen.

Wie Daten-Observability-Plattformen helfen können

Daten-Observability-Plattformen liefern Erkenntnisse, die mit einem Überwachungstool allein nicht gewonnen werden können. Sie sagen Ihnen nicht nur, was schiefgelaufen ist, sondern auch, welche Probleme dadurch entstehen, und bieten Hinweise und sogar nächstbeste Maßnahmen zur Behebung des Problems an. Es tut dies kontinuierlich, ohne dass Sie Ihre aktuellen Leitungen neu konstruieren oder sozusagen „das Triebwerk während des Fluges wechseln“ müssen.

Warum Ingenieure Observability-Plattformen einsetzen

  • Ihre Datenpipelines sind komplexe Systeme. Sie benötigen eine Daten-Observability-Architektur, die ständig nachforscht.
  • Sie müssen wissen, wo etwas nicht funktioniert hat und warum. Eine Observability-Plattform bietet genau zu diesem Zweck eine durchgängige Überwachung.
  • Sie benötigen eine Möglichkeit, nachgelagerte Abhängigkeiten zu verfolgen. Sie müssen wissen – nicht hoffen – dass Ihre Lösung das eigentliche Problem behoben hat.

Komponenten einer effektiven Observability-Plattform für Datenpipelines

Ihre Datenpipelines sind komplexe Systeme und erfordern eine Daten-Observability-Architektur, die ständige Analysen durchführt. Sie benötigen eine Observability-Plattform für die durchgängige Überwachung, damit Sie wissen, wo Fehler aufgetreten sind und warum. Sie brauchen eine Möglichkeit, nachgelagerte Abhängigkeiten zu verfolgen und zu wissen – und nicht zu hoffen – dass Ihre Fixes das Grundproblem beheben.

Eine Plattform zur Daten-Observability sollte Folgendes umfassen:

  • Einfache Einrichtung: Ist eine Änderung Ihrer Pipeline erforderlich?
  • End-to-End-Tracking: Kann es nachgelagerte Abhängigkeiten überwachen?
  • Observability-Architektur: Kann sie mehr als nur überwachen?
  • Schwellenwerteinstellung: Ist eine eigene Anomalieerkennung möglich?
  • Verwaltung: Kann sie Daten im Ruhezustand überwachen?
  • Open Source für Daten-Observability: Bietet sie anpassbare Open-Source-Komponenten?
  • Observability verteilter Systeme: Können auch verteilte Systeme beobachtet werden?

Die Plattform sollte außerdem zahlreiche konkrete Handlungsempfehlungen bieten. Der Bereich der Daten-Observability und des Data Engineering entwickelt sich schnell. Eine der besten Möglichkeiten, eine Plattform zu finden, die sich genauso schnell weiterentwickelt wie Ihre Probleme. Überwachung allein genügt nicht mehr. Sie müssen beobachten, verfolgen, alarmieren und reagieren.

Sehen Sie, wie IBM® Databand eine Überwachung der Datenpipeline bereitstellt, um Daten-Vorfälle wie fehlgeschlagene Jobs und Ausführungen schnell zu erkennen, damit Sie für Ihr Pipeline-Wachstum gerüstet sind. Wenn Sie bereit sind, einen genaueren Blick darauf zu werfen, buchen Sie noch heute eine Demo.

Weiterführende Lösungen
IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden
IBM watsonx.data

Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.

IBM watsonx.data entdecken
Beratungsservices für Daten und Analysen

Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.

Analyse-Services entdecken
Machen Sie den nächsten Schritt

Entwerfen Sie eine Datenstrategie, die Datensilos beseitigt, die Komplexität reduziert und die Datenqualität verbessert, um außergewöhnliche Kunden- und Mitarbeitererfahrungen zu schaffen.

Lösungen für Datenmanagement erkunden IBM watsonx.data entdecken