Observability einer Datenpipeline ist Ihre Fähigkeit, den Zustand einer Datenpipeline jederzeit zu überwachen und zu verstehen. Insbesondere bietet Observability Erkenntnisse in die internen Zustände der Pipeline und wie diese mit den Ausgaben des Systems interagieren.
Wir sind der Meinung, dass die Datenpipelines weltweit eine bessere Daten-Observability benötigen. Doch leider ist heutzutage nur sehr wenig von dem, was im Bereich Data Engineering geschieht, beobachtbar. Die meisten Datenpipelines sind zum Verschieben, aber nicht zum Überwachen ausgelegt. Zum Messen, aber nicht zum Verfolgen. Zum Verwandeln, aber nicht zum Erzählen. Das Ergebnis ist der berüchtigte Fall der Blackbox.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Sie wissen, was reingeht. Sie wissen, was rauskommt. Aber was passiert dazwischen? Und warum die Diskrepanz? Leider sind das Rätsel, für deren Lösung die meisten Pipelines nicht gebaut wurden. Die meisten wurden für das Best-Case-Szenario entwickelt.
Doch die Realität wird natürlich eher von Murphys Gesetz bestimmt, und auf der Ausgabeseite der Blackbox sieht man oft eine Vielzahl seltsamer Werte und kryptischer fehlender Spalten. Data Engineers rätseln und erkennen, dass man zum Korrigieren zuerst beobachten muss.
Dieser Leitfaden behandelt die folgenden Punkte:
„Observability“ ist zu einem Modebegriff geworden, also ist es wohl am besten, ihn zu definieren: Daten-Observability ist der Oberbegriff für die Überwachung und Verbesserung des Zustands von Daten in Anwendungen und Systemen wie Datenpipelines.
„Datenmonitoring“ informiert Sie über den aktuellen Zustand Ihrer Datenpipeline oder Ihrer Daten. Es gibt Auskunft darüber, ob die Daten vollständig, korrekt und aktuell sind. Es zeigt Ihnen an, ob Ihre Pipelines erfolgreich waren oder nicht. Die Datenüberwachung kann Ihnen zeigen, ob Dinge funktionieren oder kaputt sind, aber darüber hinaus gibt sie Ihnen nicht viel Kontext.
Die Überwachung ist also nur eine Funktion der Observability. „Daten-Observability“ ist ein Oberbegriff, der Folgendes umfasst:
Indem sie nicht nur eine Aktivität – die Überwachung – umfasst, sondern vielmehr eine ganze Reihe von Aktivitäten, ist Observability für Ingenieure wesentlich nützlicher. Die Daten-Observability endet nicht mit der Beschreibung des Problems. Sie bietet Kontext und Vorschläge, um das Problem zu lösen.
„Daten-Observability geht tiefer als nur Überwachung, indem sie Systemmetriken mehr Kontext verleiht, einen tieferen Überblick über den Systembetrieb bietet und anzeigt, ob Ingenieure eingreifen und Fixes anwenden müssen“, erklärt Evgeny Shulman, Mitgründer und CTO von IBM Databand. „Mit anderen Worten, während die Überwachung Ihnen sagt, dass ein Microservice eine bestimmte Menge an Ressourcen verbraucht, sagt Ihnen Observability, dass sein aktueller Zustand mit kritischen Ausfällen zusammenhängt und Sie eingreifen müssen.“
Dieser proaktive Ansatz ist insbesondere bei Datenpipelines von großer Bedeutung.
Observability einer Datenpipeline bezeichnet die Fähigkeit, den Zustand einer Datenpipeline zu jedem Zeitpunkt zu überwachen und zu verstehen, insbesondere im Hinblick auf deren interne Zustände, basierend auf den Ausgaben des Systems. Es geht über die grundlegende Überwachung hinaus und bietet ein tieferes Verständnis dafür, wie Daten in einer Pipeline bewegt und transformiert werden. Häufig wird es mit Metriken, Protokollierung und der Verfolgung von Datenpipelines in Verbindung gebracht.
Datenpipelines umfassen oft eine Reihe von Phasen, in denen Daten gesammelt, transformiert und gespeichert werden. Dies kann Prozesse wie Datenextraktion aus verschiedenen Quellen, Datenbereinigung, Datenkonvertierung (wie Aggregation) und das Laden der Daten in eine Datenbank oder ein Data Warehouse umfassen. Jede dieser Phasen kann unterschiedliche Verhaltensweisen und potenzielle Probleme aufweisen, die sich auf die Datenqualität, die Zuverlässigkeit und die Gesamtleistung des Systems auswirken können.
Observability bietet Erkenntnisse darüber, wie jede Phase der Datenpipeline funktioniert und wie ihr inneres Funktionieren mit bestimmten Arten von Ausgaben korreliert – insbesondere Ausgaben, die nicht das erforderliche Maß an Leistung, Qualität oder Genauigkeit bieten. Diese Erkenntnisse ermöglichen es den Data-Engineering-Teams, zu verstehen, was schiefgelaufen ist, und es zu beheben.
Die Observability von Datenpipelines ist deshalb wichtig, weil Pipelines sich von kompliziert zu komplex entwickelt haben – von vielen gleichzeitigen Systemen zu vielen voneinander abhängigen Systemen.
Es ist wahrscheinlicher denn je, dass Softwareanwendungen nicht nur von Datenpipelines profitieren – sie sind darauf angewiesen. Das gilt auch für die Endnutzer. Wenn große Anbieter wie AWS Ausfällehaben und die Dashboards von Anwendungen auf der ganzen Welt nicht mehr existieren, können Sie überall um Sie herum Anzeichen dafür sehen, dass Komplexität zu gefährlichen Abhängigkeiten führt.
Aktuell verzeichnet die Analytics-Branche eine kombinierte jährliche Wachstumsrate von 12 %. Laut Gartner wird der Wert bis 2027 unglaubliche 105 Milliarden US-Dollar erreichen – das entspricht in etwa der Größe der ukrainischen Wirtschaft. Bei diesem Tempo wächst das Datenvolumen der Unternehmen derzeit jeden Monat um 62 %. All diese Unternehmen, die all diese Daten speichern und analysieren? Sie setzen ihr Geschäft darauf und darauf, dass die Datenpipelines, die sie betreiben, weiterhin funktionieren.
Eine Hauptursache für Datenqualitätsprobleme und Pipelineausfälle sind Transformationen innerhalb dieser Pipelines. Die meisten Datenarchitekturen sind heutzutage undurchsichtig – man kann nicht erkennen, was im Inneren vor sich geht. Es finden zwar Transformationen statt, aber wenn die Ergebnisse nicht wie erwartet ausfallen, haben die Dateningenieure nicht viel Kontext, warum dies geschieht.
Zu viele DataOps-Teams verbringen viel zu viel Zeit damit, Probleme ohne Kontext zu diagnostizieren. Und wenn Sie Ihrem ersten Impuls folgen und ein Application Performance Management-Tool zur Überwachung einer DataOps-Pipeline verwenden, funktioniert das selten.
„Datenpipelines verhalten sich ganz anders als Anwendungen und Infrastrukturen“, sagt Evgeny. „Data Engineering-Teams können zwar Erkenntnis in den Status der High-Level-Jobs (oder DAG) und die zusammengefasste Leistung erhalten, haben aber keinen Einblick in das richtige Informationsniveau, das sie zur Verwaltung ihrer Pipelines benötigen. Diese Lücke führt dazu, dass viele Teams viel Zeit mit der Fehlersuche verbringen oder in einem Zustand ständiger Paranoia arbeiten.“
Ein größeres und spezialisierteres Datenteam kann hilfreich sein, aber es kann auch schaden, wenn diese Teammitglieder sich nicht koordinieren. Mehr Mitarbeiter, die auf die Daten zugreifen und ihre eigenen Pipelines und Transformationen ausführen, verursachen Fehler und beeinträchtigen die Datenstabilität.
Immer mehr Ingenieure machen sich heutzutage Gedanken über die Datenstabilität und darüber, ob ihre Daten für die Nutzung durch die Verbraucher innerhalb und außerhalb des Unternehmens geeignet sind. Deshalb interessieren sich immer mehr Teams für Daten-Observability.
Daten-Observability arbeitet mit Ihrer Datenpipeline zusammen, indem sie Erkenntnisse in den Datenfluss und die Datenverarbeitung vom Anfang bis zum Ende bietet. Hier ist eine detailliertere Erklärung, wie Daten-Observability innerhalb der Datenpipeline funktioniert:
Daten-Observability-Plattformen liefern Erkenntnisse, die mit einem Überwachungstool allein nicht gewonnen werden können. Sie sagen Ihnen nicht nur, was schiefgelaufen ist, sondern auch, welche Probleme dadurch entstehen, und bieten Hinweise und sogar nächstbeste Maßnahmen zur Behebung des Problems an. Es tut dies kontinuierlich, ohne dass Sie Ihre aktuellen Leitungen neu konstruieren oder sozusagen „das Triebwerk während des Fluges wechseln“ müssen.
Ihre Datenpipelines sind komplexe Systeme und erfordern eine Daten-Observability-Architektur, die ständige Analysen durchführt. Sie benötigen eine Observability-Plattform für die durchgängige Überwachung, damit Sie wissen, wo Fehler aufgetreten sind und warum. Sie brauchen eine Möglichkeit, nachgelagerte Abhängigkeiten zu verfolgen und zu wissen – und nicht zu hoffen – dass Ihre Fixes das Grundproblem beheben.
Eine Plattform zur Daten-Observability sollte Folgendes umfassen:
Die Plattform sollte außerdem zahlreiche konkrete Handlungsempfehlungen bieten. Der Bereich der Daten-Observability und des Data Engineering entwickelt sich schnell. Eine der besten Möglichkeiten, eine Plattform zu finden, die sich genauso schnell weiterentwickelt wie Ihre Probleme. Überwachung allein genügt nicht mehr. Sie müssen beobachten, verfolgen, alarmieren und reagieren.
Sehen Sie, wie IBM® Databand eine Überwachung der Datenpipeline bereitstellt, um Daten-Vorfälle wie fehlgeschlagene Jobs und Ausführungen schnell zu erkennen, damit Sie für Ihr Pipeline-Wachstum gerüstet sind. Wenn Sie bereit sind, einen genaueren Blick darauf zu werfen, buchen Sie noch heute eine Demo.
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.