Spark ist ein unverzichtbarer Bestandteil der modernen Datenarchitektur. Daher ist es extrem wichtig, das richtige Maß an Observability für Ihre Spark-Umgebungen zu haben. Es gibt zahlreiche Möglichkeiten zur Überwachung von Spark, darunter SaaS-Programme, die vorkonfigurierte Dashboards für Spark- und Spark SQL-Metriken bereitstellen. Und wenn das nicht ausreicht?

Die typische Einrichtung einer Spark-Anwendung, egal ob es sich um eine selbst gehostete oder verwaltete Lösung handelt, beinhaltet einige operative Dashboards für die Cluster-Zustandsüberwachung. Diese Dashboards sind zwar sehr nützlich, liefern uns aber nur einen Überblick über die Infrastruktur und nicht die eigentlichen Metriken zu den Daten. Ja, wir können annehmen, dass mit der App etwas nicht stimmt, wenn die CPU mehr genutzt hat oder der Cluster keinen RAM mehr hat, aber es hilft nicht, wenn die Quelle das Schema geändert hat oder Daten aus einer anderen Abteilung kaputt sind. Die meisten Probleme, mit denen Techniker konfrontiert werden, werden durch Daten und nicht durch die zugrunde liegende Infrastruktur verursacht. Daher müssen sie viel Zeit damit verbringen, Probleme zu reproduzieren oder wie Detektive an Dateien und Gruppierungen herumzuspielen. Hier kann die eigentliche Anwendungsüberwachung helfen.

Jede Situation erfordert ein anderes Maß an Transparenz, und Dateningenieure müssen in der Lage sein, über die reinen Metriken hinauszugehen. Andernfalls kann die Fehlersuche bei Datenqualitätsproblemen in Spark sehr zeitaufwendig sein.

In diesem Leitfaden erfahren Sie, wie Sie hohe und niedrige Ebenen der Daten-Observability für Spark erreichen. Auf der übergeordneten Ebene werden Sie die internen Systeme von Spark wie Listener APIs und Query Execution Listeners verwenden. Auf der niedrigen Ebene lernen Sie, wie Sie Bibliotheken verwenden, um Datenqualitätsmetriken zu verfolgen.

Nachdem Sie beides gelernt haben, können Sie diejenige Methode auswählen, die für das jeweilige Problem am besten geeignet ist.