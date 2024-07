Erkennung



Es ist wichtig, dass dieser Zyklus mit der Erkennung beginnt. Denn das Fundament der DataOps-Bewegung basiert auf einer Datenqualitätsinitiative.



Diese erste Phase des DataOps-Zyklus konzentriert sich auf die Validierung. Dazu gehören die gleichen Datenqualitätsprüfungen, die seit der Einführung des Data Warehouse verwendet wurden. Sie untersuchten Spaltenschemata und Validierungen auf Zeilenebene. Im Grunde stellen Sie damit sicher, dass alle Datensätze den Geschäftsregeln in Ihrem Datensystem entsprechen.



Dieses Framework für die Datenqualität in der Erkennungsphase ist zwar wichtig, aber von Natur aus reaktionär. Dadurch können Sie erkennen, ob die Daten, die bereits in Ihrem Data Lake oder Data Warehouse gespeichert sind (und wahrscheinlich bereits genutzt werden), in der von Ihnen erwarteten Form vorliegen.



Wichtig ist auch, dass Sie Datensätze validieren und Geschäftsregeln befolgen, die Sie kennen. Wenn Sie die Ursachen von Problemen nicht kennen, können Sie keine neuen Geschäftsregeln für Ihre Entwickler und Techniker aufstellen. Diese Erkenntnis verstärkt die Nachfrage nach einem Ansatz zur kontinuierlichen Daten-Observability, der direkt in alle Phasen Ihres Datenlebenszyklus eingebunden ist, angefangen bei Ihren Quelldaten.



Bewusstsein



Bewusstsein ist eine auf Sichtbarkeit ausgerichtete Stufe der DataOps-Phase. An dieser Stelle kommt das Gespräch über Data Governance ins Spiel und ein Ansatz, bei dem Metadaten an erster Stelle stehen, wird eingeführt. Durch die Zentralisierung und Standardisierung von Pipeline- und Datensatzmetadaten in Ihrem Datenökosystem erhalten Teams Einblick in Probleme innerhalb des gesamten Unternehmens.



Die Zentralisierung von Metadaten ist von entscheidender Bedeutung, um dem Unternehmen einen Überblick über den gesamten Zustand seiner Daten zu verschaffen. Auf diese Weise können Sie einen proaktiveren Ansatz zur Lösung von Datenproblemen verfolgen. Wenn fehlerhafte Daten in Ihre „Domäne“ gelangen, können Sie den Fehler bis zu einem bestimmten Punkt in Ihrem Datensystem zurückverfolgen. So kann sich beispielsweise das Data-Engineering-Team A die Pipelines von Data-Engineering-Team B ansehen und verstehen, was los ist, und mit ihnen zusammenarbeiten, um das Problem zu beheben.



Das funktioniert auch umgekehrt. Das Data-Engineering-Team B kann ein Problem erkennen und nachvollziehen, welche Auswirkungen es auf nachgelagerte Abhängigkeiten hat. Das bedeutet, dass das Data-Engineering-Team A weiß, dass ein Problem auftreten wird, und alle notwendigen Maßnahmen ergreifen kann, um es einzudämmen.

Iteration

Hier konzentrieren sich die Teams auf Data-as-Code. Diese Phase im Zyklus ist prozessorientiert. Teams stellen sicher, dass sie über wiederholbare und nachhaltige Standards verfügen, die auf alle Datenentwicklungen angewendet werden. So lässt sich gewährleisten, dass sie am Ende dieser Pipelines die gleichen vertrauenswürdigen Daten erhalten.



Die schrittweise Verbesserung des Gesamtzustands der Datenplattform wird nun durch die Erkennung von Problemen, das Bewusstsein für die vorgelagerten Ursachen und effiziente Prozesse für die Iteration ermöglicht.