Détection
Il est important que ce cycle commence par la détection, car la méthode DataOps repose fondamentalement sur l’amélioration de la qualité des données.
Cette première étape du cycle DataOps est axée sur la validation. Ce sont les mêmes contrôles de qualité des données qui sont mis en place depuis la création de l’entrepôt de données, à savoir la validation par rapport aux colonnes d’un schéma et ligne par ligne. Il s’agit essentiellement de veiller à ce que tous les jeux de données respectent les règles métier de votre système de données.
Le cadre de qualité des données appliqué pendant la phase de détection est important, mais foncièrement rétrograde. C’est ce qui vous permet de vérifier la conformité des données stockées (et probablement utilisées) dans votre data lake ou dans votre entrepôt de données.
Il convient également de noter que vous validez les jeux de données et que vous suivez les règles métier que vous connaissez. Sans connaître les causes des problèmes, vous ne pourrez établir aucune nouvelle règle métier à suivre par vos ingénieurs. Cette réalité appelle à intégrer une approche d’observabilité continue à chaque étape du cycle de vie de vos données, en commençant par vos données source.
Connaissance
La connaissance est une étape DataOps axée sur la visibilité. C’est là que la gouvernance des données prend tout son sens et qu’une approche centrée sur les métadonnées est adoptée. Centraliser et standardiser les métadonnées des pipelines et des jeux de données de votre écosystème offre aux équipes une visibilité sur les problèmes à l’échelle de l’entreprise.
La centralisation des métadonnées s’avère indispensable pour pouvoir évaluer de bout en bout l’état des données au sein de l’entreprise. C’est ce qui vous permettra d’adopter une approche plus proactive de la résolution des problèmes liés aux données. Si des données de mauvaise qualité pénètrent dans votre « domaine », vous pourrez retracer l’erreur jusqu’à un certain point de votre système de données. Par exemple, l’équipe d’ingénierie des données A peut désormais examiner les pipelines de l’équipe d’ingénierie des données B pour tâcher d’identifier le problème et de le résoudre en étroite collaboration.
L’inverse est également valable. L’équipe d’ingénierie des données B est en mesure de détecter les problèmes et de déterminer son impact sur les dépendances en aval. L’équipe d’ingénierie des données A saura ainsi qu’un problème est susceptible de se produire et pourra prendre les mesures nécessaires pour le contenir.
Itération
Ici, les équipes se concentrent sur les données en tant que code. Cette phase du cycle est axée sur le processus. Il s’agit d’appliquer systématiquement des normes reproductibles et durables pendant le développement des données pour garantir leur fiabilité à la fin de ces pipelines.
Associer détection des problèmes, connaissance des causes racines en amont et processus d’itération efficaces permet désormais d’améliorer progressivement l’intégrité des plateformes de données.