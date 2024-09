Detecção



É importante que esse ciclo comece com a detecção, pois a base do movimento DataOps se baseia em uma iniciativa de qualidade de dados.



Esse primeiro estágio do ciclo de DataOps é focado na validação. Isso inclui as mesmas verificações de qualidade de dados usadas desde o início do data warehouse. Eles estavam analisando o esquema de coluna e as validações em nível de linha. Essencialmente, você está garantindo que todos os conjuntos de dados cumpram as business Rules em seu sistema de dados.



Essa framework de qualidade de dados que reside no estágio de detecção é importante, mas reacionária por sua própria natureza. Está dando a você a capacidade de saber se os dados que já estão armazenados em seu data lake ou data warehouse (e provavelmente já estão sendo utilizados) estão na forma que você espera.



Também é importante observar que você está validando conjuntos de dados e seguindo as business Rules que conhece. Se você não conhece as causas dos problemas, não pode estabelecer novas business Rules para seus engenheiros seguirem. Essa constatação alimenta a demanda por uma abordagem contínua de observabilidade de dados que se vincule diretamente a todos os estágios do ciclo de vida dos dados, começando pelos dados de origem.



Conscientização



A conscientização é um estágio focado na visibilidade da fase de DataOps. É aqui que a conversa sobre governança de dados entra em cena e uma abordagem que prioriza os metadados é introduzida. Centralizar e padronizar metadados de pipeline e conjunto de dados em seu ecossistema de dados oferece às equipes visibilidade dos problemas em toda a organização.



A centralização dos metadados é crucial para dar à organização consciência da integridade de ponta a ponta de seus dados. Isso permite que você adote uma abordagem mais proativa para resolver problemas de dados. Se houver dados incorretos entrando em seu "domínio", você poderá rastrear o erro até um determinado ponto upstream em seu sistema de dados. Por exemplo, a equipe de engenharia de dados A agora pode analisar os pipelines da equipe de engenharia de dados B, entender o que está acontecendo e colaborar com ela para corrigir o problema.



O vice-versa também se aplica. A Equipe B de Engenharia de Dados pode detectar um problema e rastrear o impacto que ele terá nas dependências downstream. Isso significa que a Equipe de Engenharia de Dados A saberá que um problema ocorrerá e poderá tomar todas as medidas necessárias para contê-lo.

Iteração

Aqui, as equipes se concentram em dados como código. Esta etapa do ciclo é focada no processo. As equipes estão garantindo que tenham padrões repetíveis e sustentáveis que serão aplicados a todo o desenvolvimento de dados para garantir que obtenham os mesmos dados confiáveis no final desses pipelines.



A melhoria gradual da integridade geral da plataforma de dados agora é possível pela detecção de problemas, conscientização das causas raiz upstream e processos eficientes para iteração.