A observabilidade de dados refere-se à prática de monitorar, gerenciar e manter dados de uma forma que garanta sua qualidade, disponibilidade e confiabilidade em vários processos, sistemas e pipelines dentro de uma organização.
A observabilidade dos dados consiste em compreender de fato a integridade de seus dados e seu estado em todo o ecossistema de dados. Ele inclui uma variedade de atividades que vão além do monitoramento tradicional, que apenas descreve um problema. A observabilidade de dados pode ajudar a identificar, solucionar e resolver problemas de dados em quase tempo real.
Utilizar ferramentas de observabilidade de dados é essencial para antecipar problemas de dados defeituosos, que estão no centro da confiabilidade dos dados. Essas ferramentas permitem monitoramento automatizado, alertas de triagem, rastreamento, comparações, análise de causa raiz, registro em log, linhagem de dados e rastreamento de acordos de nível de serviço (SLA), todos atuando em conjunto para ajudar os profissionais a entenderem a qualidade dos dados de ponta a ponta — incluindo a confiabilidade dos dados.
A implementação de uma solução de observabilidade de dados é especialmente importante para equipes de dados modernas, onde os dados são usados para obter insights, desenvolver modelos de aprendizado de máquina e impulsionar a inovação. Isso garante que os dados continuem sendo um ativo valioso em vez de um passivo potencial.
A observabilidade dos dados precisa ser integrada de forma consistente em todo o ciclo de vida dos dados de ponta a ponta. Dessa forma, todas as atividades de gerenciamento de dados envolvidas são padronizadas e centralizadas entre as equipes para uma visão clara e ininterrupta dos problemas e impactos em toda a organização.
A observabilidade de dados é a evolução natural do movimento de qualidade de dados, que está tornando possível a prática de operações de dados (DataOps).
Simples e simples, a maioria das organizações acredita que seus dados não são confiáveis:
O impacto desses dados defeituosos não pode ser subestimado. Em maio de 2022, a Unity Software descobriu que estava ingerindo dados defeituosos de um grande cliente, o que levou a uma queda de 30% no valor das ações da empresa3 e, no fim, a um prejuízo de USD 110 milhões em receita perdida4.
Tradicionalmente, tem sido difícil identificar dados incorretos até que seja tarde demais. Ao contrário de quando uma aplicação fica inativa e afeta milhares de usuários imediatamente, as empresas podem operar com dados ruins inconscientemente por algum tempo. Por exemplo, uma equipe de vendas saberia imediatamente se um dashboard do Salesforce não estivesse carregando, mas não há como saber quanto tempo levaria para descobrir que um dashboard estava mostrando dados incorretos.
A observabilidade dos dados é a melhor defesa contra a transmissão de dados incorretos. Ele monitora pipelines de dados para garantir a entrega completa, precisa e oportuna de dados, para que as equipes de dados possam evitar o tempo de inatividade dos dados, cumprir SLAs de dados e manter a confiança da empresa nos dados que ela vê.
Os sistemas de dados modernos fornecem uma ampla variedade de funcionalidades, permitindo que os usuários armazenem e consultem seus dados de muitas maneiras diferentes. É claro que quanto mais funcionalidades você adiciona, mais complicado se torna garantir que seu sistema funcione corretamente. Essa complicação inclui:
No passado, a infraestrutura de dados era projetada para lidar com pequenas quantidades de dados — normalmente dados operacionais de algumas fontes internas — e não se esperava que os dados mudassem muito. Atualmente, muitos produtos de dados dependem de fontes internas e externas, e o volume e a velocidade com que esses dados são coletados podem causar desvios inesperados, mudanças de esquema, transformações e atrasos.
Quanto mais dados forem ingeridos de fontes externas, maior a necessidade de transformar, estruturar e agregar todos esses dados nos diversos formatos para torná-los utilizáveis. Pior ainda: se esses formatos mudarem, isso gera um efeito dominó de falhas, pois a lógica codificada rigidamente não consegue se adaptar ao novo esquema.
Pipelines de ingestão complexos criaram um mercado para ferramentas para simplificar esse processo de ponta a ponta, principalmente automatizando os processos de ingestão e extração, transformação, carga (ETL)/extração, carga, transformação (ELT). Ao combiná-los, você obtém uma plataforma de dados que o setor de análise de dados apelidou de "stack de dados moderna", ou MDS. O objetivo do MDS é reduzir o tempo necessário para que os dados sejam disponibilizados para os usuários finais (normalmente analistas), para que eles possam começar a aproveitar esses dados mais rapidamente. No entanto, quanto mais automação você tiver, menos controle terá sobre como os dados são entregues. Essas organizações precisam criar pipelines de dados personalizados para garantir que os dados sejam entregues conforme o esperado.
As operações de dados (DataOps) são um fluxo de trabalho que permite um delivery pipeline ágil e um loop de feedback para que as empresas possam criar e manter seus produtos com mais eficiência. O DataOps permite que as empresas usem as mesmas ferramentas e estratégias em todas as fases de seus projetos de análise, desde a prototipagem até a implementação do produto.
O ciclo de DataOps descreve as atividades fundamentais necessárias para melhorar o gerenciamento de dados no fluxo de trabalho de DataOps. Esse ciclo consiste em três estágios distintos: detecção, conscientização e iteração.
É importante que esse ciclo comece com a detecção, pois o alicerce do movimento DataOps está baseado em uma iniciativa de qualidade de dados.
Esse primeiro estágio do ciclo de DataOps é focado na validação. Isso inclui as mesmas verificações de qualidade de dados usadas desde o início do data warehouse. Eles estavam analisando o esquema de coluna e as validações em nível de linha. Essencialmente, você está garantindo que todos os conjuntos de dados cumpram as business Rules em seu sistema de dados.
Essa framework de qualidade de dados que reside no estágio de detecção é importante, mas reacionária por sua própria natureza. Está dando a você a capacidade de saber se os dados que já estão armazenados em seu data lake ou data warehouse (e provavelmente já estão sendo utilizados) estão na forma que você espera.
Também é importante lembrar que você está validando conjuntos de dados e seguindo regras de negócio conhecidas. Se não souber a causa dos problemas, não será possível definir novas regras de negócio para que os engenheiros as sigam. Essa constatação impulsiona a demanda por uma abordagem contínua de observabilidade de dados que se conecte diretamente a todas as etapas do ciclo de vida dos dados, começando pelos dados de origem.
A conscientização é um estágio focado na visibilidade da fase de DataOps. É aqui que a conversa sobre governança de dados entra em cena e uma abordagem que prioriza os metadados é introduzida. Centralizar e padronizar metadados de pipeline e conjunto de dados em seu ecossistema de dados oferece às equipes visibilidade dos problemas em toda a organização.
A centralização dos metadados é crucial para dar à organização consciência da integridade de ponta a ponta de seus dados. Isso permite que você adote uma abordagem mais proativa para resolver problemas de dados. Se houver dados incorretos entrando em seu "domínio", você poderá rastrear o erro até um determinado ponto upstream em seu sistema de dados. Por exemplo, a equipe de engenharia de dados A agora pode analisar os pipelines da equipe de engenharia de dados B, entender o que está acontecendo e colaborar com ela para corrigir o problema.
O vice-versa também se aplica. A Equipe B de Engenharia de Dados pode detectar um problema e rastrear o impacto que ele terá nas dependências downstream. Isso significa que a Equipe de Engenharia de Dados A saberá que um problema ocorrerá e poderá tomar todas as medidas necessárias para contê-lo.
Neste ponto, as equipes se concentram em dados como código. Esta etapa do ciclo é orientada por processo. As equipes garantem que padrões repetíveis e sustentáveis sejam aplicados em todo o desenvolvimento de dados para garantir a entrega de dados confiáveis ao final dos pipelines.
A melhoria gradual da integridade geral da plataforma de dados agora é possível pela detecção de problemas, conscientização das causas raiz upstream e processos eficientes para iteração.
Uma estratégia de observabilidade de dados bem executada pode oferecer uma série de benefícios que contribuem para uma melhor qualidade de dados, tomada de decisões, confiabilidade e desempenho organizacional geral. Eles incluem:
A observabilidade de dados permite que as equipes detectem problemas como missing Values, registros duplicados ou formatos inconsistentes desde o início, antes que afetem as dependências posteriores. Com dados de maior qualidade, as organizações podem tomar decisões melhores e baseadas em dados que levam à melhoria das operações, da satisfação do cliente e do desempenho geral.
A observabilidade dos dados permite que as equipes identifiquem rapidamente erros ou desvios nos dados por meio da detecção de anomalias, monitoramento em tempo real e alertas. A solução de problemas mais rápida e a resolução de problemas ajudam a minimizar o custo e a gravidade do tempo de inatividade.
Ao usar dashboards compartilhados oferecidos pelas plataformas de observabilidade de dados, vários stakeholders podem obter visibilidade do status de conjuntos de dados críticos, o que pode promover uma melhor colaboração entre as equipes.
As ferramentas de observabilidade de dados ajudam a identificar gargalos e problemas de desempenho, permitindo que os engenheiros otimizem seus sistemas para melhor uso de recursos e tempos de processamento mais rápidos. Além disso, a automação reduz o tempo e o esforço necessários para manter a integridade de seus dados, permitindo que engenheiros de dados, analistas e cientistas de dados concentrem seus esforços na geração de valor dos dados.
A observabilidade de dados pode ajudar organizações de setores altamente regulamentados, como finanças, saúde e telecomunicações, a garantir que seus dados atendam aos padrões necessários de precisão, consistência e segurança. Isso reduz o risco de não conformidade e penalidades associadas.
Dados de alta qualidade são essenciais para entender as necessidades, preferências e comportamentos dos clientes, o que, por sua vez, permite que as organizações ofereçam experiências mais personalizadas e relevantes. A observabilidade de dados pode ajudar as organizações a manter dados de clientes precisos e atualizados, levando a uma maior satisfação e fidelidade do cliente.
Ao melhorar a qualidade dos dados através da observabilidade, as organizações podem liberar novos insights, identificar tendências e descobrir potenciais oportunidades de geração de receitas. Aproveitando ao máximo seus ativos de dados, as organizações podem aumentar sua receita e seu crescimento.
Juntos, os cinco pilares da observabilidade de dados fornecem insights valiosos sobre a qualidade e a confiabilidade de seus dados.
A atualização descreve o quão recente estão os seus dados e com que frequência eles são atualizados. A obsolescência ocorre quando há lacunas importantes de tempo sem atualização dos dados. Frequentemente, pipelines de dados quebram devido a problemas de atualização.
Um indicador da integridade dos campos dos seus dados, distribuição refere-se a se os dados estão ou não dentro de um intervalo aceitável. Desvios da distribuição esperada podem indicar problemas de qualidade, erros ou alterações nas fontes de dados subjacentes.
O volume refere-se à quantidade de dados sendo gerados, ingeridos, transformados e movidos por diferentes processos e pipelines. Também se refere à completude das suas tabelas de dados. O volume é um indicador-chave para saber se a ingestão de dados está ou não atingindo os limites esperados.
O esquema descreve a organização dos seus dados. Alterações no esquema frequentemente resultam em dados quebrados. A observabilidade de dados ajuda a garantir que os dados estejam organizados de forma consistente, sejam compatíveis entre sistemas e mantenham sua integridade durante todo o ciclo de vida.
O objetivo do Lineage é responder à pergunta “Onde?” quando os dados quebram. Ele analisa os dados desde a origem até o local final e anota quaisquer alterações, incluindo o que mudou, por que mudou e como mudou ao longo do caminho. A linhagem é mais frequentemente representada visualmente.
A observabilidade de dados oferece suporte à qualidade de dados, mas os dois são aspectos distintos do gerenciamento de dados.
Embora as práticas de observabilidade de dados possam apontar problemas de qualidade em conjuntos de dados, elas não podem, por si só, garantir uma boa qualidade de dados. Isso requer esforços para corrigir problemas de dados e evitar que eles ocorram em primeiro lugar. Por outro lado, uma organização pode ter uma forte qualidade de dados mesmo que não implemente uma iniciativa de observabilidade de dados.
O monitoramento da qualidade dos dados mede se a condição dos conjuntos de dados é boa o suficiente para os usos pretendidos em aplicações operacionais e analíticas. Para fazer essa determinação, os dados são examinados com base em várias dimensões de qualidade, como precisão, integridade, consistência, validade, confiabilidade e pontualidade.
A observabilidade de dados e a governança de dados são processos complementares que se apoiam mutuamente.
A governança de dados busca garantir que os dados de uma organização estejam disponíveis, utilizáveis, consistentes e seguros, e que sejam usados em conformidade com os padrões e políticas internas. Os programas de governança geralmente incorporam ou estão intimamente ligados a iniciativas de melhoria da qualidade dos dados.
Um programa sólido de governança de dados ajuda a eliminar silos, problemas de integração e baixa qualidade que podem limitar o valor das práticas de observabilidade de dados.
A observabilidade dos dados pode ajudar o programa de governança monitorando as mudanças na qualidade, disponibilidade e linhagem dos dados.
A observabilidade de dados não é toda igual. O nível de contexto que você pode alcançar depende de quais metadados você pode coletar e fornecer visibilidade. Isso é conhecido como hierarquia de observabilidade de dados. Cada nível é uma base para o próximo e permite que você atinja níveis cada vez mais refinados de observabilidade.
Obter visibilidade sobre a integridade operacional e dos conjuntos de dados é uma base sólida para qualquer framework de observabilidade de dados.
Monitorar a integridade do conjunto de dados refere-se ao monitoramento do conjunto de dados como um todo. Você está percebendo o estado de seus dados enquanto eles estão em um local fixo, que é chamado de "dados em repouso".
O monitoramento de conjuntos de dados responde a perguntas como:
O monitoramento operacional refere-se ao monitoramento do estado de seus dutos. Esse tipo de monitoramento fornece conhecimento sobre o estado de seus dados enquanto eles estão se transformando e se movendo através de seus pipelines. Esse estado de dados é conhecido como "dados em movimento".
O monitoramento de pipelines responde a perguntas como:
Embora o conjunto de dados e o monitoramento do pipeline de dados sejam geralmente separados em duas atividades diferentes, é essencial mantê-los acoplados para alcançar uma base sólida de observabilidade. Esses dois estados são altamente interconectados e dependentes um do outro. Colocar essas duas atividades em ferramentas ou equipes diferentes torna mais desafiador obter uma visão de alto nível da integridade de seus dados.
A criação de perfis em nível de coluna é fundamental para essa hierarquia. Depois de estabelecer uma base sólida, a criação de perfis em nível de coluna fornece os insights necessários para estabelecer business Rules para sua organização e aplicar as existentes no nível da coluna, em vez de apenas no nível da linha.
Esse nível de conscientização permite que você melhore sua framework de qualidade de dados de uma forma muito prática.
Ele permite que você responda a perguntas como:
A partir daqui, você pode avançar para o nível final de observabilidade: validação em nível de linha. Isso analisa os valores de dados em cada linha e valida se eles são precisos.
Esse tipo de observabilidade analisa:
Quando as organizações têm uma visão de túnel na validação em nível de linha, fica difícil ver a floresta para as árvores. Ao criar uma framework de observabilidade começando com o monitoramento operacional e do conjunto de dados, você pode obter um contexto geral sobre a integridade de seus dados e, ao mesmo tempo, aprimorar a causa raiz dos problemas e seus impactos posteriores.
Abaixo estão as principais etapas normalmente envolvidas na criação de um pipeline de observabilidade bem-sucedido. O processo envolve a integração de várias ferramentas e tecnologias, bem como a colaboração de diferentes equipes dentro de uma organização.
Construir um pipeline de observabilidade é um processo contínuo de aprendizado e refinamento. É crucial começar pequeno, aprender com a experiência e expandir gradualmente seus recursos de observabilidade.
A IBM oferece soluções de qualidade de dados que otimizam as principais dimensões como precisão, integridade e uniformidade.
O IBM® Databand oferece monitoramento da qualidade dos dados em tempo real para detectar problemas com a qualidade ruim dos dados e garantir dados de melhor qualidade.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
1 Data Integrity Trends: Chief Data Officer Perspectives in 2021, Precisely, junho de 2021
2 The data powered enterprise: Why organizations must strengthen their data mastery, Capgemini, fevereiro de 2021
3 Unity Software's stock plunges nearly 30% on weak revenue guidance, MarketWatch, 10 de maio de 2022
4 2 Reasons Unity Software’s Virtual World is Facing a Stark Reality, The Motley Fool, 17 de julho de 2022