Cultivar um ambiente de dados vibrante pode ajudar as empresas a acelerar o crescimento, de acordo com uma nova pesquisa do IBM Institute for Business Value. Porém, como as organizações podem saber se seus dados são, de fato, vibrantes e prontos para impulsionar o crescimento?
O uso de métricas de qualidade de dados pode ajudar.
Métricas de qualidade de dados são medidas quantitativas para avaliar a qualidade dos dados. As organizações podem utilizar métricas de qualidade de dados para acompanhar e monitorar a qualidade dos dados ao longo do tempo, ajudando a identificar dados de alta qualidade adequados para casos de uso de tomada de decisão baseada em dados e inteligência artificial (IA).
As métricas variam de acordo com a organização e podem refletir dimensões tradicionais de qualidade de dados, como precisão, pontualidade e exclusividade, bem como características específicas de pipelines de dados modernos, como duração do pipeline. Por meio de métricas de qualidade de dados, as dimensões de qualidade de dados podem ser mapeadas para valores numéricos.
As ferramentas de qualidade de dados impulsionadas por automação e aprendizado de máquina podem ajudar os engenheiros de dados a avaliar as métricas de qualidade de dados e a identificar os problemas de qualidade de dados em tempo real. Isso permite que as organizações e suas equipes de dados tomem as medidas necessárias para otimizar a confiabilidade de seus conjuntos de dados e pipelines de dados.
Manter dados confiáveis e de alta qualidade é um objetivo para muitas organizações modernas — e por um bom motivo.
Bons dados contribuem para uma business intelligence valiosa, eficiência operacional, fluxos de trabalho otimizados, conformidade regulatória, satisfação do cliente, crescimento da empresa e progresso nos principais indicadores de desempenho (KPIs). A alta qualidade dos dados também é fundamental para iniciativas eficazes de IA, pois os modelos de IA exigem treinamento com dados confiáveis e precisos para entregar resultados úteis.
Mas para colher esses frutos, as organizações devem garantir que seus dados sejam realmente de alta qualidade. É aí que as métricas de qualidade de dados desempenham um papel fundamental. As métricas de qualidade de dados podem ajudá-lo a determinar a qualidade de seus dados mapeando dimensões de qualidade de dados para valores numéricos, como pontuações.1
Por meio de avaliações de qualidade de dados, as organizações podem determinar a usabilidade de seus dados para decisões de negócios e treinamento de modelo de IA. Dados de baixa qualidade identificados por meio de medidas de qualidade de dados muitas vezes podem ser melhorados através de esforços de remediação de dados.
As seis dimensões tradicionais rastreadas por meio de métricas de qualidade de dados são:
Dimensões comuns de qualidade de dados muitas vezes podem ser medidas por meio de proporções simples, como a proporção do número de resultados preferenciais (o número de pontos de dados precisos, entradas de dados válidas etc.) para o número total de resultados.2
Por exemplo, uma maneira básica de calcular a integridade dos dados é:
Integridade = (número de elementos de dados completos)/(número total de elementos de dados)
Opcionalmente, usar uma métrica inversa focada em dados ruins também é uma opção:
Integridade = 1 – [(elementos de dados ausentes)/(número total de elementos de dados)]
Outros métodos para medir dimensões exigem cálculos mais complexos.
Por exemplo, as fórmulas para calcular a pontualidade dos dados podem depender de variáveis como a idade dos dados, o tempo de entrega (quando os dados são entregues), o tempo de entrada (quando os dados são recebidos) e a volatilidade (o período em que os dados são válidos).
Além das métricas de dados que representam dimensões tradicionais de qualidade de dados, outras métricas importantes podem ajudar as organizações a manter seus pipelines de dados funcionando sem problemas. Os exemplos são:
Saiba mais sobre as principais métricas de qualidade de dados do seu ambiente.
As métricas de qualidade de dados apoiam processos de dados chave, como gestão de dados, observabilidade de dados e gerenciamento de qualidade de dados.
Gestão de dados é uma disciplina de gerenciamento de dados que ajuda a garantir a integridade e a segurança de dados por meio da definição e implementação de políticas, padrões de qualidade e procedimentos para coleta, propriedade, armazenamento, processamento e uso de dados. Métricas de qualidade de dados, como consistência e integridade de dados, ajudam as organizações a avaliar o progresso no cumprimento dos padrões estabelecidos por meio de práticas de governança.
A observabilidade de dados é a prática de monitorar e gerenciar dados para ajudar a garantir sua qualidade, disponibilidade e confiabilidade em vários processos, sistemas e pipelines dentro de uma organização. As métricas de qualidade de dados rastreadas por meio das práticas de observabilidade de dados incluem a atualização dos dados, as contagens nulas e as alterações de esquema.
O gerenciamento de qualidade de dados ou DQM é um conjunto de práticas para aprimorar e manter a qualidade dos dados de uma organização. Uma prática essencial de DQM é a análise de perfis de dados, que envolve a revisão da estrutura e do conteúdo dos dados existentes para avaliar sua qualidade e estabelecer uma linha de base em relação à qual medir a remediação. A qualidade de dados é avaliada de acordo com dimensões e métrica de qualidade de dados.
A qualidade dos dados revelada por meio da criação de perfis pode ser resolvida por meio de outra prática de DQM: limpeza de dados. A limpeza de dados, também conhecida como limpeza de dados, é a correção de erros e inconsistências de dados em conjuntos de dados brutos. A limpeza de dados é uma primeira etapa essencial para a transformação de dados, que converte dados brutos em um formato utilizável para análise.
As soluções de software podem proporcionar monitoramento da qualidade de dados em tempo real, incluindo o rastreamento do desempenho em métricas de qualidade de dados. As principais soluções podem incluir funcionalidades como:
Uma exibição agregada dos pipelines e ativos de uma organização permite o gerenciamento de incidentes de dados em todo o stack.
Monitoramento de verificações de qualidade de dados e violações de regras de acordo de nível de serviço (SLA) relacionadas a entregas de dados perdidas, alterações de esquema e anomalias.
Notificações personalizadas e automáticas entregues aos interessados nos dados por meio de ferramentas e plataformas como Slack, PagerDuty e e-mail.
Gráficos em linhas e operações escritas e lidas todos os dias podem ajudar as empresas a identificar tendências importantes e padrões problemáticos.
A linhagem de dados de ponta a ponta mostra os conjuntos de dados e pipelines dependentes afetados por problemas de qualidade de dados.
A IBM oferece soluções de qualidade de dados que otimizam as principais dimensões como precisão, integridade e uniformidade.
O IBM® Databand oferece monitoramento da qualidade dos dados em tempo real para detectar problemas com a qualidade ruim dos dados e garantir dados de melhor qualidade.
Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.
1, 2 “A Survey of Data Quality Measurement and Monitoring Tools.” Fronteiras em Big Data. 30 de março de 2023.