O detalhe está nos dados: como as métricas de qualidade de dados ajudam as empresas a progredir

Gerente de produto liderando uma reunião, explicando dados em uma tela com gráficos.

Autores

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Cultivar um ambiente de dados vibrante pode ajudar as empresas a acelerar o crescimento, de acordo com uma nova pesquisa do IBM Institute for Business Value. Porém, como as organizações podem saber se seus dados são, de fato, vibrantes e prontos para impulsionar o crescimento?

O uso de métricas de qualidade de dados pode ajudar.

Métricas de qualidade de dados são medidas quantitativas para avaliar a qualidade dos dados. As organizações podem utilizar métricas de qualidade de dados para acompanhar e monitorar a qualidade dos dados ao longo do tempo, ajudando a identificar dados de alta qualidade adequados para casos de uso de tomada de decisão baseada em dados e inteligência artificial (IA).

As métricas variam de acordo com a organização e podem refletir dimensões tradicionais de qualidade de dados, como precisão, pontualidade e exclusividade, bem como características específicas de pipelines de dados modernos, como duração do pipeline. Por meio de métricas de qualidade de dados, as dimensões de qualidade de dados podem ser mapeadas para valores numéricos.

As ferramentas de qualidade de dados impulsionadas por automação e aprendizado de máquina podem ajudar os engenheiros de dados a avaliar as métricas de qualidade de dados e a identificar os problemas de qualidade de dados em tempo real. Isso permite que as organizações e suas equipes de dados tomem as medidas necessárias para otimizar a confiabilidade de seus conjuntos de dados e pipelines de dados.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Por que as métricas de qualidade de dados são importantes?

Manter dados confiáveis e de alta qualidade é um objetivo para muitas organizações modernas — e por um bom motivo.

Bons dados contribuem para uma business intelligence valiosa, eficiência operacional, fluxos de trabalho otimizados, conformidade regulatória, satisfação do cliente, crescimento da empresa e progresso nos principais indicadores de desempenho (KPIs). A alta qualidade dos dados também é fundamental para iniciativas eficazes de IA, pois os modelos de IA exigem treinamento com dados confiáveis e precisos para entregar resultados úteis.

Mas para colher esses frutos, as organizações devem garantir que seus dados sejam realmente de alta qualidade. É aí que as métricas de qualidade de dados desempenham um papel fundamental. As métricas de qualidade de dados podem ajudá-lo a determinar a qualidade de seus dados mapeando dimensões de qualidade de dados para valores numéricos, como pontuações.1

Por meio de avaliações de qualidade de dados, as organizações podem determinar a usabilidade de seus dados para decisões de negócios e treinamento de modelo de IA. Dados de baixa qualidade identificados por meio de medidas de qualidade de dados muitas vezes podem ser melhorados através de esforços de remediação de dados.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Dimensões-chave da qualidade de dados

As seis dimensões tradicionais rastreadas por meio de métricas de qualidade de dados são:

  • Precisão dos dados: os dados representam corretamente eventos e valores do mundo real.
  • Integridade dos dados: Os dados contêm todos os registros necessários sem missing values.
  • Consistência de dados: os dados são coerentes e padronizados em toda a organização, garantindo que os registros de dados em diferentes conjuntos de dados sejam compatíveis.
  • Pontualidade dos dados: os valores dos dados estão atualizados, permitindo que as organizações tomem decisões com base em informações obsoletas.
  • Singularidade dos dados: os dados não apresentam redundâncias nem registros duplicados, o que pode distorcer a análise.
  • Validade dos dados: Os dados estão em conformidade com as business rules, como estar dentro dos intervalos permitidos para determinados valores de dados e atender aos padrões de formato de dados especificados.

Dimensões comuns de qualidade de dados muitas vezes podem ser medidas por meio de proporções simples, como a proporção do número de resultados preferenciais (o número de pontos de dados precisos, entradas de dados válidas etc.) para o número total de resultados.2

Por exemplo, uma maneira básica de calcular a integridade dos dados é:

Integridade = (número de elementos de dados completos)/(número total de elementos de dados)

Opcionalmente, usar uma métrica inversa focada em dados ruins também é uma opção:

Integridade = 1 – [(elementos de dados ausentes)/(número total de elementos de dados)]

Outros métodos para medir dimensões exigem cálculos mais complexos.

Por exemplo, as fórmulas para calcular a pontualidade dos dados podem depender de variáveis como a idade dos dados, o tempo de entrega (quando os dados são entregues), o tempo de entrada (quando os dados são recebidos) e a volatilidade (o período em que os dados são válidos).

Métricas adicionais de qualidade de dados

Além das métricas de dados que representam dimensões tradicionais de qualidade de dados, outras métricas importantes podem ajudar as organizações a manter seus pipelines de dados funcionando sem problemas. Os exemplos são:

  • Atualização dos dados: às vezes usada de forma intercambiável com a pontualidade dos dados, a atualização dos dados refere-se especificamente à frequência com que os dados são atualizados em um sistema. A obsolescência dos dados ocorre quando há lacunas significativas entre as atualizações de dados.
  • Linhagem de dados: a linhagem de dados, o processo de observar e rastrear pontos de contato ao longo da jornada de dados, pode ajudar as organizações a confirmar a precisão e a consistência dos dados.
  • Contagens nulas: engenheiros e analistas de dados podem rastrear o número de nulos ou porcentagens de nulos em uma coluna. O aumento das contagens nulas pode indicar problemas como valores ausentes e desvio de dados.
  • Alterações de esquema: alterações frequentes de esquema, como alterações de tipo de dados de coluna ou novas colunas, podem indicar uma fonte de dados não confiável.
  • Falhas de pipeline: falhas de pipeline podem causar problemas de integridade de dados, como alterações de esquema, operações de dados ausentes e dados obsoletos.
  • Duração do pipeline: pipelines de dados complexos normalmente exigem períodos de tempo semelhantes para concluir execuções diferentes. Grandes mudanças na duração podem resultar no processamento de dados obsoletos.

Saiba mais sobre as principais métricas de qualidade de dados do seu ambiente.

Métricas de qualidade de dados nos principais processos de dados

As métricas de qualidade de dados apoiam processos de dados chave, como gestão de dados, observabilidade de dados e gerenciamento de qualidade de dados.

Gestão de dados

Gestão de dados é uma disciplina de gerenciamento de dados que ajuda a garantir a integridade e a segurança de dados por meio da definição e implementação de políticas, padrões de qualidade e procedimentos para coleta, propriedade, armazenamento, processamento e uso de dados. Métricas de qualidade de dados, como consistência e integridade de dados, ajudam as organizações a avaliar o progresso no cumprimento dos padrões estabelecidos por meio de práticas de governança.

Observabilidade de dados

A observabilidade de dados é a prática de monitorar e gerenciar dados para ajudar a garantir sua qualidade, disponibilidade e confiabilidade em vários processos, sistemas e pipelines dentro de uma organização. As métricas de qualidade de dados rastreadas por meio das práticas de observabilidade de dados incluem a atualização dos dados, as contagens nulas e as alterações de esquema.

Gerenciamento de qualidade de dados

O gerenciamento de qualidade de dados ou DQM é um conjunto de práticas para aprimorar e manter a qualidade dos dados de uma organização. Uma prática essencial de DQM é a análise de perfis de dados, que envolve a revisão da estrutura e do conteúdo dos dados existentes para avaliar sua qualidade e estabelecer uma linha de base em relação à qual medir a remediação. A qualidade de dados é avaliada de acordo com dimensões e métrica de qualidade de dados.

A qualidade dos dados revelada por meio da criação de perfis pode ser resolvida por meio de outra prática de DQM: limpeza de dados. A limpeza de dados, também conhecida como limpeza de dados, é a correção de erros e inconsistências de dados em conjuntos de dados brutos. A limpeza de dados é uma primeira etapa essencial para a transformação de dados, que converte dados brutos em um formato utilizável para análise.

Ferramentas para rastrear métricas de qualidade de dados

As soluções de software podem proporcionar monitoramento da qualidade de dados em tempo real, incluindo o rastreamento do desempenho em métricas de qualidade de dados. As principais soluções podem incluir funcionalidades como:

Dashboards completos

Uma exibição agregada dos pipelines e ativos de uma organização permite o gerenciamento de incidentes de dados em todo o stack.

Monitoramento em tempo real

Monitoramento de verificações de qualidade de dados e violações de regras de acordo de nível de serviço (SLA) relacionadas a entregas de dados perdidas, alterações de esquema e anomalias.

Alertas personalizados

Notificações personalizadas e automáticas entregues aos interessados nos dados por meio de ferramentas e plataformas como Slack, PagerDuty e e-mail.

Gráficos em nível de tendência

Gráficos em linhas e operações escritas e lidas todos os dias podem ajudar as empresas a identificar tendências importantes e padrões problemáticos.

Linhagem de ponta a ponta

A linhagem de dados de ponta a ponta mostra os conjuntos de dados e pipelines dependentes afetados por problemas de qualidade de dados.

Soluções relacionadas
Soluções para qualidade de dados

A IBM oferece soluções de qualidade de dados que otimizam as principais dimensões como precisão, integridade e uniformidade.

Explore as soluções para qualidade de dados
IBM Databand

O IBM® Databand oferece monitoramento da qualidade dos dados em tempo real para detectar problemas com a qualidade ruim dos dados e garantir dados de melhor qualidade.

Explore o Databand
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM® Consulting, construindo uma organização orientada por insights, que proporciona vantagem comercial.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

Explore soluções de gerenciamento de dados Conheça o watsonx.data
Notas de rodapé

1, 2A Survey of Data Quality Measurement and Monitoring Tools.” Fronteiras em Big Data. 30 de março de 2023.