O que são dados ruins?

Dados ruins, definidos

Dados ruins referem-se a informações que comprometem a tomada de decisão porque são imprecisas, incompletas, inconsistentes, desatualizadas, duplicadas, inválidas ou com viés.

As causas de dados incorretos variam. Às vezes, isso vem de uma arquitetura de dados ruim; outras vezes é resultado de erro humano. Independentemente da origem, quando as organizações usam involuntariamente dados incorretos, as consequências podem variar de pequenos inconvenientes, como o envio de documentos fiscais para o endereço errado, a riscos graves, como não conformidade regulatória, danos à reputação e perdas financeiras.

Um perigo único dos dados ruins está em sua furtividade. Ao contrário de uma interrupção do sistema, os efeitos de dados incorretos podem passar despercebidos até que danos significativos sejam causados. As organizações podem operar com dados incorretos durante anos, sem saber. Por exemplo, uma equipe de vendas perceberia imediatamente se o dashboard do Salesforce não carregasse, mas levaria muito mais tempo para perceber que os dados exibidos estavam errados.

Com o aumento exponencial do volume de big data e a crescente dependência dos líderes empresariais em relação aos dados para impulsionar a inteligência artificial (IA) e a Tomada de decisão, maximizar a qualidade de dados torna-se mais importante do que nunca. Por meio de uma governança de dados robusta, práticas de gestão da qualidade de dados e ferramentas de observabilidade de dados , as organizações podem garantir que seus ativos de dados impulsionem o crescimento, em vez de se tornarem passivos invisíveis.

Tipos de dados ruins

Os dados ruins podem ser amplamente categorizados usando as principais dimensões de qualidade de dados:

  • Dados imprecisos
  • Dados incompletos
  • Dados inconsistentes
  • Dados desatualizados
  • Dados duplicados
  • Dados inválidos
  • Dados com viés

Dados imprecisos

Precisão dos dados mede o quão de perto os dados refletem eventos e valores verdadeiros do mundo real. Quando os dados são imprecisos, contêm erros e não são confiáveis para a tomada de decisão. Por exemplo, dados imprecisos de clientes (como pontos de dados sobre preços) podem distorcer a compreensão de uma empresa sobre seu público e levar a ações equivocadas que corroem as taxas de satisfação do cliente.

Dados incompletos

Dados incompletos são registros e valores necessários ausentes - lacunas que afetam o processamento de dados e a análise de dados. Uma grande lacuna pode até introduzir um viés, pois os resultados da análise podem não ser representativos do conjunto de dados verdadeiro. Por exemplo, se a maioria das entradas em um banco de dados de clientes não tiver informações de contato, as equipes de vendas perderão oportunidades de envolver seus clientes.

Dados inconsistentes

Dados inconsistentes não possuem padronização e são amplamente incompatíveis em diferentes conjuntos de dados e sistemas. Discrepâncias em formatos de data, convenções de nomenclatura e unidades de medida podem gerar confusão entre os usuários, criar silos de dados dentro de plataformas específicas e introduzir erros na geração de relatórios ou análises.

Dados desatualizados

Dados desatualizados são informações que não são mais atuais, o que pode fazer com que os tomadores de decisão usem informações irrelevantes que não representam as condições do mundo real. A atualização de dados é uma métrica que indica a frequência com que as informações do banco de dados são atualizadas. Lacunas significativamente longas entre atualizações podem ter como resultados dados obsoletos.

Dados duplicados

Dados duplicados (ou dados redundantes) referem-se a entradas repetidas em um conjunto de dados - dados únicos aparecem apenas uma vez. Isso pode distorcer a análise ao sobre-representar certos valores ou tendências dos dados. (É importante notar que existem casos de uso para redundância intencional de dados no projeto de bancos de dados para ajudar a garantir alta disponibilidade, integridade e consistência dos dados.)

Dados inválidos

Dados inválidos são informações que não estão em conformidade com as regras do sistema ou de negócios (como faixas de valores permitidas, formatos obrigatórios e tipos de dados definidos). Exemplos incluem dados que contêm um caractere especial não suportado ou números de telefone formatados sem os hífens necessários.

Dados tendenciosos

Embora o viés não seja em si uma dimensão da qualidade de dados, é um fator importante que os stakeholders devem considerar, pois influencia várias das dimensões. Dados tendenciosos são distorcidos ou não representativos de eventos, populações e condições reais. Isso pode levar a resultados injustos, imprecisos e não confiáveis, e quando usado em aprendizado de máquina (ML) e sistemas de IA, pode resultar em sérias consequências para indivíduos, organizações e sociedade.

AI Academy

O gerenciamento de dados é o segredo para a IA generativa?

Explore por que é essencial ter dados de alta qualidade para utilizar a IA generativa com qualidade.

Qual o impacto de dados incorretos?

Dados ruins são a antítese dos bons dados. Enquanto dados de alta qualidade promovem o crescimento e a inovação, dados de baixa qualidade desaceleram o progresso.

As organizações dependem de dados para decisões informadas, insights praticáveis e forecasting para operações internas, bem como para as experiências dos clientes. Decisões baseadas em dados ruins podem levar à perda de oportunidades, ineficiências operacionais e danos à reputação. Em setores como finanças ou saúde, em que os dados ajudam a informar decisões de alto risco, dados ruins podem ter impactos graves ou até catastróficos.

Considere um estudo clínico contendo dados inconsistentes de pacientes. Os pesquisadores teriam dificuldade em comparar os resultados, o que poderia atrasar o desenvolvimento de possíveis tratamentos. No setor financeiro, dados imprecisos ou ausentes podem gerar custos elevados de conformidade. Relatórios financeiros imprecisos podem levar a violações de regulamentos como a Lei Sarbanes-Oxley (SOX) — que pode acarretar multas de até 1 milhão de dólares e até 10 anos de prisão.

Os riscos de dados ruins aumentam no contexto da inteligência artificial. Quando os modelos de IA ou ML são treinados em dados imprecisos, inconsistentes ou com viés, seus resultados refletem esses erros. Para ajudar a maximizar os investimentos em IA e ML, as organizações devem garantir que seus dados estejam preparados para IA.

A Unity Technologies é um excelente exemplo das consequências de dados ruins em IA e ML. Em 2022, o algoritmo de posicionamento de publicidade da empresa de videogames ingeriu dados incorretos de um grande cliente. O desempenho do algoritmo foi prejudicado na medida em que tiveram que reconstruí-lo. O incidente contribuiu para uma queda de 37% nas ações da Unity e um impacto estimado de US$ 110 milhões nos negócios.

Por outro lado, dados bons e precisos podem ser um benefício para as iniciativas de IA. Pesquisas do IBM Institute for Business Value descobriram que organizações com dados confiáveis obtiveram quase o dobro do retorno sobre o investimento em relação às seus recursos de IA. Resumindo: bons dados são uma prioridade inegociável para qualquer estratégia baseada em dados ou de IA.

O que causa dados ruins?

Não há uma causa raiz para dados ruins. Ela pode surgir de tecnologia, processos ou pessoas e, normalmente, é uma combinação de vários. Algumas causas comuns da baixa qualidade de dados incluem:

  • Falhas do sistema
  • Decaimento de dados
  • Coleta de dados não confiável
  • Gestão de dados fraca
  • Erro humano
  • Detalhamento da integração ou migração de dados
Falhas do sistema

Arquiteturas de dados mal projetadas podem levar a silos de dados, desempenho lento e bugs de software que degradam a consistência e a confiabilidade dos dados. Quando os sistemas falham, os arquivos podem ser corrompidos ou deixados incompletos, resultando em Missing Values e imprecisões nos processos posteriores.

Decaimento de dados

Muitos tipos de dados comerciais (como métricas de comportamento do consumidor) estão sujeitos à deterioração se não forem atualizados regularmente. Quando os bancos de dados estão desatualizados, quaisquer insights ou decisões baseadas nos dados são obsoletos e provavelmente imprecisos.

Coleta de dados não confiável

Dados ruins podem ter origem na coleta e não apenas de fontes ou provedores de dados de baixa qualidade. Vieses, métodos inconsistentes, ferramentas defeituosas ou medições imprecisas durante a entrada e o processamento de dados podem comprometer a qualidade dos dados.

Gestão de dados fraca

Como disciplina, a governança de dados define e implementa políticas, normas e procedimentos para todo o ciclo de vida dos dados. Quando essas práticas são aplicadas de forma inconsistente ou sem responsabilidade, a qualidade de dados rapidamente se perde.

Erro humano

Erro humano é uma causa frequente de dados ruins. Erros de digitação durante a entrada manual de dados, codificação de dados inconsistente, vieses ou interpretações errôneas podem levar a imprecisões de dados. O erro humano é agravado por pressões de tempo, treinamento inadequado e sistemas mal projetados.

Detalhamentos de integração ou migração

A migração ou integração de dados sem os processos, planejamento e tecnologia adequados pode resultar em perda, inconsistências e imprecisões de dados. Esses problemas geralmente surgem de formatos e estruturas de dados incompatíveis ou dependências não observadas.

Como prevenir dados ruins

Em um mundo perfeito, os dados ruins seriam capturados na fonte e nunca chegariam aos sistemas posteriores ou aos fluxos de trabalho de análise de dados. Na realidade, no entanto, a qualidade de dados pode se degradar em qualquer ponto de seu ciclo de vida e por muitas razões diferentes.

Evitar dados ruins em todos os estágios requer uma estratégia abrangente que lidar com os riscos em todas as fases. Essa estratégia pode incorporar as seguintes práticas:

  • Governança e estratégia
  • Monitoramento e visibilidade
  • Limpeza e remediação
  • Habilidades e alfabetização em dados

Governança e estratégia

Estabelecer uma governança de dados robusta é um primeiro passo crucial para prevenir dados incorretos. Ele define e aplica as políticas, as normas e os procedimentos necessários para manter dados precisos e de alta qualidade durante todo o seu ciclo de vida. Frameworks de governança robustos podem ajudar as organizações a identificar e corrigir imprecisões antes que elas influenciem a tomada de decisões e a eficiência operacional.

A governança de dados eficaz deve complementar e aprimorar a estratégia de dados mais ampla de uma organização. Normalmente, trabalha em conjunto com outras disciplinas, como gerenciamento de dados, segurança de dados e arquitetura de dados, para manter os dados consistentes e confiáveis.

Monitoramento e visibilidade

Não é possível corrigir dados incorretos se você não souber que eles existem. As organizações podem usar vários processos para obter visibilidade e monitorar continuamente a integridade de seus dados:

  • Linhagem de dados: essas ferramentas fornecem uma visão clara de como os dados (e seus metadados) migram e mudam ao longo de seu ciclo de vida, incluindo sua origem e destino final. A visibilidade da linhagem de dados é compatível com a análise da causa raiz e a conformidade regulatória.

  • Auditorias de dados: avaliações e análises regulares dos dados corporativos ajudam a mapear um visual do ambiente de dados. As auditorias ajudam as organizações a descobrir, classificar e monitorar seus dados para descobrir riscos, imprecisões e inconsistências.

  • Análise de perfil de dados: O processo de análise de perfil de dados analisa os dados para obter informações sobre sua estrutura e qualidade, permitindo que as equipes planejem ações corretivas. Geralmente é realizado por engenheiros de dados que usam uma variedade de business rules e algoritmos analíticos.

  • Observabilidade de dados: indo além do monitoramento tradicional, as ferramentas de observabilidade de dados usam automação e inteligência para ajudar a identificar, solucionar e resolver problemas de dados em quase em tempo real, antes que eles tenham a chance de afetar as operações comerciais.

Limpeza e remediação

Com os erros de dados e suas causas raiz identificadas, os dados incorretos devem ser corrigidos. Processos de limpeza de dados funcionam para resolver problemas comuns de qualidade de dados, como registros duplicados, valores ausentes, inconsistências, erros de sintaxe, dados irrelevantes e erros estruturais. As técnicas comuns incluem padronização, lidar com valores discrepantes e valores ausentes, deduplicação e validação de dados.

As equipes de dados usam cada vez mais a IA para automatizar e otimizar várias dessas etapas, especialmente tarefas como padronização e deduplicação.

Habilidades e alfabetização de dados

As organizações alfabetizadas em dados têm as habilidades para ler, entender, usar e se comunicar com dados para uma melhor tomada de decisão. A capacidade de avaliar criticamente os dados também melhora a qualidade de dados: funcionários com habilidades de dados até mesmo rudimentares estão mais bem equipados para reconhecer viés, inconsistências, imprecisões ou Missing Values.

Alexandra Jonker

Staff Editor

IBM Think

Tom Krantz

Staff Writer

IBM Think

Renderização 3D de uma espiral de vários ícones alinhados, como uma câmera, um botão de volume e uma prancheta
Soluções relacionadas
IBM StreamSets

Crie e gerencie pipelines de dados de streaming inteligentes por meio de uma interface gráfica intuitiva, facilitando a integração sem dificuldades dos dados em ambientes híbridos e de multinuvem.

Explore o StreamSets
IBM watsonx.data™

O watsonx.data permite escalar a análise de dados e a IA com todos os seus dados, onde quer que estejam, por meio de um armazenamento de dados aberto, híbrido e governado.

Conheça o watsonx.data
Serviços de consultoria de dados e análise de dados

Libere o valor dos dados empresariais com a IBM Consulting, construindo uma organização baseada em insights, que traz vantagem para os negócios.

Conheça os serviços de análise de dados
Dê o próximo passo

Crie uma estratégia de dados que elimine silos de dados, reduza a complexidade e melhore a qualidade de dados para proporcionar experiências excepcionais para clientes e funcionários.

  1. Explore soluções de gerenciamento de dados
  2. Conheça o watsonx.data