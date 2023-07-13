A qualidade de dados é essencialmente a medida da integridade de dados. A precisão, integridade, consistência, validade, singularidade e pontualidade de um conjunto de dados são as medidas de qualidade de dados que as organizações empregam para determinar a utilidade e a eficácia dos dados para um determinado caso de uso comercial.

Como determinar a qualidade de dados

Os analistas de qualidade de dados avaliarão um conjunto de dados usando as dimensões listadas acima e atribuirão uma pontuação geral. Quando os dados têm uma classificação alta em todas as dimensões, são considerados dados de alta qualidade que são confiáveis e confiáveis para o caso de uso ou aplicação pretendido. Para medir e manter dados de alta qualidade, as organizações usam regras de qualidade de dados, também conhecidas como regras de validação de dados, para garantir que os conjuntos de dados atendam aos critérios definidos pela organização.

O benefício de uma boa qualidade de dados

Maior eficiência

Os usuários corporativos e cientistas de dados não precisam perder tempo localizando ou formatando dados em sistemas díspares. Em vez disso, podem acessar e analisar prontamente conjuntos de dados com maior confiança. Economiza-se o tempo adicional que, de outra forma, seria desperdiçado agindo em relação a dados incompletos ou imprecisos.

Maior valor de dados

Como os dados são formatados de forma consistente e contextualizados para o usuário ou a aplicação, as organizações podem obter valor de dados que poderiam ter sido descartados ou ignorados.

Colaboração aprimorada e melhor tomada de decisão

Dados de alta qualidade eliminam inconsistências entre sistemas e departamentos e garantem dados consistentes em processos e procedimentos. A colaboração e a tomada de decisão entre os stakeholders são aprimoradas porque todos dependem dos mesmos dados.

Custos reduzidos e melhor conformidade regulatória

Dados de alta qualidade são fáceis de localizar e acessar. Como não há necessidade de recriar ou rastrear conjuntos de dados, os custos de mão de obra são reduzidos e os erros de entrada manual de dados tornam-se menos prováveis. E, como dados de alta qualidade são fáceis de armazenar no ambiente correto, bem como de coletar e compilar relatórios obrigatórios, uma organização pode garantir uma melhor conformidade e evitar penalidades regulatórias.

Experiências aprimoradas para funcionários e clientes

Dados de alta qualidade fornecem insights mais precisos e profundos que uma organização pode usar para fornecer uma experiência mais personalizada e impactante para funcionários e clientes.

As seis dimensões da qualidade de dados

Para determinar a qualidade de dados e atribuir uma pontuação geral, os analistas avaliam um conjunto de dados utilizando estas seis dimensões, também conhecidas como características de dados:

Precisão: os dados estão comprovadamente corretos e refletem o conhecimento do mundo real? Integralidade: os dados abrangem todas as informações relevantes e disponíveis? Há elementos de dados ausentes ou campos em branco? Consistência: os valores de dados correspondentes correspondem em todos os locais e ambientes? Validade: os dados estão sendo coletados no formato correto para o uso pretendido? Singularidade: os dados estão duplicados ou se sobrepõem a outros dados? Pontualidade: os dados estão atualizados e prontamente disponíveis quando necessário?

Quanto maior a pontuação de um conjunto de dados em cada uma dessas dimensões, maior será sua pontuação geral. Uma pontuação geral alta indica que um conjunto de dados é confiável, facilmente acessível e relevante.

Como melhorar a qualidade de dados

Algumas iniciativas e métodos comuns que as organizações usam para melhorar a qualidade de dados incluem:

Perfil de dados

A criação de perfis de dados, também conhecida como avaliação da qualidade de dados, é o processo de auditoria dos dados de uma organização em seu estado atual. Isso é feito para descobrir erros, imprecisões, lacunas, dados inconsistentes, duplicações e barreiras de acessibilidade. Você pode usar diversas ferramentas de qualidade de dados para criar o perfil de conjuntos de dados e detectar anomalias que precisam de correção.

Limpeza de dados

A limpeza de dados é o processo de remediar os problemas de qualidade de dados e inconsistências descobertas durante a criação de perfis de dados. Isso inclui a eliminação de duplicações de conjuntos de dados, para que várias entradas de dados não existam inadvertidamente em vários locais.

Padronização de dados

Esse é o processo de conformidade de ativos de dados díspares e big data não estruturado em um formato consistente que garanta que os dados estejam completos e prontos para uso, independentemente da fonte de dados. Para padronizar os dados, são aplicadas business rules para garantir que os conjuntos de dados estejam em conformidade com as normas e necessidades de uma organização.

Geocódigo

Geocódigo é o processo de adicionar metadados de localização aos conjuntos de dados de uma organização. Ao marcar dados com coordenadas geográficas para rastrear sua origem, onde esteve e onde reside, uma organização pode garantir que as normas de dados geográficos nacionais e globais estejam sendo atendidas. Por exemplo, os metadados geográficos podem ajudar uma organização a garantir que a sua gestão de dados de clientes se mantenha em conformidade com o GDPR.

Correspondência ou vinculação

Esse é o método de identificar, mesclar e resolver dados duplicados ou redundantes.

Monitoramento da qualidade dos dados

A manutenção de uma boa qualidade de dados requer um gerenciamento contínuo de qualidade de dados. O monitoramento da qualidade de dados é a prática de revisitar conjuntos de dados previamente pontuados e reavaliá-los com base nas seis dimensões da qualidade de dados. Muitos analistas de dados usam um dashboard de qualidade de dados para visualizar e rastrear KPI de qualidade de dados.

Validação em lote e em tempo real

Trata-se da implementação de regras de validação de dados em todas as aplicações e tipos de dados em escala para garantir que todos os conjuntos de dados atendam a padrões específicos. Isso pode ser feito periodicamente como um processo em lote ou continuamente em tempo real por meio de processos como captura de dados de alterações.

Master data management

Gerenciamento de dados mestre (MDM) é o ato de criar e manter um registro de dados centralizado em toda a organização, onde todos os dados são catalogados e rastreados. Isso proporciona à organização um único local para visualizar e avaliar rapidamente seus conjuntos de dados, independentemente de onde esses dados residam ou de seu tipo. Por exemplo, os dados de clientes, informações da cadeia de suprimentos e dados de marketing residiriam em um ambiente de MDM.