Correspondência de dados em DataStage

A correspondência em QualityStage® é um sistema probabilístico de ligação de registros que automatiza o processo de identificação de registros que provavelmente representam a mesma entidade. O processo de correspondência melhora a integridade dos seus dados.

Com a correspondência, você pode identificar duplicatas em seus dados, agrupar registros com base em qualquer conjunto de critérios e criar relações entre registros em vários arquivos, apesar das variações na representação dos dados e das informações ausentes ou imprecisas.

Objetivos correspondentes em DataStage

Algumas metas típicas para a correspondência incluem as seguintes:

  • Identificação de registros duplicados para entidades como indivíduos, empresas, fornecedores, produtos ou eventos
  • Agrupamento de registros com valores iguais ou semelhantes, como agregados familiares
  • Enriquecimento dos dados existentes com novos atributos provenientes de fontes externas
  • Localização de entidades em um data warehouse
  • Reconciliação de inventário ou transações

Próximos passos:

Depois de identificar seus objetivos, você define os requisitos do que constitui uma correspondência. Você escolhe quais colunas comparar e como comparar as colunas.

Em seguida, crie e teste especificações de correspondência personalizadas usando o Match Designer. Essas especificações de correspondência são utilizadas pelas etapas de correspondência de duas fontes e correspondência de uma fonte em DataStage® tarefas.

Correspondência em DataStage : conceitos-chave

A ligação probabilística de registros utiliza propriedades estatísticas dos valores para calcular a probabilidade de os registros corresponderem à mesma entidade. O conteúdo informativo, a integridade, a confiabilidade, a frequência contextual e a representação dos dados são considerados para criar uma avaliação cumulativa de confiança.

É necessário compreender as informações conceituais para definir as especificações da correspondência. Você precisa saber como avaliar os resultados, estimar probabilidades, definir limites e realizar tarefas relacionadas. É necessário ter algum conhecimento sobre a teoria da ligação de registros.

Ligação de registros e processo de correspondência em DataStage

Na prática, você compara pares de registros e os classifica em um desses conjuntos: pares correspondentes e pares não correspondentes.

São necessários métodos estatísticos de ligação de registros, devido às seguintes razões:
  • As colunas contêm erros ou valores ausentes.
  • Os dados podem não ser confiáveis.
  • Você deseja encontrar as correspondências com uma garantia estatística razoável.
Cenário para ligação de registros em DataStage

Considere duas fontes de dados. Cada fonte consiste em vários registros, e os registros contêm um certo número de colunas. Normalmente, cada registro corresponde a uma entidade, e as colunas são atributos que identificam a entidade, como nome, endereço, idade e sexo. O objetivo do processo de ligação ou correspondência de registros é identificar e ligar os registros em cada fonte que correspondam à mesma entidade. Os registros não contêm identificadores únicos totalmente confiáveis que tornem a operação de correspondência trivial. Além disso, todas as colunas individuais estão sujeitas a erros.

As colunas em comum entre as duas fontes são úteis para a correspondência. No entanto, nem todas as colunas contêm a mesma quantidade de informações, e as taxas de erro variam. Por exemplo, uma coluna como Gênero tem apenas dois valores e, consequentemente, não pode fornecer informações suficientes para identificar uma correspondência de forma exclusiva. Por outro lado, uma coluna como FamilyName transmite muito mais informações, mas pode ser frequentemente relatada ou transcrita (digitada) incorretamente.

Você usa pesos para medir a contribuição de cada coluna para a probabilidade de fazer uma classificação precisa. A ligação de registros tem os seguintes estados; um par de registros é classificado da seguinte forma:

Correspondência: O peso composto está acima de um valor limite (cutoff).

Não corresponde: O peso composto está abaixo de um segundo valor limite.

Situação indecisa: O peso composto está entre o primeiro e o segundo limiares.

Considere o nível de conteúdo informativo em DataStage

Uma ou mais colunas em um registro devem ter colunas equivalentes no outro registro para que possam ser comparadas. Por exemplo, para corresponder ao nome da família e à idade, ambos os registros devem ter colunas contendo informações sobre o nome da família e a idade. Embora, para uma correspondência de duas fontes, os metadados das colunas comparáveis não precisem ser idênticos.

Para que um projeto de vinculação de registros seja viável, é possível que um ser humano examine os pares de registros e declare com razoável certeza quais deles são compatíveis ou incompatíveis. Por exemplo, se a única coluna em comum entre duas fontes for o gênero, você não deve concluir que, por causa da concordância do gênero, o par representa o mesmo indivíduo.

O conteúdo informativo mede a importância de uma coluna em relação a outra ( valor discriminatório ). Por exemplo, um código de gênero contribui com menos informações do que um número de identificação fiscal.

O conteúdo informativo também mede a importância de um valor em uma coluna em relação a outro. Nos Estados Unidos, John contribui com menos informações do que Dwezel em uma coluna do site GivenName. O nome próprio John é muito mais comum nos Estados Unidos do que o nome próprio Dwezel. A significância é determinada pela confiabilidade do valor e pela capacidade do valor de distinguir uma correspondência de uma não correspondência. E qualquer comparação de registros precisa de informações suficientes para chegar a uma conclusão confiável. Por exemplo, dois registros de clientes idênticos que contêm apenas o sobrenome Smith e que não possuem valores em todas as outras colunas de nome e endereço não têm informações suficientes para determinar que os registros representam a mesma pessoa.