Antes de iniciar
Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.
Visão geral do InfoSphere QualityStage
As empresas normalmente enfrentam problemas com dados que surgem da falta de normas. Os dados podem ser inseridos de maneiras inconsistentes em sistemas diferentes, fazendo com que os registros pareçam diferentes, apesar de serem os mesmos. Por exemplo, os dois registros a seguir descrevem a mesma pessoa, no mesmo endereço, embora o nome e o endereço pareçam bem diferentes:
| Bob Christiansan | 614 Columbus Ave #3, Boston, Massachusetts 02116 |
| R.J. Christensen | 614 Columbus Suite #3, Suffolk County 02116 |
Outro erro comum que causa "dados surpresas" é que os dados podem ser posicionados incorretamente. Veja um exemplo no qual vários campos contêm o tipo incorreto de informação. O campo name contém informações sobre o endereço, o campo tax ID contém números de telefone e o campo telephone contém informações de nome de cidade. Esse posicionamento incorreto de dados normalmente causa erros de aplicativo.
| Name | Tax ID | Telephone |
|---|---|---|
| Becker & Co. C/O Bill | 025-37-1998 | 415-392-2770 |
| B Smith DBA Lime Cons. | 228-02-1695 | 6173380220 |
| 1st Natl Provident | 34-2671854 | 3309321 |
| HP 15 State St. | 508-466-1550 | Orlando |
Um terceiro tipo comum de problema de padronização de dados envolve a falta de identificadores consistentes. O exemplo a seguir tem três registros contendo uma descrição de produto. Eles parecem diferentes, mas na verdade são os mesmos. Isso ocorre devido à falta de identificadores consistentes.
| 91-84-301 RS232 Cable 5' M-F CandS |
| CS-89641 5 ft. Cable Male-F, RS232 #87951 |
| C&SUCH6 Male/Female 25 PIN 5 Foot Cable |
O InfoSphere QualityStage (a partir de agora chamado de QualityStage), um produto componente do InfoSphere Information Server, ajuda a identificar e a resolver os problemas descritos acima e fornece uma maneira de manter uma visão precisa das entidades de dados mestre. O QualityStage tem os seguintes recursos:
- Investigação — Ajuda você a entender a natureza e o escopo de anomalias de dados
- Padronização — Analisa campos individuais e os torna uniforme de acordo com os padrões de negócios
- Correspondência — Identifica registros duplicados dentro e entre fontes de dados
- Sobrevivência — Ajuda a eliminar registros duplicados e a criar o melhor registro possível de dados
Entendendo o processo de padronização
A padronização analisa ou separa campos de forma livre em campos de um único componente ou atribui dados aos campos de metadado apropriados em um formato padrão.
Os dados são frequentemente capturados com variações que resultam de:
- Erros de entrada de dados
- Convenções diferentes para representar o mesmo valor de dados
- Diferenças semânticas nos sistemas
- Várias fontes para o mesmo elemento de dados
- Falta de normas de qualidade dos dados
Porém, os sistemas de destino exigem dados purificados para geração de relatórios e tomada de decisões. A padronização ajuda a melhorar a endereçabilidade dos dados armazenados em colunas de forma livre e garante que cada elemento de dados tenha conteúdo e formato relevante. Ele normaliza os valores dos dados para formas padrões e prepara os elementos de dados para uma correspondência mais efetiva. Também ajuda na identificação e remoção de valores de dados inválidos. A padronização é importante, pois prepara os dados para o processamento adicional.
A padronização funciona com base em instruções especiais chamadas de conjuntos de regras. Alguns conjuntos de regras são:
- Identificador de país, como COUNTRY
- Pré-processador de domínio, como USPREP
- Específico de domínio, como USNAME
- Validação, como VDATE
A maioria dos conjuntos de regras em pacote é específica ao país. Por exemplo, há diferentes conjuntos de regras de padronização de nome para os Estados Unidos e Japão. Desde o InfoSphere Information Server V8.5, esses conjuntos de regras acompanham o QualityStage. Os usuários avançados podem criar conjuntos de regras com base em seus requisitos de negócios.
Os conjuntos de regras têm três componentes necessários:
- Tabela de classificação — Contém as palavras-chaves, valor padrão e classe definida pelo usuário
- Arquivo de dicionário — Define o layout das colunas de saída
- Arquivo de ação-padrão — Contém a lógica para preencher as colunas de saída e parâmetros de análise
Figura 1. Visão geral do processo de padronização
A Figura 1 mostra uma visão geral do processo de padronização:
- Analisa dados de entrada usando os parâmetros do arquivo de ação de padrão (SEPLIST/STRIPLIST)
- Atribui classes definidas pelo usuário da tabela de classificação e aplica as classes padrão aos tokens restantes
- Forma campos de saída usando um arquivo de dicionário
- Preenche dados nos campos de saída usando um arquivo de ação de padrão
As seções restantes do tutorial contêm etapas detalhadas para criação de tarefas de padronização usando conjuntos de regras de tipos diferentes com exemplos.