Padronize seus dados usando o InfoSphere QualityStage

A padronização de dados é um processo que garante a conformidade desses dados com as regras de qualidade. Este tutorial apresenta conceitos de padronização de dados e demonstra como é possível conseguir dados padronizados usando o IBM® InfoSphere® QualityStage™. Um leitor iniciante sobre a padronização do QualityStage terá uma compreensão básica do processo. Os leitores deverão ter um conhecimento básico sobre o desenvolvimento de tarefas do InfoSphere DataStage®. Este tutorial cobre a padronização usando identificador de país, pré-processador de domínio, tipos de conjuntos de regras específicos do domínio e de validação.

Dhanunjaya Lokireddy , Senior QA Engineer, IBM China

Dhanunjaya Lokireddy é QA Engineer senior e trabalha para a equipe do InfoSphere QualityStage no IBM India Software Lab, em Hyderabad. Ele tem seis anos de experiência em IBM trabalhando para equipes diferentes de controle de qualidade na área do produto Information Server.



31/Ago/2011

Antes de iniciar

Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.

Visão geral do InfoSphere QualityStage

As empresas normalmente enfrentam problemas com dados que surgem da falta de normas. Os dados podem ser inseridos de maneiras inconsistentes em sistemas diferentes, fazendo com que os registros pareçam diferentes, apesar de serem os mesmos. Por exemplo, os dois registros a seguir descrevem a mesma pessoa, no mesmo endereço, embora o nome e o endereço pareçam bem diferentes:

Bob Christiansan614 Columbus Ave #3, Boston, Massachusetts 02116
R.J. Christensen614 Columbus Suite #3, Suffolk County 02116

Outro erro comum que causa "dados surpresas" é que os dados podem ser posicionados incorretamente. Veja um exemplo no qual vários campos contêm o tipo incorreto de informação. O campo name contém informações sobre o endereço, o campo tax ID contém números de telefone e o campo telephone contém informações de nome de cidade. Esse posicionamento incorreto de dados normalmente causa erros de aplicativo.

NameTax IDTelephone
Becker & Co. C/O Bill025-37-1998415-392-2770
B Smith DBA Lime Cons.228-02-16956173380220
1st Natl Provident34-26718543309321
HP 15 State St.508-466-1550Orlando

Um terceiro tipo comum de problema de padronização de dados envolve a falta de identificadores consistentes. O exemplo a seguir tem três registros contendo uma descrição de produto. Eles parecem diferentes, mas na verdade são os mesmos. Isso ocorre devido à falta de identificadores consistentes.

91-84-301 RS232 Cable 5' M-F CandS
CS-89641 5 ft. Cable Male-F, RS232 #87951
C&SUCH6 Male/Female 25 PIN 5 Foot Cable

O InfoSphere QualityStage (a partir de agora chamado de QualityStage), um produto componente do InfoSphere Information Server, ajuda a identificar e a resolver os problemas descritos acima e fornece uma maneira de manter uma visão precisa das entidades de dados mestre. O QualityStage tem os seguintes recursos:

  • Investigação— Ajuda você a entender a natureza e o escopo de anomalias de dados
  • Padronização— Analisa campos individuais e os torna uniforme de acordo com os padrões de negócios
  • Correspondência— Identifica registros duplicados dentro e entre fontes de dados
  • Sobrevivência— Ajuda a eliminar registros duplicados e a criar o melhor registro possível de dados

Entendendo o processo de padronização

A padronização analisa ou separa campos de forma livre em campos de um único componente ou atribui dados aos campos de metadado apropriados em um formato padrão.

Os dados são frequentemente capturados com variações que resultam de:

  • Erros de entrada de dados
  • Convenções diferentes para representar o mesmo valor de dados
  • Diferenças semânticas nos sistemas
  • Várias fontes para o mesmo elemento de dados
  • Falta de normas de qualidade dos dados

Porém, os sistemas de destino exigem dados purificados para geração de relatórios e tomada de decisões. A padronização ajuda a melhorar a endereçabilidade dos dados armazenados em colunas de forma livre e garante que cada elemento de dados tenha conteúdo e formato relevante. Ele normaliza os valores dos dados para formas padrões e prepara os elementos de dados para uma correspondência mais efetiva. Também ajuda na identificação e remoção de valores de dados inválidos. A padronização é importante, pois prepara os dados para o processamento adicional.

A padronização funciona com base em instruções especiais chamadas de conjuntos de regras. Alguns conjuntos de regras são:

  • Identificador de país, como COUNTRY
  • Pré-processador de domínio, como USPREP
  • Específico de domínio, como USNAME
  • Validação, como VDATE

A maioria dos conjuntos de regras em pacote é específica ao país. Por exemplo, há diferentes conjuntos de regras de padronização de nome para os Estados Unidos e Japão. Desde o InfoSphere Information Server V8.5, esses conjuntos de regras acompanham o QualityStage. Os usuários avançados podem criar conjuntos de regras com base em seus requisitos de negócios.

Os conjuntos de regras têm três componentes necessários:

  • Tabela de classificação — Contém as palavras-chaves, valor padrão e classe definida pelo usuário
  • Arquivo de dicionário — Define o layout das colunas de saída
  • Arquivo de ação-padrão — Contém a lógica para preencher as colunas de saída e parâmetros de análise
Figura 1. Visão geral do processo de padronização
Visão geral do processo de padronização

A Figura 1 mostra uma visão geral do processo de padronização:

  1. Analisa dados de entrada usando os parâmetros do arquivo de ação de padrão (SEPLIST/STRIPLIST)
  2. Atribui classes definidas pelo usuário da tabela de classificação e aplica as classes padrão aos tokens restantes
  3. Forma campos de saída usando um arquivo de dicionário
  4. Preenche dados nos campos de saída usando um arquivo de ação de padrão

As seções restantes do tutorial contêm etapas detalhadas para criação de tarefas de padronização usando conjuntos de regras de tipos diferentes com exemplos.


Implementando o conjunto de regras do identificador de país

Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.

O conjunto de regras do identificador de país ajuda a identificar o país usando os dados fornecidos. Por exemplo, observe os seguintes dados:

Lista 1. Registros de dados para o exemplo de identificador de país
Andrew Conacher Level 10, 135 Exhibition St Melbourne VIC 3000
Ian Williams 167-170 Washway Road Sale Manchester M33 6RJ
Eric Ferm 17 Wellington Street W. 4th Floor Toronto, Ontario, M5K 1B1
Dr Jeffery David Thomson Jnr PHD 52280A NC 42 72 HWY # 42

Os dados contêm registros que pertencem a vários países. As etapas abaixo mostram como usar o QualityStage para identificar o país de cada registro.

Etapa 1: Criar uma tarefa paralela

Crie uma tarefa paralela, como mostra a Figura 2. Configure o estágio do arquivo sequencial de entrada para ler o arquivo de entrada, que contém os registros de exemplo listados acima.

Figura 2. Tarefa paralela com estágios sequenciais e de padronização
Tarefa paralela com estágios sequenciais e de padronização

A Figura 3 mostra a paleta de designer onde o estágio de padronização é selecionado.

Figura 3. Paleta de designer mostrando o estágio de padronização
Paleta de designer mostrando o estágio de padronização

A Figura 4 mostra o arquivo sequencial de entrada com os dados da listagem acima.

Figura 4. Dados de visualização do arquivo sequencial de entrada
Dados de visualização do arquivo sequencial de entrada

Etapa 2: Configurar o estágio de padronização

  1. Crie um novo processo. Use o botão New Process na barra de ferramentas.
    Figura 5. Propriedades do estágio de padronização
    Propriedades do estágio de padronização

    A próxima tela é a janela de padronização do novo processo de regra, com as colunas disponíveis listadas.

    Figura 6. Janela de padronização do novo processo de regra
    Janela de padronização do novo processo de regra
  2. Para a coluna de dados listada, que são os metadados do arquivo sequencial de entrada, selecione Rule Sets > Other > COUNTRY.
    Figura 7. Seleção do conjunto de regras
    Seleção do conjunto de regras
  3. Clique no botão > para mover a coluna Data para a área Selected Columns.
    Figura 8. Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
  4. Adicione o delimitador de metadados. O delimitador de metadados desempenha uma função importante nesse tipo de conjunto de regras. O delimitador é usado para definir o código de país padrão. Se o conjunto de regras do país não puder determinar o país com base nas informações fornecidas, ele assumirá o valor do delimitador. O formato do delimitador de metadados é ZQ<Country Code>ZQ. Neste exemplo, definimos US como o país padrão. Insira ZQUSZQ no campo Literal.
    Figura 9. Janela de padronização do processo de regra com o delimitador de metadados inserido
    Janela de padronização do processo de regra com o delimitador de metadados inserido
  5. Clique no botão > ao lado do campo Literal.
    Figura 10. Usando o literal para definir o código do país
    Usando o literal para definir o código do país
  6. Use os botões Move Up e Move Down para organizar o delimitador de metadado da seguinte maneira:

    ZQUSZQ
    Data

    Clique em OK para adicionar o processo.
    Figura 11. Janela de padronização do processo de regra com todos os delimitadores de metadados organizados em ordem
    Janela de padronização do processo de regra com todos os delimitadores de metadados organizados em ordem
    Figura 12. Janela de padronização de das propriedades do estágio com o processo de regra criado
    Janela de padronização de das propriedades do estágio com o processo de regra criado
  7. Mapeie as colunas de saída (Stage Properties > Output > Mapping)
    O estágio de padronização produz colunas com base no conjunto de regras selecionado. As colunas a seguir foram selecionadas nesse exemplo: ISOCountryCode_COUNTRY, IdentifierFlag_COUNTRY, junto com o campo de entradas "Data".

    Arraste e solte as colunas listadas acima para a saída.
    Figura 13. Mapeamento da coluna de saída do estágio de padronização
    Mapeamento da coluna de saída do estágio de padronização

Etapa 3: Configurar o arquivo de saída e executar a tarefa

Configure o estágio do arquivo sequencial de saída para fornecer os campos necessários, como nome de arquivo e outras configurações como o formato, conforme o necessário. Execute a tarefa e verifique a saída. Esta é a saída produzida:

Figura 14. Dados de visualização do arquivo sequencial de saída
Dados de visualização do arquivo sequencial de saída

Andrew Conacher Level 10, 135 Exhibition St Melbourne VIC 3000
O código do país para esse registro é identificado como AU (ISOCountryCode_COUNTRY)
O código do país é identificado com base somente nos dados (IdentifierFlag_COUNTRY)

Ian Williams 167-170 Washway Road Sale Manchester M33 6RJ
O código do país para esse registro é identificado como GB (ISOCountryCode_COUNTRY)
O código do país é identificado com base somente nos dados (IdentifierFlag_COUNTRY)

Eric Ferm 17 Wellington Street W. 4th Floor Toronto, Ontario, M5K 1B1
O código do país para esse registro é identificado como CA (ISOCountryCode_COUNTRY)
O código do país é identificado com base somente nos dados (IdentifierFlag_COUNTRY)

Dr Jeffery David Thomson Jnr PHD 52280A NC 42 72 HWY # 42
O código do país para esse registro é identificado como US (ISOCountryCode_COUNTRY)
Aqui, o código do país não pôde identificar com base nos dados, portanto usou o código de país padrão com base no delimitador de metadados (US (IdentifierFlag_COUNTRY))


Implementando o pré-processador de domínio

Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.

O pré-processador de domínio identificará domínios diferentes (como nome, endereços e área) a partir dos dados fornecidos e os preencherá nos campos corretos. Vamos usar os seguintes dados:

"52280A NC 42 72 HWY # 42","KNOXVILLE TN 37920","Dr Jeffery David Thomson Jnr PHD"
"International Business Machines Corp","1480 CARRIAGE LN APT 301","AUBURN IN 467069555"
"Peter heines","ASHVILLE NEW YORK 147109762","930 SOUTH BROAD ST EAST APT H"

Há três campos: Field1, Field2 e Field3 (veja Figura 16). Porém, os dados ficam espalhados em todos os três campos. Por exemplo, o nome do primeiro registro está no campo Field3, no Field 1 está o segundo registro e no Field1 está o terceiro registro. Criaremos uma tarefa de padronização usando o conjunto de regras do pré-processador para identificar domínios diferentes.

Etapa 1: Criar uma tarefa paralela

Crie uma tarefa paralela, como mostra a Figura 15. Configure o estágio do arquivo sequencial de entrada para ler o arquivo de entrada, que contém os exemplos de registro listados acima.

Figura 15. Tarefa paralela com estágios sequenciais e de padronização
Tarefa paralela com estágios sequenciais e de padronização
Figura 16. Dados de visualização do arquivo sequencial de entrada
Dados de visualização do arquivo sequencial de entrada

Etapa 2: Configurar o estágio de padronização

  1. Crie um novo processo.
    Figura 17. Propriedades do estágio de padronização
    Propriedades do estágio de padronização
    Figura 18. Janela de padronização do novo processo de regra
    Janela de padronização do novo processo de regra
  2. Selecione o conjunto de regras USPREP (Standardization Rules > USA > USPREP > USPREP) para as colunas disponíveis Field1, Field2 e Field3, que são os metadados do arquivo sequencial de entrada.
    Figura 19. Seleção do conjunto de regras
    Seleção do conjunto de regras
  3. Clique no botão > para os três campos para movê-los até a área Selected Columns.
    Figura 20. Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
  4. Adicione os delimitadores de metadados. Os delimitadores de metadados são usados para representar qual tipo de informação estamos esperando em cada um dos campos de entrada. Se o pré-processador não puder determinar o domínio de um token, ele assumirá o padrão do domínio especificado por meio do delimitador de metadados. O formato do delimitador de metadados é ZQ<Domain>ZQ. Neste exemplo, estamos antecipando que Field1 contém dados de Nome, o Field2 contém dados de Endereço e o Field3 contém dados de Área. Adicione três delimitadores: ZQNAMEZQ, ZQADDRZQ e ZQAREAZQ. Insira ZQNAMEZQ no campo Literal.
    Figura 21. Janela de padronização do processo de regra com o delimitador de metadados inserido
    Janela de padronização do processo de regra com o delimitador de metadados inserido
  5. Clique no botão > .
    Figura 22. Janela de padronização do processo de regra com o delimitador de metadados selecionado
    Janela de padronização do processo de regra com o delimitador de metadados selecionado
  6. Repita as etapas 4 e 5 para adicionar os delimitadores ZQADDRZQ e ZQAREAZQ.
    Figura 23. Janela de padronização do processo de regra com todos os delimitadores de metadados selecionados
    Janela de padronização do processo de regra com todos os delimitadores de metadados selecionados
  7. Use os botões Move Up e Move Down para organizar os delimitadores de metadados da seguinte maneira:

    ZQNAMEZQ
    Field1
    ZQADDRZQ
    Field2
    ZQAREAZQ
    Field3

    Clique em OK para adicionar o processo.
    Figura 24. Janela de padronização do processo de regra com todos os delimitadores de metadados organizados em ordem
    Janela de padronização do processo de regra com todos os delimitadores de metadados organizados em ordem
    Figura 25. Janela de padronização de das propriedades do estágio com o processo de regra criado
    Janela de padronização de das propriedades do estágio com o processo de regra criado
  8. Mapeie as colunas de saída (Stage Properties > Output > Mapping)
    O estágio de padronização produz colunas com base no conjunto de regras selecionado. As seguintes colunas foram selecionadas neste exemplo: NameDomain_USPREP, AddressDomain_U SPREP e AreaDomain_USPREP

    Arraste e solte as colunas listadas acima para a saída.
    Figura 26. Mapeamento da coluna de saída do estágio de padronização
    Mapeamento da coluna de saída do estágio de padronização

Etapa 3: Configurar o arquivo de saída e executar a tarefa

Configure o estágio do arquivo sequencial de saída para fornecer os campos necessários, como nome de arquivo e outras configurações como o formato, conforme o necessário. Execute a tarefa e verifique a saída. A Figura 27 mostra a saída produzida.

Figura 27. Dados de visualização do arquivo sequencial de saída
Dados de visualização do arquivo sequencial de saída

"International Business Machines Corp","1480 CARRIAGE LN APT 301","AUBURN IN 467069555"
"International Business Machines Corp" é identificado como o domínio nome (NameDomain)
"1480 CARRIAGE LN APT 301" é o domínio endereço (AddressDomain)
"AUBURN IN 467069555" é o domínio área (AreaDomain)

"52280A NC 42 72 HWY # 42","KNOXVILLE TN 37920","Dr Jeffery David Thomson Jnr PHD"
"Dr Jeffery David Thomson Jnr PHD" é identificado como o domínio nome (NameDomain)
"52280A NC 42 72 HWY # 42" é o domínio endereço (AddressDomain)
"KNOXVILLE TN 37920" é o domínio área (AreaDomain)

"Peter heines","ASHVILLE NEW YORK 147109762","930 SOUTH BROAD ST EAST APT H"
"Peter heines" é identificado como o domínio nome (NameDomain)
"930 SOUTH BROAD ST EAST APT H" é o domínio endereço (AddressDomain)
"ASHVILLE NEW YORK 147109762" é o domínio área (AreaDomain)


Implementando a padronização do nome

Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.

Esse é o tipo específico de domínio da padronização. Vamos usar os seguintes exemplos de nome.

Dr Jeffery David Thomson Jnr PHD
International Business Machines Corp
Peter heines

Esses exemplos contêm nomes individuais e de organização e supõe-se que pertençam ao país US. Nossa intenção aqui é identificar diferentes partes do nome como o nome principal, nome e sobrenome.

Etapa 1: Criar uma tarefa paralela

Crie uma tarefa paralela, como mostra a Figura 28. Configure o estágio do arquivo sequencial de entrada para ler o arquivo de entrada que contém os registros do exemplo acima.

Figura 28. Tarefa paralela com estágios sequenciais e de padronização
Tarefa paralela com estágios sequenciais e de padronização
Figura 29. Dados de visualização do arquivo sequencial de entrada
Dados de visualização do arquivo sequencial de entrada

Etapa 2: Configurar o estágio de padronização

  1. Crie um novo processo.
    Figura 30. Propriedades do estágio de padronização
    Propriedades do estágio de padronização
    Figura 31. Janela de padronização do novo processo de regra
    Janela de padronização do novo processo de regra
  2. Selecione o conjunto de regras USNAME (Standardization Rules > USA > USNAME > USNAME) para a coluna "name", que são os metadados do arquivo sequencial de entrada.
    Figura 32. Seleção do conjunto de regras
    Seleção do conjunto de regras
  3. Clique no botão > .
    Figura 33. Janela de padronização do processo de regra com o conjunto de regras selecionado
    Janela de padronização do processo de regra com o conjunto de regras selecionado
  4. Não adicione a opção "Optional NAMES Handling". O campo Optional NAMES Handling tem as seguintes opções:
    • Process All as Individual — Todas as colunas são padronizadas como nomes individuais.
    • Process All as Organization — Todas as colunas são padronizadas como nomes de organização.
    • Process Undefined as Individual — Todas as colunas não manipuladas são padronizadas como nomes individuais.
    • Process Undefined as Organization — Todas as colunas não manipuladas são padronizadas como nomes de organização.
    Essa opção será útil se soubermos os tipos de nomes no arquivo de entrada. Por exemplo, se o arquivo contiver principalmente nomes de organização, especificar Process All as Organization irá aprimorar o desempenho eliminando as etapas de processamento para determinar o tipo do nome.
  5. Clique em OK.
    Figura 34. Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Figura 35. Janela de padronização de das propriedades do estágio com o processo de regra criado
    Janela de padronização de das propriedades do estágio com o processo de regra criado
  6. Mapeie as colunas de saída (Stage Properties > Output > Mapping)
    O estágio de padronização produz colunas com base no conjunto de regras selecionado. Nesse exemplo, as seguintes colunas foram selecionadas: NameType_USNAME, GenderCode_USNAME, NamePrefix_USNAME, FirstName_USNAME, MiddleName_USNAME, PrimaryName_USNAME, NameGeneration_USNAME e NameSuffix_USNAME

    Arraste e solte as colunas acima até a saída.
    Figura 36. Mapeamento da coluna de saída do estágio de padronização
    Mapeamento da coluna de saída do estágio de padronização

Etapa 3: Configurar o arquivo de saída e executar a tarefa

Configure o estágio do arquivo sequencial de saída para fornecer os campos necessários, como nome de arquivo e outras configurações como o formato, conforme o necessário. Execute a tarefa e verifique a saída. A Figura 37 mostra a saída produzida.

Figura 37. Dados de visualização do arquivo sequencial de saída
Dados de visualização do arquivo sequencial de saída

Dr Jeffery David Thomson Jnr PHD
Os dados são identificados como um nome individual (NameType)
O sexo é masculino (GenderCode)
Dr é o prefixo do nome (NamePrefix).
Jeffery é o nome (FirstName).
David é o nome do meio (MiddleName).
Thomson é o nome principal (PrimaryName).
Jr é identificado como geração (NameGeneration) — aqui, a entrada real contém Jnr, mas o estágio de padronização forneceu o formato padrão normalmente usado
PHD é o sufixo do nome (NameSuffix).

International Business Machines Corp
Os dados são identificados como o nome da organização (NameType).
International Business Machines é o nome principal (PrimaryName).
Corp é o sufixo do nome (NameSuffix).

Peter heines
Os dados são identificados como o nome individual (NameType).
O sexo é masculino (GenderCode).
Peter é o nome (FirstName).
Heines é o nome principal (PrimaryName).


Implementando a validação

Esse tipo de conjunto de regras é usado principalmente para validar os dados (VDATE, VEMAIL, por exemplo). Vamos usar os seguintes exemplos de dados:

OCT021983
09211991
02/29/2011

Estes são alguns dos formatos de entrada aceitáveis. A tarefa de padronização verifica se são válidos e define o sinalizador válido, se for válido. Em seguida, produz a saída no formato padrão CCYYMMDD; caso contrário, define o código de razão da invalidade.

Etapa 1: Criar a tarefa paralela

Crie uma tarefa paralela, como mostra a Figura 38. Configure o estágio do arquivo sequencial para ler o arquivo de entrada, que contém os registros do exemplo acima.

Figura 38. Tarefa paralela com estágios sequenciais e de padronização
Tarefa paralela com estágios sequenciais e de padronização
Figura 39. Dados de visualização do arquivo sequencial de entrada
Dados de visualização do arquivo sequencial de entrada

Etapa 2: Configurar o estágio de padronização

  1. Crie um novo processo.
    Figura 40. Propriedades do estágio de padronização
    Propriedades do estágio de padronização
    Figura 41. Janela de padronização do novo processo de regra
    Janela de padronização do novo processo de regra
  2. Selecione o conjunto de regras VDATE (Standardization Rules > Other > VDATE) para a coluna "Date", que contém os metadados do arquivo sequencial de entrada.
    Figura 42. Seleção do conjunto de regras
    Seleção do conjunto de regras
  3. Clique no botão > .
    Figura 43. Janela de padronização do processo de regra com o conjunto de regras selecionado
    Janela de padronização do processo de regra com o conjunto de regras selecionado
  4. Clique em OK.
    Figura 44. Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Janela de padronização do processo de regra com o conjunto de regras e a coluna selecionada
    Figura 45. Janela de padronização de das propriedades do estágio com o processo de regra criado
    Janela de padronização de das propriedades do estágio com o processo de regra criado
  5. Mapeie as colunas de saída (Stage Properties > Output > Mapping)
    O estágio de padronização produz colunas com base no conjunto de regras selecionado. Nese exemplo, as seguintes colunas foram selecionadas: ValidFlag_VDATE, DateCCYYMMDD_VDATE, InvalidReason_VDATE, junto com a coluna de entrada "Date."

    Arraste e solte as colunas acima até a saída.
    Figura 46. Mapeamento da coluna de saída do estágio de padronização
    Mapeamento da coluna de saída do estágio de padronização

Etapa 3: Configurar o arquivo de saída e executar a tarefa

Configure o estágio do arquivo sequencial de saída para fornecer os campos necessários, como nome de arquivo e outras configurações como o formato, conforme o necessário. Execute a tarefa e verifique a saída. Esta é a saída produzida:

Figura 47. Dados de visualização do arquivo sequencial de saída
Dados de visualização do arquivo sequencial de saída

OCT021983
Data válida (ValidFlag_VDATE)
19831002 é o formato padrão (DateCCYYMMDD_VDATE)

09211991
Data válida (ValidFlag_VDATE)
19910921 é o formato padrão (DateCCYYMMDD_VDATE)

02/29/2011
Data inválida (ValidFlag_VDATE)
O motivo é que é uma data inválida de ano bissexto (InvalidReason_VDATE)


Conclusão

Neste tutorial, você aprendeu o que é o processo de padronização e como ele pode ser executado usando o InfoSphere QualityStage. Você também aprendeu sobre a padronização usando tipos diferentes de conjuntos de regras como identificador de país, pré-processador de domínio, específico de domínio e validação.


Download

DescriçãoNomeTamanho
Sample jobs and dataSampleJobDesigns.zip10KB

Recursos

Aprender

Obter produtos e tecnologias

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=754622
ArticleTitle=Padronize seus dados usando o InfoSphere QualityStage
publish-date=08312011