Avançar para a área de conteúdo

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

Na primeira vez que você efetua sign in no developerWorks, um perfil é criado para você. Informações selecionadas do seu perfil developerWorks são exibidas ao público, mas você pode editá-las a qualquer momento. Seu primeiro nome, sobrenome (a menos que escolha ocultá-los), e seu nome de exibição acompanharão o conteúdo que postar.

Todas as informações enviadas são seguras.

  • Fechar [x]

Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

Todas as informações enviadas são seguras.

  • Fechar [x]

Padronize seus dados usando o InfoSphere QualityStage

Dhanunjaya Lokireddy , Senior QA Engineer, IBM
Dhanunjaya Lokireddy é QA Engineer senior e trabalha para a equipe do InfoSphere QualityStage no IBM India Software Lab, em Hyderabad. Ele tem seis anos de experiência em IBM trabalhando para equipes diferentes de controle de qualidade na área do produto Information Server.

Resumo:  A padronização de dados é um processo que garante a conformidade desses dados com as regras de qualidade. Este tutorial apresenta conceitos de padronização de dados e demonstra como é possível conseguir dados padronizados usando o IBM® InfoSphere® QualityStage™. Um leitor iniciante sobre a padronização do QualityStage terá uma compreensão básica do processo. Os leitores deverão ter um conhecimento básico sobre o desenvolvimento de tarefas do InfoSphere DataStage®. Este tutorial cobre a padronização usando identificador de país, pré-processador de domínio, tipos de conjuntos de regras específicos do domínio e de validação.

Data:  31/Ago/2011
Nível:  Intermediário

Atividade:  1446 visualizações
Comentários:  

Antes de iniciar

Nota do editor: Todos os dados pessoais que aparecem neste tutorial são fictícios e foram criados somente como exemplo.

Visão geral do InfoSphere QualityStage

As empresas normalmente enfrentam problemas com dados que surgem da falta de normas. Os dados podem ser inseridos de maneiras inconsistentes em sistemas diferentes, fazendo com que os registros pareçam diferentes, apesar de serem os mesmos. Por exemplo, os dois registros a seguir descrevem a mesma pessoa, no mesmo endereço, embora o nome e o endereço pareçam bem diferentes:

Bob Christiansan614 Columbus Ave #3, Boston, Massachusetts 02116
R.J. Christensen614 Columbus Suite #3, Suffolk County 02116

Outro erro comum que causa "dados surpresas" é que os dados podem ser posicionados incorretamente. Veja um exemplo no qual vários campos contêm o tipo incorreto de informação. O campo name contém informações sobre o endereço, o campo tax ID contém números de telefone e o campo telephone contém informações de nome de cidade. Esse posicionamento incorreto de dados normalmente causa erros de aplicativo.

NameTax IDTelephone
Becker & Co. C/O Bill025-37-1998415-392-2770
B Smith DBA Lime Cons.228-02-16956173380220
1st Natl Provident34-26718543309321
HP 15 State St.508-466-1550Orlando

Um terceiro tipo comum de problema de padronização de dados envolve a falta de identificadores consistentes. O exemplo a seguir tem três registros contendo uma descrição de produto. Eles parecem diferentes, mas na verdade são os mesmos. Isso ocorre devido à falta de identificadores consistentes.

91-84-301 RS232 Cable 5' M-F CandS
CS-89641 5 ft. Cable Male-F, RS232 #87951
C&SUCH6 Male/Female 25 PIN 5 Foot Cable

O InfoSphere QualityStage (a partir de agora chamado de QualityStage), um produto componente do InfoSphere Information Server, ajuda a identificar e a resolver os problemas descritos acima e fornece uma maneira de manter uma visão precisa das entidades de dados mestre. O QualityStage tem os seguintes recursos:

  • Investigação — Ajuda você a entender a natureza e o escopo de anomalias de dados
  • Padronização — Analisa campos individuais e os torna uniforme de acordo com os padrões de negócios
  • Correspondência — Identifica registros duplicados dentro e entre fontes de dados
  • Sobrevivência — Ajuda a eliminar registros duplicados e a criar o melhor registro possível de dados

Entendendo o processo de padronização

A padronização analisa ou separa campos de forma livre em campos de um único componente ou atribui dados aos campos de metadado apropriados em um formato padrão.

Os dados são frequentemente capturados com variações que resultam de:

  • Erros de entrada de dados
  • Convenções diferentes para representar o mesmo valor de dados
  • Diferenças semânticas nos sistemas
  • Várias fontes para o mesmo elemento de dados
  • Falta de normas de qualidade dos dados

Porém, os sistemas de destino exigem dados purificados para geração de relatórios e tomada de decisões. A padronização ajuda a melhorar a endereçabilidade dos dados armazenados em colunas de forma livre e garante que cada elemento de dados tenha conteúdo e formato relevante. Ele normaliza os valores dos dados para formas padrões e prepara os elementos de dados para uma correspondência mais efetiva. Também ajuda na identificação e remoção de valores de dados inválidos. A padronização é importante, pois prepara os dados para o processamento adicional.

A padronização funciona com base em instruções especiais chamadas de conjuntos de regras. Alguns conjuntos de regras são:

  • Identificador de país, como COUNTRY
  • Pré-processador de domínio, como USPREP
  • Específico de domínio, como USNAME
  • Validação, como VDATE

A maioria dos conjuntos de regras em pacote é específica ao país. Por exemplo, há diferentes conjuntos de regras de padronização de nome para os Estados Unidos e Japão. Desde o InfoSphere Information Server V8.5, esses conjuntos de regras acompanham o QualityStage. Os usuários avançados podem criar conjuntos de regras com base em seus requisitos de negócios.

Os conjuntos de regras têm três componentes necessários:

  • Tabela de classificação — Contém as palavras-chaves, valor padrão e classe definida pelo usuário
  • Arquivo de dicionário — Define o layout das colunas de saída
  • Arquivo de ação-padrão — Contém a lógica para preencher as colunas de saída e parâmetros de análise

Figura 1. Visão geral do processo de padronização


A Figura 1 mostra uma visão geral do processo de padronização:

  1. Analisa dados de entrada usando os parâmetros do arquivo de ação de padrão (SEPLIST/STRIPLIST)
  2. Atribui classes definidas pelo usuário da tabela de classificação e aplica as classes padrão aos tokens restantes
  3. Forma campos de saída usando um arquivo de dicionário
  4. Preenche dados nos campos de saída usando um arquivo de ação de padrão

As seções restantes do tutorial contêm etapas detalhadas para criação de tarefas de padronização usando conjuntos de regras de tipos diferentes com exemplos.

1 de 9 | Próximo

Comentários



static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=754622
TutorialTitle=Padronize seus dados usando o InfoSphere QualityStage
publish-date=08312011
author1-email=dhanunjaya@in.ibm.com
author1-email-cc=

Tags

Help
Use o campo de pesquisa para encontrar todos os tipos de conteúdo no My developerWorks com essa tag.

Use a barra de rolagem para ver mais ou menos tags.

Tags populares mostra as principais tags para esta zona de conteúdo em particular (por exemplo, Java technology, Linux, WebSphere).

Minhas tags mostra suas tags para esta zona de conteúdo em particular (por exemplo, Java technology, Linux, WebSphere).

Use o campo de pesquisa para localizar todos os tipos de conteúdo no Meu developerWorks com essa tag. Tags populares mostra as tags principais para essa zona de conteúdo particular (por exemplo, tecnologia Java, Linux, WebSphere). My tags shows your tags for this particular content zone (for example, Java technology, Linux, WebSphere). Minhas tags mostra as suas tags para essa zona de conteúdo em particular (por exemplo, tecnologia Java, Linux, WebSphere).