IBM InfoSphere Discovery: A próxima geração em análise de dados

Para poder implementar qualquer projeto centralizado em informações como arquivamento, privacidade de dados, gerenciamento de dados principais (MDM), data warehousing, linhagem de dados ou consolidação de dados de aplicativos, é necessário saber quais dados você possui, onde estão localizados e como estão relacionados entre os sistemas. Na maior parte das organizações, o processo de descoberta e análise de dados é muito manual, exigindo meses de envolvimento humano para descobrir objetos de negócios, dados sensíveis, relacionamentos de dados de origem cruzada e lógica de transformação. Neste artigo, saiba como o IBM® InfoSphere™ Discovery fornece análise sofisticada para automatizar o processo de análise e gerar resultados acionáveis.

Alex Gorelik, Distinguished Engineer; Chief Architect, InfoSphere Discovery and Exception Manager, IBM

Alex Gorelik é engenheiro de destaque e arquiteto chefe na IBM com 20 anos de experiência no desenvolvimento de tecnologia de integração de dados de ponta e um longo histórico de sucesso em funções técnicas de gerenciamento senior, tendo sido inclusive fundador e diretor executivo de tecnologia (CTO) da Exeros Inc., que foi adquirida pela IBM em maio de 2009. Alex tem Bacharelado em Ciência da Computação pela Columbia University e Mestrado em Ciência da Computação pela Stanford University.



02/Jul/2010

Introdução

No passado, o processo de descoberta e análise de dados, para a maior parte das empresas, era um processo demorado e com tendência a erros que tornava lenta a agregação de valor, estabelecia dúvidas em relação à precisão dos dados no novo sistema e criava a possibilidade de que o novo sistema nunca chegasse ao êxito de se tornar operacional.

O IBM InfoSphere Discovery fornece uma gama completa de recursos para automatizar o processo de análise e representa uma nova geração de software que vai bem além do estabelecimento do perfil de dados por meio da execução de uma análise sofisticada que gera resultados acionáveis. Esses recursos automatizam a geração de perfil de fonte isolada, a análise de sobreposição de dados de origem cruzada, e descoberta de chaves correspondentes, o protótipo e teste para consolidação de dados e a descoberta automatizada de transformação. O InfoSphere Discovery oferece uma economia de tempo e custos dez vezes maior, usando heurística e algoritmos sofisticados que automatizam a análise que as soluções de geração de perfil o obrigam a executar manualmente. Os componentes do InfoSphere Discovery incluem:

Cross-Profiler
Oferece clássica geração de perfis de dados com os recursos mais avançados do setor. É o único produto de geração de perfis que executa análise de colunas, automatiza completamente a descoberta de chaves estrangeiras primárias e fornece análise de sobreposição de colunas de origem cruzada para várias origens de dados simultaneamente.
Unified Schema Builder
Um ambiente de trabalho completo para a análise de várias origens de dados e para a geração de protótipos da combinação dessas origens em um destino consolidado, como um hub MDM, um novo aplicativo ou um armazém de dados empresarial. O Unified Schema Builder ajuda a construir esquemas de tabelas de dados unificados a fim de registrar elementos de dados críticos conhecidos e propor regras de resolução de correspondência e conflito que sejam baseadas em estatísticas, antes que seja necessário criar um código ETL ou configurar um hub MDM.
Transformation Analyzer
Os mais avançados recursos de descoberta de transformação de origem cruzada disponíveis no setor. O Transformation Analyzer automatiza a descoberta de complexas transformações de origem cruzada e regras de negócios (subcadeias, concatenações, referências cruzadas, agregações, instruções case, equações aritméticas e assim por diante) entre dois conjuntos de dados estruturados. O Transformation Analyzer também identifica anomalias específicas de dados que violam as regras descobertas, para fins de auditoria e correção contínuas.

O processo de análise do InfoSphere Discovery estabelece uma compreensão de suas origens de dados e da forma como se relacionam entre si, gerando resultados acionáveis que podem ser imediatamente consumidos e colocados em ação por outros produtos IBM. Alguns exemplos incluem:

  • Arquivamento, gerenciamento de dados de teste e privacidade de dados - O InfoSphere Discovery localiza objetos de negócios e elementos de dados sensíveis que podem ser imediatamente usados pelo software IBM Optim™ para arquivamento de dados, gerenciamento de dados de teste e privacidade de dados.
  • Migração e consolidação de dados e gerenciamento de dados principais. A saída do Unified Schema Builder e do Transformation Analyzer fornece as chaves correspondentes, lógica de transformação e regras de consolidação que podem ser usadas pelo IBM InfoSphere DataStage® (ETL) e pelo IBM InfoSphere MDM Server para mover ou consolidar dados.
  • Integração de dados - O componente Transformation Analyzer descobre regras de negócios de facto que relacionam duas origens de dados em seu panorama existente de dados distribuídos e, em seguida, gera uma lógica de transformação acionável que pode ser usada pelo IBM InfoSphere DataStage para mover dados de uma origem para um destino.

Cross-Profiler do IBM InfoSphere Discovery

Análise de fonte isolada

O componente Cross-Profiler fornece recursos de análise de origem isolada e origem cruzada. A etapa inicial no fluxo de trabalho do Cross-Profiler no Discovery é a geração de perfis de cada origem de dados incluída no seu projeto centralizado em informações. A geração do perfil de dados é simplesmente a análise estatística dos valores dos dados em cada origem. Uma vez que o volume de dados é grande e os dados foram criados em aplicativos altamente estruturados focados em tarefas muito específicas, os vários elementos de dados terão propriedades e padrões estatísticos específicos. A geração do perfil de dados permite descobrir essas propriedades e padrões. Em seguida, é possível usar os resultados da geração de perfil para:

  • Verificar a qualidade e desenvolver individualmente uma compreensão detalhada da estrutura e formato de cada origem. As colunas estão totalmente preenchidas? O formato de dados é consistente dentro de uma determinada coluna? Você conhece as chaves estrangeiras primárias? Quais tabelas são usadas para construir uma entidade dentro de cada origem?
  • Fornecer uma linha de base consistente a partir da qual comparar os dados de cada origem com outras origens. Se uma origem de dados for bem compreendida e outra não for, as pessoas tenderão a se influenciar pela origem de dados que conhecem. A geração de perfil de cada origem ajuda a criar uma linha de base comum para a compreensão de cada origem.

As principais etapas da geração de perfil de dados incluem:

Análise de coluna

A análise de coluna fornece estatísticas básicas sobre cada coluna em uma origem de dados. As seguintes estatísticas são automaticamente descobertas pelo produto InfoSphere Discovery:

  • Tipo implícito de dados
  • Frequência de padrão
  • Frequência de valor
  • Frequência de comprimento
  • Escala
  • Formatos
  • Cardinalidade
  • Seletividade
  • Seletividade não nula
  • Contagem não nula
  • Mínimo
  • Máximo
  • Comprimento
  • Precisão
  • Dispersão
  • Modo /Mode%
  • Contagem nula
  • Contagem em branco

Informações como padrão, comprimento e frequências de valor são extremamente úteis para determinar se os dados armazenados em uma única coluna estão realmente armazenados em vários formatos, alguns dos quais podem não ser válidos para a nova origem de dados de destino consolidado que você está criando.

Análise de chaves estrangeiras primárias

Os produtos IBM InfoSphere Discovery são exclusivos no que se refere ao seu nível de automação da descoberta de chaves estrangeiras primárias. As ferramentas tradicionais de geração de perfis apenas localizam possíveis chaves primárias e forçam o usuário a instruir manualmente a ferramenta para, em seguida, localizar a mesma chave em outra tabela. Isso significa que a análise de dados deve observar cada tabela e possível chave primária, trabalhando cuidadosamente em todas as tabelas. Essa abordagem é impraticável ao lidar com mais de 20 tabelas por vez. O produto IBM InfoSphere Discovery leva a descoberta de chaves estrangeiras primárias a um novo nível de automação. A descoberta analisa os valores de dados em todas as tabelas e automaticamente gera um protótipo inteiro do Diagrama ER. Em seguida, permite que o analista de dados verifique as estatísticas de cada chave descoberta automaticamente, considere chaves alternativas e modifique os resultados. O InfoSphere Discovery pode também descobrir automaticamente chaves compostas. Esse nível de automação economiza uma quantidade de tempo significativa ao executar análise de dados em conjuntos de dados pouco documentados ou não documentados.

O diagrama ER gerado por essa análise pode ser exportado para ferramentas de modelagem de dados como o InfoSphere Data Architect ou o CA ERwin Data Modeler. A compreensão das chaves estrangeiras primárias será essencial quando você começar a integrar dados de múltiplas origens. Com bastante frequência, será necessário unir dados de várias tabelas para consolidá-los. Como resultado, conhecer essas chaves é fundamental para executar as junções.

A Figura 1 ilustra os relacionamentos de chaves estrangeiras descobertas automaticamente:

Figura 1. Diagrama do InfoSphere Discovery
Diagrama do InfoSphere Discovery

(Veja uma versão ampliada da Figura 1.)

A Figura 2 mostra as estatísticas usadas para determinar a chave estrangeira primária entre duas tabelas:

Figura 2. Estatísticas da chave descoberta
Estatísticas da chave descoberta

Análise do objeto de dados

Essa análise é exclusiva ao IBM InfoSphere Discovery e usa os relacionamentos de chave estrangeira primária para agrupar tabelas em entidades formadas por tabelas relacionadas. Quando você tiver um grande número de tabelas, a análise agrupa as tabelas relacionadas em entidades de negócios (clientes, ordens, fornecedores, materiais e assim por diante). Quando a análise for concluída, você terá grupos de tabelas representando objetos de negócios específicos. As definições do objeto de negócios podem ser diretamente consumidas pelo IBM Optim para fins de arquivamento de dados e criação de conjuntos consistentes de amostra para o gerenciamento de dados de teste.

Os objetos de dados são também úteis quando você começa a comparar dados entre várias origens. Você descobrirá que cada origem tem estruturas e formatos de dados completamente diferentes. A capacidade de enfocar cada origem no nível do objeto de negócios e criar amostras consistentes de dados que possam ser comparadas entre várias origens garante que você esteja comparando itens da mesma categoria ao mapear duas origens de dados distribuídas entre si.

Análise de sobreposição e critical data element (CDE)

A análise de sobreposição e CDE compara dados em todas as origens que você está avaliando. Essa análise encontra colunas redundantes e colunas exclusivas. Os resultados são baseados em dados e medem a força da sobreposição entre colunas específicas, fornecendo o percentual de valores de dados sobrepostos entre colunas. Essa análise é extremamente valiosa quando você estiver planejando consolidar várias origens de dados ao mesmo tempo ou quando estiver procurando dados sensíveis em um grupo de origens de dados.

Além de identificar colunas sobrepostas e exclusivas, essa análise permite gerenciar o processo de marcação desses atributos que você considerar CDEs. CDEs são aqueles atributos que você deseja incluir no seu novo esquema de destino caso esteja migrando dados ou consolidando dados em um novo aplicativo, hub MDM ou armazém de dados. A marcação de CDEs e a execução de análise de sobreposição ajudarão a identificar os seguintes aspectos:

  • Origens de dados que contêm a maior parte dos CDEs, que frequentemente são um bom ponto de partida para construir um esquema unificado que combinará todas as origens
  • Origens de dados que não estão em sobreposição
  • Origens de dados que incluem outras origens de dados
  • Nível de consistência entre origens de dados sobrepostas

A Figura 3 mostra um resumo de como as três origens de dados (Região, Comunidade e CRM) sobrepõem-se umas às outras:

Figura 3. Resumo do conjunto de dados Discovery Studio
Resumo do conjunto de dados Discovery Studio

Com as tradicionais soluções de geração de perfil, a análise de origem cruzada é majoritariamente um processo manual, comparando uma única coluna por vez. Ao comparar três ou mais origens, as ferramentas tradicionais de geração de perfil quase não ajudam.

Com o InfoSphere Discovery, a análise de sobreposição pode ser executada em várias origens de dados simultaneamente bastando pressionar um botão. Todas as colunas são rapidamente comparadas a todas as outras colunas em busca de sobreposições e, em seguida, exibidas em um formato de planilha para visualização, classificação e filtragem. Essa automação facilita extremamente a execução de análise de sobreposição em um grande número de origens de dados, permitindo passar mais tempo analisando os resultados e menos tempo categorizando manualmente as consultas SQL.


Unified Schema Builder do IBM InfoSphere Discovery

O Unified Schema Builder (USB) pega a saída do Cross-Profiler, a análise de sobreposição, e a usa como entrada em um processo para ajudar um analista de dados a determinar as regras pelas quais os dados são consolidados para migração de dados, gerenciamento de dados principais ou armazém de dados, para citar apenas alguns exemplos. O componente USB fornece um software de automação com um fluxo de trabalho integrado para ajudá-lo a concluir seu projeto de consolidação a tempo e dentro do orçamento. A Figura 4 fornece uma visão geral da metodologia e das entregas de cada etapa do processo.

Etapas:

Os recursos das duas primeiras etapas são discutidos na seção anterior "Cross-Profiler". As últimas três etapas são descritas nas seções seguintes do artigo.

Figura 4. Etapas e entregas da consolidação de dados
Etapas e entregas da consolidação de dados

Construindo modelos de dados unificados

Após marcar os atributos que deseja incluir em seu novo modelo de dados, conforme descrito na seção "Sobreposição e CDE" deste artigo, é possível começar a projetar seu novo esquema unificado. Existem três abordagens principais para criar um esquema unificado:

  • A primeira é começar com os requisitos (por exemplo, um conjunto de relatórios e analíticas a ser suportado por um armazém de dados que está sendo modelado), construir um modelo que suporte os requisitos e, em seguida, mapear os CDEs para esse modelo.
  • A segunda abordagem é aproveitar o esquema de uma das suas origens de dados existentes, trazendo apenas os CDEs identificados na etapa anterior desse esquema e, em seguida, estender esse modelo com CDEs de outras origens.

    Observação: A primeira e a segunda abordagem geralmente são usadas juntas, sendo que um analista pega um esquema da origem existente, submete-o a retrabalho para atender aos requisitos do novo aplicativo ou armazém de dados e, em seguida, estende-o com CDEs das outras origens.

  • A terceira abordagem é usar um esquema industrial como o IBM Industry Models (ou o esquema do seu aplicativo de destino no caso da migração de um aplicativo), que você possa ter adquirido, e mapear os CDEs para esse esquema.

Após a criação do esquema, será necessário mapear cada origem de dados para o esquema unificado. O Unified Schema Builder oferece poderosas ferramentas para ajudá-lo a desenvolver seu esquema unificado, incluindo a capacidade de arrastar e soltar elementos das origens de dados para seu esquema de destino e utilizar as informações de sobreposição para automaticamente corresponder atributos de várias origens. Também é possível verificar a compatibilidade de domínio entre atributos combinados usando padrão e comprimento unificados e frequência de valor, bem como a análise completa do perfil da coluna para os atributos combinados.

A

Figura 5 mostra a frequência de padrão de SSN para cada origem de dados individual (CRM, Comunidade e Filial Regional) e as estatísticas para a união dessas origens (Mestre). Existem dois padrões—um com traços e outro sem traços. Os dados de Region-branch não possuem traços, enquanto as outras origens têm traços. Os SSNs de Region_branch terão traços adicionados para estarem consistentes quando forem combinados a outras origens de dados.

Figura 5. Frequência de padrão
Frequência de padrão

É possível visualizar até mesmo todos os dados de origem combinados no formato de esquema unificado, todos da mesma interface. Esses recursos oferecem, logo no início do processo de consolidação, a oportunidade de ver como suas origens de dados ficarão quando forem combinadas. Esse protótipo inicial do seu destino combinado ocorre muito antes que seja necessário criar qualquer ETL ou codificar sua fusão e regras de correspondência para um hub MDM ou um armazém de dados consolidado. Isso significa que mais erros são detectados nos estágios iniciais do processo, o que resulta em menos retrabalho posterior. Conforme você avança no restante da metodologia, haverá mais oportunidades de refinar esse protótipo inicial e adicionar mais detalhes a ele.

Análise de chaves correspondentes

Um dos maiores desafios na combinação de várias origens de dados está em determinar os atributos de chaves correspondentes que serão usados para alinhar as linhas nas diversas origens de dados. Às vezes, isso é fácil, já que é possível ter um número de transação que é consistentemente usado em todas as suas origens de dados, ou talvez você já saiba que a combinação de Nome, Sobrenome, data de nascimento, endereço e, onde disponível, uma identificação fornecida pelo governo (como Número do Seguro Social) em todas as suas origens permite alinhar informações do cliente. No entanto, frequentemente as empresas não conhecem as colunas que alinham todas as origens de dados. Além disso, frequentemente é necessário usar diferentes chaves para corresponder linhas de diferentes origens e, para questões mais complicadas, pode ser preciso usar expressões para corresponder, normalizar e comparar dados. Nesses casos, é necessária a capacidade de rapidamente executar o protótipo e a iteração a fim de determinar a condição com melhor correspondência (uma expressão envolvendo colunas de chaves correspondentes que determinam se as linhas estão alinhadas).

Acredita-se, equivocadamente, que hubs MDM resolvem esse problema. Um hub MDM corresponderá linhas de dados entre origens de dados somente depois que você informar a ele quais colunas usar como chaves para o processo de correspondência e correção de fraudes.

Esta etapa da metodologia trata da rápida geração do protótipo e da análise estatística de diferentes chaves correspondentes a fim de determinar a melhor combinação de chaves correspondentes que pode, então, ser usada em seu Hub MDM ou processo ETL para alinhar dados de várias origens quando você preencher o destino.

O InfoSphere Discovery fornece análise especificamente para identificar a condição com melhor correspondência em várias origens de dados e avaliar a semântica de uma condição correspondente usando estatísticas e visualizações de dados. A análise de dados estatísticos automatizada ajuda a determinar se a condição correspondente para múltiplas origens resulta em:

  • Supercorrespondência (você está agrupando itens de diferentes categorias?)
  • Subcorrespondência (existem dois itens da mesma categoria que deveriam estar juntos mas estão separados?)

A análise também ajudará a identificar condições de melhor correspondência, fornecendo visualizações para ajudá-lo a compreender o comportamento de correspondência (por exemplo, o que acontece se eu adicionar um novo atributo à minha condição de correspondência ou retirar dela um atributo?) e rapidamente testar uma condição de correspondência modificada.

O componente Transformation Analyzer do InfoSphere Discovery (descrito na seção "Transformation Analyzer do InfoSphere Discovery") também disponibiliza automação adicional. Esse componente pode descobrir automaticamente a chave correspondente entre duas origens de dados, mesmo que a chave seja uma chave composta que envolve muitas colunas.

Análise de conflito

Neste ponto do processo, você já terá criado seu novo esquema de destino unificado, mapeado colunas de origem para esse destino e identificado uma condição de correspondência para alinhar linhas. A próxima etapa será determinar como escolher um valor para um determinado atributo no destino que está sendo construído, quando os valores de diferentes origens estiverem em conflito.

Uma abordagem comum é determinar a confiabilidade de cada origem de dados, atribuir precedência a cada origem de cada atributo e usar os valores da origem com maior precedência. Por exemplo, eu confio no meu banco de dados de contato, no sistema CRM ou no armazém de dados quanto a "endereço" quando as informações nas três fontes não estão consistentes? Em qual ordem deve considerar cada sistema quando há conflito? Com bastante frequência, a determinação da confiabilidade resume-se à experiência pessoal dos especialistas no assunto. No entanto, isso nem sempre reflete precisamente a correção ou consistência dos dados reais. Ainda assim, podemos dar suporte a essa experiência pessoal com a análise de dados de origem cruzada, que fornece os seguintes tipos de informações e recursos para cada atributo:

  • Mostra o número de origens mapeadas para cada atributo
  • Determina a origem mais consistente com outras origens para cada atributo
  • Executa automaticamente a detecção de conflito usando correspondência difusa e por aproximação (por exemplo, somente considerar valores em dólares um conflito se tiverem diferença superior a dois centavos)
  • Executa automaticamente a resolução de conflitos para cada atributo com base no uso do valor mais recente ou da origem mais confiável

O Unified Schema Builder do IBM InfoSphere Discovery gera automaticamente regras de confiabilidade que são atribuídas com base em análise estatística. Além disso, embora você ainda possa querer considerar a experiência pessoal na designação de regras de confiabilidade, as informações estatísticas estão agora disponíveis para dar suporte ao que era, anteriormente, apenas uma análise instintiva.

A Figura 6 ilustra como o software usou análise estatística para determinar que, para o atributo <Middle Name>, o CRM deve ser considerado em primeiro lugar, Community em segundo lugar e Region_branch em terceiro, de acordo com a coluna de precedência.

Figura 6. Conflitos (por conjunto de dados)
Conflitos (por conjunto de dados)

Depois de executar essa análise final, agora você tem todas as informações necessárias para começar a codificação ETL e preencher o armazém de dados, criar scripts de migração ou programar fusão/regras de correspondência do seu hub MDM. Essa metodologia e processo de automação substituem o que anteriormente era um frustrante jogo de adivinhação, acelerando significativamente o processo de análise de origem cruzada, melhorando a qualidade dos resultados e aumentando a probabilidade de êxito para projetos de consolidação de dados.


Transformation Analyzer do IBM InfoSphere Discovery

O componente Transformation Analyzer do InfoSphere Discovery automatiza a descoberta de complexas transformações de origem cruzada e regras de negócios analisando valores de dados e padrões em duas origens de dados. Esse componente é usado quando você sabe que duas origens de dados estão relacionadas, mas sabe também que esse relacionamento não pode ser descrito por simples sobreposições em valores de dados, mas exige a compreensão de como os dados são transformados entre duas origens de dados. A migração de dados, retirada de aplicativos, data warehousing e o gerenciamento de dados principais quase sempre exigem o mapeamento e a descoberta de uma complexa lógica de transformação entre duas ou mais origens de dados. O Transformation Analyzer acelera esse processo automatizando grande parte da análise envolvida e substituindo o entediante trabalho manual.

Os recursos do Transformation Analyzer vão muito além do que oferecem as tradicionais ferramentas de geração de perfil de dados. Na geração de perfil tradicional, se você conhecer uma regra de negócios, o software a validará para você. Com o componente Transformation Analyzer do Discovery, o software analisa milhões de valores de dados para identificar padrões nos dados e deduzir as regras "de facto" que atualmente coordenam a forma como seus dados são transformados conforme são movidos entre as origens. Em seguida, o componente testa essas regras em relação aos valores de dados para medir a precisão exata de cada regra.

O Transformation Analyzer do InfoSphere Discovery é o primeiro ambiente de trabalho para análise de dados acionado por dados que automaticamente descobre, documenta e valida regras de negócios, transformações e inconsistências de dados de origem cruzada entre conjuntos de dados estruturados. O software consegue isso analisando os valores de dados, não os metadados. As inovadoras técnicas de exploração e análise de dados permitem que o InfoSphere Discovery automaticamente descubra relacionamentos de dados, regras de negócios e transformações complexas para a maior parte dos dados estruturados em sua empresa.

O Transformation Analyzer do Discovery é o primeiro produto para analisar não apenas a qualidade dos dados, mas também a qualidade do relacionamento dos dados. O resultado é um risco reduzido, uma implementação acelerada e menores custos de integração até mesmo para o controle de dados e projetos de integração mais complexos.

O processo de descoberta acionado por dados

O InfoSphere Discovery oferece uma metodologia automatizada e um processo passo a passo para descobrir, documentar a validar transformações de origem cruzada e lógica de negócios. O processo do Transformation Discovery usa algumas das mesmas funções discutidas na seção "Cross-Profiler": gerar o perfil de cada origem, descobrir chaves estrangeiras primárias e, em seguida, gerar objetos de dados. Vamos dar uma olhada no processo de alto nível para a descoberta de transformação de origem cruzada (consulte a Figura 7).

Figura 7. Descoberta acionada por dados
Descoberta acionada por dados
  • Os valores de dados em cada origem de dados são analisados para descobrir objetos de dados. Esses grupos se baseiam em relacionamentos descobertos de chaves estrangeiras primárias, bem como em categorização adicional baseada em determinar se as tabelas são de transação, referência ou atributo. Sofisticados mecanismos de amostragem estão disponíveis para reduzir a quantidade de análise de dados sem sacrificar a eficácia da descoberta.
  • Uma vez que cada origem de dados é organizada em objetos de dados, o software determina quais subgrupos de tabelas na origem estão relacionados aos subgrupos correspondentes no destino. O próximo nível de descoberta determina automaticamente as chaves correspondentes que serão usadas para alinhar as linhas nas origens de dados e, em seguida, descobre as transformações e as regras de negócios que explicam os complexos relacionamentos do nível da coluna de origem cruzada. O analista verifica e aprova interativamente os relacionamentos descobertos. (Mais detalhes sobre esta etapa estão presentes abaixo em "Exemplo detalhado de mapeamento de tabela".)
  • Os mapas de dados que contêm transformações, lógicas de negócios e estatísticas e refletem a maneira como os dados aderem à lógica de negócios são gerados nos formatos de script SQL, XML ou ETL, prontos para serem usados por processos de recebimento de dados a fim de transformar e mover os dados.

Exemplo detalhado de descoberta de Transformação/Regra de negócios

O diagrama a seguir ilustra as etapas seguidas pelo InfoSphere Discovery para mapear automaticamente as colunas na tabela Vendas de Produto do Aplicativo 1 para as colunas na tabela Vendas de Produto no Aplicativo 2. A descoberta lê os valores de dados reais, não apenas os metadados (como nomes de coluna) para identificar esses relacionamentos de dados.

Figura 8. Exemplo detalhado de descoberta de Transformação/Regra de negócios
Exemplo detalhado de descoberta de Transformação/Regra de negócios

A Figura 8 ilustra as etapas seguidas pelo InfoSphere Discovery para mapear automaticamente as colunas na tabela Vendas de Produto do Aplicativo 1 para as colunas na tabela Vendas de Produto no Aplicativo 2. A descoberta lê os valores de dados reais, não apenas os metadados (como nomes de coluna) para identificar esses relacionamentos de dados.

  1. Primeiro, o InfoSphere Discovery descobre uma chave correspondente usada para alinhar linhas entre os dois conjuntos de dados. Nesse caso, o software descobre que a chave natural que consiste em ID do fornecedor e nome do produto relaciona as duas tabelas. Essa chave é armazenada nas colunas SID e Name no Aplicativo 1, e nas colunas Supplier e Product no Aplicativo 2. O Discovery só pode localizar esse relacionamento lendo os valores de dados (não os metadados), uma vez que os nomes de coluna Name e Product não podem ser logicamente relacionados por si mesmos.
  2. Uma tabela de referência cruzada é criada entre as chaves primárias nas duas tabelas (ID no Aplicativo 1 e PID no Aplicativo 2). O Discovery usa as chaves naturais descobertas na Etapa 1 para executar referência cruzada nas chaves primárias.
  3. O Discovery descobre que a coluna PM no Aplicativo 2 consiste no primeiro caractere da coluna Manager no Aplicativo 1, seguido de um ponto final (.), de um espaço e do segundo token da coluna Manager.
  4. Os valores em Q1Sales, Q1Returns, Q2Sales, Q2Returns e assim por diante do Aplicativo 1 foram transformados em tabela dinâmica ao reverso (transformados em linhas) no Aplicativo 2. O Discovery gera um mapeamento separado para cada conjunto de colunas de tabela dinâmica que cria uma linha simples (por exemplo, Q1Sales e Q1Returns).
  5. Finalmente, o Discovery descobre um filtro na coluna Q1Sales —somente linhas com Q1Sales não nulo têm linhas correspondentes do Aplicativo 2.

Tipos de transformações descobertas

O Transformation Analyzer do InfoSphere Discovery descobre relacionamentos simples de 1 para 1, assim como tipos extremamente complexos de transformações, como mostra a Tabela 1:

Tabela 1. Tipos de transformações
Tipo de transformaçãoExemplo
Escalar Mapeamento Simples Target.Name = Source.Name
SubcadeiaTarget.ProductNumber = Substring(Source.SerialNumber, 1, 7)
Concatenação Target.Name = Source.FirstName || ' ' || Source.LastName
Constantes Target.Status = 'S'
Tokens Target.FirstName = token(Source.Name, 1)
Conversões de tipo e data
Junções Interna, externa esquerda
Agregação Soma, média, mínimo, máximo
Tabela dinâmica reversa

Referência cruzada Chave, código
Instruções case multianinhadas =, !=, <, <=, >, >=
dentro, fora, nulo, não nulo
Conjunções
CASE
WHEN Units < 10000 and State in ('NY', 'CA')
THEN Target.Code = '1'
WHEN State in ('MA')
THEN Target.Code = '2'
ELSE Target.Code = Source.CFlag
Coluna Aritmética Adição, subtração, multiplicação, divisão, porcentagem Target.ItemPrice = Source.ItemCost * .08

Referências cruzadas são armazenadas em tabelas de consulta. O Discovery pode gerar automaticamente uma tabela de consulta ou usar uma existente.

Descobrindo inconsistências de dados e exceções

Uma vez que o Transformation Analyzer avalia os valores de dados para descobrir transformações, essa abordagem também identifica inconsistências que podem resultar em perda de receita, insatisfação do cliente e multas normativas. No exemplo real da Figura 9, o software automaticamente descobriu que a coluna chamada AGE (que mostra a idade dos motoristas em um aplicativo de seguros) é relacionada, pela instrução case, a uma coluna chamada Youthful_Driver em um segundo aplicativo. (Instrução Case: WHEN AGE <= 25 THEN Youthful_Driver = 'Y' ELSE 'N' END.)

No entanto, nem todas as linhas de dados seguiram a regra descoberta de que a coluna Youthful_Driver deve ter um "Y" quando o valor da coluna AGE for menor ou igual a 25. No exemplo, um motorista de 83 anos tem um "Y" na coluna Youthful_Driver. Essa linha de dados é automaticamente sinalizada como não seguindo a regra descoberta. Agora, o analista de dados pode pesquisar se o motorista de fato tinha 83 anos ou se houve algum tipo de substituição manual que fez com que a regra de negócios fosse violada.

Observação: O exemplo na Figura 9 mostra um subconjunto do conjunto de dados real (aproximadamente 10.000 linhas de dados) que foi usado para descobrir automaticamente a transformação de case.

Figura 9. Exemplo de transformação
Exemplo de transformação

Arquitetura do InfoSphere Discovery

A plataforma do Discovery baseia-se em uma arquitetura exclusiva que combina um mecanismo escalável de alto desempenho com uma interface do usuário gráfica que fornece análise orientada ao analista de dados.

  • Servidor de descobertas: Coordena a implementação e administração do ambiente geral do Discovery.
  • Repositório: Armazena os metadados de mapeamento descobertos durante o processo de mapeamento origem-para-destino.
  • Mecanismo de descobertas: Componente essencial que analisa dados entre várias origens de dados e gera regras de negócios, transformação e mapas de dados. Diversos Mecanismos de Descoberta podem ser implementados em vários sistemas físicos, permitindo escalabilidade de alto nível.
  • Estúdio de descobertas: Ambiente de mapeamento gráfico que exibe informações sobre origens de dados, estruturas e mapeamentos descobertos pelo Mecanismo de descobertas, bem como dados reais. Isso permite que o analista rapidamente investigue, projete e valide mapeamentos entre sistemas diferentes
  • Banco de dados temporário: Dados de estágio de sistemas de origem e destino a serem usados pelos Mecanismos de descobertas e pelo Estúdio de descobertas durante o processo de mapeamento.
  • Relatórios: Relatórios de metadados HTML e Excel que documentam metadados descobertos, mostrando linhagem de dados, mapeamentos e relacionamentos para todos os dados analisados pelo Discovery.
  • Integração com Produtos IBM: Os objetos de negócios, regras de negócios, lógica de transformação e todos os metadados descobertos pelo InfoSphere Discovery podem ser exportados em formato XML. Esse XML é diretamente consumido por outros produtos IBM, incluindo IBM Optim, InfoSphere Information Analyzer, InfoSphere Data Architect e o IBM Metadata Server. As transformações descobertas, as chaves correspondentes e as regras de resolução de conflito podem também ser usadas pelo DataStage e pelo IBM MDM Server.

Resumo

Nos sites do cliente, o IBM InfoSphere Discovery reduziu em 10 vezes o tempo e os recursos necessários para implementar projetos de integração de TI. Como o único produto de software para examinar valores de dados em si, em vez de contar com metadados ou especificações para o planejamento da integração, o InfoSphere Discovery é um pioneiro no mercado de integração de TI.

O Discovery pode acelerar o tempo de implementação em muitos projetos de TI, incluindo:

  • Arquivamento de dados
  • Retirada de aplicativos
  • Consolidação de aplicativos
  • Gerenciamento de dados principais
  • Descoberta e mascaramento de dados sensíveis
  • Descoberta e documentação de linhagem de dados
  • Data warehousing

Recursos

Aprender

Obter produtos e tecnologias

  • Elabore seu próximo projeto de desenvolvimento com o software de teste IBM, disponível para download diretamente no developerWorks.

Discutir

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=499054
ArticleTitle=IBM InfoSphere Discovery: A próxima geração em análise de dados
publish-date=07022010