Análise Preditiva no SAP com SPSS e InfoSphere Warehouse

Usando tecnologia analítica de ponta para conhecer melhor os seus clientes

O software de análise preditiva ajuda a localizar padrões não óbvios ocultos em grandes conjuntos de dados. As ferramentas atuais de análise preditiva, como o SPSS (uma empresa da IBM®) e o IBM InfoSphere™ Warehouse, esperam que os dados sejam representados de maneira apropriada para que a análise possa efetivamente ocorrer. Em certos casos, porém, os dados a serem analisados podem não estar prontamente disponíveis em um formato que essas ferramentas consigam reconhecer. Por exemplo, sistemas SAP são amplamente utilizados por muitas empresas em diferentes segmentos de mercado, mas os dados de sistemas SAP não são diretamente acessíveis a essas ferramentas. Este artigo mostra como usar o IBM InfoSphere Information Server para extrair dados de sistemas SAP para serem analisados no InfoSphere Warehouse e no SPSS PASW Modeler.

Dr. Stefanie Scherzinger, Software Engineer, IBM

Stefanie Scherzinger photoStefanie Scherzinger obteve um Ph.D. na Universidade de Saarland, Alemanha, por seu trabalho sobre processamento de fluxo XML baseado na memória principal. Em 2007, saiu do meio acadêmico para assumir o cargo de Engenheira de Software na divisão de Gerenciamento de Informações da IBM.



Dr. Thomas Schwarz, Software Engineer, IBM

Thomas Schwarz lidera o desenvolvimento de uma oferta de solução voltada para aplicativos SAP. É especialista em migração e consolidação de dados usando o IBM InfoSphere Information Server, especialmente para sistemas SAP. Anteriormente, Thomas prestava consultoria a clientes sobre arquitetura MDM e problemas de integração e era membro do Centro de Excelência em Gerenciamento de Dados Principais sediado no laboratório da IBM em Boeblingen, Alemanha. Antes de ingressar na IBM, Thomas era assistente de pesquisa na Universidade de Stuttgart, trabalhando com integração e federação de dados baseados na localidade em serviços de dados fracamente acoplados. Recebeu seu Ph.D. na Universidade de Stuttgart, Alemanha, em 2007.



Dr. Michael J. Wurst, Software Engineer, IBM

Author Photo: Michael WurstMichael Wurst, Ph.D. é engenheiro de software senior no IBM Research & Development Lab em Boeblingen, Alemanha. Possui Ph.D. em ciência da computação e é responsável por algoritmos de mineração de dados e conjuntos de ferramentas do InfoSphere Warehouse. Antes de ingressar na IBM, Michael trabalhou como desenvolvedor adjunto, arquiteto e consultor para o software de mineração de dados RapidMiner.



30/Jul/2010

Visão Geral

Os softwares de análise preditiva são usados em muitos aplicativos para descobrir padrões desconhecidos ocultos nos dados. Um exemplo típico na área de inteligência de negócios é a tarefa de segmentação de clientes. Qualquer empresa com mais do que alguns poucos clientes enfrenta o problema de obter uma visão geral de sua base de clientes. À medida que o número de clientes cresce, realizar análises individuais de cada cliente torna-se rapidamente uma impossibilidade. Em vez disso, pode-se abordar esse problema dividindo primeiramente os clientes em grupos com atributos semelhantes. Em seguida, para entender a base de clientes, basta analisar alguns desses grupos típicos em vez de cada cliente individual.

A segmentação de clientes pode ser executada com softwares de análise de última geração, como o SPSS ou o IBM InfoSphere Warehouse. Ambas as ferramentas esperam que os dados de entrada sejam representados em um formato estruturado, como, por exemplo, uma tabela de banco de dados ou um arquivo separado por vírgula. Entretanto, os dados nem sempre estão prontamente disponíveis nesse formato em todos os cenários de aplicativo. Um exemplo proeminente desse cenário de aplicativo são os sistemas SAP, que armazenam dados em uma estrutura interna de tabelas. Os sistemas SAP são amplamente utilizados e contêm informações importantes para muitas tarefas de análise preditiva. Entretanto, o formato dos dados contidos nas tabelas SAP não é diretamente compatível com a análise executada pelo SPSS ou pelo InfoSphere Warehouse.

Este artigo fornece um exemplo ilustrativo da extração de informações relevantes de um sistema SAP R/3 para um banco de dados DB2®, de modo a permitir que sejam analisadas subsequentemente com o SPSS ou o InfoSphere Warehouse. O exemplo usa um cenário de segmentação de clientes, mas a maioria dessas técnicas pode ser transposta facilmente para outras tarefas ou outros subsistemas SAP.

A Figura 1 mostra a arquitetura geral da integração. A primeira etapa é a extração dos dados do aplicativo SAP para um banco de dados DB2 correspondente. Isso resulta em um conjunto de tabelas interligadas em esquema de estrela. Para tornar os dados adequados para análise, provavelmente será necessário transformá-los ainda mais usando instruções SQL ou os recursos do InfoSphere Warehouse. Finalmente, você poderá aplicar algoritmos estatísticos aos dados pré-processados para descobrir padrões interessantes. Esses algoritmos podem ser encontrados no modelador do SPSS PASW ou no InfoSphere Warehouse. No caso do SPSS PASW, os dados são extraídos do banco de dados para um servidor para serem analisados. Com o InfoSphere Warehouse, os dados são analisados diretamente no banco de dados.

Figura 1. Arquitetura de integração para a análise de dados SAP
Diagram depicting extraction of data from SAP, processing into a suitable format and analysis by SPSS or InfoSphere Warehouse.

Requisitos de software

O exemplo descrito neste artigo combina os seguintes componentes do portfólio de produtos de gerenciamento de informações e análise de negócios da IBM:

  • DataStage®, um componente do IBM InfoSphere Information Server
  • IBM InfoSphere Information Server Pack para SAP R/3
  • IBM DB2 para Linux®, UNIX® e Windows®
  • IBM InfoSphere Warehouse Enterprise Edition ou IBM SPSS PASW Modeler

Evidentemente, para acompanhar o exemplo, você também precisará ter acesso a um sistema SAP. No exemplo, o sistema SAP contém dados sobre o objeto de negócios do cliente. Entretanto, com pequenas modificações, as mesmas técnicas gerais descritas poderão ser usadas com outros aplicativos SAP.


Extraindo dados do SAP para DB2

Uma breve descrição dos sistemas de aplicativos SAP

Os sistemas de aplicativos SAP são amplamente utilizados em diferentes segmentos de mercado. Muitas empresas dependem de sistemas SAP para pelo menos alguns de seus processos de negócios. Os sistemas SAP cuidam do armazenamento de dados de negócios e fornecem a camada de processamento para trabalhar com esses dados. Sistemas SAP são usados para tarefas como planejamento de recursos corporativos, gerenciamento da cadeia de suprimento, gerenciamento de relação com o cliente e até mesmo recursos humanos. Além disso, eles abrangem vários processos de negócios, como oportunidade até encomenda, encomenda até pagamento, compra até pagamento e muitos outros. Abaixo da superfície, um sistema SAP possui um kernel comum e estruturas de dados específicas de processo de negócios (objetos de negócios), controladas por uma lógica de processamento. Em suma, o mecanismo é o mesmo para qualquer sistema SAP, embora cada um execute um programa diferente.

As estruturas de dados podem ser divididas em estruturas para dados de negócios principais e estruturas para dados de configuração de apoio. Nomes, endereços e informações de contato de clientes são exemplos de dados de negócios principais, enquanto a lista de estados civis válidos pertenceria à categoria de dados de configuração de apoio. O estado civil propriamente dito faz parte dos dados de negócios principais, mas é armazenado neles apenas como um código curto. Os dados de configuração enumeram os valores permitidos e as descrições correspondentes em um formato legível a seres humanos. Essa dualidade também caracteriza a maneira como os dados são acessados. Os dados de negócios principais podem ser acessados usando interfaces predefinidas, como IDoc e BAPI. Via de regra, é possível acessar todas as estruturas de dados pertencentes ao mesmo objeto de negócios em uma única etapa. Os dados de configuração de apoio, em sua maioria, não são expostos por interfaces predefinidas; eles só estão acessíveis a programas ABAP executados no sistema SAP. Este artigo mostra como acessar ambos os tipos de dados com a ajuda do IBM InfoSphere Information Server Pack para SAP R/3. Especificamente, ele mostra como usar o estágio de extração IDoc para acessar os dados de negócios principais e o estágio de extração ABAP para acessar os dados de configuração de apoio.

Alternativamente, é possível extrair os dados de negócios principais usando o estágio de extração ABAP. Isso tem a vantagem de permitir que os dados extraídos sejam limitados precisamente às colunas de interesse. Por outro lado, o uso da interface IDoc permite tirar vantagem dos ponteiros de alterações SAP configuráveis para enviar um IDoc sempre que um registro é alterado. Essencialmente, isso proporciona um processamento de delta integrado.

O exemplo extrai as seguintes informações do cliente. A tabela e o campo no SAP que armazenam essas informações são mostrados entre parênteses:

  • ID do cliente (KNA1.KUNNR)
  • País do cliente (KNA1.LAND1)
  • Tipo de cliente (KNA1.KTOKD)
  • Canal de vendas usado (KNVV.VTWEG)

Os dados de negócios principais correspondentes são armazenados nas tabelas KNA1 e KNVV no SAP R/3. Os campos de tipo de cliente e canais de vendas armazenam códigos abreviados. Para compreender o significado desses códigos, é necessário obter as respectivas descrições legíveis por humanos que estão armazenadas nas tabelas JLT_T077D e JLT_TVTW. Quando o mecanismo IDoc é usado para extrair os dados de negócios principais, as tabelas recebem um nome baseado nos segmentos IDoc E2KNA1M005 e E2KNVVM007 correspondentes. A Figura 2 mostra o diagrama de relacionamento de entidades (ER) resultante da amostra executada.

Figura 2. Tabelas de clientes para dados de negócios principais e dados de configuração de apoio.
ER diagram showing the table descriptions and the relationships for the customer segmentation example

Usando um Estágio de Extração IDoc para extrair os dados de negócios principais

Esta seção descreve como extrair dados das tabelas base KNA1 e KNVV do SAP para as tabelas relacionais EKNA1M005 e E2KNVVM007, que residem em um banco de dados DB2. Essa tarefa é realizada usando o estágio IDoc Extract Pack para SAP R/3 dentro de uma tarefa DataStage ETL. Por conveniência, este artigo refere-se ao IBM InfoSphere Information Server Pack para SAP R/3 simplesmente como SAP Packs e aos estágios IDoc Extract Pack para SAP R/3 como estágios IDoc Extract.

Estas instruções presumem que você tenha uma familiaridade básica com o DataStage e outras ferramentas de processamento ETL e que já tenha:

  • Instalado e configurado o pacote SAP Packs do DataStage.
  • Criado uma Conexão DataStage ao SAP usando o DataStage Administrador para SAP que é fornecido com o SAP Packs.
  • Executado as configurações de SAP necessárias para habilitar a comunicação entre o estágio IDoc Extract e o SAP. Essas configurações são descritas na documentação do produto para SAP Packs e incluem modificações no modelo de distribuição (com a transação SAP BD64).
  • Ajuste as configurações do IDoc Listener no DataStage Administrator para SAP de modo que o aplicativo IDoc Listener esteja pronto para receber mensagens IDoc do SAP.

Depois de confirmar que todos os pré-requisitos descritos acima foram cumpridos, siga estas etapas para implementar a extração de dados:

  1. Inicialize o DataStage and Quality Stage Designer, abra um projeto e crie uma nova tarefa DataStage paralela.
  2. Na Paleta DataStage, selecione um estágio IDoc Extract e arraste-o para a tela.
  3. Arraste e solte na tela dois estágios Transformer e dois estágios ODBC Connector. Para distinguir o fluxo de dados para as tabelas base do SAP KNA1 e KNVV, renomeie os estágios como Transformer_KNA1, Transformer_KNVV, ODBC_Connector_KNA1 e ODBC_Connector_KNVV.
  4. Conecte os estágios com links, como é mostrado na Figura 3. A ideia é extrair dados do SAP usando o estágio IDoc Extract e passá-los adiante (por meio de estágios Transformer que implementam um mapeamento direto) para os estágios ODBC. Em seguida, os estágios ODBC são usados para inserir os dados em tabelas relacionais no banco de dados DB2.
    Figura 3. Tarefa DataStage usando um estágio IDoc Extract
    A skeleton of a DataStage job using an IDoc Extract stage
  5. Clique duas vezes no estágio IDoc Extract e ajuste suas configurações da seguinte maneira:
    • Na guia principal rotulada como Stage:
      • Na guia General, selecione a Conexão DataStage ao SAP correta e forneça os Detalhes de Logon ao SAP apropriados.
      • Na guia IDoc Type, selecione um tipo de IDoc apropriado para dados do cliente. Para este exemplo, selecione DEBMAS06.
      • Na guia Options, escolha novamente a Conexão DataStage ao SAP correta. Habilite o processamento off-line de dados IDoc para que os dados IDoc não precisem ser buscados no sistema SAP cada vez que a tarefa for executada. Para obter mais informações sobre esse mecanismo, consulte a documentação do SAP Packs
      • Na guia NLS Map, selecione um mapeamento apropriado. Por exemplo, selecione UTF-8 se o seu sistema SAP é um sistema Unicode.
    • Use a guia principal rotulada como Output para distinguir o link DSLink3, que conduz ao estágio Transformer que manipula dados para a tabela base KNA1, do link DSLink10, que manipula dados para a tabela base KNVV:
      • Na guia General, escolha o componente IDoc a ser extraído (EKNA1M para manipular dados de KNA1 ou E1KNAVVM para manipular dados de KNVV).
      • Na guia Columns, é possível ver as colunas de dados de saída que esse estágio produzirá.
    A Figura 4 mostra a aparência da tarefa DataStage depois que essa etapa de configuração é concluída. Observe que os links que saem do estágio IDoc Extract agora contêm um ícone de tabela. Isso indica que a estrutura dos registros que estão sendo passados nesse link agora é conhecida.
    Figura 4. Tarefa DataStage após a configuração do estágio IDoc Extract
    After configuring the IDoc Extract stage, there are now table symbols on the DSLink3 and DSLink10 links
  6. Nesta etapa são configurados os estágios Transformer.

    Como você só deseja transferir os dados, selecione o link de entrada DSLink3 que contém todas as colunas de entrada, arraste-o e solte-o no link de saída DSLink4. A Figura 5 mostra o mapeamento completo das colunas de entrada às colunas de saída. Embora a nomenclatura dos links no seu exemplo possa ser diferente, o princípio é o mesmo. Neste ponto, você também pode editar os mapeamentos e aplicar qualquer transformação necessária aos dados (por exemplo, converter cadeias de caractere para maiúsculas).

    Figura 5. Mapeamento de colunas de entrada para colunas de saída no estágio Transformer para a tabela KNA1
    Screenshot shows the mapping of names for DSLink3 input columns to DSLink4 output columns

    Configure a manipulação dos dados da tabela SAP KNVV (DSLink10 e DSLink11) de maneira semelhante.

    Quando as configurações de ambos os estágios Transformer forem concluídas, os links que saem dos estágios conterão um símbolo de tabela.

  7. Nesta etapa são configurados os estágios ODBC. Clique duas vezes nos estágios, um de cada vez, e modifique suas configurações da seguinte maneira:
    • Na seção Properties, especifique as informações de conexão com o banco de dados, como o nome do banco de dados, o usuário do banco de dados e a respectiva senha. Neste ponto, você também tem a opção de testar a conexão com o banco de dados.
    • Na seção Usage, deixe o modo Write definido como Insert e faça a seleção para gerar SQL. Especifique o nome completo da tabela relacional de destino (EKNA1M005 para KNA1 ou E2KNVVM007 para KNVV). Para criar a tabela em tempo de execução, defina a ação Table para descartar e recriar a tabela.
    • Agora a seção Columns mostra as colunas da tabela de destino (EKNA1M005 para KNA1 ou E2KNVVM007 para KNVV).
  8. Salve a tarefa DataStage e compile-a. Investigue e corrija qualquer erro de compilação.

Depois de criar a tarefa com êxito, siga estas etapas para executá-la:

  1. Efetue logon em um SAP Frontend e inicie a transação SAP BD12 para enviar dados do cliente.
  2. Prepare IDocs para os dados do cliente que deseja extrair e envie esses IDocs.
  3. Execute a tarefa DataStage. Conforme os dados são processados, os links ficam azuis e é possível monitorar a taxa de transferência de dados atual. Quando a tarefa é concluída, os links ficam verdes e é exibido o total de registros gerados, como mostra a Figura 6.
    Figura 6. Visualização da tarefa DataStage depois de uma execução bem-sucedida
    The DataStage job after after execution showing the number of records generated and the number of rows processed per second

Usando o estágio de extração ABAP para extrair os dados de configuração de apoio

Como foi explicado anteriormente, os dados de configuração de apoio provavelmente não serão diretamente acessíveis de fora do sistema SAP. Esta seção descreve como usar o estágio de extração ABAP do IBM InfoSphere Information Server Pack para SAP R/3 para contornar essa limitação. Esse estágio gera um código ABAP que lê dados das tabelas SAP internas e os envia para o estágio de extração ABAP receptor em uma tarefa DataStage.

O cenário de exemplo extrai os dados da tabela de verificação T077D, que contém todos os valores válidos para o campo KTOKD (grupo de contas de cliente) na tabela KNA1 (tabela principal de clientes). A tabela T077D tem muitas colunas além das colunas-chave contendo os dados de configuração para cada grupo de contas. Por enquanto, você não está interessado nos dados de configuração, mas no texto descritivo relevante para cada entrada na tabela. Esse texto descritivo pode ser encontrado na tabela de texto T077X correspondente. O módulo de função ABAP DDUT_TEXTTABLE_GET informa a tabela de texto correspondente para cada tabela de verificação (execute-o usando o código de transação SE37 no SAP). Como você está interessado apenas nas colunas de texto descritivo da tabela de texto e não nas colunas de configuração, é suficiente extrair apenas a tabela de texto e não a tabela de verificação. Mesmo assim, lembre-se que, no nível lógico, a coluna KTOKD na tabela KNA1 está conectada à tabela de verificação T077D, não à sua tabela de texto T077X.

Monte a tarefa DataStage da seguinte maneira:

  1. Crie uma nova tarefa paralela. Certifique-se de que as configurações NLS nas propriedades da tarefa estão definidas como UTF-8.
  2. Na paleta DataStage, arraste estes três estágios para a tela:
    • Estágio ABAP Extract (seção Packs da paleta)
    • Estágio Transformer (seção Processing da paleta)
    • Estágio ODBC Connector (seção Database da paleta)
    A Figura 7 mostra onde o estágio ABAP Extract está localizado na paleta.
    Figura 7. Paleta DataStage mostrando o estágio ABAP Extract
    ABAP Extract stage is under the Packs section of the DataStage palette
  3. Conecte o estágio ABAP Extract ao estágio Transformer e o estágio Transformer ao estágio ODBC Connector. Renomeie os estágios como Extract_T077X, Transformer_Trim e Store_JLT_T077D. Neste ponto, sua tela deve ser semelhante à da Figura 8.
    Figura 8. Exemplo de tarefa DataStage usando o estágio ABAP Extract
    ABAP Extract stage connected to Transform stage, connected to an ODBC connector stage
  4. Clique duas vezes no estágio ABAP Extract e configure-o da seguinte maneira:
    1. Acesse a guia Output.
    2. Na guia General, selecione a Conexão DataStage ao SAP adequada. Escolha aquela que você configurou para a tarefa IDoc Extract. Insira também o Nome de Usuário, Senha, Número do Cliente e Idioma. Para um teste inicial, apenas insira diretamente esses valores. Subsequentemente, esses valores de teste seriam substituídos por parâmetros ou conjuntos de parâmetros da tarefa.
    3. Na guia Data Transfer Method, selecione RFC como método de transferência de dados. Solicite ao administrador do SAP os valores apropriados para inserção como Gateway Host (em uma configuração simples, esse é o nome do servidor SAP) e Gateway Service (experimente sapgw00). Marque a opção Create RFC destination automatically e selecione Yes no pop-up que pergunta se você deseja criar os nomes automaticamente. Além disso, marque a opção Delete existing RFC destination if necessary.
    4. Na guia ABAP Program, crie um ABAP Program ID exclusivo (por exemplo, Z_T077X_YOUR_INITIALS). Certifique-se de que Generation Method está definido como Build SQL query e clique em Build.
      • Insira T077X no campo Find in Name e clique em Search.
      • Selecione a tabela T077X e clique no botão >.
      • Acesse a guia Select, marque todas as colunas exceto a coluna SPRAS e clique no botão >.
      • Acesse a guia Where e insira a condição T077X.SPRAS = 'E'. Isso lhe fornecerá apenas as descrições em inglês.
      • Clique em OK.
    5. De volta à guia ABAP Program, clique em Generate Program e selecione Yes no pop-up para indicar que deseja fazer upload do programa gerado imediatamente.
    6. Volte à guia General e clique em Validate Stage. Você deverá ver apenas luzes verdes.
  5. Na tela, clique com o botão direito do mouse no estágio Transformer e selecione Propagate Columns / 1 – DSLink3 / 1 – DSLink4. Isso copia todas as colunas do link de entrada DSLink3 para o link de saída DSLink4 e conecta-os simultaneamente.
  6. Clique duas vezes no estágio Transformer. Na parte superior direita da seção do link de saída DSLink4, marque todas as colunas, clique com o botão direito do mouse nelas e selecione Derivation Substitution. Substitua toda a expressão por Trim(Trim($1, char(0))). Isso faz $1 ser substituído pelo nome real de cada coluna. Essa expressão também remove todos os caracteres nulos e espaços em branco excessivos. Na parte inferior direita da seção, defina todas as colunas-chave do link de saída como não anuláveis selecionando No na coluna anulável.
  7. Clique duas vezes no estágio ODBC. Insira a fonte de dados, o nome de usuário e a senha. Deixe Write Mode como Insert. Defina Generate SQL como Yes. Insira o nome da tabela como o nome da tabela de verificação com um prefixo reconhecível (por exemplo, JLT_T077D). Talvez você queira também usar um nome de esquema (por exemplo, PLD.JLT_T077D) como prefixo do nome da tabela. Defina Table Action como Replace para descartar e recriar a tabela correspondente. Embora a melhor prática seja criar todas as tabelas com uma ferramenta de design, como o InfoSphere Data Architect, e não como efeito colateral de um estágio de banco de dados, para este pequeno exemplo isso é prático e suficiente.
  8. Salve a tarefa.
  9. Compile a tarefa.
  10. Execute a tarefa.

Repita as etapas acima para a tabela de verificação TVTW com a tabela de texto TVTWT. Quando as tarefas forem concluídas, as tabelas correspondentes estarão no banco de dados DB2.


Aplicando análise preditiva aos dados

Para aplicar uma análise preditiva, é necessário pré-processar os dados brutos extraídos do aplicativo SAP de modo a criar uma única tabela contendo todas as informações relevantes. Em seguida, essa tabela pode ser analisada com o SPSS PASW Modeler ou o InfoSphere Warehouse. A opção entre os dois depende da configuração e dos requisitos do aplicativo. O PASW Modeler extrai os dados do banco de dados para um servidor separado. O InfoSphere Warehouse realiza a análise dentro do banco de dados, sem mover qualquer dado.

Pré-processamento adicional para análise

Se você está seguindo o exemplo, neste ponto terá extraído quatro tabelas do aplicativo SAP e as armazenado no DB2. Antes de iniciar a análise em si, é necessário combinar as quatro tabelas em uma única tabela. Essa tabela única combinada deve conter as seguintes colunas:

  • Coluna de ID do cliente (como chave primária)
  • Uma coluna contendo o país do cliente, como caracteres
  • Uma coluna contendo o tipo do cliente, como caracteres
  • Para cada canal de distribuição, uma coluna indicando o número de entradas para o cliente nesse canal específico

Para o ID do cliente, use a coluna ADM_DOCNUM da tabela E2KNA1M005. Essa tabela também contém informações sobre o país na coluna LAND1, que pode ser usada diretamente. Para o tipo do cliente, una a coluna KTOKD da tabela E2KNA1M005 com os dados de apoio correspondentes em JLT_T077D, usando KTOKD como chave de junção.

Para obter as informações restantes, una essa tabela à tabela E2KNVVM007. Execute essa junção usando as colunas ADM_DOCNUM e ADM_SEGNUM de E2KNA1M005 e unindo-as com ADM_DOCNUM e ADM_PSGNUM de E2KNVVM007. As informações estão contidas em VTWEG, que é unida aos dados de apoio em JLT_TVTW, usando VTWEG para obter rótulos descritivos em vez de chaves. Finalmente, cancele a tabela dinâmica nos canais de distribuição.

Essa transformação pode ser executada com uma instrução SQL direta. Entretanto, talvez seja muito mais conveniente usar os recursos integrados de pré-processamento de dados do InfoSphere Warehouse. Consulte a documentação do InfoSphere Warehouse para obter mais informações.

A Figura 9 mostra uma parte da tabela final após o pré-processamento.

Figura 9. Amostra da tabela após o pré-processamento
Shows columns ADM_DOCNUM, COUNTRY, CUSTOMERTYPE, DC_FINAL_CUS..., AND DC_INTERNET

Os recursos podem ser categorizados como comportamentais ou demográficos. Por exemplo, os canais de distribuição descrevem dados comportamentais e o país descreve uma propriedade demográfica. Em geral, nem todos os recursos serão usados para segmentação de clientes. Uma prática recomendada é primeiro segmentar os clientes por comportamento e depois associar essas informações a propriedades demográficas.

Usando o SPSS PASW Modeler para construir um modelo preditivo

Agora que os recursos foram definidos e a tabela final foi criada, a única etapa restante é construir o modelo efetivo de segmentação dos clientes. O SPSS PASW Modeler é uma ferramenta que pode ser usada para executar esse tipo de análise. As instruções nesta seção presumem que você instalou o SPSS PASW Modeler 13 e o conectou ao seu banco de dados usando uma conexão ODBC.

O PASW Modeler usa o conceito de fluxos para definir como os dados fluem através do sistema para análise. Para o exemplo de segmentação dos clientes, você precisará apenas de um fluxo extremamente simples, como o que é mostrado na Figura 10.

Figura 10. Um fluxo SPSS simples para segmentação de dados
Screenshot of SPSS PAWS Modler 13 showing DB node and TwoStep node

O nó DB lê os dados no banco de dados. O nó TwoStep executa a segmentação efetiva. Siga estas etapas básicas para criar esse fluxo:

  1. Arraste um nó Database da guia Sources para a tela.
  2. Clique duas vezes no nó e preencha a fonte de dados e o nome da tabela (no caso, a tabela SAP.CUSTOMERS).
  3. Alterne para a guia Types e clique em Read Values. Se isso gerar uma mensagem pop-up, clique em OK. A leitura dos valores instrui o SPSS a fazer uma rápida varredura dos dados para analisar os tipos de dados e domínios. Feche o nó clicando em OK.
  4. Arraste um nó TwoStep da guia Modeling para a tela. O TwoStep é um algoritmo de segmentação sofisticado e dotado de auto-otimização. Geralmente ele não requer qualquer parametrização ou customização adicional.
  5. Conecte os nós.
  6. Clique duas vezes no operador TwoStep, acesse a guia Fields e adicione todos os campos que começam com DC. Isso especifica que você deseja incluir apenas campos relacionados ao comportamento do cliente e ao seu uso dos canais de distribuição.
  7. Clique no botão verde de execução acima da tela. Isso constrói o modelo de segmentação.
  8. Quando o processo for concluído, um novo ícone aparecerá na seção Models, no canto superior direito. Clique com o botão direito do mouse no ícone e selecione Browse. Será aberta uma nova janela contendo o modelo de segmentação.

É possível usar o visualizador para analisar o modelo de segmentação de diferentes maneiras. Particularmente, a visualização por cluster fornece percepções valiosas. Escolha-a selecionando Clusters em View.

A Figura 11 mostra um exemplo de visualização por cluster com três clusters. Examinando essa visualização, é possível determinar que os clientes do cluster 3 usam todos os canais de distribuição, os clientes do cluster 2 raramente ou nunca usam cadeias de lojas e os clientes do cluster 1 não usam o canal da Internet e raramente usam qualquer serviço. Você também pode usar o visualizador de SPSS para revelar propriedades ainda mais interessantes dos clusters, ou então alterar manualmente alguns parâmetros (por exemplo, o número de agrupamentos) e executar novamente o processo de armazenamento em cluster. A alteração de parâmetros é realizada de maneira idêntica à do nó de banco de dados.

Figura 11. Três clusters de resultados descobertos durante a segmentação dos clientes.
Cluster view of the SPSS cluster visualizer shows description, size, and features of each cluster

Usando o InfoSphere Warehouse para construir um modelo preditivo

Também é possível construir um modelo preditivo semelhante usando o InfoSphere Warehouse. O InfoSphere Warehouse não extrai qualquer dado do banco de dados; em vez disso, ele usa funções integradas e procedimentos armazenados para realizar a análise.

O InfoSphere Warehouse usa o conceito de fluxos, de maneira semelhante aos fluxos do SPSS PASW Modeler descritos anteriormente. A Figura 12 mostra um exemplo de fluxo de mineração do InfoSphere Warehouse. Ele consiste em três operadores. Um operador é usado para acessar os dados de uma tabela, outro para executar a segmentação e o terceiro para visualizar a segmentação. São fornecidas a seguir as etapas da criação de um fluxo desse tipo:

  1. Crie um novo Fluxo de Mineração.
  2. Arraste um operador Table Source para a tela e selecione a tabela de entrada SAP.CUSTOMERS.
  3. Arraste um operador Clusterer para a tela e conecte sua porta de entrada à porta de saída do operador Table Source.
  4. Abra as propriedades do Clusterer e vá até Model Settings. Selecione 3 como o número máximo de clusters e Kohonen como o algoritmo de armazenamento em cluster. Alterne para Column properties e defina o tipo de uso do campo de todas as colunas, exceto as que começam com DC, como supplementary. Isso determina ao algoritmo que use somente as colunas DC para armazenar em cluster; nas outras colunas, somente estatísticas serão coletadas.
  5. Arraste um operador Visualizer para a tela e conecte sua porta de modelo à porta de modelo do operador Clusterer. Agora o fluxo de mineração deve ser semelhante ao que é mostrado na Figura 12.
    Figura 12. Um fluxo de segmentação no InfoSphere Warehouse.
    Output from Customers table flows to Cluster_02, which then sends a model to Visualizer_013
  6. Clique no botão verde de execução acima da tela para iniciar a construção do modelo de segmentação.

Quando o processo for concluído, o modelo preditivo será exibido automaticamente. A Figura 13 mostra parte do resultado, que pode ser analisado de maneira semelhante à descrita anteriormente para o modelo SPSS. Novamente, é possível ver a distribuição dos valores em cada segmento. Os colchetes delimitando um campo indicam que ele não foi usado para a segmentação.

Figura 13. Um modelo de segmentação no InfoSphere Warehouse.
Depicts graphs of each segment with fields not used for segmentation in square brackets

Conclusão

Os sistemas SAP contêm dados importantes que podem ser usados para otimizar processos de negócios com o uso de ferramentas de análise, como o SPSS ou o InfoSphere Warehouse. Entretanto, para poder executar uma análise, é necessário extrair e pré-processar esses dados. Este artigo usa um exemplo de segmentação de clientes para descrever como executar as tarefas relativas à análise de dados SAP. Esse mesmo método simples e direto pode ser utilizado em muitos aplicativos diferentes, como estimativa de valor dos clientes, previsão de rotatividade ou potencial de vendas de maior valor ou cruzadas.

Recursos

Comentários

developerWorks: Conecte-se

Los campos obligatorios están marcados con un asterisco (*).


Precisa de um ID IBM?
Esqueceu seu ID IBM?


Esqueceu sua senha?
Alterar sua senha

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


A primeira vez que você entrar no developerWorks, um perfil é criado para você. Informações no seu perfil (seu nome, país / região, e nome da empresa) é apresentado ao público e vai acompanhar qualquer conteúdo que você postar, a menos que você opte por esconder o nome da empresa. Você pode atualizar sua conta IBM a qualquer momento.

Todas as informações enviadas são seguras.

Elija su nombre para mostrar



Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no developerWorks.

Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.

Los campos obligatorios están marcados con un asterisco (*).

(Escolha um nome de exibição de 3 - 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos e condições do developerWorks.

 


Todas as informações enviadas são seguras.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=80
Zone=Information Management
ArticleID=502923
ArticleTitle=Análise Preditiva no SAP com SPSS e InfoSphere Warehouse
publish-date=07302010