Preditores de tela

Este tutorial usa o nó Seleção de recursos para ajudá-lo a identificar os campos mais importantes na previsão de um determinado resultado. A partir de um conjunto de centenas ou mesmo milhares de preditores, o nó Seleção de recursos filtra, classifica e seleciona os preditores que podem ser mais importantes. No final das contas, você pode acabar com um modelo mais rápido e eficiente, que usa menos preditores, funciona mais rapidamente e pode ser mais fácil de entender.

Visualizar o tutorial

Assista ao vídeo Assista a este vídeo para ver uma prévia das etapas deste tutorial. Pode haver pequenas diferenças na interface do usuário mostrada no vídeo. O vídeo destina-se a ser um complemento ao tutorial escrito. Este vídeo fornece um método visual para aprender os conceitos e tarefas desta documentação.

Experimente o tutorial

Neste tutorial, você realizará as seguintes tarefas:

Exemplo de fluxo do modelador e conjunto de dados

Este tutorial utiliza o fluxo Screening Predictors no projeto de exemplo. O arquivo de dados utilizado é customer_dbase.csv. A imagem a seguir mostra o fluxo do modelador de amostras.

Figura 1. Exemplo de fluxo do modelador
Exemplo de fluxo de seleção de características
Este exemplo foca apenas uma das ofertas como um destino. Ele usa o nó de construção de árvore CHAID para desenvolver um modelo que descreve quais clientes são mais propensos a responder à promoção. Ele contrasta duas abordagens:
  • Sem seleção de variável. Todos os campos do preditor no conjunto de dados são usados como entradas para a árvore CHAID
  • Com seleção de variável.. O nó Seleção de Características é usado para selecionar os 10 melhores preditores. Esses preditores são inseridos na árvore CHAID.

Ao comparar os dois modelos de árvore resultantes, você pode ver como a seleção de características pode produzir resultados eficazes.

A imagem a seguir mostra o conjunto de dados de amostra.
Figura 2 Conjunto de dados de amostra
Conjunto de dados de amostra

Tarefa 1: Abra o projeto de exemplo

O projeto de exemplo contém vários conjuntos de dados e fluxos de modelador de exemplo. Se você ainda não tem o projeto de exemplo, consulte o tópico Tutoriais para criar o projeto de exemplo. Em seguida, siga estas etapas para abrir o projeto de exemplo:

  1. No menu watsonxNavegação, Menu de navegaçãoselecione Projetos > Todos os projetos.
  2. Clique em Projeto “ SPSS Modeler ”.
  3. Clique na guia Ativos para ver os conjuntos de dados e os fluxos do modelador.

Ícone do ponto de verificação Verifique seu progresso

A imagem a seguir mostra a guia Ativos do projeto. Agora você está pronto para trabalhar com o fluxo do modelador de amostra associado a este tutorial.

Projeto de amostra

Voltar ao topo

Tarefa 2: Examine os nós Data Asset e Type

Os preditores de triagem incluem vários nós. Siga estas etapas para examinar os nós Data Asset (Recurso de dados) e Type (Tipo):

  1. Na guia Ativos, abra o fluxo do modelador Screening Predictors e aguarde o carregamento da tela.
  2. Clique duas vezes no customer_dbase.csv nó. Este nó é um nó de ativo de dados que aponta para o customer_dbase.csv arquivo no projeto.
  3. Revise as propriedades do formato do arquivo.
  4. Opcional: clique em Visualizar dados para ver o conjunto de dados completo.
  5. Clique duas vezes no nó Tipo. Observe o valor da função para cada um desses campos:
    • response_01 está definido como Destino
    • response_02, response_03, e custid são definidos como Nenhum
    • Todos os outros campos estão definidos como Entrada
    Figura 3. Nível de medição do nó do tipo
    Tipo de nó
  6. Clique em Ler valores.
  7. Opcional: clique em Visualizar dados para ver o conjunto de dados com as propriedades Tipo aplicadas.
  8. Clique em Salvar.

Ícone do ponto de verificação Verifique seu progresso

A imagem a seguir mostra o nó Tipo. Agora você está pronto para construir o modelo.

Tipo de nó

Voltar ao topo

Tarefa 3: Construir o modelo

Siga estas etapas para construir o modelo:

  1. Clique duas vezes no nó “ response_01 ” (Seleção de recurso) para ver suas propriedades.
  2. Expanda a seção Opções de compilação para ver as regras e os critérios definidos que são usados para selecionar ou desqualificar campos.
    Figura 4. Opções de compilação da seleção de recursos
    Opções de compilação para o nó Seleção de recursos
  3. Passe o mouse sobre o nó “ response_01 ” (Seleção de características) e clique no ícone Ícone ExecutarExecutar ”.
  4. No painel Saídas e modelos, clique no modelo com o nome response_01 para visualizar o modelo. Os resultados mostram os campos considerados úteis na previsão, classificados por importância. Ao examinar esses campos, você pode decidir quais usar nas sessões de modelagem subsequentes.

    Para comparar resultados sem seleção de características, você deve usar dois nós de modelagem CHAID no fluxo: um que use seleção de características e outro que não use.

  5. Clique duas vezes no nó Com todos os campos (CHAID) para ver suas propriedades.
    1. Em Objetivos, verifique se as opções Criar novo modelo e Criar um modelo padrão estão selecionadas.
    2. Expanda a seção Básico e verifique se a Profundidade máxima da árvore está definida como Personalizada e o número de níveis está definido como 5.
  6. Clique em Salvar.
  7. Clique duas vezes no nó Usando os 10 campos principais (CHAID) para ver suas propriedades
    1. Verifique as mesmas propriedades do nó Com todos os campos (CHAID).
    2. Clique em Salvar.

Ícone do ponto de verificação Verifique seu progresso

A imagem a seguir mostra o nó Modelagem. Agora você está pronto para executar o fluxo e visualizar os resultados.

Nó CHAID

Voltar ao topo

Tarefa 4: Execute o fluxo e visualize os resultados

Siga estas etapas para executar o fluxo e visualizar os resultados dos dois modelos com e sem seleção de recursos:

  1. Clique em Executar tudo Ícone Executar. Enquanto estiver em execução, observe quanto tempo cada modelo leva para concluir a construção.
  2. No painel Saídas e modelos, clique no modelo com o nome Com todos os campos para visualizar os resultados.
    1. Clique na página Diagrama em árvore.
    2. Diminua o zoom para ver o escopo do diagrama em árvore.
    3. Feche a janela de detalhes do modelo.
  3. No painel Saídas e modelos, clique na execução do modelo com o nome Usando os 10 principais campos para visualizar os resultados.
    1. Clique na página Diagrama em árvore.
    2. Diminua o zoom para ver o escopo do diagrama em árvore.

    Pode ser difícil perceber, mas o segundo modelo funcionou mais rápido do que o primeiro. Como esse conjunto de dados é relativamente pequeno, a diferença nos tempos de execução provavelmente é de apenas alguns segundos; mas, para conjuntos de dados reais maiores, a diferença pode ser perceptível, chegando a minutos ou até horas. O uso da seleção de recursos pode acelerar drasticamente seus tempos de processamento.

    Você pode, em vez disso, usar um algoritmo de construção de árvores para fazer a seleção de características, permitindo que a árvore identifique os preditores mais importantes para você. Na verdade, o algoritmo CHAID é frequentemente utilizado para esse fim, sendo até possível desenvolver a árvore nível por nível para controlar sua profundidade e complexidade. No entanto, o nó Seleção de recursos é mais rápido e fácil de usar. Ele classifica todos os preditores em uma única etapa rápida, ajudando você a identificar rapidamente os campos mais importantes.

Ícone do ponto de verificação Verifique seu progresso

A imagem a seguir mostra o diagrama em árvore do modelo.

Ver modelo Diagrama em árvore

Voltar ao topo

Resumo

A segunda árvore também contém menos nós do que a primeira. É mais fácil de compreender. Usar menos preditores é mais barato. Isso significa que você tem menos dados para coletar, processar e inserir em seus modelos. O tempo de computação foi melhorado. Neste exemplo, mesmo com a etapa adicional de seleção de características, a construção do modelo foi mais rápida com o conjunto menor de preditores. Com um conjunto de dados do mundo real maior, a economia de tempo pode ser amplamente ampliada.

Usar menos preditores resulta em uma pontuação mais simples. Por exemplo, você pode identificar apenas quatro perfis de clientes que provavelmente responderão à promoção. Com um número maior de preditores, você corre o risco de sobreajustar seu modelo. O modelo mais simples pode ser mais facilmente generalizado para outros conjuntos de dados (embora seja necessário testar essa abordagem para ter certeza).

Próximas etapas

Agora você está pronto para experimentar outros SPSS® Modeler tutoriais.