Nó Previsor Contínuo Automático

O nó Numeração Automática estima e compara modelos para resultados de intervalo numérico contínuo utilizando um número de métodos diferentes, permitindo experimentar uma variedade de abordagens em uma única execução de modelagem. É possível selecionar os algoritmos a serem utilizados e experimentar com diversas combinações de opções. Por exemplo, é possível prever valores domésticos utilizando modelos de rede neural, regressão linear, C&RT e CHAID para ver quais deles executam melhor, bem como experimentar diferentes combinações de métodos de regressão stepwise, forward e backward. O nó explora cada combinação possível de opções, classifica cada modelo candidato com base na medida que você especificar e salva o melhor modelo para uso na escoragem ou análise adicional.

Exemplo
Um município deseja estimar com mais precisão impostos de imóveis e ajustar valores para propriedades específicas conforme necessário sem precisar inspecionar cada propriedade. Usando o nó Numeração Automática, o analista pode gerar e comparar vários modelos que preveem valores de propriedade com base no tipo de construção, ambiente, tamanho e outros fatores conhecidos.
Requisitos
Um campo de destino único (com o papel configurado como Destino) e pelo menos um campo de entrada (com o papel configurado como Entrada). O destino deve ser um campo contínuo (intervalo numérico), como idade ou renda. Os campos de entrada podem ser contínuos ou categóricos, com a limitação de que algumas entradas podem não ser apropriadas para alguns tipos de modelo. Por exemplo, os modelos de Árvore C&R podem utilizar campos de sequência de caracteres categóricos como entradas, ao passo que os modelos de regressão linear não podem utilizar esses campos e os ignorará, se especificado. Os requisitos são os mesmos que quando utilizar nós de modelagem individuais. Por exemplo, um modelo CHAID funciona da mesma forma, independentemente se gerado a partir do nó CHAID ou do nó Numeração Automática.
Campos de frequência e peso
A frequência e a ponderação são utilizadas para dar importância extra para alguns registros sobre outros porque, por exemplo, quando o usuário sabe que o conjunto de dados de construção sub-representa uma parte da população pai (Ponderação) ou porque um registro representa um número de casos idênticos (Frequência). Se especificado, um campo de frequência poderá ser utilizado pelos algoritmos Árvore C&R e CHAID. Um campo de ponderação pode ser utilizado pelos algoritmos C&RT, CHAID, Regressão e GenLin Outros tipos de modelo ignorarão esses campos e construirão os modelos de qualquer maneira. Os campos Frequência e Ponderação são utilizados apenas para construção de modelo e não são considerados ao avaliar ou escorar os modelos.
Prefixos
Se você anexar um nó de tabela ao nugget para o Nó Numeração Automática, haverá várias novas variáveis na tabela com nomes que começam com um prefixo $.
Os nomes dos campos que são gerados durante a pontuação são baseados no campo de destino, mas com um prefixo padrão. Tipos de modelo diferentes utilizam conjuntos diferentes de prefixos.
Por exemplo, os prefixos $ G, $ R, $ C são usados como o prefixo para previsões que são geradas pelo modelo Linear Generalizado, modelo CHAID e modelo C5.0, respectivamente. $ X é normalmente gerado usando uma combinação e $ XR, $ XS e $ XF são usados como prefixos nos casos em que o campo de destino é um campo Contínuo, Categórico ou Sinalizador, respectivamente.
Os prefixos $..E são usados para a confiança de predição de um alvo contínuo; por exemplo, $ XRE é usado como um prefixo para a confiança de predição contínua da combinação. $GE é o prefixo para uma única predição de confiança para um modelo linear generalizado.

Tipos de modelos suportados

Os tipos de modelos compatíveis incluem Neural Net, C&R Tree, CHAID, Regression, GenLin, Nearest Neighbor, SVM, XGBoost Linear, GLE e XGBoost-AS.

Configurações de validação cruzada

Nas propriedades do nó, observe que as configurações de validação cruzada estão disponíveis. A validação cruzada é uma técnica valiosa para testar a eficácia (evitando overfitting) de modelos de aprendizado de máquina e também é um procedimento de reamostragem que você pode usar para avaliar um modelo se tiver dados limitados.

K-fold é uma maneira popular e fácil de realizar validação cruzada. Geralmente resulta em um modelo menos tendencioso em comparação com uma única partição de treinamento/teste, porque garante que todas as observações do conjunto de dados original tenham a chance de aparecer em conjuntos de treinamento e teste. O procedimento geral de validação cruzada de k-fold é o seguinte.
Nota: Modelagem automática paralela no modo de validação cruzada (rodando dois ou mais nós de modelagem automática ao mesmo tempo, como através do botão Executar tudo ) não é suportado neste momento. Como uma solução alternativa, você pode executar cada nó de modelagem automática (com validação cruzada ativada, que é desativada por padrão) uma de cada vez.
  1. Ordene o conjunto de dados aleatoriamente.
  2. Divida o conjunto de dados em k-folds/grupos.
  3. Para cada dobra/grupo exclusivo:
    1. Considere a dobra/grupo como uma base ou conjunto de dados de teste.
    2. Considere os grupos restantes como um conjunto de dados de treinamento.
    3. Ajuste um modelo no conjunto de treinamento e avalie-o no conjunto de teste.
    4. Retenha a pontuação da avaliação e descarte o modelo.
  4. Resuma a avaliação geral do modelo usando as pontuações de avaliação de k-fold retidos.

A validação cruzada é atualmente suportada por meio do nó de classificador automático e do nó de numeração automática. Dê um clique duplo em um nó para configurar suas propriedades. Ao selecionar a opção de validação cruzada, uma única partição de trem/teste é desativada e os nós automáticos usarão a validação cruzada k-fold para avaliar o conjunto selecionado de algoritmos diferentes.

É possível especificar o Número de dobras (K). O padrão é 5, com uma faixa de 3 a 10. Se desejar reter a amostragem repetível durante a validação cruzada, para ter medidas de avaliação final consistentes para modelos gerados em diferentes execuções, você pode selecionar a opção de atribuição de partição de Validação Cruzada Repetível. Você também pode configurar o valor semente aleatória para um valor específico para que o modelo resultante seja exatamente reproduzível. Ou clique em Gerar para sempre gerar a mesma sequência de valores aleatórios; nesse caso, a execução do nó sempre resulta no mesmo modelo gerado.

Aprendizado de máquina contínuo

Uma inconveniência com a modelagem é a desatualização dos modelos devido a mudanças em seus dados ao longo do tempo. Isso normalmente é referido como desvio do modelo ou desvio de conceito. Para ajudar a superar o desvio do modelo de forma efetiva, o SPSS Modeler fornece o aprendizado de máquina automatizado contínuo. Este recurso está disponível para nuggets de modelo de nó de classificador automático e nó de numeração automática. Para obter mais informações, consulte Aprendiz de máquina contínua.