Nó Previsor Contínuo Automático
O nó Numeração Automática estima e compara modelos para resultados de intervalo numérico contínuo utilizando um número de métodos diferentes, permitindo experimentar uma variedade de abordagens em uma única execução de modelagem. É possível selecionar os algoritmos a serem utilizados e experimentar com diversas combinações de opções. Por exemplo, é possível prever valores domésticos utilizando modelos de rede neural, regressão linear, C&RT e CHAID para ver quais deles executam melhor, bem como experimentar diferentes combinações de métodos de regressão stepwise, forward e backward. O nó explora cada combinação possível de opções, classifica cada modelo candidato com base na medida que você especificar e salva o melhor modelo para uso na escoragem ou análise adicional.
- Exemplo
- Um município deseja estimar com mais precisão impostos de imóveis e ajustar valores para propriedades específicas conforme necessário sem precisar inspecionar cada propriedade. Usando o nó Numeração Automática, o analista pode gerar e comparar vários modelos que preveem valores de propriedade com base no tipo de construção, ambiente, tamanho e outros fatores conhecidos.
- Requisitos
- Um campo de destino único (com o papel configurado como Destino) e pelo menos um campo de entrada (com o papel configurado como Entrada). O destino deve ser um campo contínuo (intervalo numérico), como idade ou renda. Os campos de entrada podem ser contínuos ou categóricos, com a limitação de que algumas entradas podem não ser apropriadas para alguns tipos de modelo. Por exemplo, os modelos de Árvore C&R podem utilizar campos de sequência de caracteres categóricos como entradas, ao passo que os modelos de regressão linear não podem utilizar esses campos e os ignorará, se especificado. Os requisitos são os mesmos que quando utilizar nós de modelagem individuais. Por exemplo, um modelo CHAID funciona da mesma forma, independentemente se gerado a partir do nó CHAID ou do nó Numeração Automática.
- Campos de frequência e peso
- A frequência e a ponderação são utilizadas para dar importância extra para alguns registros sobre outros porque, por exemplo, quando o usuário sabe que o conjunto de dados de construção sub-representa uma parte da população pai (Ponderação) ou porque um registro representa um número de casos idênticos (Frequência). Se especificado, um campo de frequência poderá ser utilizado pelos algoritmos Árvore C&R e CHAID. Um campo de ponderação pode ser utilizado pelos algoritmos C&RT, CHAID, Regressão e GenLin Outros tipos de modelo ignorarão esses campos e construirão os modelos de qualquer maneira. Os campos Frequência e Ponderação são utilizados apenas para construção de modelo e não são considerados ao avaliar ou escorar os modelos.
- Prefixos
- Se você anexar um nó de tabela ao nugget para o Nó Numeração Automática, haverá várias novas variáveis na tabela com nomes que começam com um prefixo $.
Tipos de modelos suportados
Os tipos de modelos compatíveis incluem Neural Net, C&R Tree, CHAID, Regression, GenLin, Nearest Neighbor, SVM, XGBoost Linear, GLE e XGBoost-AS.
Configurações de validação cruzada
Nas propriedades do nó, observe que as configurações de validação cruzada estão disponíveis. A validação cruzada é uma técnica valiosa para testar a eficácia (evitando overfitting) de modelos de aprendizado de máquina e também é um procedimento de reamostragem que você pode usar para avaliar um modelo se tiver dados limitados.
- Ordene o conjunto de dados aleatoriamente.
- Divida o conjunto de dados em k-folds/grupos.
- Para cada dobra/grupo exclusivo:
- Considere a dobra/grupo como uma base ou conjunto de dados de teste.
- Considere os grupos restantes como um conjunto de dados de treinamento.
- Ajuste um modelo no conjunto de treinamento e avalie-o no conjunto de teste.
- Retenha a pontuação da avaliação e descarte o modelo.
- Resuma a avaliação geral do modelo usando as pontuações de avaliação de k-fold retidos.
A validação cruzada é atualmente suportada por meio do nó de classificador automático e do nó de numeração automática. Dê um clique duplo em um nó para configurar suas propriedades. Ao selecionar a opção de validação cruzada, uma única partição de trem/teste é desativada e os nós automáticos usarão a validação cruzada k-fold para avaliar o conjunto selecionado de algoritmos diferentes.
É possível especificar o Número de dobras (K). O padrão é 5, com uma faixa de 3 a 10. Se desejar reter a amostragem repetível durante a validação cruzada, para ter medidas de avaliação final consistentes para modelos gerados em diferentes execuções, você pode selecionar a opção de atribuição de partição de Validação Cruzada Repetível. Você também pode configurar o valor semente aleatória para um valor específico para que o modelo resultante seja exatamente reproduzível. Ou clique em Gerar para sempre gerar a mesma sequência de valores aleatórios; nesse caso, a execução do nó sempre resulta no mesmo modelo gerado.
Aprendizado de máquina contínuo
Uma inconveniência com a modelagem é a desatualização dos modelos devido a mudanças em seus dados ao longo do tempo. Isso normalmente é referido como desvio do modelo ou desvio de conceito. Para ajudar a superar o desvio do modelo de forma efetiva, o SPSS Modeler fornece o aprendizado de máquina automatizado contínuo. Este recurso está disponível para nuggets de modelo de nó de classificador automático e nó de numeração automática. Para obter mais informações, consulte Aprendiz de máquina contínua.