Nó linear

A regressão linear é uma técnica estatística comum para classificar registros com base nos valores de campos de entrada numéricos. A regressão linear ajusta uma linha reta ou superfície que minimiza as discrepâncias entre os valores de saída preditos e reais.

Requisitos. Apenas os campos numéricos podem ser usados em um modelo de regressão linear Você deve ter exatamente um campo de destino (com a função configurada como Destino) e um ou mais preditores (com a função configurada como Entrada). Os campos com uma função Ambos ou Nenhum são ignorados, assim como campos não numéricos. (Se necessário, campos não numéricos podem ser recodificados usando um nó Derivar.)

Fortes. Modelos de regressão linear são relativamente simples e dão uma fórmula matemática facilmente interpretada para gerar predições. Como a regressão linear é um procedimento estatístico há muito estabelecido, as propriedades desses modelos são bem compreendidas. Os modelos lineares também são normalmente muito rápidos para treinar. O nó Linear fornece métodos para seleção automática de campo para eliminar campos de entrada não significativos da equação.

Dica: Nos casos em que o campo de destino é categórico em vez de um intervalo contínuo, como yes / no ou churn / não churn, a regressão logística pode ser usada como alternativa. A regressão logística também fornece suporte para entradas não numéricas, removendo a necessidade de recodificar esses campos
Nota: Quando primeiro criar um fluxo, você seleciona qual tempo de execução utilizar. Por padrão, os fluxos usam o tempo de execução IBM SPSS Modeler . Se desejar usar algoritmos nativos do Spark em vez de algoritmos SPSS , selecione o tempo de execução do Spark . As propriedades para esse nó variarão dependendo da opção de tempo de execução escolhida.