Nó Linear

Regressão linear é uma técnica estatística comum para classificar registros com base nos valores de campos de entrada numéricos. A regressão linear se ajusta a uma linha reta ou superfície que minimiza as discrepâncias entre os valores de saída preditos e reais.

Requisitos. Apenas campos numéricos podem ser utilizados em um modelo de regressão linear. Deve-se ter exatamente um campo de destino (com a função configurada como Destino) e um ou mais preditores (com a função configurada como Entrada). Os campos com função Ambos ou Nenhum são ignorados, pois são campos não numéricos. (Se necessário, campos não numéricos podem ser recodificaos utilizando um nó Derivar).

Pontos fortes. Os modelos de regressão linear são relativamente simples e fornecem uma fórmula matemática facilmente interpretada para gerar predições. Como a regressão linear é um procedimento estatístico consagrado, as propriedades desses modelos são bem entendidas. Em geral, os modelos lineares também são muito rápidos para treinar. O nó Linear fornece métodos para seleção automática de campo para eliminar campos de entrada não significativos da equação.

Dica: nos casos em que o campo alvo é categórico em vez de um intervalo contínuo, como sim/não ou rotatividade/sem rotatividade, a regressão logística pode ser usada como alternativa. A regressão logística também fornece suporte para entradas não numéricas, removendo a necessidade de recodificação destes campos.

Observação: ao criar um fluxo pela primeira vez, você seleciona qual tempo de execução usar. Por padrão, os fluxos usam o tempo de execução do IBM SPSS Modeler. Se você quiser usar algoritmos nativos Spark em vez de algoritmos SPSS, selecione o tempo de execução Spark. As propriedades para este nó irão variar dependendo da opção de tempo de execução que você escolher.