Tanto a regressão linear quanto a regressão logística estão entre os modelos mais populares da ciência de dados, e ferramentas de código aberto, como o Python e R, tornam o cálculo para elas rápido e fácil.
Modelos de regressão linear são utilizados para identificar a relação entre uma variável dependente contínua e uma ou mais variáveis independentes. Quando há apenas uma variável independente e uma variável dependente, é conhecida como regressão linear simples, mas à medida que o número de variáveis independentes aumenta, é chamada de regressão linear múltipla. Para cada tipo de regressão linear, procura plotar uma linha de melhor ajuste por meio de um conjunto de pontos de dados, que normalmente é calculado usando o método dos mínimos quadrados.
Semelhante à regressão linear, a regressão logística também é usada para estimar a relação entre uma variável dependente e uma ou mais variáveis independentes, mas é usada para fazer uma previsão sobre uma variável categórica versus uma variável contínua. Uma variável categórica pode ser verdadeira ou falsa, sim ou não, 1 ou 0 etc. A unidade de medida também difere da regressão linear porque produz uma probabilidade, mas a função logit transforma a curva S em uma linha reta.
Embora ambos os modelos sejam usados na análise de regressão para fazer previsões sobre resultados futuros, a regressão linear normalmente é mais fácil de entender. A regressão linear também não requer um tamanho de amostra tão grande quanto a regressão logística precisa de uma amostra adequada para representar valores em todas as categorias de resposta. Sem uma amostra maior e representativa, o modelo pode não ter poder estatístico suficiente para detectar um efeito significativo.