Sia la regressione lineare che quella logistica sono tra i modelli più popolari nell'ambito della data science, e gli strumenti open source, come Python e R, rendono il loro calcolo semplice e veloce.
I modelli di regressione lineare vengono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. Quando c'è solo una variabile indipendente e una variabile dipendente, si parla di regressione lineare semplice, ma all'aumentare del numero di variabili indipendenti, si parla di regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit attraverso una serie di punti dati, che in genere viene calcolata utilizzando il metodo dei minimi quadrati.
Simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, ma viene utilizzata per fare una previsione su una variabile categorica rispetto a una continua. Una variabile categorica può essere vera o falsa, sì o no, 1 o 0, eccetera. L'unità di misura differisce anche dalla regressione lineare poiché produce una probabilità, ma la funzione logit trasforma la curva S in linea retta.
Sebbene entrambi i modelli vengano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è in genere più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione più ampio e rappresentativo, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.