Questo tipo di modello statistico (noto anche come modello logit) è spesso utilizzato per la classificazione e l'analytics predittiva. La regressione logistica stima la probabilità del verificarsi di un evento, come ad esempio voto espresso o non espresso, sulla base di uno specifico dataset di variabili indipendenti. Poiché il risultato è una probabilità, la variabile dipendente è vincolata tra 0 e 1. Nella regressione logistica, viene applicata una trasformazione logit sulle probabilità - ossia la probabilità di successo divisa per la probabilità di fallimento. Ciò è anche comunemente noto come probabilità logaritmica, o logaritmo naturale delle probabilità, e questa funzione logistica è rappresentata dalle seguenti formule:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
In questa equazione di regressione logistica, logit(pi) è la variabile dipendente o di risposta e x è la variabile indipendente. Il parametro beta, o coefficiente, in questo modello è comunemente stimato servendosi della stima di massima verosimiglianza (MLE, maximum likelihood estimation). Questo metodo testa diversi valori di beta mediante molteplici iterazioni per eseguire un ottimizzazione per il best fit della probabilità logaritmica. Tutte queste iterazioni producono la funzione di verosimiglianza logaritmica e la regressione logistica cerca di massimizzare questa funzione per trovare la migliore stima dei parametri. Una volta trovato il coefficiente ottimale (o i coefficienti, se c'è più di una variabile indipendente), le probabilità condizionate per ogni osservazione possono essere calcolate, registrate e sommate insieme per produrre una probabilità prevista. Per una classificazione binaria, una probabilità minore di 0,5 prevederà 0 mentre una probabilità maggiore di 0 prevederà 1. Dopo che il modello è stato calcolato, è best practice valutare quanto validamente il modello prevede la variabile dipendente, la cosiddetta bontà del fit. Il test Hosmer–Lemeshow è un metodo diffuso per valutare il fit del modello.
L'interpretazione delle probabilità logaritmica in un'analisi dei dati di regressione logistica può essere difficile. Di conseguenza, l'esponenziazione delle stime beta è comune per trasformare i risultati un OR (odds ratio, o rapporto crociato), facilitando l'interpretazione dei risultati. L'OR rappresenta le probabilità del verificarsi di un risultato dato uno specifico evento, rispetto alle probabilità del verificarsi del risultato in assenza di tale evento. Se l'OR è maggiore di 1, l'evento è associato a una probabilità più elevata di generare uno specifico risultato. Viceversa, se l'OR è minore di 1, l'evento è associato a una probabilità più bassa del verificarsi di tale risultato. In base all'equazione di cui sopra, l' interpretazione di un OR può essere denotata nel seguente modo: le probabilità di un successo varia di exp(cB_1) volte per ogni aumento di unità-c in x. Per utilizzare un esempio, diciamo che stiamo stimando le probabilità di sopravvivenza sul Titanic posto che la persona sia di sesso maschile e l'OR per i le persone di sesso maschile sia pari a 0,0810. Interpreteremmo l'OR come le probabilità di sopravvivenza delle persone di sesso maschile ridotta del fattore di 0,0810 se confrontato con le persone di sesso femminile, mantenendo costanti tutte le altre variabili.
Sia la regressione lineare che quella logistica sono tra i modelli più diffusi nella data science, e strumenti open-source come Pyton ed R rendono il loro calcolo rapido e facile.
I modelli di regressione lineare sono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. La presenza di una sola variabile indipendente e una sola variabile dipendente è nota come regressione lineare semplice ma, quando il numero di variabili indipendenti aumenta, viene indicata come regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit mediante un insieme di punti dati, di norma calcolato utilizzando il metodo dei minimi quadrati.
Simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, ma viene utilizzata per fare una previsione circa una variabile categoriale rispetto a una continua. Una variabile categoriale può essere true o false, sì o no, 1 o 0 eccetera. Anche l'unità di misura è diversa rispetto alla regressione lineare poiché produce una probabilità ma la funzione logit trasforma la curva S in una linea dritta.
Sebbene entrambi i modelli siano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è di solito più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione rappresentativo più grande, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.
Esistono tre tipi di modelli di regressione logistica, definiti in base alla risposta categoriale.
Nel machine learning, la regressione logistica appartiene alla famiglia di modelli di machine learning supervisionato. È anche considerato un modello discriminante, il che significa che prova a distinguere tra classi (o categorie). A differenza di un algoritmo generativo, come naïve bayes, non può, come il nome implica, generare informazioni, come ad esempio un'immagine, della classe che sta provando a prevedere (ad es. un'immagine di un gatto).
In precedenza, abbiamo accennato a come la regressione logistica massimizza la funzione di verosimiglianza logaritmica per determinare i coefficienti beta del modello. Questo cambia leggermente nel contesto del machine learning. Nel machine learning, la verosimiglianza logaritmica negativa viene utilizzata come funzione di perdita, utilizzando il processo di discesa del gradiente per trovare il massimo globale. Questo è solo un altro modo per arrivare alle stesse stime discusse sopra.
La regressione logistica può anche esse incline all'overfitting (o sovradattamento), in particolare quando è presente un numero elevato di variabili predittive nel modello. La regolarizzazione viene di solito utilizzata per penalizzare i coefficienti con ampi numeri di parametri quando il modello soffre di un'elevata dimensionalità.
Scikit-learn (link esterno a IBM) fornisce una preziosa documentazione per saperne di più sul modello di machine learning di regressione logistica.
La regressione logistica è comunemente utilizzata per problemi di previsione e classificazione. Alcuni di questi casi d'uso includono:
La regressione logistica binaria può aiutare i banchieri a valutare il rischio di credito. Immagina di essere un responsabile dei prestiti presso una banca e che desideri identificare le caratteristiche delle persone che saranno probabilmente insolventi sui prestiti. Desideri utilizzare tali caratteristiche per identificare i rischi di credito alti e bassi. Disponi di dati su 850 clienti. I primi 700 sono clienti che hanno già ricevuto dei prestiti. Scopri come puoi utilizzare un campione casuale di questi 700 clienti per creare un modello di regressione logistica e classificare i 150 clienti restanti come a basso rischio o ad alto rischio.
First Tennessee Bank ha incrementato la redditività con il software IBM SPSS e ha realizzato aumenti fino al 600% in campagne di vendita incrociata. I dirigenti presso questa banca regionale negli Stati Uniti desideravano approcciare i clienti giusti con i prodotti e i servizi giusti. I dati a sostegno non mancano certo, ma è stata una sfida colmare il divario che intercorre tra il disporre dei dati e l'agire. First Tennessee sta utilizzando le tecniche di analytics predittiva e analytics logistica in una soluzione di analytics per ottenere un insight maggiore di tutti i suoi dati. Di conseguenza, il processo decisionale viene migliorato per ottimizzare le interazioni dei clienti. (1 MB)
Raggiungi delle conclusioni più accurate quando analizzi relazioni complesse utilizzando tecniche di modellazione univariata e multivariata.
Promuovi il ROI (return on investment) con uno strumento di data science a trascinamento e rilascio.
Prevedi i risultati categoriali e applica un'ampia gamma di procedure di regressione non lineare.
Crea e addestra modelli di AI e machine learning, prepara e analizza i dati – tutto in un ambiente cloud ibrido e flessibile.
Ottieni un modo intelligente e semplice per l'estrazione mediante mining e l'esplorazione di tutti i tuoi dati non strutturati con l'esplorazione cognitiva, una potente analytics testuale e funzionalità di machine learning.