Home
topics
Cos'è la regressione logistica?
La regressione logistica stima la probabilità che si verifichi un evento, come ad esempio voto espresso o non espresso, sulla base di un determinato set di dati di variabili indipendenti.
Questo tipo di modello statistico (noto anche come modello logit) viene spesso utilizzato per la classificazione e gli analytics predittivi. Poiché il risultato è una probabilità, la variabile dipendente è delimitata tra 0 e 1. Nella regressione logistica viene applicata una trasformazione logit alle probabilità, ovvero la probabilità di successo divisa per la probabilità di fallimento. Ciò è anche comunemente noto come probabilità logaritmica, o logaritmo naturale delle probabilità, e questa funzione logistica è rappresentata dalle seguenti formule:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
In questa equazione di regressione logistica, logit(pi) è la variabile dipendente o risposta e x è la variabile indipendente. Il parametro beta, o coefficiente, in questo modello viene comunemente stimato tramite la stima di massima verosimiglianza (MLE, Maximum Likelihood Estimation). Questo metodo testa diversi valori di beta attraverso più iterazioni per ottimizzare il best fit della probabilità logaritmica. Tutte queste iterazioni producono la funzione di verosimiglianza logaritmica e la regressione logistica cerca di massimizzare questa funzione per trovare la migliore stima dei parametri. Una volta trovato il coefficiente ottimale (o coefficienti se vi sono più di una variabile indipendente), le probabilità condizionate per ciascuna osservazione possono essere calcolate, registrate e sommate insieme per generare una probabilità prevista. Per la classificazione binaria, una probabilità inferiore a 0,5 prevederà 0 mentre una probabilità maggiore di 0 prevederà 1. Dopo che il modello è stato calcolato, è best practice valutare la capacità del modello di prevedere la variabile dipendente, denominata bontà del fit. Il test di Hosmer-Lemeshow è un metodo popolare per valutare il fit del modello.
Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.
L'interpretazione della probabilità logaritmica in un'analisi dei dati di regressione logistica può essere difficile. Di conseguenza, l'esponenziale delle stime beta è comune per trasformare i risultati in un OR (Odds Ratio, o rapporto crociato), facilitando l'interpretazione dei risultati. L'OR rappresenta le probabilità che si verifichi un risultato in un determinato evento, rispetto alle probabilità che il risultato si verifichi in assenza di tale evento. Se l'OR è maggiore di 1, l'evento è associato a una maggiore probabilità di generare un risultato specifico. Al contrario, se l'OR è inferiore a 1, l'evento è associato a una minore probabilità di tale risultato. Sulla base dell'equazione di cui sopra, l'interpretazione di un OR può essere indicata come segue: le probabilità di successo cambiano di exp(cB_1) volte per ogni aumento di unità-c in x. Per utilizzare un esempio, diciamo che stiamo stimando le probabilità di sopravvivenza sul Titanic posto che la persona sia di sesso maschile e l'OR per le persone di sesso maschile sia pari a 0,0810. Interpreteremmo l'OR come se le probabilità di sopravvivenza dei maschi diminuissero di un fattore di 0,0810 rispetto alle femmine, mantenendo costanti tutte le altre variabili.
Sia la regressione lineare che quella logistica sono tra i modelli più popolari nell'ambito della data science, e gli strumenti open source, come Python e R, rendono il loro calcolo semplice e veloce.
I modelli di regressione lineare vengono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. Quando c'è solo una variabile indipendente e una variabile dipendente, si parla di regressione lineare semplice, ma all'aumentare del numero di variabili indipendenti, si parla di regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit attraverso una serie di punti dati, che in genere viene calcolata utilizzando il metodo dei minimi quadrati.
Simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, ma viene utilizzata per fare una previsione su una variabile categorica rispetto a una continua. Una variabile categorica può essere vera o falsa, sì o no, 1 o 0, eccetera. L'unità di misura differisce anche dalla regressione lineare poiché produce una probabilità, ma la funzione logit trasforma la curva S in linea retta.
Sebbene entrambi i modelli vengano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è in genere più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione più ampio e rappresentativo, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.
Esistono tre tipi di modelli di regressione logistica, definiti in base alla risposta categorica.
Nel machine learning, la regressione logistica appartiene alla famiglia di modelli di machine learning supervisionato. È anche considerato un modello discriminante, il che significa che cerca di distinguere tra le classi (o categorie). A differenza di un algoritmo generativo, come naïve bayes, non può, come il nome implica, generare informazioni, come un'immagine, della classe che sta cercando di prevedere (ad es. un'immagine di un gatto).
In precedenza, abbiamo detto che la regressione logistica massimizza la funzione di verosimiglianza logaritmica per determinare i coefficienti beta del modello. Questo cambia leggermente nel contesto del machine learning. Nel machine learning, la verosimiglianza logaritmica negativa viene utilizzata come funzione di perdita, utilizzando il processo di discesa del gradiente per trovare il massimo globale. Questo è solo un altro modo per arrivare alle stesse stime discusse in precedenza.
La regressione logistica può anche essere incline all'overfitting, in particolare quando all'interno del modello sono presenti un numero elevato di variabili predittive. La regolarizzazione viene generalmente utilizzata per penalizzare i parametri con coefficienti elevati quando il modello soffre di elevata dimensionalità.
Scikit-learn (link esterno a ibm.com) fornisce una preziosa documentazione per ottenere maggiori informazioni sul modello di machine learning di regressione logistica.
La regressione logistica viene comunemente utilizzata per problemi di previsione e classificazione. Alcuni di questi casi d'uso includono:
La regressione logistica binaria può aiutare le banche a valutare il rischio di credito. Scopri come puoi utilizzare un campione casuale per creare un modello di regressione logistica e classificare i clienti come rischi positivi o negativi.
First Tennessee Bank ha incrementato la redditività utilizzando gli analytics predittivi e la logistica con il software IBM SPSS e ha ottenuto aumenti fino al 600% nelle campagne di vendita incrociata. First Tennessee utilizza tecniche di analytics predittivi e analytics logistici all'interno di una soluzione di analytics per ottenere insight maggiori su tutti i suoi dati.
Fai un altro passo per iniziare a rendere operativa e a scalare l'AI generativa e l'apprendimento automatico per il business.
Promuovi il ROI (Return of Investment) con uno strumento di data science drag and drop.
Crea e addestra modelli AI e di machine learning, prepara e analizza i dati, il tutto in un ambiente hybrid cloud e flessibile.
Scopri come addestrare il tuo modello di regressione binaria personalizzato. Impara a generare probabilità, classificare esempi e comprendere la discesa del gradiente.
Crea un Jupyter Notebook contenente il codice Python per la definizione della regressione logistica, quindi utilizza TensorFlow per implementarlo.
I ricercatori IBM dimostrano che l'uso dello schema di crittografia omomorfica CKKS può addestrare simultaneamente un gran numero di modelli di regressione logistica.