Cos'è la regressione logistica?
Scopri in che modo la regressione logistica può contribuire a fare previsioni per migliorare il processo decisionale
Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.
Cos'è la regressione logistica?

Questo tipo di modello statistico (noto anche come modello logit) è spesso utilizzato per la classificazione e l'analytics predittiva. La regressione logistica stima la probabilità del verificarsi di un evento, come ad esempio voto espresso o non espresso, sulla base di uno specifico dataset di variabili indipendenti. Poiché il risultato è una probabilità, la variabile dipendente è vincolata tra 0 e 1. Nella regressione logistica, viene applicata una trasformazione logit sulle probabilità - ossia la probabilità di successo divisa per la probabilità di fallimento. Ciò è anche comunemente noto come probabilità logaritmica, o logaritmo naturale delle probabilità, e questa funzione logistica è rappresentata dalle seguenti formule:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

In questa equazione di regressione logistica, logit(pi) è la variabile dipendente o di risposta e x è la variabile indipendente. Il parametro beta, o coefficiente, in questo modello è comunemente stimato servendosi della stima di massima verosimiglianza (MLE, maximum likelihood estimation). Questo metodo testa diversi valori di beta mediante molteplici iterazioni per eseguire un ottimizzazione per il best fit della probabilità logaritmica. Tutte queste iterazioni producono la funzione di verosimiglianza logaritmica e la regressione logistica cerca di massimizzare questa funzione per trovare la migliore stima dei parametri. Una volta trovato il coefficiente ottimale (o i coefficienti, se c'è più di una variabile indipendente), le probabilità condizionate per ogni osservazione possono essere calcolate, registrate e sommate insieme per produrre una probabilità prevista. Per una classificazione binaria, una probabilità minore di 0,5 prevederà 0 mentre una probabilità maggiore di 0 prevederà 1.  Dopo che il modello è stato calcolato, è best practice valutare quanto validamente il modello prevede la variabile dipendente, la cosiddetta bontà del fit. Il test Hosmer–Lemeshow è un metodo diffuso per valutare il fit del modello.

Interpretazione della regressione logistica

 

L'interpretazione delle probabilità logaritmica in un'analisi dei dati di regressione logistica può essere difficile. Di conseguenza, l'esponenziazione delle stime beta è comune per trasformare i risultati un OR (odds ratio, o rapporto crociato), facilitando l'interpretazione dei risultati. L'OR rappresenta le probabilità del verificarsi di un risultato dato uno specifico evento, rispetto alle probabilità del verificarsi del risultato in assenza di tale evento. Se l'OR è maggiore di 1, l'evento è associato a una probabilità più elevata di generare uno specifico risultato. Viceversa, se l'OR è minore di 1, l'evento è associato a una probabilità più bassa del verificarsi di tale risultato. In base all'equazione di cui sopra, l' interpretazione di un OR può essere denotata nel seguente modo: le probabilità di un successo varia di exp(cB_1) volte per ogni aumento di unità-c in x. Per utilizzare un esempio, diciamo che stiamo stimando le probabilità di sopravvivenza sul Titanic posto che la persona sia di sesso maschile e l'OR per i le persone di sesso maschile sia pari a 0,0810. Interpreteremmo l'OR come le probabilità di sopravvivenza delle persone di sesso maschile ridotta del fattore di 0,0810 se confrontato con le persone di sesso femminile, mantenendo costanti tutte le altre variabili.

 

 

Leggi il white paper (776 KB)
Confronto tra regressione lineare e regressione logistica

Sia la regressione lineare che quella logistica sono tra i modelli più diffusi nella data science, e strumenti open-source come Pyton ed R rendono il loro calcolo rapido e facile.

I modelli di regressione lineare sono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. La presenza di una sola variabile indipendente e una sola variabile dipendente è nota come regressione lineare semplice ma, quando il numero di variabili indipendenti aumenta, viene indicata come regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit mediante un insieme di punti dati, di norma calcolato utilizzando il metodo dei minimi quadrati.

Simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, ma viene utilizzata per fare una previsione circa una variabile categoriale rispetto a una continua. Una variabile categoriale può essere true o false, sì o no, 1 o 0 eccetera. Anche l'unità di misura è diversa rispetto alla regressione lineare poiché produce una probabilità ma la funzione logit trasforma la curva S in una linea dritta.  

Sebbene entrambi i modelli siano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è di solito più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione rappresentativo più grande, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.

Tipi di regressione logistica

Esistono tre tipi di modelli di regressione logistica, definiti in base alla risposta categoriale.

  • Regressione logistica binaria: In questa strategia, la variabile di risposta o dipendente è di natura dicotomica, ossia ha solo due possibili risultati (ad es. 0 o 1). Alcuni esempi diffusi del suo utilizzo includono la previsione che una e-mail sia posta indesiderata o meno o che un tumore sia maligno o meno. Nell'ambito della regressione logistica, questo è l'approccio utilizzato più comunemente e, più genericamente, è uno dei classificatori più comuni per la classificazione binaria.
  • Regressione logistica multinomiale: in questo tipo di modello di regressione logistica, la variabile dipendente ha tre o più possibili risultati; tuttavia, questi valori non hanno alcun ordine specifico.  Ad esempio, uno studio cinematografico desidera prevedere che genere di film è probabile che andrà a vedere uno spettatore in modo da commercializzare i film in modo più efficace. Un modello di regressione logistica multinomiale può aiutare lo studio a determinare la portata dell'influenza che età, sesso e stato relazionale di una persona posso avere sul tipo di film che preferisce. Lo studio può quindi orientare una campagna pubblicitaria di uno specifico film verso un gruppo di persone che è probabile che vadano a vederlo.
  • Regressione logistica ordinale: questo tipo di modello di regressione logistica viene sfruttato quando il variabile di risposta ha tre o più risultati possibili ma, in questo caso, questi valori hanno un ordine definito. Degli esempi di risposte ordinali includono scale di valutazione da A a F o scale di valutazione da 1 a 5. 
Un sguardo nella mente di un data scientist (776 KB)
regressione logistica e machine learning

Nel machine learning, la regressione logistica appartiene alla famiglia di modelli di machine learning supervisionato. È anche considerato un modello discriminante, il che significa che prova a distinguere tra classi (o categorie). A differenza di un algoritmo generativo, come naïve bayes, non può, come il nome implica, generare informazioni, come ad esempio un'immagine, della classe che sta provando a prevedere (ad es. un'immagine di un gatto).

In precedenza, abbiamo accennato a come la regressione logistica massimizza la funzione di verosimiglianza logaritmica per determinare i coefficienti beta del modello. Questo cambia leggermente nel contesto del machine learning. Nel machine learning, la verosimiglianza logaritmica negativa viene utilizzata come funzione di perdita, utilizzando il processo di discesa del gradiente per trovare il massimo globale. Questo è solo un altro modo per arrivare alle stesse stime discusse sopra.

La regressione logistica può anche esse incline all'overfitting (o sovradattamento), in particolare quando è presente un numero elevato di variabili predittive nel modello. La regolarizzazione viene di solito utilizzata per penalizzare i coefficienti con ampi numeri di parametri quando il modello soffre di un'elevata dimensionalità.

Scikit-learn (link esterno a IBM) fornisce una preziosa documentazione per saperne di più sul modello di machine learning di regressione logistica.

Casi di utilizzo della regressione logistica

La regressione logistica è comunemente utilizzata per problemi di previsione e  classificazione. Alcuni di questi casi d'uso includono:

  • Rilevamento delle frodi: i modelli di regressione logistica possono aiutare i team a identificare anomalie nei dati, che sono segnali di possibili frodi. Determinati comportamenti o caratteristiche possono avere un'associazione più elevata alle attività fraudolente, il che è particolarmente utile per le istituzioni bancarie e finanziarie di altro tipo nella protezione dei loro clienti. Anche le aziende basate su SaaS hanno iniziato ad adottare queste prassi per eliminare i falsi account utente dai loro dataset quando conducono analisi dei dati sulle prestazioni di business.
  • Previsione delle malattie: in medicina, questo approccio di analytics può essere utilizzato per prevedere la probabilità di patologie o malattie per una specifica popolazione. Le organizzazioni sanitarie possono approntare delle cure preventive per le persone che mostrano una maggiore propensione per specifiche patologie.
  • Previsione dell'abbandono: specifici comportamenti possono essere indicativi di abbandono in diverse funzioni di un'organizzazione. Ad esempio, i team delle risorse umane e di gestione potrebbero voler sapere se ci sono dipendenti con alto rendimento nell'azienda che sono a rischio di lasciare l'organizzazione; questo tipo di insight può indurre delle conversazioni per comprendere le aree problematiche all'interno dell'azienda, quali la cultura e la retribuzione. In alternativa, l'organizzazione di vendita potrebbe voler sapere quali dei suoi clienti sono a rischio di portare altrove il loro business. Ciò può indurre i team ad approntare una strategia di fidelizzazione per evitare una perdita di fatturato.
Esempi di successo della regressione logistica Valuta il rischio di credito

La regressione logistica binaria può aiutare i banchieri a valutare il rischio di credito. Immagina di essere un responsabile dei prestiti presso una banca e che desideri identificare le caratteristiche delle persone che saranno probabilmente insolventi sui prestiti. Desideri utilizzare tali caratteristiche per identificare i rischi di credito alti e bassi. Disponi di dati su 850 clienti. I primi 700 sono clienti che hanno già ricevuto dei prestiti. Scopri come puoi utilizzare un campione casuale di questi 700 clienti per creare un modello di regressione logistica e classificare i 150 clienti restanti come a basso rischio o ad alto rischio.

Aumenta i profitti nel settore bancario

First Tennessee Bank ha incrementato la redditività con il software IBM SPSS e ha realizzato aumenti fino al 600% in campagne di vendita incrociata. I dirigenti presso questa banca regionale negli Stati Uniti desideravano approcciare i clienti giusti con i prodotti e i servizi giusti. I dati a sostegno non mancano certo, ma è stata una sfida colmare il divario che intercorre tra il disporre dei dati e l'agire. First Tennessee sta utilizzando le tecniche di analytics predittiva e analytics logistica in una soluzione di analytics per ottenere un insight maggiore di tutti i suoi dati. Di conseguenza, il processo decisionale viene migliorato per ottimizzare le interazioni dei clienti. (1 MB)

Soluzioni correlate
IBM SPSS Advanced Statistics

Raggiungi delle conclusioni più accurate quando analizzi relazioni complesse utilizzando tecniche di modellazione univariata e multivariata.

Esplora SPSS Advanced Statistics
IBM SPSS Modeler

Promuovi il ROI (return on investment) con uno strumento di data science a trascinamento e rilascio.

Esplora SPSS Modeler
IBM SPSS Regression

Prevedi i risultati categoriali e applica un'ampia gamma di procedure di regressione non lineare.

Esplora SPSS Regression
IBM Watson Studio

Crea e addestra modelli di AI e machine learning, prepara e analizza i dati – tutto in un ambiente cloud ibrido e flessibile.

Esplora Watson Studio
IBM Watson Discovery

Ottieni un modo intelligente e semplice per l'estrazione mediante mining e l'esplorazione di tutti i tuoi dati non strutturati con l'esplorazione cognitiva, una potente analytics testuale e funzionalità di machine learning.

Esplora Watson Discovery
Risorse Versione di prova gratuita di 14 giorni di IBM SPSS Statistics Demo di analisi statistica di IBM SPSS Statistics Scopri di più su IBM Watson Studio Local