Cos'è la regressione logistica?
Applica la regressione logistica con watsonx.ai Abbonati per ricevere gli aggiornamenti sull'AI
Illustrazione che mostra l'analisi dei dati e i processi decisionali nella regressione logistica per fare previsioni migliori
Cos'è la regressione logistica?

La regressione logistica stima la probabilità che si verifichi un evento, come ad esempio voto espresso o non espresso, sulla base di un determinato set di dati di variabili indipendenti.

Questo tipo di modello statistico (noto anche come modello logit) viene spesso utilizzato per la classificazione e gli analytics predittivi. Poiché il risultato è una probabilità, la variabile dipendente è delimitata tra 0 e 1. Nella regressione logistica viene applicata una trasformazione logit alle probabilità, ovvero la probabilità di successo divisa per la probabilità di fallimento. Ciò è anche comunemente noto come probabilità logaritmica, o logaritmo naturale delle probabilità, e questa funzione logistica è rappresentata dalle seguenti formule: 

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

In questa equazione di regressione logistica, logit(pi) è la variabile dipendente o risposta e x è la variabile indipendente. Il parametro beta, o coefficiente, in questo modello viene comunemente stimato tramite la stima di massima verosimiglianza (MLE, Maximum Likelihood Estimation). Questo metodo testa diversi valori di beta attraverso più iterazioni per ottimizzare il best fit della probabilità logaritmica. Tutte queste iterazioni producono la funzione di verosimiglianza logaritmica e la regressione logistica cerca di massimizzare questa funzione per trovare la migliore stima dei parametri. Una volta trovato il coefficiente ottimale (o coefficienti se vi sono più di una variabile indipendente), le probabilità condizionate per ciascuna osservazione possono essere calcolate, registrate e sommate insieme per generare una probabilità prevista. Per la classificazione binaria, una probabilità inferiore a 0,5 prevederà 0 mentre una probabilità maggiore di 0 prevederà 1.  Dopo che il modello è stato calcolato, è best practice valutare la capacità del modello di prevedere la variabile dipendente, denominata bontà del fit. Il test di Hosmer-Lemeshow è un metodo popolare per valutare il fit del modello.

Perché la governance dell'AI è un imperativo aziendale per scalare l'AI aziendale

Scopri gli ostacoli all'adozione dell'AI, in particolare la mancanza di soluzioni di governance e gestione del rischio dell'AI.

Contenuti correlati

Registrati per ricevere l'ebook su Presto

Interpretazione della regressione logistica

 

L'interpretazione della probabilità logaritmica in un'analisi dei dati di regressione logistica può essere difficile. Di conseguenza, l'esponenziale delle stime beta è comune per trasformare i risultati in un OR (Odds Ratio, o rapporto crociato), facilitando l'interpretazione dei risultati. L'OR rappresenta le probabilità che si verifichi un risultato in un determinato evento, rispetto alle probabilità che il risultato si verifichi in assenza di tale evento. Se l'OR è maggiore di 1, l'evento è associato a una maggiore probabilità di generare un risultato specifico. Al contrario, se l'OR è inferiore a 1, l'evento è associato a una minore probabilità di tale risultato. Sulla base dell'equazione di cui sopra, l'interpretazione di un OR può essere indicata come segue: le probabilità di successo cambiano di exp(cB_1) volte per ogni aumento di unità-c in x. Per utilizzare un esempio, diciamo che stiamo stimando le probabilità di sopravvivenza sul Titanic posto che la persona sia di sesso maschile e l'OR per le persone di sesso maschile sia pari a 0,0810. Interpreteremmo l'OR come se le probabilità di sopravvivenza dei maschi diminuissero di un fattore di 0,0810 rispetto alle femmine, mantenendo costanti tutte le altre variabili.

 

 

Leggi il white paper
Regressione lineare e regressione logistica

Sia la regressione lineare che quella logistica sono tra i modelli più popolari nell'ambito della data science, e gli strumenti open source, come Python e R, rendono il loro calcolo semplice e veloce.

I modelli di regressione lineare vengono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. Quando c'è solo una variabile indipendente e una variabile dipendente, si parla di regressione lineare semplice, ma all'aumentare del numero di variabili indipendenti, si parla di regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit attraverso una serie di punti dati, che in genere viene calcolata utilizzando il metodo dei minimi quadrati.

Simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, ma viene utilizzata per fare una previsione su una variabile categorica rispetto a una continua. Una variabile categorica può essere vera o falsa, sì o no, 1 o 0, eccetera. L'unità di misura differisce anche dalla regressione lineare poiché produce una probabilità, ma la funzione logit trasforma la curva S in linea retta.  

Sebbene entrambi i modelli vengano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è in genere più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione più ampio e rappresentativo, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.

Tipi di regressione logistica

Esistono tre tipi di modelli di regressione logistica, definiti in base alla risposta categorica.

  • Regressione logistica binaria: in questo approccio, la risposta o variabile dipendente è di natura dicotomica, cioè ha solo due possibili esiti (ad es. 0 o 1). Alcuni esempi popolari del suo utilizzo includono la previsione se un'e-mail è spam o non spam o se un tumore è maligno o non maligno. Nell'ambito della regressione logistica, questo è l'approccio più utilizzato e, più in generale, è uno dei classificatori più comuni per la classificazione binaria.
  • Regressione logistica multinomiale: in questo tipo di modello di regressione logistica, la variabile dipendente ha tre o più risultati possibili; tuttavia, questi valori non hanno un ordine specificato.  Ad esempio, gli studi cinematografici vogliono prevedere quale genere di film è probabile che uno spettatore veda per commercializzare i film in modo più efficace. Un modello di regressione logistica multinomiale può aiutare lo studio a determinare la forza dell'influenza che l'età, il sesso e lo stato relazionale di una persona possono avere sul tipo di film che preferisce. Lo studio può quindi orientare una campagna pubblicitaria di un film specifico verso un gruppo di persone che probabilmente andranno a vederlo.
  • Regressione logistica ordinale: questo tipo di modello di regressione logistica viene utilizzato quando la variabile di risposta ha tre o più risultati possibili, ma in questo caso questi valori hanno un ordine definito. Esempi di risposte ordinali includono scale di valutazione da A a F o scale di valutazione da 1 a 5. 
Uno sguardo all'interno della mente di un data scientist
Regressione logistica e machine learning

Nel machine learning, la regressione logistica appartiene alla famiglia di modelli di machine learning supervisionato. È anche considerato un modello discriminante, il che significa che cerca di distinguere tra le classi (o categorie). A differenza di un algoritmo generativo, come naïve bayes, non può, come il nome implica, generare informazioni, come un'immagine, della classe che sta cercando di prevedere (ad es. un'immagine di un gatto).

In precedenza, abbiamo detto che la regressione logistica massimizza la funzione di verosimiglianza logaritmica per determinare i coefficienti beta del modello. Questo cambia leggermente nel contesto del machine learning. Nel machine learning, la verosimiglianza logaritmica negativa viene utilizzata come funzione di perdita, utilizzando il processo di discesa del gradiente per trovare il massimo globale. Questo è solo un altro modo per arrivare alle stesse stime discusse in precedenza.

La regressione logistica può anche essere incline all'overfitting, in particolare quando all'interno del modello sono presenti un numero elevato di variabili predittive. La regolarizzazione viene generalmente utilizzata per penalizzare i parametri con coefficienti elevati quando il modello soffre di elevata dimensionalità.

Scikit-learn (link esterno a ibm.com) fornisce una preziosa documentazione per ottenere maggiori informazioni sul modello di machine learning di regressione logistica.

Casi d'uso di regressione logistica

La regressione logistica viene comunemente utilizzata per problemi di previsione e classificazione. Alcuni di questi casi d'uso includono:

  • Rilevamento delle frodi: i modelli di regressione logistica possono aiutare i team a identificare le anomalie dei dati, che sono predittive di frode. Alcuni comportamenti o caratteristiche possono avere una maggiore associazione con le attività fraudolente, il che è particolarmente utile alle istituzioni bancarie e finanziarie per proteggere i loro clienti. Anche le aziende basate su SaaS hanno iniziato ad adottare queste pratiche per eliminare i falsi account utente dai loro set di dati quando conducono analisi di dati sulle prestazioni aziendali.
  • Previsione delle malattie: in medicina, questo approccio di analytics può essere utilizzato per prevedere la probabilità di patologie o malattie per una determinata popolazione. Le organizzazioni sanitarie possono impostare cure preventive per le persone che mostrano una maggiore propensione per malattie specifiche.
  • Previsione dell'abbandono: comportamenti specifici possono essere indicativi di abbandono in diverse funzioni di un'organizzazione. Ad esempio, i team delle risorse umane e di gestione potrebbero voler sapere se ci sono dipendenti con alto rendimento nell'azienda che sono a rischio di lasciare l'organizzazione; questo tipo di insight può indurre delle conversazioni per comprendere le aree problematiche all'interno dell'azienda, quali la cultura e la retribuzione. In alternativa, l'organizzazione di vendita potrebbe voler sapere quali dei loro clienti sono a rischio di portare la loro attività altrove. Ciò può spingere i team a impostare una strategia di fidelizzazione per evitare perdite di fatturato.
Esempi di esito positivo della regressione logistica Valuta il rischio di credito

La regressione logistica binaria può aiutare le banche a valutare il rischio di credito. Scopri come puoi utilizzare un campione casuale per creare un modello di regressione logistica e classificare i clienti come rischi positivi o negativi.

Aumenta i profitti nel settore bancario

First Tennessee Bank ha incrementato la redditività utilizzando gli analytics predittivi e la logistica con il software IBM SPSS e ha ottenuto aumenti fino al 600% nelle campagne di vendita incrociata. First Tennessee utilizza tecniche di analytics predittivi e analytics logistici all'interno di una soluzione di analytics per ottenere insight maggiori su tutti i suoi dati.

Soluzioni correlate
watsonx.ai

Fai un altro passo per iniziare a rendere operativa e a scalare l'AI generativa e l'apprendimento automatico per il business.

Esplora watsonx.ai
IBM SPSS Modeler

Promuovi il ROI (Return of Investment) con uno strumento di data science drag and drop.

Esplora SPSS Modeler
IBM Watson Studio

Crea e addestra modelli AI e di machine learning, prepara e analizza i dati, il tutto in un ambiente hybrid cloud e flessibile.

Esplora Watson Studio
Risorse correlate Implementazione della regressione logistica da zero in Python

Scopri come addestrare il tuo modello di regressione binaria personalizzato. Impara a generare probabilità, classificare esempi e comprendere la discesa del gradiente.

Esegui la regressione logistica utilizzando TensorFlow

Crea un Jupyter Notebook contenente il codice Python per la definizione della regressione logistica, quindi utilizza TensorFlow per implementarlo.

Addestramento omomorfico di 30.000 modelli di regressione logistica

I ricercatori IBM dimostrano che l'uso dello schema di crittografia omomorfica CKKS può addestrare simultaneamente un gran numero di modelli di regressione logistica.

Fai il passo successivo

Sviluppa una strategia di AI per la tua azienda su un'unica piattaforma collaborativa di AI e dati, IBM watsonx, dove potrai addestrare, convalidare, adattare e distribuire modelli di AI per aiutare a scalare e accelerare l'impatto dell'AI con dati affidabili in tutta l'azienda.

Scopri watsonx Prenota una demo live