Regressione logistica

Prevedi i risultati e prendi decisioni migliori

Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.

Cos'è la regressione logistica?

Questo tipo di analisi statistica (noto anche come modello logit) viene spesso utilizzato per l'analytics e la modellazione predittivi e si estende ad applicazioni nel machine learning. In questo approccio di analytics, la variabile dipendente è finita o categoriale, A o B (regressione binaria), o una gamma di opzioni finite A, B, C o D (regressione multinomiale). Viene utilizzato nei software statistico per comprendere la relazione tra la variabile dipendente e una o più variabili indipendenti stimando le probabilità servendosi di un'equazione di regressione logistica. 

Questo tipo di analisi può aiutarti a prevedere la probabilità che si verifichi un evento o che venga fatta una scelta. Ad esempio, potresti voler conoscere la probabilità che un visitatore scelga un'offerta presentata sul tuo sito web - oppure no (variabile dipendente). La tua analisi può guardare alle caratteristiche note dei visitatori, come ad esempio i siti da cui provengono, le visite ripetute al tuo sito e il comportamento sul tuo sito (variabili indipendenti). I modelli di regressione logistica ti aiutano a determinare la probabilità che un tipo di visitatori potrebbe accettare l'offerta - o meno. Di conseguenza, puoi prendere decisioni migliori in merito alla promozione della tua offerta o prendere decisioni che riguardano l'offerta stessa.


Machine learning e modelli predittivi

Il machine learning utilizza dei concetti statistici per consentire alle macchine (computer) di "apprendere" senza una programmazione esplicita. Un approccio logistico si adatta meglio quando l'attività che la macchina sta apprendendo è basata su due valori, o una classificazione binaria. Usando l'esempio precedente, il tuo computer potrebbe utilizzare questo tipo di analisi per prendere decisioni sulla promozione della tua offerta ed eseguire azioni in totale autonomia. Inoltre, man mano che aumenta la quantità di dati forniti, potrebbe nel corso del tempo apprendere come svolgere meglio tali operazioni.

Alcuni tipi di modelli predittivi che utilizzano l'analisi logistica:

  • Modello lineare generalizzato
  • Scelta discreta
  • Logit multinomiale
  • Logit misto
  • Probit
  • Probit multinomiale
  • Logit ordinato

Perché è importante la regressione logistica

I modelli predittivi creati utilizzando questo approccio possono fare una differenza positiva nella tua azienda o nella tua organizzazione. Poiché questi modelli di aiutano a comprendere le relazioni e a prevedere i risultati, puoi agire per migliorare il processo decisionale. Ad esempio, il team di analytics di un produttore può utilizzare l'analisi di regressione logistica come parte di un pacchetto software di statistica per scoprire una probabilità tra i malfunzionamenti di parti nelle macchine e l'arco di tempo per cui queste parti sono tenute in inventario. Con le informazioni che riceve da questa analisi, il team può decidere di modificare le pianificazioni di consegna o i tempi di installazione per eliminare futuri malfunzionamenti.

In medicina, questo approccio di analytics può essere utilizzato per prevedere la probabilità di una malattia per una specifica popolazione, il che significa che è possibile implementare delle cure preventive. Le aziende possono utilizzare questo approccio per scoprire i modelli che portano alla più elevata fidelizzazione dei dipendenti o che creano prodotti più redditizi analizzando il comportamento degli acquirenti. Nel mondo del business, questo tipo di analisi viene applicato dai data scientist il cui obiettivo è chiaro: analizzare e interpretare dati digitali complessi.


Concetti e applicazioni statistici

Sicuramente l'analisi multinomiale può essere di aiuto quando esamini una gamma di risultati categoriali: A, B, C o D. L'analisi binaria - sì o no, presente o assente - viene però utilizzata con maggiore frequenza. Sebbene i risultati siano vincolati, le possibilità non lo sono. La regressione logistica binaria può essere utilizzata per esaminare di tutto, dalle statistiche relative al baseball alla suscettibilità alle frane o all'analisi calligrafica.

Questo approccio all'analytics si rivela anche utile per una gamma di concetti e applicazioni statistici:

  • Analytics del testo
  • Rilevamento automatico dell'interazione chi quadrato (CHAID, Chi-square Automatic Interaction Detection)
  • Analisi congiunta
  • Statistiche di bootstrapping
  • Regressione non lineare
  • Software di statistiche dei cluster e analisi dei cluster
  • Simulazione Monte Carlo
  • Statistiche descrittive

L'uso del software di analisi statistica offre un grande valore per approcci quali l'analisi di regressione logistica, l'analisi multivariata, le reti neurali, gli alberi decisionali e la regressione lineare. Ma ricorda: se hai bisogno di consentire dataset di grandi dimensioni on-premise, nel cloud o in una configurazione di cloud ibrido, dovresti prendere in considerazione anche le soluzioni hardware e di cloud computing.


Presupposti fondamentali di una regressione logistica efficace

Quando questo approccio è più efficiente oppure è inefficiente?

Sebbene la regressione logistica binaria sia utilizzata e discussa con maggiore frequenza, può essere utile considerare quando ciascun tipo è più efficace.

Multinomiale può essere utilizzato per classificare i soggetti in gruppi sulla base di una gamma categoriale di variabili per prevedere il comportamento. Puoi ad esempio condurre un sondaggio in cui ai partecipanti viene chiesto di selezionare uno di diversi prodotti concorrenti come loro preferito. Puoi creare i profili di persone che è più probabile che siano interessate al tuo prodotto e pianificare la tua strategia pubblicitaria di conseguenza.

Binario è particolarmente utile quando desideri modellare la probabilità degli eventi per una variabile di risposta categoriale con due risultati. Un responsabile dei prestiti desidera sapere se è probabile che il prossimo cliente sarà inadempiente - o meno - su un prestito. L'analisi binaria può aiutare a valutare il rischio della concessione di credito a uno specifico cliente.


Pericoli potenziali

 

È anche utile comprendere quando questo tipo di analisi potrebbe essere inefficace, secondo Classroom – The Disadvantages of Logistic Regression (link esterno a ibm.com). Ecco alcuni pericoli a cui prestare attenzione:

  • Le variabili indipendenti devono essere valide. Delle variabili non corrette o incomplete degraderanno il valore predittivo di un modello.
  • Evita risultati continui. Le temperature, il tempo o tutto ciò che è indefinito renderà il modello molto meno preciso.
  • Non utilizzare dati correlati tra loro. Se alcune osservazioni sono correlate tra loro, il modello tenderà a dare un peso eccessivo alla loro significatività.
  • Diffida del sovradattamento o della sovrastima. Questi modelli di analisi statistica sono precisi ma l'accuratezza non è infallibile né priva di varianza.

Strumenti e confronti

Strumenti
Potresti eseguire questo approccio di analytics in Microsoft Excel ma, per quasi tutte le applicazioni, comprese la regressione logistica condizionale, la regressione logistica multipla e la regressione logistica multivariata, l'utilizzo di pacchetti software open source (regressione logistica R) o commerciali (regressione logistica SPSS) è consigliato per analizzare i dati e applicare tecniche in modo più efficiente. Puoi eseguire l'analisi in Excel o utilizzare pacchetti software statistici come IBM SPSS® Statistics che semplificano considerevolmente il processo di utilizzo delle equazioni di regressione logistica, dei modelli di regressione logistica e delle formule di regressione logistica.

Confronto con la regressione lineare
Quando utilizzare l'analisi lineare o quella logistica è una domanda comune. Fondamentalmente, l'analisi della regressione lineare viene applicata in modo più efficiente quando la variabile dipendente è indefinita o continua - distanze astronomiche o temperature, ad esempio. Utilizza l'approccio logistico quando la variabile dipendente è limitata a una gamma di valori o variabili categoriali - A o B...oppure A, B, C o D.


Esempi di successo della regressione logistica


Soluzioni correlate

IBM SPSS Advanced Statistics

Raggiungi delle conclusioni più accurate quando analizzi relazioni complesse utilizzando tecniche di modellazione univariata e multivariata.


IBM SPSS Modeler

Promuovi il ROI (return on investment) con uno strumento di data science a trascinamento e rilascio.


IBM SPSS Regression

Prevedi i risultati categoriali e applica un'ampia gamma di procedure di regressione non lineare.


IBM Watson Studio

Crea e addestra modelli di AI e machine learning, prepara e analizza i dati – tutto in un ambiente cloud ibrido e flessibile.


IBM Watson Discovery

Ottieni un modo intelligente e semplice per l'estrazione mediante mining e l'esplorazione di tutti i tuoi dati non strutturati con l'esplorazione cognitiva, una potente analytics testuale e funzionalità di machine learning.