My IBM

Accedi

Cos'è la regressione logistica?

La regressione logistica stima la probabilità che si verifichi un evento, come ad esempio voto espresso o non espresso, sulla base di un determinato set di dati di variabili indipendenti.

Questo tipo di modello statistico (noto anche come modello logit) è spesso utilizzato per la classificazione e l'analytics predittiva. Poiché il risultato è una probabilità, la variabile dipendente è delimitata tra 0 e 1. Nella regressione logistica viene applicata una trasformazione logit alle probabilità, ovvero la probabilità di successo divisa per la probabilità di fallimento. Ciò è anche comunemente noto come probabilità logaritmica, o logaritmo naturale delle probabilità, e questa funzione logistica è rappresentata dalle seguenti formule:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

In questa equazione di regressione logistica, logit(pi) è la variabile dipendente o risposta, mentre x è la variabile indipendente. In questo modello, il parametro beta, o coefficiente, viene comunemente stimato tramite la stima di massima verosimiglianza (MLE). Questo metodo testa diversi valori di beta attraverso più iterazioni per ottimizzare il best fit della probabilità logaritmica. Tutte queste iterazioni producono la funzione di verosimiglianza logaritmica, mentre la regressione logistica cerca di massimizzare questa funzione per trovare la migliore stima dei parametri. Una volta trovato il coefficiente ottimale (o coefficienti se vi è più di una variabile indipendente), le probabilità condizionate per ciascuna osservazione possono essere calcolate, registrate e sommate insieme per generare una probabilità prevista. Per la classificazione binaria, una probabilità inferiore a 0,5 prevederà 0 mentre una probabilità maggiore di 0 prevederà 1. Dopo che il modello è stato calcolato, è best practice valutarne la capacità di prevedere la variabile dipendente, denominata "goodness of fit". Il test di Hosmer-Lemeshow è un metodo comunemente usato per valutare il fit del modello.

Le ultime notizie e insight sull'AI  

Scopri notizie e insight selezionati da esperti in materia di AI, cloud e molto altro nella newsletter settimanale Think.

Iscriviti oggi

Interpretazione della regressione logistica

L'interpretazione della probabilità logaritmica in un'analisi dei dati di regressione logistica può essere difficile. Di conseguenza, l'esponenziale delle stime beta è comune per trasformare i risultati in un OR (Odds Ratio, o rapporto crociato), facilitando l'interpretazione dei risultati. L'OR rappresenta le probabilità che si verifichi un risultato in un determinato evento, rispetto alle probabilità che il risultato si verifichi in assenza di tale evento. Se l'OR è maggiore di 1, l'evento è associato a una maggiore probabilità di generare un risultato specifico. Al contrario, se l'OR è inferiore a 1, l'evento è associato a una minore probabilità di tale risultato. Sulla base dell'equazione di cui sopra, l'interpretazione di un OR può essere indicata come segue: le probabilità di successo cambiano di exp(cB_1) volte per ogni aumento di unità-c in x. Per utilizzare un esempio, diciamo che stiamo stimando le probabilità di sopravvivenza sul Titanic posto che la persona sia di sesso maschile e l'OR per le persone di sesso maschile sia pari a 0,0810. Interpreteremmo l'OR come se le probabilità di sopravvivenza dei maschi diminuissero di un fattore di 0,0810 rispetto alle femmine, mantenendo costanti tutte le altre variabili.

Mixture of Experts | Podcast

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Guarda gli episodi

Regressione lineare e regressione logistica

Sia la regressione lineare che quella logistica sono tra i modelli più popolari nell'ambito della data science e gli strumenti open source, come Python e R, rendono il loro calcolo semplice e veloce.

I modelli di regressione lineare vengono utilizzati per identificare la relazione tra una variabile dipendente continua e una o più variabili indipendenti. Quando c'è solo una variabile indipendente e una variabile dipendente, si parla di regressione lineare semplice, ma all'aumentare del numero di variabili indipendenti, si parla di regressione lineare multipla. Per ogni tipo di regressione lineare, cerca di tracciare una linea di best fit attraverso una serie di punti dati, che in genere viene calcolata utilizzando il metodo dei minimi quadrati.

In modo simile alla regressione lineare, la regressione logistica viene utilizzata anche per stimare la relazione tra una variabile dipendente e una o più variabili indipendenti, sebbene venga utilizzata per fare una previsione su una variabile categorica rispetto a una continua. Una variabile categorica può essere vera o falsa, sì o no, 1 o 0, ecc. L'unità di misura differisce anche dalla regressione lineare poiché produce una probabilità, ma la funzione logit trasforma la curva S in linea retta.

Sebbene entrambi i modelli vengano utilizzati nell'analisi di regressione per fare previsioni sui risultati futuri, la regressione lineare è in genere più facile da comprendere. Inoltre, la regressione lineare non richiede una dimensione di campione tanto grande quanto la regressione logistica che ha bisogno di un campione adeguato per rappresentare i valori in tutte le categorie di risposta. Senza un campione più ampio e rappresentativo, il modello potrebbe non avere una potenza statistica sufficiente per rilevare un effetto significativo.

Tipi di regressione logistica

Esistono tre tipi di modelli di regressione logistica, definiti in base alla risposta categorica.

Regressione logistica binaria: in questo approccio, la risposta o variabile dipendente è di natura dicotomica, ovvero ha solo due possibili esiti (ad esempio 0 o 1). Alcuni esempi comuni del suo utilizzo includono la capacità di prevedere se un'e-mail è spam o non spam o se un tumore è maligno o non maligno. Nell'ambito della regressione logistica, questo è l'approccio più utilizzato e, più in generale, è uno dei classificatori più comuni per la classificazione binaria.
Regressione logistica multinomiale: in questo tipo di modello di regressione logistica, la variabile dipendente ha tre o più risultati possibili, tuttavia, questi valori non hanno un ordine specificato. Ad esempio, gli studi cinematografici vogliono prevedere quale genere di film è probabile che uno spettatore veda per commercializzare i film in modo più efficace. Un modello di regressione logistica multinomiale può aiutare lo studio a determinare quanto l'età, il genere e lo stato civile di una persona possano influire sul tipo di film che preferisce. Lo studio può quindi orientare la campagna pubblicitaria di un film specifico verso un gruppo di persone che probabilmente andrà a vederlo.
Regressione logistica ordinale: questo tipo di modello di regressione logistica viene utilizzato quando la variabile di risposta ha tre o più risultati possibili, ma in questo caso questi valori hanno un ordine definito. Esempi di risposte ordinali includono scale di valutazione da A a F o scale di valutazione da 1 a 5.

Regressione logistica e machine learning

Nel machine learning, la regressione logistica appartiene alla famiglia di modelli di machine learning supervisionato. È anche considerato un modello discriminante, il che significa che cerca di distinguere tra le classi (o categorie). A differenza di un algoritmo generativo, come il naïve bayes, non può, come dice il nome, generare informazioni, come ad esempio un'immagine, della classe che sta cercando di prevedere (ad esempio la foto di un gatto).

In precedenza abbiamo detto che la regressione logistica massimizza la funzione di verosimiglianza logaritmica per determinare i coefficienti beta del modello. Questo cambia leggermente nel contesto del machine learning. Nel machine learning, la verosimiglianza logaritmica negativa viene utilizzata come funzione di perdita, utilizzando il processo di discesa del gradiente per trovare il massimo globale. Questo è solo un altro modo per arrivare alle stesse stime discusse in precedenza.

La regressione logistica può anche essere incline all'overfitting, in particolare quando all'interno del modello è presente un numero elevato di variabili predittive. La regolarizzazione viene generalmente utilizzata per penalizzare i parametri con coefficienti elevati quando il modello presenta un'elevata dimensionalità.

Scikit-learn (link esterno a ibm.com) fornisce una preziosa documentazione contenente maggiori informazioni sul modello di machine learning di regressione logistica.

Casi d'uso di regressione logistica

La regressione logistica viene comunemente utilizzata per problemi di previsione e classificazione. Alcuni di questi casi d'uso includono:

Rilevamento delle frodi: i modelli di regressione logistica possono aiutare i team a identificare le anomalie dei dati, che sono predittive di frode. Alcuni comportamenti o caratteristiche possono avere una maggiore associazione con le attività fraudolente, il che è particolarmente utile alle istituzioni bancarie e finanziarie per proteggere i loro clienti. Anche le aziende basate su SaaS hanno iniziato ad adottare queste pratiche per eliminare i falsi account utente dai loro set di dati quando conducono analisi di dati sulle prestazioni aziendali.
Previsione delle malattie: in medicina, questo approccio di analytics può essere utilizzato per prevedere la probabilità di patologie o malattie per una determinata popolazione. Le organizzazioni sanitarie possono impostare cure preventive per le persone che mostrano una maggiore propensione per malattie specifiche.
Previsione dell'abbandono: comportamenti specifici possono essere indicativi di abbandono in diverse funzioni di un'organizzazione. Ad esempio, i team delle risorse umane e di gestione potrebbero voler sapere se ci sono dipendenti con alto rendimento nell'azienda che sono a rischio di lasciare l'organizzazione; questo tipo di insight può indurre delle conversazioni per comprendere le aree problematiche all'interno dell'azienda, quali la cultura e la retribuzione. In alternativa, l'organizzazione di vendita potrebbe voler sapere quali dei loro clienti sono a rischio di portare la loro attività altrove. Ciò può spingere i team a impostare una strategia di fidelizzazione per evitare perdite di fatturato.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l’AI generativa e il machine learning nella tua azienda.

Risorse

Esplora IBM Granite

IBM Granite è la nostra famiglia di modelli AI aperti, efficienti e affidabili, su misura per le aziende e ottimizzati per scalare le applicazioni di AI. Esplora le opzioni di linguaggio, codice, serie temporali e guardrail.

AI in Action 2024

Abbiamo intervistato 2.000 organizzazioni in merito alle loro iniziative di AI per scoprire cosa funziona, cosa non funziona e come giocare d’anticipo.

Modelli di apprendimento supervisionato

Esplora gli approcci di apprendimento supervisionato, come le macchine a vettori di supporto e i classificatori probabilistici.

Esperienza diretta con l'AI generativa

Impara i concetti fondamentali e sviluppa le tue competenze con laboratori pratici, corsi, progetti guidati, prove e molto altro.

Come scegliere il giusto foundation model

Scopri come scegliere il foundation model di AI più adatto al tuo caso d’uso.

Soluzioni correlate

IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai

Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI

Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI

Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai

Prenota una demo live