I coefficienti nella regressione logistica, e , sono stimati utilizzando la stima della massima verosimiglianza (MLE). L'idea alla base della MLE è trovare i parametri che rendono i dati osservati più "probabili" secondo il modello di regressione logistica.
Nella regressione logistica, modelliamo la probabilità che la variabile target è 1 (ad esempio, "approvato") dato un input utilizzando la funzione logistica (sigmoide):
MLE prova diverse combinazioni di e e per ogni combinazione chiede: "quanto è probabile che vedremo i risultati effettivi nei nostri dati, in presenza di questi parametri?"
Questo viene acquisito utilizzando la funzione di verosimiglianza, che moltiplica le probabilità previste per ogni punto dati:
- Se =1 ("approvato"), vogliamo che la probabilità prevista del modello sia il più vicino possibile a 1. Il termine affronta questo problema. Se i dati effettivamente osservati di y1 sono davvero “approvati” o 1, il termine sarà 1.
- Se =0, vogliamo che la probabilità prevista sia vicina a 0. Il termine si occupa di questo caso. Se i dati effettivamente osservati di è "non approvato", o 0, il valore sarà sarà vicino a 0, quindi sarà vicino a 1.
Quindi, per ogni punto dati, moltiplichiamo Oppure , a seconda che l'etichetta effettiva sia 1 o 0. Il prodotto tra tutti gli esempi ci fornisce un unico numero: la probabilità di vedere l'intero set di dati secondo il modello attuale. Come possiamo vedere, se i risultati previsti (utilizzando i parametri e ) sono conformi ai dati osservati, il valore di verosimiglianza sarà massimizzato. La ragione dietro la moltiplicazione di tutte le probabilità è che supponiamo che i risultati siano indipendenti l'uno dall'altro. In altre parole, la possibilità di approvazione di una persona non dovrebbe influenzare la possibilità di approvazione di un'altra persona.
Poiché questo prodotto può diventare estremamente piccolo, di solito lavoriamo con la verosimiglianza logaritmica, che trasforma il prodotto in una somma ed è più facile da calcolare e ottimizzare.
Per trovare i valori di e che massimizzano il log-likelihood, utilizziamo la discesa del gradiente, un algoritmo di ottimizzazione iterativa. In ogni fase, calcoliamo come cambia la verosimiglianza logaritmica rispetto a ciascun parametro (ad esempio, il suo gradiente), quindi aggiorniamo leggermente i parametri nella direzione che aumenta la probabilità. Nel tempo, questo processo converge verso i valori di e che si adattano meglio ai dati.