Os coeficientes na regressão logística, e , são estimados por meio da estimativa de máxima verossimilhança (MLE). A ideia central por trás da MLE é encontrar os parâmetros que tornam os dados observados mais "prováveis" sob o modelo de regressão logística.
Na regressão logística, modelamos a probabilidade de que a variável-alvo é 1 (por exemplo, "aprovado") dada uma entrada usando a função logística (sigmoide):
A MLE tenta diferentes combinações de e , e para cada combinação, pergunta: Qual é a probabilidade de vermos os resultados reais em nossos dados, dados esses parâmetros?
Isso é capturado usando a função de verossimilhança, que multiplica as probabilidades previstas para cada ponto de dados:
- Se =1 (“aprovado”), queremos que a probabilidade prevista do modelo esteja tão próxima quanto 1. O termo lida com isso. Se os dados reais observados de y1 forem realmente "aprovados" ou 1, o termo será 1.
- Se =0, queremos que a probabilidade prevista esteja próxima de 0. O termo lida com esse caso. Se os dados reais observados de é "não aprovado", ou 0, o valor será estarão próximos de 0, portanto estarão próximos de 1.
Assim, para cada ponto de dados, multiplicamos OU , dependendo de o rótulo real ser 1 ou 0. O produto de todos os exemplos nos fornece um único número: a verossimilhança de ver o conjunto de dados inteiro sob o modelo atual. Como podemos ver, se os resultados previstos (usando parâmetros e ) em conformidade com os dados observados, o valor da verossimilhança será maximizado. O motivo da multiplicação de todas as probabilidades é que assumimos que os resultados são independentes uns dos outros. Em outras palavras, a chance de aprovação de uma pessoa não deve influenciar a chance de aprovação de outra pessoa.
Como esse produto pode ficar extremamente pequeno, geralmente trabalhamos com a probabilidade logarítmica, que transforma o produto em uma soma e é mais fácil de calcular e otimizar.
Para encontrar os valores de e que maximizam a probabilidade logarítmica, usamos o gradiente descendente, um algoritmo de otimização iterativo. Em cada etapa, calculamos como a probabilidade logarítmica muda em relação a cada parâmetro (por exemplo, seu gradiente) e, em seguida, atualizamos os parâmetros ligeiramente na direção que aumenta a probabilidade. Com o tempo, esse processo converge para os valores do e que melhor se ajustam aos dados.