Los coeficientes de regresión logística, y , se estiman mediante la estimación de máxima verosimilitud (MLE). La idea central detrás de MLE es encontrar los parámetros que hacen que los datos observados sean más "probables" bajo el modelo de regresión logística.
En la regresión logística, modelamos la probabilidad de que la variable objetivo es 1 (por ejemplo, "aprobado") dada una entrada mediante el uso de la función logística (sigmoide):
MLE prueba diferentes combinaciones de Y , y para cada combinación, pregunta: ¿Qué tan probable es que veamos los resultados reales en nuestros datos, dados estos parámetros?
Esto se captura mediante el uso de la función de probabilidad, que multiplica las probabilidades previstas para cada punto de datos:
- Si =1 (“aprobado”), queremos que la probabilidad predicha del modelo estar tan cerca como 1. El término aborda esto. Si los datos reales observados de y1 son realmente "aprobados" o 1, el término será 1.
- Si =0, queremos que la probabilidad prevista sea cercana a 0. El término maneja este caso. Si los datos reales observados de es "no aprobado" o 0, el valor será será cercano a 0, por lo tanto estará cerca de 1.
Entonces, para cada punto de datos, multiplicamos O , dependiendo de si la etiqueta real es 1 o 0. El producto de todos los ejemplos nos da un solo número: la probabilidad de ver todo el conjunto de datos bajo el modelo actual. Como podemos ver, si los resultados previstos (usando parámetros Y ) se ajustan a los datos observados, se maximizará el valor de la probabilidad. La razón detrás de multiplicar todas las probabilidades es que asumimos que los resultados son independientes entre sí. En otras palabras, la probabilidad de aprobación de una persona no debe influir en la probabilidad de aprobación de otra persona.
Debido a que este producto puede ser extremadamente pequeño, generalmente trabajamos con la probabilidad logarítmica, que convierte el producto en una suma y es más fácil de calcular y optimizar.
Para encontrar los valores de Y que maximizan la probabilidad logarítmica, utilizamos el descenso del gradiente, un algoritmo de optimización iterativo. En cada paso, calculamos cómo cambia la probabilidad logarítmica con respecto a cada parámetro (por ejemplo, su gradiente) y luego actualizamos los parámetros ligeramente en la dirección que aumenta la probabilidad. Con el tiempo, este proceso converge hacia los valores de Y que mejor se ajusten a los datos.