Los coeficientes de regresión logística, y , se estiman utilizando la estimación de máxima verosimilitud (MLE). La idea central detrás de MLE es encontrar los parámetros que hacen que los datos observados sean más "probables" bajo el modelo de regresión logística.
En la regresión logística, modelamos la probabilidad de que la variable objetivo es 1 (por ejemplo, "aprobado") dada una entrada mediante el uso de la función logística (sigmoide):
MLE prueba diferentes combinaciones de y , y para cada combinación, pregunta: ¿Cómo de probable es que veamos los resultados reales en nuestros datos, dados estos parámetros?
Esto se captura utilizando la función de probabilidad, que multiplica las probabilidades predichas para cada punto de datos:
- Si =1 ("aprobado"), queremos que la probabilidad predicha del modelo estar tan cerca como 1. El término aborda esto. Si los datos reales observados de y1 son realmente "aprobados" o 1, el término será 1.
- Si =0, queremos que la probabilidad prevista sea cercana a 0. El término se encarga de este caso. Si los datos reales observados de es "no aprobado", o 0, el valor será será cercano a 0, por lo tanto estará cerca de 1.
Así que para cada punto de datos, multiplicamos O , dependiendo de si la etiqueta real es 1 o 0. El producto sobre todos los ejemplos nos da un solo número: la probabilidad de ver todo el conjunto de datos bajo el modelo actual. Como podemos ver, si los resultados previstos (utilizando parámetros y ) se ajustan a los datos observados, se maximizará el valor de la probabilidad. La razón detrás de multiplicar todas las probabilidades es que asumimos que los resultados son independientes entre sí. En otras palabras, la probabilidad de aprobación de una persona no debe influir en la probabilidad de aprobación de otra persona.
Debido a que este producto puede ser extremadamente pequeño, generalmente trabajamos con la probabilidad logarítmica, que convierte el producto en una suma y es más fácil de calcular y optimizar.
Para encontrar los valores de y que maximizan la probabilidad logarítmica, utilizamos el descenso de gradiente, un algoritmo de optimización iterativo. En cada paso, calculamos cómo cambia la probabilidad logarítmica con respecto a cada parámetro (por ejemplo, su gradiente) y luego actualizamos los parámetros ligeramente en la dirección que aumenta la probabilidad. Con el tiempo, este proceso converge hacia los valores de y que mejor se ajusten a los datos.