La regresión logística es un algoritmo de machine learning supervisado en ciencia de datos. Es un tipo de algoritmo de clasificación que predice un resultado discreto o categórico. Por ejemplo, podemos utilizar un modelo de clasificación para determinar si un préstamo se aprueba o no en función de predictores como la cantidad de ahorro, los ingresos y la puntuación crediticia.
En este artículo, nos sumergimos en las matemáticas detrás de la regresión logística - uno de los algoritmos de clasificación más utilizados en el machine learning y la inteligencia artificial (IA). También profundizaremos en los detalles del análisis de regresión, los casos de uso y los diferentes tipos de regresiones logísticas. En la era de la IA generativa, los cimientos que sustentan la regresión logística siguen desempeñando un papel crítico en la orquestación de modelos complejos de redes neuronales. La regresión logística también sigue siendo muy relevante para realizar pruebas estadísticas en el contexto de la investigación en ciencias sociales y del comportamiento, y en el campo de la ciencia de datos en general. Podemos implementar la regresión logística fácilmente utilizando el módulo scikit-learn en Python.
En este artículo explicativo, le presentamos la diferencia entre la regresión lineal y la regresión logística, los fundamentos matemáticos, los diferentes tipos de regresiones logísticas y sus casos de uso asociados.
La regresión logística, al igual que la regresión lineal, es un tipo de modelo lineal que examina la relación entre las variables predictoras (variables independientes) y una variable output (la variable de respuesta, objetivo o dependiente). La diferencia clave es que la regresión lineal se utiliza cuando el output es un valor continuo, por ejemplo, predecir la puntuación de crédito de alguien. La regresión logística se utiliza cuando el resultado es categórico, como si un préstamo se aprueba o no.
En la regresión logística, el modelo predice la probabilidad de que se produzca un resultado específico. Por ejemplo, dado el perfil financiero de alguien, podríamos predecir la probabilidad de que se apruebe su préstamo. El output del modelo es un valor entre 0 y 1. Basándonos en un umbral (a menudo 0,5) clasificamos el resultado como "aprobado" o "no aprobado". En lugar de trazar una línea recta a través de los datos como lo haríamos en la regresión lineal, la regresión logística ajusta una curva en forma de S para asignar valores de entrada a una probabilidad.
Tanto la regresión lineal como la regresión logística utilizan pruebas estadísticas para evaluar qué variables predictoras impactan significativamente en el output. Técnicas como la prueba t y el análisis de varianza (ANOVA) (o pruebas de razón de verosimilitud para la regresión logística) generan valores p para cada coeficiente, lo que nos ayuda a evaluar si la relación es estadísticamente significativa. Un valor p bajo (normalmente inferior a 0,05) sugiere que la variable contribuye significativamente al modelo. También evaluamos la bondad del ajuste (lo bien que explica el modelo los resultados observados) utilizando diferentes métricas según el tipo de regresión.
A medida que construimos modelos, es importante protegerse contra el sobreajuste, en el que el modelo capta ruido en los datos de entrenamiento y funciona mal con los datos nuevos. Este riesgo aumenta cuando tenemos muchas variables predictoras pero un tamaño de muestra pequeño. Para abordar este problema, podemos aplicar la regularización, una técnica que reduce la influencia de variables menos importantes disminuyendo sus coeficientes. También se debe prestar especial atención a los valores atípicos, ya que pueden distorsionar el modelo y dar lugar a valores p o coeficientes engañosos. En la práctica, mejoramos los modelos a través de múltiples iteraciones de selección, prueba y refinamiento de características.
Para contrastar los dos modelos de forma más concreta, consideremos un escenario de regresión lineal en el que queremos predecir la puntuación crediticia de alguien, en función de características como sus ahorros actuales. Podemos modelar esto como:
Al igual que la regresión lineal, la regresión logística es un tipo de modelo lineal que pertenece a la familia de modelos lineales generalizados (GLM). Como en el ejemplo anterior, si queremos representar la probabilidad de aprobar o no aprobar, aplicamos la función lineal.
Dado que la función lineal asume una relación lineal, a medida que cambian los valores de X, Y puede tomar un valor de (-inf, inf). Las probabilidades, como sabemos, se limitan a [0,1]. Utilizando este principio de modelo lineal, no podemos modelar directamente las probabilidades de un resultado binario. En su lugar, necesitamos un modelo logístico para dar sentido a las probabilidades. Por lo tanto, queremos aplicar una transformación a la entrada para que el resultado pueda limitarse. Esta transformación se conoce como ecuación de regresión logística. Esta ecuación puede parecer compleja, pero la desglosaremos paso a paso en la siguiente sección.
La transformación sigmoidea nos permite hacer una predicción binaria para el caso de uso anterior. Después de aplicar la transformación, el valor de X puede tomar (-inf, inf) y y se limitará a [0,1]
Para entender la función de regresión logística (o la función sigmoidea), necesitamos una base sólida sobre los siguientes conceptos:
El logaritmo de la relación de probabilidades se conoce como función logit y forma la base de la regresión logística.
Como no podemos modelar las probabilidades directamente mediante una función lineal (porque las probabilidades están restringidas entre 0 y 1), en su lugar trabajamos con probabilidades. Aunque tanto la probabilidad como las cuotas representan la probabilidad de un resultado, difieren en su definición:
La probabilidad mide la posibilidad de que ocurra un evento entre todos los resultados posibles.
Las probabilidades comparan la probabilidad de que ocurra un evento con la probabilidad de que no ocurra.
Siendo p(x) la probabilidad de un resultado. Entonces, las probabilidades de x se definen como:
Tomemos un ejemplo concreto:
Supongamos que una cesta contiene 3 manzanas y 5 naranjas.
- La probabilidad de coger una naranja es 5/(3+5) = 0,625
- Las probabilidades de recoger una naranja son 5/3 ≈ 1,667
Esto significa que recoger una naranja es ≈1,667 veces más probable que recoger una manzana. Por el contrario, las probabilidades de recoger una manzana son 3/5 = 0,6, que es inferior a 1, lo que indica que el resultado (recoger una manzana) es menos probable que improbable. Siguiendo la ecuación de las probabilidades, también podemos pensar en las probabilidades como la probabilidad de que ocurra un resultado sobre 1 - probabilidad de que ocurra el resultado. Por lo tanto, las probabilidades de recoger una naranja son = P(naranjas)/(1-P(naranjas))=0,625/(1-0,625)≈1,667
Las probabilidades pueden variar de 0 a infinito. Un valor de probabilidades superior a 1 indica un resultado favorable, inferior a 1 indica un resultado desfavorable e igual a 1 significa que el evento tiene la misma probabilidad de ocurrir que de no ocurrir.
Sin embargo, las probabilidades no son simétricas en torno a 1. Por ejemplo, las probabilidades de 2 y 0,5 representan "el doble de probabilidades" y "la mitad de probabilidades", pero están en escalas numéricas muy diferentes. Para abordar este desequilibrio, tomamos el logaritmo de las probabilidades, que transforma la escala ilimitada de probabilidades [0, ∞) en la recta numérica real (−∞, ∞). Esto se conoce como log-odds o logit y es la base del modelo de regresión logística.
Definimos las probabilidades de registro como:
Esta transformación nos permite expresar las probabilidades logarítmicas como una función lineal de la entrada:
Luego podemos exponenciar ambos lados para volver a las probabilidades:
Resolver para obtenemos la función sigmoidea, que ayuda a garantizar que el valor predicho se mantenga entre 0 y 1:
Esta transformación permite que la regresión logística dé salida válida de probabilidades, aunque las modelamos utilizando una función lineal debajo.
Por último, introduzcamos la razón de probabilidades, un concepto que ayuda a interpretar el efecto de los coeficientes del modelo. La razón de probabilidades nos dice cómo cambian las probabilidades cuando la variable de entrada x1 aumenta en una unidad.
Digamos que las probabilidades del evento son:
Si aumentamos x1 en una unidad, las nuevas probabilidades se convierten en:
Esto significa que por cada aumento de una unidad en x1, las probabilidades se multiplican por eb1 . Este multiplicador es la razón de probabilidades.
- Si b1>1, entonces las probabilidades aumentan (el evento se vuelve más probable)
- Si b1<1, entonces las probabilidades disminuyen (los eventos se vuelven probables)
- Si b1=1, la razón de probabilidades es 0, lo que significa que la entrada no tiene efecto en las probabilidades
La razón de probabilidades le da a la regresión logística su interpretabilidad: le dice cómo cambian las probabilidades de un evento en función de las entradas, lo que es útil en muchos entornos aplicados, como la atención médica, el marketing y las finanzas. Sin embargo, no podemos interpretar los coeficientes de la misma manera que interpretamos los de la regresión lineal. En la siguiente sección, echemos un vistazo de cerca a cómo se determinan e interpretan los coeficientes.
Recordemos lo anterior: en la regresión lineal, los coeficientes son fáciles de interpretar. Tomemos un ejemplo de una regresión lineal con variables continuas: para un aumento de una unidad en la característica de entrada x da como resultado un aumento de b1 unidades en el resultado predicho y. Esta relación directa funciona porque la regresión lineal supone una tasa de cambio constante entre las características de entrada y el objetivo. Su producción no tiene límites y crece linealmente.
Sin embargo, la regresión logística no modela y directamente, sino que modela la probabilidad de y a través de las probabilidades logarítmicas (el logaritmo de las probabilidades). Debido a esto, no podemos decir que un aumento de una unidad en x resulte en un cambio de unidad constante en y. En su lugar, interpretamos el coeficiente en términos de su efecto sobre las probabilidades logarítmicas y, por extensión, sobre las probabilidades y la probabilidad del resultado.
Más concretamente, en la regresión logística:
Es importante destacar que la magnitud del coeficiente refleja lo fuerte que es esta influencia, y la razón de probabilidades (que es el exponencial del coeficiente) nos dice cuánto cambian las probabilidades para un aumento de una unidad en la variable.
Al igual que otros algoritmos de machine learning, podemos incorporar variables categóricas para hacer predicciones para la regresión logística. Cuando trabajamos con variables categóricas o discretas, a menudo utilizamos técnicas de ingeniería de características como la codificación one-hot o variables ficticias para convertirlas a un formato binario que el modelo pueda utilizar.
Por ejemplo, utilizando el mismo concepto anterior, digamos que queremos predecir si alguien ha sido aprobado para un préstamo ( para aprobado, para no aprobado) en función de si todavía tienen una deuda existente:
- Let significa que no tienen deuda existente
- Let significa que tienen deuda existente
Nuestras probabilidades de registro de sería
El coeficiente , representa el cambio en las probabilidades logarítmicas de ser aprobado cuando la persona tiene una deuda existente, en comparación con alguien que no la tiene.
Para que esto sea más interpretable, podemos exponenciar b1 para obtener la razón de probabilidades:
Por lo tanto, aunque perdemos la interpretación directa de los coeficientes de la regresión lineal, la regresión logística sigue ofreciendo conocimientos ricos e interpretables, especialmente cuando los enmarcamos en términos de probabilidades y cambios de probabilidad. La magnitud del aumento o disminución de la probabilidad en función de no corresponde a una unidad de aumento en , pero depende de dónde está en un punto determinado.
Los coeficientes de regresión logística, y , se estiman utilizando la estimación de máxima verosimilitud (MLE). La idea central detrás de MLE es encontrar los parámetros que hacen que los datos observados sean más "probables" bajo el modelo de regresión logística.
En la regresión logística, modelamos la probabilidad de que la variable objetivo es 1 (por ejemplo, "aprobado") dada una entrada mediante el uso de la función logística (sigmoide):
MLE prueba diferentes combinaciones de y , y para cada combinación, pregunta: ¿Cómo de probable es que veamos los resultados reales en nuestros datos, dados estos parámetros?
Esto se captura utilizando la función de probabilidad, que multiplica las probabilidades predichas para cada punto de datos:
- Si =1 ("aprobado"), queremos que la probabilidad predicha del modelo estar tan cerca como 1. El término aborda esto. Si los datos reales observados de y1 son realmente "aprobados" o 1, el término será 1.
- Si =0, queremos que la probabilidad prevista sea cercana a 0. El término se encarga de este caso. Si los datos reales observados de es "no aprobado", o 0, el valor será será cercano a 0, por lo tanto estará cerca de 1.
Así que para cada punto de datos, multiplicamos O , dependiendo de si la etiqueta real es 1 o 0. El producto sobre todos los ejemplos nos da un solo número: la probabilidad de ver todo el conjunto de datos bajo el modelo actual. Como podemos ver, si los resultados previstos (utilizando parámetros y ) se ajustan a los datos observados, se maximizará el valor de la probabilidad. La razón detrás de multiplicar todas las probabilidades es que asumimos que los resultados son independientes entre sí. En otras palabras, la probabilidad de aprobación de una persona no debe influir en la probabilidad de aprobación de otra persona.
Debido a que este producto puede ser extremadamente pequeño, generalmente trabajamos con la probabilidad logarítmica, que convierte el producto en una suma y es más fácil de calcular y optimizar.
Para encontrar los valores de y que maximizan la probabilidad logarítmica, utilizamos el descenso de gradiente, un algoritmo de optimización iterativo. En cada paso, calculamos cómo cambia la probabilidad logarítmica con respecto a cada parámetro (por ejemplo, su gradiente) y luego actualizamos los parámetros ligeramente en la dirección que aumenta la probabilidad. Con el tiempo, este proceso converge hacia los valores de y que mejor se ajusten a los datos.
Existen tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.
La regresión logística se usa comúnmente para problemas de predicción y clasificación. Algunos de estos casos de uso incluyen:
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.