¿Qué es la regresión logística?

Autor

Developer Advocate

IBM

Qué es la regresión logística

La regresión logística es un algoritmo de aprendizaje supervisado de machine learning en ciencia de datos. Es un tipo de algoritmo de clasificación que predice un resultado discreto o categórico. Por ejemplo, podemos utilizar un modelo de clasificación para determinar si un préstamo se aprueba o no en función de predictores como la cantidad de ahorros, los ingresos y la puntuación crediticia.

En este artículo, nos sumergimos en las matemáticas detrás de la regresión logística, uno de los algoritmos de clasificación más utilizados en el machine learning y la inteligencia artificial (IA). También profundizaremos en los detalles del análisis de regresión, los casos de uso y los diferentes tipos de regresiones logísticas. En la era de la IA generativa, los cimientos que sustentan la regresión logística siguen desempeñando un papel crítico en la orquestación de modelos complejos de Neural Networks. La regresión logística también sigue siendo muy relevante para realizar pruebas estadísticas en el contexto de la investigación en ciencias sociales y del comportamiento, y en el campo de la ciencia de datos en general. Podemos implementar la regresión logística fácilmente mediante el uso del módulo scikit-learn en Python.

En este Documento explicativo, le presentamos la diferencia entre la regresión lineal y la regresión logística, los fundamentos matemáticos, los diferentes tipos de regresiones logísticas y sus casos de uso asociados.

Únase a los más de 100 000 suscriptores que leen las últimas noticias en tecnología

Manténganse al día de las tendencias más importantes e interesantes de las industrias en IA, automatización, datos y más temas con el boletín Think, que se envía dos veces por semana. Consulte la Declaración de privacidad de IBM.

Regresión logística frente a regresión lineal

La regresión logística, al igual que la regresión lineal, es un tipo de modelo lineal que examina la relación entre las variables predictoras (variables independientes) y una variable de salida (la variable de respuesta, objetivo o dependiente). La diferencia clave es que la regresión lineal se utiliza cuando el resultado es un valor continuo, por ejemplo, predecir el puntaje crediticio de alguien. La regresión logística se utiliza cuando el resultado es categórico, como si un préstamo se aprueba o no.

En la regresión logística, el modelo predice la probabilidad de que ocurra un resultado específico. Por ejemplo, dado el perfil financiero de alguien, podríamos predecir la probabilidad de que se apruebe su préstamo. La salida del modelo es un valor entre 0 y 1. Según un umbral, a menudo 0.5, clasificamos el resultado como "aprobado" o "no aprobado". En lugar de trazar una línea recta a través de los datos como lo haríamos en la regresión lineal, la regresión logística ajusta una curva en forma de S para asignar valores de entrada a una probabilidad.

Tanto la regresión lineal como la logística utilizan pruebas estadísticas para evaluar qué variables predictoras afectan significativamente el resultado. Técnicas como la prueba t y el análisis de varianza (ANOVA) (o pruebas de razón de verosimilitud para la regresión logística) generan valores p para cada coeficiente, lo que nos ayuda a evaluar si la relación es estadísticamente significativa. Un valor p bajo (normalmente inferior a 0.05) sugiere que la variable contribuye significativamente al modelo. También evaluamos la bondad del ajuste (qué tan bien explica el modelo los resultados observados) utilizando diferentes métricas según el tipo de regresión.

A medida que construimos modelos, es importante protegerse contra el sobreajuste, donde el modelo captura ruido en los datos de entrenamiento y funciona mal en datos nuevos. Este riesgo aumenta cuando tenemos muchas variables predictoras pero un tamaño de muestra pequeño. Para dirigirnos a este problema, podemos aplicar la regularización, una técnica que reduce la influencia de variables menos importantes al reducir sus coeficientes. También se debe prestar especial atención a los valores atípicos, ya que pueden distorsionar el modelo y dar lugar a valores p o coeficientes engañosos. En la práctica, mejoramos los modelos a través de múltiples iteraciones de selección, prueba y refinamiento de características.

Para contrastar los dos modelos de manera más concreta, considere un escenario de regresión lineal en el que queremos predecir el puntaje crediticio de alguien, en función de características como sus ahorros actuales. Podemos modelar esto como:

$Y_{c r e d i t s c o r e} = β_{0} + β_{1} X_{s a v i n g s}$

Ahorro de regresión lineal frente a puntaje crediticio

Regresión logística tras bambalinas

Al igual que la regresión lineal, la regresión logística es un tipo de modelo lineal que pertenece a la familia de modelos lineales generalizados (GLM). Como en el ejemplo anterior, si queremos representar la probabilidad de aprobar o no aprobar, aplicamos la función lineal.

$Y_{a p p r o v a l} = β_{0} + β_{1} X_{s a v i n g s}$

Debido a que la función lineal asume una relación lineal, a medida que cambian los valores de X, Y puede tomar un valor de (-inf, inf). Las probabilidades, como sabemos, se limitan a [0,1]. Utilizando este principio de modelo lineal, no podemos modelar directamente las probabilidades de un resultado binario. En cambio, necesitamos un modelo logístico para dar sentido a las probabilidades. Por lo tanto, queremos aplicar una transformación a la entrada para que el resultado pueda limitarse. Esta transformación se conoce como ecuación de regresión logística. Esta ecuación puede parecer compleja, pero la desglosaremos paso a paso en la siguiente sección.

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

Aprobación de préstamos por monto de ahorro

La transformación sigmoide nos permite hacer una predicción binaria para el caso de uso anterior. Después de aplicar la transformación, el valor de X puede tomar (-inf, inf) y y se limitará a [0,1]

Para comprender la función de regresión logística (o la función sigmoidea), necesitamos una base sólida sobre los siguientes conceptos:

Odds, log-odds y odds ratio
Coeficientes de la regresión logística
Estimaciones de máxima verosimilitud (MLE)

Cuotas, probabilidades logarítmicas y razón de probabilidades

Cuotas

El logaritmo de la relación de probabilidades se conoce como función logit y forma la base de la regresión logística.

Debido a que no podemos modelar las probabilidades directamente mediante el uso de una función lineal (porque las probabilidades están restringidas entre 0 y 1), en su lugar trabajamos con probabilidades. Si bien tanto la probabilidad como las probabilidades representan la probabilidad de un resultado, difieren en la definición:

La probabilidad mide la posibilidad de que ocurra un evento entre todos los resultados posibles.

Un gráfico minimalista con círculos azules y rojos en un cuadrado blanco.

Las probabilidades comparan la posibilidad de que ocurra un evento con la posibilidad de que no ocurra.

Log Odds

Sea p(x) la probabilidad de un resultado. Entonces, las probabilidades de x se definen como:

$o d d s (x) = \frac{p (x)}{1 - p (x)}$

Tomemos un ejemplo concreto:

Supongamos que una canasta contiene 3 manzanas y 5 naranjas.

- La probabilidad de recoger una naranja es 5/(3+5) = 0.625

- Las probabilidades de recoger una naranja son 5/3 ≈ 1.667

Esto significa que recoger una naranja es ≈1.667 veces más probable que recoger una manzana. Por el contrario, las probabilidades de recoger una manzana son 3/5 = 0.6, que es menos de 1, lo que indica que el resultado (recoger una manzana) es menos probable que no. Siguiendo la ecuación de las probabilidades, también podemos Think en las probabilidades como la probabilidad de que ocurra un resultado sobre 1 - probabilidad de que ocurra el resultado. Por lo tanto, las probabilidades de elegir una naranja son = P(naranjas)/(1-P(naranjas))=0.625/(1-0.625)≈1.667

Las probabilidades pueden variar de 0 a infinito. Un valor de probabilidades mayor que 1 indica un resultado favorable, menor que 1 indica un resultado desfavorable e igual a 1 significa que el evento tiene la misma probabilidad de ocurrir que no.

Sin embargo, las probabilidades no son simétricas en torno a 1. Por ejemplo, las probabilidades de 2 y 0.5 representan "el doble de probabilidades" y "la mitad de probabilidades", pero están en escalas numéricas muy diferentes. Para dirigirnos a este desequilibrio, tomamos el logaritmo de las probabilidades, que transforma la escala ilimitada de probabilidades [0, ∞) en la recta numérica real (−∞, ∞). Esto se conoce como log-odds, o logit, y es la base del modelo de regresión logística.

Definimos las probabilidades de registro como:

$\log (\frac{p (x)}{1 - p (x)})$

Esta transformación nos permite expresar las probabilidades logarítmicas como una función lineal de la entrada:

$\log (\frac{p (x)}{1 - p (x)}) = β_{0} + β_{1} \cdot x_{1}$

Luego podemos exponenciar ambos lados para volver a las probabilidades:

$\frac{p (x)}{1 - p (x)} = e^{β_{0} + β_{1} \cdot x_{1}}$

Resolver para $p (x)$ obtenemos la función sigmoide, que ayuda a garantizar que el valor predicho se mantenga entre 0 y 1:

$p (x) = \frac{e^{β_{0} + β_{1} \cdot x_{1}}}{1 + e^{β_{0} + β_{1} \cdot x_{1}}}$

Esta Transformación permite que la regresión logística genere resultados válidos, aunque las modelamos utilizando una función lineal debajo.

Razón de probabilidades

Por último, introduzcamos la razón de probabilidades, un concepto que ayuda a interpretar el efecto de los coeficientes del modelo. La razón de probabilidades nos dice cómo cambian las probabilidades cuando la variable de entrada x1 aumenta en una unidad.

Digamos que las probabilidades del evento son:

$o d d s (x_{1}) = e^{β_{0} + β_{1} \cdot x_{1}}$

Si aumentamos x1 en una unidad, las nuevas probabilidades se convierten en:

$o d d s (x_{1} + 1) = e^{β_{0} + β_{1} (x_{1} + 1)} = e^{β_{0} + β_{1} x_{1}} \cdot e^{β_{1}}$

Esto significa que por cada aumento de una unidad en x1, las probabilidades se multiplican por eb1 . Este multiplicador es la razón de probabilidades.

- Si b1>1, entonces las probabilidades aumentan (el evento se vuelve más probable)

- Si b1<1, entonces las probabilidades disminuyen (los eventos se vuelven probables)

- Si b1=1, la razón de probabilidades es 0, lo que significa que la entrada no tiene efecto en las probabilidades

La razón de probabilidades le da a la regresión logística su interpretabilidad: le dice cómo cambian las probabilidades de un evento en función de las entradas, lo cual es útil en muchos entornos aplicados, como atención médica, marketing y finanzas. Sin embargo, no podemos interpretar los coeficientes de la misma manera que interpretamos los de la regresión lineal. En la siguiente sección, veamos de cerca cómo se determinan e interpretan los coeficientes.

Coeficientes de regresión logística

Predictores continuos

Recordemos lo anterior: en la regresión lineal, los coeficientes son fáciles de interpretar. Tomemos un ejemplo de una regresión lineal con variables continuas: para un aumento de una unidad en la característica de entrada x da como resultado un aumento de b1 unidades en el resultado previsto y. Esta relación directa funciona porque la regresión lineal supone una tasa de cambio constante entre las características de entrada y el objetivo. Sus resultados no tienen límites y crecen linealmente.

Sin embargo, la regresión logística no modela y directamente, sino que modela la probabilidad de y a través del log-odds (el logaritmo de las probabilidades). Debido a esto, no podemos decir que un aumento de una unidad en x resulte en un cambio de unidad constante en y. En su lugar, interpretamos el coeficiente en términos de su efecto sobre las probabilidades logarítmicas y, por extensión, sobre las probabilidades y la probabilidad del resultado.

Más específicamente, en la regresión logística:

Un coeficiente positivo significa que las probabilidades logarítmicas del resultado aumentan a medida que aumenta la entrada. Esto corresponde a un aumento en la probabilidad.
Un coeficiente negativo significa que las probabilidades logarítmicas disminuyen a medida que aumenta la entrada. Esto corresponde a una disminución de la probabilidad.
Un coeficiente de cero significa que la variable no tiene efecto en el resultado.

Es importante destacar que la magnitud del coeficiente refleja cuán fuerte es esta influencia, y la razón de probabilidades (que es la exponencial del coeficiente) nos dice cuánto cambian las probabilidades para un aumento de una unidad en la variable.

Predictores categóricos

Al igual que otros algoritmos de machine learning, podemos incorporar variables categóricas para hacer predicciones para la regresión. Cuando trabajamos con variables categóricas o discretas, a menudo utilizamos técnicas de característica de ingeniería como la codificación one-hot o variables ficticias para convertirlas a un formato binario que el modelo pueda usar.

Por ejemplo, utilizando el mismo concepto anterior, digamos que queremos predecir si alguien es aprobado para un préstamo ( $y = 1$ para aprobado, $y = 0$ para no aprobado) en función de si todavía tienen una deuda existente:

- Let $x = 0$ significa que no tienen deuda existente

- Let $x = 1$ significa que tienen deuda existente

Nuestras probabilidades de registro de $y = a p p r o v a l$ sería $y = b_{0} + b_{1} * x_{1}$

El coeficiente $b_{1}$ , representa el cambio en las probabilidades logarítmicas de ser aprobado cuando la persona tiene una deuda existente, en comparación con alguien que no la tiene.

Para que esto sea más interpretable, podemos exponenciar b1 para obtener la razón de probabilidades:

Si $b_{1}$ es positivo, $e$ al poder de $b_{1}$ es mayor que 1, lo que significa que tener deuda existente aumenta las probabilidades de ser aprobado.
Si $b_{1}$ es negativo, $e$ al poder de $b_{1}$ es menor que 1, lo que significa que tener deuda existente disminuye las probabilidades de aprobación.
Si $b_{1}$ es 0, $e$ al poder de $b_{1}$ es 1, lo que significa que el estado de la deuda no tiene ningún efecto.

Entonces, aunque perdemos la interpretación directa de los coeficientes de la regresión lineal, la regresión logística aún ofrece insights ricos e interpretables, especialmente cuando los enmarcamos en términos de probabilidades y cambios de probabilidad. La magnitud del aumento o disminución de la probabilidad en función de $x$ no corresponde a una unidad de aumento en $x$ , pero depende de dónde $x$ está en un punto determinado.

AI Academy

Ponga la IA a trabajar para servicio al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Ir al episodio

Estimación de máxima verosimilitud

Los coeficientes de regresión logística, $β 0$ y $β_{1}$ , se estiman mediante la estimación de máxima verosimilitud (MLE). La idea central detrás de MLE es encontrar los parámetros que hacen que los datos observados sean más "probables" bajo el modelo de regresión logística.

En la regresión logística, modelamos la probabilidad de que la variable objetivo $y_{1}$ es 1 (por ejemplo, "aprobado") dada una entrada $x_{1}$ mediante el uso de la función logística (sigmoide):

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

MLE prueba diferentes combinaciones de $b_{0}$ Y $b_{1}$ , y para cada combinación, pregunta: ¿Qué tan probable es que veamos los resultados reales en nuestros datos, dados estos parámetros?

Esto se captura mediante el uso de la función de probabilidad, que multiplica las probabilidades previstas para cada punto de datos:

$L (β_{0}, β_{1}) = \prod_{i = 1}^{n} p {(x_{i})}^{y_{i}} \cdot (1 - p (x_{i}))^{1 - y_{i}}$

- Si $y_{1} = 1$ =1 (“aprobado”), queremos que la probabilidad predicha del modelo $P (x_{1})$ estar tan cerca como 1. El término $p (x i)^{y} i$ aborda esto. Si los datos reales observados de y1 son realmente "aprobados" o 1, el término será 1.

- Si $y_{1} = 0$ =0, queremos que la probabilidad prevista sea cercana a 0. El término $(1 - p (x_{i}))^{1 - y_{i}}$ maneja este caso. Si los datos reales observados de $y 1$ es "no aprobado" o 0, el valor será $p (x_{i})$ será cercano a 0, por lo tanto $1 - p (x_{i})$ estará cerca de 1.

Entonces, para cada punto de datos, multiplicamos $p (x 1)$ O $1 - p (x_{i})$ , dependiendo de si la etiqueta real es 1 o 0. El producto de todos los ejemplos nos da un solo número: la probabilidad de ver todo el conjunto de datos bajo el modelo actual. Como podemos ver, si los resultados previstos (usando parámetros $b_{0}$ Y $b_{1}$ ) se ajustan a los datos observados, se maximizará el valor de la probabilidad. La razón detrás de multiplicar todas las probabilidades es que asumimos que los resultados son independientes entre sí. En otras palabras, la probabilidad de aprobación de una persona no debe influir en la probabilidad de aprobación de otra persona.

Debido a que este producto puede ser extremadamente pequeño, generalmente trabajamos con la probabilidad logarítmica, que convierte el producto en una suma y es más fácil de calcular y optimizar.

Para encontrar los valores de $b_{0}$ Y $b_{1}$ que maximizan la probabilidad logarítmica, utilizamos el descenso del gradiente, un algoritmo de optimización iterativo. En cada paso, calculamos cómo cambia la probabilidad logarítmica con respecto a cada parámetro (por ejemplo, su gradiente) y luego actualizamos los parámetros ligeramente en la dirección que aumenta la probabilidad. Con el tiempo, este proceso converge hacia los valores de $b_{0}$ Y $b_{1}$ que mejor se ajusten a los datos.

Tipos de regresión logística

Hay tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.

Regresión logística binaria: en este enfoque, la respuesta o variable dependiente es de naturaleza dicotómica, es decir, solo tiene dos resultados posibles (por ejemplo, 0 o 1). Algunos ejemplos populares de su uso incluyen predecir si un correo electrónico es spam o no o si un tumor es maligno o no. Dentro de la regresión logística, éste es el enfoque más utilizado y, de forma más general, es uno de los clasificadores más comunes para la clasificación binaria.
Regresión logística multinomial: en este tipo de modelo de regresión logística, la variable dependiente tiene tres o más resultados posibles; sin embargo, estos valores no tienen un orden específico. Por ejemplo, los estudios cinematográficos quieren predecir qué género de película es probable que vea un cinéfilo para comercializar las películas de manera más efectiva. Un modelo de regresión logística multinomial puede ayudar al estudio a determinar la fuerza de influencia que la edad, el sexo y el estado de citas de una persona pueden tener en el tipo de película que prefieren. Luego, el estudio puede orientar una campaña publicitaria de una película específica hacia un grupo de personas que probablemente irán a verla.
Regresión logística ordinal: este tipo de modelo de regresión logística se aprovecha cuando la variable de respuesta tiene tres o más resultados posibles, pero en este caso, estos valores sí tienen un orden definido. Ejemplos de respuestas ordinales incluyen escalas de calificación de A a F o escalas de calificación de 1 a 5.

Casos de uso de regresión logística

La regresión logística se utiliza habitualmente para problemas de predicción y clasificación. Algunos de estos casos de uso son:

Detección de fraude: los modelos de regresión logística pueden ayudar a los equipos a identificar anomalías en los datos, que predicen el fraude. Ciertos comportamientos o características pueden tener una mayor asociación con actividades fraudulentas, lo que es particularmente útil para los bancos y otras instituciones financieras a la hora de proteger a sus clientes. Las empresas basadas en SaaS también han comenzado a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos al realizar análisis de datos en torno al rendimiento empresarial.
Predicción de enfermedades: en medicina, este enfoque analítico se puede utilizar para predecir la probabilidad de enfermedad para una población determinada. Las organizaciones de atención médica pueden establecer atención preventiva para las personas que muestran una mayor propensión a enfermedades específicas.
Predicción de abandono: los comportamientos específicos pueden ser indicativos de abandono en diferentes funciones de una organización. Por ejemplo, los equipos de recursos humanos y gestión pueden querer saber si hay empleados de alto rendimiento dentro de la empresa que corren el riesgo de abandonar la organización. Este tipo de insight puede dar una instrucción para comprender las áreas problemáticas dentro de la empresa, como la cultura o la compensación. Alternativamente, la organización de ventas puede querer saber cuáles de sus clientes corren el riesgo de llevar su negocio a otra parte. Esto puede incitar a los equipos a establecer una estrategia de retención para evitar la pérdida de ingresos.

IBM® X-Force Threat Intelligence Index 2026

Obtenga insights para prepararse y responder a los ataques cibernéticos con mayor rapidez y eficacia con el IBM® X-Force Threat Intelligence Index.

Qué es la regresión logística

Qué es la regresión logística

Únase a los más de 100 000 suscriptores que leen las últimas noticias en tecnología

¡Gracias!

Regresión logística frente a regresión lineal

Regresión logística tras bambalinas

Cuotas, probabilidades logarítmicas y razón de probabilidades

Cuotas

Log Odds

Razón de probabilidades

Coeficientes de regresión logística

Predictores continuos

Predictores categóricos

Ponga la IA a trabajar para servicio al cliente

Estimación de máxima verosimilitud

Tipos de regresión logística

Casos de uso de regresión logística

Recursos