¿Qué es la regresión logística?
Aplique la regresión logística con watsonx.ai Suscríbase para conocer lo último en IA
Ilustración que muestra el análisis de datos y los procesos de toma de decisiones en la regresión logística para hacer mejores predicciones
¿Qué es la regresión logística?

La regresión logística estima la probabilidad de que ocurra un evento, como votar o no votar, en función de un conjunto de datos dado de variables independientes.

Este tipo de modelo estadístico (también conocido como modelo logit) se utiliza a menudo para la clasificación y el análisis predictivo. Dado que el resultado es una probabilidad, la variable dependiente está acotada entre 0 y 1. En la regresión logística, se aplica una transformación logit sobre las probabilidades, es decir, la probabilidad de éxito dividida por la probabilidad de fracaso. También se conoce comúnmente como logaritmo de probabilidades, o logaritmo natural de probabilidades, y esta función logística se representa mediante las siguientes fórmulas: 

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

En esta ecuación de regresión logística, logit(pi) es la variable dependiente o de respuesta y x es la variable independiente. El parámetro beta, o coeficiente, en este modelo se estima comúnmente a través de la estimación de máxima verosimilitud (MLE). Este método prueba diferentes valores de beta a través de múltiples iteraciones para optimizar el mejor ajuste de las probabilidades logarítmicas. Todas estas iteraciones producen la función de verosimilitud logarítmica, y la regresión logística busca maximizar esta función para encontrar la mejor estimación de parámetros. Una vez que se encuentra el coeficiente óptimo (o los coeficientes, si hay más de una variable independiente), las probabilidades condicionales para cada observación se pueden calcular, registrar y sumar para obtener una probabilidad prevista. Para la clasificación binaria, una probabilidad menor que 5 predecirá 0, mientras que una probabilidad mayor que 0 predecirá 1.  Una vez que se ha calculado el modelo, se recomienda evaluar qué tan bien predice la variable dependiente, lo que se denomina bondad de ajuste. La prueba de Hosmer-Lemeshow es un método popular para evaluar el ajuste del modelo.

Por qué la gobernanza de IA es un imperativo empresarial para escalar la IA empresarial

Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gestión de riesgos y gobernanza de la IA.

Contenido relacionado

Regístrese para obtener el libro electrónico en Presto

Interpretación de la regresión logística

 

Las probabilidades logarítmicas pueden ser difíciles de entender en un análisis de datos de regresión logística. Como resultado, es habitual exponenciar las estimaciones beta para transformar los resultados en un cociente de probabilidades (OR), lo que facilita la interpretación de los resultados. El OR representa las probabilidades de que se produzca un resultado dado un evento en particular, en comparación con las probabilidades de que el resultado ocurra en ausencia de ese evento. Si el OR es mayor que 1, el evento se asocia con probabilidades más altas de generar un resultado específico. Por el contrario, si el OR es inferior a 1, el evento se asocia con una probabilidad más baja de que se produzca ese resultado. Según la ecuación anterior, la interpretación de un cociente de probabilidades puede ser la siguiente: las probabilidades de éxito cambian exp(cB_1) veces por cada aumento de c unidades en x. Para poner un ejemplo, supongamos que tuviéramos que estimar las probabilidades de supervivencia en el Titanic en el caso de que una persona fuera varón, siendo el cociente de probabilidades para los varones de 0,0810. Interpretaríamos el cociente de probabilidades como que las probabilidades de supervivencia de los varones disminuyen en un factor de 0,0810 en comparación con las mujeres, manteniendo todas las demás variables constantes.

 

 

Lea el informe técnico
Regresión lineal vs. regresión logística

Tanto la regresión lineal como la logística se encuentran entre los modelos más populares dentro de la ciencia de datos, y las herramientas de código abierto, como Python y R, hacen que el cálculo sea rápido y sencillo.

Los modelos de regresión lineal se utilizan para identificar la relación entre una variable dependiente continua y una o más variables independientes. Cuando solo hay una variable independiente y una variable dependiente, se conoce como regresión lineal simple, pero a medida que aumenta el número de variables independientes, se denomina regresión lineal múltiple. Para cada tipo de regresión lineal, busca trazar una línea de mejor ajuste a través de un conjunto de puntos de datos, que normalmente se calcula utilizando el método de mínimos cuadrados.

Al igual que la regresión lineal, la regresión logística también se utiliza para estimar la relación entre una variable dependiente y una o más variables independientes, pero se utiliza para hacer una predicción sobre una variable categórica frente a una continua. Una variable categórica puede ser verdadera o falsa, sí o no, 1 o 0, etcétera. La unidad de medida también difiere de la regresión lineal, ya que produce una probabilidad, pero la función logit transforma la curva S en línea recta.  

Si bien ambos modelos se utilizan en el análisis de regresión para hacer predicciones sobre resultados futuros, la regresión lineal suele ser más fácil de entender. La regresión lineal tampoco requiere un tamaño de muestra tan grande como la regresión logística, que necesita una muestra adecuada para representar los valores en todas las categorías de respuesta. Sin una muestra más grande y representativa, es posible que el modelo no tenga suficiente poder estadístico para detectar un efecto significativo.

Tipos de regresión logística

Existen tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.

  • Regresión logística binaria: en este enfoque, la respuesta o variable dependiente es de naturaleza dicotómica, es decir, solo tiene dos resultados posibles (p. ej., 0 o 1). Algunos ejemplos populares de su uso incluyen la predicción de si un correo electrónico es spam o no spam, o si un tumor es maligno o no. Dentro de la regresión logística, este es el enfoque más utilizado y, de manera más general, es uno de los clasificadores más comunes para la clasificación binaria.
  • Regresión logística multinomial: en este tipo de modelo de regresión logística, la variable dependiente tiene tres o más resultados posibles; sin embargo, estos valores no tienen un orden especificado.  Por ejemplo, los estudios cinematográficos quieren predecir qué género de película es probable que vea un espectador para comercializar las películas de manera más efectiva. Un modelo de regresión logística multinomial puede ayudar al estudio a determinar la fuerza de influencia que la edad, el sexo y el estado civil de una persona pueden tener en el tipo de película que prefiere. Luego, el estudio puede orientar una campaña publicitaria de una película específica hacia un grupo de personas que probablemente vayan a verla.
  • Regresión logística ordinal: este tipo de modelo de regresión logística se utiliza cuando la variable de respuesta tiene tres o más resultados posibles, pero en este caso, estos valores tienen un orden definido. Algunos ejemplos de respuestas ordinales incluyen las escalas de calificación de la A a la F o las escalas de calificación del 1 al 5. 
Un vistazo al interior de la mente de un científico de datos
Regresión logística y machine learning

Dentro del machine learning, la regresión logística pertenece a la familia de modelos de machine learning supervisado. También se considera un modelo discriminativo, lo que significa que intenta distinguir entre clases (o categorías). A diferencia de un algoritmo generativo, como el clasificador bayesiano ingenuo, no puede, como su nombre indica, generar información, como una imagen, de la clase que intenta predecir (por ejemplo, una imagen de un gato).

Anteriormente, mencionamos cómo la regresión logística maximiza la función de probabilidad logarítmica para determinar los coeficientes beta del modelo. Esto cambia ligeramente bajo el contexto del machine learning. Dentro del machine learning, la probabilidad logarítmica negativa se usa como función de pérdida, utilizando el proceso de descenso del gradiente para encontrar el máximo global. Esta es solo otra forma de llegar a las mismas estimaciones mencionadas anteriormente.

La regresión logística también puede ser propensa a un sobreajuste, particularmente cuando hay una gran cantidad de variables predictivas dentro del modelo. La regularización se utiliza normalmente para penalizar parámetros con coeficientes grandes cuando el modelo adolece de una alta dimensionalidad.

Scikit-learn (enlace externo) proporciona documentación valiosa para obtener más información sobre el modelo de machine learning de regresión logística.

Casos de uso de regresión logística

La regresión logística se usa comúnmente para problemas de predicción y clasificación. Algunos de estos casos de uso incluyen:

  • Detección de fraudes: los modelos de regresión logística pueden ayudar a los equipos a identificar anomalías en los datos, que son predictivas de fraude. Determinados comportamientos o características pueden tener una mayor asociación con las actividades fraudulentas, lo que resulta especialmente útil para las instituciones bancarias y otras entidades financieras a la hora de proteger a sus clientes. Las empresas basadas en SaaS también han empezado a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos cuando realizan análisis de datos en torno al rendimiento empresarial.
  • Predicción de enfermedades: en medicina, este enfoque analítico se puede utilizar para predecir la probabilidad de enfermedad o dolencia para una población determinada. Las organizaciones de atención médica pueden establecer atención preventiva para las personas que muestran una mayor propensión a enfermedades específicas.
  • Predicción de abandono: los comportamientos específicos pueden ser indicativos de abandono en diferentes funciones de una organización. Por ejemplo, los equipos de Recursos Humanos y de gestión pueden querer saber si hay personas de alto rendimiento dentro de la empresa que corren el riesgo de abandonar la organización. Este tipo de información puede suscitar conversaciones para comprender las áreas problemáticas dentro de la empresa, como la cultura o la compensación. Alternativamente, la organización de ventas puede querer saber cuáles de sus clientes corren el riesgo de llevar su actividad a otra parte. Esto puede hacer que los equipos establezcan una estrategia de retención para evitar la pérdida de ingresos.
Ejemplos de éxito de la regresión logística Evaluar el riesgo crediticio

La regresión logística binaria puede ayudar a los banqueros a evaluar el riesgo crediticio. Descubra cómo puede usar una muestra aleatoria para crear un modelo de regresión logística y clasificar a los clientes como riesgos buenos o malos.

Aumentar los beneficios del sector bancario

First Tennessee Bank impulsó la rentabilidad mediante el uso de analítica predictiva y logística con el software IBM SPSS y logró aumentos de hasta el 600 % en campañas de venta cruzada. First Tennessee está utilizando técnicas de análisis predictivo y análisis logístico dentro de una solución analítica para obtener una mayor comprensión de todos sus datos.

Soluciones relacionadas
watsonx.ai

Dé el siguiente paso para empezar a operacionalizar y ampliar la IA generativa y el aprendizaje automático para las empresas.

Explore watsonx.ai
IBM SPSS Modeler

Impulse el retorno de la inversión con una herramienta de ciencia de datos de arrastrar y soltar.

Explorar SPSS Modeler
IBM Watson Studio

Cree y entrene modelos de IA y machine learning, y prepare y analice datos, todo en un entorno de nube híbrida flexible.

Explore watsonx Studio
Recursos relacionados Implementación de la regresión logística desde cero en Python

Aprenda a entrenar su propio modelo de regresión binaria personalizado. Sepa cómo generar probabilidades, clasificar ejemplos y comprender el descenso de gradientes.

Realice una regresión logística con TensorFlow

Cree un Jupyter Notebook que contenga código de Python para definir la regresión logística y, luego, use TensorFlow para implementarla.

Entrenamiento homomórfico de 30 000 modelos de regresión logística.

Los investigadores de IBM muestran que el uso del esquema de cifrado homomórfico CKKS puede entrenar un gran número de modelos de regresión logística simultáneamente.

Dé el siguiente paso

Cree una estrategia de IA para su empresa en una plataforma colaborativa de datos e inteligencia artificial llamada IBM watsonx, en la que podrá entrenar, validar, ajustar e implementar modelos de IA para ayudarle a escalar y acelerar el impacto de la IA con datos confiables en toda su empresa.

Explore watsonx Reserve una demostración en directo