¿Qué es la regresión logística?

Altavoz inteligente sobre la mesa del salón.

La regresión logística estima la probabilidad de que ocurra un evento, como votar o no votar, en función de un conjunto de datos determinado de variables independientes.

Este tipo de modelo estadístico (también conocido como modelo logit) se utiliza comunmente para la clasificación y el análisis predictivo. Dado que el resultado es una probabilidad, la variable dependiente está limitada entre 0 y 1.

En la regresión logística se aplica una transformación logit a las probabilidades, es decir, la probabilidad de éxito dividida por la probabilidad de fracaso. Esto también se conoce comúnmente como probabilidades logarítmicas, o el logaritmo natural de probabilidades, y esta función logística se representa mediante las siguientes fórmulas:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

En esta ecuación de regresión logística, logit (pi) es la variable dependiente o de respuesta y x es la variable independiente. El parámetro beta, o coeficiente, en este modelo se estima comúnmente a través de la estimación de máxima verosimilitud (MLE). Este método prueba diferentes valores de beta a través de múltiples iteraciones para optimizar el mejor ajuste de las probabilidades de registro.

Todas estas iteraciones producen la función de verosimilitud logarítmica, y la regresión logística busca maximizar esta función para encontrar la mejor estimación de parámetros. Una vez que se encuentra el coeficiente óptimo (o los coeficientes si hay más de una variable independiente), las probabilidades condicionales para cada observación se pueden calcular, registrar y sumar para obtener una probabilidad predicha.

Para la clasificación binaria, una probabilidad menor a 0.5 predice 0, mientras que una probabilidad mayor a 0 predice 1. Después de calcular el modelo, la mejor práctica consiste en evaluar qué tan bien el modelo predice la variable dependiente, lo que se denomina bondad de ajuste. La prueba de Hosmer-Lemeshow es un método popular para evaluar el ajuste del modelo.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Interpretación de la regresión logística

Puede ser difícil entender las probabilidades logarítmicas dentro de un análisis de datos de regresión logística. Como resultado, es común exponenciar las estimaciones beta para transformar los resultados en un índice de probabilidad (OR), lo que facilita la interpretación de los resultados.

El OR representa las probabilidades de que ocurra un resultado dado un evento particular, en comparación con las probabilidades de que el resultado ocurra en ausencia de ese evento. Si el OR es mayor que 1, entonces el evento está asociado con mayores probabilidades de generar un resultado específico. Por el contrario, si el OR es menor que 1, entonces el evento se asocia con menores probabilidades de que ocurra ese resultado.

Según la ecuación anterior, la interpretación de una razón de probabilidades se puede denotar de la siguiente manera: las probabilidades de éxito cambian en exp(cB_1) veces por cada aumento de c unidades en x. Para usar un ejemplo, digamos que tuviéramos que estimar las probabilidades de supervivencia en el Titanic dado que la persona era hombre y la razón de probabilidades para los hombres era 0.0810. Interpretaríamos el índice de probabilidad como que las probabilidades de supervivencia de los hombres disminuyeron en un factor de 0.0810, en comparación con las mujeres, manteniendo constantes todas las demás variables.

Mixture of Experts | 28 de agosto, episodio 70

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Diferencia entre la regresión logística y la regresión lineal

Tanto la regresión lineal como la logística son modelos muy populares dentro de la ciencia de datos, y las herramientas de código abierto como Python y R facilitan y aceleran su cálculo.

Los modelos de regresión lineal se utilizan para identificar la relación entre una variable dependiente continua y una o más variables independientes. Cuando solo hay una variable independiente y una variable dependiente, se conoce como regresión lineal simple, pero a medida que aumenta el número de variables independientes, se conoce como regresión lineal múltiple. Para cada tipo de regresión lineal, busca trazar una línea de mejor ajuste a través de un conjunto de puntos de datos, que generalmente se calcula utilizando el método de mínimos cuadrados.

Al igual que la regresión lineal, la regresión logística también se utiliza para estimar la relación entre una variable dependiente y una o más variables independientes, pero se utiliza para hacer una predicción sobre una variable categórica frente a una continua. Una variable categórica puede ser verdadera o falsa, sí o no, 1 o 0, etc. La unidad de medida también difiere de la regresión lineal en que produce una probabilidad, pero la función logit transforma la curva S en línea recta.

Si bien ambos modelos se utilizan en el análisis de regresión para hacer predicciones sobre resultados futuros, la regresión lineal suele ser más fácil de entender. La regresión lineal tampoco requiere un tamaño de muestra tan grande como la regresión logística necesita una muestra adecuada para representar valores en todas las categorías de respuesta. Sin una muestra más grande y representativa, es posible que el modelo no tenga suficiente poder estadístico para detectar un efecto significativo.

Tipos de regresión logística

Hay tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.

Regresión logística binaria

 

En este enfoque, la respuesta o variable dependiente es de naturaleza dicotómica, es decir, solo tiene dos resultados posibles (por ejemplo, 0 o 1). Algunos ejemplos populares de su uso incluyen predecir si un correo electrónico es spam o no o si un tumor es maligno o no.

Dentro de la regresión logística, éste es el enfoque más utilizado y, de forma más general, es uno de los clasificadores más comunes para la clasificación binaria.

Regresión logística multinomial

 

En este tipo de modelo de regresión logística, la variable dependiente tiene tres o más resultados posibles; sin embargo, estos valores no tienen un orden especificado. Por ejemplo, los estudios cinematográficos quieren predecir qué género de película es probable que vea un cinéfilo para comercializar las películas de manera más efectiva.

Un modelo de regresión logística multinomial puede ayudar al estudio a determinar la fuerza de influencia que la edad, el sexo y el estado de citas de una persona pueden tener en el tipo de película que prefieren. Luego, el estudio puede orientar una campaña publicitaria de una película específica hacia un grupo de personas que probablemente irán a verla.

Regresión logística ordinal

 

Este tipo de modelo de regresión logística se aprovecha cuando la variable de respuesta tiene tres o más resultados posibles, pero en este caso, estos valores sí tienen un orden definido. Ejemplos de respuestas ordinales incluyen escalas de calificación de A a F o escalas de calificación de 1 a 5.

Regresión logística y machine learning

Dentro del machine learning, la regresión logística pertenece a la familia de modelos de machine learning supervisado. También se considera un modelo discriminativo, lo que significa que intenta distinguir entre clases (o categorías). A diferencia de un algoritmo generativo, como los bayes ingenuos, no puede, como su nombre lo indica, generar información, como una imagen, de la clase que está tratando de predecir (por ejemplo, una imagen de un gato).

Anteriormente, mencionamos cómo la regresión logística maximiza la función de verosimilitud logarítmica para determinar los coeficientes beta del modelo. Esto cambia ligeramente en el contexto del machine learning. Dentro del machine learning, se utilizó el logaritmo de probabilidad negativo como función de pérdida, utilizando el proceso de descenso de gradiente para encontrar el máximo global. Esta es solo otra forma de llegar a las mismas estimaciones discutidas anteriormente.

La regresión logística también puede ser propensa al sobreajuste, especialmente cuando hay una gran cantidad de variables predictoras dentro del modelo. La regularización se utiliza normalmente para penalizar parámetros con coeficientes grandes cuando el modelo adolece de una alta dimensionalidad.

Scikit-learn proporciona documentación valiosa para aprender más sobre el modelo de machine learning de regresión logística.

Casos de uso de regresión logística

La regresión logística se utiliza habitualmente para problemas de predicción y clasificación. Algunos de estos casos de uso son:

Predicción de enfermedades

 

Los modelos de regresión logística pueden ayudar a los equipos a identificar anomalías en los datos, que predicen el fraude. Ciertos comportamientos o características pueden tener una mayor asociación con actividades fraudulentas, lo que es particularmente útil para los bancos y otras instituciones financieras a la hora de proteger a sus clientes.

Las empresas basadas en SaaS también han comenzado a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos al realizar análisis de datos en torno al rendimiento empresarial.

Predicción de enfermedades

 

En medicina, este enfoque analítico se puede utilizar para predecir la probabilidad de enfermedad para una población determinada. Las organizaciones de atención médica pueden establecer atención preventiva para las personas que muestran una mayor propensión a enfermedades específicas.

Predicción de enfermedades

 

Los comportamientos específicos pueden ser indicativos de abandono en diferentes funciones de una organización. Por ejemplo, los equipos de recursos humanos y gestión pueden querer saber si hay empleados de alto rendimiento dentro de la empresa que corren el riesgo de abandonar la organización; este tipo de información puede impulsar conversaciones para comprender las áreas problemáticas dentro de la empresa, como la cultura o la compensación.

Alternativamente, la organización de ventas puede querer saber cuáles de sus clientes corren el riesgo de llevar su negocio a otra parte. Esto puede incitar a los equipos a establecer una estrategia de retención para evitar la pérdida de ingresos.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo