Regresión logística

Prevea resultados y tome mejores decisiones

Project Manager Does Motivational Presentation or Team of Electronics Development Engineers, he Uses Digital Whiteboard with Neural Network, AI and Machine Learning.

¿Qué es la regresión logística?

Este tipo de análisis estadístico (también conocido como modelo logit) se utiliza a menudo para el modelado y la analítica predictiva, y se extiende a las aplicaciones de machine learning. En este enfoque analítico, la variable dependiente es finita o categórica, ya sea A o B (regresión binaria) o una variedad de opciones finitas A, B, C o D (regresión multinomial). Se utiliza en software estadístico para comprender la relación entre la variable dependiente y una o más variables independientes mediante la estimación de probabilidades con una ecuación de regresión logística. 

Este tipo de análisis puede ayudarle a predecir la probabilidad de que ocurra un evento o de que se tome una decisión. Por ejemplo, es posible que desee conocer la probabilidad de que un visitante elija una oferta realizada en su sitio web, o no (variable dependiente). Su análisis puede observar las características conocidas de los visitantes, como los sitios de los que provienen, las visitas repetidas a su sitio, el comportamiento en su sitio (variables independientes). Los modelos de regresión logística le ayudan a determinar una probabilidad de qué tipo de visitantes probablemente aceptarán la oferta, o no. Como resultado, puede tomar mejores decisiones sobre la promoción de su oferta o tomar decisiones sobre la oferta en sí.


Machine learning y modelos predictivos

Machine learning utiliza conceptos estadísticos para permitir que las máquinas (computadoras) "aprendan" sin programación explícita. Un enfoque logístico se adapta mejor cuando la tarea que la máquina está aprendiendo se basa en dos valores, o en una clasificación binaria. Usando el ejemplo anterior, su computadora podría usar este tipo de análisis para tomar decisiones sobre la promoción de su oferta y tomar acciones por sí misma. Y, a medida que se proporcionen más datos,  podría aprender a hacerlo mejor con el tiempo.

Algunos tipos de modelos predictivos que utilizan análisis logístico:

  • Modelo lineal generalizado
  • Elección discreta
  • Logit multinomial
  • Logit mixto
  • Probit
  • Probit multinomial
  • Logit ordenado

¿Por qué es importante la regresión logística?

Los modelos predictivos creados con este enfoque pueden marcar una diferencia positiva en su empresa u organización. Debido a que estos modelos le ayudan a comprender las relaciones y prever los resultados, podrá actuar para mejorar la toma de decisiones. Por ejemplo, el equipo de analítica de un fabricante puede utilizar el análisis de regresión logística  como parte de un paquete de software de estadísticas para descubrir una probabilidad entre las fallas de las piezas en las máquinas y el tiempo que esas piezas se mantienen en el inventario. Con la información que recibe de este análisis, el equipo puede decidir ajustar los horarios de entrega o los tiempos de instalación para eliminar fallas futuras.

En medicina, este enfoque analítico se puede utilizar para predecir la probabilidad de enfermedad o dolencia para una población determinada, lo que significa que se puede implementar atención preventiva. Las empresas pueden utilizar este enfoque para descubrir patrones que conduzcan a una mayor retención de empleados o crear productos más rentables mediante el análisis del comportamiento del comprador. En el mundo empresarial, este tipo de análisis es aplicado por  científicos de datos cuyo objetivo es claro: analizar e interpretar datos digitales complejos.


Conceptos y aplicaciones estadísticos

Ciertamente, el análisis multinomial puede ayudar cuando examina una variedad de resultados categóricos: A, B, C o D. Pero el análisis binario (sí o no, presente o ausente) se usa con más frecuencia. Aunque los resultados son limitados, las posibilidades no lo son. La regresión logística binaria se puede utilizar para examinar todo, desde estadísticas de béisbol hasta susceptibilidad a deslizamientos de tierra y análisis de escritura a mano.

Este enfoque de la analítica también resulta útil para una variedad de conceptos y aplicaciones estadísticos:

  • Analítica de texto
  • Detección automática de interacción chi-cuadrado (CHAID)
  • Análisis conjoint
  • Estadísticas de bootstrap
  • Regresión no lineal
  • Software de análisis de conglomerados y estadísticas de conglomerados
  • Simulación Monte Carlo
  • Estadísticas descriptivas

El uso de software de análisis estadístico ofrece un gran valor para enfoques como el análisis de regresión logística, el análisis multivariado, las redes neuronales, los árboles de decisión y la regresión lineal. Pero recuerde: las soluciones de hardware y de computación en la nube también deben considerarse si necesita acomodar grandes conjuntos de datos, ya sea en las instalaciones, en la nube o en una configuración de nube híbrida.


Principales hipótesis de la regresión lineal efectiva

¿Cuándo es este enfoque más eficaz o ineficaz?

Si bien la regresión logística binaria se usa y analiza con más frecuencia, puede ser útil considerar cuándo cada tipo es más efectivo.

Multinomial  se puede utilizar para clasificar a los sujetos en grupos basándose en un rango categórico de variables para prever el comportamiento. Por ejemplo, puede realizar una encuesta en la que se les pide a los participantes que seleccionen uno de varios productos de la competencia como su favorito. Puede crear perfiles de personas que probablemente estén interesadas en su producto y planificar su estrategia publicitaria en consecuencia.

Binario  es más útil cuando desea modelar la probabilidad del evento para una variable de respuesta categórica con dos resultados. Un oficial de préstamos quiere saber si es probable que el próximo cliente incumpla, o no, en un préstamo. El análisis binario puede ayudar a evaluar el riesgo de otorgar crédito a un cliente en particular.


Peligros potenciales

 

También es útil comprender cuándo este tipo de análisis puede resultar ineficaz, según The Classroom: The Disadvantages of Logistic Regression (enlace externo a ibm.com). Estos son algunos peligros a los que debe prestar atención:

  • Las variables independientes deben ser válidas. Las variables incorrectas o incompletas degradarán el valor predictivo de un modelo.
  • Evite los resultados continuos. Las temperaturas, el tiempo o cualquier cosa que sea indefinida harán que el modelo sea mucho menos preciso.
  • No utilice datos interrelacionados. Si algunas observaciones están relacionadas entre sí, el modelo tenderá a sobrestimar su importancia.
  • Tenga cuidado con el sobreajuste o la exageración. Estos modelos de análisis estadístico son precisos, pero la precisión no es infalible o sin varianza.

Herramientas y comparaciones

Herramientas
Puede realizar este enfoque de analítica en Microsoft Excel, pero para casi todas las aplicaciones, incluida la regresión logística condicional, la regresión logística múltiple y la regresión logística multivariante, se recomienda analizar paquetes de software de código abierto (regresión logística R) o comerciales (regresión logística SPSS) para analizar datos y aplicar técnicas de manera más  eficiente. Es posible realizar el análisis en Excel o utilizar paquetes de software estadísticos, como IBM SPSS® Statistics, que simplifican enormemente el proceso de uso de ecuaciones, modelos y fórmulas de regresión logística.

Comparación con la regresión lineal
Cuándo utilizar el análisis lineal o logístico es una pregunta común. Básicamente, el análisis de regresión lineal se aplica de manera más efectiva cuando la variable dependiente es abierta o continua, por ejemplo, distancias o temperaturas astronómicas. Utilice el enfoque logístico cuando la variable dependiente se limite a un rango de valores o sea categórica: A o B ... o A, B, C o D.


Casos de éxito de regresión logística


Soluciones relacionadas

IBM SPSS Advanced Statistics

Obtenga conclusiones más precisas al analizar relaciones complejas utilizando técnicas de modelado univariadas y multivariadas.


IBM SPSS Modeler

Impulse el retorno de inversión con una herramienta de ciencia de datos de arrastrar y soltar.


IBM SPSS Regression

Prevea resultados categóricos y aplique una amplia variedad de procedimientos de regresión no lineal.


IBM Watson Studio

Cree y entrene modelos de inteligencia artificial y de machine learning, prepare y analice datos, todo en un entorno de nube híbrida flexible.


IBM Watson Discovery

Obtenga una forma inteligente y sencilla de extraer y explorar todos sus datos no estructurados con exploración cognitiva, una potente analítica de texto y funcionalidades de machine learning.