Predicciones sobre el futuro, parte 2: Técnicas de modelado predictivo

Este es el segundo artículo de una serie de cuatro partes que se enfoca en los aspectos más importantes de la analítica predictiva. La parte 1 ofrece una visión general sobre la analítica predictiva. Este artículo se enfoca en las técnicas de modelo predictivo, los algoritmos matemáticos que forman el análisis predictivo principal.

Alex Guazzelli, VP de Analítica, Zementis, Inc.

Alex GuazzelliDr. Alex Guazzelli es el VP de Analítica en Zementis Inc., donde es responsable de desarrollar tecnología principal y soluciones predictivas bajo el nombre ADAPA, una plataforma de decisiones basada en PMML. Con más de 20 años de experiencia en analítica predictiva, el Dr. Guazzelli tiene un doctorado en Ciencia de la Computación de la Universidad de California del Sur y es coautor del libro PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, ahora en su segunda edición.



17-12-2012

Introducción

Como sociedad, estamos acumulando datos a una escala exponencial. IBM informa que 90 por ciento de los datos que están disponibles hoy fueron recopilados durante los dos últimos años. Afortunadamente, muchas de las técnicas de modelado predictivo (entre las que se incluyen redes neuronales [NN], agrupación en clúster, máquinas de vectores de soporte [SVM] y normas de asociación) existen para ayudar a traducir estos datos en conocimiento y valor. Esto se logra por medio de patrones de aprendizaje escondidos en grandes volúmenes de datos históricos. Una vez que se completa el aprendizaje, el resultado es un modelo predictivo. Luego de que el modelo se valida, es considerado capaz de generalizar el conocimiento que ha aprendido y aplicarlo a una nueva situación. Dado que las técnicas de modelo predictivo pueden aprender del pasado para predecir el futuro, están siendo aplicadas a una variedad de problemas, como los sistemas de recomendación, detección de fraude y abuso, y la prevención de enfermedades y accidentes. La disponibilidad de "big data" y el procesamiento eficiente en relación con el costo de la energía están expandiendo la aplicabilidad de las técnicas predictivas basadas en datos en diferentes industrias. Al hacerlo, la matemática inteligente está ayudando a más y más compañías a darse cuenta del verdadero potencial escondido en sus datos.

La analítica predictiva es utilizada por compañías e individuos en todo el mundo para extraer el valor de los datos históricos obtenidos de personas y sensores. Los datos sobre personas incluyen transacciones de clientes (por ejemplo, de compras en linea) o de datos desestructurados obtenidos de las redes sociales. Los datos del sensor, por otro lado, vienen de una oleada de dispositivos utilizados para supervisar las carreteras, puentes, edificios, maquinaria, la red eléctrica, la atmósfera y el clima. En este artículo, nos enfocaremos en técnicas de modelado predictivo. Éstos son los algoritmos matemáticos, que se utilizan para "aprender" los patrones escondidos en todos estos datos.

Luego de que el modelo predictivo se construye y valida, es considerado capaz de generalizar el conocimiento que ha aprendido de los datos históricos para predecir el futuro. De este modo, por ejemplo, puede ser utilizado para predecir el riesgo de deserción o cancelación de clientes, en caso de datos sobre personas, o el riesgo de averías en las maquinarias, en el caso de datos de un sensor. Los modelos como éste computan un resultado o riesgo, al implementar una función de regresión. Los modelos predictivos también pueden utilizarse para implementar una función de clasificación, en la que el resultado es una clase o categoría.

Sin importar el tipo de modelo, hay algo que es seguro: los modelos predictivos ya están modelando nuestras experiencias donde sea que vayamos y hagamos lo que hagamos. Estos recomiendan productos y servicios basados en nuestros hábitos. Estos ayudan a los proveedores de salud a diseñar e implementar medidas preventivas para salvar vidas, dada nuestra susceptibilidad hacia una enfermedad particular.


El nacimiento de un modelo predictivo

Los modelos predictivos nacen siempre que se utilicen datos para entrenar una técnica de modelado predictivo. Para decirlo formalmente, la suma de los datos más la técnica de modelado predictivo es igual al modelo.

Un modelo predictivo es entonces el resultado de la combinación de datos y matemática, donde el aprendizaje puede ser traducido en la creación de una función de correlación entre un conjunto de campos de datos de entrada y una respuesta o destino variable.

Para desarrollar un modelo predictivo, primero necesita ensamblar la base de datos que será utilizada para capacitación. Para esto, un conjunto de campos de entrada que representen al cliente, por ejemplo, se ensambla junto en un registro. Este registro puede contener características como edad, género, código postal, número de elementos comprados durante los últimos seis meses y un número de elementos devueltos, combinados con la variable de destino que puede ser utilizada para informarnos si este cliente ha cancelado o no anteriormente. Un registro de cliente puede ser descrito matemáticamente como un vector en un dispositivo espacial multidimensional, ya que se utilizan múltiples dispositivos para definir el objeto del tipo de cliente. Cuando todos los registros de clientes son ensamblados juntos, se convierten en un conjunto de datos que puede contener millones de registros. La Ilustración 1 muestra una representación bidimensional (utilizando la característica "edad" y "número de elementos comprados") de unos pocos vectores de entrada u objetos de cliente.

Figura 1. La representación bidimensional de los vectores de entrada en la que cada vector u objeto de cliente está representado por una estrella amarilla.
Two-dimensional representation of input vectors in which each vector or customer object is represented by a yellow star

Las técnicas de modelado predictivo permiten el desarrollo de modelos predictivos precisos, siempre y cuando existan datos suficientes y la calidad de los datos no sea un problema. Los malos datos otorgan un mal modelo, sin importar lo buena que sea la técnica predictiva. Y por esto existe la máxima: "Basura que entra, basura que sale".


Técnicas comunes de modelado predictivo

Hoy existen numerosas técnicas predictivas para un modelo de desarrollo. Las diferentes técnicas están soportadas por distintos sistemas y proveedores, pero media docena de técnicas o más son soportadas por casi todos los entornos de desarrollo de modelos, ya sean comerciales o de fuente abierta. A pesar de que algunos son específicos para un problema de una sola clase, unos pocos son genéricos y pueden ser utilizados para una variedad de aplicaciones. Las máquinas de vectores de soporte (SVM) por ejemplo, se encuentran en esta categoría.

Una SVM realiza una correlación de los datos de entrada sobre los vectores en un espacio con más dimensión, donde se construye un "hiperplano óptimo" que separa los datos. Dos hiperplanos paralelos se construyen a ambos lados de este hiperplano. La Ilustración 2 muestra un ejemplo en el que un hiperplano óptimo se muestra separando dos categorías de datos (triángulos y cuadrados). El hiperplano de separación óptimo es aquel que maximiza la distancia entre dos hiperplanos paralelos. Mientras más grande sea la distancia entre los dos hiperplanos, se cree que el modelo será más preciso. Los puntos de datos que se encuentran en uno de los dos hiperplanos paralelos que definen la distancia más larga se conocen como vectores de soporte.

Figura 2. Vista bidimensional de un hiperplano óptimo separando datos y vectores de soporte
Two-dimensional view of an optimal hyperplane separating data and support vectors

Las SVM, así como también las NN y los modelos de regresión lógica, son técnicas genéricas poderosas que a pesar de ser matemáticamente diferentes, generan de algún modo resultados comparables. Los árboles de decisión también representan otra técnica general de modelado predictivo que sobresale por su habilidad para explicar la racionalidad detrás del producto de salida. Ya que son fáciles de usar y de entender, los árboles de decisión son los más usados entre las técnicas de modelado predictivo.

Las técnicas de agrupación en clúster, por otro lado, son muy populares siempre que la variable de destino o respuesta no sea importante o no esté disponible. Como su nombre lo indica, las técnicas de agrupación en clúster son capaces de agrupar los datos de entrada dependiendo de su similitud. La Ilustración 3 muestra un ejemplo en el que los datos de entrada han sido divididos en dos grupos. Mientras que los datos en el primer clúster se muestran representados por triángulos verdes, los datos en el segundo clúster se muestran representados por cuadrados rojos.

Figura 3. Vista bidimensional del resultado de la agrupación en clúster de una serie de datos de entrada en dos grupos: triángulos verdes y cuadrados rojos
Two-dimensional view of the result of clustering a set of input data into two clusters: green triangles and red squares

Cuando una variable de destino o medida similar no es importante, pero sí lo son las asociaciones entre los elementos de entrada, se puede utilizar una técnica conocida como reglas de asociación para encontrarlas. Por ejemplo, las reglas de asociación pueden utilizarse para descubrir que las personas que compran pañales y leche también compran cerveza.

A pesar de que las técnicas predictivas tienen diferentes fortalezas y debilidades, el modelo de precisión depende en gran medida de los datos primarios de entrada y de las características utilizadas para capacitar a un modelo predictivo. Como hemos mencionado anteriormente, el modelo de desarrollo de datos involucra mucho análisis de datos y mensajes. Por lo general, de cientos de campos de datos primarios disponibles, se selecciona un subconjunto y los campos se procesan antes de ser presentados a una técnica de modelado predictivo. De este modo, el secreto detrás de un buen modelo predictivo usualmente depende de buenos mensajes aún más que de la técnica utilizada para capacitar al modelo. Esto no significa que la técnica predictiva no es importante. Si se utiliza la técnica incorrecta o se selecciona un conjunto de parámetros de entrada incorrectos, los buenos datos no van a ser de utilidad.

Las NN, por ejemplo, vienen en todas las formas y estructuras. Para desarrollar un buen modelo predictivo es importante seleccionar una estructura de red apropiada. Como se muestra en la Ilustración 4, las NN de prealimentación están compuestas de una capa de entrada, con tantos nodos como el número de campos y características que se están considerando, y una capa de salida, que en caso de una función de regresión está hecha de un nodo simple que representa el campo predicho. Sin embargo en medio de las capas de entrada y salida, la red neural puede ser configurada con cualquier número de nodos y capas ocultas. El problema aquí es que si usted elije darle a un NN muy pocos nodos, puede que no aprenda la función de correlación entre los campos de entrada y el destino. Si hay demasiados nodos se llenará por demás, esto es, que aprenderá los datos de entrada por completo, pero no será capaz de predecir eventos futuros.

Figura 4. Prealimente la red neural con capas de entrada, ocultas y de salida.
Feed-forward neural network with input, hidden, and output layers

Las técnicas de agrupación en clúster requieren que se provea el número de grupos antes de la capacitación. En este caso, si el número de grupos es muy pequeño, el modelo podría perder diferencias importantes en los datos de entrada, ya que está siendo forzado a agrupar en forma conjunta datos diferentes Por otro lado, si el número de grupos es demasiado grande, puede que pierda similitudes importantes. En el ejemplo que se muestra en la Ilustración 3, si el número de clústers se hubiese configurado en tres en lugar de dos, se hubiese creado un clúster adicional que probablemente hubiera nublado la verdadera naturaleza de los datos (¿triángulos amarillos o cuadrados violetas?).

Los modelos predictivos pueden también beneficiarse de diferentes técnicas de modelado a la misma vez. Esto sucede porque muchos modelos pueden combinarse juntos en lo que se llama conjunto modelo (Ilustración 5). De este modo, la salida del conjunto está designada para nivelar las diferentes series de fuerzas inherentes a los diferentes modelos y técnicas.

Figura 5. La representación diagramática de un conjunto modelo en el que los registros de todos los modelos se computan y la predicción final está determinada por un mecanismo de votación o por el promedio.
Diagrammatic representation of a model ensemble in which scores from all models are computed and the final prediction is determined by a voting mechanism or the average

Aprendizaje supervisado y no supervisado

Las SVM, árboles de decisión, NN y módulos de regresión utilizan aprendizaje supervisado para crear la función de correlación entre una serie de campos de datos de entrada y una variable de destino. El resultado conocido es luego usado como una maestra que supervisa el aprendizaje de su alumno. Siempre que el alumno comete un error, la maestra le da la respuesta correcta con la esperanza de que el alumno lo comprenda. Por ejemplo, cuando se le presenta una serie de entrada específica, si salida coincidirá con el destino.

Como un ejemplo, considere capacitar a un NN (mostrado en la Ilustración 4) para predecir cancelación de cliente o deserción debido al desgaste. Hemos comenzado por unir una serie de campos de datos de entrada que representan a un cliente en particular que ha cancelado anteriormente. Puede consistir en edad, género, así como también en características relacionadas con la satisfacción o el número de quejas. El cliente, ahora representado por una serie de campos de datos y el resultado de la deserción, es luego presentado al NN para aprendizaje. Puede ser presentado numerosas veces hasta que la NN pueda aprender la relación entre la entrada y el destino. Sin embargo, este cliente no está aislado. Es solo uno de tantos. Es necesario repetir el mismo proceso para todos los clientes los que han cancelado y los que no. Para conocer la diferencia entre los dos posibles resultados, la NN necesita crear una representación abstracta para los clientes que cancelaron o no.

Un algoritmo muy conocido utilizado para prealimentar a las NN se conoce como retropropagación. Permite el error, o la diferencia entre el destino y la salida, para ser propagada hacia atrás a través de la red, que luego es utilizada para ajustar los pesos de la sinapsis que unen los nodos de la red. De este modo, la red eventualmente conocerá la tarea a mano, incluso si es de a poco. Aunque sin un destino, dicho proceso no podría realizarse.

El aprendizaje no supervisado no requiere de maestro o destino. Las técnicas de agrupación en clúster entran en esta categoría. Como se muestra en la Ilustración 3, los puntos de datos se agrupan simplemente basados en sus similitudes. En caso de cancelación de cliente, una técnica de agrupación en clúster podría asignar potencialmente diferentes grupos a los que han cancelado y los que no, aún si el resultado no estuviese disponible durante la capacitación del modelo.


Análisis de caja negra

Caja negra es un término utilizado para identificar a ciertas técnicas de modelos predictivos que no son capaces de explicar su razonamiento. A pesar de ser extremadamente poderosas, en esta categoría entran técnicas como la NN y la SVM. Considere nuestro modelo altamente preciso, NN, que fue entrenado para diferenciar a los que han cancelado de los que no. Si arroja un resultado de alto riesgo de cancelación para un cliente particular, no podrá decirnos por qué. Esto crea una pregunta importante:¿El modelo predictivo debería de ser capaz de explicar su razonamiento? Bueno, la respuesta podría ser "depende". En casos en los que el riesgo generado por un modelo predictivo se utiliza para desencadenar una acción adversa, en algunos casos se desea una explicación y hasta a veces se necesita. Por ejemplo, cuando un resultado de riesgo se utiliza para rechazar una solicitud de préstamo o una transacción de tarjeta de crédito.

Siempre que se deba realizar una explicación, es necesario considerar utilizar una técnica de modelo predictivo que claramente localiza las razones para sus decisiones. Las tarjetas de puntuación, se ajustan a este criterio perfectamente. Ya que están basadas en modelos de regresión las tarjetas de puntuación son una técnica popular utilizada por instituciones financieras para evaluar el riesgo. Con las tarjetas de puntuación, se asocian todos los campos de datos en un registro de entrada con códigos de razón específica. Durante el procesamiento, todos los campos de datos se ponderan contra una línea de base de registro de riesgos. Una vez que los campos con la mayor influencia en la salida final se identifican, sus códigos de razonamiento asociado se devuelven juntos en el resultado final.

Como con las tarjetas de puntuación, los árboles de decisión son fáciles de explicar y de entender. En un árbol de decisión, todo el proceso de decisión está representado por una serie de condiciones de legibilidad humana, esto es una serie de reglas. Un nodo final en un árbol de decisión, se alcanza luego de que una serie de condiciones se evalúan como verdaderas. La Ilustración 6 muestra la representación gráfica de un árbol de decisión utilizado para clasificar la planta de iris en tres clases distintas basadas en el largo del pétalo. Las clases de destino son: Iris-Setosa, Iris-Virginica, e Iris-Versicolor. Para más información en el conjunto de datos, vea Asuncion, A. & Newman, D.J. (2007). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science (consulte los Recursos). Note que un árbol puede representarse por medio de una serie de reglas. Por ejemplo, para identificar las plantas Iris-Setosa, la regla establece simplemente que: "If petal length less than 2.6 then plant is Iris-Setosa with probability of 1."

Figura 6. Un árbol de decisión simple es utilizado para clasificar la planta de Iris. Las clases posibles son: Iris-Setosa, Iris-Versicolor e Iris-Virginica.
A simple decision tree used to classify the Iris plant.

A pesar de que el razonamiento detrás de las decisiones generadas por las técnicas de modelo de caja negra es difícil de explicar, los modelos en sí no deben de serlo. Por fortuna, la representación de datos pre procesados así como también la de los modelos predictivos es hoy sencilla con PMML (lenguaje de marcado para modelos predictivos). El PMML, es el estándar de facto utilizado por todas las compañías de análisis para producir y consumir soluciones predictivas. Como tal, permite que todas las técnicas predictivas mencionadas en este artículo sean representadas en un formato estándar simple. Una vez que se ha representado como un archivo PMML, el modelo predictivo puede moverse en el momento del escritorio del científico donde ha sido creado, hacia el entorno operacional, donde se pone a trabajar. De este modo, los modelos nuevos o cualquier actualización a un modelo existente puede ser desplegado en ese mismo momento. Ya que es un estándar abierto que puede ser comprendido por todos, el PMML se utiliza como un puente no solo entre el modelo de desarrollo y el sistema de despliegue, pero también entre todas las personas involucradas en el proceso analítico dentro de la compañía. De este modo, asegura su transparencia y disemina el conocimiento y las buenas prácticas. Para mayor información acerca del PMML, consulte los Recursos.


Conclusión

Un mar de datos en crecimiento constante nos rodea y el análisis nos permite navegarlo de forma segura. Los datos históricos que se recolectan de personas y sensores están transformando nuestro mundo, ya que permiten el desarrollo de modelos que literalmente pueden usar el pasado para predecir el futuro. Los llamados modelos predictivos, son de hecho un producto de inteligentes técnicas matemáticas aplicadas a los datos.

Las técnicas de predicción de modelado más populares utilizadas por los científicos para conocer los patrones escondidos en los datos son la NN, la SVM, los árboles de decisión, la regresión logística y lineal, las reglas de asociación de grupos y las tarjetas de puntuación. A pesar de que son capaces de aprender y generalizar, estas técnicas no solo están ávidas de datos, sino que también tienden a consumir mucho poder de procesamiento. Debido a eso, las soluciones predictivas están recién ahora experimentando un crecimiento en todas las industrias, debido a la llegada de: 1) grandes datos derivados de personas y sensores, 2) plataformas efectivas en relación al costo basadas en Cloud y Hadoop, y 3) PMML, un estándar abierto refinado y maduro utilizado para representar la totalidad de una solución predictiva. Al combinar estos tres factores, se obtienen modelos poderosos que pueden comenzar a tomar decisiones en ese mismo momento sin importar el tamaño de la compañía.

De hecho, los científicos especializados en datos trabajan arduamente desarrollando soluciones predictivas con los datos que como sociedad juntamos a un ritmo que aumenta día a día. Cuando se combina con inteligentes técnicas analíticas, estos datos nos dan el potencial para transformar al mundo en un mundo más inteligente, donde la prevención del crimen, las enfermedades o los accidentes se convierten en una verdadera realidad y no solo en una predicción.

Recursos

Aprender

  • Follow your Rules, but listen to your Data: Mire la presentación de Alex Guazzelli en la conferencia del festival Rules 2010, que se enfoca en las diferencias entre el conocimiento basado en datos y aquel conducido por expertos, así como también los beneficios de combinar los dos.
  • Predictive analytics in healthcare (Alex Guazzelli, developerWorks, noviembre del 2011): Lea este artículo sobre los desafíos y las aplicaciones del análisis predictivo en el cuidado de la salud.
  • The Heritage Heath Prize: Descubra más acerca del muy difundido concurso que apunta a identificar quién será admitido en un hospital a lo largo de año entrante, utilizando datos históricos basados en reclamos.
  • ¿Qué es PMML? (Alex Guazzelli, developerWorks, septiembre del 2010): Lea este artículo en el estándar PMML utilizado por compañías de análisis para representar y mover soluciones predictivas entre los sistemas.
  • UCI Machine Learning Repository: Encuentre la serie de datos sobre Iris mencionada en este artículo.
  • Predictive Analytics: Lea la página en Wikipedia acerca del análisis predictivo para una visión general de las aplicaciones más comunes y técnicas utilizadas para hacer predicciones sobre el futuro.
  • PMML in Action (2.º edición): Unleashing the Power of Open Standards for Data Mining and Predictive Analytics (Alex Guazzelli, Wen-Ching Lin, Tridivesh Jena; CreateSpace, enero del 2012): Aprenda a representar sus modelos predictivos mientras observa en forma práctica al PMML.
  • The Data Mining Group (DMG) es un proveedor independiente que conduce un consorcio que desarrolla estándares de minería de datos como el lenguaje de marcado para modelos predictivos (PMML).
  • Página Zementis PMML Resources: Explore ejemplos completos de PMML.
  • Data Mining: Encuentre más información acerca de este tema en Wikipedia.
  • PMML discussion group: Únase a este grupo de LinkedIn.
  • IBM ILOG: Aprenda más acerca de este reconocido líder de la industria en sistemas de gestión de normas de negocios (BRMS), componentes de visualización, optimización y soluciones sobre la cadena de abastecimiento que enriquece la cartera de software de IBM y fortalece la iniciativa Smarter Planet.
  • Business Analytics en developerWorks: Conozca más sobre los recursos técnicos y analíticos para los desarrolladores.
  • Más contenido industrial: Descubra lo último en recursos industriales y técnicos para los desarrolladores.
  • Podcasts de developerWorks: Escuche entrevistas interesantes y discusiones para desarrolladores de software.
  • Eventos técnicos y webcasts de developerWorks Manténgase actualizado con los eventos técnicos de developerWorks y los webcasts.

Obtener los productos y tecnologías

  • IBM SPSS Statistics 20 pone en sus manos el poder del análisis estadístico avanzado. Ya sea que usted sea un estadista principiante o experimentado, la serie de herramientas abarcativas que posee va a cubrir todas sus necesidades.
  • ADAPA es una plataforma de gestión de decisiones analíticas predictivas, disponible como un servicio en la nube para este sitio. Brinda un entorno seguro, rápido y escalable para desplegar sus datos sobre modelos de minería de datos y lógica de negocio y ponerlos en uso real.
  • Revise la versión de prueba por 90 días de IBM ILOG CPLEX Optimization Studio: Desarrolle rápidamente las aplicaciones soporte basadas en la optimización de decisiones.
  • Evalúe el servidor de aplicaciones IBM WebSphere: Desarrolle, despliegue y gestione aplicaciones y servicios para negocios SOA que sean robustas, ágiles y reutilizables, de todos los tipos mientras reduce los costos de infraestructura con el servidor de aplicaciones IBM WebSphere.
  • Encuentre más softwares de evaluación: Descargue la versión de prueba, trabaje con el producto online en un entorno Sandbox o acceda a este en la nube.

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Business analytics, Industries
ArticleID=852001
ArticleTitle=Predicciones sobre el futuro, parte 2: Técnicas de modelado predictivo
publish-date=12172012