Predicciones sobre el futuro, parte 4: Ponga en marcha una solución predictiva

Este es el último artículo de una serie de cuatro partes que se enfoca en los aspectos importantes de la analítica predictiva. La parte 1 ofrece una visión general sobre la analítica predictiva. La parte 2 se enfoca en las técnicas de modelo predictivo, los algoritmos matemáticos que forman el análisis predictivo principal. La parte 3 puso esas técnicas en marcha y describió la creación de una solución predictiva. Este artículo final se focaliza en el despliegue de la analítica predictiva o el proceso de poner en marcha las soluciones predictivas.

Alex Guazzelli, VP de Analítica, Zementis, Inc.

Alex GuazzelliDr. Alex Guazzelli es el VP de Analítica en Zementis Inc., donde es responsable de desarrollar tecnología principal y soluciones predictivas bajo el nombre ADAPA, una plataforma de decisiones basada en PMML. Con más de 20 años de experiencia en analítica predictiva, el Dr. Guazzelli tiene un doctorado en Ciencia de la Computación de la Universidad de California del Sur y es coautor del libro PMML in Action: Unleashing the Power of Open Standards for Data Mining and Predictive Analytics, ahora en su segunda edición.



14-01-2013

Introducción

Poner en marcha una solución predictiva ha sido tradicionalmente un proceso que implica mucho trabajo, ya que involucra bastante tiempo y recursos. La llegada del lenguaje de marcado para modelos predictivos (PMML) ha cambiado esto por completo. Las mismas personas que lo desarrollaron pueden ahora poner en marcha una solución predictiva en cuestión de minutos. Como el estándar de facto para la analítica predictiva, el PMML está soportado por todos los proveedores de minería de datos más importantes, ya sean comerciales o libres. Luego de desarrollar un modelo predictivo, es sencillo exportarlo a un archivo PMML. Luego es posible directamente desplegar ese archivo en un motor de registro basado en un PMML, donde está disponible para la ejecución. Dado que vivimos en una era de muchos datos, los modelos predictivos deberían de beneficiarse del rápido despliegue y la ejecución. La disponibilidad de soluciones de registro en la nube y dentro de la base de datos, hace posible que la analítica predictiva cumpla su promesa y descifre el código de los grandes datos.

Esta serie de cuatro partes ha cubierto muchos temas sobre analítica predictiva, mayormente relacionados con un modelo de desarrollo. He descrito numerosas aplicaciones de analítica predictiva. Sin embargo, para que a una solución predictiva se le aplique nuevos datos, necesita ser desplegada de modo operacional. Esto quiere decir que necesita moverse desde el escritorio de científico, donde fue desarrollado, hasta el entorno operacional, donde será puesto en marcha.

Como se puede ver, poner un modelo en marcha no es una tarea sencilla. Para ser desplegada operacionalmente, una solución predictiva necesita llenar el espacio en blanco entre dos mundos diferentes. Yo los llamo Predicta y Engira. El planeta Predicta está habitado por científicos de datos con conocimientos específicos sobre estadísticas, minería de datos y habilidades en lenguajes como Perl y Python. El planeta Engira, por otro lado, está habitado por ingenieros de TI con conocimientos específicos sobre Java™, NET, C, SQL. Sin un lenguaje en común, el traspaso de una solución predictiva desde Predicta hasta Engira, puede perderse en medio de la traducción (consulte la Ilustración 1). Luego de que se desarrolla un modelo, el científico de datos escribe un documento describiendo el modelo y lo envía a un ingeniero de TI, quien comenzará a codificarlo en un entorno operacional. Pueden surgir preguntas y cables diplomáticos que se envían entre los dos. Sin embargo, muchas veces cuando el modelo es considerado que está listo para ponerse en marcha, el ingeniero que lo ha seguido se da cuenta de que los registros que produce durante la producción no concuerdan con los registros que los científicos de datos han obtenido durante el desarrollo del mismo modelo. El ingeniero se debe comunicar con el científico para resolver las discrepancias. Esto proceso puede tomar desde tres meses hasta un año.

Figura 1. El proceso de despliegue de modelos puede perderse durante la traducción entre los planetas Predicta y Engira si no hay un lenguaje común entre los dos.
Model deployment process can get lost in translation between planets Predicta and Engira without a common language between the two

Afortunadamente, algo sucedió que hizo que el despliegue del modelo se acorte de meses a minutos. Lo que sucedió fue la llegada de un lenguaje común que los científicos de datos y los ingenieros de TI pueden comprender. Este lenguaje se conoce como PMML.


PMML

El PMML es la creación de un grupo sobre minería de datos (DMG) un consorcio de compañías que trabajan en conjunto para definirlos. Todas las estadísticas y herramientas de minería de datos más populares, en versiones comerciales o gratuitas, soportan PMML. De este modo, puede desplegarse un modelo en el planeta Predicta y ser enviado directamente al planeta Engira para desarrollo instantáneo. No se necesita traducción, recodificación, o código de personalización. Con el PMML, el traslado de una solución predictiva desde el escritorio del científico hasta el entorno operacional se convierte en una tarea muy sencilla.

El PMML le permite a las compañías e individuos utilizar un lenguaje simple para representar a una solución predicativa en su integridad, sin importar el entorno en el que ha sido desarrollado. La parte 3 de esta serie cubría todas las fases involucradas en la creación de una solución predictiva, desde el preproceso de datos y el desarrollo de modelos hasta el posproceso de modelos de registros. El PMML es capaz de representar todas estas fases solo en un archivo. También pude representar soluciones que incluyan modelos múltiples o un modelo ensamblado.

El PMML está basado en XML. Si el esquema sigue una estructura bien definida en la que los elementos y atributos se utilizan para definir:

  1. Los datos de entrada a través del elemento DataDictionary
  2. Los valores inválidos, faltantes y atípicos que manejen estrategias a través del elemento MiningSchema
  3. Preproceso de datos a través del elemento TransformationsDictionary
  4. Una variedad de técnicas de modelado a través de modelos de elementos específicos como: NeuralNetwork, TreeModel, SupportVectorMachineModel, Scorecard y RegressionModel
  5. Posprocesamiento de elementos de salida a través del elemento Output

El PMML también contiene otras estructuras de lenguaje que incluyen elementos específicos para verificación de modelos y explicación y evaluación de modelos. Dado que un PMML puede representar a una solución predictiva en forma completa de un modo claro y estructurado, podemos utilizarlo para revelar el secreto y la sensación de la caja negra que mucha gente tiene cuando se trata de análisis predictivo. Una compañía puede utilizar PMML como la lengua franca no solo entre Predicta y Engira, sino también entre proveedores de servicios y proveedores externos. En este plano, define un proceso simple y claro para el intercambio de soluciones predictivas. Se convierte en el puente no solo entre el análisis de datos, desarrollo de modelos y despliegue de sistemas, pero también entre todas las personas y equipos involucrados en el proceso analítico. Esto es de extrema importancia, ya que podemos utilizarlo para diseminar el conocimiento y las buenas prácticas, y para asegurar transparencia.

La última versión de PMML, la versión 4.1, se lanzó en diciembre del 2011. Como un lenguaje, sin embargo, ha estado presente por más de 10 años y por esta razón ha alcanzado un alto nivel de madurez y refinamiento. Como representante de DMG que ha sido introducido a PMML muchos años atrás, me quedé desconcertado por su rango y poder, así como también por todos los beneficios que trae a cualquier organización que quiera beneficiarse del valor predictivo inherente a sus datos históricos.


Cómo representar una solución predictiva en PMML

Todas las herramientas estadísticas más populares que se encuentran disponibles actualmente en el mercado para desarrollo de modelos, exportan modelos en PMML. Algunos de ellos también brindan una funcionalidad de importación para que el modelo pueda ser visualizado y refinado aún más. Un entorno con versión gratuita digno de mencionar es el KNIME (consulte los Recursos), que importa y exporta muchos modelos PMML. Otro es el proyecto R para computación estadística (consulte los Recursos). Una variedad de productos comerciales también soportan PMML. En este artículo, me voy a concentrar en las estadísticas SPSS de IBM, que es capaz de exportar PMML para una variedad de técnicas predictivas. Las estadísticas SPSS de IBM pueden exportar PMML para datos preprocesados también, lo que es una pieza importante del rompecabezas predictivo.

La parte 3 de esta serie describía cómo utilizar las estadísticas SPSS de IBM para realizar el preprocesamiento de los datos en forma automática. El objetivo es argumentar el valor predictivo de los datos de entrada primarios para poder mejorar la exactitud del modelo resultante. Para esto seleccione el menú Transform > Prepare Data for Modeling y haga clic en Automatic. En la ventana delimitada en pestañas llamada "Automatic Data Preparation", haga clic en la pestaña Settings y seleccione el elemento Apply and Save. Marque la casilla "Save transformations as XML" y coloque un nombre de archivo. Este es el archivo que contendrá las transformaciones en formato PMML. Una vez que ha seleccionado la opción Prepare Data for Modeling, es posible seleccionar también Interactive. Esta opción le mostrará una ventada delimitada en pestañas llamada "Interactive Data Preparation". En este caso tendrá que hacer clic en el botón Analyze antes de guardar el archivo PMML que contenga los resultados de las transformaciones. En ambos casos, usted terminará con un archivo PMML que describe por completo los pasos tomados por las estadísticas SPSS de IBM para el preprocesamiento de datos en preparación para el modelado. Para poder comprender cómo PMML representa la transformación de datos, Zementis ha lanzado una herramienta interactiva llamada Transformations Generator. Esta herramienta les permite a los usuarios representar gráficamente una variante de transformaciones y exportarlas en PMML, que puede luego ser combinada con un archivo modelo (consulte los Recursos).

El proceso de preparación de datos también creará campos de datos adicionales en el editor de datos de las estadísticas SPSS de IBM, que puede ser utilizado para capacitación de modelo en conjunto con cualquier otro campo de ingreso primario. Como se ha descrito en la parte 3, para entrenar a una red neuronal, por ejemplo, simplemente elija el menú Analyze > Neural Networks y seleccione Multilayer Perceptron. Luego de hacer todas las selecciones apropiadas en la ventana de múltiples pestañas, seleccione la pestaña Export , marque "Export synaptic weight estimates to XML file" e ingrese el nombre del archivo PMML en el que quiere que se guarde su modelo de red neuronal. De modo similar las estadísticas SPSS de IBM también permiten que muchas otras técnicas predictivas sean exportadas a PMML.

El archivo PMML para el modelo de red neuronal también contendrá la escalada de entradas numéricas y la diferenciación de variables categóricas. Sin embargo, si su modelo ha utilizado cualquiera de las variables descubiertas en forma automática por las estadísticas SPSS de IBM usted necesitará fusionar los dos archivos PMML descritos previamente (preprocesamiento de automático de datos y modelo en un solo archivo). Para esto, seleccione el menú Utilities > Merge Model XML. Usted se encontrará con una ventana en la que es posible ingresar el nombre "archivo modelo XML" (el archivo PMML que contiene el modelo predictivo) y el "archivo de transformación XML" (el archivo PMML que contiene los pasos para el preprocesamiento de datos interactivos). También ingrese un nombre para el "archivo XML combinado guardado". Haga clic en OK. Ahora su solución predictiva se encuentra completamente representada en PMML.


Despliegue operacional con PMML

Una vez que ha sido representada en PMML, una solución predictiva puede ser desplegada en minutos. En Zementis, hemos creado una plataforma de gestión de decisión basada en análisis predictivo PMML, llamado ADAPA. Es capaz de consumir soluciones predictivas expresadas en PMML y ejecutarlas en tiempo real. Ya que el ADAPA actúa en el plano operacional, libera recursos de Engira de la carga de la codificación de clientes y permite que los recursos Predicta tengan la oportunidad de desplegar una solución predictiva propia. Como se muestra en la Ilustración 2, una vez que un modelo predictivo es exportado desde las estadísticas SPSS de IBM, o cualquier otra herramienta para quejas PMML, como R y KNIME, los científicos de datos pueden cargarlo directamente en un ADAPA, dono se encuentra listo para ser usado.

Figura 2. Con las soluciones predictivas PMML desarrolladas por Predicta, se pueden desplegar recursos en minutos.
With PMML, predictive solutions built by Predicta resources can be deployed in minutes

Una vez que se han subido en ADAPA, los modelos predictivos pueden gestionarse y ejecutarse directamente a través de una consola web o a través de servicios web. En el segundo caso, los registros y las predicciones pueden agregarse directamente en cualquier aplicación a través de la empresa.

El ADAPA está disponible como una licencia tradicional para despliegue on-site. También se encuentra disponible como un servicio en la SmartCloud de IBM. Una vez que se encuentra en la nube la ejecución de un modelo se beneficia de una estructura escalable y eficiente con relación a los costos, para cómputos a través de Internet. Zementis también ofrece un Plug-in universal PMML (UPPI) para los registros de dentro de la base de datos y para Hadoop. UPPI se encuentra actualmente disponible para la base de datos EMC Greenplum, SAPSybase IQ e IBM Netezza. De este modo, los modelos expresados en PMML pueden ser desplegados fácilmente dentro de la base de datos y residir dentro de los datos en sí. Las aplicaciones que requieren registros dentro del registro de la base de datos, usualmente involucran grandes datos. IBM estima que el 90 por ciento de los datos que existen hoy fueron generados solo en los dos últimos años. Esto le da una idea sobre cuántos datos estamos creando como sociedad y cuántos datos recolectamos día a día. Grandes datos quiere decir muchos datos. Para beneficiarse de todos los secretos que se encuentran merodeando cerca de este mar de datos en constante crecimiento, es esencial que se tenga en cuenta el rápido despliegue y la ejecución de las soluciones predictivas. Afortunadamente, el PMML combinado con una poderosa base de datos, Hadoop y computación en la nube hacen posible el desbloqueo el valor de los grandes datos.


Ejecución del modelo en la SmartCloud de IBM

En su base, la computación en la nube es una serie de servicios que brindan recursos de computación a través de Internet. Los grandes centros de datos, ofrecen recursos escalables, en demanda y usualmente virtualizados como un servicio, eliminando la necesidad de inversión en un hardware específico, un software o en su propio centro de infraestructura de datos. El término nube se utiliza como una metáfora para Internet. La computación en la nube permite una variedad de servicios, que incluyen capacidad de almacenamiento, poder de procesamiento y aplicaciones empresariales. Acceder a los servicios en la nube está disponible desde hace poco como una infraestructura disponible y confiable. La SmartCloud de IBM es un ejemplo primordial de una infraestructura de nube genérica. La capacidad de cómputos dinámicos, basada en IBM, otorga la capacidad de almacenar en la nube varios centros de datos esparcidos a través del mundo.

El software como un servicio (Saas) es un modelo de licencia de software en el que una empresa o un usuario puede acceder a un software a través de Internet y pagar por el derecho de utilizar el software por un cierto periodo de tiempo en vez de adquirir una licencia completa para instalar in situ. Esto ofrece numerosas ventajas a los clientes, ya que no existen costos iniciales para la configuración de los servidores o para la licencia del software, y minimiza el riesgo de compra de un software costoso que podría no brindar una devolución de la inversión. Ya que el modelo de licencia de SaaS y la computación en la nube están ambas centradas en la Internet, más proveedores las combinan para otorgar nuevas soluciones para software.

Como se ha mencionado anteriormente, el ADAPA utiliza llamadas de un servicio web para permitir decisiones automáticas para ser incorporadas en los sistemas y las aplicaciones a través de la empresa. Para minimizar el costo de la propiedad, el modelo de la ejecución en ADAPA está disponible como un servicio a través de la SmartCloud de IBM (consulte los Recursos). Esta asociación entre Zementis e IBM permite que las compañías desplieguen y ejecuten los modelos predictivos y que produzcan registros y predicciones fácilmente para influenciar sus operaciones diarias.

El proceso de lanzar un servidor ADAPA virtual en la SmartCloud en el servidor IBM se corresponde con el escenario tradicional de comprar un hardware e instalarlo en la sala de servidores. La única diferencia es que el servidor en este caso reposa en la nube, viene con una versión de ADAPA preinstalada y se lanza en solo unos pocos minutos, en demanda y listo para ser utilizado.


Conclusión

Tradicionalmente, el proceso de despliegue y puesta en marcha de una solución predictiva era prolongado, tomaba meses y utilizaba recursos invaluables de ambos, las personas responsables por el desarrollo de los modelos y aquellos a cargo de recodificarlo para ponerlo en la producción. La llegada del PMML cambió esto en forma dramática. Con el PMML, las mismas personas responsables por el desarrollo del modelo pueden ahora despegarlo en minutos.

Como el estándar de facto para representar a los modelos predictivos, el PMML puede representar de modo claro y estructurado a una solución predictiva en sí por completo. El PMML está soportado por todos los principales paquetes estadísticos, incluyendo los comerciales y los libres. Las estadísticas SPSS de IBM, por ejemplo, son capaces de exportar transformaciones de datos así como también numerosas técnicas de modelado predictivo en PMML. Un archivo PMML puede ser desplegado fácilmente en un sistema como ADAPA, que es el motor de búsqueda de Zementis basado en PMML. Ya que ADAPA se encuentra disponible en la SmartCloud de IBM, esta se beneficia de una infraestructura escalable y confiable, basada en IBM. Una vez que están en la nube, los modelos predictivos pueden accederse desde cualquier lugar en cualquier momento y sus registros y predicciones pueden incorporarse en cualquier aplicación a lo largo de la empresa a través de servicios web.

Luego de haber leído estas series, usted debería de entender correctamente la analítica predictiva y sus aplicaciones. Comencé por decirle qué es. Describí muchas de las técnicas predictivas que están en la base de la analítica predictiva. Estas técnicas pueden aprender patrones desde los datos históricos y detectarlos cuando se les presentan datos nuevos. Luego, describí la creación de una solución predictiva. Todo comienza con un problema bien definido, seguido del análisis de datos y del preprocesamiento. Los datos luego son presentados ante una técnica predictiva para el desarrollo de modelos, que es evaluada para conocer su exactitud. Los umbrales de discriminación luego se configuran dependiendo de la exactitud del modelo y del costo asociado con cualquier error de predicción. Las decisiones empresariales luego se adjuntan a diferentes umbrales. Finalmente, cuando se exportan como un archivo PMML, una solución predictiva está lista para ser desplegada y puesta en uso. Una vez que esto ocurre, la analítica predictiva ha cumplido verdaderamente su promesa de aprender los patrones valuables desde los datos históricos y luego utilizarlos para predecir el futuro.

Recursos

Aprender

Obtener los productos y tecnologías

  • IBM SPSS Statistics 20 pone en sus manos el poder del análisis estadístico avanzado. Ya sea que usted sea un estadista principiante o experimentado, la serie de herramientas abarcativas que posee va a cubrir todas sus necesidades.
  • ADAPA es una plataforma de gestión de decisiones analíticas predictivas, disponible como un servicio en la nube para este sitio. Brinda un entorno seguro, rápido y escalable para desplegar sus datos sobre modelos de minería de datos y lógica de negocio, y ponerlos en uso real.
  • Revise la versión de prueba por 90 días de IBM ILOG CPLEX Optimization Studio: Desarrolle rápidamente las aplicaciones soporte basadas en la optimización de decisiones.
  • Evalúe el WebSphere Application Server de IBM: Desarrolle, despliegue y gestione aplicaciones y servicios para negocios SOA que sean robustos, ágiles y reutilizables, de todos los tipos mientras reduce los costos de infraestructura con el WebSphere Application Server de IBM.
  • Transformations Generator: Una herramienta interactiva, que acompaña al libro PMML in Action, utilizada para representar las transformaciones de datos en PMML.
  • KNIME es una plataforma libre, fácil de utilizar, abarcativa para la integración de datos, procesamiento, análisis y exploración.
  • Proyecto R: Comience con este entorno de software libre para computación y gráficos estadísticos.
  • Software de evaluación: Descargue o explore estas pruebas online en IBM SOA Sandbox y consiga herramientas de desarrollo de aplicaciones y productos middleware de DB2®, Lotus®, Rational®, Tivoli® y WebSphere®.

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Business analytics, Industries
ArticleID=854686
ArticleTitle=Predicciones sobre el futuro, parte 4: Ponga en marcha una solución predictiva
publish-date=01142013