Contenido


Aplique la analítica de la tecnología de SPSS a Big Data

Pruebe SPSS con IBM Netezza, InfoSphere BigInsights e InfoSphere Streams para las analíticas a escala

Comments

Durante décadas IBM SPSS ha suministrado poderosas herramientas para los estadísticos y los científicos de datos. A lo largo de los años, la plataforma SPSS ha evolucionado para dar soporte a todas las fases del proceso de minería de datos, que incluyen el desarrollo de modelos, el despliegue de modelos y la actualización de modelos. En los últimos dos años, se han agregado nuevas capacidades para trabajar con big data al SPSS. Este artículo describe la forma en la que SPSS se integra con tres componentes de la cartera de big data de IBM: Netezza, InfoSphere BigInsights e InfoSphere Streams.

Aspectos generales de la plataforma SPSS

Componentes de software de SPSS que se integran con big data:

  • SPSS Modeler
  • SPSS Analytic Server
  • SPSS Collaboration and Deployment Services
  • SPSS Analytic Catalyst

SPSS Modeler es una mesa de trabajo de minería de datos para analizar datos y desarrollar activos de analítica. El término genérico activo de analítica se usa para describir una colección de operaciones que resuelven un problema de negocios. Los científicos de datos a menudo utilizan los términos modelo o modelo predictivo cuando describen activos desarrollados en herramientas de minería de datos. Además del modelo, un activo analítico de SPSS puede incluir los pasos de preparación de datos y las reglas de negocios. La Figura 1 ilustra un activo analítico muestra desarrollado en SPSS Modeler. En este ejemplo usamos un modelo de árbol de decisión para la predicción preestablecida de la hipoteca. El activo analítico realiza las siguientes operaciones:

  • Fusiona datos de tres fuentes de datos históricos.
  • Usa un nodoType para identificar la variable objetivo para la predicción del modelo (MortgageDefault)
  • Desarrolla un modelo basado en el algoritmo de árbol de decisión C5.0
  • Selecciona registros con predicción positiva preestablecida de hipoteca
  • Despliega los resultados en una tabla
Figura 1. Activo analítico desarrollado en SPSS Modeler
Image shows diagram of decision tree model
Image shows diagram of decision tree model

SPSS Modeler es un ambiente de programación visual. Se crean activos analíticos conectando los nodos de programación visual en el sondeo; en el tiempo de ejecución, los nodos se ejecutan en la dirección de las flechas que los conectan. Los nodos se organizan por las funciones relacionadas: Sources,Record Operations, Field Operations, Modeling, etc. La pestaña Modeling despliega los algoritmos utilizados para la generación de modelos (consulte la Figura 2). SPSS envía 27 algoritmos de modelado y nodos de ensamble que operan varios algoritmos contra un conjunto de datos y seleccionan el mejor. Además de los nodos visuales que se describen, los analistas pueden usar funciones SQL, modelos R y nodos desarrollados a la medida si quieren extender la funcionalidad base de SPSS Modeler.

Figura 2. Pestaña de generación de modelos con algoritmos para generar modelos
La pestaña de Modeling muestra símbolos para cada algoritmo
La pestaña de Modeling muestra símbolos para cada algoritmo

Los analistas usan los datos históricos para desarrollar modelos. Después de crear el modelo, el analista modifica el activo analítico para puntuar a los datos operativos (consulte la Figura 3). Ya no necesitamos la fuente de datos de Mortgage Default porque contiene datos históricos. Quitamos los nodos del algoritmo Type y Decision Tree. Se usó el algoritmo del árbol de decisiones C5 para construir el modelo. El modelo que se creó está representado por el ícono de pepita de oro (MortgageDefault). El analista reemplaza el nodo Table con un nodo Export, que escribirá datos a una tabla de base de datos. Este activo analítico ahora puede usarse para la puntuación de lote o de tiempo real para las nuevas aplicaciones de hipoteca.

Figura 3. Modelo modificado con Type, Decision Tree y la fuente de datos de Mortgage Default eliminada
Diagrama actualizado mostrando sólo los algoritmos restantes
Diagrama actualizado mostrando sólo los algoritmos restantes

El segundo componente de SPSS que se usa para big data es el SPSS Analytic Server. Administra el acceso a las fuentes de datos de Hadoop y administra la operación de una secuencia de Modeler en Hadoop. Las operaciones de Modeler operan como trabajos de MapReduce en Hadoop y resultan en una solución que proporciona alto desempeño y escalabilidad.

El siguiente componente de SPSS que se usa para big data es SPSS Collaboration and Deployment Services (C&DS). C&DS realiza las principales funciones:

  • Sirve como un repositorio de activos analíticos. Una vez que un activo se guarda en el repositorio puede usarse para administrar los trabajos de lote. El repositorio también provee conectividad a InfoSphere Streams para las actualizaciones en tiempo real de los modelos SPSS.
  • Proporciona una interfaz para programar trabajos de lote y modelar trabajos de actualización que usan bases de datos y fuentes de datos de Hadoop.

SPSS Analytic Catalyst realiza un análisis estadístico a través de una interfaz de web fácil de usar. Está diseñada para un usuario de negocios que puede no tener una profunda comprensión de la minería de datos. SPSS Analytic Catalyst aplica varios algoritmos y técnicas de análisis estadísticas a la fuente de datos seleccionada. Los resultados se presentan a través de explicaciones visuales y en lenguaje común. La Figura 4 nos da una muestra del resultado de un proyecto de SPSS Analytic Catalyst.

Figura 4. SPSS Analytic Catalyst devuelve el resultado del análisis en una fuente de datos
El árbol de decisiones muestra el resultado en base a la antigüedad del equipo
El árbol de decisiones muestra el resultado en base a la antigüedad del equipo

El análisis de SPSS Analytic Catalyst opera en Hadoop. La conectividad de la fuente de datos a los datos existentes en Hadoop la suministra SPSS Analytic Server. Todas las fuentes de datos que se describen en la sección de integración de SPSS e InfoSphere BigInsights pueden usarse en SPSS Analytic Catalyst. Las series más pequeñas de datos pueden cargarse a SPSS Analytic Catalyst a través de una interfaz de Web. Una distribución de Hadoop es un requisito previo para la instalación de SPSS Analytic Catalyst. Después de la instalación, no se requiere una integración adicional para realizar el análisis en big data.

Después, echemos un vistazo a profundidad a la integración de SPSS con Netezza, InfoSphere BigInsights, e InfoSphere Streams.

Integración de SPSS y Netezza

Netezza es un almacén de datos de alto rendimiento. La integración de SPSS y Netezza es un escenario típico de integración de big data para SPSS. Los datos que se guardan en Netezza pueden usarse para la construcción de modelos, puntuación y actualización de modelos.

SPSS Modeler se conecta con Netezza por medio de un controlador de Open Database Connectivity (ODBC) suministrado por Netezza. Los datos que se guardan en Netezza pueden usarse como fuentes de datos de entrada o de salida para una secuencia de SPSS Modeler. SPSS Modeler da soporte SQL pushback a Netezza: en el tiempo de ejecución, la secuencia del modelador se convierte a SQL y se ejecuta en Netezza. SQL pushback no requiere de la importación manual del código SPSS a Netezza. La importación se maneja automáticamente por la plataforma SPSS.

Además de SQL pushback, SPSS provee un adaptador de puntuación para Netezza, que permite que los nodos SPSS que no pueden convertirse a SQL se usen como funciones definidas por el usuario (UDFs) en Netezza.

SPSS Modeler también le da soporte a Netezza en la minería de bases de datos. En el caso de SQL pushback y el adaptador de puntación, SPSS Modeler genera código y opera en Netezza. Los nodos de minería en la base de datos son suministrados por Netezza e invocados por SPSS. El resultado final de todas las implementaciones que se describen es el desempeño mejorado porque los datos no tienen que moverse entre Netezza y los servidores SPSS.

Los nodos de modelado para Netezza en la minería de bases de datos se muestran en la Figura 5. Algunos modelos están disponibles tanto en SPSS como en Netezza, mientras que otros son únicos para Netezza. Los nodos de minería en la base de datos en Netezza se habilitan instalando el paquete de INZA, que se embarca con Netezza. La interfaz del usuario para Netezza en la minería en la base de datos se proporciona de manera predefinida en SPSS Modeler; los nodos se hacen visibles en la paleta de modelos seleccionando Tools > Options > Helper Applications.

Figura 5. Modelando nodos para Netezza en la minería de bases de datos
Image shows database modeling tab with icons for modeling nodes
Image shows database modeling tab with icons for modeling nodes

Integración de SPSS e InfoSphere BigInsights

InfoSphere BigInsights es una distribución lista para la empresa de Hadoop. De forma similar a Netezza, la integración con InfoSphere BigInsights puede usarse en todas las fases del proceso de minería de datos. La integración de SPSS e InfoSphere BigInsights se habilita por SPSS Analytic Server. SPSS Analytic Server oculta la complejidad de acceder a las fuentes de datos de Hadoop y hace posible que los analistas apliquen todas las operaciones de minería de datos que se suministran en SPSS Modeler a los datos que se guardan en Hadoop. Después de que a las fuentes de datos Hadoop se les configure en SPSS Analytic; estas pueden accesarse fácilmente con un nodo de fuente en el modelador (consulte Figura 6). SPSS Analytic Server da soporte a las fuentes de datos HDFS y a las fuentes de datos HCatalog. HCatalog actúa como una puerta de enlace a las fuentes de datos NoSQL, incluyendo Hive, HBase, Accumulo, JSON, y XML.

Figura 6. Acceda a las fuentes de datos de Hadoop en el nodo fuente de SPSS Modeler
Table tab in preview mode shows customer IDs
Table tab in preview mode shows customer IDs

SPSS provee la ejecución de nodos múltiples en-Hadoop de SPSS Modeler, que son los nodos que dan soporte a la ejecución en Hadoop como trabajos de MapReduce. Los siguientes nodos de SPSS Modeler dan soporte a la ejecución en Hadoop:

  • La mayoría de las operaciones de preparación de datos
  • Model scoring: C&RT, Quest, CHAID, Linear, Regression, Neural Net, C5.0, Logistic, Genlin, GLMM, Cox, SVM, Bayes Net, TwoStep, KNN, Decision List, Discriminant, Self Learning, Anomaly Detection, Apriori, Carma, K-Means, Kohonen y Text Mining
  • Desarrollo de modelo: Linear, Neural Net, C&RT, Chaid, Quest

SPSS Analytic Server da soporte a la operación de modelos R en Hadoop. Una sola secuencia puede incluir tanto modelos SPSS como R.

SPSS Analytic Server también proporciona conectividad a las fuentes de datos de las bases de datos. Esta función le permite fusionar los datos de la bases de datos y de Hadoop en una sola secuencia de SPSS Modeler. En el tiempo de ejecución, SPSS Analytic Server trabaja con el servidor SPSS Modeler para determinar el ambiente de operación óptimo para la secuencia de SPSS Modeler (ejecución de SQL pushback o in-Hadoop).

SPSS Analytic Server da soporte a InfoSphere BigInsights 2.0 y 2.1, IBM PureData™ para Hadoop appliance, InfoSphere BigInsights con Platform Symphony, así como varias otras distribuciones de Hadoop.

Integración de SPSS e InfoSphere Streams

InfoSphere Streams es una plataforma de IBM para procesar secuencias de datos (streaming data). La integración de SPSS se usa cuando el procesamiento en tiempo real requiere de analítica avanzada. Los ejemplos de casos de uso para aplicar la analítica predictiva en tiempo real son los de seguridad cibernética (cybersecurity), banca y detección de fraudes de tarjetas de crédito, mantenimiento predictivo y ofertas de mercadotecnia en tiempo real.

InfoSphere Streams y SPSS están integrados en la fase de despliegue del ciclo de vida de minería de datos. Los modelos se desarrollan usando datos históricos guardados en las bases de datos o Hadoop y desplegados para la puntuación en tiempo real en InfoSphere Streams. La integración de InfoSphere Streams y SPSS se habilita por SPSS Scoring Toolkit, que se instala en InfoSphere Streams. Scoring Toolkit es un componente de SPSS Collaboration and Deployment Services (C&DS).

Después de que se instala el juego de herramientas, un desarrollador de InfoSphere Streams usa operadores para integrar los activos analíticos SPSS con una aplicación InfoSphere Streams. Se usa el operador publish durante la fase de desarrollo de la aplicación para hacer que un modelo SPSS esté listo para el despliegue de InfoSphere Streams. Se usa el operador scoring en el tiempo de ejecución para invocar el modelo SPSS. Se puede usar el operador repository para jalar automáticamente la última versión del modelo del repositorio del modelo SPSS. La Figura 7 muestra un diagrama de integración del tiempo de ejecución de SPSS e InfoSphere Streams.

Figura 7. Diagrama de integración del tiempo de ejecución de SPSS e InfoSphere Streams
La imagen muestra el flujo de trabajo de las fuentes de datos, repositorio y modelos SPSS
La imagen muestra el flujo de trabajo de las fuentes de datos, repositorio y modelos SPSS

Resumen

La integración contenida en la plataforma SPSS con Netezza, InfoSphere BigInsights e InfoSphere Streams permite que los analistas usen poderosas herramientas analíticas con big data. La combinación de los componentes de SPSS, que proporcionan extensas capacidades analíticas y la plataforma de big data, que permite la escalabilidad y desempeño, proporcionan a los desarrolladores de big data el acceso a la tecnología SPSS. Los activos de la analítica de SPSS pueden modificarse fácilmente para conectarse a las diferentes fuentes de big data y pueden operar en diferentes modalidades de despliegue (lote o tiempo real).


Recursos para Descargar


Temas relacionados


Comentarios

Inicie Sesión o Regístrese para agregar comentarios.

static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Big data y analytics
ArticleID=965732
ArticleTitle=Aplique la analítica de la tecnología de SPSS a Big Data
publish-date=12242013