Aplique la analítica de la tecnología de SPSS a Big Data

Pruebe SPSS con IBM Netezza, InfoSphere BigInsights e InfoSphere Streams para las analíticas a escala

Aprenda sobre las nuevas capacidades en SPSS® para trabajar con big data. Los activos de la analítica de SPSS ahora se pueden modificar fácilmente para conectarse con las diferentes fuentes de big data y pueden operar en diferentes modalidades de despliegue (lote o tiempo real). Los componentes de la plataforma de SPSS ahora trabajan con IBM Netezza, InfoSphere® BigInsights™, e InfoSphere Streams para permitir que los analistas utilicen herramientas poderosas de analítica con big data.

Elena Lowery, Enterprise Architect, IBM

Elena Lowery es una arquitecta empresarial de IBM. A lo largo de sus 15 años de carrera en IBM ha tenido las funciones de ingeniera de software, consultora de servicios y especialista de habilitación de asociados de negocios trabajando con una variedad de tecnologías de IBM y de código abierto. Elena actualmente es una arquitecta empresarial responsable del diseño e implementación de las soluciones que incluye el software de las analíticas predictivas de SPSS.



24-12-2013

Durante décadas IBM SPSS ha suministrado poderosas herramientas para los estadísticos y los científicos de datos. A lo largo de los años, la plataforma SPSS ha evolucionado para dar soporte a todas las fases del proceso de minería de datos, que incluyen el desarrollo de modelos, el despliegue de modelos y la actualización de modelos. En los últimos dos años, se han agregado nuevas capacidades para trabajar con big data al SPSS. Este artículo describe la forma en la que SPSS se integra con tres componentes de la cartera de big data de IBM: Netezza, InfoSphere BigInsights e InfoSphere Streams.

Aspectos generales de la plataforma SPSS

Componentes de software de SPSS que se integran con big data:

  • SPSS Modeler
  • SPSS Analytic Server
  • SPSS Collaboration and Deployment Services
  • SPSS Analytic Catalyst

SPSS Modeler es una mesa de trabajo de minería de datos para analizar datos y desarrollar activos de analítica. El término genérico activo de analítica se usa para describir una colección de operaciones que resuelven un problema de negocios. Los científicos de datos a menudo utilizan los términos modelo o modelo predictivo cuando describen activos desarrollados en herramientas de minería de datos. Además del modelo, un activo analítico de SPSS puede incluir los pasos de preparación de datos y las reglas de negocios. La Figura 1 ilustra un activo analítico muestra desarrollado en SPSS Modeler. En este ejemplo usamos un modelo de árbol de decisión para la predicción preestablecida de la hipoteca. El activo analítico realiza las siguientes operaciones:

  • Fusiona datos de tres fuentes de datos históricos.
  • Usa un nodoType para identificar la variable objetivo para la predicción del modelo (MortgageDefault)
  • Desarrolla un modelo basado en el algoritmo de árbol de decisión C5.0
  • Selecciona registros con predicción positiva preestablecida de hipoteca
  • Despliega los resultados en una tabla
Figura 1. Activo analítico desarrollado en SPSS Modeler
Image shows diagram of decision tree model

Haga clic para ampliar la imagen

Figura 1. Activo analítico desarrollado en SPSS Modeler

Image shows diagram of decision tree model

SPSS Modeler es un ambiente de programación visual. Se crean activos analíticos conectando los nodos de programación visual en el sondeo; en el tiempo de ejecución, los nodos se ejecutan en la dirección de las flechas que los conectan. Los nodos se organizan por las funciones relacionadas: Sources,Record Operations, Field Operations, Modeling, etc. La pestaña Modeling despliega los algoritmos utilizados para la generación de modelos (consulte la Figura 2). SPSS envía 27 algoritmos de modelado y nodos de ensamble que operan varios algoritmos contra un conjunto de datos y seleccionan el mejor. Además de los nodos visuales que se describen, los analistas pueden usar funciones SQL, modelos R y nodos desarrollados a la medida si quieren extender la funcionalidad base de SPSS Modeler.

Figura 2. Pestaña de generación de modelos con algoritmos para generar modelos
La pestaña de Modeling muestra símbolos para cada algoritmo

Haga clic para ampliar la imagen

Figura 2. Pestaña de generación de modelos con algoritmos para generar modelos

La pestaña de Modeling muestra símbolos para cada algoritmo

Los analistas usan los datos históricos para desarrollar modelos. Después de crear el modelo, el analista modifica el activo analítico para puntuar a los datos operativos (consulte la Figura 3). Ya no necesitamos la fuente de datos de Mortgage Default porque contiene datos históricos. Quitamos los nodos del algoritmo Type y Decision Tree. Se usó el algoritmo del árbol de decisiones C5 para construir el modelo. El modelo que se creó está representado por el ícono de pepita de oro (MortgageDefault). El analista reemplaza el nodo Table con un nodo Export, que escribirá datos a una tabla de base de datos. Este activo analítico ahora puede usarse para la puntuación de lote o de tiempo real para las nuevas aplicaciones de hipoteca.

Figura 3. Modelo modificado con Type, Decision Tree y la fuente de datos de Mortgage Default eliminada
Diagrama actualizado mostrando sólo los algoritmos restantes

El segundo componente de SPSS que se usa para big data es el SPSS Analytic Server. Administra el acceso a las fuentes de datos de Hadoop y administra la operación de una secuencia de Modeler en Hadoop. Las operaciones de Modeler operan como trabajos de MapReduce en Hadoop y resultan en una solución que proporciona alto desempeño y escalabilidad.

El siguiente componente de SPSS que se usa para big data es SPSS Collaboration and Deployment Services (C&DS). C&DS realiza las principales funciones:

  • Sirve como un repositorio de activos analíticos. Una vez que un activo se guarda en el repositorio puede usarse para administrar los trabajos de lote. El repositorio también provee conectividad a InfoSphere Streams para las actualizaciones en tiempo real de los modelos SPSS.
  • Proporciona una interfaz para programar trabajos de lote y modelar trabajos de actualización que usan bases de datos y fuentes de datos de Hadoop.

SPSS Analytic Catalyst realiza un análisis estadístico a través de una interfaz de web fácil de usar. Está diseñada para un usuario de negocios que puede no tener una profunda comprensión de la minería de datos. SPSS Analytic Catalyst aplica varios algoritmos y técnicas de análisis estadísticas a la fuente de datos seleccionada. Los resultados se presentan a través de explicaciones visuales y en lenguaje común. La Figura 4 nos da una muestra del resultado de un proyecto de SPSS Analytic Catalyst.

Figura 4. SPSS Analytic Catalyst devuelve el resultado del análisis en una fuente de datos
El árbol de decisiones muestra el resultado en base a la antigüedad del equipo

Haga clic para ampliar la imagen

Figura 4. SPSS Analytic Catalyst devuelve el resultado del análisis en una fuente de datos

El árbol de decisiones muestra el resultado en base a la antigüedad del equipo

El análisis de SPSS Analytic Catalyst opera en Hadoop. La conectividad de la fuente de datos a los datos existentes en Hadoop la suministra SPSS Analytic Server. Todas las fuentes de datos que se describen en la sección de integración de SPSS e InfoSphere BigInsights pueden usarse en SPSS Analytic Catalyst. Las series más pequeñas de datos pueden cargarse a SPSS Analytic Catalyst a través de una interfaz de Web. Una distribución de Hadoop es un requisito previo para la instalación de SPSS Analytic Catalyst. Después de la instalación, no se requiere una integración adicional para realizar el análisis en big data.

Después, echemos un vistazo a profundidad a la integración de SPSS con Netezza, InfoSphere BigInsights, e InfoSphere Streams.


Integración de SPSS y Netezza

Netezza es un almacén de datos de alto rendimiento. La integración de SPSS y Netezza es un escenario típico de integración de big data para SPSS. Los datos que se guardan en Netezza pueden usarse para la construcción de modelos, puntuación y actualización de modelos.

SPSS Modeler se conecta con Netezza por medio de un controlador de Open Database Connectivity (ODBC) suministrado por Netezza. Los datos que se guardan en Netezza pueden usarse como fuentes de datos de entrada o de salida para una secuencia de SPSS Modeler. SPSS Modeler da soporte SQL pushback a Netezza: en el tiempo de ejecución, la secuencia del modelador se convierte a SQL y se ejecuta en Netezza. SQL pushback no requiere de la importación manual del código SPSS a Netezza. La importación se maneja automáticamente por la plataforma SPSS.

Además de SQL pushback, SPSS provee un adaptador de puntuación para Netezza, que permite que los nodos SPSS que no pueden convertirse a SQL se usen como funciones definidas por el usuario (UDFs) en Netezza.

SPSS Modeler también le da soporte a Netezza en la minería de bases de datos. En el caso de SQL pushback y el adaptador de puntación, SPSS Modeler genera código y opera en Netezza. Los nodos de minería en la base de datos son suministrados por Netezza e invocados por SPSS. El resultado final de todas las implementaciones que se describen es el desempeño mejorado porque los datos no tienen que moverse entre Netezza y los servidores SPSS.

Los nodos de modelado para Netezza en la minería de bases de datos se muestran en la Figura 5. Algunos modelos están disponibles tanto en SPSS como en Netezza, mientras que otros son únicos para Netezza. Los nodos de minería en la base de datos en Netezza se habilitan instalando el paquete de INZA, que se embarca con Netezza. La interfaz del usuario para Netezza en la minería en la base de datos se proporciona de manera predefinida en SPSS Modeler; los nodos se hacen visibles en la paleta de modelos seleccionando Tools > Options > Helper Applications.

Figura 5. Modelando nodos para Netezza en la minería de bases de datos
Image shows database modeling tab with icons for modeling nodes

Haga clic para ampliar la imagen

Figura 5. Modelando nodos para Netezza en la minería de bases de datos

Image shows database modeling tab with icons for modeling nodes

Integración de SPSS e InfoSphere BigInsights

InfoSphere BigInsights es una distribución lista para la empresa de Hadoop. De forma similar a Netezza, la integración con InfoSphere BigInsights puede usarse en todas las fases del proceso de minería de datos. La integración de SPSS e InfoSphere BigInsights se habilita por SPSS Analytic Server. SPSS Analytic Server oculta la complejidad de acceder a las fuentes de datos de Hadoop y hace posible que los analistas apliquen todas las operaciones de minería de datos que se suministran en SPSS Modeler a los datos que se guardan en Hadoop. Después de que a las fuentes de datos Hadoop se les configure en SPSS Analytic; estas pueden accesarse fácilmente con un nodo de fuente en el modelador (consulte Figura 6). SPSS Analytic Server da soporte a las fuentes de datos HDFS y a las fuentes de datos HCatalog. HCatalog actúa como una puerta de enlace a las fuentes de datos NoSQL, incluyendo Hive, HBase, Accumulo, JSON, y XML.

InfoSphere BigInsights Quick Start Edition

InfoSphere BigInsights Quick Start Edition es una versión descargable libre de cargo de InfoSphere BigInsights, la oferta basada en Hadoop de IBM. Usando Quick Start Edition, usted puede probar las características que ha desarrollado IBM para extender el valor del código abierto de Hadoop, al igual que Big SQL, las analíticas de texto y BigSheets. Se tiene disponible el aprendizaje guiado para hacer que su experiencia sea tan ágil como sea posible incluyendo tutoriales y videos paso por paso, autodidactas, para ayudarle a empezar a poner a Hadoop para que trabaje para usted. Sin límite de tiempo o de datos, puede experimentar a su propio tiempo grandes cantidades de datos. Vea los videos , siga los tutoriales (PDF), y descargue BigInsights Quick Start Edition ahora.

Figura 6. Acceda a las fuentes de datos de Hadoop en el nodo fuente de SPSS Modeler
Table tab in preview mode shows customer IDs

SPSS provee la ejecución de nodos múltiples en-Hadoop de SPSS Modeler, que son los nodos que dan soporte a la ejecución en Hadoop como trabajos de MapReduce. Los siguientes nodos de SPSS Modeler dan soporte a la ejecución en Hadoop:

  • La mayoría de las operaciones de preparación de datos
  • Model scoring: C&RT, Quest, CHAID, Linear, Regression, Neural Net, C5.0, Logistic, Genlin, GLMM, Cox, SVM, Bayes Net, TwoStep, KNN, Decision List, Discriminant, Self Learning, Anomaly Detection, Apriori, Carma, K-Means, Kohonen y Text Mining
  • Desarrollo de modelo: Linear, Neural Net, C&RT, Chaid, Quest

SPSS Analytic Server da soporte a la operación de modelos R en Hadoop. Una sola secuencia puede incluir tanto modelos SPSS como R.

SPSS Analytic Server también proporciona conectividad a las fuentes de datos de las bases de datos. Esta función le permite fusionar los datos de la bases de datos y de Hadoop en una sola secuencia de SPSS Modeler. En el tiempo de ejecución, SPSS Analytic Server trabaja con el servidor SPSS Modeler para determinar el ambiente de operación óptimo para la secuencia de SPSS Modeler (ejecución de SQL pushback o in-Hadoop).

SPSS Analytic Server da soporte a InfoSphere BigInsights 2.0 y 2.1, IBM PureData™ para Hadoop appliance, InfoSphere BigInsights con Platform Symphony, así como varias otras distribuciones de Hadoop.


Integración de SPSS e InfoSphere Streams

InfoSphere Streams es una plataforma de IBM para procesar secuencias de datos (streaming data). La integración de SPSS se usa cuando el procesamiento en tiempo real requiere de analítica avanzada. Los ejemplos de casos de uso para aplicar la analítica predictiva en tiempo real son los de seguridad cibernética (cybersecurity), banca y detección de fraudes de tarjetas de crédito, mantenimiento predictivo y ofertas de mercadotecnia en tiempo real.

InfoSphere Streams Quick Start Edition

InfoSphere Streams Quick Start Edition es una versión de no producción, libre de cargo, descargable, de InfoSphere Streams, una plataforma de computación de alto desempeño que permite que las aplicaciones desarrolladas por el usuario ingieran, analicen y correlacionen la información tal y como llega de miles de fuentes de tiempo real. Sin límites de datos o de tiempo, InfoSphere Streams Quick Start Edition le permite experimentar con la computación en secuencia en su propio ambiente único. Desarrolle una poderosa plataforma de analítica que puede manejar un caudal increíblemente alto de datos, hasta millones de eventos o mensajes por segundo. Descargue InfoSphere Streams Quick Start Edition ahora.

InfoSphere Streams y SPSS están integrados en la fase de despliegue del ciclo de vida de minería de datos. Los modelos se desarrollan usando datos históricos guardados en las bases de datos o Hadoop y desplegados para la puntuación en tiempo real en InfoSphere Streams. La integración de InfoSphere Streams y SPSS se habilita por SPSS Scoring Toolkit, que se instala en InfoSphere Streams. Scoring Toolkit es un componente de SPSS Collaboration and Deployment Services (C&DS).

Después de que se instala el juego de herramientas, un desarrollador de InfoSphere Streams usa operadores para integrar los activos analíticos SPSS con una aplicación InfoSphere Streams. Se usa el operador publish durante la fase de desarrollo de la aplicación para hacer que un modelo SPSS esté listo para el despliegue de InfoSphere Streams. Se usa el operador scoring en el tiempo de ejecución para invocar el modelo SPSS. Se puede usar el operador repository para jalar automáticamente la última versión del modelo del repositorio del modelo SPSS. La Figura 7 muestra un diagrama de integración del tiempo de ejecución de SPSS e InfoSphere Streams.

Figura 7. Diagrama de integración del tiempo de ejecución de SPSS e InfoSphere Streams
La imagen muestra el flujo de trabajo de las fuentes de datos, repositorio y modelos SPSS

Haga clic para ampliar la imagen

Figura 7. Diagrama de integración del tiempo de ejecución de SPSS e InfoSphere Streams

La imagen muestra el flujo de trabajo de las fuentes de datos, repositorio y modelos SPSS

Resumen

La integración contenida en la plataforma SPSS con Netezza, InfoSphere BigInsights e InfoSphere Streams permite que los analistas usen poderosas herramientas analíticas con big data. La combinación de los componentes de SPSS, que proporcionan extensas capacidades analíticas y la plataforma de big data, que permite la escalabilidad y desempeño, proporcionan a los desarrolladores de big data el acceso a la tecnología SPSS. Los activos de la analítica de SPSS pueden modificarse fácilmente para conectarse a las diferentes fuentes de big data y pueden operar en diferentes modalidades de despliegue (lote o tiempo real).

Recursos

Aprender

  • Para encontrar mayor información sobre SPSS Modeler.
  • Para encontrar mayor información sobre SPSS Modeler del centro de información de SPSS Modeler .
  • Para encontrar mayor información sobre SPSS Analytic Server del centro de información de SPSS Analytic Server .
  • Verifique la información del producto para SPSS Analytic Catalyst.
  • Vea el demo de integración de SPSS e InfoSphere Streams.
  • Explore las funciones y beneficios de SPSS Analytic Catalyst.
  • Consulte el Centro de Información de IBM InfoSphere BigInsights para la documentación del producto.
  • Aprenda más sobre big data en el área de contenido de big data de developerWorks . Encuentre la documentación técnica, artículos de cómo hacer, educación, descargas, información del producto, y más.
  • Encuentre los recursos para ayudarlo a iniciar con InfoSphere BigInsights, las ofertas basadas en Hadoop de IBM que extienden al valor del código abierto Hadoop con funciones tales como Big SQL, analítica de texto y BigSheets.
  • Siga estos tutoriales autodidactas (PDF) para aprender cómo administrar su ambiente big data, importar datos para el análisis, analizar datos con BigSheets, desarrollar su primera aplicación de big data, desarrollar consultas Big SQL para analizar big data y crear un extractor para derivar ideas y percepciones de los documentos de texto con InfoSphere BigInsights.
  • Encuentre los recursos para ayudarlo a iniciar con InfoSphere Streams, la plataforma de computación de alto desempeño de IBM que permite que las aplicaciones desarrolladas por el usuario ingieran, analicen y correlacionen la información rápidamente en la medida que llega de las miles de fuentes de tiempo real.
  • Manténgase actualizado con los eventos técnicos y webcasts de developerWorks .
  • Siga developerWorks en Twitter.

Obtener los productos y tecnologías

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Big data y analytics
ArticleID=965732
ArticleTitle=Aplique la analítica de la tecnología de SPSS a Big Data
publish-date=12242013