Desarrollo de datamarts de medios sociales utilizando herramientas de minería de textos de SPSS

El crecimiento de los medios sociales ha cambiado la manera de hacer negocios de las grandes marcas. Antes de la adopción generalizada de los canales sociales, el análisis del comportamiento del consumidor se basaba más en la recolección de información independiente y la formación de preferencias. Los clientes cada vez pasan más tiempo en línea, participan en conversaciones, piden consejos, realizan comparaciones de precio y calidad e influencian a otros. Estos comportamientos en el nivel individual, incorporados en datos de medios sociales en bruto, representan las preferencias del consumidor, el historial de compras, eventos significativos de la vida, estados de ánimo, personalidad y otros atributos que pueden deducirse a través de la minería de textos y almacenarse en un datamart de medios sociales.

Kimberly Chulis, CEO y Cofundadora, Core Analytics, LLC

Kimberly ChulisKimberly Chulis es parte de los fundadores originales de Core Analytics LLC. Con más de 18 años de experiencia profesional en análisis avanzado, ha demostrado experiencia analítica en proyectos en varias compañías e industrias, que incluyen WellPoint, HCSC, UHG, Great West, Accenture, Ogilvy, Microsoft, Sprint/Nextel, Commonwealth Edison, TXU, Eloyalty, SPSS, Allstate, Cendant y otros en los sectores financieros, de telecomunicaciones, cuidado de la salud, energéticos, sin fines de lucro, de venta y educacionales. Kimberly ha realizado investigaciones de postgrado en el programa Human Services Consumer Behavior de la Universidad de Purdue y tiene una maestría en economía con enfoque en economía de la salud y econometría de la Universidad de Illinois en Chicago.



04-02-2013

Introducción

El precursor de las redes sociales que actualmente conocemos surgió a fines de la década del sesenta cuando los tablones de anuncios eran una de las primeras plataformas interactivas para compartir mensajes. No fue sino hasta hace poco—en la década del noventa, cuando Craigslist y AOL aparecieron—, que la revolución social ganó terreno con rapidez. Las redes sociales se volvieron populares en los 2000 con Friendster, LinkedIn, MySpace, Flickr, Vimeo y YouTube, después con Facebook en 2004 y Twitter en 2006 y más recientemente con Google+ y Pinterest.

Las tendencias digitales que acompañaron la adopción generalizada de medios sociales tienen implicaciones directas en las marcas ya que desarrollan una estrategia digital variable para un entorno que se caracteriza por partes móviles. La corriente social efectivamente está extendiendo la relación entre marcas y clientes. Antes del comercio electrónico y los medios sociales, los consumidores investigaban un poco sobre los productos y realizaban una compra que era diferenciada y la relación terminaba hasta el momento de la siguiente compra. La recomendación de boca en boca se limitaba a la red social física del consumidor. En la actualidad, la opinión del consumidor se amplía a través de las redes sociales, con un alcance potencial en todo el público consumidor.

Las marcas conocen que los consumidores actuales están buscando activamente información previa de compra, momento en que analizan otras opiniones favorables o desfavorables y están mejor preparados para realizar rápidas comparaciones de precios con unos pocos toques en un dispositivo móvil. También saben que sus consumidores son más sensibles a la influencia de otros en su red social, lo que está conduciendo al desarrollo de un nuevo tipo de programa de influencia de fidelidad con el objeto de incentivar y recompensar a los individuos que ejercen una poderosa influencia de marca. Los clientes se están convirtiendo en los nuevos defensores de marcas de manera tal que la alineación de la personalidad e identidad de marca nunca habían sido más decisivas en la supervivencia de una marca.

Entonces, ¿cómo las marcas están gestionando esta afluencia de información de interacción digital? La tecnología ha estado avanzando a toda velocidad para alcanzar el crecimiento del consumidor social. Las redes sociales en sí mismas han proporcionado herramientas estadísticas y de tráfico específicas para un sitio, tales como Facebook Insights, YouTube Insights y suites de gestión de medios sociales como HootSuite, y los portales de medición de influencia como Klout proveen opciones de terceros para medidas de seguimiento de compromiso con la marca. Una variedad de herramientas comerciales de monitoreo de medios sociales, como Radian6, SM2, Viralheat y Sysomos, proveen informes, análisis de textos, compromiso, análisis de opinión, información de visitas y dedicación al flujo de trabajo. Estas herramientas están mejorando en alcance y utilidad, pero muchas de ellas aún están en una etapa temprana de evolución. El análisis de opinión, por ejemplo, todavía está lejos de ser preciso y los datos sociales provistos mediante servicios como Twitter firehose y por compañías asociadas como Gnip y DataSift aún son extremadamente caros y limitados en la naturaleza de los datos disponibles. Por lo tanto, existe un fuerte argumento para ampliar estas herramientas comerciales con minería de texto interna y la construcción de un datamart de medios sociales registrado. Los datamart de medios sociales almacenan información a nivel de consumidor proveniente de la interacción en medios sociales y toda la información digital asociada acerca de la ubicación, dispositivo, comportamiento móvil, pago móvil, plataforma y velocidad relacionados con los datos de comentarios.


Minería de textos y métodos semánticos

Dado que los medios sociales generan abundantes datos del consumidor, ¿cómo pueden las marcas convertir datos de comentarios de medios sociales en bruto de Twitter, Facebook, blogs y foros en ideas de negocios aplicables? La respuesta se encuentra en la aplicación de minería de textos y la tecnología semántica para estas nuevas fuentes de datos no estructurados.

La minería de textos se refiere a las técnicas utilizadas en la extracción de información de diferentes fuentes por escrito. ¿Por qué es tan importante? Se estima de forma general que el 80% de toda la información relevante en negocios se encuentra en datos de texto semiestructurados o no estructurados. En otras palabras, sin la aplicación del análisis de textos para descubrir los abundantes datos representados en ese 80%, se desperdiciaría toda la información de negocios incorporada y los datos del comportamiento del consumidor. El término minería de textos, a menudo denominado análisis de textos, tiene muchos fines prácticos, como la filtración de spam, la extracción de información de sugerencias y recomendaciones sobre sitios de comercio electrónico, el monitoreo y minería de opiniones de medios sociales de blogs y sitios de crítica, la mejora en el servicio al cliente y la asistencia por correo electrónico, el procesamiento automatizado de documentos de negocios, el vacío legal en los documentos electrónicos, la medición de preferencias del consumidor, el análisis de reclamos y detección de fraude y las aplicaciones de seguridad nacional y delitos informáticos.

La minería de textos es similar a la minería de datos en el objetivo de identificar patrones interesantes en datos. Sin embargo, la minería de textos manual (y que necesitaba gran dedicación) surgió en la década del ochenta. El área de minería de textos se ha vuelto importante en los últimos años para delimitar los algoritmos de resultados de motores de búsqueda y buscar en orígenes de datos con el fin de básicamente descubrir información desconocida. En el proceso se utilizan las técnicas como el aprendizaje de máquina, estadística, lingüística computacional y minería de datos. El objetivo del descubrimiento de conocimiento a partir de textos, por ejemplo, es detectar las relaciones semánticas subyacentes de un texto como también el contenido y el contexto implícito con el Procesamiento del Lenguaje Natural (NLP). Los procesos tienen el objetivo de usar el NLP para replicar y luego escalar el mismo tipo de distinción lingüística, el reconocimiento de patrones y la comprensión resultante que ocurre cuando los seres humanos leen y procesan textos.

Existen varios métodos en el área de la minería de textos. A continuación se presenta una lista de los pasos comunes y secuenciales que forman parte de la minería de textos.

El primer paso en cualquier iniciativa de minería de textos es identificar las fuentes basadas en textos a ser analizadas y recopilar este material a través de la recuperación de información o la selección del corpus que comprende el conjunto de archivos de texto y el contenido de interés. El NLP de gran alcance se despliega invocando el etiquetado gramatical y la secuencia de texto para analizar la sintaxis (es decir, el proceso tokenizing de texto) y la aplicación de Named Entity Recognition (es decir, la identificación de la mención de marcas, nombres de personas, lugares, abreviaciones comunes, etc.). El paso iterativo Filter Stopwords involucra la eliminación de palabras vacías o stopwords para delimitar el contenido del tema deseado. Pattern Identified Entities reconoce las direcciones de email y números de teléfono y Coreference identifica las frases nominales y objetos relacionados en textos, seguido de Relationship, Fact and Event Extraction. A menudo se generan N-Grams que crean términos como una serie de palabras consecutivas. Finalmente, sentiment analysis, un abordaje utilizado ampliamente por las actuales herramientas de monitoreo de medios sociales y categorización, se realiza para extraer información sobre la opinión respecto al objeto o tema. Muchas veces, varias correlaciones y funciones de diagramación brindan la visualización para la posterior validación de precisión.


Herramientas de minería de textos

Existen varias opciones comerciales y de código abierto para software y aplicaciones de minería de textos. IBM ofrece una amplia y sólida variedad de soluciones en minería de textos. Un producto muy eficaz que maximiza las posibilidades de grandes volúmenes de datos de IBM® InfoSphere® BigInsights™ brinda un módulo de análisis de textos complementario que ejecuta la extracción de análisis de texto del clúster de InfoSphere BigInsights. Los productos de IBM SPSS® varían en escala y alcance. Una herramienta que trabaja bien en la búsqueda de un documento y su asignación a un tema y asunto es IBM SPSS Modeler, que brinda una interfaz gráfica para realizar una clasificación y un análisis genéricos del documento de texto. Otro producto es el IBM SPSS Text Analytics for Surveys que usa NLP y es útil para analizar preguntas abiertas de encuestas en un documento. El IBM SPSS Modeler Premium se ejecuta en el mismo motor como el SPSS Text Analytics for Surveys, pero es altamente escalable para manejar un corpus completo de documentos (PDF, páginas web, blogs, emails, feeds de Twitter, entre otros) en un sofisticado entorno de trabajo que también facilita la integración entre datos estructurados y no estructurados. Un nodo de código de origen personalizado para Facebook relacionado amplía las posibilidades de SPSS Modeler Premium para la lectura de datos directamente de un muro de Facebook y su integración con un feed de Twitter en SPSS Modeler con el fin de obtener una perspectiva de canales de medios multisociales.

De las herramientas de minería de texto de código abierto, R y RapidMiner parecen ser las dos más populares. R tiene una base de usuario mayor; siendo un lenguaje de programación en el que se necesita un código de origen, tiene una amplia selección de algoritmos. Sin embargo, la escalabilidad es un problema en R, por lo que no es ideal para grandes conjuntos de datos sin métodos alternativos. RapidMiner tiene una base de usuario menor, pero no necesita un código de origen y tiene una eficiente interfaz de usuario (UI). También es altamente escalable y puede manejar clústeres y la programación en bases de datos. IBM ofrece un módulo R de Jaql que integra el proyecto R en consultas, lo que a su vez permite a los trabajos de MapReduce ejecutar cálculos R en paralelo.


Datamarts de medios sociales y grandes volúmenes de datos

Opciones NoSQL o SQL

Un breve comentario acerca de las opciones de NoSQL y el lenguaje de consulta estructurado (SQL) y el proceso de selección de pila tecnología. Cuando los orígenes de datos se vuelven difíciles de manejar, como ocurre con frecuencia con los datos de medios sociales, es necesaria una combinación de opciones de NoSQL comerciales (como IBM InfoSphere BigInsights) que se integran eficientemente con Hadoop y otras herramientas de código abierto que amplían sus posibilidades. Están disponibles las bases de datos y los almacenes de valor clave y documentos, y la selección óptima se basa en un caso de uso primario. Las compañías interesadas en minería de textos y análisis habitualmente eligen Hadoop e lo integran con otras herramientas de código abierto como Apache Mahout, un motor de aprendizaje de máquina que brinda clasificación, agrupación en clúster y filtración colaborativa. Las variables y los flujos de Storm gestionan un análisis en tiempo real que navega por la alta latencia de Hadoop.

Existen desafíos únicos cuando se propone aplicar la minería de textos a datos de medios sociales. Los datos de sitios de redes sociales, blogs y foros generan caídas en la categoría de lo que comúnmente se denomina grandes volúmenes de datos. Los datos son semiestructurados y no estructurados, los petabytes se generan diariamente sobre las marcas más grandes y las bases de datos relacionales convencionales no pueden escalar con eficiencia para soportar el análisis en tiempo real basado en los datos. Por lo tanto, se requieren soluciones para grandes volúmenes de datos y bases de datos NoSQL.

Si no se recolectan y almacenan adecuadamente y periódicamente, los datos de medios sociales son básicamente efímeros. La mayoría de las herramientas de monitoreo de medios sociales de código abierto solo almacenan el historial de comentarios de medios sociales de unos pocos días. Solo Twitter anunció recientemente que estará disponible un historial completo de datos, pero estará limitado a los comentarios publicados expresamente por el titular de la cuenta. Estos datos están disponibles desde algunos de los proveedores de datos sociales más grandes mencionados anteriormente, como Gnip y DataSift, y a través de interfaces de programación de aplicaciones (API) basadas en llamadas y volumen a través de otras herramientas. Sin embargo, mientras están disponibles (para Twitter), es extremadamente caro para cualquiera excepto para las grandes marcas.

Cada sitio de medios sociales se encarga de este problema de manera diferente. Es posible usar solicitudes de búsqueda y tener respuestas del formato JavaScript Object Notation (JSON) que contienen datos sin analizar para su inclusión inmediata en una base de datos MySQL o NoSQL, dependiendo del volumen y la naturaleza de los datos.


Casos de uso de negocios para la minería de textos

Las marcas tienen diferentes objetivos para los usos de minería de textos:

  • Una compañía como Sears, en el Ejemplo 1, puede estar interesada en seguir la opinión del consumidor a través de los comentarios de medios sociales y las interacciones de la página de Facebook directamente después del lanzamiento de una nueva línea de producto. De esta forma, es posible comprender la opinión básica acerca de imágenes, productos y clústeres de conversaciones que ocurren por el lanzamiento del producto. Esta retroalimentación en tiempo real permite rápidas actualizaciones de mensajes y la eliminación de contenido impopular, y los seguidores de Facebook se convierten en un grupo focal en tiempo real, brindando retroalimentación inmediata sobre las características del producto.
  • Una compañía como ACT Media se dedica a desarrollar relaciones entre marcas y jugadores de video juegos. Posee un preformato en el juego que permite a los jugadores jugar regularmente mientras muestra una variedad de contenidos programados y dirigidos a ellos. Los jugadores ganan dinero virtual JACT y estos JACT BUX pueden canjearse por premios, incluidos artículos virtuales y descargables. Los jugadores interactúan con JACT en la página de Facebook o Twitter y mencionan JACT BUX con frecuencia en los foros de juegos. Estos datos de comentarios en bruto pueden recolectarse de varias fuentes y pueden almacenarse los comentarios y las preferencias a nivel individual. Por ejemplo, si un jugador está entusiasmado con un video juego en particular o twittea acerca de su premio, la focalización en el juego basada en un juego específico o tipo de premio tiene más probabilidad de conducir a una mayor lealtad que las ofertas aleatorias.
  • Los supermercados pueden usar datos de medios sociales para identificar más compradores valiosos, impresiones sobre el servicio al cliente, el ambiente de la tienda, preferencias por productos, preferencias de embalaje y precios. Combinando este tipo de información con los datos de ubicación que brindan Twitter o dispositivos móviles, los supermercados pueden personalizar a medida la experiencia de compra desde una perspectiva de localización. Esto tiene implicaciones en la confección de inventarios, fijación de precios, publicidad, ofertas de cupones por correo publicitario digital e individual, etc.

Ejemplo 1: Los datos de medios sociales y la minería de textos en SPSS Modeler Premium

Este primer ejemplo muestra un caso de uso de SPSS Modeler Premium. En este escenario, se lanza una nueva línea de producto y la compañía está interesada en seguir la respuesta del consumidor a partir de datos de medios sociales. El nodo de Facebook de SPSS Modeler Premium se usa para seguir esta nueva línea de producto Kardashian en la página de Facebook de Sears, como se muestra en la Figura 1.

Figura 1. El minorista lanza una nueva línea de producto en Facebook.
Screen capture of a retailer's new product page

El primer paso en el seguimiento y análisis de datos de comentarios es que el usuario especifique un nombre de usuario y la cantidad de páginas y hebras para análisis en el nodo de Facebook de SPSS Modeler Premium, como se muestra en la Figura 2.

Figura 2. SPSS Modeler extrae comentarios del muro de Facebook para identificar el análisis de retroalimentación de comentarios posteriores al lanzamiento.
Screen capture of SPSS Modeler being used to extract Facebook wall comments to identify post-launch comment feedback analysis

Los datos de comentarios luego se extraen de la página de Facebook de Sears y vuelven disponibles para su uso en SPSS Modeler, como se muestra en la Figura 3.

Figura 3. Los datos de comentarios en bruto pueden verse mediante el nodo de Facebook de SPSS Modeler
Raw comment data can be viewed directly via the SPSS Modeler Facebook node

(Vea una versión ampliada de la Figura 3).

El siguiente ejemplo involucra agregar filtros y realizar la extracción de conceptos, lo que produce una visualización que describe las categorías de contenido sobre la marca. La UI gráfica y fácil de usar guía al usuario a través del proceso y no se necesita ningún API para extraer los datos sociales de Twitter o Facebook. El resultado es un mapa conceptual fácil de comprender y la sensibilidad para clústeres conceptuales representados por el espesor de la línea de conexión, como se muestra en la Figura 4.

Figura 4. Concept Map brinda una visualización de las categorías con la importancia del concepto para la marca
Screen capture showing how Concept Map provides visualization of strength-of-concept categories to brand.

(Vea una versión ampliada de la Figura 4).

Ejemplo 2: Ejemplo de preferencia por un producto de supermercado utilizando la extracción y las palabras vacías en SPSS Statistics Base

El siguiente ejemplo de un datamart de medios sociales describe un simple proceso manual de minería de textos. En este ejemplo, nos interesa usar la minería de textos mediante SPSS Statistics Base para obtener y almacenar las preferencias individuales por un producto a partir de los datos de medios sociales. El ejemplo incluye una guía paso a paso para extraer datos de marca de supermercado desde Twitter y Facebook. Se representa la arquitectura de proceso en la Figura 5.

Figura 5. La arquitectura del datamart de medios sociales de BrandMeter
Image showing the BrandMeter social media datamart architecture

(Vea una versión ampliada de la Figura 5).

El primer paso consiste en identificar las marcas de interés. Se establece la rutina para recolectar referencias relacionadas a la marca a través de un proceso API. Esto se realiza con solicitudes de búsqueda como las que se muestran en la Figura 6 y se devuelven resultados en formato JSON. La biblioteca JSON analiza los datos y cada registro se divide en múltiples campos que contienen información como datos de ID del usuarios y comentarios de mensaje de texto sin procesar. Estos datos luego se almacenan en una base de datos y se vuelven disponibles para la minería de textos.

Figura 6. Ejemplo de API para acceder a datos de comentarios de Twitter y Facebook en bruto
Image showing a sample API to access raw Twitter and Facebook comment data

(Vea una versión ampliada de la Figura 6).

El objetivo de este simplificado uso de minería de texto es identificar las preferencias por productos y patrones de consumo de consumidores específicos. Esta información luego se almacena en un datamart de medios sociales. Para este ejemplo específico, suponga que desea identificar todos los clientes que son consumidores de maíz ("corn"). La Figura 7 muestra el uso de la función Character Index, la cual identifica todos los ejemplos de la palabra corn en los datos de comentarios en bruto.

Figura 7. Extracción de texto con la función Character Index de SPSS Base
Image showing extracting text with the SPSS Base Character Index function

(Vea una versión ampliada de la Figura 7).

El resultado requiere otro filtrado y se aplican palabras vacías a través de varias iteraciones para mejorar la precisión de clasificación. Al aplicar palabras vacías como popcorn, candy corn, corndog y corn syrup y limitar el objeto a una combinación de cuatro caracteres, se obtiene una identificación mucho más precisa de los resultados de consumidores del producto maíz. Estos nombres de usuarios luego pueden señalizarse con 'corn_consumer_flag'=1 en la base de datos y seleccionarse para ofertas y recetas específicas de maíz en futuras campañas de marketing. (Vea la Figura 8).

Figura 8. Proceso de clasificación de comentarios en bruto utilizando palabras vacías
Image showing the raw comment classification process using stopwords

(Vea una versión ampliada de la Figura 8).

Después de que se haya estudiado detenidamente una lista exhaustiva, es posible realizar una agregación de ID de usuario y llenar tablas para capturar compras de productos, comentarios acerca del embalaje y otras variables que almacenan comportamientos del consumidor a nivel individual. En este ejemplo, los datos de medios sociales en bruto se almacenan en una base de datos NoSQL y las banderas de preferencias de productos obtenidas se almacenan en un datamart MySQL cuando el ID de usuario es una clave de coincidencia primaria (vea la Figura 9).

Figura 9. Agregación de datos de comentarios a nivel ID de usuario con la función Aggregate de SPSS Base
Image showing aggregating comment data to the user ID level with the SPSS Base Aggregate function

(Vea una versión ampliada de la Figura 9).


Conclusión

La minería de texto está ganando popularidad ya que muchos negocios se esfuerzan por evaluar el retorno potencial de inversión en medios sociales como canales de interacción con marcas y de marketing. Las compañías están implementando rápidamente soluciones de almacenamiento de grandes volúmenes de datos para almacenar datos no estructurados e integrarlos con datos convencionales de negocios. Los comentarios de medios sociales y los datos relacionados con la marca ofrecen un gran conocimiento de las preferencias de un consumidor que pueden utilizarse para diseñar características del producto relevantes, un marketing de manera tal que influirá en los deseos y expectativas del consumidor. Almacenar este comportamiento y datos de preferencias a nivel individual en datamarts de medios sociales con el fin de personalizar una mayor experiencia de marca pondrá la información en las manos de una compañía que podrá usarla para fortalecer la relación consumidor-marca e incentivar a los consumidores a participar en la autogestión de su propia experiencia de marca.

Recursos

Aprender

Obtener los productos y tecnologías

  • InfoSphere Biglnsights es el punto de inicio para aprender y trabajar con grandes volúmenes de datos. Descargue la edición básica sin costo.
  • Software de evaluación: Encuentre más software de prueba incluyendo varios productos de SPSS. Descargue la versión de prueba, trabaje con el producto online en un entorno Sandbox o acceda a este en la nube.
  • SPSS Modeler es un área de trabajo de minería de datos de IBM. Elija la versión adecuada a sus necesidades.
  • Text Analytics for Surveys de SPSS analiza el texto de encuestas para extraer información sobre el consumidor.
  • Storm: Verifique este sistema de cómputo que trabaja en tiempo real.
  • KDnuggets provee una lista completa de herramientas de minería de textos tanto comerciales como de código abierto.

Comentar

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Big data y analytics, Information mgmt, Industries
ArticleID=857228
ArticleTitle=Desarrollo de datamarts de medios sociales utilizando herramientas de minería de textos de SPSS
publish-date=02042013