Minería de Textos con SPSS Modeler Premium

Análisis de datos no estructurados

La información dentro de las bases de datos incluye un número creciente de datos no estructurados en diferentes formatos como opiniones, reportes, etc. Utilizar esta información es necesario para entender el comportamiento y preferencias de los clientes.

José Mondragón, SPSS Senior IT Specialist, IBM México

José Mondragón estudió Actuaría en la Universidad Nacional Autónoma de México. Tiene 10 años de experiencia en estadística aplicada y 7 años como consultor en minería de datos en proyectos para el sector bancario, entre ellos, el área de Prevención de Fraudes.



26-11-2012

Acerca de este tutorial

El 80% de los datos que actualmente producen diversas compañías se encuentra en formatos no estructurados, es decir, dicha información está escrita o impresa en palabras con diversos significados según el sentido de los pensamientos y opiniones que se quieren expresar en una frase o párrafo lo que la hace difícil de analizar para determinar si la idea es positiva o negativa. Es muy importante comprender este tipo de formatos para conocer el punto de vista de diversos clientes que utilizan variados productos o servicios para determinar un nivel de satisfacción o insatisfacción en su uso ya que de este tipo de análisis depende el mantener a un cliente o perderlo dentro del negocio lo que afectaría los ingresos de la compañía.

Comprender el lenguaje humano con minería de textos está basado en la lingüística conocido como Natural Language Processing (NPL). Este procesamiento permite extraer términos, incluyendo frases compuestas, que permite clasificarlos dentro de grupos relacionados de palabras para extraer los conceptos más relevantes en una serie de frases o párrafos.

SPSS Modeler Premium permite realizar el análisis de minería de textos al aplicar estas reglas de lingüística para extraer conocimiento e información relevante que representan conceptos y términos clave y que son agrupados en categorías que representan el nivel más alto de las ideas contenidas en los textos con los objetivos de 1) analizarlas más rápidamente ya que debido a su gran volumen es muy difícil y laborioso realizarlo por los analistas y 2) utilizar dichos resultados para desarrollar modelos y predecir el comportamiento de los clientes.

Algunas aplicaciones de la minería de datos incluyen:

  • CRM (Customer Relationship Management). La información es extraída de las opinions de los clients en call centers, correos y encuestas para determinar el nivel de satisfacción, lo que se conoce como análisis de sentimientos.
  • Análisis de blogs y minería web. La minería de textos permite extraer información de comentarios en formato libre de sitios web y blogs para proveer tendencias de opinión sobre diversos temas de interés en internet.
  • Detección de fraudes. El fraude potencial puede ser descubierto al analizar patrones y anomalías en datos de texto para salud, seguros y gobierno.

Minería de Textos con SPSS Modeler Premium

SPSS Modeler Premium contiene varios nodos especializados para manejar diferentes formatos de texto como son archivos Word, pdf, Excel, .txt, HTML, RRS, etc. Otra funcionalidad importante es el nodo traductor “Translate” para idiomas como ruso, chino o árabe hacia el idioma inglés además de contener diccionarios de palabras en diversos idiomas como español, alemán, francés y portugués con conceptos positivos y negativos para analizar y determinar el sentido del texto que se está analizando. Por último, los nodos para realizar la minería de texto al extraer los conceptos y encontrar relaciones entre las palabras.

El objetivo del modelo de text mining es analizar los comentarios acerca del servicio que ofrece una compañía a los clientes que han llamado al call center en un periodo dado para conocer su opinión y detectar a aquellos clientes con comentarios negativos; el efecto de este tipo de comentarios puede afectar la relación cliente-empresa ya que si varios clientes se encuentran inconformes con el servicio recibido, éstos podrían cancelarlo lo que se vería reflejado en las ventas. La idea es identificar a este tipo de clientes para que el área de marketing realice campañas específicas de mejora del servicio en base los resultados del análisis.


Modelo de Minería de Textos

Los datos demográficos de los clientes y sus comentarios son agregados a SPSS Modeler Premium, debido a que se encuentran en tablas distintas, se deber realizar el cruce de información para obtener una sola tabla analítica como se muestra en la siguiente figura:

En este artículo verificaremos la instalación accediendo a las herramientas de WCS (para mayor información sobre otros métodos, referirse a la sección de Recursos de este artículo).

Figura 1. Diagrama del modelo

La variable “comments” será utilizada para el análisis de datos no estructurados que contiene las opiniones de los clientes; este tipo de análisis es conocido como “Análisis de Sentimientos”. Es importante recalcar que con SPSS Modeler Premium es posible análisis textos en diversos idiomas, no solamente en inglés como en nuestro ejemplo:

Figura 2. Comentarios

Haga clic para ampliar la imagen

El siguiente paso es definir el tipo de categorías y recursos a utilizar, SPSS Modeler Premium contiene una serie paquetes de análisis de texto (TAP) básicos con diversas palabras relacionadas, según el caso, al tema a analizar, el usuario puede modificarlos o regionalizarlos para definir nuevas palabras e inclusive crear sus propios diccionarios de palabras. En este ejemplo nos interesa clasificar las opiniones positivas y negativas en base al diccionario “Product Satisfaction”:

Figura 3. Selección del diccionario de datos

Ya cargado en SPSS Modeler Premium, los datos y el diccionario a utilizar se ejecuta el modelo, es posible realizar el análisis de dos maneras, de modo interactivo donde es posible hacer las modificaciones pertinentes a los diccionarios en base a la clasificación inicial de los conceptos y generar directamente un diamante los resultados. Es importante destacar que el resultado final dependerá de la afinación de dichos diccionarios por lo que este es un proceso iterativo de análisis como se muestra en la siguiente figura de la sección “Resource editor”:

Figura 4. Editor de Recursos

Haga clic para ampliar la imagen

La siguiente imagen muestra el resultado del análisis donde la pantalla se divide en 4 secciones:

  1. La parte inferior izquierda es el panel de resultados extraídos donde se encuentran los conceptos o términos que el sistema clasifica en el análisis y que pueden ser editados y refinados.
  2. En la parte inferior derecha es el panel de datos y que es utilizado para presentar los datos de texto identificados para cada uno de los conceptos, es decir, contiene los registros donde el término fue encontrado.
  3. El panel de categorías ubidado en la parte superior izquierda presenta la tabla de categorías que han sido creadas junto con su frecuencia de aparición en el texto.
  4. En la parte superior derecha se encuentra el panel de visualización que provee la representación gráfica de cada una de las categorías. En la figura se muestra para la categoría “phone” su relación con otras categorías.

Figura 5. Análisis de la categoría

Haga clic para ampliar la imagen

Como se mencionó anteriormente, el objetivo es identificar a los clientes con opiniones relacionadas al concept “bad”. Dentro de este concepto se encuentran todas las palabras clasificadas de tipo negativo o como malas dentro de los comentarios. En el mapa se observa que dicho concepto es mencionado 84 veces y está relacionado fuertemente con otros como “handset” (modelo de celular), “dislike” o “reception” (señal celular).

Figura 6. Concepto “bad” y su relación con los términos

Haga clic para ampliar la imagen

Como se comentó anteriormente, el otro modo de realizar el análisis y que nos servirá para obtener a los clientes que buscamos al identificarlos según su edad y género (sexo) es generar directamente un diamante de resultados como se muestra en la figura 1. Al abrir el diamante se observan cada uno de los conceptos obtenidos en el análisis; en la parte inferior se observa el concepto “bad” y todos los términos definidos dentro de él en la figura 7:

Figura 7. Resultado de text mining


Resultado

En la siguiente figura proveniente de todo el diagrama de análisis dentro de SPSS Modeler Premium, podemos ver un gráfico donde se observa a los clientes clasificados según su género y edad y que emitieron una opinión negativa acerca del servicio siendo un total de 84 y que representa un 5.7% de la base total (1477), de este grupo, las personas que más se quejan del servicio son aquellas cuyo rango de edad esta entre los 50 y 59 años donde la proporción entre hombres y mujeres es similar (16 clientes).

Figura 8. Resultado de text mining

Para dar continuidad al proceso de negocio, el analista de minería de textos debe enviar un reporte donde se explique las causas de las quejas así como la lista de clientes al área de marketing para que se tomen las acciones necesarias para el mejoramiento del servicio así como realizar una campaña one to one para dichos clientes y satisfacer así sus demandas.


Conclusiones

El análisis de minería de textos con SPSS Modeler Premium es una poderosa solución para conocer las opiniones de los clientes e identificar a aquellos que no están de acuerdo o se quejan del servicio o producto proporcionado así como los que lo apoyan. Es muy importante como estrategia de negocio tener la visión total del cliente y su sentir hacia nuestra empresa ya que esto nos permitirá ir más allá en la mejora continua así como el incremento en las ventas y la permanencia dentro del mercado.

Recursos

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Information mgmt
ArticleID=847011
ArticleTitle=Minería de Textos con SPSS Modeler Premium
publish-date=11262012