Minería de Textos y el análisis predictivo

Uso de la minería de textos para incrementar el desempeño de los modelos predictivos

Los modelos de análisis predictivo pueden alcanzar un más alto desempeño en su poder de clasificación de clientes al ser combinados con modelos de minería de texto o análisis de datos no estructurados lo que permitirá al analista de minería de datos obtener modelos predictivos más precisos.

José Mondragón, SPSS Senior IT Specialist, IBM México

José Mondragón estudió Actuaría en la Universidad Nacional Autónoma de México. Tiene 10 años de experiencia en estadística aplicada y 7 años como consultor en minería de datos en proyectos para el sector bancario, entre ellos, el área de Prevención de Fraudes.



03-12-2012

Los modelos predictivos son parte fundamental de la minería de datos y por ello siempre es necesario revisar su desempeño y poder de predicción para ser mejorados o inclusive cambiados en sus parámetros ya que los patrones de comportamiento pueden variar según la época o momento en el que fueron desarrollados.

Dentro de las empresas se genera información estructurada para el desarrollo de modelos predictivos proveniente de los sistemas transaccionales así como datos no estructurados que vienen de otras áreas como servicio al cliente para conocer la opinión acerca de nuestros productos. Combinar los análisis realizados con data mining para ambos tipos de información puede ayudar a la mejora del nivel de predicción de nuestros modelos y así determinar con mayor certeza qué clientes son propensos a cancelar a abandonar algún servicio con el objetivo de tomar acciones de negocio que permitan mejorarlos y por ende conservar a dichos clientes e incrementar la rentabilidad y participación en el mercado de nuestro negocio.

El siguiente ejemplo de análisis de minería de datos y texto con SPSS Modeler Premium muestra la manera de combinar ambas técnicas para el mejoramiento del modelo predictivo desarrollado para calcular la probabilidad de abandono de clientes en una empresa de telecomunicaciones (churn).

Modelo predictivo con SPSS Modeler Premium

SPSS Modeler Premium es la versión completa para minería de datos de IBM que contiene la funcionalidad para desarrollar modelos predictivos como árboles de decisión o regresión logística entre otros, así como el análisis de minería de texto para datos no estructurados de una manera muy sencilla para el usuario final ya que es un ambiente 100% gráfico. En el siguiente diagrama se muestra cómo combinar ambos modelos para mejorar el desempeño del modelo predictivo:

Figura 1. Diagrama del modelo
Diagrama del modelo

Haga clic para ampliar la imagen

Figura 1. Diagrama del modelo

Diagrama del modelo

La variable “comments” será utilizada para el análisis de datos no estructurados y las demás variables para el modelo predictivo como se muestra en la siguiente figura:

Figura 2. Comentarios
Comentarios

Haga clic para ampliar la imagen

Figura 2. Comentarios

Comentarios

En el diagrama de la figura 1 se observa el desarrollo de los modelos con y sin minería de textos y el objetivo es comparar el nivel predictivo cada uno de ellos para determinar si agregar datos no estructurados al modelo ayuda a mejorar el desempeño. El primer paso es crear el modelo predictivo únicamente con la información estructurada para conocer su nivel de precisión y que servirá como punto base para mejorarlo en base al modelo de minería de texto:

Figura 3. Selección del diccionario de datos
Selección del diccionario de datos

Como se observa en la figura 3, el modelo predictivo sin los datos no estructurados tiene un nivel de exactitud en su clasificación de 92% para el árbol de decisión C.5 que ha sido seleccionado como el mejor modelo para los datos analizados. Este tipo de modelos es muy versátil para el análisis ya que su resultado es de fácil interpretación así como manejar variables numéricas y alfanuméricas en su desarrollo. El siguiente paso es generar el modelo de minería de texto y agregarlo a este modelo.

El modelo de minería de textos crea una serie de conceptos positivos y negativos que contienen diversas palabras relacionadas a ellos provenientes del campo “comments”. SPSS Modeler Premium determina las categorías y las clasifica para cada cliente con una bandera de verdadero “T” o falso “F” que indica si en el texto del campo se encuentra dicho registro o no y que serán utilizados como variables de entrada para el modelo predictivo como se muestra en la siguiente figura:

Figura 4. Conceptos creados con minería de textos
Conceptos creados con minería de textos

Haga clic para ampliar la imagen

Figura 4. Conceptos creados con minería de textos

Conceptos creados con minería de textos

Al ejecutar la parte del modelo predictivo adicionando los resultados de la minería de textos donde se agregan los conceptos como variables de entrada se observa que hay un incremento en el árbol de decisión de casi 2 puntos porcentuales como se observa en la figura 5 que si bien parece poco a primera vista, ajustar un modelo para incrementar su asertividad requiere de un gran esfuerzo y trabajo por el analista:

Figura 5. Modelo Predictivo con minería de textos
Modelo Predictivo con minería de textos

Resultado

Para comprobar si el modelo predictivo combinado con los datos de minería de texto es mejor que sin su uso, es necesario revisar la matriz de confusión para revisar si los casos (clientes) son clasificados correctamente o no lo son y así conocer el nivel de discriminación que tiene el modelo sobre los datos que en este caso son los clientes que abandonan sobre los que no abandonan basados en su información tanto estructurada como no estructurada. La figura 6 muestra que el modelo predictivo con minería de texto clasifica correctamente a los clientes con una asertividad del 91.18% mientras que el modelo sin el uso del análisis de textos tiene una precisión de 89.8%.

Figura 6. Concepto “bad” y su relación con los términos
Concepto “bad” y su relación con los términos

Así mismo, para comparar la capacidad de discriminación de los modelos en abandono/No abandono (churn) de manera gráfica se utiliza la curva ROC (Receiver Operating Characteristic); cuanto más se acerque la gráfica a la parte superior izquierda significará que el modelo tiene una mayor precisión (probabilidad) y por ende será mejor. Se considera un valor aceptable de discriminación cuando el valor alcanza un .7 de probabilidad. La gráfica de la figura 7 muestra que la gráfica $XF que pertenece al modelo con minería de texto es mayor que donde no se utiliza (modelo $XF-1).

Figura 7. Figura 7. Resultado de text mining
Resultado de text mining

Conclusiones

El análisis de minería de textos con SPSS Modeler Premium aplicado a los modelos predictivos ayuda a mejorar la clasificación de los clientes ya que es muy importante disminuir el nivel de falsos positivos e incrementar la asertividad de los pronósticos a construir. Como se vio en este ejemplo, el agregar nuevas variables predictivas provenientes del análisis de datos no estructurados a los datos estructurados puede ser una gran ayuda para comprender el patrón de comportamiento de los clientes por lo que es necesario dentro de la estrategia de negocio utilizarlos ya que de esta manera podremos llegar a una toma de decisiones rápida, óptima y congruente que llevará a la empresa a elevar su nivel de competitividad en el mercado y aumentar sus ganancias.

Recursos

Comentarios

developerWorks: Ingrese

Los campos obligatorios están marcados con un asterisco (*).


¿Necesita un IBM ID?
¿Olvidó su IBM ID?


¿Olvidó su Password?
Cambie su Password

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


La primera vez que inicie sesión en developerWorks, se creará un perfil para usted. La información en su propio perfil (nombre, país/región y nombre de la empresa) se muestra al público y acompañará a cualquier contenido que publique, a menos que opte por la opción de ocultar el nombre de su empresa. Puede actualizar su cuenta de IBM en cualquier momento.

Toda la información enviada es segura.

Elija su nombre para mostrar



La primera vez que inicia sesión en developerWorks se crea un perfil para usted, teniendo que elegir un nombre para mostrar en el mismo. Este nombre acompañará el contenido que usted publique en developerWorks.

Por favor elija un nombre de 3 - 31 caracteres. Su nombre de usuario debe ser único en la comunidad developerWorks y debe ser distinto a su dirección de email por motivos de privacidad.

Los campos obligatorios están marcados con un asterisco (*).

(Por favor elija un nombre de 3 - 31 caracteres.)

Al hacer clic en Enviar, usted está de acuerdo con los términos y condiciones de developerWorks.

 


Toda la información enviada es segura.


static.content.url=http://www.ibm.com/developerworks/js/artrating/
SITE_ID=90
Zone=Information mgmt, Big data y analytics
ArticleID=848200
ArticleTitle=Minería de Textos y el análisis predictivo
publish-date=12032012