Cómo funciona la extracción

Durante la extracción de los conceptos e ideas clave de las respuestas, IBM® SPSS® Text Analytics for Surveys se basa en el análisis de texto basado en lingüística. Este método ofrece la velocidad y la rentabilidad propia de los sistemas basados en estadísticas. Pero ofrece un grado de precisión mucho mayor, y con menos intervención humana. El análisis de texto basado en lingüística se basa en el ámbito de estudio conocido como proceso de idioma natural, conocido también como lingüística computacional.

Para ilustrar la diferencia entre los métodos basados en estadísticas y en lingüística durante el proceso de extracción, considere cómo respondería cada uno a una pregunta sobre la reproducción de documentos. Tanto las soluciones basadas en estadísticas como en lingüística tendrían que ampliar la palabra reproducción para que incluyera sinónimos como copia y duplicación. De lo contrario, se pasaría por alto información relevante. Pero si la solución basada en estadísticas intenta realizar este tipo de sinonimia—buscar otros términos con el mismo significado—probablemente incluiría el término nacimiento, lo que generaría resultados irrelevantes. La comprensión del idioma reduce la ambigüedad del texto, lo que convierte a la minería de texto basada en lingüística, por definición, en el método más fiable.

Comprender el funcionamiento del proceso de extracción puede ayudarle a tomar decisiones clave a la hora de ajustar los recursos lingüísticos (bibliotecas, tipos, sinónimos, etc.). Estos son los pasos del proceso de extracción:

• Conversión de datos de origen en un formato estándar

• Identificar los términos candidatos

• Identificar las clases de equivalencias y la integración de sinónimos

• Asignar un tipo

• Crear índices

• Extraer patrones y eventos de relaciones

Paso 1. Conversión de datos de origen en un formato estándar

En este primer paso, los datos que se importan se convierten en un formato uniforme que puede utilizarse para realizar otros análisis. Esta conversión se lleva a cabo internamente y no cambia los datos originales.

Paso 2. Identificar los términos candidatos

Es importante comprender el rol de los recursos lingüísticos en la identificación de los términos candidatos durante la extracción lingüística. Los recursos lingüísticos se utilizan siempre que se ejecuta una extracción. Existen en forma de plantillas, bibliotecas y recursos compilados. Las bibliotecas incluyen listas de palabras, relaciones y otra información que se utiliza para especificar o ajustar la extracción. Estos recursos compilados no se pueden ver ni editar. Sin embargo, los recursos restantes (plantillas) sí pueden editarse en el Editor de recursos.

Los recursos compilados son los componentes internos principales del motor de extracción en IBM® SPSS® Text Analytics for Surveys. Estos recursos incluyen un diccionario general que contiene una lista de formatos base con un código de categoría léxica (sustantivo, verbo, adjetivo, adverbio, participio, conjunción, determinante o preposición). Los recursos también incluyen tipos incorporados reservados que se utilizan para asignar muchos términos extraídos a los tipos siguientes: <Location>, <Organization>, o <Person>. Consulte el tema Tipos incorporados si desea obtener más información.

Además de los recursos compilados, se entregan varias bibliotecas con el producto y pueden utilizarse para complementar los tipos y las definiciones de conceptos en los recursos compilados, así como para ofrecer otros tipos y sinónimos. Estas bibliotecas—y las bibliotecas personalizadas que haya creado—se componen de varios diccionarios. Entre ellos están los diccionarios de tipo, los diccionarios de sustitución (sinónimos y elementos opcionales) y los diccionarios de exclusión. Consulte el tema Trabajo con bibliotecas si desea obtener más información.

Una vez importados y convertidos los datos, el motor de extracción empezará a identificar los términos candidatos para la extracción. Los términos candidatos son palabras o grupos de palabras que se utilizan para identificar conceptos en el texto. Durante el proceso del texto, las palabras simples (unitérminos) que no están en los recursos compilados se consideran como extracciones de términos candidatos. Las palabras compuestas candidatas (multitérminos) se identifican mediante extractores de patrones de categorías léxicas. Por ejemplo, el multitérmino coche deportivo, que responde al patrón de categoría léxica "sustantivo adjetivo", tiene dos componentes. El multitérmino coche deportivo veloz, que responde al patrón de categoría léxica "sustantivo adjetivo adjetivo", tiene tres componentes.

Nota: los términos del diccionario general compilado arriba mencionado representan una lista de todas las palabras que probablemente no resultan relevantes o que son lingüísticamente ambiguas, como los unitérminos. Estas palabras se excluyen de la extracción cuando se están identificando los unitérminos. Sin embargo, volverán a evaluarse cuando determine las categorías léxicas no cuando busque palabras compuestas candidatas más largas (multitérminos).

Por último, se utiliza un algoritmo especial para gestionar las cadenas de letras en mayúsculas, como cargos laborales, de manera que estos patrones especiales pueden extraerse.

Paso 3. Identificar las clases de equivalencias y la integración de sinónimos

Una vez identificados los unitérminos y los multitérminos candidatos, el software emplea un conjunto de algoritmos para compararlos y para identificar clases de equivalencias. Una clase de equivalencia es la forma básica de una frase o una forma simple de dos variantes de la misma frase. El propósito de asignar frases a las clases de equivalencias es asegurarse de que, por ejemplo, presidente de la compañía y la compañía y su presidente no se consideren conceptos separados. Para determinar qué concepto se va a utilizar para la clase de equivalencia—es decir, cuál de las dos opciones, presidente de la compañía o bien la compañía y su presidente se utiliza como término principal, el motor de extracción aplica las reglas siguientes en el orden que aparece:

• La forma especificada por el usuario en una biblioteca.

• La forma más frecuente en el cuerpo completo del texto.

• La forma más corta en el cuerpo completo del texto (que generalmente se corresponde a la forma básica).

Paso 4. Asignar un tipo

A continuación, se asignan tipos a los conceptos extraídos. Un tipo es una agrupación semántica de conceptos. En este paso se utilizan tanto los recursos compilados como las bibliotecas. Los tipos incluyen elementos como conceptos de nivel más alto, palabras positivas y negativas, nombres propios, lugares, organizaciones, etc. El usuario puede definir tipos adicionales. Consulte el tema Diccionarios de tipo si desea obtener más información.

Paso 5. Crear índices

Se crea el índice del conjunto completo de registros estableciendo un marca entre una posición de texto y el término representativo de cada clase de equivalencia. De esta manera se presupone que todos los casos de la forma declinada de un concepto candidato se indexa como forma básica candidata. Para cada forma básica se calcula la frecuencia global.

Paso 6. Extraer patrones y eventos de relaciones

IBM SPSS Text Analytics for Surveys puede detectar no solamente tipos y conceptos, sino también las relaciones entre ellos. Hay varios algoritmos y bibliotecas disponibles en el producto que proporcionan la capacidad de extraer patrones de relaciones entre tipos y conceptos. Son particularmente útiles cuando se intentan detectar opiniones específicas (por ejemplo, reacciones ante productos) o los enlaces relacionales entre personas y objetos (por ejemplo, enlaces entre grupos políticos o genomas).

extracción,extracción,extracción
plantillas de recursos,plantillas de recursos,plantillas de recursos
plantillas,plantillas,plantillas
extracción,extracción,extracción
unitérminos,unitérminos,unitérminos
unitérminos,unitérminos,unitérminos