Bibliotecas suministradas
De forma predeterminada, se instalan varias bibliotecas con IBM® SPSS Modeler Text Analytics. Puede utilizar estas bibliotecas preformateadas para acceder a miles de términos y sinónimos predefinidos, y a muchos tipos diferentes. A estas bibliotecas enviadas se les realizan ajustes según los diferentes dominios y están disponibles en varios idiomas distintos.
Existe un gran número de bibliotecas pero las que se utilizan habitualmente son las siguientes:
- Biblioteca local. Se utiliza para almacenar diccionarios definidos por el usuario. Es una biblioteca vacía que se añade de forma predeterminada a todos los recursos. También contiene un diccionario vacío de tipo. Es muy útil cuando se realizan cambios, o mejoras a los recursos directamente (como por ejemplo, agregar una palabra a un tipo) desde la vista de categorías y conceptos, vista de clústeres, y la vista análisis de enlace de texto . En este caso, estos cambios y reajustes se almacenan automáticamente en la primera biblioteca de la lista del árbol de bibliotecas, en el Editor de recursos; de forma predeterminada, es la Biblioteca local. No puede publicar esta biblioteca porque es específica para los datos de sesión . Si desea publicar el contenido, primero deberá cambiar el nombre de la biblioteca.
- Biblioteca principal. Se utiliza en la mayoría de los casos, pues contiene los cinco tipos básicos incorporados, que representan a personas, ubicaciones, organizaciones, productos y desconocido.
Es posible que sólo vea unos cuantos términos en uno de sus diccionarios de tipo, pero los tipos que están representados en la biblioteca Core son en realidad complementos de los tipos más sólidos que se encuentran en los recursos compilados internos que se entregan junto con el producto de minería de textos. Estos recursos compilados internos contienen miles de términos por cada tipo. Por esta razón, aunque un término no pueda verse en la lista de términos del diccionario de tipo, todavía puede extraerse y escribirse con un tipo Core. Esto explica cómo nombres como Jorge pueden extraerse y tipificarse como
<Person>mientras que en el diccionario de tipo<Person>de la biblioteca Core solo aparece el nombre inglés John. Del mismo modo, si no incluye la biblioteca Core, puede que siga viendo estos tipos en los resultados de extracción, puesto que el motor de extracción utilizará los recursos compilados que contienen estos tipos. - Biblioteca de opiniones. Se utiliza habitualmente para extraer opiniones y sentimientos procedentes de los datos de texto. Esta biblioteca incluye miles de palabras que representan actitudes, calificadores, y preferencias que cuando se usan en conjunción con otros términos indican una opinión sobre un tema. Esta biblioteca incluye un número de tipos, sinónimos y exclusiones incorporadas. También incluye un voluminoso conjunto de reglas de patrones que se utilizan para el análisis de enlace de texto. Para beneficiarse de las reglas de análisis de enlace de texto de esta biblioteca y de los resultados de patrones que producen, debe especificarse esta biblioteca en la pestaña Reglas de enlace de texto. Consulte el tema Sobre las reglas de enlaces de texto para obtener más información.
- Biblioteca Budget. Se utiliza para extraer los términos relacionados con el coste de las cosas. Esta biblioteca incluye muchas palabras y frases que representan adjetivos, cualificadores y juicios sobre el precio o la calidad de las cosas.
- Biblioteca variaciones. Se utiliza para incluir casos donde algunas variaciones del idioma requieren definiciones de sinónimos para poder agruparlas adecuadamente. Esta biblioteca solo contiene definiciones de sinónimos.
Aunque algunas de las bibliotecas enviadas fuera de las plantillas tienen un contenido similar al de algunas plantillas, éstas se han ajustado específicamente a aplicaciones determinadas y contienen recursos avanzados adicionales. Es recomendable que intente utilizar una plantilla que se haya diseñado para el tipo de datos de texto con el que está trabajando y realice sus cambios en aquellos recursos en lugar de añadir simplemente bibliotecas individuales a una plantilla más general.
Los recursos compilados también se entregan con IBM SPSS Modeler Text Analytics. Siempre se utilizan durante el proceso de extracción y contienen un gran número de definiciones complementarias a los diccionarios de tipo incorporados en las bibliotecas predeterminadas. Puesto que estos recursos están compilados, no pueden verse ni editarse. Sin embargo, puede forzar que un término especificado en los recursos compilados se coloque en otro diccionario. Consulte Forzar términos para obtener más información.