Nodo canal de información web
El nodo de canal de información web puede utilizarse para preparar datos de texto desde canales de información web para el proceso de minería de textos. Este nodo acepta canales de información web en dos formatos:
- Formato RSS. RSS es un formato simple estandarizado basado en XML para contenido web. El URL para este formato apunta a una página que tiene un conjunto de artículos enlazados como, por ejemplo, fuentes de noticias sindicadas y blogs. Puesto que RSS es un formato estandarizado, cada artículo enlazado se identifica automáticamente y se lo trata como un registro separado en la ruta de datos resultante. No se necesita ninguna entrada adicional para que pueda identificar los datos de texto importantes y los registros del canal de información a no ser que desee aplicar una técnica de filtrado al texto.
- Formato HTML. Puede definir uno o más URL a páginas HTML en la pestaña Entrada. A continuación, en la pestaña Registros, defina la etiqueta de inicio de registro e identifique las etiquetas que delimitan el contenido de destino y asigne esas etiquetas a los campos de salida de su elección (descripción, título, fecha de modificación, etc.). Consulte Nodo Canal de información web: pestaña Registros para obtener más información.
Importante: Si está intentando recuperar información en la web a través de un servidor proxy, debe habilitar el servidor proxy en el archivo net.properties para el servidor y cliente de IBM® SPSS Modeler Text Analytics. Siga las instrucciones que se detallan en este archivo. Esto se aplica cuando se accede a la web a través del nodo Canal de información de la web o cuando se recupera una licencia de software como servicio (SaaS) de SDL, ya que estas conexiones pasan por Java™.
Este archivo se encuentra en C:\Archivos de programa\IBM\SPSS\Modeler\18.3.0\jre\lib\net.properties de forma predeterminada.
La salida de este nodo es un conjunto de campos utilizados para describir los registros. El campo Descripción se utiliza más comúnmente ya que contiene la mayor parte del contenido del texto. Sin embargo, también pueden interesarle otros campos, como la descripción corta de un registro (campo Desc corta) o el título del registro (campo Título). Cualquiera de los campos de salida pueden seleccionarse como entrada para un nodo de Minería de textos subsiguiente.
Puede encontrar este nodo en la pestaña IBM SPSS Modeler Text Analytics de la paleta de nodos, en la parte inferior de la ventana de IBM SPSS Modeler. Consulte Nodos de IBM SPSS Modeler Text Analytics para obtener más información.