Nodo canal de información web: pestaña Entrada

La pestaña Entrada se utiliza para especificar una o más direcciones Web o URL, a fin de capturar los datos de texto. En el contexto de la minería de textos, puede especificar los URL para los canales de información que contienen datos de texto.

Importante: Cuando trabaje con datos no RSS, puede preferir utilizar una herramienta de rastreo web, como WebQL®, para automatizar la recopilación de contenido y, a continuación, hacer referencia a la salida de esa herramienta utilizando un nodo fuente distinto.

Puede establecer los siguientes parámetros:

Escriba o pegue los URL. En este campo, puede escribir o pegar uno o más URL. Si está entrando más de uno, especifique sólo uno por línea y utilice la tecla Intro/Retorno para separar líneas. Introduzca la vía de acceso de URL completa al archivo. Estos URL pueden ser para canales de información en uno de los dos siguientes formatos:

  • Formato RSS. RSS es un formato simple estandarizado basado en XML para contenido web. El URL para este formato apunta a una página que tiene un conjunto de artículos enlazados como, por ejemplo, fuentes de noticias sindicadas y blogs. Puesto que RSS es un formato estandarizado, cada artículo enlazado se identifica automáticamente y se lo trata como un registro separado en la ruta de datos resultante. No se necesita ninguna entrada adicional para que pueda identificar los datos de texto importantes y los registros del canal de información a no ser que desee aplicar una técnica de filtrado al texto.
  • Formato HTML. Puede definir uno o más URL a páginas HTML en la pestaña Entrada. A continuación, en la pestaña Registros, defina la etiqueta de inicio de registro e identifique las etiquetas que delimitan el contenido de destino y asigne esas etiquetas a los campos de salida de su elección (descripción, título, fecha de modificación, etc.). Cuando trabaje con datos no RSS, puede preferir utilizar una herramienta de rastreo web, como WebQL®, para automatizar la recopilación de contenido y, a continuación, hacer referencia a la salida de esa herramienta utilizando un nodo fuente distinto. Consulte Nodo Canal de información web: pestaña Registros para obtener más información.

Número de entradas más recientes a leer por URL. Este campo especifica el número máximo de registros a leer por cada URL listado en el campo comenzando con el primer registro encontrado en el canal de información. La cantidad de texto afecta a la velocidad de proceso durante la extracción en sentido descendente en un nodo de Minería de textos o de Análisis de enlaces de texto.

Guarde y vuelva a utilizar canales de información web cuando sea posible. Con esta opción, se exploran canales de información web y el resultado procesado es almacenado en la memoria caché. A continuación, tras la ejecución de rutas subsecuentes, si los contenidos de un determinado canal de información no cambiaron o si no se puede acceder al canal de información (interrupción de Internet, por ejemplo), la versión almacenada en la memoria caché se utiliza para acelerar el tiempo de procesamiento. Cualquier contenido nuevo descubierto en estos canales de información también se almacena en la memoria caché para la próxima vez que se ejecute el nodo.

  • Etiqueta. Si selecciona Guardar y reutilizar canales de información web previos siempre que sea posible, debe especificar un nombre de etiqueta para los resultados. Esta etiqueta se utiliza para describir los canales de información almacenados en la memoria caché en el servidor. Si no se especifica ninguna etiqueta o esta no se reconoce, no será posible su reutilización.