Узел веб-фидов: Вкладка Записи

На вкладке Записи задается текстовое содержимое фидов в формате, ином чем RSS, для чего определяется, где начинается каждая новая запись, а также другая нужная информация о каждой записи. Если известно, что фид в формате, ином чем RSS, (HTML) содержит текст, находящийся в нескольких записях, здесь нужно определить открывающий тег записи, иначе этот текст будет обработан как одна запись. Хотя фиды RSS стандартизованы и не требуют никакой спецификации на этой вкладке, но содержимое все равно можно будет предварительно просмотреть на вкладке Предварительный просмотр.

Важное замечание: При работе с данными в формате, ином чем RSS, возможно, вы предпочтете использовать веб-инструмент утилизации, такой как WebQL®, для автоматизации сбора содержимого и последующего обращения к выходным данным из этого инструмента с применением другого исходного узла.

URL. Этот выпадающий список содержит адреса URL, вводимые на вкладке Входные данные. Представлены фиды и в формате HTML, и в формате RSS. Если адрес URL окажется слишком длинным для этого выпадающего списка, он автоматически будет сокращен в середине при помощи многоточия, заменяющего урезаемый текст, например: http://www.ibm.com/example/start-of-address...rest-of-address/path.htm.

  • В опции Фиды в формате HTML, если фид содержит несколько записей (или статей), можно определить теги HTML, содержащие данные, которые соответствуют полю, указанному в приведенной таблице. Например, можно определить открывающий тег, указывающий, что начата новая запись, тег даты изменения или имя автора.
  • В опции Фиды в формате RSS не предлагается вводить никакие теги, поскольку RSS - стандартизованный формат. Однако выборочные результаты при желании можно просмотреть на вкладке Предварительный просмотр. Всем распознанным фидам RSS будет предшествовать изображение логотипа RSS.

Вкладка Источник. На этой вкладке можно просмотреть исходный код для любых фидов HTML. Это нередактируемый код. При помощи поля Найти на этой странице можно найти конкретные теги или информацию, которые можно затем скопировать и вставить в таблицу ниже. Поле Найти регистронезависимо и будет соответствовать частично вводимым строкам.

Вкладка Предварительный просмотр. На этой вкладке можно предварительно просмотреть, как запись будет прочитана узлом веб-фидов. Особенно это полезно для фидов HTML, поскольку можно изменить способ чтения записи, определив теги HTML в таблице ниже вкладки Предварительный просмотр.

Открывающий тег записей в формате, ином чем RSS. Эта опция применяется только к фидам в формате, ином чем RSS. Если фид HTML содержит сложные текстовые данные, которые вы хотите разбить на несколько записей, задайте здесь тег HTML, сигнализирующий о начале записи (такой как статья или запись в блоге). Если вы не определили его в фиде формата, отличного от RSS, Modeler попытается угадать формат XML и возвратить соответствующие записи. Если Modeler не может угадать формат XML, ничего не возвращается. Если ваша цель - импортировать все содержимое страницы и обработать его позже, мы рекомендуем использовать отдельные программы чтения XML с более мощными функциональными возможностями, а потом импортировать результаты в Modeler Text Analytics.

Вкладка Поле. Эта опция применяется только к фидам в формате, ином чем RSS. В этой таблице текстовое содержимое можно разбить на конкретные выходные поля, введя открывающий тег для любых предопределенных выходных полей. Вводится только открывающий тег. Все соответствия устанавливаются посредством синтаксического анализа HTML и сопоставления содержимого таблицы с обнаруженными в HTML именами и атрибутами тегов. При помощи кнопок в нижней части вкладки можно скопировать определенные теги и использовать их повторно для других фидов.

Табл. 1. Возможные выходные поля для фидов в формате, ином чем RSS (в форматах HTML)
Имя поля выходных данных Ожидаемое содержимое тега
Заголовок Разделительный тег заголовка записи. (необязательно)
Краткое описание Разделительный тег краткого описания или метки. (необязательно)
Описание Разделительный тег основного текста. Если оставить пустым, все остальное содержимое этого поля будет находиться либо в теге <body> (в случае одной записи), либо в содержимом в текущей записи (если был задан разделитель записей).
Автор Разделительный тег автора текста. (необязательно)
Участники Тег, разделяющий имена участников. (необязательно)
Дата публикации Разделительный тег даты публикации текстовых данных. Если оставить пустым, это поле будет содержать дату чтения данных узлом.
Дата изменения Разделительный тег даты изменения текстовых данных. Если оставить пустым, это поле будет содержать дату чтения данных узлом.

После ввода в таблицу тега фид будет сканироваться с применением этого тега в качестве минимального для установления соответствия, а не для установления точного совпадения. То есть если для поля Заголовок ввести <div>, он будет соответствовать любому тегу <div> в фиде, включая теги с заданными атрибутами (такими как <div class=”post three”>), так что тег <div> будет эквивалентен корневому тегу (<div>) и любому дериативу, включающему в себя атрибут, и это содержимое будет использоваться для выходного поля Заголовок. Если ввести корневой тег, будут также включены и все дополнительные атрибуты.

Табл. 2. Примеры тегов HTML, используемых для идентификации текста для выходных полей.
Если вы вводите: Будет соответствовать: А также соответствовать: Но не будет соответствовать:
<div> <div> <div class=”post”> любому другому тегу
<p class=”auth”> <p class=”auth”> <p color=”black” class=”auth” id=”85643”> <p color=”black”>