Web フィード・ノード:「入力」タブ

「入力」タブを使用して、1 つまたは複数の Web アドレスまたは URL を指定し、テキスト・データをキャプチャーします。テキスト マイニングのコンテキストで、テキスト・データを含むフィードの URL を指定できます。

重要: 非 RSS データを扱う場合、WebQL® などの Web スクラッピング・ツールを使用して、コンテンツが異なる入力ノードを使用するツールから出力を収集して参照するよう自動化することをお勧めします。

設定できるパラメーターを次に示します。

URL を入力または貼り付け: 1 つまたは複数の URL を入力または貼り付けることができます。複数の URL を入力する場合、1 行ごとに 1 つの URL だけが入力し、Enter/Return キーを使用して、行を区切ります。ファイルへの完全な URL パスを入力します。フィードを示すこれらの URL は次の 2 つの形式のいずれかとなります。

  • RSS 形式: RSS は、Web コンテンツ向けの単純な XML ベースの標準化形式です。 この形式の URL は、組織化されたニュース ソースやブログなどのリンクした記事のセットがあるページを示します。RSS は標準化された形式であるため、リンクした記事は自動的に特定され、データ・ストリームの個別のレコードとして扱われます。フィルタリング手法をテキストに適用しない限り、フィードの重要なテキスト・データおよびレコードを特定するために、さらなる入力は必要ありません。
  • HTML 形式: HTML ページに対する 1 つ以上の URL を「入力」タブで定義できます。 「レコード」タブで、レコードの開始タグを定義し、対象の内容を区切るタグを指定して、これらのタグを選択した出力フィールド (説明、タイトル、更新日など) に割り当てます。 非 RSS データを扱う場合、WebQL® などの Web スクラッピング・ツールを使用して、コンテンツが異なる入力ノードを使用するツールから出力を収集して参照するよう自動化することをお勧めします。 詳しくは、Web フィード・ノード:「レコード」タブのトピックを参照してください。

URL ごとに読み込む最新エントリー数: フィード内にある最初のレコードから始まるフィールドに表示された各 URL に読み込む最大レコード数を指定します。テキストの量は、テキストマイニング・ノードまたはテキスト リンク分析ノード下流の抽出の処理速度に影響を与えます。

可能な場合、以前の Web フィードを保存および再利用: このオプションで、Web フィードをスキャンし、処理された結果をキャッシュします。そして、後続のストリームの実行後、指定されたフィードの内容が変わらない場合、またはフィードにアクセスできない場合 (インターネットの機能停止など)、キャッシュされたバージョンを使用して、処理時間を短縮します。これらのフィードで見つかった新しいコンテンツは、次回ノードを実行するときにキャッシュされます。

  • ラベル「可能な場合、以前の Web フィードを保存および再利用」 を選択した場合、その結果のラベル名を指定する必要があります。このラベルを使用して、サーバーのキャッシュされたフィードを説明します。ラベルが指定されていない場合、またはラベルが認識されない場合、再利用はできません。