Web 資訊來源節點:輸入標籤

「輸入」標籤用來指定一或多個網址或 URL,以便擷取文字資料。在文字採礦的環境定義中,您可以指定包含文字資料之資訊來源的 URL。

重要: 使用非 RSS 資料時,您可能偏好使用 Web 立即運算工具(如 WebQL®)來自動化內容收集,然後從該工具使用不同的來源節點參照輸出。

您可以設定下列參數:

輸入或貼上 URL。 在此欄位中,您可以鍵入或貼上一或多個 URL。如果您要輸入多個 URL,請每行僅輸入一個 URL,並使用 Enter/Return 鍵來分隔各行。輸入檔案的完整 URL 路徑。 這些 URL 可以用於兩種格式之一的資訊來源:

  • RSS 格式。 RSS 是一種用於 Web 內容的簡式 XML 型標準化格式。 此格式的 URL 會指向一個頁面,該頁面具有一組鏈結的文章,如企業聯盟新聞來源和部落格。由於 RSS 是一種標準化格式,因此會自動將每一個鏈結的文章識別並視為產生的資料串流中的各別記錄處理。除非您要將過濾技術套用到文字,否則不需要進一步的輸入就能夠從資訊來源識別重要的文字資料和記錄。
  • HTML 格式。 您可以在「輸入」標籤中定義一或多個到 HTML 頁面的 URL。然後,在「記錄」標籤中,定義記錄起始標籤,以及識別界定目標內容的標籤及指派那些標籤給您選擇的輸出欄位(說明、標題、修改日期等等)。使用非 RSS 資料時,您可能偏好使用 Web 立即運算工具(如 WebQL®)來自動化內容收集,然後從該工具使用不同的來源節點參照輸出。如需相關資訊,請參閱主題 Web 資訊來源節點:記錄標籤

每個 URL 要讀取的最新項目數。 此欄位指定要針對欄位中列出的每一個 URL 讀取的記錄數目上限(從在資訊來源中發現的第一筆記錄開始)。文字的數量會影響在「文字採礦」節點或「文字鏈結分析」節點中擷取下游期間的處理速度。

盡可能儲存並重複使用先前的 Web 資訊來源。 使用這個選項時,會掃描 Web 資訊來源並快取處理的結果。然後,在執行後續的串流後,如果給定的資訊來源的內容未變更,或是無法存取資訊來源(例如網際網路中斷),則會使用快取的版本來加速處理時間。也會快取在這些資訊來源中探索到的任何新內容,以供下次執行節點時使用。

  • 標籤。如果您選取盡可能儲存並重複使用先前的 Web 資訊來源,則必須指定結果的標籤名稱。這個標籤用來說明在伺服器上快取的資訊來源。如果未指定任何標籤或是標籤無法辨識,則無法進行任何重複使用。