文字鏈結分析節點:欄位標籤

使用「欄位」標籤來指定將從中擷取概念之資料的欄位設定。您可以設定下列參數:

ID 欄位。 選取包含文字記錄 ID 的欄位。 ID 必須是整數。ID 欄位充當個別文字記錄的索引。如果文字欄位代表要發掘的文字,請使用 ID 欄位。

「文字」欄位。 選取含有要發掘之文字的欄位。這個欄位視資料來源而定。

語言欄位。 選取包含兩個字母之 ISO 語言 ID 的欄位。如果不選取欄位,則會假定每個文件的語言都是所提供範本的語言。

文件類型。 文件類型指定文字的結構。請選取下列一種類型:

  • 全文。 用於大部分的文件或文字來源。會掃描整組文字以進行擷取。有別於其他選項,這個選項沒有其他設定。
  • 結構化文字。 用於書目表單、專利,以及任何包含可以識別及分析之一般結構的檔案。這種文件類型用來跳過全部或部分擷取程序。它可讓您定義術語分隔字元、指派類型,以及強制最小頻率值。如果您選取這個選項,則必須按一下設定按鈕,然後在「文件設定」對話框的結構化文字格式化區域中輸入文字分隔字元。如需相關資訊,請參閱主題 欄位標籤的文件設定

文字個體。 從下列選項中選取擷取模式:

  • 文件模式。 用於較為簡短且在語意上同質的文件,例如來自新聞社的文章。
  • 段落模式。 用於網頁及非帶標記文件。擷取程序會利用內部標籤和語法之類的性質,依語意分割文件。如果選取了這種模式,會逐個段落套用評分。因此,舉例而言,只有在相同的段落中發現 appleorange,規則 apple & orange 才會為真。
    註: 由於從 PDF 文件擷取文字的方式,因此段落模式不適用於這些文件。這是因為擷取會抑制換行標記。

段落模式設定。 只有在您將文字個體選項設定為段落模式時,才有這個選項可用。請指定要在任何擷取中使用的字元臨界值。實際大小會向上或向下捨入到最接近的期間。如果要確保從文件集合的文字所產生的單字關聯為代表,請避免指定過小的擷取大小。

  • 最小值。 指定要在任何擷取中使用的字元數目下限。
  • 最大值。 指定要在任何擷取中使用的字元數目上限。

複製資源來源。 挖掘文字時,擷取程序不僅是基於「專家」標籤中的設定,還基於語言資源。 這些資源充當擷取期間如何處理文字以取得概念、類型及 TLA 型樣的基礎。您可以從資源範本將資源複製到此節點。

資源範本是已針對特定網域或用途進行精細調整的檔案庫及進階語言和非語言資源的預先定義集。 這些資源充當擷取期間如何處理資料的基礎。按一下載入並選取要從中複製資源的範本。

範本是在您選取範本時而不是在執行串流時載入的。載入範本時,會在節點中儲存資源副本。 因此,如果您想要使用更新的範本,則需要在這裡重新載入範本。如需相關資訊,請參閱主題 從範本及 TAP 複製資源

文字語言。 識別所要發掘之文字的語言。在節點中所複製的資源控制存在的語言選項。請選取已調整其資源的語言。