文字挖掘節點:欄位標籤

使用「欄位」標籤來指定將從中擷取概念之資料的欄位設定。使用較大的資料集減少處理次數時,請考量使用此節點的「樣本」節點上游。如需相關資訊,請參閱主題 取樣上游以節省時間

您可以設定下列參數:

ID 欄位 選取包含文字記錄 ID 的欄位。ID 必須是整數。ID 欄位充當個別文字記錄的索引。如果文字欄位代表要發掘的文字,請使用 ID 欄位。

「文字」欄位。 選取含有要發掘之文字的欄位。這個欄位視資料來源而定。

語言欄位 選取包含兩個字母 IOS 語言 ID 的欄位。如果不選取欄位,則會假定每個文件的語言都是所提供範本的語言。

文件類型。 文件類型指定文字的結構。請選取下列一種類型:

  • 全文。 用於大部分的文件或文字來源。會掃描整組文字以進行擷取。有別於其他選項,這個選項沒有其他設定。
  • 結構化文字。 用於書目表單、專利,以及任何包含可以識別及分析之一般結構的檔案。這種文件類型用來跳過全部或部分擷取程序。它可讓您定義術語分隔字元、指派類型,以及強制最小頻率值。如果您選取這個選項,則必須按一下設定按鈕,然後在「文件設定」對話框的結構化文字格式化區域中輸入文字分隔字元。如需相關資訊,請參閱主題 欄位標籤的文件設定

文字個體。 從下列選項中選取擷取模式:

  • 文件模式。 用於較為簡短且在語意上同質的文件,例如來自新聞社的文章。
  • 段落模式。 用於網頁及非帶標記文件。擷取程序會利用內部標籤和語法之類的性質,依語意分割文件。如果選取了這種模式,會逐個段落套用評分。因此,舉例而言,只有在相同的段落中發現 appleorange,規則 apple & orange 才會為真。
    註: 由於從 PDF 文件擷取文字的方式,因此段落模式不適用於這些文件。這是因為擷取會抑制換行標記。

段落模式設定。 只有在您將文字個體選項設定為段落模式時,才有這個選項可用。請指定要在任何擷取中使用的字元臨界值。實際大小會向上或向下捨入到最接近的期間。如果要確保從文件集合的文字所產生的單字關聯為代表,請避免指定過小的擷取大小。

  • 最小值。 指定要在任何擷取中使用的字元數目下限。
  • 最大值。 指定要在任何擷取中使用的字元數目上限。

分割區模式 使用分割區模式,以選擇是根據類型節點設定分割,還是選取另一個分割區。分割會將資料分為訓練與測試樣本。