分類文字資料

「種類與概念」視圖中,您可以建立種類,以從本質上代表高層次概念或主題,以擷取主要構想、知識與文字中表達的本質。

IBM® SPSS® Modeler Text Analytics 14 版開始,種類也可以具有階層式結構,這表示它們可以包含子種類,並且那些子種類也可以具有其自己的子種類,依此類推。您可以匯入具有階層式種類的預先定義種類結構(先前稱為代碼訊框),以及在產品內建置這些階層式種類。

實際上,階層式種類可讓您建置具有一個或多個子種類的樹狀結構,從而更準確地分組項目,例如不同的概念或主題區域。簡式範例可以與休閒活動相關;回答問題,例如如果您有更多時間會希望執行什麼活動?,您可能具有最上層種類,例如 sportsart and craftfishing 等;向下一個層次,在 sports 下方,您可能具有子種類以查看這是否為 ball gameswater-related 等。

種類由一組描述子(例如,概念類型型樣種類規則)組成。這些描述子一起用於識別文件或記錄是否屬於給定的種類。可以掃描文件或記錄內的文字,以查看是否有任何文字符合描述子。如果發現相符項目,則會將文件/記錄指派給該種類。此過程叫作分類

您可以利用在「種類與概念」視圖的四個窗格中呈現的資料,使用、建置及視覺化探索種類,例如可以透過從「視圖」功能表中選取其名稱已隱藏或顯示的每一個種類。

  • 「種類」窗格。在此窗格中建置及管理您的種類。如需相關資訊,請參閱主題 種類窗格
  • 「擷取結果」窗格。在此窗格中探索及使用所擷取概念及類型。如需相關資訊,請參閱主題 擷取結果:概念和類型
  • 視覺化窗格。在此窗格中以視覺化方式探索您的種類及它們的互動方式。如需相關資訊,請參閱主題 種類圖形與圖表
  • 資料窗格。在此窗格中探索及檢閱對應於選擇之文件及記錄內包含的文字。如需相關資訊,請參閱主題 資料窗格
圖 1. 種類與概念視圖
「種類和概念」視圖

由於您可能從文字分析套件 (TAP) 中的一組種類開始,或者從預先定義的種類檔案匯入,您還可能需要建立您自己的種類。可以使用產品豐富的自動化技術來自動建置種類,這會使用擷取結果(概念、類型及型樣)產生種類及其描述子。也可以使用您可能擁有的其他資料相關見解來手動建立。然而,您只能手動建立種類,或者透過互動式工作台細部調整。請參閱文字挖掘節點:模型標籤主題,以取得更多資訊。您可以透過將擷取結果拖放至種類,手動建立種類定義。您可以透過將種類規則新增至種類,使用您自己的預先定義的種類,或者組合,豐富這些種類或任何空的種類。

每一個技術及方法都完美適合某些類型的資料及狀況,但是它通常有助於將技術結合在同一分析中,以擷取完整範圍的文件或記錄。並且在分類的過程中,您可能看到要對語言資源進行的其他變更。