互動式工作台模式
從文字採礦建模節點中,您可以選擇在串流執行期間啟動互動式工作台階段作業。在此工作台中,您可以從文字資料中擷取主要概念、建置種類、探索文字鏈結分析型樣及叢集,並產生種類模型。在本 節中,我們會從高階視景討論工作台介面以及使用的主要元素,包括:
- 擷取結果。在執行擷取之後,這些是從文字資料中識別和擷取的關鍵字及詞組,也稱為概念。 這些概念會分到類型群組中。使用這些概念和類型,您可以探索資料以及建立種類。這些會在種類和概念視圖中管理。
- 種類。 使用描述子(例如擷取結果、型樣及規則)作為定義,您可以根據是否包含種類定義的一部分手動或自動建立一組為其指派文件或記錄的種類。這些會在種類和概念視圖中管理。
- 叢集。 叢集是一種概念分組,這些概念之間的鏈結已經探索到,可指出它們之間的關係。概念分組使用的是複式演算法,除了其他因素以外,還會使用兩個概念一起出現的頻率與它們分別出現的頻率之比。這些會在叢集視圖中管理。您還可以將組成叢集的概念新增至種類。
- 文字鏈結分析型樣。 如果您在語言資源中有「文字鏈結分析 (TLA)」型樣規則或正在使用已經有部分 TLA 規則的資源範本,則可以從文字資料中擷取型樣。這些型樣可以協助您發現資料中概念之間的有趣關係。您還可以將這些型樣作為描述子在種類中使用。這些會在文字鏈結分析視圖中管理。
- 語言資源。擷取程序依賴一組參數及語言定義來控管如何擷取和處理文字。這些會在資源編輯器視圖中以範本和程式庫的形式管理。
潛在的互動式工作台問題
- 多個互動式工作台階段作業可能會導致行為遲緩。啟動互動式工作台階段作業時,SPSS® Modeler Text Analytics 和 SPSS Modeler 共用一般 Java 執行時期引擎。視您在 SPSS Modeler 階段作業期間呼叫的互動式工作台階段作業數而定,系統記憶體可能會導致應用程式變得遲緩,即使開啟和關閉相同的階段作業也是如此。如果您使用的是大型資料或機器的 RAM 設定小於建議的 4GB,則此效果可能特別明顯。如果您發現機器回應很慢,建議您儲存所有工作,關閉 SPSS Modeler,然後重新啟動該應用程式。在記憶體小於建議大小的機器上執行 SPSS Modeler Text Analytics ,特別是在使用的資料集較大或長時間工作時,可能會導致 Java 記憶體不足並關閉。如果您使用的是大型資料,強烈建議您升級至建議的記憶體設定或更大(或使用 SPSS Modeler Text Analytics Server)。
- 在執行多個 SPSS Modeler Text Analytics 互動式工作台階段作業而不重新啟動應用程式之後,SPSS Modeler Client 可能會記憶體不足。在狀態行中監視記憶體用量,如果不足,請關閉並重新開啟 SPSS Modeler Client。