擷取資料
需要擷取時,「擷取結果」窗格會變成黃色,並在此窗格的工具列下方顯示訊息按下擷取按鈕以擷取概念。
如果您尚無任何擷取結果,已對語言資源進行變更且需要更新擷取結果,或者已重新開啟您未儲存擷取結果的階段作業(),則可能需要擷取。
執行擷取之後,會顯示進度指示器,以提供有關擷取狀態的意見。在此期間,擷取引擎會讀取所有文字資料,識別相關術語及型樣,擷取它們,並將它們指派給某個類型。然後,引擎會嘗試根據一個前導術語(稱為概念)分組同義字術語。處理程序完成後,產生的概念、類型及型樣會顯示在「擷取結果」窗格中。
擷取程序會產生一組概念和類型,以及「文字鏈結分析 (TLA)」型樣(如果啟用)。 您可以在「種類與概念」視圖的「擷取結果」窗格中檢視及使用這些概念及類型。如果您已擷取 TLA 型樣,則可以在「文字鏈結分析」視圖中看到這些型樣。
要擷取資料
- 從功能表中,選擇。或者,按一下擷取工具列按鈕。
- 如果您選擇一律顯示「擷取設定」對話框,則會顯示以便您可以進行任何變更。如需每一個設定的描述子,請進一步參閱此主題。
- 按一下擷取以開始擷取程序。擷取開始後,進度對話框即會開啟。擷取後,結果會顯示在「擷取結果」窗格中。依預設,概念以小寫形式顯示,並根據文件計數(Doc. 直欄)按遞減順序排序。
您可以使用工具列選項檢閱結果,以不同的方式排序結果,過濾結果,以及切換至不同的視圖(概念或類型)。您還可以透過使用語言資源來精簡擷取結果。如需相關資訊,請參閱主題 精簡擷取結果。
潛在擷取問題
多個互動式工作台階段作業可能會導致行為遲緩。啟動互動式工作台階段作業時,SPSS® Modeler Text Analytics 和 SPSS Modeler 共用一般 Java 執行時期引擎。根據您在 SPSS Modeler 階段作業期間呼叫的「互動式工作台」階段作業數目,即使開啟及關閉同一階段作業,系統記憶體也可能導致應用程式變得緩慢。如果您使用的是大型資料或機器的 RAM 設定小於建議的 4GB,則此效果可能特別明顯。如果您發現機器回應很慢,建議您儲存所有工作,關閉 SPSS Modeler,然後重新啟動該應用程式。在記憶體小於建議大小的機器上執行 SPSS Modeler Text Analytics ,特別是在使用的資料集較大或長時間工作時,可能會導致 Java 記憶體不足並關閉。如果您使用的是大型資料,強烈建議您升級至建議的記憶體設定或更大(或使用 SPSS Modeler Text Analytics Server)。
使用於英文、法文、德文、義大利文、葡萄牙文及西班牙文文字
「擷取設定」對話框包含部分基本擷取選項。
啟用文字鏈結分析型樣擷取。指定您想要從文字資料擷取 TLA 型樣。還假設您在「資源編輯器」的其中一個檔案庫中具有 TLA 型樣規則。此選項可能會顯著延長擷取時間。如需相關資訊,請參閱主題 探索文字鏈結分析。
容納標點符號錯誤。此選項會在擷取期間暫時正規化包含標點符號錯誤的文字(例如,用法不當),以改進概念的擷取能力。當文字較短且品質較差時(例如,在開放式意見調查回應、電子郵件及 CRM 資料中時),或者當文字包含許多縮寫時,此選項極其有用。
容納單字字元長度下限 [n] 的拼字 此選項套用模糊分組技術,可協助將通常拼字錯誤的單字或根據一個概念拼字接近的單字分組在一起。模糊分組演算法暫時去掉所有母音(除了第一個),並從擷取的單字中去掉雙/三重輔音,然後比較它們以查看它們是否相同,以便將 modeling 與 modelling 分組在一起。然而,如果將每一個術語指派給不同的類型(排除 <Unknown> 類型),則將不會套用模糊分組技術。
您也可以在使用模糊分組之前,定義需要的根字元數目下限。術語中的根字元數目計算方式為所有字元總數減去形成字形變化字尾的字元,若為複合字術語,則再減去限定詞與介詞。例如,術語 exercises 將以 "exercise" 形式計為 8 個根字元,位於單字末尾的字母 s 是字形變化(複數形式)。類似地,apple sauce 計為 10 個根字元 ("apple sauce"),而 manufacturing of cars 計為 16 個根字元 ("manufacturing car")。此計數方法僅用於檢查是否應該套用模糊分組,但不會影響單字的相符程度。
擷取單一術語 只要單字尚且不是複合字的一部分,或者如果它是名詞或無法辨識的語音的一部分,則此選項會擷取單字(單一屬於)。
擷取非語言實體 此選項擷取非語言實體,例如電話號碼、社會安全號碼、時間、日期、貨幣、數位、百分比、電子郵件位址及 HTTP 位址。您可以在「進階資源」標籤的非語言實體:配置區段中包括或排除某些類型的非語言實體。透過停用任何不需要的實體,擷取引擎不會浪費處理時間。如需相關資訊,請參閱主題 配置。
大寫演算法 只要術語的第一個字母為大寫形式,此選項就擷取不在內建目錄中的簡式及複合術語。此選項提供良好的方法以擷取最適當的名詞。
可能時將部分及全部人員名稱分組在一起 此選項將文字中看起來不同的名稱分組在一起。由於通常在文字開頭以名稱的完整形式對名稱以縮寫進行參照,之後僅使用縮寫版本,因此本功能有用。此選項嘗試將任何類型為 <Unknown> 的單一術語與鍵入為 <Person> 的任何複合術語的最後一個單字進行比對。例如,如果發現 doe,且最初鍵入為 <Unknown>,則擷取引擎會檢查以查看 <Person> 類型中是否有任何複合術語包括 doe 作為最後一個單字,例如 john doe。由於大部分名稱從不作為單一術語擷取,因此本選項不適用於第一個名稱。
非功能單字排列上限 此選項指定套用排列技術時可以呈現的非功能單字數目上限。此排列技術僅依照所包含的非功能單字,將彼此不同的類似片語分組在一起(例如,of 及 the),而不考量字形變化。例如,讓我們假設將此值設為最多兩個單字,並擷取 company officials 與 officials of the company。在此情況下,由於當忽略 of the 時,兩個術語被視為相同,因此兩個擷取的術語將在最終概念清單中分組在一起。
分組多術語時使用衍生 處理海量資料時,選取此選項以透過使用衍生規則分組多術語。
概念對映的索引選項 指定您想要在擷取時建置的對映索引,以便稍後可以快速繪製概念對映。若要編輯索引設定,請按一下設定。如需相關資訊,請參閱主題 建置概念地圖索引。
一律在啟動擷取之前顯示此對話框 指定您是否想要在每一次擷取之前查看「擷取設定」對話框,您是否除非前往「工具」功能表否則永遠不想要查看,或者您是否想要在每一次擷取時被詢問是否想要編輯任何擷取設定。