文字挖掘節點:專家標籤

「專家」標籤包含某些進階參數,影響文字的擷取及處理方式。此對話框中的參數會控制擷取程序的基本行為以及一些進階行為。然而,它們僅代表為您提供的部分選項。還有許多語言資源與選項會影響擷取結果,這由您在「模型」標籤上選取的資源範本進行控制。如需相關資訊,請參閱主題 文字挖掘節點:模型標籤

註: 如果您已使用在「模型」標籤上儲存的互動式工作台資訊選取以互動方式建置模式,則在此情況下,會從前次儲存的工作台階段作業中取得擷取設定。

擷取時,您可以設定下列參數:

將擷取限制為廣域頻率至少為 [n] 的概念。 指定單字或詞組要能夠被擷取所必須在文字中發生的次數下限。如此一來,值 5 會將擷取限制為那些在整個記錄或文件集中發生至少五次的單字或詞組。

在某些情況下,變更此限制可能會在產生的擷取結果中造成巨大的差異,並因此造成種類上的差異。假設您正在處理某餐廳資料,並在此選項中不將限制增加超過 1。在此情況下,擷取結果中可能會出現 pizza (1)、thin pizza (2)、spinach pizza (2)favorite pizza (2)。不過,如果您要將擷取限制為廣域頻率 5 或以上,然後重新擷取,則您不會再取得這其中的三個概念。而是會取得 pizza (7),因為 pizza 是最簡單的格式,而且這個字已經存在為可能的候選字。視其餘的文字而定,您實際的頻率可能超過七,這取決於是否仍然有其他詞組在文字中有 pizza。此外,如果 spinach pizza 已經是種類描述子,則您可能需要將 pizza 新增為描述子而不是擷取所有記錄。基於此原因,每當已經建立種類時,都要小心變更此限制。

請注意,這是僅限擷取的特性;如果您的範本包含術語,並且在文字中發現範本的術語,則無論其頻率為何,都會檢索該術語。

例如,假設您使用「基本資源」範本,此範本在 Core 檔案庫中的 <Location> 類型下包含 "los angeles"; 如果您的文件僅包含 Los Angeles 一次,則 Los Angeles 將會是概念清單的一部分。如果要防止此情況,您需要將過濾器設定為顯示發生的次數至少與在將擷取限制為廣域頻率至少為 [n] 的概念欄位中輸入的值相同的概念。

容納標點符號錯誤。此選項會在擷取期間暫時正規化包含標點符號錯誤的文字(例如,用法不當),以改進概念的擷取能力。當文字較短且品質較差時(例如,在開放式意見調查回應、電子郵件及 CRM 資料中時),或者當文字包含許多縮寫時,此選項極其有用。

容納單字字元長度下限 [n] 的拼字 此選項套用模糊分組技術,可協助將通常拼字錯誤的單字或根據一個概念拼字接近的單字分組在一起。模糊分組演算法暫時去掉所有母音(除了第一個),並從擷取的單字中去掉雙/三重輔音,然後比較它們以查看它們是否相同,以便將 modelingmodelling 分組在一起。然而,如果將每一個術語指派給不同的類型(排除 <Unknown> 類型),則將不會套用模糊分組技術。

您也可以在使用模糊分組之前,定義需要的字元數目下限。術語中的根字元數目計算方式為所有字元總數減去形成字形變化字尾的字元,若為複合字術語,則再減去限定詞與介詞。例如,術語 exercises 將以 "exercise" 形式計為 8 個根字元,位於單字末尾的字母 s 是字形變化(複數形式)。類似地,apple sauce 計為 10 個根字元 ("apple sauce"),而 manufacturing of cars 計為 16 個根字元 ("manufacturing car")。此計數方法僅用於檢查是否應該套用模糊分組,但不會影響單字的相符程度。

註: 如果您稍後發現某些單字未正確地分組,則可以透過在「進階資源」標籤的模糊分組:異常狀況區段中明確地宣告,從此技術中排除單字配對。如需相關資訊,請參閱主題 模糊分組

擷取單一術語 只要單字尚且不是複合字的一部分,或者如果它是名詞或無法辨識的語音的一部分,則此選項會擷取單字(單一屬於)。

擷取非語言實體 此選項擷取非語言實體,例如電話號碼、社會安全號碼、時間、日期、貨幣、數位、百分比、電子郵件位址及 HTTP 位址。您可以在「進階資源」標籤的非語言實體:配置區段中包括或排除某些類型的非語言實體。透過停用任何不需要的實體,擷取引擎不會浪費處理時間。如需相關資訊,請參閱主題 配置

大寫演算法 只要術語的第一個字母為大寫形式,此選項就擷取不在內建目錄中的簡式及複合術語。此選項提供良好的方法以擷取最適當的名詞。

可能時將部分及全部人員名稱分組在一起 此選項將文字中看起來不同的名稱分組在一起。由於通常在文字開頭以名稱的完整形式對名稱以縮寫進行參照,之後僅使用縮寫版本,因此本功能有用。此選項嘗試將任何類型為 <Unknown> 的單一術語與鍵入為 <Person> 的任何複合術語的最後一個單字進行比對。例如,如果發現 doe,且最初鍵入為 <Unknown>,則擷取引擎會檢查以查看 <Person> 類型中是否有任何複合術語包括 doe 作為最後一個單字,例如 john doe。由於大部分名稱從不作為單一術語擷取,因此本選項不適用於第一個名稱。

非功能單字排列上限 此選項指定套用排列技術時可以呈現的非功能單字數目上限。此排列技術僅依照所包含的非功能單字,將彼此不同的類似片語分組在一起(例如,of 及 the),而不考量字形變化。例如,讓我們假設將此值設為最多兩個單字,並擷取 company officialsofficials of the company。在此情況下,由於當忽略 of the 時,兩個術語被視為相同,因此兩個擷取的術語將在最終概念清單中分組在一起。

分組多術語時使用衍生 處理海量資料時,選取此選項以透過使用衍生規則分組多術語。

註: 若要啟用「文字鏈結分析」結果的擷取,您必須利用探索文字鏈結分析結果選項開始階段作業,以及選擇包含 TLA 定義的資源。在互動式工作台階段作業期間,您一律可以稍後透過「擷取設定」對話框擷取 TLA 結果。如需相關資訊,請參閱主題 擷取資料