關於文字挖掘
現在,越來越多的資訊以非結構化和半結構化格式儲存,例如客戶電子郵件、客服中心附註、開放式意見調查回應、新聞資訊來源、Web 表單等。 大量資訊給許多組織帶來了問題: 我們如何收集、探索和利用這些資訊?
文字採礦是分析文字資料集合的處理程序,用來擷取主要概念與主題,並揭露隱藏的關係與趨勢,您不需要知道作者用來表達那些概念的精確單字或術語。 盡管文字採礦與資訊擷取有很大的不同,但它們有時也會被混淆。 雖然準確擷取及儲存資訊是一項巨大的挑戰,但是擷取與管理資訊中包含的品質內容、術語及關係是至關重要的過程。
文字挖掘及資料挖掘
對於每篇文章,語言型文字採礦都會傳回概念的索引,以及那些概念的相關資訊。 這個經提取的結構化資訊可以與其他資料來源結合,以解決以下問題:
- 哪些概念一起發生?
- 它們還鏈結哪些內容?
- 可以從所擷取資訊建立哪些更高層次的種類?
- 概念或種類有何預測?
- 概念或種類如何預測行為?
與單獨使用結構化或非結構化資料相比較,將文字採礦與資料採礦結合可提供更深入的見解。 這個處理程序通常包括下列步驟:
- 識別要發掘的文字。 準備要發掘的文字。 如果文字位於多個檔案中,請將這些檔案儲存至單一位置。 對於資料庫,判定包含文字的欄位。
- 發掘文字並擷取結構化資料。 將文字挖掘演算法套用至來源文字。
- 建置概念及種類模型。 識別主要概念及/或建立種類。 通常,從非結構化資料傳回的概念非常多。 識別用於評分的最佳概念與種類。
- 分析結構化資料。 採用傳統資料採礦技術(例如叢集作業、分類及預測建模),以探索概念之間的關係。 合併所擷取概念與其他結構化資料,從而根據概念預測未來的行為。
文字分析與分類
文字分析(一種質化分析)是從文字擷取有用資訊,以便可以將此文字內包含的主要構想或概念分組為適當數目的種類。 可針對所有類型及長度的文字執行文字分析,但分析的方法會有些不同。
較短的記錄或文件最容易分類,因為它們並不複雜,且包含的不明確單字及回應通常比較少。 例如,如果我們使用較短的開放式意見調查問題,要求人們說出他們最愛的三個度假活動,我們可能希望看到許多簡短的回答,例如,去海灘、造訪國家公園或什麼都不做。 另一方面,較長的開放式回應可能非常複雜且冗長,尤其是如果受訪者受過教育、有動力並且有足夠的時間填寫問卷。 如果我們要求人們在意見調查中說明他們的政治信仰,或者在部落格上談論政治,我們可能希望他們對各種問題及立場發表一些長篇評論。
使用 Text Analytics 的主要優勢在於,能夠在很短時間內從這些較長的文字來源中擷取主要概念並建立有洞察力的種類。 透過組合自動語言與統計技術,可在文本分析過程的每個階段產生最可靠的結果,從而獲得這一優勢。
語言處理及 NLP
管理所有這些非結構化文字資料的主要問題是沒有用於寫入文字的標準規則以供電腦理解。 每個文件及每個文字的語言及意義都有所不同。 準確地擷取及組織此類非結構化資料的唯一方法是分析語言,從而發現其含義。 可使用數種不同的自動化方法從非結構化資訊中擷取概念。 這些方法可以分為兩種:語言學與非語言學。
部分組織嘗試採用基於統計及神經網路的自動化非語言學解決方案。 這些解決方案使用電腦技術,可以比人類讀者更快速地掃描及分類主要概念。 遺憾的是,這種解決方案的精確度相當低。 大部分統計資料型系統僅計算單字的出現次數,並計算與相關概念的統計接近程度。 它們會產生許多無關的結果(或雜訊),並遺失應該發現的結果(稱為無回應)。
為了補償有限的精確度,部分解決方案會納入複雜的非語言學規則,以協助區分相關結果及無關的結果。 這稱為基於規則的文字挖掘。
另一方面,語言型文字採礦在分析文字的單字、片語及語法或結構時套用自然語言處理程序 (NLP) 的原則(人類語言的電腦輔助分析)。 納入了 NLP 的系統可以智慧方式擷取概念,其中包括複合片語。 此外,瞭解基礎語言可讓使用者利用意義及環境定義,將概念分類為相關群組,例如產品、組織或人員。
語言型文字採礦透過識別各種具有類似意義的單字,並透過分析句子結構以提供用於理解文字的框架,採用與人類相似的方式發現文字的意義。 此方法提供具速度和成本效益的統計資料型系統,但是它提供很高的精確度,同時需要極少的人為介入。
若要說明擷取程序期間統計資料型與語言型方法之間的差異,請考量每一種方法如何回應 reproduction of documents的相關查詢。 統計資料型與語言型解決方案都必須擴充單字 reproduction 以包括同義字,例如 copy 及 duplication。 否則,將忽略相關資訊。 但是,如果統計資料型解決方案嘗試處理此類型的同義字(搜尋具有相同意義的其他術語),則很可能也包括術語 birth,產生許多無關結果。 對語言的理解會解決文字的語義不明確,讓依定義的基於語言的文字挖掘稱為更可靠的方法。
瞭解擷取程序如何協助您在細部調整語言學資源(檔案庫、類型、同義字等)時做出關鍵決策。 擷取程序中的步驟包括:
- 將來源資料轉換為標準格式
- 識別候選術語
- 識別相當的同義字類別及整合
- 指派類型
- 編製索引,並在要求時將型次要分析器相比對
步驟 1. 將來源資料轉換為標準格式
在這第一步中,您匯入的資料會轉換為統一格式,可用於執行進一步分析。 這個轉換會在內部執行,且不會變更您的原始資料。
步驟 2. 識別候選術語
務必要瞭解語言資源在語言擷取期間識別候選術語的過程中所擔任的角色。 每次執行擷取時,都會使用語言資源。 它們以範本、檔案庫及已編譯資源的形式存在。 檔案庫包括用來指定或調整擷取的單字、關係及其他資訊清單。 無法檢視或編輯已編譯的資源。 不過,其餘資源可以在「範本編輯器」中編輯,或者如果您是在 Text Analytics Workbench 階段作業中,則可以在「資源編輯器」中編輯。
編譯的資源是 Text Analytics 內擷取引擎的核心內部元件。 這些資源包括一般字典,其中包含具有詞性代碼 (名詞、動詞、形容詞等) 的基本形式清單。
除了那些編譯的資源之外,產品還隨附了數個檔案庫,可用來補充已編譯資源中的類型及概念定義,以及提供同義字。 這些檔案庫(以及您建立的所有自訂檔案庫)都是由數個字典組成。 這些字典包括類型字典、替代字典及排除字典。
匯入並轉換資料之後,擷取引擎將開始識別要擷取的候選術語。 候選術語是用來識別文字中的概念的單字或字組。 在文字處理期間,使用詞性型樣擷取程式識別單一單字 (單術語) 及複合字 (多術語)。 然後,利用觀感文字鏈結分析識別候選觀感關鍵字。
步驟 3. 識別相當的同義字類別及整合
識別候選單術語及多術語之後,軟體使用正規化字典來識別等值類別。 相當的類別是片語的基本形式,或者同一片語的兩個變式的單一形式。將片語指派給相當的類別之目的,是確保不會發生諸如將 side effect 及 副作用 視為個別概念的情況。 若要判定要用於等值類別的概念,亦即,是使用 side effect 還是 副作用 作為前導術語- ,擷取引擎會依列出的順序套用下列規則:
- 檔案庫中的使用者指定的形式。
- 最常見的形式,如經過前置編譯的資源所定義。
步驟 4. 指派類型
接下來,類型會指派給擷取的概念。 類型是概念在語意上的分組。 在此步驟中,將使用已編譯的資源及檔案庫。 類型包括較高層次的概念、正面與負面單字、名字、位置、組織等項目。
語言系統對知識敏感,在其字典中包含的資訊越多,結果的品質越高。 修改字典內容(例如同義字定義)可以簡化產生的資訊。 這通常是一個疊代過程,擷取準確的概念需要該過程。 NLP 是 Text Analytics 的核心元素。