關於文字挖掘
現今,越來越多的資訊以非結構化及半結構化格式保留,例如客戶電子郵件、呼叫中心附註、開放式結尾意見調查回應、新聞資訊來源、Web 論壇等。資訊如此豐富為許多組織帶來一個問題,即詢問他們自己「我們如何可以收集、探索及利用此資訊?」
文字挖掘是一個處理程序,會分析文字資料集合以便擷取關鍵概念及佈景主題,以及揭露隱藏的關係與趨勢,而不需要您知道作者用來表達那些概念的精確單字或術語。雖然它們非常不同,但有時文字挖掘會與資訊擷取發生混淆。雖然準確的資訊擷取及儲存都是巨大的挑戰,但是資訊內品質內容、詞彙及關係的擷取及管理都是重要且關鍵的處理程序。
文字挖掘及資料挖掘
對於每一個文字文章,基於語言的文字挖掘都傳回概念索引,以及有關那些概念的資訊。這個經提取的結構化資訊可以與其他資料來源結合,以解決以下問題:
- 哪些概念一起發生?
- 它們還鏈結哪些內容?
- 可以從所擷取資訊建立哪些更高層次的種類?
- 概念或種類有何預測?
- 概念或種類如何預測行為?
將文字挖掘與資料挖掘結合,可比單獨使用結構化或非結構化資料獲得更深刻的見解。這個處理程序通常包括下列步驟:
- 識別要挖掘的文字。準備進行挖掘的文字。如果文字存在於多個檔案中,請將檔案儲存至單一位置。對於資料庫,判定包含文字的欄位。
- 發掘文字並擷取結構化資料。將文字挖掘演算法套用至來源文字。
- 建置概念及種類模型。識別主要概念及/或建立種類。從非結構化資料傳回的概念數目通常非常巨大。識別用於評分的最佳概念與種類。
- 分析結構化資料。採用傳統資料挖掘技術,例如形成叢集、分類及預測性建模,以探索概念之間的關係。合併所擷取概念與其他結構化資料,從而根據概念預測未來的行為。
文字分析與分類
文字分析是一種定量分析,可從文字中擷取有用的資訊,以便可以將此文字內包含的關鍵至適當數目的種類。可以對所有類型及長度的文字執行文字分析,雖然分析方法將有所不同。
記錄或文件越短,分類越簡單,因為它們的複雜度不同,並且通常包含較少的語意不明單字及回應。例如,在使用較短的開放式結尾問題時,如果我們要求人們命名三個最愛假期的活動,我們可能預期會看到許多較短的回答,例如去沙灘、參觀國家公園或什麼也不做。另一方面,較長的開放式結尾回答可能非常複雜且非常長,特別是當回覆者接受過良好教育、積極主動且時間充裕可完成問券時。如果我們要求人們在意見調查中告知我們有關政治信仰,或者提供有關政治的部落格資訊來源,我們可能預期收到有關各種問題及位置的部分較長評論。
能夠擷取主要概念並在極短時間內從這些較長的文字來源中建立有見解的種類是使用 IBM® SPSS® Modeler Text Analytics 的一個主要優點。此優點源自自動化語言與統計技術的組合,為每個文字分析處理階段產生更可靠的結果。
語言處理及 NLP
管理所有這個非結構化文字資料的主要問題在於沒有撰寫文字的標準規則以供電腦理解。每個文件及每部分文字的語言以及產生的意義均不相同。準確擷取及組織此類非結構化資料的唯一方法是分析語言,並揭露其意義。有數個不同的自動化方法,可從非結構化資訊中擷取概念。這些方法可以分為兩種,語言與非語言。
部分組織已嘗試根據統計與中性網路採用自動化非語言解決方案。這些解決方案使用電腦技術,能夠比人類閱讀者更快速地掃描及分類主要概念。不幸的是,此類解決方案的精確度相當低。大部分基於統計資料的系統只簡單計數單字發生的次數,並計算其與相關概念的統計近似性。它們產生許多不相關的結果或雜訊,並遺失應該找到的結果,這稱為無聲。
為了補償有限的精確度,部分解決方案採用複雜的非語言規則,協助區分相關與無關的結果。這稱為基於規則的文字挖掘。
另一方面,基於語言的文字挖掘將自然語言處理 (NLP) 原則(電腦協助的人類語言分析)套用至文字的單字、片語及語法或結構的分析。納入 NLP 的系統可以用智慧的方式擷取概念,包括複合詞組。甚且,基礎語言知識可利用意義和上下文,將概念分類為相關的群組,如產品、組織或人員。
基於語言的文字挖掘像人類一樣發現文字的意義,方法是辨識具有類似意義的各種單字形式,以及分析句子結構提供用來理解文字的架構。此方法提供基於語言的系統的速度與成本效率,但是它提供遠遠更高的精確度,且需要極少的人為介入。
若要說明擷取程序期間基於統計資料與基於語言的方法之間的差異,請考量每一種方法如何回應有關文件前置正式作業的查詢。基於統計資料的解決方案與基於語言的解決方案都必須延伸單字 reproduction 以包括同義字,例如 copy 及 duplication。否則,將忽略相關資訊。但是如果基於統計資料的解決方案嘗試執行此類型的同義字,搜尋具有相同意義的其他術語,則很可能也包括術語 birth,產生許多無關的結果。對語言的理解會解決文字的語義不明確,讓依定義的基於語言的文字挖掘稱為更可靠的方法。
理解擷取如何運作可以協助您在細部調整語言資源(檔案庫、類型同義字等)時進行作出主要決策。擷取程序中的步驟包括:
- 將來源資料轉換為標準格式
- 識別候選術語
- 識別相當的同義字類別及整合
- 指派類型
- 編製索引,並在要求時將型次要分析器相比對
步驟 1. 將來源資料轉換為標準格式
在這個首要步驟中,您匯入的資料會轉換為可用於進一步分析的唯一格式。這個轉換會在內部執行,且不會變更您的原始資料。
步驟 2. 識別候選術語
請務必瞭解語言擷取期間候選術語識別中語言資源的角色。每次執行擷取時,都使用語言資源。它們以範本、檔案庫及編譯的資源形式存在。檔案庫包括用於指定或調整擷取的單字、關係及其他資訊的清單。無法檢視或編輯編譯的資源。然而,可以在 範本編輯器 中,或者,如果您在互動式工作台階段作業中,則可以在資源編輯器中編輯剩餘資源。
編譯資源是 IBM SPSS Modeler Text Analytics 內擷取引擎的核心內部元件。這些資源包括含基本表單清單且具有部分語音代碼的一般定義檔(名詞、動詞、形容詞等)。
除了那些編譯的資源之外,還隨產品提供數個檔案庫,可用於補充所編譯資源中的類型及概念定義,以及提供同義字。這些檔案庫以及您建立的任何自訂檔案庫都由數個組成。這些包括類型定義檔、同義字定義檔及排除定義檔。
已匯入及轉換資料之後,擷取引擎將開始識別用於擷取的候選術語。候選術語是用於識別文字中概念的單字或單字組。處理文字期間,單字(單一術語)與複合字(多術語)會利用部分語音型樣擷取程式進行識別。然後,利用觀感文字鏈結分析識別候選觀感關鍵字。
步驟 3. 識別相當的同義字類別及整合
識別候選單一術語及多術語之後,軟體使用正規化定義檔來識別相當的類別。相當的類別是片語的基本形式,或者同一片語的兩個變式的單一形式。將片語指派給相當類別的目的是確保,例如 side effect 及 副作用 不會視為個別概念。若要確定哪個概念用於相當的類別,即,將 side effect 還是 副作用 用作前導術語,則擷取引擎在列出的順序中套用下列規則:
- 檔案庫中的使用者指定的形式。
- 最常見的形式,如經過前置編譯的資源所定義。
步驟 4. 指派類型
接下來,將類型指派給所擷取的概念。類型是概念的語意分組。此步驟中同時使用所編譯的資源及檔案庫。類型包括此類項目,例如更高層次的概念、正面及負面單字、名字、地點、組織等。如需相關資訊,請參閱主題 類型字典。
語言系統極度取決於知識,亦即其定義檔中所包含的資訊越多,結果的品質越高。修改定義檔內容(例如同義字定義)可以簡化產生的資訊。這通常是一項反覆的處理程序,對於精確擷取概念實屬必要。NLP 是 IBM SPSS Modeler Text Analytics 的核心元素。