C5.0 節點
SPSS® Modeler Professional 和 SPSS Modeler Premium 中提供了此功能。
該節點使用 C5.0 演算法建立 決策樹狀結構 或 規則集 。C5.0 模型的工作原理是根據提供上限 資訊增益 的欄位分割樣本。然後通常會根據不同的欄位再次分割由第一次分割定義的每個子樣本,且此過程會重複下去直到無法繼續分割子樣本。最後,將重新檢查最底層次分割,並刪除或 刪改 對模型值沒有顯著影響的分割。
附註:C5.0 節點只能預測種類目標。分析包含種類(名義或序數)欄位的資料時,與 11.0 版以前的 C5.0 版本相比將種類組合在一起的可能性更大。
C5.0 可以生成兩種模型。決策樹狀結構 是對由演算法建立的分割的簡單說明。每個終端(或「葉節點」)節點可說明訓練資料的特定子集合,而訓練資料中的每個觀察值都完全的樹狀結構中的某個終端節點。換句話說,對於在決策樹狀結構中顯示的任何特定資料記錄,僅可能有一個預測。
反過來, 規則集 則是嘗試對單個記錄進行預測的一組規則。規則集源自決策樹狀結構,並且在某種程度上代表在決策樹狀結構中建立的經簡化或提取的資訊版本。規則集通常可以保留來自某個完整決策樹狀結構(但具有的模型不太複雜)的大部分重新資訊。由於規則集的這種工作方式,其內容與決策樹狀結構的內容不同。最重要的區別是,套用規則集時,可以為任意特定記錄套用多個規則,也可以不套用任何規則。如果套用多個規則,則每個規則將根據與此規則關聯的信賴度獲得一個加權「投票」,並通過組合套用到所討論記錄的所有規則的加權投票來確定最終的預測。如果沒有套用任何規則,則會將預設預測指派給記錄。
範例。 醫學研究員已收集一組患有相同疾病的病患的相關資料。在治療過程中,每位病患均對五種藥物中的一種有明顯反應。您可以將 C5.0 模型與其他節點結合使用,以說明找出可能適用於今後患有相同疾病的病患的藥物。
需求。 要訓練 C5.0 模型,必須有一個種類(即名義或序數)目標欄位和一個或多個任意類型的輸入欄位。會忽略設為兩者 或無 的欄位。模型中所用的欄位必須已完全實例化其類型。還可以指定加權欄位。
強度。 遇到缺少資料及存在大量輸入欄位等問題時,C5.0 模型的表現十分穩健。它們通常不需要很長的訓練時間來進行估計。此外,C5.0 模型與某些其他模型類型相比似乎更容易理解,因為源自模型的規則解譯起來更簡明易懂。C5.0 還提供功能強大的 增強 方法來增加分類的精確度。