「分析」節點的「分析」標籤
通過使用「分析」標籤,您可以指定分析詳細資料。
符合矩陣(適用於符號目標或種類目標)。顯示種類目標(旗標、名義或序數)的各個產生(預測值)欄位與其目標欄位之間的相符型樣。將顯示一個表格,其中包含實際值所定義的列和預測值所定義的欄,以及每個 Cell 中符合該型樣的記錄數。這用於確定預測中的系統錯誤。如果產生了多個與同一輸出欄位相關的欄位,但這些欄位由不同模型產生,那麼將為這些欄位相同和不相同的情況進行計數並顯示總計值。對於它們相同的情況,將顯示另一組正確/錯誤統計資料。
效能評估。使用種類輸出顯示模型的效能評估統計資料。此統計資料(針對輸出欄位的每個種類報告)是以位元為單位對模型(用於預測的該種類的記錄)的平均值資訊內容的測量。考慮到分類問題的難度,因此,罕見種類的準確性預測會比常見種類的準確性預測獲得更高的效能評估指數。對於某個種類,如果模型效果比隨機猜測差,那麼該種類的效能評估指數將為 0。
評估度量值(僅二元分類器 AUC 和 Gini 係數)。對於二元分類器,此選項將報告 AUC(曲線下區域)和 Gini 係數評估度量值。將對每個二元模型共同計算這兩個評估度量值。將在分析輸出瀏覽器中以表格報告這些度量值。
AUC 評估度量值按照 ROC(受試者工作特性)曲線下方的面積進行計算,它是分類器預期效能的標量表示。AUC 始終介於 0 到 1 之間,數字越大代表分類器越好。座標 (0,0) 與 (1,1) 之間的對角線 ROC 曲線代表隨機分類器,並且其 AUC 為 0.5。因此,實際分類器的 AUC 不會少於 0.5。
有時,Gini 係數評估測量用作 AUC 的替代評估測量,並且這兩個測量密切相關。Gini 係數計算為 ROC 曲線與對角線之間的面積的兩倍,或者按照 Gini = 2AUC - 1 進行計算。Gini 係數始終介於 0 到 1 之間,數字越大代表分類器越好。對於 ROC 曲線在對角線下方的不可能事件,Gini 係數為負。
信賴度數字(如果可用)。對於產生信賴度欄位的模型,此選項將報告關於信賴度值及其與預測的關係的統計資料。此選項有兩項設定:
- 臨界值。報告精確度達到指定百分比的信賴等級。
- 提高精確度。報告精確度提高指定系數的信賴等級。例如,如果總精確度為 90%,而此選項設定為 2.0,那麼所報告的值將是精確度為 95% 時所需的信賴度。
尋找預測/預測值欄位使用。 確定預測欄位與原始目標欄位符合的方式。
- 模型輸出欄位 meta 資料。基於模型欄位資訊使預測欄位與目標相符,即便在重新命名預測欄位的情況下也可以進行相符。通過使用「類型」節點,還可以從「值」對話框存取任何預測欄位的模型欄位資訊。請參閱使用值對話框主題,以取得更多資訊。
- 欄位名稱格式。根據命名慣例相符欄位。例如,C5.0 模型區塊為目標 response 產生的預測值必須位於欄位 $C-response 中。
以分割區區隔。如果使用分割區欄位將記錄分割為訓練樣本、測試樣本和驗證樣本,那麼選取此選項可個別為每個分割區顯示結果。請參閱分割區節點主題,以取得更多資訊。
附註:以分割區區隔時,將從分析中排除分割區欄位中具有空值的記錄。如果使用「分割區」節點,這永遠都不是問題,因為「分割區」節點不會產生空值。
使用者定義的分析。您可以指定要在評估模型時使用的分析計算。使用 CLEM 表示式可指定應為每條記錄計算的內容以及如何將記錄層次的分數合併到總分數中。使用函數 @TARGET 和 @PREDICTED 可分別參照目標(實際輸出)值和預測值。
- If。 指定需要視某一條件使用不同計算時的條件式表示式。
- Then。 指定 If 條件為 true 時的計算。
- Else。 指定 If 條件為 false 時的計算。
- 使用。 選取用於從個別分數計算總分數的統計量。
依欄位分解分析。顯示可用於分解分析的種類欄位。除整體分析外,將為每個分解欄位的每個種類報告個別的分析。