快速入門: 使用 SPSS Modeler 建置模型
您可以使用 SPSS Modeler來建立、訓練及部署模型。 請閱讀 SPSS Modeler,然後觀看影片並遵循適合初學者且不需要編碼的指導教學。
您的基本工作流程包括下列作業:
- 開啟沙盤推演專案。 專案是您可以與其他人協同作業以使用資料的地方。
- 將 SPSS Modeler 流程新增至專案。
- 配置畫布上的節點,並執行流程。
- 檢閱模型詳細資料並儲存模型。
- 部署並測試模型。
閱讀 SPSS Modeler
使用 SPSS Modeler 流程,您可以使用商業專門知識來快速開發預測模型,並將它們部署到業務運作中,以改善決策制定。 流程介面圍繞悠久的 SPSS Modeler 用戶端軟體及其使用的業界標準 CRISP-DM 模型進行設計,支援從資料到更好的業務結果的整個資料採礦處理程序。
SPSS Modeler 提供從機器學習、人工智慧及統計資料取得的各種建模方法。 節點選用區上提供的方法可讓您根據資料衍生新資訊,以及開發預測模型。 每種方法都具有特定的強度且最適合因應特定類型的問題。
觀看有關使用 SPSS Modeler 建立模型的視訊
觀看此視訊,以瞭解如何建立並執行 SPSS Modeler 流程來訓練機器學習模型。
此視訊提供視覺化方法,以瞭解本文件中的概念及作業。
嘗試指導教學以使用 SPSS Modeler 建立模型
在本指導教學中,您將完成下列作業:
- 作業 1: 開啟專案。
- 作業 2: 將資料集新增至專案。
- 作業 3: 建立 SPSS Modeler 流程。
- 作業 4: 將節點新增至 SPSS Modeler 流程。
- 作業 5: 執行 SPSS Modeler 流程並探索模型詳細資料。
- 作業 6: 評估模型。
- 作業 7: 使用新資料部署並測試模型。
本指導教學大約需要 30 分鐘才能完成。
範例資料
本指導教學中使用的資料集來自加州大學歐文分校,是基於一段時間內住院的廣泛研究的結果。 該模型將使用三個重要因素來幫助預測慢性腎臟疾病。
使用影片照片中的圖片
提示: 開始視訊,然後當您捲動指導教學時,視訊會移至畫中畫模式。 關閉視訊目錄,以取得圖片中的最佳體驗。 您可以使用 picture-in-picture 模式,以便在完成本指導教學中的作業時可以遵循視訊。 按一下要遵循之每一項作業的時間戳記。下列動畫影像顯示如何使用視訊圖片中的 picture-picture 及目錄功能:

在社群中取得協助
如果您需要本指導教學的協助,可以在 Cloud Pak for Data 社群討論區中提出問題或尋找答案。
設定瀏覽器視窗
為了取得完成本指導教學的最佳體驗,請在一個瀏覽器視窗中開啟 Cloud Pak for Data ,並在另一個瀏覽器視窗中保持開啟本指導教學頁面,以輕鬆在兩個應用程式之間切換。 請考量並列排列兩個瀏覽器視窗,以便更容易遵循。
提示: 如果您在使用者介面中完成本指導教學時遇到引導式導覽,請按一下 稍後可能。
回到頂端
您需要專案來儲存 SPSS Modeler 流程。 您可以使用沙盤推演專案或建立專案。
從導覽功能表
中,選擇 專案> 檢視所有專案
開啟沙盤推演專案。 如果您要使用新專案:
按一下新建專案。
選取建立空的專案。
輸入專案的名稱和選用說明。
選擇現有的 Object Storage 服務實例或者建立新的服務實例。
按一下建立。
如需相關資訊或若要觀看視訊,請參閱建立專案。
檢查您的進度
下列影像顯示新專案。

回到頂端
若要預覽此作業,請從 00:13開始觀看影片。本指導教學使用範例資料集。 請遵循下列步驟,將範例資料集新增至專案:
存取 範例中的 UCI ML Repository: 慢性腎病資料集 。
按一下 預覽。 在這項分析中,有三個重要因素有助於預測慢性腎臟疾病: 測試物件的年齡、血清肌酸酐測試結果,以及糖尿病測試結果。 類別值指出病患先前是否已診斷出腎臟疾病。
按一下新增至專案。
從清單中選取專案,然後按一下新增。
按一下 檢視專案。
從專案的 資產 頁面中,找出 UCI ML Repository 慢性腎病資料 Set.csv 檔案。
檢查您的進度
下列影像顯示專案中的 資產 標籤。

回到頂端
若要預覽此作業,請從 01:11開始觀看影片。請遵循下列步驟,在專案中建立 SPSS Modeler 流程:
按一下 新建作業> 將模型建置成視覺化流程。
輸入流程的名稱和說明。
對於執行時期定義,接受 預設 SPSS Modeler S 定義。
按一下建立。 這會開啟您將用來建立流程的「流程編輯器」。
檢查您的進度
下列影像顯示流程編輯器。

回到頂端
若要預覽此作業,請觀看從 01:31開始的視訊。載入資料之後,您必須轉換資料。 將轉換器和預估器拖曳至畫布,並將它們連接至資料來源,以建立簡式流程。 使用選用區中的下列節點:
資料資產: 從專案載入 csv 檔案
分割: 將資料分割成訓練和測試區段
類型: 設定資料類型。 使用它將
class欄位指定為target類型。C5.0: 分類演算法
分析: 檢視模型並檢查其正確性
表格: 使用預測來預覽資料
請遵循下列步驟來建立流程:
新增資料資產節點:
從 匯入 區段中,將 資料資產 節點拖曳至畫布。
按兩下 資料資產 節點以選取資料集。
選取 資料資產> UCI ML 儲存庫慢性腎病資料 Set.csv。
按一下選取。
檢視「資料資產」內容。
按一下儲存。
新增「分割區」節點:
從 欄位作業 區段中,將 分割區 節點拖曳至畫布。
將 資料資產 節點連接至 分割區 節點。
按兩下 分割區 節點以檢視其內容。 預設分割區將一半資料用於訓練,另一半用於測試。
按一下儲存。
新增「類型」節點:
從 欄位作業 區段中,將 類型 節點拖曳至畫布。
將 分割區 節點連接至 類型 節點。
按兩下 類型 節點以檢視其內容。 「類型」節點指定每個欄位的測量層次。 此來源資料檔使用四個不同的測量層次:「連續」、「種類」、「名義」、「序數」及「旗標」。
搜尋
class欄位。 對於每一個欄位,角色會指出每一個欄位在建模中所扮演的角色。 將class角色 變更為 目標 -您要預測的欄位。按一下儲存。
新增 C5.0 分類演算法節點:
從 建模 區段中,將 C5.0 節點拖曳至畫布。
將 類型 節點連接至 C5.0 節點。
按兩下 C5.0 節點以檢視其內容。 依預設, C5.0 演算法會建置決策樹狀結構。 C5.0 模型的運作方式是根據提供最大資訊增益的欄位來分割樣本。 然後會重新分割第一個分割所定義的每一個子樣本 (通常是根據不同的欄位) ,並重複此處理程序,直到無法進一步分割子樣本為止。 最後,重新檢查最低層次的分割,並移除那些對模型值沒有顯著影響的分割。
開啟 使用此節點中定義的設定。
針對 目標,選取 類別。
在「 輸入 」區段中,按一下 新增直欄。
清除 欄位名稱旁邊的勾選框。
選取 age、 sc、 dm。
按一下確定。
按一下儲存。
檢查您的進度
下列影像顯示已完成的流程。

回到頂端
若要預覽此作業,請從 04:20開始觀看視訊。既然您已設計流程,請遵循下列步驟來執行流程,並檢查樹狀結構圖以查看決策點:
用滑鼠右鍵按一下 C5.0 節點,然後選取 執行。 執行流程會在畫布上產生新的模型塊。
用滑鼠右鍵按一下模型塊並選取 檢視模型 以檢視模型詳細資料。
檢視提供模型摘要的 模型資訊 。
按一下 最佳決策規則。 表格會根據不同輸入欄位的值顯示一系列用於將個別記錄指派給子節點的規則。
按一下 特性重要性。 圖表顯示估計模型時每個預測值的相對重要性。 由此,你可以看到血清肌酸酐很容易成為最重要的因素,糖尿病是下一個最重要的因素。
按一下 樹狀結構圖。 相同的模型會以樹狀結構形式顯示,每個決策點都有一個節點。
將滑鼠移至頂端節點上方,這會提供資料集中所有記錄的摘要。 資料集中將近 40% 的病例被歸類為未診斷出腎臟疾病。 樹狀結構可以提供其他線索,指出哪些因素可能負責。
請注意來自頂端節點的兩個分支,這表示由 血清肌酸酐分裂。
檢閱顯示血清肌酸酐大於 1.25之記錄的分支。 在這種情況下, 100% 的患者有腎臟疾病的陽性診斷。
檢閱顯示血清肌酸酐小於或等於 1.25之記錄的分支。 將近 80% 的患者沒有腎臟疾病的陽性診斷,但有近 20% 的血清肌酸酐還被診斷患有腎臟疾病。
請注意來自 sc<=1.250的分支,其由 糖尿病分割。
檢閱顯示患有低血清肌酸酐 (sc<=1.250) 及診斷糖尿病 (dm = yes) 的病患的分支。 這些患者 100% 也被診斷患有腎病。
檢視顯示有低血清肌酸酐 (sc<=1.250) 且沒有糖尿病 (dm = no) 的病患的分支, 85% 未診斷出腎病,但其中 15% 仍被診斷出腎病。
請注意來自 dm = no的分支,其由最後一個重要因素 age分割。
Review the branch that shows patients 14 years old or younger (age <= 14). 這一分支表明 75% 的低血清肌酸酐和沒有糖尿病的年輕患者有患腎病的風險。
檢閱顯示超過 14 歲 (14 歲以上) 的病患的分支。 這一分支表明,只有 12% 的 14 歲以上患有低血清肌酸酐和沒有糖尿病的患者有患腎病的風險。
關閉模型詳細資料。
檢查您的進度
下列影像顯示樹狀結構圖。

回到頂端
若要預覽此作業,請從 07:24開始觀看視訊。請遵循下列步驟,以使用「分析」及「表格」節點來評估模型:
從 輸出 區段中,將 分析 節點拖曳至畫布。
將 模型 塊連接至 分析 節點。
用滑鼠右鍵按一下 分析 節點,然後選取 執行。
從「 輸出 」畫面中,開啟 分析,其顯示模型正確地預測腎臟疾病診斷幾乎 95% 的時間。 關閉 分析。
用滑鼠右鍵按一下 分析 節點,然後選取 將分支另存為模型。
針對 模型名稱,鍵入
Kidney Disease Analysis。按一下儲存。
按一下關閉。
從 輸出 區段中,將 表格 節點拖曳至畫布。
將 模型 塊連接至 表格 節點。
用滑鼠右鍵按一下 表格 節點,然後選取 預覽資料。
當「預覽」顯示時,捲動至最後兩個直欄。 $C-Class 直欄包含腎臟疾病的預測,而 $CC-Class 直欄則指出該預測的信任評分。
關閉 預覽。
檢查您的進度
下列影像顯示具有預測的預覽表格。

回到頂端
若要預覽此作業,請從 09:10開始觀看視訊。最後,請遵循下列步驟來部署此模型,並使用新資料來預測結果。
回到專案的 資產 標籤。
按一下 模型 區段,然後開啟 Kidney Disease Analysis 模型。
按一下調升至部署空間。
選擇現有的部署空間。 如果您沒有部署空間,則可以建立新的部署空間:
提供空間名稱。
選取儲存服務。
選取機器學習服務。
按一下建立。
按一下關閉。
選取 升級之後移至空間中的模型。
按一下升級。
當模型顯示在部署空間內時,請按一下 新建部署。
選取 線上 作為 部署類型。
為部署指定名稱。
按一下建立。
部署完成時,請按一下部署名稱以檢視部署詳細資料頁面。
移至 測試 標籤。 您可以透過下列兩種方法,從部署詳細資料頁面測試已部署模型:使用表單進行測試或使用 JSON 程式碼進行測試。
按一下 JSON 輸入,然後複製下列測試資料並貼上它,以取代現有的 JSON 文字:
{ "input_data": [ { "fields": [ "age", "bp", "sg", "al", "su", "rbc", "pc", "pcc", "ba", "bgr", "bu", "sc", "sod", "pot", "hemo", "pcv", "wbcc", "rbcc", "htn", "dm", "cad", "appet", "pe", "ane", "class" ], "values": [ [ "62", "80", "1.01", "2", "3", "normal", "normal", "notpresent", "notpresent", "423", "53", "1.8", "", "", "9.6", "31", "7500", "", "no", "yes", "no", "poor", "no", "yes", "ckd" ] ] } ] }按一下 預測 ,以預測 62 歲的糖尿病和血清肌酸酐比 1.8 是否可能診斷出腎病。 所產生的預測指出此病患有很高的腎臟疾病診斷機率。
檢查您的進度
下列影像顯示具有預測之模型部署的「測試」標籤。

回到頂端
後續的步驟
現在,您可以使用此資料集進行進一步分析。 例如,您可以執行如下的作業:
其他資源
尋找更多 SPSS Modeler 指導教學
請嘗試下列其他方法來建置模型:
檢視更多視訊。
在「範例」中尋找範例資料集、專案、模型、提示及記事本,以獲得上機體驗:
記事本 ,您可以將其新增至專案,以開始分析資料及建置模型。
專案 ,您可以匯入包含 Notebook、資料集、提示及其他資產的專案。
您可以新增至專案以精簡、分析及建置模型的
資料集 。
提示 ,您可以在「提示實驗室」中用來提示基礎模型。
您可以在「提示實驗室」中使用的
基礎模型 。
提供給 SPSS Modeler 社群
上層主題: 快速入門指導教學