取樣上游以節省時間

當您有大量資料時,處理時間可能從數分鐘到數小時,特別是當使用互動式工作台階段作業時。資料大小越大,擷取與分類處理程序所花費的時間越長。若要更有效地工作,您可以從「文字挖掘」節點新增 IBM® SPSS® Modeler 的「樣本」節點上游。使用此「樣本」節點可取得隨機樣本,利用較小的文件或記錄子集執行前幾次傳遞。

較小的樣本通常特別足以用來決定如何編輯資源,甚至是建立大部分(如果不是全部)種類。當您在較小的資料集上執行,並對結果滿意後,可以將同一種類建立技術套用至整個資料集。然後,您可以尋找不適合所建立種類的文件或記錄,並根據需要進行調整。

註: 「樣本」節點是標準 IBM SPSS Modeler 節點。