樣本節點

您可以使用「樣本」節點來選取記錄的子集合進行分析,或指定要捨棄的記錄的比例。支援各種樣本類型,其中包括分層樣本、叢集樣本以及非隨機(結構化)樣本。需要使用取樣的原因有以下幾點:

  • 通過評估資料子集合上的模型提高效能。通過樣本評估的模型通常與利用全部資料集得到的模型一樣準確,並且如果提高的效能容許您體驗尚未試圖的不同方法,那麼所得的模型還有可能更為準確。
  • 選取相關的記錄或交易群組來進行分析,例如選取線上購物車(或市場購物籃)中的所有項目,或特定芳鄰的所有內容。
  • 指定單元或觀察值以進行隨機檢驗,從而確保品質、防止欺詐和保證安全。

注意:如果僅希望將資料分割到訓練樣本和測試樣本以進行驗證,那麼可以改用「分割區」節點。請參閱分割區節點主題,以取得更多資訊。

樣本的類型

叢集樣本。對群組或叢集取樣,而不是對個別單元取樣。例如,假設您有一個資料檔案,其中每個學生對應一條記錄。如果按學校叢集並且樣本大小為 50%,那麼將已選取一半的學校並從每所選定的學校中選出所有學生。而去除未選取學校的學生。一般而言,您可能預期選出大約一半的學生,但由於學校規模不同,百分比也可能不太準確。同樣,您可以按交易 ID 對購物車項目進行叢集,以確保保留所選交易的所有項目。有關按鎮對內容叢集的範例,請參閱 complexsample_property.str 樣本串流。

分層樣本。在總體或分層的沒有重疊的子群組中自功能選擇樣本。例如,您可以確保以同樣的比例對男性和女性進行抽樣,或者可以確保在城市總體中顯示每個區域或社會經濟群體。還可以為每階層指定一個不同的樣本大小(例如,如果您認為一個群組在原始資料中被低估了)。有關按縣對內容分層的範例,請參閱 complexsample_property.str 樣本串流。

系統性或 n 中取 1 取樣。當難以隨機選取時,單位能夠以有系統的 (以固定間距) 或是依照順序來取樣。

取樣加權。 在繪製複合樣本時會自動計算取樣加權,並且這些加權會與每個取樣單元在原始資料中所代表的「頻率」大致對應。因此,樣本的加權總和應該可以估計原始資料的大小。

取樣框

取樣框定義將包含在樣本或研究中的觀測對象的潛在來源。在某些情況下,取樣框可以識別總體中的每個成員並且可以包含樣本中的任何成員 - 例如,對來自某條產品線的產品進行取樣。更普遍的情況是,您將無法存取每一個可能的觀測對象。例如,在選舉之前,您無法確定誰將在選舉中投票。在這種情況下,您可以將選民名冊作為取樣框,即使在下列情況下也是如此:有些登錄人不會投票,而有些人在您停止登錄時還尚未登錄,但可能會投票。您無法對取樣框之外的任何人進行取樣。取樣框是否在本質上與您嘗試評估的總體足夠相似,是必須要為每個現實的觀測對象解決的問題。