サンプリング・ノード
サンプリング・ノードを使用して、分析のためにレコードのサブセットを選択、または破棄するレコードの割合を指定することができます。層化サンプル、クラスター・サンプル、非無作為 (構造化) サンプルなど、さまざまなサンプルの種類がサポートされています。サンプリングを使用する理由は、次のとおりです。
- データのサブセットのモデルを推定してパフォーマンスを向上する。サンプルから推定されたモデルは、完全なデータ・セットから取得したモデルと同じくらい正確で、向上したパフォーマンスによってこれまで試すことがなかったさまざま方法を試すことができる場合、より正確になります。
- オンライン ショッピングのカートのすべてのアイテムを選択または特定の隣接地域のすべての資産を選択するなど、分析のために換算するレコードまたはトランザクションのグループを選択する。
- 品質評価、不正防止、またはセキュリティーの対象となる無作為検査の単位またはケースを識別する。
注 : 検証の目的でデータを学習サンプルおよび検定サンプルに分割する場合、データ区分ノードを代わりに使用することができます。 詳しくは、データ区分ノードのトピックを参照してください。
サンプルの種類
クラスター化サンプル: 個々の単位ではない、サンプル グループまたはクラスター。例えば、生徒ごとに 1 つのレコードを持つデータ・ファイルがあるとします。学校ごとにクラスター化し、標本サイズが 50% の場合、学校の 50% が選択され、選択されたそれぞれの学校からすべての生徒が取得されます。選択されない学校の生徒は却下されます。平均的には、およそ 50% の生徒が抽出されることが期待されますが、学校の規模が異なるため、割合は正確でない場合があります。同様に、トランザクション ID によってショッピング カートのアイテムをクラスター化し、選択されたトランザクションのすべてのアイテムが含まれていることを確認します。町ごとの資産をクラスター化する例については、complexsample_property.str のサンプル・ストリームを参照してください。
層化サンプル: 母集団の重複しないサブグループまたは階層内のサンプルを独立して選択します。例えば、男性および女性を等しい割合でサンプリングされ、または都市部の人口の中ですべての地域または社会経済的グループが表示されるようにすることができます。また、各階層の異なる標本サイズを指定することもできます (例えば、元のデータの 1 つのグループが実際より低く評価された場合)。町ごとの資産を層化する例については、complexsample_property.str のサンプル・ストリームを参照してください。
体系的または n 件ごとのサンプリング: 無作為な選択が難しい場合に、系統的に (固定間隔で) または順序に従って、単位のサンプリングを行うことができます。
抽出重み付け: 重みのサンプリングは、複雑なサンプルを引き出す際に自動的に計算され、サンプルされた各単位が元のデータに表示される「度数」にほとんど対応します。そのため、サンプルの重みの合計で、元のデータのサイズを推定する必要があります。
サンプリング・フレーム
サンプリング・フレームによって、サンプルまたは調査に含まれるケースの可能性のあるソースを定義します。例えば生産ラインから外れる項目のサンプリングを行う場合、母集団の各単一メンバーを識別し、サンプルにメンバーの 1 つを含めることができます。可能性のあるすべてのケースにアクセスできない場合がよくあります。例えば、選挙が実行された後まで、選挙で誰が投票するのかを確認できません。この場合、一部の人々が投票せず、名簿を確認した時点で登録されていない人々が投票する場合もありますが、サンプリング・フレームとして選挙人名簿を使用します。サンプリング・フレームに含まれない人は、サンプリングされる可能性はありません。サンプリング・フレームが評価しようとしている母集団に本質的に十分近いかどうかは、それぞれの実際のケースで処理する必要のある問題です。