サンプリング・ノードのオプション

用件に応じてシンプルまたは複雑な方法を選択できます。

シンプルなサンプリングのオプション

シンプルな方法を使用すると、レコードの無作為な割合を選択、連続するレコードを選択または n 件ごとのレコードを選択することができます。

モード: 次のモードに対して、レコードを渡す (含める) か、または破棄 (除外) するかを選択します。

サンプルを含める。データ・ストリームの選択されたレコードを含め、他のレコードをすべて破棄します。例えば、モードを「サンプルを含める」に設定し、「n 件ごと」に 5 を指定した場合、最大標本サイズになるまで 5 件ごとに 1 つのレコードがデータ・ストリームに追加され、データ・セットが元のサイズの 5 分の 1 のサイズとなります。このモードはデータのサンプリングする際のデフォルト・モードで、複雑な方法を使用する場合に唯一使用できるモードです。
サンプルを破棄。選択されたレコードを破棄し、他のすべてのレコードを含めます。例えば、「サンプルを破棄」モードで「n 件ごと」を 5 に設定すると、5 件ごとに 1 つのレコードが破棄 (除外) されます。このモードはシンプルな方法でのみ使用できます。

サンプリング。次のいずれかのサンプリング手法を選択します。

初めの n 件。連続したデータ・サンプリングを使用する場合に選択します。例えば、サンプルの最大サイズが 10000 に設定されている場合、最初の 10,000 件のレコードが選択されます。
n 件ごと。n 件のレコードごとにデータを通過させるか破棄することによってデータをサンプリングする場合に選択します。例えば、n が 5 に設定されている場合、5 件ごとのレコードが選択されます。
無作為 %。データを任意のパーセンテージでサンプリングする場合に選択します。例えば、20% に設定すると、選択したモードに従って、データの 20% がデータ・ストリームに渡されるか、または破棄されます。このフィールドに、サンプリングのパーセンテージを指定します。「ランダムシードの設定」から、シードの値を指定することもできます。
ブロックレベルのサンプリングを使用 (データベース内のみ)。このオプションは、Oracle データベースまたは IBM Db2 データベースでデータベース内マイニングを実行するときに無作為パーセント抽出を選択した場合にのみ有効です。こうした環境では、ブロックレベルのサンプリングがより効果的です。

注: 同じランダム・サンプル設定を実行するとしても、そのたびに返される行の数は正確ではありません。これは、各入力レコードに、サンプルに組み込まれる N/100 の確率があり (N はノードに指定する Random %)、確率は独立しているため、結果が正確に N% にはならないためです。

最大サンプル数。サンプルに含めるレコードの最大数を指定します。「サンプルを含める」および「初めの n 件」が選択されている場合、このオプションは無効になります。また、「無作為 %」オプションが使用されている場合、この設定によって特定のレコードが選択されません。例えば、データ・セットに 1 千万件のレコードがあり、最大サンプル数 300 万件のレコードという設定でレコードの 50% を選択すると、最初の 600 万件のレコードだけに 50% の選択の可能性があり、残りの 400 万件のレコードからは選択されないということになります。この制限を回避するためには、複雑なサンプリング方法を選択し、クラスターまたは階層変数を指定せずに 300 万件のレコードから無作為のサンプルを要求します。

複雑なサンプリングのオプション

複雑なサンプリングのオプションを使用すると、クラスター化サンプル、層化サンプル、重み付けされたサンプルを他のオプションとともに、サンプルをより詳細に制御することができます。

クラスターと階層。必要に応じて、クラスター・フィールド、層化フィールド、および入力重みフィールドを指定することができます。詳しくは、クラスターと階層の設定のトピックを参照してください。

サンプル・タイプ。

無作為。各階層内で無作為にクラスターまたはレコードを選択します。
体系的。固定された間隔でレコードを選択します。このオプションは、ランダム・シードに応じて最初のレコードの位置が変化することを除き、「n 件ごと」の方法と同様に動作します。n の値は、標本サイズまたは割合に基づいて自動的に決定されます。

サンプル単位。基本的なサンプル単位として割合または度数を選択することができます。

サンプルサイズ: 次のいくつかの方法でサンプル・サイズを指定することができます。

固定: 全体のサンプル・サイズを度数または割合として指定することができます。
カスタム: 各サブグループまたは階層のサンプル・サイズを指定することができます。このオプションは、層化フィールドが「クラスター」および「層化」サブダイアログ・ボックスで指定されている場合にのみ使用できます。
変数。ユーザーは、各サブグループまたは階層の標本サイズを定義するフィールドを指定することができます。このフィールドには、特定の階層内の各レコードの同じ値が含まれています。例えば、サンプルが地域ごとに層化されている場合、地域 = Surrey のすべてのレコードは同じ値を持つ必要があります。フィールドは数値型で、その値は選択されたサンプル単位に一致する必要があります。単位が割合の場合、値は 0 より大きく 1 より小さくなります。単位が度数の場合、最小値は 1 です。

階層ごとの最小サンプル。最小レコード数を指定します (クラスター・フィールドが指定されている場合は、最小クラスター数が指定されます)。

階層ごとの最大サンプル。レコードまたはクラスターの最大数を指定します。クラスターまたは層化フィールドを指定せずにこのオプションを選択した場合、指定されたサイズの無作為または体系的サンプルが選択されます。

ランダムシードの設定: 無作為なパーセンテージに基づいてレコードをサンプリングまたはデータ区分している場合、このオプションで、別のセッションに同じ結果を複製できるようになります。乱数ジェネレータに使用される開始値を指定することで、ノードが実行されるごとに毎回同じレコードが割り当てられることが保証されます。自動的に無作為な値を生成するには、希望のシード値を入力するか、「生成」ボタンを入力します。このオプションが選択されないと、ノードが実行されるごとに異なるサンプルが生成されます。

注: データベースから読み込まれたレコードで「ランダム・シードの設定」オプションを使用する場合は、ノードを実行するたびに同じ結果になるように、サンプリングの前にソート・ノードが必要になることがあります。この理由は、ランダム・シードがレコードの順序に依存しているためです。各レコードがリレーショナル・データベース内で同じ位置に留まる保証はありません。詳しくは、ソート・ノードのトピックを参照してください。