ランダム・サンプリングの概念 コンセプト

一般に、 IBM Knowledge Catalog では、サンプリング・タイプとして random 、 row 、および block がサポートされています。 サンプルの構成方法は、いくつかの条件によって定義されます。

接続済みの データ資産 の場合、コネクターがデータ・ソースへのサンプリングのプッシュダウンをサポートしているかどうかが検査されます。 サンプリング・タイプがサポートされている場合、サンプリングはデータ・ソースで行われます。

コネクターがこれらのサンプリング・タイプをサポートしていない場合、サンプルは次のように生成されます。

  • データ資産 内のレコードの総数 (実際または概算) が使用可能な場合は、ベルヌーイ・サンプリングが使用されます。

    1. サンプリングされるレコードのパーセンテージは、次の公式を使用して計算されます。 (requested_sample_size/total_number_of_records)*100
    2. レコードは 10,000 個のバッチで読み取られ、ランダム化を使用して、計算されたパーセンテージで各バッチからレコードが選出されます。

    デフォルトでは、プロファイル作成中にレコード総数は取得されません。 管理者は、 Cloud Pak for Data デプロイメント に対してこのオプションを有効にすることができます。

  • レコードの総数が使用できない場合、ベルヌーイ・サンプリングのパーセンテージを計算できません。 この場合、必要なサンプル・サイズに達するまで、10,000 レコードの各バッチのレコードの 80% がサンプルとして選択されます。

    例えば、10,000,000 レコードの表があり、50,000 レコードのランダム・サンプルが必要な場合、10,000 レコードの各バッチから 80% のレコードがフェッチされます。この場合、バッチごとに 8,000 レコードになります。 したがって、50,000 レコードのサンプルを取得するには、約 7 バッチの 10,000 レコードが読み取られます。

詳細はこちら