Concepts d'échantillonnage aléatoire

En général, les types d'échantillonnage aléatoire, par ligne et par bloc sont pris en charge dans IBM Knowledge Catalog. Plusieurs conditions définissent la composition de l'échantillon.

Pour les ressources de données connectées, le système vérifie si le connecteur prend en charge le transfert de l'échantillonnage vers la source de données. Si le type d'échantillonnage est pris en charge, l'échantillonnage s'effectue au niveau de la source de données.

Si le connecteur ne prend en charge aucun de ces types d'échantillonnage, l'échantillon est généré comme suit :

  • Si le nombre total d'enregistrements (réel ou approximatif) dans l'ensemble de données est disponible, l'échantillonnage de Bernoulli est utilisé.

    1. Le pourcentage d'enregistrements à échantillonner est calculé à l'aide de la formule suivante : ( taille _échantillon_demandée /nombre_total_d'enregistrements)*100
    2. Les enregistrements sont lus par lots de 10 000 et, à l'aide d'un système aléatoire, les enregistrements sont sélectionnés dans chaque lot selon le pourcentage calculé.

    Par défaut, le nombre total d'enregistrements n'est pas récupéré pendant le profilage. Un administrateur peut activer cette option pour le Cloud Pak for Data déploiement.

  • Si le nombre total d'enregistrements n'est pas disponible, le pourcentage pour l'échantillonnage de Bernoulli ne peut pas être calculé. Dans ce cas, 80 % des enregistrements de chaque lot de 10 000 enregistrements lus sont sélectionnés pour l'échantillon jusqu'à ce que la taille requise soit atteinte.

    Par exemple, si vous avez une table contenant 10 000 000 d'enregistrements et qu'un échantillon aléatoire de 50 000 enregistrements est nécessaire, 80 % des enregistrements sont extraits de chaque lot de 10 000 enregistrements, ce qui représente 8 000 enregistrements par lot dans ce cas. Ainsi, pour obtenir un échantillon de 50 000 enregistrements, environ 7 lots de 10 000 enregistrements sont lus.

En savoir plus