Partitionnement et collecte de données dans DataStage

Utilisez la section Partitionnement dans les étapes ou les connecteurs DataStage® qui comportent des onglets Entrée pour spécifier des détails sur la façon dont l'étape ou le connecteur partitionne ou collecte des données sur le lien en cours avant de traiter les données ou de les écrire dans une cible de données.

Le partitionnement de données est une approche du parallélisme qui implique de diviser l'ensemble d'enregistrements en partitions ou sous-ensembles d'enregistrements. En l'absence de contraintes sur les ressources ou d'autres problèmes de défaut d'alignement des données, le partitionnement des données peut permettre d'augmenter de façon linéaire les performances d'une application. DataStage partitionne automatiquement les données en fonction du type de partition requis par l'étape.

Vous pouvez également utiliser la section Partitionnement pour trier les données qui arrivent sur le lien d'entrée avant que les données soient traitées ou écrites dans la cible de données. La disponibilité du tri dépend de la méthode de partitionnement ou de collecte choisie. Cela n'est pas disponible avec les méthodes automatiques. La section Partitionnement fournit des fonctions de tri de base. Pour une opération de tri plus complexe, utilisez l'étape Tri.

La section Partitionnement contient les commandes et zones suivantes :

Partitionnement

Choisissez le type de partitionnement dans la liste.

La liste Type de partition est disponible si le Mode d'exécution est défini sur parallèle dans l'onglet Étape. Si vous sélectionnez une méthode dans la liste, la méthode remplace toute méthode de partitionnement actuelle.

Les types de partitionnement suivants sont disponibles :

(Auto)

Lors de l'exécution, le moteur tente d'extraire la meilleure méthode de partitionnement, selon les éléments suivants :

Indique si les étapes en cours et précédentes sont définies pour s'exécuter en mode séquentiel ou en mode parallèle.
Indique si le jeu d'options Conserver le partitionnement est défini pour les étapes précédentes du travail.
Combien de nœuds sont spécifiés dans le fichier de configuration.

Auto est la méthode par défaut pour la plupart des étapes, mais Auto n'est pas disponible pour l'étape de recherche d'ensemble de fichiers ou Db2 Enterprise.

DB2 Connector: Ce type de partition est disponible uniquement pour le connecteur IBM Db2 for DataStage . Lorsque cette méthode est spécifiée, le connecteur détermine le nombre de partitions dans la table spécifiée dans la propriété Méthode des lectures partitionnées > Nom de la table et configure dynamiquement le nombre de noeuds pour qu'il corresponde au nombre de partitions. Pour les tables Db2® for LUW (Linux, Unix et Windows), ce nombre correspond au nombre de partitions DPF (Database Partitioning Feature) qui se trouvent dans la table. Pour les tables Db2 for z/OS® , ce nombre correspond au nombre de partitions de table dans la table. Le connecteur associe chaque noeud à une partition. Pour chaque noeud, le connecteur lit les lignes qui appartiennent à la partition associée à ce noeud.

Entier: Chaque nœud de traitement reçoit l'ensemble de fichier.

Aléatoire: Les lignes sont partitionnées de manière aléatoire, en fonction de la sortie d'un générateur de nombres aléatoires.

Round Robin: Les lignes sont partitionnées en mode circulaire lors de leur entrée dans cette étape.

Identique: Cette méthode préserve les partitions de données en cours.

Modulo: Les lignes sont partitionnées à l'aide d'une fonction de module sur la colonne clé.

Hachage: Les lignes sont hachées en partitions en fonction de la valeur d'une ou de plusieurs colonnes de clé.

Intervalle: Cette méthode divise un ensemble de données en partitions de taille approximativement égale basées sur une ou plusieurs clés de partitionnement. Le partitionnement par spécification de plages de valeurs est souvent utilisé comme étape préparatoire pour effectuer un tri total sur un ensemble de données.

Collecte

Choisissez le type de collecte dans la liste.

La liste Type de collection est disponible si l'étape est définie pour s'exécuter en mode séquentiel et que l'étape précédente est définie pour être exécutée en mode parallèle. Si vous sélectionnez une méthode dans la liste, la méthode remplace la méthode de collecte par défaut de Auto.

Les types de collection suivants sont disponibles :

(Auto): La méthode automatique permet généralement à l'étape de lire n'importe quelle ligne à partir de n'importe quelle partition d'entrée lorsque la ligne devient disponible et qu'elle est la méthode de collecte la plus rapide. Toutefois, l'étape peut utiliser une méthode de collecte différente lorsque l'option Auto est définie dans certaines circonstances. Par exemple, si l'étape requiert que les données soient triées avant de pouvoir fonctionner, l'étape trie les données.

Ordonné: Cette méthode lit toutes les lignes de la première partition, puis toutes les lignes de la deuxième partition, etc.

Round Robin: Cette méthode lit une ligne de la première partition d'entrée, puis une ligne de la deuxième partition, et ainsi de suite. Après avoir atteint la dernière partition, l'étape démarre à nouveau à partir de la première partition.

Tri fusion: Cette méthode lit les lignes dans un ordre basé sur une ou plusieurs colonnes de la ligne.

Tri

Utilisez ces commandes pour indiquer comment trier les données. Les données sont toujours triées dans les partitions de données. Si l'étape consiste à partitionner les données entrantes, les données sont triées après le partitionnement. Si l'étape collecte les données entrantes, les données sont triées avant la collecte.

Trier: Sélectionnez Effectuer un tri pour trier les données qui arrivent sur le lien.

Stable: Sélectionnez Stable si vous souhaitez préserver des ensembles de données triés précédemment. Stable est défini par défaut.

Unique: Sélectionnez Unique si vous souhaitez conserver un seul enregistrement par valeur de clé de tri. Si plusieurs enregistrements ont des valeurs de clé de tri identiques, tous sauf un sont supprimés. Si un tri stable est également défini, le premier enregistrement comportant la valeur de clé de tri est l'enregistrement conservé.

Fichiers de configuration générés dynamiquement dans DataStage

DataStage ne prend pas en charge les fichiers de configuration générés par l'utilisateur. Vous pouvez indiquer le nombre de partitions pour les fichiers de configuration générés dynamiquement en définissant le nombre de partitions dans l'environnement d'exécution ou en définissant la variable d'environnement " APT_WLM_PARTITION_COUNT pour le nombre de partitions.