Extraire les données de Microsoft Excel (DataStage )

Vous pouvez utiliser l'étape Excel pour extraire plusieurs types de données d'une plage de données sélectionnée dans un fichier Microsoft Excel.

Plages de données

Lorsque vous utilisez l'étape Excel, vous pouvez extraire des données d'une plage de données spécifiée dans une feuille de calcul Microsoft Excel.

La plage de données représente une cellule, une ligne, une colonne ou une sélection de cellules contenant un ou plusieurs blocs de cellules continus. La plage de données est spécifiée par l'expression "plage". Dans l'étape Excel, vous pouvez utiliser une expression de plage pour spécifier la plage de données à extraire.

Par exemple, Employee_Salary!A1:G8 décrit une plage de données dans laquelle la première cellule est A1 et la dernière cellule est G8 dans la feuille de calcul Employee_Salary.

Tableau 1. Exemple de fichier Microsoft Excel ; feuille de calcul Salaire_employé
1 A
EMPNO
B
PRENOM
C
NOM
D
DEPT
E
base des opportunités professionnelles
F
SALARY
G
BONUS
2 20 MICHAEL THOMPSON B01 GESTIONNAIRE 94250 800
3 30 SALLY KWAN C01 GESTIONNAIRE 98250 800
4 60 IRVING STERN D11 GESTIONNAIRE 72250 500
5 70 EVA PULASKI D21 GESTIONNAIRE 96170 700
6 50 JOHN GEYER E01 GESTIONNAIRE 80175 800
7 90 ELEEN HENDERSON E11 GESTIONNAIRE 89750 600
8 100 THEODORE SPENSER E21 GESTIONNAIRE 86150 500

L'étape Excel fait correspondre la ligne et la colonne Microsoft Excel de la plage de données spécifiée à la ligne et à la colonne IBM® DataStage®, et extrait les enregistrements.

Le tableau suivant décrit les enregistrements extraits par l'étape Excel lorsque l'expression de la plage est Salaire_Salarié !A2:G8.

Tableau 2. Exemple de ligne et de colonne DataStage
EMPNO PRENOM NOM DEPT base des opportunités professionnelles SALARY BONUS
20 MICHAEL THOMPSON B01 GESTIONNAIRE 94250 800
30 SALLY KWAN C01 GESTIONNAIRE 98250 800
60 IRVING STERN D11 GESTIONNAIRE 72250 500
70 EVA PULASKI D21 GESTIONNAIRE 96170 700
50 JOHN GEYER E01 GESTIONNAIRE 80175 800
90 ELEEN HENDERSON E11 GESTIONNAIRE 89750 600
100 THEODORE SPENSER E21 GESTIONNAIRE 86150 500

Si vous souhaitez utiliser la valeur des cellules de la première ligne comme nom de colonne IBM InfoSphere® DataStage, vous pouvez utiliser la propriété En-tête de colonne. Si la propriété En-tête de colonne est définie sur Première ligne des plages de données, et si vous spécifiez l'expression de la plage comme Employee_Salary !A1:G8, la première ligne est traitée en tant qu'en-tête et la valeur des cellules de la première ligne est utilisée comme nom de colonne DataStage par défaut dans le travail. Vous pouvez générer une expression de plage au moment de la conception à l'aide de l'étape Excel.

Types de données pouvant être extraits de Microsoft Excel

Vous pouvez utiliser l'étape Excel pour extraire plusieurs types de données d'un fichier Microsoft Excel.

Propriétés du fichier
Le tableau suivant répertorie les informations qui peuvent être extraites en tant que propriétés de fichier :
Tableau 3. Données pouvant être extraites en tant que propriétés de fichier
Données Descriptif
Nom de fichier Nom du fichier. Exemple : Workbook1.xls
Chemin de fichier Chemin du fichier. Exemple : C:\excel\Workbook1.xls
Taille de fichier Taille du fichier en octets.
Date de dernière modification Date et heure de la dernière modification du fichier.
Propriétés de document
Le tableau suivant répertorie les informations qui peuvent être extraites en tant que propriétés de document :
Tableau 4. Données pouvant être extraites en tant que propriétés de document
Données Descriptif
Auteurs Auteurs du document.
Commentaires sur le document Commentaires du document.
Date de création du contenu Date et heure de création du document.
Mots clés Mots clés du document.
Numéro de révision Numéro de révision du document.
Objet Objet du document.
Titre Titre du document.
Société Valeur de propriété de la société du document.
Category (Catégorie) Catégorie du document.
Responsable Gestionnaire du document.
Propriétés personnalisées Propriétés personnalisées du document. Vous devez indiquer le nom de la propriété personnalisée à extraire.
Informations de feuille
Le tableau suivant répertorie les informations qui peuvent être extraites en tant qu'informations de feuille :
Tableau 5. Données pouvant être extraites en tant qu'informations de feuille
Données Descriptif
Nom de la feuille Nom de la feuille Microsoft Excel.
En-tête (gauche, centre, droite) En-tête de la position spécifiée.
Pied de page ( gauche, centre, droite) Pied de page de la position spécifiée.
Informations de ligne
Le tableau suivant répertorie les informations qui peuvent être extraites en tant qu'informations de ligne :
Tableau 6. Données pouvant être extraites en tant qu'informations de ligne
Données Descriptif
Numéro de ligne Numéro de ligne Microsoft Excel dans la feuille. Le premier numéro de ligne est 1.
Est masqué Indique si la ligne est masquée ou non. Ecrit True si la ligne ou la feuille à laquelle appartient cette ligne est masquée.
Informations sur les cellules
Vous pouvez extraire les informations de cellule en fonction de la colonne Microsoft Excel ou de la position de la cellule. Vous pouvez spécifier la colonne Microsoft Excel source en fonction de la position relative dans la plage de données lorsque vous extrayez les informations sur les cellules en fonction de la colonne Microsoft Excel.
Le tableau suivant répertorie les informations qui peuvent être extraites en tant qu'informations de cellule :
Tableau 7. Données pouvant être extraites en tant qu'informations de cellule
Données Descriptif
Valeur Valeur d'une cellule. Si la cellule contient une formule, l'étape extrait la valeur de la mémoire cache.
Commentaire Commentaire d'une cellule.
Auteur du commentaire Auteur du commentaire d'une cellule.
Formule Formule d'une cellule dans le texte.
Type de lien hypertexte Type de lien hypertexte d'une cellule.
Adresse de lien hypertexte L'adresse vers laquelle ce lien hypertexte pointe. Le format dépend du type de ce lien hypertexte.
Libellé de lien hypertexte Libellé de texte pour ce lien hypertexte.

Fonction RCP

Dans IBM DataStage, vous pouvez configurer une tâche pour propager des colonnes supplémentaires qui ne sont pas définies dans les métadonnées dans le reste de la tâche. Ce processus est appelé propagation des colonnes d'exécution (ou fonction RCP).

Lorsque la fonction RCP est activée, l'étape Excel propage les colonnes Microsoft Excel en fonction de la première plage de données. Si des caractères génériques sont utilisés dans le nom de fichier, le premier fichier correspondant à l'expression est utilisé. Le paramètre de la propriété Colonnes masquées détermine si une colonne masquée est propagée. Pour chaque colonne Microsoft Excel propagée, seules les valeurs de cellule sont extraites. Pour extraire des informations telles que le nom de fichier, le nom de feuille ou le numéro de ligne, vous pouvez définir les colonnes supplémentaires dans la fenêtre de configuration.

Règles de dénomination des colonnes

IBM DataStage les colonnes sont nommées en fonction de la lettre de colonne Microsoft Excel de la première plage de données. Le nom de la colonne est préfixé par " Column_" suivi de la lettre de la colonne Microsoft Excel. Par exemple, Column_A, Column_B, Column_C, etc.

Si le travail a déjà une colonne avec le nom, le travail s'arrête.

Types de données

Toutes les colonnes ajoutées par l'étape Excel sont de type Unicode Varchar avec une longueur non définie.