Extraire les données de Microsoft Excel (DataStage )
Vous pouvez utiliser l'étape Excel pour extraire plusieurs types de données d'une plage de données sélectionnée dans un fichier Microsoft Excel.
Plages de données
Lorsque vous utilisez l'étape Excel, vous pouvez extraire des données d'une plage de données spécifiée dans une feuille de calcul Microsoft Excel.
La plage de données représente une cellule, une ligne, une colonne ou une sélection de cellules contenant un ou plusieurs blocs de cellules continus. La plage de données est spécifiée par l'expression "plage". Dans l'étape Excel, vous pouvez utiliser une expression de plage pour spécifier la plage de données à extraire.
Par exemple, Employee_Salary!A1:G8 décrit une plage de données dans laquelle la première cellule est A1 et la dernière cellule est G8 dans la feuille de calcul Employee_Salary.
1 | A EMPNO
|
B PRENOM
|
C NOM
|
D DEPT
|
E base des opportunités professionnelles
|
F SALARY
|
G BONUS
|
---|---|---|---|---|---|---|---|
2 | 20 | MICHAEL | THOMPSON | B01 | GESTIONNAIRE | 94250 | 800 |
3 | 30 | SALLY | KWAN | C01 | GESTIONNAIRE | 98250 | 800 |
4 | 60 | IRVING | STERN | D11 | GESTIONNAIRE | 72250 | 500 |
5 | 70 | EVA | PULASKI | D21 | GESTIONNAIRE | 96170 | 700 |
6 | 50 | JOHN | GEYER | E01 | GESTIONNAIRE | 80175 | 800 |
7 | 90 | ELEEN | HENDERSON | E11 | GESTIONNAIRE | 89750 | 600 |
8 | 100 | THEODORE | SPENSER | E21 | GESTIONNAIRE | 86150 | 500 |
L'étape Excel fait correspondre la ligne et la colonne Microsoft Excel de la plage de données spécifiée à la ligne et à la colonne IBM® DataStage®, et extrait les enregistrements.
Le tableau suivant décrit les enregistrements extraits par l'étape Excel lorsque l'expression de la plage est Salaire_Salarié !A2:G8.
EMPNO | PRENOM | NOM | DEPT | base des opportunités professionnelles | SALARY | BONUS |
---|---|---|---|---|---|---|
20 | MICHAEL | THOMPSON | B01 | GESTIONNAIRE | 94250 | 800 |
30 | SALLY | KWAN | C01 | GESTIONNAIRE | 98250 | 800 |
60 | IRVING | STERN | D11 | GESTIONNAIRE | 72250 | 500 |
70 | EVA | PULASKI | D21 | GESTIONNAIRE | 96170 | 700 |
50 | JOHN | GEYER | E01 | GESTIONNAIRE | 80175 | 800 |
90 | ELEEN | HENDERSON | E11 | GESTIONNAIRE | 89750 | 600 |
100 | THEODORE | SPENSER | E21 | GESTIONNAIRE | 86150 | 500 |
Si vous souhaitez utiliser la valeur des cellules de la première ligne comme nom de colonne IBM InfoSphere® DataStage, vous pouvez utiliser la propriété En-tête de colonne. Si la propriété En-tête de colonne est définie sur Première ligne des plages de données, et si vous spécifiez l'expression de la plage comme Employee_Salary !A1:G8, la première ligne est traitée en tant qu'en-tête et la valeur des cellules de la première ligne est utilisée comme nom de colonne DataStage par défaut dans le travail. Vous pouvez générer une expression de plage au moment de la conception à l'aide de l'étape Excel.
Types de données pouvant être extraits de Microsoft Excel
Vous pouvez utiliser l'étape Excel pour extraire plusieurs types de données d'un fichier Microsoft Excel.
- Propriétés du fichier
- Le tableau suivant répertorie les informations qui peuvent être extraites en tant que propriétés de fichier :
Tableau 3. Données pouvant être extraites en tant que propriétés de fichier Données Descriptif Nom de fichier Nom du fichier. Exemple : Workbook1.xls Chemin de fichier Chemin du fichier. Exemple : C:\excel\Workbook1.xls Taille de fichier Taille du fichier en octets. Date de dernière modification Date et heure de la dernière modification du fichier.
- Propriétés de document
- Le tableau suivant répertorie les informations qui peuvent être extraites en tant que propriétés de document :
Tableau 4. Données pouvant être extraites en tant que propriétés de document Données Descriptif Auteurs Auteurs du document. Commentaires sur le document Commentaires du document. Date de création du contenu Date et heure de création du document. Mots clés Mots clés du document. Numéro de révision Numéro de révision du document. Objet Objet du document. Titre Titre du document. Société Valeur de propriété de la société du document. Category (Catégorie) Catégorie du document. Responsable Gestionnaire du document. Propriétés personnalisées Propriétés personnalisées du document. Vous devez indiquer le nom de la propriété personnalisée à extraire.
- Informations de feuille
- Le tableau suivant répertorie les informations qui peuvent être extraites en tant qu'informations de feuille :
Tableau 5. Données pouvant être extraites en tant qu'informations de feuille Données Descriptif Nom de la feuille Nom de la feuille Microsoft Excel. En-tête (gauche, centre, droite) En-tête de la position spécifiée. Pied de page ( gauche, centre, droite) Pied de page de la position spécifiée.
- Informations de ligne
- Le tableau suivant répertorie les informations qui peuvent être extraites en tant qu'informations de ligne :
Tableau 6. Données pouvant être extraites en tant qu'informations de ligne Données Descriptif Numéro de ligne Numéro de ligne Microsoft Excel dans la feuille. Le premier numéro de ligne est 1. Est masqué Indique si la ligne est masquée ou non. Ecrit True si la ligne ou la feuille à laquelle appartient cette ligne est masquée.
- Informations sur les cellules
- Vous pouvez extraire les informations de cellule en fonction de la colonne Microsoft Excel ou de la position de la cellule. Vous pouvez spécifier la colonne Microsoft Excel source en fonction de la position relative dans la plage de données lorsque vous extrayez les informations sur les cellules en fonction de la colonne Microsoft Excel.
Fonction RCP
Dans IBM DataStage, vous pouvez configurer une tâche pour propager des colonnes supplémentaires qui ne sont pas définies dans les métadonnées dans le reste de la tâche. Ce processus est appelé propagation des colonnes d'exécution (ou fonction RCP).
Lorsque la fonction RCP est activée, l'étape Excel propage les colonnes Microsoft Excel en fonction de la première plage de données. Si des caractères génériques sont utilisés dans le nom de fichier, le premier fichier correspondant à l'expression est utilisé. Le paramètre de la propriété Colonnes masquées détermine si une colonne masquée est propagée. Pour chaque colonne Microsoft Excel propagée, seules les valeurs de cellule sont extraites. Pour extraire des informations telles que le nom de fichier, le nom de feuille ou le numéro de ligne, vous pouvez définir les colonnes supplémentaires dans la fenêtre de configuration.
Règles de dénomination des colonnes
IBM DataStage les colonnes sont nommées en fonction de la lettre de colonne Microsoft Excel de la première plage de données. Le nom de la colonne est préfixé par " Column_" suivi de la lettre de la colonne Microsoft Excel. Par exemple, Column_A, Column_B, Column_C, etc.
Si le travail a déjà une colonne avec le nom, le travail s'arrête.
Types de données
Toutes les colonnes ajoutées par l'étape Excel sont de type Unicode Varchar avec une longueur non définie.