Tutoriel d'intégration de données : Transformer les données par lots avec DataStage
Ce tutoriel permet de transformer des données stockées dans trois sources de données externes. Votre objectif est d'utiliser DataStage pour transformer les données, puis de livrer ces données transformées à un seul fichier de sortie.
Veillez à sauvegarder le projet et le flux, car vous en aurez besoin pour le tutoriel sur l'intégration des données : Observer les données.
Le cas d'utilisation de ce tutoriel est que la Golden Bank doit se conformer à un nouveau règlement lorsqu'elle ne peut pas prêter à des demandeurs de prêt sous-qualifiés. En tant qu'ingénieur de données à Golden Bank, vous utilisez actuellement DataStage pour agréger vos données d'applications hypothécaires anonymisées avec les informations personnelles des demandeurs d'hypothèque. Vos prêteurs utilisent ces informations pour décider s'ils doivent approuver ou refuser une demande de prêt hypothécaire. Vos dirigeants ont ajouté des analystes de risque qui calculent quotidiennement le taux d'intérêt qu'ils recommandent d'offrir aux emprunteurs dans chaque fourchette de score de crédit. Vous devez intégrer ces informations dans la feuille de calcul que vous partagez avec les prêteurs. La feuille de calcul comprend des informations sur le score de crédit de chaque demandeur, la dette totale du demandeur et un tableau de consultation des taux d'intérêt. Enfin, chargez vos données dans un fichier CSV cible.
Aperçu du tutoriel
Dans ce tutoriel, vous exécutez les tâches suivantes :
- Définir les conditions préalables.
- Tâche 1 : Exécuter un flux DataStage existant
- Éditer le flux DataStage pour :
- Tâche 2 : Spécifier une colonne clé pour l'étape Join
- Tâche 3 : Ajouter des données de solvabilité à partir d'une base de données PostgreSQL
- Tâche 4 : ajouter une étape de jonction pour relier les données relatives à la cote de crédit aux données relatives au demandeur et à la demande
- Tâche 5 : Ajouter une étape de transformation pour calculer la dette totale
- Tâche 6 : Ajouter des données sur les taux d'intérêt à partir d'une base de données MongoDB
- Tâche 7 : Ajouter une étape de recherche pour consulter les taux d'intérêt des candidats
- Tâche 8 : Modifier le nœud Fichier séquentiel et exécuter le flux DataStage
- Nettoyage (facultatif)
Regardez cette vidéo pour prévisualiser les étapes de ce tutoriel. Il peut y avoir de légères différences dans l'interface utilisateur présentée dans la vidéo. La vidéo est destinée à accompagner le tutoriel écrit.
Cette vidéo fournit une méthode visuelle pour apprendre les concepts et les tâches de cette documentation.
Mise en place des conditions préalables
S'inscrire à IBM watsonx.data intégration
Vous devez vous inscrire à l'intégration IBM watsonx.data pour commencer le tutoriel et transformer les données avec les flux DataStage. Si vous n'avez pas encore de compte, inscrivez-vous à l'intégration IBM watsonx.data.
Créez l'exemple de projet
Si vous disposez déjà de l'exemple de projet pour ce tutoriel, passez à la tâche 1. Sinon, procédez comme suit :
Accédez au projet d'exemple d'intégration de données dans le centre de ressources.
Cliquez sur Créer un projet.
Si vous êtes invité à associer le projet à une instance Cloud Object Storage, sélectionnez une instance Cloud Object Storage dans la liste.
Cliquez sur Créer.
Attendez que l'importation du projet soit terminée, puis cliquez sur Afficher le nouveau projet pour vérifier que le projet et les ressources ont été créés avec succès.
Cliquez sur l'onglet Assets pour voir les connexions et le flux DataStage.
Vérifiez vos progrès
L'image suivante montre l'onglet Actifs dans l'exemple de projet. Vous êtes maintenant prêt à commencer le tutoriel.

Tâche 1 : Exécuter un flux DataStage existant
Commencez par un flux de base DataStage qui joint les ensembles de données des demandeurs et des demandes de prêts hypothécaires, puis transmet le résultat à un fichier CSV dans le projet. Suivez les étapes suivantes pour exécuter le flux DataStage :
Démarrer dans le projet d' intégration de données. Si le projet n'est pas ouvert, procédez comme suit :
Dans le menu Navigation
, sélectionnez Projets > Afficher tous les projets.
Ouvrez le projet d' intégration de données.
Cliquez sur l'onglet Actifs pour afficher tous les actifs du projet.
Cliquez sur Flux > DataStage flux.
Cliquez sur le flux d' intégration de données dans la liste pour l'ouvrir. Ce flux relie les tables Mortgage Applicants et Mortgage Applications qui sont stockées sur Db2 Warehouse, filtre les données sur les enregistrements de l'État de Californie et crée un fichier séquentiel au format CSV en sortie.
Cliquez sur l'icône d'agrandissement
et l'icône de réduction
dans la barre d'outils pour définir votre vue préférée de la toile.
Cliquez deux fois sur le noeud MORTGAGE_APPLICATIONS_1 pour afficher les paramètres.
Développez la section Propriétés.
Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données comprend les informations saisies dans une demande de prêt hypothécaire.
Cliquez sur Fermer.
Cliquez deux fois sur le noeud MORTGAGE_APPLICANTS_1 pour afficher les paramètres.
Développez la section Propriétés.
Faites défiler vers le bas, puis cliquez sur Prévisualiser les données. Cet ensemble de données comprend des informations sur les demandeurs de prêts hypothécaires qui ont déposé une demande de prêt.
Facultatif : Visualisez les données.
Cliquez sur le panneau Graphique.
Dans la liste des colonnes à visualiser, sélectionnez ÉTAT.
Cliquez sur Visualiser les données pour afficher un diagramme circulaire montrant la répartition des données par État.
Dans la section Type de graphique, cliquez sur l'icône Treemap pour afficher les mêmes données dans un graphique treemap.
Cliquez sur Fermer.
Double-cliquez sur le nœud Join_on_ID pour afficher les paramètres.
Développez la section Propriétés.
Notez que la clé de jointure est la colonne ID.

Cliquez sur Annuler pour fermer les paramètres.
Cliquez sur l'icône
Journaux dans la barre d'outils pour suivre la progression du flux.Cliquez sur Compiler, puis sur Exécuter. Vous pouvez également cliquer sur Exécuter, ce qui compile et exécute le flux DataStage. La course peut durer environ une minute.
Consulter les journaux. Vous pouvez utiliser le nombre total de lignes et le nombre de lignes/seconde pour chaque étape du flux afin de vérifier visuellement que le filtre fonctionne comme prévu.
Une fois l'exécution terminée, cliquez sur Intégration des données dans le chemin de navigation pour revenir au projet.

Dans l'onglet Actifs, cliquez sur Données > Actifs de données.
Ouvrir le MORTGAGE_DATA.CSV fichier. Vous pouvez constater que ce fichier contient les colonnes des ensembles de données des demandeurs d'hypothèque et des demandes d'hypothèque.
Vérifiez vos progrès
L'image suivante montre le fichier CSV résultant. La tâche suivante consiste à modifier le flux DataStage.

Vue d'ensemble : Modifier le flux DataStage
Maintenant que vous avez joint les données du demandeur d'hypothèque et de la demande, vous êtes prêt à modifier le flux DataStage :
- Tâche 2 : Spécifier une colonne clé pour l'étape Join.
- Tâche 3 : Ajouter des données de score de crédit à partir d'une base de données PostgreSQL.
- Tâche 4 : Ajouter une étape de jointure pour joindre les données du score de crédit aux données du demandeur et de la demande.
- Tâche 5 : Ajouter une étape Transformateur pour calculer la dette totale.
- Tâche 6 : Ajouter des données sur les taux d'intérêt à partir d'une base de données MongoDB.
- Tâche 7 : Ajouter une étape de recherche pour rechercher les taux d'intérêt pour les demandeurs en fonction de leurs scores de crédit et des fourchettes de taux d'intérêt quotidiens de la Golden Bank.
Tâche 2 : Spécifier la colonne clé pour l'étape Join
L'identification d'une colonne clé indique à DataStage que cette colonne contient des valeurs uniques. Le nœud Join_on_ID joint les ensembles de données des demandeurs d'hypothèque et des demandes d'hypothèque en utilisant la colonne ID comme clé de jointure. La phase suivante consiste à joindre l'ensemble de données ainsi obtenu aux données relatives au score de crédit. Plus tard, vous joindrez les données filtrées qui en résultent à l'ensemble des données relatives à la solvabilité. La deuxième jointure utilisera la colonne EMAIL_ADDRESS comme clé de jointure. Dans cette tâche, vous modifiez le flux DataStage pour spécifier la colonne EMAIL_ADDRESS comme colonne clé pour l'ensemble de données résultant lorsqu'il est joint aux données de score de crédit.
Procédez comme suit pour modifier les paramètres du nœud Join :
Cliquez sur Intégration des données dans le chemin de navigation pour revenir au projet.

Dans l'onglet Actifs, cliquez sur Flux > DataStage flux.
Ouvrez le flux d' intégration de données.
Cliquez deux fois sur le noeud ID_joint_joint_joint_jointes pour modifier les paramètres.
Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
Cliquez sur le bouton Editer.
Pour le nom de colonne EMAIL_ADDRESS, sélectionnez Clé.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_on_ID.
Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_on_ID.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'étape Join_on_id modifiée. Maintenant que vous avez identifié la colonne EMAIL_ADDRESS comme étant la colonne clé, vous pouvez ajouter les données PostgreSQL contenant les scores de crédit des candidats.

Tâche 3 : Ajouter des données de solvabilité à partir d'une base de données PostgreSQL
Procédez comme suit pour ajouter au flux DataStage les données relatives à l'évaluation du crédit qui sont stockées dans une base de données PostgreSQL :
Dans la palette de nœuds, développez la section Connecteurs.
Faites glisser le connecteur du navigateur d'actifs sur le canevas à côté du nœud MORTGAGE_APPLICANTS_1 nœud.
Localisez l'actif en sélectionnant Connection > Data Fabric Trial - Databases for PostgreSQL > BANKING > CREDIT_SCORE.
Remarque : cliquez sur le nom de la connexion ou du schéma au lieu de la case à cocher pour développer la connexion et le schéma.
Cliquez sur l'icône
Aperçu pour prévisualiser les données relatives à la cote de crédit de chaque candidat.
Cliquez sur Ajouter.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'ajout de l'actif "credit score". Maintenant que vous avez ajouté les données de solvabilité au canevas, vous devez relier les données du demandeur, de la demande et de la solvabilité.

Tâche 4 : ajouter une étape de jonction pour relier les données relatives à la cote de crédit aux données relatives au demandeur et à la demande
Suivez les étapes suivantes pour ajouter une autre étape de jointure afin de joindre les données filtrées de la demande de prêt hypothécaire et du demandeur de prêt hypothécaire aux données du pointage de crédit dans le flux DataStage :
Dans la palette de nœuds, développez la section Étapes.
Faites glisser l'étape Join sur le canevas et déposez le nœud sur la ligne de liaison entre les nœuds Filter_State_Code et Sequential_file_1 et le nœud
Survolez le connecteur CREDIT_SCORE_1 pour afficher la flèche. Connectez la flèche à l'étape de Jointure.
Cliquez deux fois sur le noeud CREDIT_SCORE_1 pour modifier les paramètres.
Cliquez sur l'onglet Sortie et développez la section Colonnes pour afficher la liste des colonnes du fichier joint.
Cliquez sur le bouton Editer.
Pour les noms de colonne EMAIL_ADDRESS et CREDIT_SCORE, sélectionnez Clé.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud CREDIT_SCORE_1.
Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud CREDIT_SCORE_1.
Cliquez deux fois sur le noeud Join_1 pour modifier les paramètres.
Développez la section Propriétés.
Cliquez sur Ajouter une clé.
Cliquez à nouveau sur Ajouter une clé.
Sélectionnez EMAIL_ADDRESS dans la liste des clés possibles.
Cliquez sur Appliquer.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Join_1 .
Remplacez le nom du noeud Join_1 par
Join_on_email.Cliquez sur Sauvegarder pour enregistrer les paramètres du noeud Join_1.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'ajout d'un deuxième étage Join. Maintenant que vous avez joint les données relatives à la demande, au demandeur et à la cote de crédit, vous devez ajouter une étape de transformation pour calculer l'endettement total de chaque demandeur.

Tâche 5 : Ajouter une étape de transformation pour calculer la dette totale
Cliquez sur Appliquer et renvoyer pour revenir à la page de transformateur.
Pour le nom de la colonne CREDIT_SCORE, sélectionnez Clé.
Cliquez sur l'onglet Stage.
Sélectionnez la page Avancé.
Modifier le mode d'exécution en mode séquentiel.
Cliquez sur Enregistrer et renvoyer pour revenir au canevas.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'étape Transformer ajoutée. Maintenant que vous avez calculé la dette totale de chaque candidat, vous devez ajouter le tableau des taux d'intérêt à proposer en fonction des fourchettes de score de crédit.

Tâche 6 : Ajouter des données sur les taux d'intérêt à partir d'une base de données MongoDB
Suivez ces étapes pour inclure les taux d'intérêt dans le flux en ajoutant un connecteur de ressources de données à une base de données MongoDB :
Dans la palette de nœuds, développez la section Connecteurs.
Faites glisser le connecteur Navigateur d'actifs sur la grille à coté du noeud CREDIT_SCORE_1.
Localisez l'actif en sélectionnant Connection > Data Fabric Trial - Mongo DB > DOCUMENT > DS_INTEREST_RATES.
Cliquez sur l'icône
Aperçu pour obtenir un aperçu des taux d'intérêt pour chaque fourchette de cote de crédit.

Vous pouvez utiliser les valeurs des colonnes STARTING_LIMIT et ENDING_LIMIT pour rechercher le taux d'intérêt approprié en fonction de la cote de crédit du demandeur. La colonne ID n'est pas nécessaire, vous devez donc supprimer cette colonne à l'étape suivante.Cliquez sur Ajouter.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'actif de données sur les taux d'intérêt ajouté à partir de la source externe MongoDB. Maintenant que vous avez ajouté le tableau des taux d'intérêt, vous pouvez rechercher le taux d'intérêt approprié pour chaque demandeur.

Tâche 7 : Ajouter une étape de recherche pour consulter les taux d'intérêt des demandeurs
En fonction du score de crédit de chaque demandeur, vous devez rechercher le taux d'intérêt approprié. Suivez les étapes suivantes pour ajouter une étape de recherche et spécifier la fourchette des limites de début et de fin de la cote de crédit pour chaque taux d'intérêt :
Dans la section Stages, faites glisser le stage Lookup sur le canevas, et déposez le nœud sur la ligne de liaison entre les symboles Transformer_1 et Sequential_file_1 sur la ligne de liaison.
Connectez le connecteur DS_INTEREST_RATES_1 à l'étape Lookup_1.
Cliquez deux fois sur le noeud DS_INTEREST_RATES_1 pour modifier les paramètres.
Cliquez sur l'onglet Sortie.
Développez la section Colonnes et cliquez sur Éditer.
Sélectionnez la colonne _ID.
Cliquez sur l'icône Supprimer
pour supprimer la colonne _ID.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud DS_INTEREST_RATES_1.
Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud DS_INTEREST_RATES_1.
Cliquez deux fois sur le noeud Lookup_1 pour modifier les paramètres.
Développez la section Propriétés.
Dans la zone Appliquer la plage aux colonnes, sélectionnez CREDIT_SCORE. Les champs des colonnes Liens de référence, Opérateur et Plage s'affichent.
Pour les liens de référence, sélectionnez Link_9.
Note : Votre numéro de lien peut être différent.Pour le premier opérateur, sélectionnez <=.
Pour la première Colonne de plage, sélectionnez ENDING_LIMIT.
Pour le deuxième opérateur, sélectionnez >=.
Pour la seconde colonne de plage, sélectionnez STARTING_LIMIT.
Cliquez sur l'onglet Sortie.
Développez la section Colonnes et cliquez sur Éditer.
Sélectionnez les colonnes STARTING_LIMIT et ENDING_LIMIT.
Cliquez sur l'icône Supprimer
pour supprimer ces colonnes STARTING_LIMIT et ENDING_LIMIT inutiles.
Cliquez sur Appliquer et renvoyer pour revenir aux paramètres du noeud Lookup_1.
Cliquez sur Sauvegarder pour enregistrer les modifications apportées au noeud Lookup_1.
Vérifiez vos progrès
L'image suivante montre le flux DataStage avec l'étape Lookup ajoutée. Le flux DataStage est maintenant terminé. La dernière tâche avant l'exécution du flux consiste à spécifier le nom du fichier de sortie.

Tâche 8 : Modifier le nœud Fichier séquentiel et exécuter le flux DataStage
Suivez ces étapes pour modifier le nœud Sequential file afin de créer un fichier de sortie final en tant que ressource de données dans le projet, puis compilez et exécutez le flux DataStage :
Cliquez deux fois sur le noeud Sequential_file_1 pour modifier les paramètres.
Cliquez sur l'onglet Entrée.
Développez la section Propriétés.
Pour le fichier cible, copiez et collez
MORTGAGE_APPLICANTS_INTEREST_RATES.CSVcomme nom de fichier.Sélectionnez Créer un actif de données.
Dans le champ Première ligne est le nom des colonnes, sélectionnez Vrai.
Cliquez sur Sauvegarder.
Cliquez sur Exécuter, ce qui compile et exécute le flux DataStage. L'opération dure environ 1 minute.
Cliquez sur Logs dans la barre d'outils pour suivre la progression du flux. Il est normal de voir des avertissements pendant l'exécution, puis de constater que le flux s'est déroulé avec succès.
Vérifiez vos progrès
L'image suivante montre que le flux DataStage a été exécuté avec succès.

Nettoyage (facultatif)
Si vous souhaitez reprendre les tutoriels du cas d'utilisation Intégration de données, supprimez les artefacts suivants.
| Artefact | Comment supprimer |
|---|---|
| Exemple de projet d'intégration de données | Supprimer un projet |
Etapes suivantes
Essayez d'autres tutoriels :
Voir un autre cas d'utilisation de l'intégration de données.