Lorsque le GCDO a commencé son parcours de données et d’IA, la solution IBM Cloud Pak for Data n’existait pas. Si la CEDP a permis des avancées significatives, le développement de la solution IBM Cloud Pak for Data a offert au GCDO l’avantage du terrain pour amener sa propre plateforme au niveau supérieur.
En tant que suite de services et d’extensions pouvant être utilisés selon les besoins, la solution IBM Cloud Pak for Data a donné au GCDO la flexibilité nécessaire pour se moderniser par étapes et commencer par les besoins les plus élevés. Il n’y avait pas d’ordre prescriptif d’adoption ou de déploiement.
Le GCDO a commencé à utiliser la suite de services d’IA de la solution IBM Cloud Pak for Data, y compris la solution IBM Watson Studio. La technologie IBM Watson Studio fonctionne sur site et dans le cloud, en analysant les données dans la solution IBM Db2 Big SQL. Les détails de cette partie du parcours de modernisation du GCDO sont décrits dans cette étude de cas.
Pour l’étape suivante du parcours, le GCDO s’est tourné vers la technologie DataStage pour augmenter considérablement la vitesse d’ingestion de grandes quantités de données avec stabilité et précision.
« Après plusieurs mois d’installation de serveurs, d’établissement de connexions aux bases de données, de configuration d’essais et d’erreurs et d’auto-apprentissage, la réplication d’une table de 60 millions d’enregistrements prenait encore trois jours », explique Frank Duffy, chef de projet senior, GCDO Master Data. « D’après ces statistiques, nous estimions que la simple migration des données d’une vingtaine de grandes tables nous prendrait en tout 60 jours. »
L’équipe Data Movement du GCDO a testé les performances de la technologie DataStage et Spark dans l’exécution de cas d’utilisation courants de charge de données. Dans plus de 75 % des cas, ils ont obtenu de meilleures performances avec la technologie DataStage qu’avec technologie Spark. Les 25 % restants présentaient des résultats équivalents.
Au-delà des performances, les autres points forts de la solution DataStage ont fini de convaincre le GCDO :
- Intégration à l’écosystème IBM Cloud Pak for Data, notamment IBM Watson Knowledge Catalog et la traçabilité des données
- Étendue des sources, cibles et étapes intermédiaires prises en charge qui répondaient aux besoins en cours et à venir
- Étapes personnalisées pour encapsuler les besoins en unités réutilisables si nécessaire
- Fonctionnalités adaptées à une approche basée sur des modèles
La solution IBM Cloud Pak for Data s’harmonise avec plusieurs sources de données sectorielles qu’elle adapte en permanence pour répondre aux exigences des nouvelles technologies. La solution DataStage for IBM Cloud Pak for Data est fournie avec un large éventail de connecteurs sectoriels, représentant la plupart des entrepôts de données avec lesquels les membres du GCDO souhaitaient travailler. Grâce à ces connecteurs, le GCDO pouvait fonctionner avec ces différents formats et systèmes de stockage sans avoir à écrire de code.
En l’absence de connecteur déjà disponible, des connecteurs personnalisés pouvaient être développés, déployés et placés sur le canevas de données.
La solution DataStage for IBM Cloud Pak for Data offre également une fonctionnalité de propagation des colonnes d’exécution, qui a séduit les ingénieurs du GCDO en permettant une approche basée sur les modèles de déplacement de données. En traduisant les modèles courants de transfert de données sous forme de tâches, le GCDO a intensifié ses opérations pour prendre en charge des milliers de tables sans avoir à augmenter ses effectifs.
« Grâce à la fonctionnalité de modèle DataStage for IBM Cloud Pak for Data, nous avons pu configurer une seule tâche et l’exécuter de mille façons différentes », explique Rick McCall, responsable technique GCDO pour l’outil Data Movement. « Dans certains cas, nous avions plus de 8 000 tâches (des pages et des pages) qui pouvaient être associées à un seul modèle et exécutées comme une tâche unique. Autrement dit, un seul jeu de code, des performances optimisées et un contrôle de la source, le tout regroupé dans une solution ultra-rapide et extrêmement fiable. »
Un autre avantage de la solution DataStage for IBM Cloud Pak for Data est son intégration fluide à RedHat OpenShift. De plus, les utilisateurs peuvent créer des workflows personnalisés à l’aide d’API si nécessaire.
« DataStage for IBM Cloud Pak for Data a changé la donne pour notre ingestion de données », déclare Peter Herr, responsable mondial des données de référence client. « Face aux contraintes du système existant, notre équipe avait tout essayé et se trouvait toujours dans l’impasse pour accomplir de manière acceptable la migration nécessaire d’une quantité énorme de données. Lorsque Rick et son équipe nous ont montré la vitesse et la puissance de DataStage, nous sommes devenus productifs en quelques semaines au lieu de plusieurs mois. »