IBM, Chief data office

Dans une étude de cas précédente, nous avons expliqué comment le Global Chief Data Office (GCDO) d’IBM a relevé le défi bien connu de la dispersion des données au sein de l’entreprise, et comment, en l’absence de plateforme disponible sur le marché, il a développé la Cognitive Enterprise Data Platform (CEDP) en tant que source centrale de données gouvernées permettant aux utilisateurs de charger, de transformer et d’analyser les données d’entreprise. Ce cas d’utilisation poursuit le récit de notre modernisation de la CEDP en tirant parti de la solution IBM Cloud Pak for Data.

Le thème central est cette fois le déplacement de données.

Le problème était clair. De grandes quantités de données devaient être ingérées dans notre plateforme unifiée, et cela allait prendre des mois.

Les chargements de données initiaux (IDL) répliquent les données d’un système à un autre à l’aide de Change Data Capture (CDC). Le CDC augmente l’efficacité car après le premier transfert, seules les données modifiées doivent être déplacées.

En tant que premier transfert, les IDL représentent généralement une énorme quantité de données, et les tables que le GCDO devait charger ne faisaient pas exception : la plus grande des dizaines de tables contenait 426 millions d’enregistrements, pesant 186 Go. Dans certains cas, le chargement des ensembles de données prenait des semaines. Proche du point de rupture et bloqué dans sa progression, le GCDO avait besoin d’une nouvelle solution. Il l’a trouvée dans la solution IBM DataStage for IBM Cloud Pak for Data.

Collègues cherchant des moyens d’améliorer la productivité sur un ordinateur portable

Chargement plus rapide des données

Chargement initial des données en une fraction du temps, passant de 3 jours à 3 heures

Déplacement de données à grande échelle

Déplacement de données stable et sans erreur de centaines de tables de données avec des milliards de lignes chacune, y compris des pages de paramètres pour mettre à l’échelle une seule tâche de mille façons différentes

Après seulement quelques jours de tests très réussis, nous avons intégré DataStage for IBM Cloud Pak for Data ... Les IDL de 60 millions d’enregistrements qui avaient pris trois jours ont été terminés en seulement trois heures.

Inderpal bhandari

Directeur mondial des données

IBM

Modernisation du déplacement de données

Lorsque le GCDO a commencé son parcours de données et d’IA, la solution IBM Cloud Pak for Data n’existait pas. Si la CEDP a permis des avancées significatives, le développement de la solution IBM Cloud Pak for Data a offert au GCDO l’avantage du terrain pour amener sa propre plateforme au niveau supérieur.

En tant que suite de services et d’extensions pouvant être utilisés selon les besoins, la solution IBM Cloud Pak for Data a donné au GCDO la flexibilité nécessaire pour se moderniser par étapes et commencer par les besoins les plus élevés. Il n’y avait pas d’ordre prescriptif d’adoption ou de déploiement.

Le GCDO a commencé à utiliser la suite de services d’IA de la solution IBM Cloud Pak for Data, y compris la solution IBM Watson Studio. La technologie IBM Watson Studio fonctionne sur site et dans le cloud, en analysant les données dans la solution IBM Db2 Big SQL. Les détails de cette partie du parcours de modernisation du GCDO sont décrits dans cette étude de cas.

Pour l’étape suivante du parcours, le GCDO s’est tourné vers la technologie DataStage pour augmenter considérablement la vitesse d’ingestion de grandes quantités de données avec stabilité et précision.

« Après plusieurs mois d’installation de serveurs, d’établissement de connexions aux bases de données, de configuration d’essais et d’erreurs et d’auto-apprentissage, la réplication d’une table de 60 millions d’enregistrements prenait encore trois jours », explique Frank Duffy, chef de projet senior, GCDO Master Data. « D’après ces statistiques, nous estimions que la simple migration des données d’une vingtaine de grandes tables nous prendrait en tout 60 jours. »

L’équipe Data Movement du GCDO a testé les performances de la technologie DataStage et Spark dans l’exécution de cas d’utilisation courants de charge de données. Dans plus de 75 % des cas, ils ont obtenu de meilleures performances avec la technologie DataStage qu’avec technologie Spark. Les 25 % restants présentaient des résultats équivalents.

Au-delà des performances, les autres points forts de la solution DataStage ont fini de convaincre le GCDO :

Intégration à l’écosystème IBM Cloud Pak for Data, notamment IBM Watson Knowledge Catalog et la traçabilité des données
Étendue des sources, cibles et étapes intermédiaires prises en charge qui répondaient aux besoins en cours et à venir
Étapes personnalisées pour encapsuler les besoins en unités réutilisables si nécessaire
Fonctionnalités adaptées à une approche basée sur des modèles

La solution IBM Cloud Pak for Data s’harmonise avec plusieurs sources de données sectorielles qu’elle adapte en permanence pour répondre aux exigences des nouvelles technologies. La solution DataStage for IBM Cloud Pak for Data est fournie avec un large éventail de connecteurs sectoriels, représentant la plupart des entrepôts de données avec lesquels les membres du GCDO souhaitaient travailler. Grâce à ces connecteurs, le GCDO pouvait fonctionner avec ces différents formats et systèmes de stockage sans avoir à écrire de code.

En l’absence de connecteur déjà disponible, des connecteurs personnalisés pouvaient être développés, déployés et placés sur le canevas de données.

La solution DataStage for IBM Cloud Pak for Data offre également une fonctionnalité de propagation des colonnes d’exécution, qui a séduit les ingénieurs du GCDO en permettant une approche basée sur les modèles de déplacement de données. En traduisant les modèles courants de transfert de données sous forme de tâches, le GCDO a intensifié ses opérations pour prendre en charge des milliers de tables sans avoir à augmenter ses effectifs.

« Grâce à la fonctionnalité de modèle DataStage for IBM Cloud Pak for Data, nous avons pu configurer une seule tâche et l’exécuter de mille façons différentes », explique Rick McCall, responsable technique GCDO pour l’outil Data Movement. « Dans certains cas, nous avions plus de 8 000 tâches (des pages et des pages) qui pouvaient être associées à un seul modèle et exécutées comme une tâche unique. Autrement dit, un seul jeu de code, des performances optimisées et un contrôle de la source, le tout regroupé dans une solution ultra-rapide et extrêmement fiable. »

Un autre avantage de la solution DataStage for IBM Cloud Pak for Data est son intégration fluide à RedHat OpenShift. De plus, les utilisateurs peuvent créer des workflows personnalisés à l’aide d’API si nécessaire.

« DataStage for IBM Cloud Pak for Data a changé la donne pour notre ingestion de données », déclare Peter Herr, responsable mondial des données de référence client. « Face aux contraintes du système existant, notre équipe avait tout essayé et se trouvait toujours dans l’impasse pour accomplir de manière acceptable la migration nécessaire d’une quantité énorme de données. Lorsque Rick et son équipe nous ont montré la vitesse et la puissance de DataStage, nous sommes devenus productifs en quelques semaines au lieu de plusieurs mois. »

DataStage for IBM Cloud Pak for Data a changé la donne pour l’ingestion de nos données. L’équipe avait tout essayé dans le cadre des contraintes de notre système existant et se trouvait toujours dans l’impasse pour réaliser de manière acceptable la migration nécessaire d’une quantité énorme de données. Lorsque Rick et son équipe nous ont montré la vitesse et la puissance de DataStage, nous sommes devenus productifs en quelques semaines au lieu de plusieurs mois.

Peter Herr

Responsable mondial des données de référence client

IBM Global Chief Data Office

De la plateforme à la confidentialité

Une fois la solution DataStage for IBM Cloud Pak for Data choisie par le GCDO, des résultats positifs ont rapidement suivi. Au cours de la phase pilote seule, d’énormes tables avec des milliards de lignes ont été chargées en quelques heures au lieu de plusieurs jours. Les tables plus petites ont été migrées en quelques minutes. De plus, quelle que soit la taille de la table, l’intégration des données s’est effectuée sans erreur et de façon extrêmement stable.

« Inutile de dire que DataStage a été une aubaine pour sauver notre effort de migration de données et nous faire passer d’une situation bloquée à un état prêt pour la production en l’espace de quelques semaines », commente Frank Duffy.

« IBM Cloud Pak for Data continue de faire progresser CEDP », déclare Inderpal Bhandari, directeur mondial des données chez IBM. « DataStage for IBM Cloud Pak for Data comme moteur de notre stratégie de déplacement des données nous a permis de gagner littéralement des semaines et d’apporter des niveaux d’efficacité et de flexibilité inédits à nos utilisateurs. Ensuite, notre intention est de tirer parti d’IBM Cloud Pak for Data pour développer nos fonctionnalités de confidentialité des données à l’échelle de l’entreprise. »

Le GCDO s’associe au Chief Privacy Office d’IBM pour créer le moteur permettant d’alimenter un système cloud hybride de bout en bout qui améliorera considérablement l’efficacité de notre conformité réglementaire. La feuille de route actuelle pour les fonctionnalités de confidentialité comprend Watson Knowledge Catalog, IBM Knowledge Accelerators et IBM OpenPages with Watson intégrés à la solution IBM Cloud Pak for Data.

Découvrir des solutions pour vous aider à éliminer les silos de données

À propos du Global Chief Data Office d’IBM

Le Global Chief Data Office d’IBM développe des stratégies et des plateformes de données qui incluent des systèmes de gouvernance et de gestion, le deep data et des partenariats analytiques. La stratégie transforme les données commerciales en valeur ajoutée. Ces plateformes deviennent la source de données centrale pour l’analyse commerciale dans l’ensemble de l’entreprise et pour le développement et l’évolution des talents. Ensemble, ces capacités innovantes utilisent des informations analytiques pour favoriser la croissance et la productivité.

Composants de la solution

IBM Cloud Pak for Data

IBM DataStage for IBM Cloud Pak for Data

Accélérateurs de connaissances d'IBM

IBM OpenPages with Watson

IBM Watson Knowledge Catalog

Passez à l’étape suivante

Pour recevoir une sélection de contenus traitant des récentes avancées dans les domaines de la technologie, de l’entreprise ou du leadership, abonnez-vous pour recevoir notre newsletter.

Recevez le meilleur d’IBM par e-mail

Des avantages commerciaux grâce à une plateforme unifiée de données et d'IA

Étude de cas

Notes de bas de page

Produit aux Etats-Unis, mars 2022.

IBM, le logo IBM, ibm.com, DataStage, Db2, IBM Cloud Pak, OpenPages et IBM Watson sont des marques d’International Business Machines Corp., déposées dans de nombreux pays. Les autres noms de produits et de services peuvent être des marques d’IBM ou d’autres sociétés. La liste actualisée de toutes les marques d’IBM est disponible sur la page Web « Copyright and trademark information » à l’adresse https://www.ibm.com/fr-fr/legal/copyright-trademark.

Red Hat et OpenShift sont des marques ou des marques déposées de Red Hat, Inc. ou de ses filiales aux États-Unis et dans d’autres pays.

Les informations contenues dans le présent document étaient à jour à la date de sa publication initiale. Elles peuvent être modifiées sans préavis par IBM. Les offres mentionnées dans le présent document ne sont pas toutes disponibles dans tous les pays où la société IBM est présente.

Les données de performance et les exemples de clients cités sont présentés à titre informatif uniquement. Les résultats des performances peuvent varier en fonction des configurations et des conditions de fonctionnement. LES INFORMATIONS CONTENUES DANS LE PRÉSENT DOCUMENT SONT FOURNIES « EN L’ÉTAT », SANS AUCUNE GARANTIE EXPLICITE OU IMPLICITE, NOTAMMENT SANS AUCUNE GARANTIE DE QUALITÉ MARCHANDE, D’ADÉQUATION À UN USAGE PARTICULIER ET AUCUNE GARANTIE OU CONDITION D’ABSENCE DE CONTREFAÇON. Les produits IBM sont garantis conformément aux dispositions des contrats qui régissent leur utilisation.

Il incombe au client de respecter les lois et réglementations qui lui sont applicables. IBM ne fournit pas de conseils juridiques et ne déclare ni ne garantit que ses services ou produits garantiront que le client est en conformité avec la législation ou la réglementation en vigueur.

Augmentation spectaculaire de la vitesse de migration des données

Chargement plus rapide des données

Déplacement de données à grande échelle

Notes de bas de page