Quando il GCDO ha iniziato il suo percorso verso i dati e l'AI, la soluzione IBM Cloud Pak for Data non esisteva. Sebbene la CEDP abbia favorito un avanzamento significativo, lo sviluppo della soluzione IBM Cloud Pak for Data ha dato al GCDO un vantaggio sul campo per portare la propria piattaforma al livello successivo.
Essendo una suite di servizi ed estensioni che può essere utilizzata secondo necessità, la soluzione IBM Cloud Pak for Data ha fornito al GCDO la flessibilità necessaria per modernizzarsi in più fasi e iniziare prima con le esigenze più elevate. Non esisteva un ordine prescrittivo di adozione o implementazione.
Il GCDO ha iniziato a utilizzare per la prima volta la suite di servizi AI all'interno della soluzione IBM Cloud Pak for Data, compresa la soluzione IBM Watson Studio. La tecnologia IBM Watson Studio viene eseguita on-premise e nel cloud, analizzando i dati nella soluzione IBM Db2 Big SQL. I dettagli di questa parte del percorso di modernizzazione di GCDO sono descritti in questo case study.
Per la fase successiva del percorso, il GCDO si è avvalso della tecnologia DataStage per aumentare drasticamente la velocità di inserimento di grandi quantità di dati con stabilità e precisione.
"Dopo diversi mesi di configurazione dei server, di connessioni al database, di configurazione per tentativi ed errori e di autoapprendimento, la replica di una tabella da 60 milioni di record richiederebbe ancora tre giorni", afferma Frank Duffy, Senior Project Manager di GCDO Master Data. "Guardando queste statistiche, con circa 20 tabelle di grandi dimensioni da completare, pensavamo che ci sarebbero voluti altri 60 giorni solo per migrare i dati".
Il team Data Movement di GCDO ha testato le prestazioni della tecnologia DataStage e Spark nell'esecuzione di casi d'uso comuni del carico di dati. In oltre il 75% dei casi, hanno ottenuto prestazioni migliori con la tecnologia DataStage rispetto alla tecnologia Spark. Per il restante 25%, i risultati sono stati molto simili.
Oltre alle prestazioni, i fattori che hanno attratto GCDO verso la soluzione DataStage sono stati:
- Integrazione con l'ecosistema IBM Cloud Pak for Data, in particolare correlato a IBM Watson Knowledge Catalog e al data lineage
- Ampia gamma di fonti, obiettivi e fasi intermedie supportati che soddisfacevano le esigenze attuali e future
- Fasi personalizzate per incapsulare le esigenze in unità riutilizzabili quando necessario
- Funzionalità che supportavano un approccio basato su modelli
La soluzione IBM Cloud Pak for Data è allineata con diverse fonti di dati del settore ed è in costante evoluzione per soddisfare le nuove tecnologie. La soluzione DataStage per IBM Cloud Pak for Data viene fornita in pacchetti con un ampio inventario di connettori di settore, che rappresentano la maggior parte degli storage dei dati con cui gli utenti GCDO volevano lavorare. Questi connettori hanno consentito al GCDO di funzionare con questi diversi formati e sistemi di storage senza la necessità di scrivere alcun codice.
Nei casi in cui un connettore non fosse già disponibile, i connettori personalizzati potevano essere sviluppati, implementati e inseriti nell'area di disegno.
La soluzione DataStage per IBM Cloud Pak for Data offre anche la funzionalità Runtime Column Propagation che ha attirato l'interesse dei tecnici GCDO perché consentiva un approccio basato su modelli allo spostamento dei dati. Esprimendo i modelli comuni di spostamento dei dati come lavori, il GCDO ha scalato le operazioni per supportare migliaia di tabelle senza dover aumentare il personale.
"La funzionalità DataStage per IBM Cloud Pak for Data pattern ci ha consentito di avere un unico lavoro che poteva essere eseguito in migliaia di modi", afferma Rick McCall, GCDO Technical Lead per il Data Movement Tool. "In alcuni casi, avevamo più di 8.000 lavori — pagine e pagine — che potevano essere associati a un singolo modello ed eseguiti come un unico lavoro. Ciò significa un set di codice, prestazioni ottimizzate e controllo del codice racchiusi in un'unica soluzione super veloce e super affidabile".
Un altro vantaggio della soluzione DataStage per IBM Cloud Pak for Data è che si integra perfettamente con RedHat OpenShift. Offre inoltre il supporto API in modo che gli utenti possano creare workflow personalizzati in base ad esso, se necessario.
"DataStage per IBM Cloud Pak for Data ha rappresentato un punto di svolta per la data ingestion", afferma Peter Herr, Global Leader for Client Master Data. "Il nostro team aveva provato di tutto entro i limiti del nostro sistema esistente ed era ancora in un vicolo cieco per realizzare in modo accettabile l'enorme quantità di migrazione dei dati di cui avevamo bisogno. Quando Rick e il team ci hanno mostrato la velocità e la potenza di DataStage, siamo stati produttivi nel giro di poche settimane anziché mesi".