Velocità di migrazione dei dati notevolmente aumentata
Il Chief Data Office di IBM modernizza lo spostamento dei dati con IBM DataStage
Colleghi che risolvono insieme i problemi al computer

In un precedente case study, abbiamo raccontato come il Global Chief Data Office (GCDO) di IBM ha affrontato la sfida fin troppo nota dei dati dispersi in tutta l'azienda e come — senza una piattaforma disponibile in commercio — ha sviluppato la Cognitive Enterprise Data Platform (CEDP) come fonte centrale di dati governati per consentire agli utenti di caricare, trasformare e analizzare i dati aziendali. Questo caso d'uso continua la nostra storia della modernizzazione della CEDP sfruttando la soluzione IBM Cloud Pak for Data.

Questa volta è tutta una questione di spostamento dei dati.

Il punto critico era chiaro. Grandi quantità di dati dovevano essere acquisite nella nostra piattaforma unificata e ci sarebbero voluti mesi per completare l'operazione.

Gli Initial Data Loads (IDL) replicano i dati da un sistema all'altro utilizzando Change Data Capture (CDC). CDC aumenta l'efficienza perché dopo il primo trasferimento devono essere spostati solo i dati modificati.

Come primo trasferimento, gli IDL sono di solito un'enorme quantità di dati e le tabelle che il GCDO doveva caricare non facevano eccezione: la più grande delle decine di tabelle conteneva 426 milioni di record, con un peso di 186 GB. In alcuni casi, il caricamento dei set di dati richiedeva settimane. Avvicinandosi al punto di rottura e sostanzialmente bloccato nella progressione, il GCDO aveva bisogno di una nuova soluzione. Questa è stata trovata nella soluzione IBM® DataStage per IBM Cloud Pak for Data.

Caricamento dati più rapido

 

Caricamento iniziale dei dati in molto meno tempo, da 3 giorni a 3 ore

Spostamento dei dati su larga scala

 

Spostamento di dati stabile e senza errori di centinaia di tabelle di dati con miliardi di righe ciascuna, incluse le pagine di parametri per scalare un singolo lavoro in migliaia di modi

Dopo solo pochi giorni di test conclusi con grandi risultati, abbiamo incorporato DataStage per IBM Cloud Pak for Data... Gli IDL di 60 milioni di record che avevano richiesto tre giorni sono stati completati in circa tre ore. Inderpal Bhandari Global Chief Data Officer IBM
Modernizzare lo spostamento dei dati

Quando il GCDO ha iniziato il suo percorso verso i dati e l'AI, la soluzione IBM Cloud Pak for Data non esisteva. Sebbene la CEDP abbia favorito un avanzamento significativo, lo sviluppo della soluzione IBM Cloud Pak for Data ha dato al GCDO un vantaggio sul campo per portare la propria piattaforma al livello successivo.

Essendo una suite di servizi ed estensioni che può essere utilizzata secondo necessità, la soluzione IBM Cloud Pak for Data ha fornito al GCDO la flessibilità necessaria per modernizzarsi in più fasi e iniziare prima con le esigenze più elevate. Non esisteva un ordine prescrittivo di adozione o implementazione.

Il GCDO ha iniziato a utilizzare per la prima volta la suite di servizi AI all'interno della soluzione IBM Cloud Pak for Data, compresa la soluzione IBM Watson Studio. La tecnologia IBM Watson Studio viene eseguita on-premise e nel cloud, analizzando i dati nella soluzione IBM Db2 Big SQL. I dettagli di questa parte del percorso di modernizzazione di GCDO sono descritti in questo case study.

Per la fase successiva del percorso, il GCDO si è avvalso della tecnologia DataStage per aumentare drasticamente la velocità di inserimento di grandi quantità di dati con stabilità e precisione.

"Dopo diversi mesi di configurazione dei server, di connessioni al database, di configurazione per tentativi ed errori e di autoapprendimento, la replica di una tabella da 60 milioni di record richiederebbe ancora tre giorni", afferma Frank Duffy, Senior Project Manager di GCDO Master Data. "Guardando queste statistiche, con circa 20 tabelle di grandi dimensioni da completare, pensavamo che ci sarebbero voluti altri 60 giorni solo per migrare i dati".

Il team Data Movement di GCDO ha testato le prestazioni della tecnologia DataStage e Spark nell'esecuzione di casi d'uso comuni del carico di dati. In oltre il 75% dei casi, hanno ottenuto prestazioni migliori con la tecnologia DataStage rispetto alla tecnologia Spark. Per il restante 25%, i risultati sono stati molto simili.

Oltre alle prestazioni, i fattori che hanno attratto GCDO verso la soluzione DataStage sono stati:

 

 

  • Integrazione con l'ecosistema IBM Cloud Pak for Data, in particolare correlato a IBM Watson Knowledge Catalog e al data lineage
  • Ampia gamma di fonti, obiettivi e fasi intermedie supportati che soddisfacevano le esigenze attuali e future
  • Fasi personalizzate per incapsulare le esigenze in unità riutilizzabili quando necessario
  • Funzionalità che supportavano un approccio basato su modelli
  •  

    La soluzione IBM Cloud Pak for Data è allineata con diverse fonti di dati del settore ed è in costante evoluzione per soddisfare le nuove tecnologie. La soluzione DataStage per IBM Cloud Pak for Data viene fornita in pacchetti con un ampio inventario di connettori di settore, che rappresentano la maggior parte degli storage dei dati con cui gli utenti GCDO volevano lavorare. Questi connettori hanno consentito al GCDO di funzionare con questi diversi formati e sistemi di storage senza la necessità di scrivere alcun codice.

    Nei casi in cui un connettore non fosse già disponibile, i connettori personalizzati potevano essere sviluppati, implementati e inseriti nell'area di disegno.

    La soluzione DataStage per IBM Cloud Pak for Data offre anche la funzionalità Runtime Column Propagation che ha attirato l'interesse dei tecnici GCDO perché consentiva un approccio basato su modelli allo spostamento dei dati. Esprimendo i modelli comuni di spostamento dei dati come lavori, il GCDO ha scalato le operazioni per supportare migliaia di tabelle senza dover aumentare il personale.

    "La funzionalità DataStage per IBM Cloud Pak for Data pattern ci ha consentito di avere un unico lavoro che poteva essere eseguito in migliaia di modi", afferma Rick McCall, GCDO Technical Lead per il Data Movement Tool. "In alcuni casi, avevamo più di 8.000 lavori — pagine e pagine — che potevano essere associati a un singolo modello ed eseguiti come un unico lavoro. Ciò significa un set di codice, prestazioni ottimizzate e controllo del codice racchiusi in un'unica soluzione super veloce e super affidabile".

    Un altro vantaggio della soluzione DataStage per IBM Cloud Pak for Data è che si integra perfettamente con RedHat OpenShift. Offre inoltre il supporto API in modo che gli utenti possano creare workflow personalizzati in base ad esso, se necessario.

    "DataStage per IBM Cloud Pak for Data ha rappresentato un punto di svolta per la data ingestion", afferma Peter Herr, Global Leader for Client Master Data. "Il nostro team aveva provato di tutto entro i limiti del nostro sistema esistente ed era ancora in un vicolo cieco per realizzare in modo accettabile l'enorme quantità di migrazione dei dati di cui avevamo bisogno. Quando Rick e il team ci hanno mostrato la velocità e la potenza di DataStage, siamo stati produttivi nel giro di poche settimane anziché mesi".

    DataStage per IBM Cloud Pak for Data ha rappresentato un punto di svolta per la nostra data ingestion. Il team aveva provato di tutto entro i limiti del nostro sistema esistente ed era ancora in un vicolo cieco per realizzare in modo accettabile l'enorme quantità di migrazione dei dati di cui avevamo bisogno. Quando Rick e il team ci hanno mostrato la velocità e la potenza di DataStage, siamo stati produttivi nel giro di poche settimane anziché mesi. Peter herr Global Leader per Client Master Data IBM Global Chief Data Office
    Dalla piattaforma alla privacy

    Una volta che il GCDO ha scelto la soluzione DataStage per IBM Cloud Pak for Data, sono seguiti rapidamente risultati positivi. Solo nella fase pilota, enormi tabelle con miliardi di righe sono state caricate in ore anziché giorni. La migrazione delle tabelle più piccole è stata eseguita in pochi minuti. Inoltre, indipendentemente dalle dimensioni della tabella, la data ingestion era priva di errori e altamente stabile.

    "Inutile dire che lo spostamento dei dati basato su DataStage è stato una manna dal cielo per aiutarci a salvare il nostro sforzo di migrazione dei dati e spostarci da uno stato bloccato a uno stato pronto per la produzione nel giro di poche settimane", afferma Duffy.

    "IBM Cloud Pak for Data continua a far avanzare la CEDP", afferma Inderpal Bhandari, Global Chief Data Officer di IBM. "DataStage per IBM Cloud Pak for Data come motore della nostra strategia di spostamento dei dati ci ha fatto risparmiare letteralmente settimane di lavoro e ha portato nuovi livelli di efficienza e flessibilità nel servire i nostri utenti. Successivamente, miriamo a sfruttare IBM Cloud Pak for Data mentre sviluppiamo le nostre funzionalità di privacy a livello aziendale".

    Il GCDO sta collaborando con il Chief Privacy Office di IBM per costruire il motore di un sistema cloud ibrido end-to-end che migliorerà notevolmente l'efficienza della nostra conformità normativa. L'attuale roadmap per le funzionalità di privacy include Watson Knowledge Catalog, IBM Knowledge Accelerators e IBM OpenPages with Watson dalla soluzione IBM Cloud Pak for Data.

    Scopri le soluzioni che ti aiutano a eliminare i silos di dati

    Logo di IBM
    Informazioni sul IBM Global Chief Data Office

    L'IBM Global Chief Data Office sviluppa strategie e piattaforme per i dati che includono sistemi di governance e gestione, partnership per analisi e deep data. La strategia trasforma i dati di business in valore di business. Queste piattaforme diventano la fonte centrale di dati per l'analisi del business in tutta l'azienda e per lo sviluppo e la valorizzazione dei talenti. Insieme, queste funzionalità innovative utilizzano approfondimenti analitici per consentire crescita e produttività.

    Fasi successive
    Iscriviti alle newsletter dedicate alle ultime novità in materia di tecnologia, business e leadership di pensiero. Ricevi il meglio di IBM nella tua posta in arrivo Una piattaforma unificata di dati e AI aggiunge benefici in termini di business Case study
    Note a piè di pagina

    © Copyright IBM Corporation 2022. IBM Corporation, IBM Watson, New Orchard Road, Armonk, NY 10504

    Prodotto negli Stati Uniti d'America, marzo 2022.

    IBM, il logo IBM, ibm.com, DataStage, Db2, IBM Cloud Pak, OpenPages e IBM Watson sono marchi di International Business Machines Corp., registrati in diverse giurisdizioni del mondo. Altri nomi di prodotti e servizi potrebbero essere marchi di IBM o di altre società. Un elenco aggiornato dei marchi IBM è disponibile sul web alla pagina "Copyright and trademark information" disponibile all'indirizzo www.ibm.com/it-it/legal/copytrade.

    Red Hat® e OpenShift® sono marchi o marchi registrati di Red Hat, Inc. o delle sue società controllate negli Stati Uniti e in altri paesi.

    Le informazioni contenute nel presente documento sono aggiornate alla data della prima pubblicazione e possono essere modificate da IBM senza preavviso. Non tutte le offerte sono disponibili in ogni Paese in cui opera IBM.

    Gli esempi citati relativi a dati di prestazione e clienti sono presentati unicamente a scopo illustrativo. Gli attuali risultati in termini di performance possono variare a seconda delle specifiche configurazioni e delle condizioni operative. LE INFORMAZIONI RIPORTATE NEL PRESENTE DOCUMENTO SONO DA CONSIDERARSI “NELLO STATO IN CUI SI TROVANO”, SENZA GARANZIE, ESPLICITE O IMPLICITE, IVI INCLUSE GARANZIE DI COMMERCIABILITÀ, DI IDONEITÀ A UN PARTICOLARE SCOPO E GARANZIE O CONDIZIONI DI NON VIOLAZIONE. I prodotti IBM sono coperti da garanzia in accordo con termini e condizioni dei contratti sulla base dei quali vengono forniti.

    È responsabilità del cliente assicurare la conformità a normative e regolamenti applicabili. IBM non fornisce consulenza legale né dichiara o garantisce che i propri servizi o prodotti assicurino al cliente la conformità con qualsivoglia legge o regolamento.