Cuando GCDO comenzó su proceso de datos e IA, la solución IBM Cloud Pak for Data no existía. Si bien el CEDP impulsó un avance significativo, el desarrollo de la solución IBM Cloud Pak for Data le dio a GCDO una ventaja para llevar su propia plataforma al siguiente nivel.
Como un conjunto de servicios y extensiones que se pueden utilizar según sea necesario, la solución IBM Cloud Pak for Data le dio a GCDO la flexibilidad necesaria para modernizarse en etapas y comenzar primero con las necesidades más altas. No había un orden prescriptivo para la adopción o el despliegue.
GCDO comenzó a utilizar primero el conjunto de servicios de IA dentro de la solución IBM Cloud Pak for Data, incluida la solución IBM Watson Studio. La tecnología IBM Watson Studio funciona en las instalaciones y en la nube, analizando datos en la solución IBM Db2 Big SQL. Los detalles de esta parte del recorrido de modernización de GCDO se describen en este estudio de caso.
Para el siguiente paso en el proceso, GCDO recurrió a la tecnología DataStage para aumentar drásticamente la velocidad de ingesta de grandes cantidades de datos con estabilidad y precisión.
"Después de varios meses configurando servidores, estableciendo conexiones a bases de datos y realizando esfuerzos de configuración y autoaprendizaje por ensayo y error, una tabla de 60 millones de registros aún tardaría tres días en replicarse", afirma Frank Duffy, director de proyectos de GCDO Master Data. “Al mirar esas estadísticas, con aproximadamente 20 tablas grandes por recorrer, estábamos viendo otros 60 días solo para migrar los datos”.
El equipo de movimiento de datos de GCDO probó el rendimiento de la tecnología DataStage y Spark en la ejecución de casos de uso comunes de carga de datos. En más del 75% de los casos, lograron un mejor rendimiento con la tecnología DataStation que con la tecnología Spark. Para el 25% restante, los resultados fueron una coincidencia cercana.
Más allá del desempeño, los factores que atrajeron a GCDO a la solución DataStage incluyeron:
- Integración con el ecosistema de IBM Cloud Pak for Data, específicamente relacionada con el Catálogo de conocimientos de IBM Watson y el linaje de datos
- Amplitud de fuentes de apoyo, objetivos y etapas intermedias que satisfacen las necesidades actuales y prospectivas
- Etapas personalizadas para encapsular las necesidades en unidades reutilizables cuando sea necesario
- Capacidades que admitían un enfoque basado en patrones
La solución IBM Cloud Pak for Data está alineada con varias fuentes de datos de la industria y está evolucionando constantemente esas fuentes para satisfacer nuevas tecnologías. La solución DataStage for IBM Cloud Pak for Data viene con un gran inventario de conectores de la industria, que representan la mayoría de los almacenes de datos con los que los usuarios de GCDO querían trabajar. Estos conectores significaban que GCDO podía funcionar con estos diferentes formatos y sistemas de almacenamiento sin necesidad de escribir ningún código.
En aquellos casos en los que aún no había un conector disponible, se podían desarrollar, implementar y colocar conectores personalizados en el lienzo.
La solución DataStation para IBM Cloud Pak for Data también ofrece la funcionalidad de Propagación de columnas de tiempo de ejecución, que atrae a ingenieros de GCDO porque permitió un enfoque basado en patrones para el movimiento de datos. Al expresar los patrones habituales de movimiento de datos como trabajos, GCDO amplió las operaciones para dar soporte a miles de tablas sin necesidad de aumentar la plantilla.
"La capacidad del patrón de DataStage para IBM Cloud Pak for Data nos permitió tener un trabajo que podía ejecutarse de miles de maneras", afirma Rick McCall, GCDO Technical Lead de Data Movement Tool. "En algunos casos, teníamos más de 8,000 trabajos (páginas y páginas) que podían asociarse a un único patrón y ejecutarse como un único trabajo. Eso significa un conjunto de código, rendimiento optimizado y control de fuente, todo en una solución súper rápida y súper confiable”.
Otra ventaja de la solución DataStage for IBM Cloud Pak for Data es que se integra a la perfección con RedHat OpenShift. También ofrece soporte API para que los usuarios puedan crear flujos de trabajo personalizados en torno a él si es necesario.
"DataStage para IBM Cloud Pak for Data supuso un cambio de juego para nuestra ingesta de datos", afirma Peter Herr, responsable global de datos maestros de clientes. "Nuestro equipo lo había intentado todo dentro de las limitaciones de nuestro sistema actual y seguía en un callejón sin salida para realizar de forma aceptable la enorme cantidad de migración de datos que necesitábamos. Cuando Rick y su equipo nos mostraron la velocidad y la potencia de DataStage, fuimos productivos en cuestión de semanas en lugar de meses".