Cuando la GCDO inició su andadura en el ámbito de los datos y la IA, la solución IBM® Cloud Pak for Data no existía. Aunque la CEDP impulsó avances significativos, el desarrollo de la solución IBM® Cloud Pak for Data dio a la GCDO una ventaja de campo para llevar su propia plataforma al siguiente nivel.
Como conjunto de servicios y extensiones que pueden utilizarse en función de las necesidades, la solución IBM® Cloud Pak for Data proporcionó a la GCDO la flexibilidad necesaria para modernizarse por etapas y empezar primero por las necesidades más acuciantes. No había un orden prescriptivo para la adopción o la implementación.
La GCDO comenzó a utilizar el conjunto de servicios de IA dentro de la solución IBM® Cloud Pak for Data, incluida la solución IBM® Watson Studio. La tecnología IBM® Watson Studio se ejecuta en local y en la nube, analizando datos en la solución IBM® Db2 Big SQL. Los detalles de esta parte del viaje de modernización de la GCDO se describen en este caso de éxito.
Para el siguiente paso del viaje, la GCDO recurrió a la tecnología DataStage para aumentar drásticamente la velocidad de ingesta de grandes cantidades de datos con estabilidad y precisión.
"Después de varios meses configurando servidores, estableciendo conexiones a bases de datos y realizando esfuerzos de configuración y autoaprendizaje por ensayo y error, una tabla de 60 millones de registros aún tardaría tres días en replicarse", afirma Frank Duffy, director de proyectos de GCDO Master Data. "Si nos fijamos en esas estadísticas, con unas 20 tablas de gran tamaño, nos enfrentábamos a otros 60 días únicamente para migrar los datos".
El equipo de movimiento de datos de la GCDO probó el rendimiento de la tecnología DataStage y Spark en la ejecución de casos prácticos comunes de carga de datos. En más del 75 % de los casos, consiguieron un mejor rendimiento con la tecnología DataStage que con la tecnología Spark. En el 25 % restante, los resultados fueron muy parejos.
Más allá del rendimiento, entre los factores de la solución DataStage que atrajeron a la GCDO se incluyen:
- La integración con el ecosistema IBM® Cloud Pak for Data, específicamente en relación con IBM® Watson Knowledge Catalog y el linaje de datos
- La amplitud de fuentes de apoyo, objetivos y etapas intermedias que respondían a las necesidades actuales y prospectivas
- Las etapas personalizadas para encapsular las necesidades en unidades reutilizables cuando fuera necesario
- Las capacidades que respaldaban un enfoque basado en patrones
La solución IBM® Cloud Pak for Data está alineada con varias fuentes de datos del sector y evoluciona constantemente para adaptarse a las nuevas tecnologías. La solución DataStage for IBM® Cloud Pak for Data incluye un amplio inventario de conectores del sector, que representan la mayoría de los almacenes de datos con los que los usuarios de la GCDO querían trabajar. Gracias a estos conectores, la GCDO podía trabajar con los distintos formatos y sistemas de almacenamiento sin necesidad de escribir ningún código.
En los casos en los que no se disponía de un conector, se podían desarrollar conectores personalizados, implementarlos y soltarlos en el lienzo.
La solución DataStage for IBM® Cloud Pak for Data también ofrece la funcionalidad Runtime Column Propagation, que atrajo a los ingenieros de la GCDO porque permitía un enfoque basado en patrones para el movimiento de datos. Al expresar los patrones habituales de movimiento de datos como trabajos, la GCDO amplió las operaciones para dar soporte a miles de tablas sin necesidad de aumentar la plantilla.
"La capacidad del patrón DataStage for IBM Cloud Pak for Data nos permitió tener un trabajo que podía ejecutarse de mil maneras", afirma Rick McCall, jefe técnico de la GCDO para Data Movement Tool."En algunos casos, teníamos más de 8000 trabajos, páginas y páginas de ellos, que podían asociarse a un único patrón y ejecutarse como un único trabajo. Eso significa un solo conjunto de código, rendimiento optimizado y control de origen, todo en una solución sumamente rápida y fiable".
Otro beneficio de la solución DataStage for IBM® Cloud Pak for Data es que se integra a la perfección con RedHat® OpenShift®. También ofrece compatibilidad con API para que los usuarios puedan crear flujos de trabajo personalizados a su alrededor si es necesario.
"DataStage para IBM Cloud Pak for Data supuso un cambio decisivo para nuestra ingesta de datos", afirma Peter Herr, responsable global de datos maestros de clientes."Nuestro equipo lo había intentado todo dentro de las limitaciones de nuestro sistema actual y seguía en un callejón sin salida a la hora llevar a cabo de forma aceptable la enorme cantidad de migración de datos que necesitábamos. Cuando Rick y su equipo nos mostraron la velocidad y la potencia de DataStage, empezamos a ser productivos en cuestión de semanas en lugar de meses".