En un caso de éxito anterior, compartíamos cómo la oficina global de datos (GCDO) de IBM se enfrentaba al familiar reto de la dispersión de datos en toda la empresa y cómo, sin ninguna plataforma disponible en el mercado, desarrolló la plataforma de datos empresarial cognitiva (CEDP) como fuente central de datos controlados para que los usuarios cargaran, transformaran y analizaran los datos empresariales. Este caso práctico continúa nuestra historia de modernización de CEDP aprovechando la solución IBM® Cloud Pak for Data.
Esta vez se trata del movimiento de datos.
El problema estaba claro. Era preciso ingerir cantidades inmensas de datos en nuestra plataforma unificada, lo que nos llevaría meses.
Las cargas de datos iniciales (IDL, por sus siglas en inglés) replican los datos de un sistema a otro utilizando la captura de datos de cambio (CDC). La CDC aumenta la eficiencia porque, tras la primera transferencia, sólo hay que mover los datos modificados.
Como esa primera transferencia, las IDL suelen contener una enorme cantidad de datos, y las tablas que GCDO necesitaba cargar no eran una excepción: la mayor de las docenas de tablas contenía 426 millones de registros, y pesaba 186 GB. En algunos casos, la carga de conjuntos de datos podía llevar semanas.La GCDO, al borde de la ruptura y sin poder avanzar, necesitaba una nueva solución, y la halló en IBM® DataStage para IBM® Cloud Pak for Data .
Carga de datos inicial en mucho menos tiempo, de 3 días a 3 horas
Movimiento de datos estable y sin errores de cientos de tablas de datos con miles de millones de filas cada una, incluidas páginas de parámetros para escalar un único trabajo de mil maneras
Cuando la GCDO inició su andadura en el ámbito de los datos y la IA, la solución IBM® Cloud Pak for Data no existía. Aunque la CEDP impulsó avances significativos, el desarrollo de la solución IBM® Cloud Pak for Data dio a la GCDO una ventaja de campo para llevar su propia plataforma al siguiente nivel.
Como conjunto de servicios y extensiones que pueden utilizarse en función de las necesidades, la solución IBM® Cloud Pak for Data proporcionó a la GCDO la flexibilidad necesaria para modernizarse por etapas y empezar primero por las necesidades más acuciantes. No había un orden prescriptivo para la adopción o la implementación.
La GCDO comenzó a utilizar el conjunto de servicios de IA dentro de la solución IBM® Cloud Pak for Data, incluida la solución IBM® Watson Studio. La tecnología IBM® Watson Studio se ejecuta en local y en la nube, analizando datos en la solución IBM® Db2 Big SQL. Los detalles de esta parte del viaje de modernización de la GCDO se describen en este caso de éxito.
Para el siguiente paso del viaje, la GCDO recurrió a la tecnología DataStage para aumentar drásticamente la velocidad de ingesta de grandes cantidades de datos con estabilidad y precisión.
"Después de varios meses configurando servidores, estableciendo conexiones a bases de datos y realizando esfuerzos de configuración y autoaprendizaje por ensayo y error, una tabla de 60 millones de registros aún tardaría tres días en replicarse", afirma Frank Duffy, director de proyectos de GCDO Master Data. "Si nos fijamos en esas estadísticas, con unas 20 tablas de gran tamaño, nos enfrentábamos a otros 60 días únicamente para migrar los datos".
El equipo de movimiento de datos de la GCDO probó el rendimiento de la tecnología DataStage y Spark en la ejecución de casos prácticos comunes de carga de datos. En más del 75 % de los casos, consiguieron un mejor rendimiento con la tecnología DataStage que con la tecnología Spark. En el 25 % restante, los resultados fueron muy parejos.
Más allá del rendimiento, entre los factores de la solución DataStage que atrajeron a la GCDO se incluyen:
La solución IBM® Cloud Pak for Data está alineada con varias fuentes de datos del sector y evoluciona constantemente para adaptarse a las nuevas tecnologías. La solución DataStage for IBM® Cloud Pak for Data incluye un amplio inventario de conectores del sector, que representan la mayoría de los almacenes de datos con los que los usuarios de la GCDO querían trabajar. Gracias a estos conectores, la GCDO podía trabajar con los distintos formatos y sistemas de almacenamiento sin necesidad de escribir ningún código.
En los casos en los que no se disponía de un conector, se podían desarrollar conectores personalizados, implementarlos y soltarlos en el lienzo.
La solución DataStage for IBM® Cloud Pak for Data también ofrece la funcionalidad Runtime Column Propagation, que atrajo a los ingenieros de la GCDO porque permitía un enfoque basado en patrones para el movimiento de datos. Al expresar los patrones habituales de movimiento de datos como trabajos, la GCDO amplió las operaciones para dar soporte a miles de tablas sin necesidad de aumentar la plantilla.
"La capacidad del patrón DataStage for IBM Cloud Pak for Data nos permitió tener un trabajo que podía ejecutarse de mil maneras", afirma Rick McCall, jefe técnico de la GCDO para Data Movement Tool."En algunos casos, teníamos más de 8000 trabajos, páginas y páginas de ellos, que podían asociarse a un único patrón y ejecutarse como un único trabajo. Eso significa un solo conjunto de código, rendimiento optimizado y control de origen, todo en una solución sumamente rápida y fiable".
Otro beneficio de la solución DataStage for IBM® Cloud Pak for Data es que se integra a la perfección con RedHat® OpenShift®. También ofrece compatibilidad con API para que los usuarios puedan crear flujos de trabajo personalizados a su alrededor si es necesario.
"DataStage para IBM Cloud Pak for Data supuso un cambio decisivo para nuestra ingesta de datos", afirma Peter Herr, responsable global de datos maestros de clientes."Nuestro equipo lo había intentado todo dentro de las limitaciones de nuestro sistema actual y seguía en un callejón sin salida a la hora llevar a cabo de forma aceptable la enorme cantidad de migración de datos que necesitábamos. Cuando Rick y su equipo nos mostraron la velocidad y la potencia de DataStage, empezamos a ser productivos en cuestión de semanas en lugar de meses".
Una vez que la GCDO eligió la solución DataStage for IBM® Cloud Pak for Data, los resultados positivos no tardaron en llegar. Sólo en la fase piloto, enormes tablas con miles de millones de filas se cargaron en horas en lugar de días. Las tablas más pequeñas se migraron en cuestión de minutos. Además, independientemente del tamaño de la tabla, la ingesta de datos se realizó sin errores y de forma muy estable.
"No hace falta decir que el movimiento de datos con DataStage fue un regalo del cielo para ayudarnos a rescatar nuestro esfuerzo de migración de datos y pasar de estar completamente bloqueados a estar listos para la producción en cuestión de semanas", dice Duffy.
"IBM Cloud Pak for Data sigue avanzando en la CEDP", afirma Inderpal Bhandari, director global de datos de IBM. "DataStage para IBM Cloud Pak for Data como motor de nuestra estrategia de movimiento de datos nos ahorró literalmente semanas y aportó nuevos niveles de eficiencia y flexibilidad en el servicio a nuestros usuarios". A continuación, tenemos la vista puesta en aprovechar IBM Cloud Pak for Data a medida que desarrollamos nuestras capacidades de privacidad en toda la empresa".
La GCDO se está asociando con la oficina principal de privacidad de IBM para construir el motor que impulse un sistema de nube híbrida de extremo a extremo que mejorará drásticamente la eficiencia de nuestro cumplimiento normativo. La hoja de ruta actual para las capacidades de privacidad incluye Watson Knowledge Catalog, IBM® Knowledge Accelerators e IBM® OpenPages with Watson de la solución IBM® Cloud Pak for Data.
Descubra soluciones para ayudarle a eliminar los silos de datos
La IBM® Global Chief Data Office desarrolla estrategias y plataformas de datos que incluyen sistemas de gobierno y gestión, datos profundos y asociaciones de análisis. La estrategia transforma los datos empresariales en valor empresarial. Estas plataformas se convierten en la fuente central de datos para el análisis de negocios en toda la empresa y para desarrollar y escalar el talento. Juntas, estas innovadoras capacidades utilizan información analítica para permitir el crecimiento y la productividad.
© Copyright IBM Corporation 2022.IBM Corporation, IBM Watson, New Orchard Road, Armonk, NY 10504
Producido en los Estados Unidos de América, marzo de 2018.
IBM, el logotipo de IBM, ibm.com, Datastage, Db2, IBM® Cloud Pak, OpenPages e IBM® Watson son marcas comerciales de International Business Machines Corp., registradas en muchas jurisdicciones del mundo. Los demás nombres de productos y servicios pueden ser marcas registradas de IBM u otras empresas.Puede consultar una lista actual de las marcas registradas de IBM en la web, en "Información sobre derechos de autor y marcas registradas" en https://www.ibm.com/es-es/legal/copyright.
Red Hat® y OpenShift® son marcas comerciales o marcas registradas de Red Hat, Inc. o sus subsidiarios en los Estados Unidos y otros países.
La información contenida en este documento es la vigente en la fecha de su publicación original y está sujeta a cambios por parte de IBM. No todas las ofertas mencionadas en este documento están disponibles en todos los países en los que IBM está presente.
Los datos de rendimiento y ejemplos de clientes mencionados se presentan únicamente con fines ilustrativos. Los datos reales de rendimiento pueden variar en función de las configuraciones y condiciones de funcionamiento específicas. LA INFORMACIÓN DE ESTE DOCUMENTO SE OFRECE "TAL CUAL ESTÁ" SIN NINGUNA GARANTÍA, NI EXPLÍCITA NI IMPLÍCITA, INCLUIDAS, ENTRE OTRAS, LAS GARANTÍAS DE COMERCIALIZACIÓN, ADECUACIÓN A UN FIN CONCRETO Y CUALQUIER GARANTÍA O CONDICIÓN DE INEXISTENCIA DE INFRACCIÓN. Los productos de IBM están sujetos a garantía según los términos y condiciones de los acuerdos bajo los que se proporcionan.
El cliente es responsable de garantizar el cumplimiento de las leyes y reglamentos aplicables. IBM no presta asesoramiento legal ni declara o garantiza que sus servicios o productos aseguren que el cliente cumpla con cualquier ley o normativa.