IBM, Oficina Principal de Datos

En un estudio de caso anterior, compartimos cómo Global Chief Data Office (GCDO) de IBM enfrentaba el desafío familiar de los datos dispersos en toda la compañía y cómo, sin una plataforma comercialmente disponible a la mano, desarrolló la Plataforma de Datos Empresariales Cognitivos (CEDP) como una fuente central de datos gobernados para que los usuarios carguen, transformen y analicen datos empresariales. Este caso de uso continúa nuestra historia de modernización de CEDP aprovechando la solución IBM Cloud Pak for Data.

Esta vez se trata del movimiento de datos.

El problema estaba claro. Era necesario incorporar grandes cantidades de datos a nuestra plataforma unificada, pero llevaría meses hacerlo.

Las cargas iniciales de datos (IDL) replican los datos de un sistema a otro mediante la captura de datos de cambio (CDC). CDC aumenta la eficiencia porque después de la primera transferencia, solo es necesario mover los datos modificados.

Como esa primera transferencia, las IDL suelen contener una enorme cantidad de datos, y las tablas que GCDO necesitaba cargar no eran una excepción: la mayor de las docenas de tablas contenía 426 millones de registros, con un peso de 186 GB. La carga de conjuntos de datos tardaba semanas en algunos casos. Cerca del punto de ruptura y esencialmente bloqueado del progreso, el GCDO necesitaba una nueva solución. Lo encontraron en la solución IBM DataStage para IBM Cloud Pak for Data .

Compañeros que buscan formas de mejorar el negocio en una laptop

Carga de datos más rápida

Carga inicial de datos en una fracción del tiempo, de 3 días a 3 horas

Movimiento de datos a escala

Movimiento de datos estable y sin errores de cientos de tablas de datos con miles de millones de filas cada una, incluidas páginas de parámetros para escalar un solo trabajo de miles de maneras

Tras solo unos días de pruebas altamente satisfactorias, incorporamos DataStage para IBM Cloud Pak for Data... Los IDL de 60 millones de registros que habían tardado tres días se completaron en solo unas tres horas.

Inderpal Bhandari

Director global de datos

IBM

Modernización del movimiento de datos

Cuando GCDO comenzó su proceso de datos e IA, la solución IBM Cloud Pak for Data no existía. Si bien el CEDP impulsó un avance significativo, el desarrollo de la solución IBM Cloud Pak for Data le dio a GCDO una ventaja para llevar su propia plataforma al siguiente nivel.

Como un conjunto de servicios y extensiones que se pueden utilizar según sea necesario, la solución IBM Cloud Pak for Data le dio a GCDO la flexibilidad necesaria para modernizarse en etapas y comenzar primero con las necesidades más altas. No había un orden prescriptivo para la adopción o el despliegue.

GCDO comenzó a utilizar primero el conjunto de servicios de IA dentro de la solución IBM Cloud Pak for Data, incluida la solución IBM Watson Studio. La tecnología IBM Watson Studio funciona en las instalaciones y en la nube, analizando datos en la solución IBM Db2 Big SQL. Los detalles de esta parte del recorrido de modernización de GCDO se describen en este estudio de caso.

Para el siguiente paso en el proceso, GCDO recurrió a la tecnología DataStage para aumentar drásticamente la velocidad de ingesta de grandes cantidades de datos con estabilidad y precisión.

“Después de varios meses configurando servidores, estableciendo conexiones a bases de datos y realizando esfuerzos de configuración y autoaprendizaje por ensayo y error, una tabla de 60 millones de registros aún tardaría tres días en replicarse”, afirma Frank Duffy, director de proyectos de GCDO Master Data. “Al mirar esas estadísticas, con aproximadamente 20 tablas grandes por recorrer, estábamos viendo otros 60 días solo para migrar los datos”.

El equipo de movimiento de datos de GCDO probó el rendimiento de la tecnología DataStage y Spark en la ejecución de casos de uso comunes de carga de datos. En más del 75% de los casos, lograron un mejor rendimiento con la tecnología DataStation que con la tecnología Spark. Para el 25% restante, los resultados fueron una coincidencia cercana.

Más allá del desempeño, los factores que atrajeron a GCDO a la solución DataStage incluyeron:

Integración con el ecosistema de IBM Cloud Pak for Data, específicamente relacionada con el Catálogo de conocimientos de IBM Watson y el linaje de datos
Amplitud de fuentes de apoyo, objetivos y etapas intermedias que satisfacen las necesidades actuales y prospectivas
Etapas personalizadas para encapsular las necesidades en unidades reutilizables cuando sea necesario
Capacidades que admitían un enfoque basado en patrones

La solución IBM Cloud Pak for Data está alineada con varias fuentes de datos de la industria y está evolucionando constantemente esas fuentes para satisfacer nuevas tecnologías. La solución DataStage for IBM Cloud Pak for Data viene con un gran inventario de conectores de la industria, que representan la mayoría de los almacenes de datos con los que los usuarios de GCDO querían trabajar. Estos conectores significaban que GCDO podía funcionar con estos diferentes formatos y sistemas de almacenamiento sin necesidad de escribir ningún código.

En aquellos casos en los que aún no había un conector disponible, se podían desarrollar, implementar y colocar conectores personalizados en el lienzo.

La solución DataStation para IBM Cloud Pak for Data también ofrece la funcionalidad de Propagación de columnas de tiempo de ejecución, que atrae a ingenieros de GCDO porque permitió un enfoque basado en patrones para el movimiento de datos. Al expresar los patrones habituales de movimiento de datos como trabajos, GCDO amplió las operaciones para dar soporte a miles de tablas sin necesidad de aumentar la plantilla.

“La capacidad del patrón de DataStage para IBM Cloud Pak for Data nos permitió tener un trabajo que podía ejecutarse de miles de maneras”, afirma Rick McCall, GCDO Technical Lead de Data Movement Tool. “En algunos casos, teníamos más de 8,000 trabajos (páginas y páginas) que podían asociarse a un único patrón y ejecutarse como un único trabajo. Eso significa un conjunto de código, rendimiento optimizado y control de fuente, todo en una solución súper rápida y súper confiable”.

Otra ventaja de la solución DataStage for IBM Cloud Pak for Data es que se integra a la perfección con RedHat OpenShift. También ofrece soporte API para que los usuarios puedan crear flujos de trabajo personalizados en torno a él si es necesario.

“DataStage para IBM Cloud Pak for Data supuso un cambio de juego para nuestra ingesta de datos”, afirma Peter Herr, responsable global de datos maestros de clientes. “Nuestro equipo lo había intentado todo dentro de las limitaciones de nuestro sistema actual y seguía en un callejón sin salida para realizar de forma aceptable la enorme cantidad de migración de datos que necesitábamos. Cuando Rick y su equipo nos mostraron la velocidad y la potencia de DataStage, fuimos productivos en cuestión de semanas en lugar de meses”.

DataStage for IBM Cloud Pak for Data supuso un punto de inflexión para nuestro consumo de datos. El equipo lo había intentado todo dentro de las limitaciones de nuestro sistema actual y seguía en un callejón sin salida para llevar a cabo de forma aceptable la enorme cantidad de migración de datos que necesitábamos. Cuando Rick y su equipo nos mostraron la velocidad y la potencia de DataStage, fuimos productivos en cuestión de semanas en lugar de meses.

Peter Herr

Líder global en datos maestros de clientes

Oficina Global de Datos de IBM

De la plataforma a la privacidad

Una vez que GCDO eligió la solución DataStage para IBM Cloud Pak for Data, rápidamente se obtuvieron resultados positivos. Solo en la fase piloto, se cargaron tablas enormes con miles de millones de filas en horas en lugar de días. Las tablas más pequeñas se migraron en cuestión de minutos. Además, independientemente del tamaño de la tabla, el consumo de datos estaba libre de errores y era muy estable.

“No hace falta decir que el movimiento de datos impulsado por DataStage fue una bendición para ayudar a rescatar nuestro trabajo de migración de datos y pasar de un estado bloqueado a un estado listo para producción en cuestión de semanas”, dice Duffy.

“IBM Cloud Pak for Data continúa avanzando con CEDP”, dice Inderpal Bhandari, director global de datos de IBM. “DataStage para IBM Cloud Pak for Data como motor de nuestra estrategia de movimiento de datos nos ahorró literalmente semanas y trajo nuevos niveles de eficiencia y flexibilidad en el servicio a nuestros usuarios. A continuación, tenemos la mira puesta en aprovechar IBM Cloud Pak for Data a medida que construimos nuestras capacidades de privacidad en toda la empresa”.

GCDO se está asociando con la Oficina de Privacidad de IBM para construir el motor para impulsar un sistema de nube híbrida de extremo a extremo que mejorará drásticamente la eficiencia de nuestro cumplimiento regulatorio. La hoja de ruta actual para las capacidades de privacidad incluye Watson Knowledge Catalog, IBM Knowledge Accelerators e IBM OpenPages with Watson de la solución IBM Cloud Pak for Data.

Descubra soluciones que le ayudarán a eliminar los silos de datos

Acerca de la Oficina Global de Datos de IBM

La Oficina Global de Datos de IBM desarrolla estrategias y plataformas de datos que incluyen sistemas de gobernanza y gestión, datos profundos y asociaciones de analytics.La estrategia transforma los datos de negocio en valor empresarial. Estas plataformas se convierten en la fuente de datos central para analytics de negocio en toda la empresa, y para desarrollar y escalar talento. En conjunto, estas capacidades innovadoras utilizan insights de analytics para permitir el crecimiento y la productividad.

Componentes de la solución

IBM Cloud Pak® para datos

IBM DataStage para IBM Cloud Pak for Data

IBM Knowledge Accelerators

IBM OpenPages with Watson

IBM® watsonx Knowledge Catalog

Dé el siguiente paso

Suscríbase a boletines seleccionados para conocer lo último en tecnología, negocios y liderazgo de pensamiento.

Una plataforma unificada de datos e IA que aporta beneficios empresariales

Notas de pie de página

Producido en los Estados Unidos de América, marzo de 2018.

IBM, el logotipo de IBM, ibm.com, DataStage, Db2, IBM Cloud Pak, OpenPages e IBM Watson son marcas comerciales de International Business Machines Corp., registradas en muchas jurisdicciones de todo el mundo. Otros nombres de productos y servicios pueden ser marcas registradas de IBM o de otras empresas. Puede consultar una lista actual de marcas comerciales de IBM, en la sección “Información sobre derechos de autor y marcas registradas”,en https://www.ibm.com/mx-es/legal/copyright-trademark.

Red Hat y OpenShift son marcas o marcas registradas de Red Hat, Inc. o sus subsidiarias en los Estados Unidos y otros países.

Este documento está actualizado a la fecha inicial de publicación e IBM puede modificarlo en cualquier momento. No todas las ofertas están disponibles en todos los países en los que opera IBM.

Los datos de rendimiento y los ejemplos de clientes citados se presentan solo con fines ilustrativos. Los resultados de rendimiento reales pueden variar según las configuraciones específicas y las condiciones de funcionamiento. LA INFORMACIÓN CONTENIDA EN ESTE DOCUMENTO SE PROPORCIONA “TAL CUAL”, SIN NINGUNA GARANTÍA, EXPRESA O IMPLÍCITA, INCLUIDAS LAS GARANTÍAS DE COMERCIABILIDAD, IDONEIDAD PARA UN FIN DETERMINADO Y CUALQUIER GARANTÍA O CONDICIÓN DE NO INFRACCIÓN. Los productos de IBM están garantizados de conformidad con los términos y condiciones de los acuerdos bajo los cuales se proveen.

El cliente es responsable de garantizar el cumplimiento de las leyes y regulaciones que le sean aplicables. IBM no brinda asesoría legal ni declara que sus servicios o productos garantizarán que el cliente cumpla con cualquier ley o regulación.

Aumenta drásticamente la velocidad de migración de datos

Carga de datos más rápida

Movimiento de datos a escala

Notas de pie de página