Quando o GCDO iniciou sua jornada de dados e IA, a solução IBM Cloud Pak for Data não existia. Embora a CEDP tenha impulsionado um avanço significativo, o desenvolvimento da solução IBM Cloud Pak for Data deu ao GCDO uma vantagem no campo para levar sua própria plataforma a um nível superior.
Como um pacote de serviços e extensões que podem ser usados conforme necessário, a solução IBM Cloud Pak for Data deu ao GCDO a flexibilidade necessária para modernizar em etapas e começar com as necessidades mais urgentes primeiro. Não havia uma ordem prescritiva para adoção ou implantação.
O GCDO começou a usar o pacote de serviços de IA dentro da solução IBM Cloud Pak for Data, incluindo a solução IBM Watson Studio.A tecnologia IBM Watson Studio é executada no local e na nuvem, analisando dados na solução IBM Db2 Big SQL.Os detalhes desta parte da jornada de modernização do CDO estão descritos neste estudo de caso.
Para o próximo passo na jornada, o GCDO recorreu à tecnologia DataStage para aumentar drasticamente a velocidade de ingestão de grandes quantidades de dados com estabilidade e precisão.
“Após vários meses configurando servidores, estabelecendo conexões de banco de dados e esforços de configuração e autoaprendizagem por tentativa e erro, uma tabela de 60 milhões de registros ainda levaria três dias para replicar”, diz Frank Duffy, gerente sênior de projeto do GCDO Master Data. "Analisando essas estatísticas, com aproximadamente 20 tabelas grandes a serem removidas, estávamos prevendo mais 60 dias apenas para migrar os dados."
A equipe de movimentação de dados da CDO testou o desempenho da tecnologia DataStage e Spark na execução de casos de uso comuns de carregamento de dados.Em mais de 75% dos casos, eles alcançaram um desempenho melhor com a tecnologia DataStage do que com a tecnologia Spark.Para os 25% restantes, os resultados foram bastante similares.
Além do desempenho, fatores que atraíram o GCDO para a solução DataStage incluíram:
- Integração com o ecossistema IBM Cloud Pak for Data, especificamente relacionado ao IBM Watson Knowledge Catalog e à linhagem de dados
- Amplitude de fontes, destinos e estágios intermediários suportados que atendiam às necessidades atuais e futuras
- Estágios personalizados para encapsular necessidades em unidades reutilizáveis quando necessário
- Recursos que suportavam uma abordagem baseada em padrões
A solução IBM Cloud Pak for Data está alinhada com várias fontes de dados do setor e está constantemente evoluindo essas fontes para atender a novas tecnologias.A solução DataStage para IBM Cloud Pak for Data vem com um grande inventário de conectores de setor, representando a maioria dos repositórios de dados com os quais os usuários do GCDO queriam trabalhar.Esses conectores significavam que o GCDO poderia trabalhar com esses diferentes formatos e sistemas de armazenamento sem precisar escrever nenhum código.
Nos casos em que um conector ainda não estava disponível, conectores personalizados poderiam ser desenvolvidos, implementados e adicionados ao canvas.
A solução DataStage para IBM Cloud Pak for Data também oferece a funcionalidade Runtime Column Propagation, que atraiu os engenheiros do GCDO porque permitiu uma abordagem baseada em padrões para a migração de dados. Ao expressar padrões comuns de migração de dados como tarefas, o GCDO ampliou as operações para suportar milhares de tabelas sem precisar aumentar a equipe.
"O recurso de padrão do DataStage para IBM Cloud Pak for Data nos permitiu ter um trabalho que poderia ser executado de milhares de maneiras", diz Rick McCall, líder técnico do GCDO para a ferramenta de migração de dados."Em alguns casos, tínhamos mais de 8.000 empregos – páginas e páginas deles – que poderiam ser associados a um único padrão e executados como um único trabalho.Isso significa um conjunto de código, desempenho otimizado e controle de fonte, tudo integrado em uma solução super rápida e confiável."
Outro benefício da solução DataStage para IBM Cloud Pak for Data é que ela se integra sem dificuldades ao RedHat OpenShift. Além disso, disponibiliza suporte para APIs, permitindo que os usuários criem fluxos de trabalho personalizados conforme necessário.
"O DataStage para IBM Cloud Pak for Data foi um divisor de águas para a nossa ingestão de dados", diz Peter Herr, líder global de dados mestres de clientes."Nossa equipe tentou de tudo dentro das restrições do nosso sistema existente e ainda estava em um impasse para realizar de maneira aceitável a enorme quantidade de migração de dados que precisávamos.Quando Rick e equipe nos mostraram a velocidade e o poder do DataStage, ficamos produtivos em semanas, em vez de meses."