GCDOがデータとAIへの取り組みを始動した時、IBM Cloud Pak for Dataソリューションはまだ存在していませんでした。CEDPが大幅な進歩をもたらした一方で、IBM Cloud Pak for Dataソリューションの開発により、GCDOは独自のプラットフォームを次のレベルに引き上げるためのホームの恩恵を受けることができました。
IBM Cloud Pak for Data ソリューションは、必要に応じて使用できるサービスと拡張機能のスイートとして、段階的にモダナイズし、最もニーズの高いものから始めるために必要な柔軟性を提供しました。導入や展開に決まった順序はありませんでした。
GCDOは、IBM Watson Studioソリューションを含む、IBM Cloud Pak for Dataソリューション内の AIサービス・スイートから使用し始めました。IBM Watson Studioテクノロジーは、オンプレミスとクラウドで実行可能で、 IBM Db2 Big SQLソリューションのデータを分析します。GCDOのモダナイゼーションの取り組みのうち、この部分の詳細については、こちらのケーススタディーでご紹介しています。
GCDO は次のステップとして、安定性と正確性を備えた大量のデータの取り込み速度を大幅に向上させるべく、DataStageテクノロジーに注目しました。
「GCDO Master Dataのシニア・プロジェクト・マネージャーであるFrank Duffy氏は言います。「数ヶ月かけてサーバーをセットアップし、データベースへの接続を確立し、試行錯誤しながら構成と自己学習を行っても、6,000万レコードのテーブルを複製するには3日ほどかかります。「これらの統計データを見ると、約20個の大きな表が残っており、データの移行だけでさらに60日ほどかかることがわかりました」
GCDOのデータ移動チームは、一般的なデータ・ロードのユースケースを実行する際のDataStageとSparkテクノロジーのパフォーマンスをテストしました。75%以上のケースで、Sparkよりも、DataStageを使用した方が優れたパフォーマンスが得られました。残りの25%については、結果は僅差でした。
パフォーマンス以外に、GCDOがDataStageソリューションに惹かれた理由は次のとおりです。
- IBM Cloud Pak for Dataエコシステムとの統合(特にIBM Watson Knowledge Catalogとデータ系統に関連)
- 現在および将来のニーズを満たす幅広いソース、ターゲットと中間のステージをサポート
- 必要に応じてニーズを再利用可能なユニットにカプセル化できるカスタム・ステージ
- パターン・ベースのアプローチをサポートした機能
IBM Cloud Pak for Dataソリューションは、複数の業界のデータ・ソースに沿っており、新しいテクノロジーに対応するために、ソースを絶えず進化させています。DataStage for IBM Cloud Pak for Dataソリューションには、GCDOのユーザーが利用したいと考えていたほとんどのデータ・ストアに対応する、多数の業界のコネクタがバンドルされています。GCDOは、これらのコネクタを使用することで、コードを記述することなく、さまざまなストレージ形式やシステムに対応できるようになりました。
コネクタがまだ利用できない場合は、カスタム・コネクタを開発して、展開し、キャンバスにドロップできます。
DataStage for IBM Cloud Pak for Dataソリューションは、ランタイム列伝播機能も提供します。これにより、データ移動に対するパターン・ベースのアプローチが可能になるため、GCDOのエンジニアにとって魅力的な機能でした。一般的なデータ移動パターンをジョブとして表現することで、GCDOは人員を増やすことなく、数千のテーブルをサポートできるように、オペレーションをスケールアップしました。
「DataStage for IBM Cloud Pak for Dataのパターン機能により、1つのジョブを何千もの方法で実行できるようになりました」と、データ移動ツールのテクニカル・リードを務めるRick McCall氏は言います。「場合によっては、8,000を超える(何ページにも及ぶ)ジョブがあり、それらを1つのパターンに関連付けて、1つのジョブとして実行できました。つまり、1セットのコード、最適化されたパフォーマンス、ソース管理がすべて、1つの超高速で信頼性の高いソリューションで完結させることが可能になります」
DataStage for IBM Cloud Pak for Dataソリューションのもう1つの利点は、RedHat OpenShiftとシームレスに統合できることです。また、APIサポートにより、ユーザーは必要に応じてカスタム・ワークフローを構築できます。
「DataStage for IBM Cloud Pak for Dataは、当社のデータ取り込みに大きな変革をもたらしてくれました」と、Client Master Dataのグローバル リーダーであるPeter Herr氏は述べています。「既存のシステムの制約のなかで、いろいろと試しましたが、膨大なデータの移行を満足には遂行できずにいました。DataStageのスピードと機能のおかがで、わずか数週間以内に生産性が向上しました」