データ・マイグレーション速度を大幅に向上
IBM Chief Data office、IBM DataStageを活用してデータ移動をモダナイズ
コンピューターに向かって、問題を解決している同僚たち

以前のケーススタディーでは、IBM Global Chief Data Office(GCDO)が、企業全体に分散しているデータという、よくある課題に直面したこと、また、市販のプラットフォームが手元にない状態で、ユーザーが企業データをロード、変換、分析するための管理対象データの中央ソースとして、コグニティブ・エンタープライズ・データ・プラットフォーム(CEDP)をどのように開発したかについてご紹介しました。このユースケースは、 IBM Cloud Pak for Dataソリューションを活用した、CEDPのモダナイゼーション・ストーリーの続きです。

今回のテーマは、データ移動です。

問題点は明確でした。膨大なデータを統合プラットフォームに取り込む必要があり、完了までに数か月ほどかかる見込みでした。

初期データ・ロード(IDL)は、変更データ・キャプチャ(CDC)を使用して、あるシステムから別のシステムにデータを複製します。CDCを使用することで、初期の転送後は、変更されたデータのみを移動すればよいため、効率が向上します。

初期の転送において、IDLは通常、膨大な量のデータであり、GCDOがロードする必要があるテーブルも例外ではありませんでした。数十のテーブルのうち、最も多いもので4億2600万のレコードが含まれており、そのサイズは186 GBに達していました。データセットの読み込みに数週間かかるケースもありました。限界に近づき、進捗が妨げられていたため、新しい解決策が必要でした。そこで、見つけたのがIBM DataStage for IBM Cloud Pak for Dataソリューションでした。

より高速なデータの読み込み

 

IDLの時間を3日から、3時間に短縮しました。

大規模なデータの移動

 

単一のジョブを何千もの方法で拡張するためのパラメーターのページを含む、それぞれ数十億行を含む数百のデータ・テーブルのエラーのない、安定したデータ移動を実現しました。

わずか数日間のテストで大成功を収めた後、DataStage for IBM Cloud Pak for Dataを組み込みました。3日かかっていた6,000万レコードのIDLが、わずか3時間ほどで完了しました。 Inderpal Bhandari グローバル最高データ責任者 IBM
データ移動のモダナイゼーション

GCDOがデータとAIへの取り組みを始動した時、IBM Cloud Pak for Dataソリューションはまだ存在していませんでした。CEDPが大幅な進歩をもたらした一方で、IBM Cloud Pak for Dataソリューションの開発により、GCDOは独自のプラットフォームを次のレベルに引き上げるためのホームの恩恵を受けることができました。

IBM Cloud Pak for Data ソリューションは、必要に応じて使用できるサービスと拡張機能のスイートとして、段階的にモダナイズし、最もニーズの高いものから始めるために必要な柔軟性を提供しました。導入や展開に決まった順序はありませんでした。

GCDOは、IBM Watson Studioソリューションを含む、IBM Cloud Pak for Dataソリューション内の AIサービス・スイートから使用し始めました。IBM Watson Studioテクノロジーは、オンプレミスとクラウドで実行可能で、 IBM Db2 Big SQLソリューションのデータを分析します。GCDOのモダナイゼーションの取り組みのうち、この部分の詳細については、こちらのケーススタディーでご紹介しています。

GCDO は次のステップとして、安定性と正確性を備えた大量のデータの取り込み速度を大幅に向上させるべく、DataStageテクノロジーに注目しました。

「GCDO Master Dataのシニア・プロジェクト・マネージャーであるFrank Duffy氏は言います。「数ヶ月かけてサーバーをセットアップし、データベースへの接続を確立し、試行錯誤しながら構成と自己学習を行っても、6,000万レコードのテーブルを複製するには3日ほどかかります。「これらの統計データを見ると、約20個の大きな表が残っており、データの移行だけでさらに60日ほどかかることがわかりました」

GCDOのデータ移動チームは、一般的なデータ・ロードのユースケースを実行する際のDataStageとSparkテクノロジーのパフォーマンスをテストしました。75%以上のケースで、Sparkよりも、DataStageを使用した方が優れたパフォーマンスが得られました。残りの25%については、結果は僅差でした。

パフォーマンス以外に、GCDOがDataStageソリューションに惹かれた理由は次のとおりです。

 

 

  • IBM Cloud Pak for Dataエコシステムとの統合(特にIBM Watson Knowledge Catalogとデータ系統に関連)
  • 現在および将来のニーズを満たす幅広いソース、ターゲットと中間のステージをサポート
  • 必要に応じてニーズを再利用可能なユニットにカプセル化できるカスタム・ステージ
  • パターン・ベースのアプローチをサポートした機能

 

IBM Cloud Pak for Dataソリューションは、複数の業界のデータ・ソースに沿っており、新しいテクノロジーに対応するために、ソースを絶えず進化させています。DataStage for IBM Cloud Pak for Dataソリューションには、GCDOのユーザーが利用したいと考えていたほとんどのデータ・ストアに対応する、多数の業界のコネクタがバンドルされています。GCDOは、これらのコネクタを使用することで、コードを記述することなく、さまざまなストレージ形式やシステムに対応できるようになりました。

コネクタがまだ利用できない場合は、カスタム・コネクタを開発して、展開し、キャンバスにドロップできます。

DataStage for IBM Cloud Pak for Dataソリューションは、ランタイム列伝播機能も提供します。これにより、データ移動に対するパターン・ベースのアプローチが可能になるため、GCDOのエンジニアにとって魅力的な機能でした。一般的なデータ移動パターンをジョブとして表現することで、GCDOは人員を増やすことなく、数千のテーブルをサポートできるように、オペレーションをスケールアップしました。

「DataStage for IBM Cloud Pak for Dataのパターン機能により、1つのジョブを何千もの方法で実行できるようになりました」と、データ移動ツールのテクニカル・リードを務めるRick McCall氏は言います。「場合によっては、8,000を超える(何ページにも及ぶ)ジョブがあり、それらを1つのパターンに関連付けて、1つのジョブとして実行できました。つまり、1セットのコード、最適化されたパフォーマンス、ソース管理がすべて、1つの超高速で信頼性の高いソリューションで完結させることが可能になります」

DataStage for IBM Cloud Pak for Dataソリューションのもう1つの利点は、RedHat OpenShiftとシームレスに統合できることです。また、APIサポートにより、ユーザーは必要に応じてカスタム・ワークフローを構築できます。

「DataStage for IBM Cloud Pak for Dataは、当社のデータ取り込みに大きな変革をもたらしてくれました」と、Client Master Dataのグローバル リーダーであるPeter Herr氏は述べています。「既存のシステムの制約のなかで、いろいろと試しましたが、膨大なデータの移行を満足には遂行できずにいました。DataStageのスピードと機能のおかがで、わずか数週間以内に生産性が向上しました」

DataStage for IBM Cloud Pak for Dataは、データ取り込みに変革をもたらしてくれました。既存のシステムの制約のなかで、いろいろと試しましたが、膨大なデータの移行を満足には遂行できずにいました。DataStageのスピードと機能のおかがで、わずか数週間以内に生産性が向上しました。 Peter Herr Global Leader for Client Master Data IBM Global Chief Data Office
プラットフォームからプライバシーまで

GCDOは、DataStage for IBM Cloud Pak for Dataソリューションを選択して、すぐに良い結果が得られました。パイロット・フェーズだけでも、数十億行を含む巨大なテーブルをわずか数時間でロードすることができました。小さいテーブルは、わずか数分で移行が完了しました。さらに、テーブルの大きさに関わらず、データ取り込みでエラーは発生せず、極めて安定していました。

「DataStageは、データの移行作業に大いに役立つものであり、わずか数週間で運用準備を整えることができました」とDuffy氏は言います。

「IBM Cloud Pak for Dataは、CEDPを進化させ続けます」と IBMのグローバル最高データ責任者であるInderpal Bhandari氏は言います。「データ移動戦略のエンジンとしてのDataStage for IBM Cloud Pak for Dataのおかげで、数週間もの時間を節約でき、ユーザーへのサービス提供において、新たなレベルの効率と柔軟性が得られました。次のステップとして、全社規模のプライバシー機能を構築する際に、IBM Cloud Pak for Dataを活用することを目指しています。」

GCDOは、IBM Chief Privacy Officeと提携して、規制遵守の効率を大幅に高めるために、エンドツーエンドのハイブリッドクラウド・システムを強化するエンジンを構築しています。プライバシー機能の現在のロードマップには、IBM Cloud Pak for DataソリューションのWatson Knowledge Catalog、IBM Knowledge AcceleratorsIBM OpenPages with Watsonが含まれています。

データサイロの解消に役立つソリューションを発見します

IBMロゴ
IBM Global Chief Data Officeについて

IBM Global Chief Data Officeは、ガバナンスおよび管理システム、ディープ・データおよび分析パートナーシップを含むデータ戦略およびプラットフォームを開発します。この戦略は、ビジネス・データをビジネス価値に変えます。これらのプラットフォームは、企業全体のビジネス分析と人材の開発と拡大のための中心的なデータ・ソースになります。これらの革新的なケイパビリティーを組み合わせることで、分析的なインサイトを利用して成長とプロダクティビティーを実現します。

次のステップ
テクノロジー、ビジネス、ソート・リーダーシップの最新情報をお届けするニュースレターを購読してください。 IBMの最新情報をメールでお届けします 統合されたデータとAIプラットフォームがビジネス上のメリットをもたらす お客様事例
脚注

© Copyright IBM Corporation 2022.IBM Corporation、IBM Watson、New Orchard Road、Armonk、NY 10504

2022年3月、米国で作成。

IBM、IBMロゴ、ibm.com、DataStage、Db2、IBM Cloud Pak、OpenPages、およびIBM Watsonは世界の多くの国で法的登録されたInternational Business Machines Corporationの商標です。その他の製品名・サービス名はIBMまたは他社の商標である可能性があります。IBM商標の最新リストは、ウェブ上の「著作権および商標情報」 https://www.ibm.com/jp-ja/legal/copy trade。

Red Hat®およびOpenShift®は、米国およびその他の国におけるRed Hat社またはその関連会社の商標または登録商標です。

本書は最初の発行日時点における最新情報を記載しており、IBMにより予告なしに変更される場合があります。IBMが事業を展開している国であっても、特定の製品を利用できない場合があります。

記載されている性能データとお客様事例は、例として示す目的でのみ提供されています。実際の結果は特定の構成や稼働条件によって異なります。本資料の情報は「現状のまま」で提供されるものとし、明示または暗示を問わず、商品性、特定目的への適合性、および非侵害の保証または条件を含むいかなる保証もしないものとします。IBM製品は、IBM所定の契約書の条項に基づき保証されます。

お客様は、自己の責任で関連法規および規則を順守しなければならないものとします。IBMは法律上の助言を提供することはなく、また、IBMのサービスまたは製品が、いかなる法規もしくは規則をお客様が順守していることの裏付けを、表明ならびに保証するものでもありません。