Hybrid Data Management

データレイクハウス・アーキテクチャーでデータレイクをモダナイゼーションする方法

記事をシェアする:

データレイクは10年以上前から存在し、世界の大企業の分析業務を支えてきました。しかし、導入されたデータレイクの大部分は今やデータの「沼地」(データスワンプ)になっているという意見もあります。この論議のどちらに与するにせよ、現実にはデータレイク・システムにはまだ多くのデータが保持されています。このような大量のデータを、移動、移行、モダナイゼーションすることは容易ではありません。

モノリシック・データレイク・アーキテクチャーの課題

データレイクは、大まかに言えば、大規模なデータの単一リポジトリーです。データのオリジナルの形式で保存されることもあれば、専門エンジンによる利用に適した別の形式に最適化されることもああります。

より一般的なデータレイクのひとつである Hadoop の場合、オープンソース・ソフトウェアを使用してそのようなリポジトリーを実装し、すべてを汎用ハードウェアで実行できるという公約は、非常に低コストで大量のデータをシステムに保存できることを意味しました。 データはオープンデータ形式で永続化され、その利用をデモクラタイジングし、また自動的に複製されるため、高い可用性を維持することができます。標準の処理フレームワークは、進行する障害から回復する能力を提供しました。これは間違いなく、従来の分析環境とは大きく異なるものでした。従来の分析環境はベンダーロックが多く、スケールアップしたデータを扱うことができませんでした。

もうひとつの予期せぬ課題は、ビッグデータの処理フレームワークとしてSpark が導入されたことです。Sparkは、データ変換、ストリーミング、SQLをサポートしているため、急速に普及しました。しかし、既存のデータレイク環境では決して共存できませんでした。その結果、Sparkを実行できるようにするためだけに専用のコンピュート・クラスターを追加することになりがちでした。

それから約15年が経過し、このテクノロジーにはトレードオフと妥協が伴うことが明らかになりました。導入が急速に進んだことで、企業はすぐにデータレイクに何があるのかわからなくなったのです。また、同様の困難として、データがどこから来て、どのように取り込まれたのか、その過程でどのように変換されたのかもわからなくなりました。データ・ガバナンスは、このテクノロジーにとって未踏のフロンティアです。ソフトウェアはオープンかもしれませんが、誰かがその使い方を学び、保守し、サポートする必要があります。コミュニティーのサポートに頼っても、事業運営に必要なターンアラウンドタイムが得られるとは限りません。レプリケーションによる高可用性は、より多くのディスクに、より多くの複製データを作成することで、より多くのコストがかかり、より頻繁に障書が発生することになりました。また可用性の高い分散処理フレームワークは、回復力を優先する代償にパフォーマンスをあきらめることになりました(インタラクティブなアナリティクスやBIでは、桁違いにパフォーマンスが低下します)。

データレイクをモダナイズする理由

データレイクは、企業が特定の利用シナリオに焦点を絞ることで成功を収めてきました。しかし、導入されたデータレイクをモダナイゼーションし、システム基盤、スキル、システムに保存されているデータへの投資を保護することが急務であることは明らかです。

解決策を探すにあたって、業界は既存のデータ・プラットフォーム技術とその強みに注目しました。そして、従来の(言うなればレガシーな)データウェアハウスやデータマートの主要機能と、データレイクの最も効果的な機能を組み合わせることが、効果的なアプローチであることが明らかになりました。最小の必要条件として、いくつかの項目がすぐに上位に挙がりました:

  • 増加し続けるデータ規模の需要を満たすことができる、回復力と拡張性のあるストレージ
  • 誰でもデータにアクセスできるようにしながらも、明確に定義された構造を持ち高パフォーマンスのために最適化されたオープンデータ形式
  • 複数の消費エンジンやフレームワークを可能にするオープンな(共有可能な)メタデータ
  • データ更新能力(ACID 特性)とトランザクションの並行実行のサポート
  • 包括的なデータ・セキュリティーとデータ・ガバナンス(データリネージ、地理的分散を含むフル機能のデータ・アクセス・ポリシーの定義と実施など)

以上のことから、データレイクハウスが登場しました。データレイクハウスは、データウェアハウスとデータレイクの長所を融合させて、統一されたまとまりのあるデータ・マネジメント・ソリューションを備えたデータ・プラットフォームです。

データレイクをwatsonx.dataでモダナイズする利点

現在のアナリティクスの岐路に対する IBMの答えが、watsonx.dataです。watsonx.dataはデータを大規模に管理するための新しいオープンなデータストアで、企業は既存のデータレイクやデータウェアハウスを移行することなく、囲い込み、強化、モダナイゼーションすることができます。ハイブリッド型であるため、お客様が管理する基盤(オンプレミスやIaaS)およびクラウド上で稼働させることができます。watsonx.dataはレイクハウス・アーキテクチャー上に構築され、すべてのフォームファクターに単一のソリューション・セット(および共通のソフトウェア・スタック)が組み込まれています。

市場の競合製品とは対照的に、IBMのアプローチはオープンソースのスタックとアーキテクチャーを基盤としています。これらは新しいコンポーネントではなく、業界で確立されたものです。IBMは、これらの相互運用性、共存性、メタデータ交換に配慮しています。ユーザーにとってなじみのある基本的なコンセプトであるため直感的に理解でき、ユーザーは高レベルのアーキテクチャーをすぐに使い始めることができます。その結果、参入コストと導入コストが大きく削減されます:

  • オブジェクト・ストア上のオープンデータ(およびテーブルフォーマット)
  • S3によるデータアクセス
  • PrestoとSpark によるコンピュート消費(SQL、データサイエンス、変換、ストリーミング)
  • (Hive と互換性のある構造体を介した)オープンなメタデータの共有

watsonx.data は、データレイクやデータウェアハウスの数十年にわたる投資を保護する手段を企業に提供ます。watsonx.data は、企業にとって最も重要な利用シナリオに焦点を当て、各コンポーネントを迅速に拡張し、段階的にモダナイゼーションすることを可能にします。

重要な特徴は、統一されたデータ・プラットフォームを通じて、ユーザーが適切なタイミングで、適切な業務に、適切なテクノロジーを活用できるようにするマルチエンジン戦略です。watsonx.dataは、お客様が完全にダイナミックな階層型ストレージ(および関連するコンピュート)を実装することを可能にします。これにより、データ管理と処理のためのコストを大幅に削減することができます。

また既存のデータレイクを最新のデータレイクハウスでモダナイズすることが最終的な目標の場合、watsonx.data は、コンピューティングの選択によってデータ移行とアプリケーション移行を最小限に抑えることで、モダナイゼーションの工程を容易にします。

次のステップ

過去数年間、データレイクはほとんどの企業のデータ・マネジメント戦略において重要な役割を果たしてきましたが、真のハイブリッド・アナリティクス・クラウド・アーキテクチャーに向けてデータ・マネジメント戦略を進化させ、モダナイゼーションすることを目標とする場合、データレイクハウス・アーキテクチャー上に構築されるIBMの新しいデータストア、watsonx.data をぜひご検討ください。

この記事は英語版ブログ「How to modernize data lakes with a data lakehouse architecture」(2023年7月5日公開)を翻訳したものです。


関連情報

IBMのサービスとソリューション

More Hybrid Data Management stories

法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(後編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 前編での法務・AI ...続きを読む


ジェネレートするAI。クリエートする人類 。 | Think Lab Tokyo 宇宙の旅(THE TRIP)

IBM Data and AI, IBM Partner Ecosystem, IBM Sustainability Software

その日、船長ジェフ・ミルズと副船長COSMIC LAB(コズミック・ラブ)は、新宿・歌舞伎町にいた。「THE TRIP -Enter The Black Hole-」(以下、「THE TRIP」)と名付けられた13度目の ...続きを読む


法務・AIリスクのスペシャリスト三保友賀が語る「ダイバーシティー」 | インサイド・PwDA+7(前編)

Data Science and AI, IBM Sustainability Software

日本IBMにて法務、特にAI倫理・リスクのスペシャリストとして、そして同時にLGBTQ+コミュニティー*1やPwDAコミュニティー*2のアライとして積極的に活動している三保友賀さんにお話を伺いました。 <もくじ> 企業内 ...続きを読む