タグ

データ・レイクハウス・アーキテクチャーを使用してデータレイクをモダナイズする方法

ドイツ、アッパーバヴァリアのシルヴェンシュタイン湖とシルヴェンシュタイン橋の上からの写真

10年以上前から、データレイクが世界最大手の企業の一部の分析業務をサポートしています。しかし、これらのデプロイメントの大部分が現在ではデータの「沼地」になっていると主張する人もいます。この論争のどちらの側に立つかに関係なく、これらのシステムにはまだ大量のデータが保存されているのが現実です。このようなデータ量を移動、移行、またはモダナイズするのは簡単ではありません。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

一枚岩のデータレイク・アーキテクチャーの課題

データレイクとは、大まかに言うと、大規模なデータの単一のリポジトリです。データは、そのまま元の形式で保管することも、特殊なエンジンによる使用に適した別の形式に最適化することもできます。

最も人気のあるデータレイクの1つであるHadoopの場合、オープンソース・ソフトウェアを使用してそのようなリポジトリーを実装し、すべてを汎用ハードウェア上で実行することが約束されていたため、非常に低コストで大量のデータをシステムに保存できました。データはオープン・データ形式で保存できるため、データ消費が民主化されるだけでなく、自動的に複製されるため、高可用性を維持できます。デフォルトの処理フレームワークでは、航空機が飛行中に障害から回復するための機能が得られました。これは疑いもなく、従来の分析環境からの大きな逸脱であり、多くの場合、ベンダー・ロックインや大規模なデータの操作不能を意味していました。

もう 1 つの予期せぬ課題は、ビッグデータの処理フレームワークとして Spark を導入したことです。これはデータ変換、ストリーミング、SQLをサポートしているため、急速に人気を博しました。しかし、既存のデータレイク環境内で友好的に共存することはできませんでした。その結果、Spark を実行できるようにするためだけに専用のコンピューティングクラスターが追加されることがよくありました。

それから約 15 年が経過し、このテクノロジーに伴うトレードオフや妥協が現実のものとなってきました。これらは急速に普及したため、顧客はすぐにデータレイクに何が入ったのかわからなくなってしまいました。そして同様に困難だったのが、データがどこから来て、どのように取り込まれ、その過程でどのように変換されたかを判断できなかったということです。データガバナンスは、このテクノロジーにとって未開拓の領域のままです。ソフトウェアはオープンであっても、誰かがその使用方法、保守方法、サポート方法を学ぶ必要があります。コミュニティーのサポートに頼るだけでは、ビジネス・オペレーションに求められる所要時間は必ずしも得られません。複製による高可用性が得られても、より多くのディスクへのデータコピーの増加、ストレージコストの増加、および障害の頻度の増加が伴います。可用性の高い分散処理フレームワークでは、レジリエンスを優先してパフォーマンスを犠牲にすることになりました。つまり、対話型分析とBIのパフォーマンスが桁違いに低下したのです。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

データレイクをモダナイズする理由

データレイクは、企業が特定の使用シナリオに焦点を絞ることができた場合に有効に活用できることが証明されています。また、これらのデプロイメントをモダナイズし、これらのシステム内のインフラストラクチャー、スキル、データへの投資を保護することが緊急に必要であることが明らかになっています。

その答えを模索する中で、業界は既存のデータ・プラットフォーム・テクノロジーとその強みに注目しました。効果的なアプローチは、従来の（いわゆるレガシー）ウェアハウスやデータ・マートの主要な機能と、データレイクの最も効果的な機能を組み合わせることであることが明らかになりました。次のような項目が代表的な課題としてすぐに上位に浮上しました。

増え続けるデータスケールの需要を満たすことができる、レジリエンスとスケーラブルなストレージ。
誰でもデータにアクセスでき、高性能に最適化され、明確に定義された構造を持つオープンなデータ形式。
複数の消費エンジンまたはフレームワークを可能にするオープンな (共有可能な) メタデータ。
データを更新する機能 (ACID プロパティ) とトランザクションの同時実行性をサポートする機能。
包括的なデータ・セキュリティーとデータ・ガバナンス（例：地理分散を含む系統的、包括的なデータアクセスポリシーの定義および実施）

これらのことがデータレイクハウスの登場につながりました。データレイクハウスは、データウェアハウスとデータレイクの長所を融合させたデータプラットフォームであり、統合された一貫性のあるデータ管理ソリューションです。

データレイクをwatsonx.dataにモダナイズすることのメリット

現在の分析の岐路に対する IBM の答えはwatsonx.dataです。これは、データを大規模に管理するために、企業が既存のデータレイクやデータウェアハウスを移行することなく囲い込み、拡張し、モダナイズできるようにする、新しいオープン・データ・ストアです。そのハイブリッドな性質により、顧客管理のインフラストラクチャ (オンプレミスおよび/または IaaS) とクラウドで実行できます。また、レイクハウスアーキテクチャに基づいて構築されており、すべてのフォームファクターに対応する単一のソリューションセット (および共通ソフトウェアスタック) が組み込まれています。

市場に出回っている競合製品とは対照的に、IBMのアプローチは、オープンソースのスタックとアーキテクチャーに基づいて構築されています。これらは新しいコンポーネントではなく、業種で定評のあるコンポーネントです。IBMは相互運用性、共存、メタデータ交換に配慮してきました。ユーザーは、使い慣れた直感的な高レベルのアーキテクチャと基本概念により、すぐに使い始めることができるため、導入コストと導入コストを大幅に削減できます。

オブジェクトストアによるオープンデータ (およびテーブル形式)
S3を介したデータ・アクセス
コンピューティング消費用の Presto と Spark (SQL、データサイエンス、トランスフォーメーション、ストリーミング)
Hiveおよび互換性のある構造を介したオープンなメタデータ共有。

watsonx.dataは、データレイクとウェアハウジングに対する数十年にわたる投資を保護する手段を企業に提供します。これにより、各コンポーネントを最も重要な使用シナリオに集中させながら、即座に拡張し、段階的にモダナイズできます。

主な差別化要因は、ユーザーが統合データ・プラットフォームを介して、適切なタイミングで適切な仕事に適切なテクノロジーを活用できるマルチエンジンストラテジーです。watsonx.data使用すると、顧客は完全に動的な階層型ストレージ (および関連するコンピューティング) を実装できます。これにより、時間が経つにつれて、データ管理と処理のコストが大幅に削減されます。

既存のデータレイクのデプロイメントを最新のデータレイクハウスでモダナイズすることが最終的な目的の場合、watsonx.dataはコンピューティングの選択によってデータ移行とアプリケーション移行を最小限に抑え、そのタスクを容易にします。

次に何ができるか

過去数年間、データレイクはほとんどの企業のデータ管理戦略において重要な役割を果たしてきました。真のハイブリッド分析クラウド・アーキテクチャーに向けてデータ管理戦略を進化させモダナイズすることを目標としているのなら、データレイクハウス・アーキテクチャー上に構築されたIBMの新しいデータストアであるwatsonx.dataが断然おすすめです。