10年以上前から、データレイクが世界最大手の企業の一部の分析業務をサポートしています。しかし、これらのデプロイメントの大部分が現在ではデータの「沼地」になっていると主張する人もいます。この論争のどちらの側に立つかに関係なく、これらのシステムにはまだ大量のデータが保存されているのが現実です。このようなデータ量を移動、移行、またはモダナイズするのは簡単ではありません。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
データレイクとは、大まかに言うと、大規模なデータの単一のリポジトリです。データは、そのまま元の形式で保管することも、特殊なエンジンによる使用に適した別の形式に最適化することもできます。
最も人気のあるデータレイクの1つであるHadoopの場合、オープンソース・ソフトウェアを使用してそのようなリポジトリーを実装し、すべてを汎用ハードウェア上で実行することが約束されていたため、非常に低コストで大量のデータをシステムに保存できました。データはオープン・データ形式で保存できるため、データ消費が民主化されるだけでなく、自動的に複製されるため、高可用性を維持できます。デフォルトの処理フレームワークでは、航空機が飛行中に障害から回復するための機能が得られました。これは疑いもなく、従来の分析環境からの大きな逸脱であり、多くの場合、ベンダー・ロックインや大規模なデータの操作不能を意味していました。
もう 1 つの予期せぬ課題は、ビッグデータの処理フレームワークとして Spark を導入したことです。これはデータ変換、ストリーミング、SQLをサポートしているため、急速に人気を博しました。しかし、既存のデータレイク環境内で友好的に共存することはできませんでした。その結果、Spark を実行できるようにするためだけに専用のコンピューティング クラスターが追加されることがよくありました。
それから約 15 年が経過し、このテクノロジーに伴うトレードオフや妥協が現実のものとなってきました。これらは急速に普及したため、顧客はすぐにデータレイクに何が入ったのかわからなくなってしまいました。そして同様に困難だったのが、データがどこから来て、どのように取り込まれ、その過程でどのように変換されたかを判断できなかったということです。データ ガバナンスは、このテクノロジーにとって未開拓の領域のままです。ソフトウェアはオープンであっても、誰かがその使用方法、保守方法、サポート方法を学ぶ必要があります。コミュニティーのサポートに頼るだけでは、ビジネス・オペレーションに求められる所要時間は必ずしも得られません。複製による高可用性が得られても、より多くのディスクへのデータコピーの増加、ストレージコストの増加、および障害の頻度の増加が伴います。可用性の高い分散処理フレームワークでは、レジリエンスを優先してパフォーマンスを犠牲にすることになりました。つまり、対話型分析とBIのパフォーマンスが桁違いに低下したのです。
データレイクは、企業が特定の使用シナリオに焦点を絞ることができた場合に有効に活用できることが証明されています。また、これらのデプロイメントをモダナイズし、これらのシステム内のインフラストラクチャー、スキル、データへの投資を保護することが緊急に必要であることが明らかになっています。
その答えを模索する中で、業界は既存のデータ・プラットフォーム・テクノロジーとその強みに注目しました。効果的なアプローチは、従来の(いわゆるレガシー)ウェアハウスやデータ・マートの主要な機能と、データレイクの最も効果的な機能を組み合わせることであることが明らかになりました。次のような項目が代表的な課題としてすぐに上位に浮上しました。
これらのことがデータレイクハウスの登場につながりました。データレイクハウスは、データウェアハウスとデータレイクの長所を融合させたデータプラットフォームであり、統合された一貫性のあるデータ管理ソリューションです。
現在の分析の岐路に対する IBM の答えはwatsonx.dataです。これは、データを大規模に管理するために、企業が既存のデータレイクやデータウェアハウスを移行することなく囲い込み、拡張し、モダナイズできるようにする、新しいオープン・データ・ストアです。そのハイブリッドな性質により、顧客管理のインフラストラクチャ (オンプレミスおよび/または IaaS) とクラウドで実行できます。また、レイクハウス アーキテクチャに基づいて構築されており、すべてのフォーム ファクターに対応する単一のソリューション セット (および共通ソフトウェア スタック) が組み込まれています。
市場に出回っている競合製品とは対照的に、IBMのアプローチは、オープンソースのスタックとアーキテクチャーに基づいて構築されています。これらは新しいコンポーネントではなく、業種で定評のあるコンポーネントです。IBMは相互運用性、共存、メタデータ交換に配慮してきました。ユーザーは、使い慣れた直感的な高レベルのアーキテクチャと基本概念により、すぐに使い始めることができるため、導入コストと導入コストを大幅に削減できます。
watsonx.dataは、データレイクとウェアハウジングに対する数十年にわたる投資を保護する手段を企業に提供します。これにより、各コンポーネントを最も重要な使用シナリオに集中させながら、即座に拡張し、段階的にモダナイズできます。
主な差別化要因は、ユーザーが統合データ・プラットフォームを介して、適切なタイミングで適切な仕事に適切なテクノロジーを活用できるマルチエンジンストラテジーです。watsonx.data使用すると、顧客は完全に動的な階層型ストレージ (および関連するコンピューティング) を実装できます。これにより、時間が経つにつれて、データ管理と処理のコストが大幅に削減されます。
既存のデータレイクのデプロイメントを最新のデータレイクハウスでモダナイズすることが最終的な目的の場合、watsonx.dataはコンピューティングの選択によってデータ移行とアプリケーション移行を最小限に抑え、そのタスクを容易にします。
過去数年間、データレイクはほとんどの企業のデータ管理戦略において重要な役割を果たしてきました。真のハイブリッド分析クラウド・アーキテクチャーに向けてデータ管理戦略を進化させモダナイズすることを目標としているのなら、データレイクハウス・アーキテクチャー上に構築されたIBMの新しいデータストアであるwatsonx.dataが断然おすすめです。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。