クラウド・データレイク、データウェアハウス、データ・マートの比較

抽象的な流れる光の軌跡

この投稿では、現時点で存在する3つの異なるタイプのクラウド・ストレージ・リポジトリーを取り上げ、その違いと、どのソリューションがお客様のユースケースに最適かを検討します。

日常業務に利用する場合でも、特定のタスクに利用する場合でも、ビジネス・データ(特にビッグデータ)用のクラウドベースのデータ・ストレージは今日において最も注目されています。

データは、顧客や潜在顧客を対象とするプログラムの作成から、製造および業務プロセスの最適化、ウイルス検査およびワクチンの開発、テスト、配布、追跡まで、多くのビジネス機能を推進します。現代のビジネスでは、必要なときに必要なデータを利用できることが求められます。ただし、ニーズに合った最適なオプションを見つけることは簡単ではなく、データのカテゴリーごとに複数の異なるリポジトリーが必要になる場合があります。

まずは基本から始め、ビジネスのニーズを満たすために1つのデータ・リポジトリーまたは複数種類のデータ・リポジトリーが必要になる可能性がある事例をいくつか見ていきましょう。

 

3種類のクラウド・ストレージ・リポジトリー

現時点で3つの異なるタイプのクラウド・ストレージ・リポジトリーが存在し、それぞれが特定のニーズに対応するための異なる目的を果たしています。

データレイク

データレイクは、非構造化または半構造化された未加工データの大規模なリポジトリーです。このデータはさまざまなソースから集約され、単純に保管されます。特定の目的に合わせたり、特定のフォーマットに合わせて変更されることはありません。このデータを分析用に準備するには、時間のかかるデータ準備、クレンジング、統一性を保つための再フォーマットが必要になります。データレイクは、停電、トラフィック、犯罪、人口統計に関する情報を保管する自治体や組織にとっての優れたリソースです。データは後日、DPWや緊急サービスの予算とリソースの最新情報として使用できます。

データウェアハウス

データウェアハウスは、多数のソースからのデータを単一の集中リポジトリーに集約したもので、データ品質と形式を統一し、データサイエンティストがデータ・マイニング人工知能(AI)機械学習、そして最終的にはビジネス分析やビジネス・インテリジェンスに活用できるようにします。大都市では、データウェアハウスを使用して、スピード違反切符、犬の登録、納税、その他の取引など、さまざまな分野の電子取引を集約することができます。この構造化データは市によって分析され、フォローアップ請求書を発行し、国勢調査データと警察の記録を更新します。また、開発者が車載センサーによって生成されたテラバイト単位のデータを集約し、自動運転ソリューションの意思決定プロセスを支援するために使用することもできます。

データ・マート

データ・マートは、企業または事業単位の特定のユーザーにメリットをもたらすデータウェアハウスのサブセットです。データ・マートは、製造会社のマーケティング部門で使用され、マーケティング計画の作成を支援する理想的なターゲット層やペルソナを決定するために使用できます。また、製造部門で性能とエラー率を分析し、継続的改善を実現するために使用することもできます。データ・マート内のデータ・セットは、多くの場合、現在の分析と実行可能な成果を得るためにリアルタイムで利用されます。

データレイク、データウェアハウス、データ・マートの比較:主な相違点

3種類のクラウド・データ・リポジトリーはすべてデータを保持していますが、それぞれの間には明確な違いがあります。例えば、データウェアハウスとデータレイクはどちらも大規模なデータの集合体ですが、データレイクはほとんど構造化されていないため、一般に実装と保守のコスト効率が高くなります。

データレイク・アーキテクチャーは、大量のデータとクラウドベースのコンピューティングをサポートするために、過去数年にわたって進化してきました。セントラル・ロケーションは多数のデータ・ソースから大量のデータを受信します。

データウェアハウスは、次の3つの方法のいずれかで構造化できます。

  1. クラウド・プロバイダーが提供するマネージド・サービスとして
  2. 規制遵守に役立つ社内管理と厳格なセキュリティー・プロトコルを提供するソフトウェア・ソリューションとして
  3. 一般にプラグ・アンド・プレイのソフトウェアとハードウェアのバンドル・ソリューションのアプライアンスとして

データウェアハウス内のデータは、データレイク内のデータよりも簡単にさまざまな用途に活用できます。その理由は、データウェアハウスが構造化されており、より簡単にマイニングや分析ができるためです。

一方、データ・マートは、データレイクやデータウェアハウスに比べてデータ量が少なく、特定の用途や人口統計、事業単位ごとにデータが分類されています。データ・マートは、データの論理構造によって定義されるさまざまな形式(スター、スノーフレーク、ボールト)が存在します。ボールト構造は他の形式よりもアジャイルかつ柔軟でスケーラブルです。

データ・マートには、次の3つのタイプがあります。

  1. 依存型データ・マートは、エンタープライズ・データウェアハウス・パーティションで構成されています。これは、ウェアハウス内のプライマリー・データのサブセットです。
  2. 独立型データ・マートは、ビジネスの特定の部分にサイロ化されたスタンドアロン・システムです。
  3. ハイブリッド型データ・マートは、ウェアハウスと独立したソースからのデータで構成されています。このタイプは通常、より高速なデータ・アクセスとユーザーフレンドリーなインターフェースを提供します。

選択するデータ・リポジトリーのタイプとその構造は、ビジネスのニーズと要求に大きく依存します。あなたのビジネスにとって意味がある場合は、柔軟性、拡張性、そして問題解決と意思決定に対するより広範な情報に基づくアプローチを実現するために、ハイブリッドクラウド・ベースのストレージのメリットを活かしてください。

クラウドベースのデータ・リポジトリー・ソリューションの業界ユースケース

製造業

ある大手多国籍製造会社は、さまざまな用途のために大量のデータを生成しています。データの中には重要なものもあれば、将来的に目的が生まれるものも、そうでないものも存在します。同社は、バルク・データのストレージにクラウドベースのデータウェアハウスを使用していますが、これは他のデータ・ストレージよりも低コストです。ただし、同社はビジネスの特定分野に依存するデータ・マートも導入しており、財務、製造、マーケティングなどの部門のビジネス・ユーザーに価値を提供しています。これらの各マートには、分析しやすいように形式化された、特定の用途向けに指定されたデータが含まれています。例:

  • 財務部門は、データ・マートを使用して顧客の決算書を作成し、貸借対照表を管理しています。
  • 製造部門は、データ・マートを使用して組立ラインの効率性を分析し、AIソリューションにインプットするためのデータを処理し、調達データベースを維持しています。
  • マーケティング部門は、データ・マートを使用してキャンペーンやコミュニケーションの有効性を判断し、調査済みの回答を分析および集計しています。

大規模な自治体

大規模な自治体では、手頃な価格で、ある程度使いやすい方法でデータを提供する手頃なソリューションが必要です。同自治体は、クラウド上のデータレイクを使用して交通データを管理しています。現時点ではそのデータを分析して対策を講じる余裕はありませんが、資金が確保できれば準備が整うと見られています。また、オンプレミスのソフトウェア・データウェアハウスを使用して、税金の請求ステータスを追跡しています。さらに、同自治体はハイブリッド・データ・マートを使用して住民間のウイルスの蔓延を追跡し、様々な病院や自治体の医療サービスからのデータを単一のリポジトリに集約して、保健局が分析および利用できるようにしています。

クラウドベースのデータ・ストレージに関するよくある誤解

クラウドベースのデータ・リポジトリーには多くの誤解があります。最もよくある誤解には、次のようなものがあります。

  • 1つのソリューションですべてに対応できる:クラウド・データ・ストレージ・ソリューションを検討する場合、これが該当することはあり得ません。予算の制約、目標、リソースの割り当て、好みはビジネスごとに異なります。ビジネス・ニーズと予算を評価し、それに基づいて目標達成に役立つソリューションを決定することが重要です。
  • データ・アイランドによりデータがリポジトリーに取り残される:これは誤りです。クラウドベースのストレージの本質は、適切な権限の下であれば、どこからでもデータにアクセスできることです。
  • クラウドベースのソリューションは安全性が低い:実際には、クラウド・プロバイダーは、定期的な更新と利用可能な最新のプロトコルを提供することで、より強力なセキュリティーを提供できます。多くの場合、最も厳格なセキュリティー・ソリューションでデータを保護するための、最新の認定資格を持つセキュリティー専門家のチームを擁しています。また、多くのプロバイダーは、ソリューションを最適化するために規制遵守機関と協力するチームを擁しています。しかし、一部の業界(医療や金融など)では、規制遵守のためにインターネット接続なしでデータにアクセスすることが求められる場合があり、その場合にはオンプレミス設備が必要となります。
  • クラウドベースのデータ・リポジトリーは高価である:クラウドベースのストレージは、クラウドベースのデータ・リポジトリーや大規模なインフラストラクチャー投資、冷却またはフロアスペースのコスト、継続的な保守コスト、または社内の専門家チームが不要であるため、オンプレミス・ソリューションよりも安価になります。月額費用はベンダーまたはクラウド・プロバイダーによって異なります。

 

ビジネスに最適なクラウドベースのストレージ・ソリューションを判断する方法

各ビジネスは、固有のリソース、目標、課題を備えたユニークな存在です。選択肢を慎重に評価して、ニーズに最適なソリューションを決定しましょう。次のポイントを考慮してください。

  • ビジネスとテクノロジーの目標
  • ご予算
  • ストレージを必要とするデータ量
  • 必要なアクセス頻度
  • 現在または短期的な特定のニーズの有無

これらの考慮事項は、どのソリューションまたはソリューションの組み合わせが目標達成に役立つかを判断するのに役立ちます。

クラウド内のIBMデータ・リポジトリー:ソリューションと管理

IBMは、クラウド・ストレージとデータサイエンスのニーズを満たすためのいくつかのソリューションを提供しています。

  • IBM® Db2 Warehouse on Cloudは、ストレージとコンピューティングの独立したスケーリングを提供する柔軟なクラウド・データウェアハウスです。小規模なデータ・マートでは、高性能分析用に構築された柔軟なデータウェアハウスであるFlex One機能を使用できます。このシステムは、40 GBのストレージ以上の複数のクラウド・プロバイダーにデプロイ可能です。
  • 検討する価値のあるもう1つのオプションは、IBM® InfoSphere Master Data Management(MDM)です。このカスタマイズ可能なシステムは、クリティカルな企業データのあらゆる側面を管理し、ユーザーに単一の信頼できるビューを利用できるようにします。このダッシュボードを通じて、ユーザーは詳細な分析を実施し、実行可能な洞察を得て、企業全体にわたってデータ・ガバナンスとポリシーの完全なコンプライアンスを確保することができます。
  • IBM® Netezza Applianceの進化形であるNetezza Performance Serverは、IBM® Cloud Pak for Data Systemのハイパーコンバージド・アーキテクチャーに基づいて構築されており、企業の最も複雑な分析に対応するクラウドネイティブな意思決定支援システムを提供します。また、現在はAWSとAzureでも利用可能です。
  • データサイエンスと機械学習のソリューションであるIBM® Watson Studioは、組織がデータ資産を活用し、ビジネス・プロセスと最新のアプリケーションに予測を組み込むことを可能にします。

    著者

    Tanmay Sinha

    Program Director, Db2 Portfolio