データウェアハウス、またはエンタープライズ・データウェアハウス(EDW)は、異なるソースのデータを単一の一貫性のある中央データ・ストアに集約して、データ分析、データ・マイニング、人工知能(AI)、および機械学習をサポートするシステムです。 データウェアハウス・システムを使用すると、組織は標準のデータベースではできないようなやり方で膨大な量(ペタバイト)の履歴データに強力な分析を実行することができます。
データウェアハウジング・システムは、過去30年以上にわたってビジネス・インテリジェンス(BI)ソリューションの一部となっていましたが、近年の新たなデータ型とデータ・ホスティング方法の台頭により、進化しました。 従来、データウェアハウスはオンプレミスでホストされ、多くの場合はメインフレーム・コンピューターでホストされていました。またその機能は他のソースからのデータの抽出、データのクレンジングと準備、リレーショナル・データベースでのデータのロードと維持を重視していました。 さらに最近では、データウェアハウスが専用の機器やクラウドでホストされることもあり、大半のデータウェアハウスには分析機能やデータ可視化およびプレゼンテーション・ツールが追加されています。
IBMのデータウェアハウス・ソリューション
一般的に、データウェアハウスは以下で構成される3層アーキテクチャーとなっています。
OLAP( オンライン分析処理)は、大量のデータに対してデータウェアハウスのような統合された中央データ・ストアから高速で多次元分析を実施するソフトウェアです。 OLTP(オンライン・トランザクション処理)は、通常インターネット経由で多数の人により実行される膨大なデータベース・トランザクションを、リアルタイムで処理できるようにするものです。 OLAPとOLTPの間の主な違いは、名前にあります。OLAPは本質的に分析であるのに対し、OLTPはトランザクションです。
OLAPツールは、履歴データとトランザクション・データの両方を含むデータウェアハウスのデータに多次元分析を行うように設計されています。 OLAPの一般的な用途には、データ・マイニングやその他のビジネス・インテリジェンス・アプリケーション、複雑な解析計算、予測シナリオの他、財務分析、予算編成や予測プランニングのようなビジネス・レポート作成機能があります。
OLTPは、最近のトランザクションをできるだけ迅速かつ正確に処理してトランザクション指向のアプリケーションをサポートするように設計されています。 OLTPの一般的な用途には、ATM、 e-コマース・ソフトウェア、クレジット・カード決済システム、オンライン予約、予約システム、および記録管理ツールなどがあります。
この2つのシステムの違いについて詳しくは、「OLAPとOLTPの相違点(英語)」を参照してください。
スキーマは、データベース内またはデータウェアハウス内でのデータの編成方法です。 スキーマ構造には主にスター・スキーマとスノーフレーク・スキーマがあり、これがデータ・モデルの設計に影響を与えます。
スター・スキーマ: このスキーマは、多数の非正規化されたディメンション表に組み合わせることができる1つのファクト表で構成されています。 スキーマの中でも最もシンプルで一般的な種類であると考慮されており、ユーザーは照会をしながらその高速を享受します。
スノーフレーク・スキーマ: 幅広く使用されてはいませんが、スノーフレーク・スキーマはデータウェアハウスにおけるまた別の組織構造です。 この場合、ファクト表は多数の正規化されたディメンション表に接続されており、これらのディメンション表にはチャイルド表があります。 スノーフレーク・スキーマのユーザーは、低いデータ冗長性を享受しますが、それによって照会パフォーマンスが犠牲となります。
データウェアハウス、データベース、データレイク、およびデータマートは、すべて同義で使用される傾向のある用語です。 用語は似ていますが、重要な違いがあります。
データウェアハウスは、データ分析用に設計された事前定義されたスキーマを使用して、構造化された1つの中央レポジトリーに複数のソースから生データを収集します。 データレイクは、事前定義されたスキーマのないデータウェアハウスです。 その結果、データウェアハウスよりも多くの種類の分析が可能です。 データレイクは、一般にApache Hadoopのようなビッグデータ・プラットフォーム上に構築されます。
データレイクについて詳しくは、次の動画を参照してください。
クラウド・データウェアハウスは、クラウドで実行されるために特別に構築されたデータウェアハウスであり、マネージド・サービスとして顧客に提供されます。 クラウド・ベースのデータウェアハウスは、より多くの企業がクラウド・サービスを利用し、オンプレミスの データセンター ・フットプリントを縮小しようとするにつれ、この5年から7年の間に人気が高まりました。
クラウド・データウェアハウスを使用すると、物理的なデータウェアハウス・インフラストラクチャーはクラウド企業が管理することになり、これはお客様がハードウェアやソフトウェアに先行投資をする必要がなく、データウェアハウス・ソリューションを管理したり維持したりする必要もないことを意味します。
企業は、データウェアハウス・ライセンスを購入し、その後データウェアハウスを自社のオンプレミス・インフラストラクチャーに実装できます。 これは通常、クラウド・データウェアハウス・サービスよりも高価になりますが、政府機関、金融機関、またはその他自社のデータをもっと管理したい組織、厳密なセキュリティやデータ・プライバシー標準や規制に準拠する必要のある組織には優れた選択肢となることもあります。
データウェアハウス・アプライアンスは、CPU、ストレージ、オペレーティング・システム、データウェアハウス・ソフトウェアといったハードウェアとソフトウェアの事前統合バンドルであり、企業はその ネットワークに接続してそのまま使用を開始できます。 データウェアハウス・アプライアンスは、初期費用、実装速度、拡張のしやすさ、そして経営管理と言う面では、クラウドとオンプレミス実装の間に位置するものです。
データウェアハウスは、以下に対する基盤を提供します。
IBMでは、オンプレミス、クラウド、および統合アプライアンス のデータウェアハウス・ソリューションを提供しており、すべてがデータ分析および予測に基づく洞察やデータ駆動型の意思決定に対して最適化された人工知能基盤の上に構築されています。 3つのすべてがIBM Db2ファミリー製品を構成し、照会を合理化する共通SQLエンジンやデータ管理性能を強化する機械学習機能を提供しています。
IBM Db2 Warehouse on Cloud は、フルマネージドの弾力的なクラウド・データウェアハウスであり、ストレージとコンピュートの独立した拡張を実現して、高度に最適化された列指向型データ・ストア、実用的な圧縮、およびインメモリー処理で分析と機会学習ワークロードを強化します。 より小さなデータマートとスピンアップにより、高性能分析用に構築され、複数のクラウド・プロバイダーで導入でき、ストレージは40 GB以上の弾力的なデータウェアハウス、 Flex Oneが追加できます。
IBM Netezzaアプライアンスの次の進化形であるNetezza Performance Serverは、 IBM Cloud Pak for Data System のハイパー・コンバージド・アーキテクチャー上に構築され、企業のどんなに複雑な分析にも クラウドネイティブ の意思決定支援システムを提供します。
IBM InfoSphere DataStage は、高度なエンタープライズETLを実現するデータウェアハウス・ツールであり、複数のエンタープライズ・システム全体でデータを統合する マルチクラウド ・プラットフォームを提供します。
また、データサイエンスと機械学習を提供する IBM Watson Studioによって、組織はデータ資産をうまく活用して予測をビジネス・プロセスや最新アプリケーションに投入することができます。
データウェアハウスの詳細については、IBMidにサインアップして、 IBM Cloudのアカウントを作成してください。
IBMのデータウェアハウス・ソリューションは、機械学習を含む分析ワークロードの構造化データと非構造化データをサポートするためのパフォーマンスと柔軟性を提供します。
高性能な分析とAIのために開発されたフルマネージドの柔軟なクラウド・データウェアハウスの機能について説明します。
高度なデータウェアハウスと、オンプレミスとクラウドでの両方で利用可能な強力なデータベース内分析を備えた分析プラットフォームの詳細をご覧ください。
IBM Cloud Pak for Data Systemは、事前に構成され、管理されたセキュリティ機能豊富な環境をオンプレミスで実現する、オールインワンのハイブリッド・クラウド・プラットフォームです。
AIモデルを構築、実行、管理します。 オープンソース・コードやビジュアル・モデリングを使用して、任意のクラウド上でデータを準備し、モデルを構築できます。 結果の予測と最適化を行うこともできます。
IBM DataStageをご検討ください。オンプレミス環境とクラウド環境全体にわたるすべてのデータ型をほぼリアルタイムで統合する、強力でスケーラブルなETLプラットフォームです。