データウェアハウス
黒と青の背景
データウェアハウス

ビジネス・インテリジェンスのコア・コンポーネントであるデータウェアハウスは、高度な分析と意思決定支援のために多数の異なるソースからのデータをシングルデータ・リポジトリーにまとめます。

注目の製品

Db2 Warehouse on Cloud

Netezza Performance Server


データウェアハウスとは

データウェアハウス、またはエンタープライズ・データウェアハウス(EDW)は、異なるソースのデータを単一の一貫性のある中央データ・ストアに集約して、データ分析、データ・マイニング、人工知能(AI)、および機械学習をサポートするシステムです。 データウェアハウス・システムを使用すると、組織は標準のデータベースではできないようなやり方で膨大な量(ペタバイト)の履歴データに強力な分析を実行することができます。

データウェアハウジング・システムは、過去30年以上にわたってビジネス・インテリジェンス(BI)ソリューションの一部となっていましたが、近年の新たなデータ型とデータ・ホスティング方法の台頭により、進化しました。 従来、データウェアハウスはオンプレミスでホストされ、多くの場合はメインフレーム・コンピューターでホストされていました。またその機能は他のソースからのデータの抽出、データのクレンジングと準備、リレーショナル・データベースでのデータのロードと維持を重視していました。 さらに最近では、データウェアハウスが専用の機器やクラウドでホストされることもあり、大半のデータウェアハウスには分析機能やデータ可視化およびプレゼンテーション・ツールが追加されています。

IBMのデータウェアハウス・ソリューションの詳細をご覧ください。

関連リンク

IBMのデータウェアハウス・ソリューション


データウェアハウス・アーキテクチャー

一般的に、データウェアハウスは以下で構成される3層アーキテクチャーとなっています。

  • 下位層: 下位層は、通常はリレーショナル・データベース・システムであるデータウェアハウス・サーバーで構成され、抽出、変換、ロード(ETL)として知られるプロセスまたは抽出、ロード、変換(ELT)として知られるプロセスによって複数のデータ・ソースからデータを収集し、クレンジングし、変換します。
  • 中間層: 中間層は、高速照会速度を実現するOLAP(すなわちオンライン分析処理)サーバーで構成されています。 この層では3種類のOLAPモデルが使用でき、それらはROLAP、MOLAP、HOLAPとして知られています。 使用されるOLAPモデルの種類は、存在するデータベース・システムの種類に依存します。
  • 上位層: 上位層は、ある種のフロントエンド・ユーザー・インターフェースまたはレポート・ツールで表され、エンド・ユーザーが ビジネス・データ に対してアドホックに データ分析を行えるようにしています。

データウェアハウスにおけるOLAPとOLTPを理解する

OLAP( オンライン分析処理)は、大量のデータに対してデータウェアハウスのような統合された中央データ・ストアから高速で多次元分析を実施するソフトウェアです。 OLTP(オンライン・トランザクション処理)は、通常インターネット経由で多数の人により実行される膨大なデータベース・トランザクションを、リアルタイムで処理できるようにするものです。 OLAPとOLTPの間の主な違いは、名前にあります。OLAPは本質的に分析であるのに対し、OLTPはトランザクションです。 

OLAPツールは、履歴データとトランザクション・データの両方を含むデータウェアハウスのデータに多次元分析を行うように設計されています。 OLAPの一般的な用途には、データ・マイニングやその他のビジネス・インテリジェンス・アプリケーション、複雑な解析計算、予測シナリオの他、財務分析、予算編成や予測プランニングのようなビジネス・レポート作成機能があります。

OLTPは、最近のトランザクションをできるだけ迅速かつ正確に処理してトランザクション指向のアプリケーションをサポートするように設計されています。 OLTPの一般的な用途には、ATM、 e-コマース・ソフトウェア、クレジット・カード決済システム、オンライン予約、予約システム、および記録管理ツールなどがあります。

この2つのシステムの違いについて詳しくは、「OLAPとOLTPの相違点(英語)」を参照してください。


データウェアハウスのスキーマ

スキーマは、データベース内またはデータウェアハウス内でのデータの編成方法です。 スキーマ構造には主にスター・スキーマとスノーフレーク・スキーマがあり、これがデータ・モデルの設計に影響を与えます。

スター・スキーマ: このスキーマは、多数の非正規化されたディメンション表に組み合わせることができる1つのファクト表で構成されています。 スキーマの中でも最もシンプルで一般的な種類であると考慮されており、ユーザーは照会をしながらその高速を享受します。

スノーフレーク・スキーマ: 幅広く使用されてはいませんが、スノーフレーク・スキーマはデータウェアハウスにおけるまた別の組織構造です。 この場合、ファクト表は多数の正規化されたディメンション表に接続されており、これらのディメンション表にはチャイルド表があります。 スノーフレーク・スキーマのユーザーは、低いデータ冗長性を享受しますが、それによって照会パフォーマンスが犠牲となります。 


データウェアハウス対データベース、データレイク、およびデータマート

データウェアハウス、データベース、データレイク、およびデータマートは、すべて同義で使用される傾向のある用語です。 用語は似ていますが、重要な違いがあります。

データウェアハウス対データレイク

 

データウェアハウスは、データ分析用に設計された事前定義されたスキーマを使用して、構造化された1つの中央レポジトリーに複数のソースから生データを収集します。 データレイクは、事前定義されたスキーマのないデータウェアハウスです。 その結果、データウェアハウスよりも多くの種類の分析が可能です。 データレイクは、一般にApache Hadoopのようなビッグデータ・プラットフォーム上に構築されます。

データレイクについて詳しくは、次の動画を参照してください。

データウェアハウス対データマート
 

データマートは、特定のビジネス・ラインや部署固有のデータを含むデータウェアハウスのサブセットです。 データマートにはより小さなデータのサブセットが含まれているため、ビジネス・ラインや部署はより幅広いデータウェアハウス・データ・セットを使って作業する際に、考えられていたよりもさらに迅速により焦点を絞った洞察を見い出すことができます。

データウェアハウス対データベース
 

データベースは、分析ではなく主に高速照会やトランザクション処理を目的に構築されます。 データベースは、一般に特定のアプリケーションに対して焦点を絞ったデータ・ストアとして機能するのに対し、データウェアハウスは、組織内のあらゆるアプリケーション(場合によってはすべてのアプリケーション)からのデータを保存します。

データベースは、データをリアルタイムで更新することを重視するのに対し、データウェアハウスの適用範囲はより幅広く、予測分析、機械学習、その他の高度な分析に対して現在および今までのデータをキャプチャーします。


データウェアハウスの種類

クラウド・データウェアハウス
 

クラウド・データウェアハウスは、クラウドで実行されるために特別に構築されたデータウェアハウスであり、マネージド・サービスとして顧客に提供されます。 クラウド・ベースのデータウェアハウスは、より多くの企業がクラウド・サービスを利用し、オンプレミスの データセンター ・フットプリントを縮小しようとするにつれ、この5年から7年の間に人気が高まりました。

クラウド・データウェアハウスを使用すると、物理的なデータウェアハウス・インフラストラクチャーはクラウド企業が管理することになり、これはお客様がハードウェアやソフトウェアに先行投資をする必要がなく、データウェアハウス・ソリューションを管理したり維持したりする必要もないことを意味します。

データウェアハウス・ソフトウェア(オンプレミス/ライセンス)
 

企業は、データウェアハウス・ライセンスを購入し、その後データウェアハウスを自社のオンプレミス・インフラストラクチャーに実装できます。 これは通常、クラウド・データウェアハウス・サービスよりも高価になりますが、政府機関、金融機関、またはその他自社のデータをもっと管理したい組織、厳密なセキュリティやデータ・プライバシー標準や規制に準拠する必要のある組織には優れた選択肢となることもあります。

データウェアハウス・アプライアンス
 

データウェアハウス・アプライアンスは、CPU、ストレージ、オペレーティング・システム、データウェアハウス・ソフトウェアといったハードウェアとソフトウェアの事前統合バンドルであり、企業はその ネットワークに接続してそのまま使用を開始できます。  データウェアハウス・アプライアンスは、初期費用、実装速度、拡張のしやすさ、そして経営管理と言う面では、クラウドとオンプレミス実装の間に位置するものです。


データウェアハウスのメリット

データウェアハウスは、以下に対する基盤を提供します。

  • より優れたデータ品質: データウェアハウスは、トランザクション・システムや運用データベース、フラット・ファイルなど、さまざまなデータ・ソースからのデータを一元化します。 その後、それをクレンジングし、複製を排除し、標準化して、唯一のソースを作成します。
  • より速いビジネスの洞察: 異なるソースからのデータ は、意思決定者が自信を持って ビジネス戦略を設定する能力を制限します。 データウェアハウスは データの統合を有効にし、ビジネス・ ユーザーが 企業のデータすべてを各ビジネス決定に使用できるようにします。
  • よりスマートな意思決定:  データウェアハウスは、データ・マイニング(データにおける目に見えないパターンと関係を見い出す)、人工知能、および機械学習などの大規模なBI機能をサポートします。これらは、データ・プロフェッショナルやビジネス・リーダーがよりスマートな意思決定を行う確実な証拠を得るために、ビジネス・プロセスから財務管理、在庫管理まで、組織のほぼあらゆる領域で利用できます。
  • 競争上の優位性の獲得と強化: 上記すべてが組み合わさり、組織はデータにおいて異なるデータ・ストアからより多くの機会を予想以上により迅速に見い出すことができます。

データウェアハウスとIBM Cloud

IBMでは、オンプレミス、クラウド、および統合アプライアンス のデータウェアハウス・ソリューションを提供しており、すべてがデータ分析および予測に基づく洞察やデータ駆動型の意思決定に対して最適化された人工知能基盤の上に構築されています。 3つのすべてがIBM Db2ファミリー製品を構成し、照会を合理化する共通SQLエンジンやデータ管理性能を強化する機械学習機能を提供しています。

IBM Db2 Warehouse on Cloud は、フルマネージドの弾力的なクラウド・データウェアハウスであり、ストレージとコンピュートの独立した拡張を実現して、高度に最適化された列指向型データ・ストア、実用的な圧縮、およびインメモリー処理で分析と機会学習ワークロードを強化します。 より小さなデータマートとスピンアップにより、高性能分析用に構築され、複数のクラウド・プロバイダーで導入でき、ストレージは40 GB以上の弾力的なデータウェアハウス、 Flex Oneが追加できます。

IBM Netezzaアプライアンスの次の進化形であるNetezza Performance Serverは、 IBM Cloud Pak for Data System のハイパー・コンバージド・アーキテクチャー上に構築され、企業のどんなに複雑な分析にも クラウドネイティブ の意思決定支援システムを提供します。

IBM InfoSphere DataStage は、高度なエンタープライズETLを実現するデータウェアハウス・ツールであり、複数のエンタープライズ・システム全体でデータを統合する マルチクラウド ・プラットフォームを提供します。

また、データサイエンスと機械学習を提供する IBM Watson Studioによって、組織はデータ資産をうまく活用して予測をビジネス・プロセスや最新アプリケーションに投入することができます。

データウェアハウスの詳細については、IBMidにサインアップして、 IBM Cloudのアカウントを作成してください


関連ソリューション

データウェアハウス・ソリューション

IBMのデータウェアハウス・ソリューションは、機械学習を含む分析ワークロードの構造化データと非構造化データをサポートするためのパフォーマンスと柔軟性を提供します。


Db2 Warehouse on Cloud

高性能な分析とAIのために開発されたフルマネージドの柔軟なクラウド・データウェアハウスの機能について説明します。


Netezza Performance Server

高度なデータウェアハウスと、オンプレミスとクラウドでの両方で利用可能な強力なデータベース内分析を備えた分析プラットフォームの詳細をご覧ください。


IBM Cloud Pak for Data System

IBM Cloud Pak for Data Systemは、事前に構成され、管理されたセキュリティ機能豊富な環境をオンプレミスで実現する、オールインワンのハイブリッド・クラウド・プラットフォームです。


IBM Watson Studio

AIモデルを構築、実行、管理します。 オープンソース・コードやビジュアル・モデリングを使用して、任意のクラウド上でデータを準備し、モデルを構築できます。 結果の予測と最適化を行うこともできます。


IBM DataStage

IBM DataStageをご検討ください。オンプレミス環境とクラウド環境全体にわたるすべてのデータ型をほぼリアルタイムで統合する、強力でスケーラブルなETLプラットフォームです。