データ・アーキテクチャーとは

データ・アーキテクチャーとは何か、およびデータ・アーキテクチャーを実装するために使用可能なコンポーネントについて説明します。

さまざまなオフィス従業員の全員がIBM Securityを使用している様子を示した等角投影図
データ・アーキテクチャーとは

データ・アーキテクチャーは、データの収集から、変換、配布、利用にいたるまでの管理の方法を示します。 データ・アーキテクチャーはデータの青写真と、データがストレージ・システムをどのように動いていくかを設定します。 これは、データ処理業務と人工知能(AI)アプリケーションの基礎となります。

データ・アーキテクチャーの設計は、ビジネス要件に主導されて行われるべきで、データ・アーキテクトとデータ・エンジニアはビジネス要件に基づき、個々のデータ・モデルとそれをサポートする基礎となるデータ構造を定義します。 これらを設計することで通常、レポート作成やデータサイエンス・イニシアチブなどのビジネス・ニーズが促進されます。

モノのインターネット(IoT)など新たに台頭してきたテクノロジーを通じて新しいデータソースが出現するとき、優れたデータ・アーキテクチャーは、データが管理可能で有用であることを保証し、データ・ライフサイクル管理をサポートします。 具体的には、冗長データ・ストレージを回避し、クレンジングと重複排除を通してデータ品質を改善し、新しいアプリケーションを有効にします。 最新のデータ・アーキテクチャーは、部門間や地域間など、ドメイン間でデータを統合するメカニズムを提供し、すべてを1カ所に格納することに伴う非常に複雑な事態はなしにデータ・サイロを解消します。

最新のデータ・アーキテクチャーは、多くの場合、クラウド・プラットフォームを活用してデータを管理し処理します。 コストが高くなる可能性がありますが、そのコンピュートの拡張性により、重要なデータ処理タスクを迅速に完了できます。 ストレージの拡張性は、データ量の増加に対応することと、関連するすべてのデータがAIアプリケーションの訓練の質を向上するために利用可能であることを保証することも支援します。


概念データ・モデルと論理データ・モデルと物理データ・モデルの比較

データ・アーキテクチャー文書には、次の3つのタイプのデータ・モデルが含まれています。

  • 概念データ・モデル:これはドメイン・モデルとも呼ばれ、システムに何が含まれているか、どのように編成されているか、どのようなビジネス・ルールが関係しているかなど、全体像を示すものです。 概念モデルは通常、プロジェクトの初期要件を収集するプロセスの一環として作成されます。 一般的には、エンティティー・クラス(ビジネスにとってデータ・モデルで表現することが重要なもののタイプを定義する)、その特性と制約、それらの間の関係、関連するセキュリティーとデータ保全性の要件などが含まれます。
  •  論理データ・モデル:これは抽象度が低く、対象となるドメインの概念や関係性についてより詳細に説明しています。 いくつかの正式なデータ・モデリング表記法のうちの1つに従います。 データ・タイプとそれに対応する長さなどのデータ属性を示し、エンティティー間の関係を示します。 論理データモデルには、技術的なシステム要件は一切規定されていません。
  • 物理データ・モデル:これらは抽象度が低く、対象となるドメインの概念や関係性についてより詳細に説明しています。 いくつかの正式なデータ・モデリング表記法のうちの1つに従います。 データ・タイプとそれに対応する長さなどのデータ属性を示し、エンティティー間の関係を示します。 論理データモデルには、技術的なシステム要件は一切規定されていません。

よく利用されているデータ・アーキテクチャー・フレームワーク

データ・アーキテクチャーは、エンタープライズ・アーキテクチャー用のTOGAF、DAMA-DMBOK 2、Zachmanフレームワークなどのよく利用されているエンタープライズ・アーキテクチャー・フレームワークから引き出すことができます。

The Open Group Architecture Framework(TOGAF)

このエンタープライズ・アーキテクチャーの手法は、IBMがプラチナ・メンバーであるThe Open Groupにより1995年に開発されました。

このアーキテクチャーには4つの柱があります。

  • ビジネス・アーキテクチャーは、企業の組織構成、ビジネス戦略、およびプロセスを定義します。
  • データ・アーキテクチャーは、概念データ資産、論理データ資産、および物理データ資産と、それらがライフサイクル全体でどのように保管され、管理されるかを記述します。
  • アプリケーション・アーキテクチャーは、アプリケーション・システムと、それらが主要なビジネスと相互にどのように関連しているかを記述します。
  • 技術アーキテクチャーは、基幹業務アプリケーションに必要なテクノロジー・インフラストラクチャー(ハードウェア、ソフトウェア、およびネットワーク)について記述します。

そのため、TOGAFは、データ・アーキテクチャーを含む企業のITアーキテクチャーを設計および実装するための完全なフレームワークを提供します。

DAMA-DMBOK 2

DAMA International(もともとはData Management Association Internationalとして設立された)は、データと情報管理を促進することを専門にした非営利組織です。 そのData Management Body of Knowledge(DAMA-DMBOK 2)は、データ・アーキテクチャーに加えて、データ・ガバナンス、データ倫理、データ・モデリング、データ設計、データ・ストレージ、データ・セキュリティー、デ―タ統合についてもカバーします。

エンタープライズ・アーキテクチャー用のZachmanフレームワーク

もともと1987年にIBMのJohn Zachmanによって開発されたこのフレームワークは、なぜ、どのように、何をするのかなどの6つの質問がマップされたコンテキストから詳細まで6層のマトリックスを使用します。 これは、データを編成および分析する正式な方法を提供してくれますが、それを行うための手法は含まれていません。

 


データ・アーキテクチャーのタイプと土台となるコンポーネント

データ・アーキテクチャーは、さまざまなデータ管理システムがどのようにして連携するかについておおまかな観点を示しています。 これらには、データレイク、データウェアハウス、データマート、データベースなど、多くのさまざまなデータ・ストレージが含まれます。 また、これらは、データ・ファブリックやデータ・メッシュなどのデータ・アーキテクチャーを作り出し、ますます人気が高まっています。 これらのアーキテクチャは、製品としてのデータに重点を置き、メタデータをより標準化し、APIを介して組織全体でよりデータの民主化を行います。

次のセクションでは、これらのストレージ・コンポーネントとデータ・アーキテクチャーのタイプについて詳しく説明します。

データ管理システムのタイプ

  • データウェアハウス:データウェアハウスは、企業全体のさまざまなリレーショナル・データ・ソースからのデータを、整合性のある単一の中央リポジトリ―に集約します。 データは抽出された後、ELTデータ・パイプラインを移動し、さまざまなデータ変換を経て、事前定義されたデータ・モデルに適合します。 データウェアハウスにロードすると、データはさまざまなビジネス・インテリジェンス(BI)とデータ・サイエンス・アプリケーションをサポートするために存在します。
  • データマート:データマートは、データウェアハウスの特化版であり、ここには、人事部門のように組織内の1つのチームまたは特定のユーザー・グループにとって重要な、あるいはこれらの人々が必要とするより小さなデータのサブセットが含まれています。 データマートにはより小さなデータのサブセットが含まれているため、事業部門や部署はより幅広いデータウェアハウス・データ・セットを使って作業する際に、想定よりもさらに迅速により焦点を絞った洞察を見い出すことができます。 データマートはもともと、1990年代に組織がデータウェアハウスをセットアップする困難に対処するために出現しました。 当時は、組織全体からのデータを統合するには、手動コーディングのために多くの時間が必要で、非現実的で多大な時間がかかるものでした。 データマートの範囲がより限定されているため、より簡単かつ迅速にデータウェアハウスを実装し一元化できました。
  • データレイク:データウェアハウスは処理済みのデータを保管している、データレイクは、通常ペタバイトの生のデータを格納します。 データレイクは、構造化データと非構造化データの両方のデータ保管が可能で、他のデータ・リポジトリ―からデータを分けます。 このストレージ要件の柔軟性は、データサイエンティスト、データ・エンジニア、開発者とって特に有用であり、データ検出の演習や機械学習プロジェクトのためにデータにアクセスすることが可能になります。 データレイクはもともと、ボリューム、速度、種類が増していたビッグデータに対してデータウェアハウスが処理できなかったことへの対応策として、作り出されました。 データレイクはデータウェアハウスよりも遅いですが、取り込み前のデータ準備がほとんど、あるいはまったくないため、安価です。 今日、データレイクはクラウドへのデータ・マイグレーションの取り組みの一部として進化し続けています。 データレイクは、さまざまなユースケースに対応しています。これは、データに対するビジネス目標をデータ収集時に定義する必要がないからです。 ただし、データの探索とデータのバックアップおよび復旧作業を含む2つの主要なケースがあります。 データサイエンティストは、PoC(概念検証)のためにデータレイクを使用できます。 機械学習アプリケーションのメリットは、構造化データと非構造化データを同じ場所に保管できる機能です。これは、リレーショナル・データベース・システムを使用した場合は不可能です。 データレイクは、ビッグデータ分析プロジェクトをテストして開発するためにも使用できます。 アプリケーションが開発され、有用なデータが特定されたら、そのデータを運用するためにデータウェアハウスにエクスポートすることができ、アプリケーションを拡張するために自動化機能が使用されます。 データレイクは、低コストで拡張できる機能を持つため、データのバックアップとリカバリーにも使用できます。 同じ理由で、データレイクは、ビジネス・ニーズがまだ定義されていない「万一に備えて」のデータを保管するのに適しています。 今やデータを保管することは、あとで新しいイニシアチブが出現したときにデータが利用可能であることを意味します。

データ・アーキテクチャーのタイプ

データ・ファブリックデータ・ファブリックとはアーキテクチャーの概念であり、データ統合、データ・エンジニアリング、およびデータ提供者とデータ利用者の間のデータ・バリュー・チェーンにおけるガバナンスに焦点を置いています。 データ・ファブリックは、「アクティブ・メタデータ」の考え方が基礎にあり、ナレッジ・グラフ、セマンティクス、および機械学習(ML)テクノロジーを使用して、様々な種類のメタデータ(たとえばシステム・ログ、ソーシャルなど)のパターンを発見します。 次に、この洞察をデータ・バリュー・チェーンの自動化とオーケストレーションに適用します。 たとえば、データ利用者がデータ製品を見つけ、そのデータ製品を自動的にプロビジョニングされるようにすることを可能にします。 データ製品とデータ利用者との間でデータ・アクセスが増加すると、データ・サイロが減り、組織のデータのより完全な全体像を提供できることにつながります。 データ・ファブリックは、甚大な可能性を秘めた新興テクノロジーで、顧客プロファイル、不正行為の検出、予防保守を強化するのに使用できます。  Gartner社によると、データ・ファブリックは、インテグレーション設計時間を30%、デプロイメント時間を30%、保守を70%削減します。

データ・メッシュ:データ・メッシュは、ビジネス・ドメインによってデータを編成する分散型データ・アーキテクチャーです。 データ・メッシュを使用し、組織は、データをプロセスの副産物と考えることをやめて、データ自体を製品として考え始める必要があります。 データ・プロデューサーはデータ製品の所有者として機能します。 対象分野の専門家として、データ・プロデューサーはデータの1次利用者が把握していることを利用して、彼らのためにAPIを設計します。 これらのAPIは、組織の他の部門からもアクセス可能で、データを管理するためにより広範なアクセスを提供します。

データレイクやデータウェアハウスなどのより従来型のストレージ・システムは、データ・メッシュを実現するために、複数の分散型データ・リポジトリーとして使用できます。 また、データ・メッシュはデータ・ファブリックと連携し、データ・ファブリックの自動化によって新しいデータ製品がより迅速に作成され、グローバル・ガバナンスを強化できます。

 


データ・アーキテクチャーのメリット

適切に構築されたデータ・アーキテクチャーは、ビジネスに以下のような多くの主要なメリットをもたらします。

  • 冗長性の削減:異なるソース間でデータ・フィールドが重複している可能性があり、その結果、不整合性、データの不正確性、データ統合の機会を逃すというリスクを生みだします。 優れたデータ・アーキテクチャーは、データがどのように保管されるかを標準化し、重複の可能性を削減し、優れた品質と包括的な分析を実現します。
  • データ品質の向上:適切に設計されたデータ・アーキテクチャーは、「データスワンプ」としても知られる、管理が不十分なデータレイクの課題のいくつかを解決できます。 データスワンプは洞察に富んだ学習を提供するためのデータ品質とデータ・ガバナンスが適切ではありません。 データ・アーキテクチャーは、データ・ガバナンスとデータ・セキュリティー標準を強化することを支援し、意図されていた通りにデータ・パイプラインを適切に監視することが可能となります。 データ品質とデータ・ガバナンスを向上することで、データ・アーキテクチャーは、現在および将来に役立つ方法でデータを確実に保管できるようになります。
  • インテグレーションの実現:企業内のデータ・ストレージや組織上の障壁に関する技術的な制限の結果として、データはしばしばサイロ化されています。 今日のデータ・アーキテクチャーは、ドメイン間でのデータ統合を促進することを目的としなければならず、これにより、さまざまな地域機能やビジネス機能が互いのデータへのアクセス権をもっています。 それは、一般的なメトリック(経費、収入、およびそれらに関連する推進力など)のより一貫した優れた理解へとつながります。 また、顧客、製品、および地域のより包括的な全体像を可能にし、意思決定により良い情報を提供します。
  • データ・ライフサイクル管理:最新のデータ・アーキテクチャーはデータが時間の経過とともにどのように管理されているかについて対処します。 通常、データは古くなり、アクセス頻度が低くなるにつれて、有用性が低下します。 時間の経過とともに、データはより安価でスピードの遅いストレージに移行さるため、高性能ストレージを使うコストはかけずにレポートや監査のためにデータを利用可能な状態のままで残します。

最新のデータ・アーキテクチャー

組織が、AI、ブロックチェーン、モノのインターネット・ワークロードを含む将来のアプリケーションのためのロードマップを構築する際に、データ要件に対応できる最新のデータ・アーキテクチャーが必要となります。

最新のデータ・アーキテクチャーの特徴の上位7つ以下の通りです。

  • クラウドネイティブでクラウド対応であるため、データ・アーキテクチャーはクラウドの柔軟な拡張性と高可用性のメリットが得られます。
  • 堅固で、拡張が容易で、ポータブルなパイプラインが、単一のフレームワークにインテリジェントなワークフロー、コグニティブ分析、およびリアルタイムのインテグレーションを結合します。
  • シームレスなデータ統合で、レガシー・アプリケーションに接続するために、APIインターフェースを使用します。
  • 検証、分類、管理、ガバナンスなどリアルタイムのデータが使用可能です。
  • 分離され、拡張可能であるため、相互運用性を可能にするサービスとオープン・スタンダードの間に依存関係はありません。
  • 一般的なデータドメイン、イベント、マイクロサービスに基づいています。
  • コストと容易さのバランスをとるために最適化されています。

IBMソリューション

IBM Cloud Pak for Data

IBM Cloud Pak for Dataは、オープンで拡張可能なデータ・プラットフォームで、データ・ファブリックを提供し、任意のクラウド上ですべてのデータを、AIおよび分析用に使用できるようにします。


IBM Watson® Studio

AIモデルを構築、実行、管理します。 オープンソース・コードやビジュアル・モデリングを使用して、任意のクラウド上でデータを準備し、モデルを構築できます。 結果の予測と最適化を行うこともできます。


IBM® Db2® on Cloud

堅固なパフォーマンスを実現するために構成および最適化されたフルマネージドのSQLクラウド・データベース、Db2 on Cloudをご紹介します。



次のステップ

IBMは、データ・ファブリック・ソリューションを通じて、最新のデータ・アーキテクチャーの実装をサポートします。 データ・ファブリックに対するIBMのアプローチは、顧客の4つの一般的な問題点を解決することです:データ・ガバナンスとプライバシー、マルチクラウド・データ統合、MLOpsと信頼できるAI、およびCustomer 360は、すべてそれぞれのハイブリッドクラウド・プラットフォームである、IBM Cloud Pak for Dataに提供されます。