データアーキテクチャとは?

幾何学的なモダンなガラス張りの建物の画像

執筆者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

データアーキテクチャとは?

データ・アーキテクチャーは、データの収集から トランスフォーメーション、配布、消費に至るまで、データの管理方法を表し、データ・ストレージ・システム内におけるデータの流れの青写真を設定します。これが、データ処理操作と人工知能(AI)アプリケーションの基盤となります。

データ・アーキテクチャーの設計は、多くの場合、ビジネス要件とデータ・ニーズに基づいて行われ、データ・アーキテクトとデータ・エンジニアはこれらに基づいてデータ・モデルとその支持基盤となるデータ構造を定義します。この設計は通常、レポート作成やデータサイエンス・イニシアチブなどのビジネス・ストラテジーやビジネス・ニーズに対応しています。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ご登録いただきありがとうございます。

ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。

データ・アーキテクチャーが重要な理由

組織がデータを拡張するにつれて、適切に構造化された適応性のあるアーキテクチャーの必要性が、最優先に対処する事項となっています。しかし、データ・リーダーの94%は、データアーキテクチャーが定義されていないことを最大の課題として挙げています。1

最新のデータ・アーキテクチャーは、エンタープライズ・データを統合および標準化する上で役立ち、ビジネス・ドメイン間でシームレスなデータ共有を可能にします。また、リアルタイム・データ分析生成AIなどの高度なユースケースのためのスケーラブルな基盤も提供し、チームがデータからより迅速かつ確実に価値を引き出せるよう支援します。

モノのインターネット(IoT)のようなテクノロジーによって新しいデータソースが生み出されても、適切に設計されたアーキテクチャーにより、データはライフサイクル全体を通じて管理しやすく、統合され、有用であり続けることができます。企業全体のシステムを接続することで、冗長性を削減し、データ品質を向上させ、サイロを排除するために役立ちます。

正しく機能すれば、データアーキテクチャーは単なる技術的構造ではなく、未加工データを再利用可能な資産に変える戦略的機能です。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

データ・アーキテクチャーの重要な用語

データ・アーキテクチャーは、複数の重複する概念を統合したものです。以下は、ランドスケープを定義する際に役立ちます。

  • プラットフォーム:データ・システムをホストおよび実行する基盤となるテクノロジー環境。これには、クラウド・ベースまたはオンプレミスのツールが含まれます。
  • データ・モデル:システム内でデータがどのように構成されているかを詳細に表したもの。エンティティー、関係、および形式を定義します。
  • フレームワーク:エンタープライズ・アーキテクチャーの設計と管理に使用される戦略的方法論。フレームワークは、データ・システムをビジネス目標に合わせて調整するための構造化されたアプローチを提供します。
  • パターン:一般的なアーキテクチャ上の課題に対する反復可能な解決策。データ・ファブリックデータ・メッシュなどのパターンは、スケーラビリティ、ガバナンス、またはアクセシビリティを向上させるためのテスト済みの方法を表します。

データ・アーキテクチャーの種類

最新のデータ・アーキテクチャーは、集中型または分散型という2つの主要なアプローチのいずれかに従う傾向があります。これらのモデルは、企業データの収集、保管、管理方法の指針となります。

集中型アーキテクチャーでは、単一のデータ・ガバナンスモデルで管理される統合型プラットフォーム(データレイクデータウェアハウスなど)にデータが取り込まれます。これにより、冗長性が削減され、データ品質が向上し、構造化クエリ言語(SQL)やその他のリレーショナル・データベースを使用した構造化データ・モデリング がサポートされます。

分散型アーキテクチャーは、ビジネス・ドメイン間でデータの所有権を分散させます。チームは、多くの場合、非リレーショナル・データベース・システム(「NoSQLデータベース」とも呼ばれる)または独自のスキーマメタデータ、アクセス制御を備えたイベントベースのパイプラインを使用して、データをローカルで管理します。このアプローチは、リアルタイムのデータ統合処理データ・ストリーム機械学習(ML)のユースケースをサポートします。

ほとんどの組織は、スケーラビリティ、データ統合、俊敏性のバランスをとるために両方のモデルを組み合わせています。このハイブリッド・アプローチは、さまざまなデータ・ソースをサポートし、データ・サイロを削減し、AWSやMicrosoft Azureなどのプラットフォーム上でクラウドネイティブなオペレーションを可能にする上で役立ちます。

組織がどのようなアーキテクチャー・モデルを採用するかにかかわらず、成功は基礎となるデータがどれだけ適切に構造化されているかによって決まります。ここでデータ・モデリングが役立ちます。

データ・モデルにおける3つのタイプとは

データ・アーキテクチャーはシステム間でデータがどのように流れるかに焦点を当てるのに対し、データ・モデリングはそれらのシステム内でデータがどのように構造化されているかに焦点を当てます。データ・モデルは、情報がアーキテクチャー内を移動する際に、その情報の形状、関係、制約を定義します。

データ・アーキテクチャーのドキュメンテーションには、通常、次の3種類のモデルが含まれます。

  • 概念データ・モデル
  • 論理データ・モデル
  • 物理データ・モデル

概念的データ・モデル

「ドメインモデル」とも呼ばれる概念データ・モデルでは、システムに何が含まれるか、どのように構成されるか、どのBusiness Rulesが適用されるかを全体的に把握できます。これらのモデルは通常、プロジェクト計画の初期段階で作成され、エンティティー・クラス(データ・モデルで追跡される定義済み項目)、それらの特性と制約、それらの間の関係、および関連するセキュリティデータ整合性の要件が含まれます。

論理データ・モデル

論理データ・モデルは、概念モデルよりも抽象性が低く、特定のドメイン内のエンティティーと関係についてより具体的な詳細を提供します。正式なデータ・モデリング表記法に従って、データの種類や長さなどのデータ属性を定義し、エンティティーがどのように接続されるかを示します。重要な点として、論理モデルは依然としてテクノロジーに依存せず、システム固有の要件が含まれません。

物理データ・モデル

物理データ・モデルは、データベースの実装方法表す3つのデータ・モデルの中で最も詳細なモデルです。これらは、テーブル構造、インデックス、ストレージ形式、およびパフォーマンスに関する考慮事項を定義します。これらのモデルは、構造化データがどのように保存され、アクセスされるかという技術的な側面に重点を置いており、スキーマの作成、構成、最適化をガイドするために使用されます。

データ・モデルは、システム内の情報の構造を形成します。そこから、より広範なアーキテクチャー・フレームワークが、モデルとその周辺のシステムがどのように実装されるかをガイドします。

一般的なデータ・アーキテクチャ・フレームワーク

データ・アーキテクチャーは、TOGAF、DAMA-DMBOK 2、Zachman Framework for Enterprise Architectureなどの一般的なエンタープライズ・アーキテクチャー・フレームワークから取得できます。

オープン・グループ・アーキテクチャー・フレームワーク(TOGAF)

このエンタープライズ・アーキテクチャー方法論は、The Open Groupによって1995年に開発されました。そのアーキテクチャーは、次の4つの柱で構成されています。

  • ビジネス・アーキテクチャーは、企業の組織構造、データ・ストラテジー、プロセスを定義します。
  • データ・アーキテクチャーは、概念的/論理的/物理的データ資産と、そのライフサイクル全体にわたる保管と管理の方法を表します。
  • アプリケーション・アーキテクチャーは、アプリケーション・システムと、それらが主要なビジネス・プロセスと相互にどのように関連しているかを表現するものです。
  • テクニカル・アーキテクチャーは、ミッションクリティカルなアプリケーションをサポートするために必要なデータ・インフラストラクチャー(ハードウェア、ソフトウェア、およびネットワーク)を表します。

TOGAFは、データ・アーキテクチャーを含む企業のITアーキテクチャーの設計と実装のための完全なフレームワークを提供しています。

DAMA-DMBOK 2

DAMA Internationalは、もともとData Management Association Internationalとして設立され、データと情報の管理の推進を目的とした非営利団体でした。データ管理知識体系DAMA-DMBOK 2は、データ・アーキテクチャーだけでなく、ガバナンスと倫理、データ・モデリングと設計、ストレージ、セキュリティー、統合もカバーしています。

エンタープライズ・アーキテクチャー向けのZachmanフレームワーク

このフレームワークは、もともと1987年に当時IBMの社員であったJohn Zachmanによって開発され、コンテキストから詳細まで6つのレイヤーのマトリックスを使用し、なぜ、どのように、何を、などの6つの質問にマッピングされています。データを整理し分析するための正式な方法にはなるものの、それを行うための方法は含まれていません。

データ・アーキテクチャー・コンポーネント

データ・アーキテクチャーは、データの移動、保管、管理、アクセスの方法を管理する複数の相互依存するコンポーネントから構築されます。これらの要素はデータ・システムの運用基盤を形成し、取り込みから分析まですべてをサポートします。

データ・アーキテクチャー・コンポーネントは通常、4つの大きなカテゴリーに分類され、それぞれに複数のサブカテゴリーがあります。

フローと統合

データは外部および内部ソースから取得され、処理および保存のためにシステムに移動します。

データ・パイプライン

パイプラインは、データを取り込み、変換し、元の地点から処理および保管される場所に転送します。これらのシステムは、抽出、変換、ロード(ETL)や抽出、ロード、変換(ELT)などのバッチ・パターンに従うことができます。また、ほぼリアルタイムでデータをストリーミングすることもできます。最近のパイプラインには、多くの場合、フローの一部として変換ロジック、品質チェック、およびスキーマ検証が含まれています。

API とコネクター

アプリケーション・プログラミング・インターフェース(API)と事前に構築されたコネクタにより、データ・システム、アプリケーション、分析ツール間のシームレスな統合が可能になります。これらは、さまざまなプラットフォーム間のデータ・アクセスを合理化する標準化された方法を提供し、リアルタイムのデータ交換における中心的な役割を果たします。

ストレージ・システム

データは一度取り込まれると、構造化および非構造化の両方のスケーラブルなシステムに保管され、その後の使用と分析のために利用できるようになります。

データウェアハウス

データウェアハウスでは、企業全体のさまざまなリレーショナル・データ・ソースからのデータを、一元的で一貫性のあるリポジトリー1つに集約します。抽出後、データはETLパイプラインを通過し、事前定義されたデータ・モデルを満たすためにさまざまな変換が行われます。データがデータウェアハウス・システムにロードされると、さまざまなBusiness Intelligence(BI)およびデータサイエンスアプリケーションをサポートするために使用できるようになります。

データ・マート

データ・マートは、単一のチームまたは利害関係者グループに関連するデータの小さなサブセットを含む、データウェアハウスの焦点を絞ったバージョンです。データ・マートは、対象範囲を狭めることで、より広範なウェアハウスのデータセットを扱うよりも、より迅速で的を絞った洞察を可能にします。

データレイク

データレイクは、構造化・非構造化形式の両方を含む、未処理の生データを大規模に保管します。データウェアハウスとは異なり、データレイクでは事前のデータ・モデリングや準備が不要なので、ビッグ・データのワークロードに最適です。

データレイクハウス

データレイクハウスは、データウェアハウスとデータレイクの要素を1つのデータ管理ソリューションに統合したものです。低コストのストレージを高性能のクエリー・エンジンやインテリジェントなメタデータ・ガバナンスと組み合わせます。

データベース

データベースとは、データを保管、管理、セキュリティー保護するための基本的なデジタル・リポジトリーです。データベースの種類が異なれば、データを保管する方法も異なります。たとえば、リレーショナル・データベース(「SQLデータベース」とも呼ばれる)では、定義された行と列を持つテーブルにデータを格納します。NoSQLデータベースでは、キーと値のペアやグラフなど、データをさまざまなデータ構造として保管できます。

ガバナンスとメタデータ

データが流れ、蓄積されていくと、ガバナンス・ツールによって、データがライフサイクル全体にわたって適切に整理され、安全で、検出しやすい状態が確保されます。

データ・カタログ

データ・カタログは、組織のデータ資産の集中型インベントリーです。メタデータを使用して、データセットの発信元、構造、所有権、使用履歴、品質など、各データセットに関するコンテキストを提供します。データ・カタログは、ユーザーがデータを検索して評価し、ガバナンスとコンプライアンスの取り組みをサポートし、チーム間のコラボレーションを促進するために役立ちます。

リネージュとオブザーバビリティー

リネージュ・ツールは、システム間のデータの移動を追跡し、データがどのように変換され、どこから発生したかを示します。この可視性は、監査、トラブルシューティング、依存関係の理解において不可欠です。オブザーバビリティーは、パイプラインのパフォーマンスとデータ品質メトリクスを監視することで、リネージュを補完できます。 

アクセスと消費

最後に、データは、意思決定を促進するダッシュボード、クエリ、または組み込みツールを通じて、それを使用する人やシステムに届けられます。

ダッシュボードと分析ツール

Business Intelligenceプラットフォームは、視覚化とダッシュボードを通じてデータ・アクセスを改善できます。これらのツールは、技術者以外のユーザーが傾向を解釈し、KPIを監視し、データ駆動型の意思決定を行うサポートを提供します。

クエリ・エンジンとコンピューティング・エンジン

SQLエンドポイントやその他のクエリ・インターフェースを使用すると、アナリストやデータ・サイエンティストはデータを直接調査・分析できます。Apache SparkやIBM watsonx.dataなどのツールは、分散型データセット全体にわたって大規模なクエリを実行するために必要なコンピューティング・レイヤーを提供します。

組み込み型データ製品

一部のアーキテクチャーでは、アプリケーション、ワークフロー、またはAPIへのデータの直接配信がサポートされています。これらの組み込み型のデータ・プロダクトは、日常のオペレーションに洞察をもたらし、データ駆動型の意思決定を可能にします。

AIとMLのトレーニング

アーキテクチャー全体からのデータも、AIやMLワークフローに供給できます。多くの場合、トレーニング・データはデータレイクから供給され、パイプラインを通じて変換され、モデルの開発と再トレーニングに使用されます。これらのモデルは、製品、ダッシュボード、またはビジネス・プロセスにデプロイして、オートメーションと予測を強化できます。

データ・アーキテクチャーの実装方法

データ・アーキテクチャーの実装には、ビジネス・ニーズをデータ・コレクション、構造、セキュリティー、アクセシビリティーのロードマップに変換することが含まれます。全く同じ実装はありませんが、ほとんどの場合、計画から実行へと移行する段階的アプローチに従います。

ステップ1:ビジネス目標に合わせる

このプロセスは、機械学習を実装するか、コンプライアンスをサポートするかなど、ビジネスがデータから何を必要としているのか確立することから始まります。これにより、アーキテクチャの優先順位、含めるデータソース、統合が必要なシステムが示されます。

ステップ2:データ・モデルとガバナンスを定義する

Data Architectは、構造とフローを導く概念、論理、物理データ・モデルを開発します。これらのモデルは、主要なエンティティー、関係、データ要件、およびアクセス制御の特定に役立ちます。同時に、所有権、アクセス権、およびデータのライフサイクルルールを定義するためのガバナンス・ポリシーが確立されます。

ステップ3:アーキテクチャーを設計する

モデルとポリシーを導入した後、チームはストレージ、統合、メタデータ管理、消費のテクノロジーを選択してアーキテクチャー自体を設計します。これには、データをシステム間で移動する方法や、ストレージ・システム間のデータが存在する場所の定義も含まれます。

ステップ4:構築と統合

実装には通常、取り込みパイプラインのデプロイ、APIの確立、ガバナンス・レイヤーの構成、ダッシュボードやクエリー・エンドポイントなどのアクセス・ポイントの有効化が含まれます。データを保護するために、セキュリティとコンプライアンスの要件がこの段階で組み込まれます。

ステップ5:監視、進化、拡張

デプロイされたデータアーキテクチャは、継続的に監視し、改良する必要があります。データ量は増加し、ユースケースは進化し、規制は変化します。組織は、特にクラウド・プラットフォームを採用し、最新のアーキテクチャパターンを導入する際に、アーキテクチャを見直して再最適化することがよくあります。

最新データ・アーキテクチャーの主要な機能

組織の規模が拡大するにつれて、柔軟でレジリエントな データ・アーキテクチャーの必要性も高まります。最新のデータ・アーキテクチャーでは、相互運用性、リアルタイムのアクセス、そしてデータを単なる資産ではなく製品として管理する性能が優先されます。また、APIを通じて、標準化、メタデータ管理、民主化をさらに進めることができます。

最新のデータ・アーキテクチャの主な特徴は次のとおりです。

  • クラウドネイティブ設計により、柔軟な拡張性と高可用性を実現します。
  • インテリジェントなデータ・パイプラインは、リアルタイム統合、データ・ストリーミング、コグニティブ分析を組み合わせます。
  • 最新のアプリケーションとレガシー・アプリケーションの両方とシームレスにAPIベースで連携します。
  • リアルタイムのデータ有効化には、検証、分類、ガバナンスが含まれます。
  • 分離された拡張可能なサービスは、モジュール式の成長とオープンな相互運用性をサポートします。
  • ドメインベースの組織は、イベントとマイクロサービスを使用してビジネス構造を反映します。
  • 組み込みの最適化により、パフォーマンス、コスト、シンプルさのバランスをとります。

最新のデータ・アーキテクチャー・パターン

データ・インフラを近代化する組織は、今日のハイブリッドマルチクラウド環境の複雑さを反映した新しいデータ戦略を採用しています。この転換は、データ・ファブリックやデータ・メッシュといった新しいアーキテクチャー・パターンを生み出しました。

データ・ファブリック

データ・ファブリックは、ハイブリッド環境全体にわたるデータの統合と管理の自動化に重点を置いています。アクティブなメタデータと機械学習を使用して、システム間の関係を発見し、データフローを調整します。データ・ファブリックは、データ・プロダクトを自動的にプロビジョニングしてオンデマンドで提供できるため、運用効率が向上し、データ・サイロが減少します。

データ・メッシュ

データ・メッシュは、アーキテクチャーをビジネス・ドメインと整合させることで、データの所有権を分散します。データ・メッシュでは、データ作成者(ソースに最も近い人)に、データを製品として扱い、消費者を念頭に置いてAPIを設計することを奨励しています。このモデルは、企業全体でボトルネックを排除し、スケーラブルなデータを民主化できるようサポートします。

これらのアプローチは異なりますが、相互に排他的ではありません。多くの組織は両方の要素を実装し、ファブリックの自動化を利用してメッシュの分散型ガバナンスを拡張しています。

データ・アーキテクチャーのメリット

適切に構築されたデータ・アーキテクチャーは、企業に次のような大きなメリットをもたらします。

  • 冗長性の削減
  • データ品質の向上
  • 統合の実現
  • データライフサイクル管理

冗長性の削減

異なるソース間でデータ・フィールドが重複していると、不整合、不正確さ、データ統合の機会の逸失につながる可能性があります。優れたデータ・アーキテクチャーにより、データの保存方法が標準化され、冗長性が軽減され、より質の高い総合的な分析が可能になります。

データ品質の向上

適切に設計されたデータ・アーキテクチャーは、適切に管理されていないデータレイク(別名、「データ・スワンプ」)の課題の一部を解決できます。データ・スワンプには、有意義な洞察を提供するための適切なデータ標準(データ品質やデータ・ガバナンスの実践など)がありません。データ・アーキテクチャーは、データ・ガバナンスとデータ・セキュリティー標準の強化に役立ち、適切なデータ・パイプラインの監視を可能にします。

統合の実現

データがサイロ化するのは多くの場合、データストレージの技術的な制限や企業内の組織的な障壁が原因です。今日のデータ・アーキテクチャーでは、さまざまな地域や職務が互いのデータにアクセスできるよう、領域をまたがるデータ統合が容易になることを目的にします。これにより、一般的なメトリクスをより良く一貫性を持って理解することにつながるため、データ駆動型の意思決定に役立つ、より全体的なビジネスへの視点を獲得できます。

データ・ライフサイクル管理

最新のデータ・アーキテクチャーでは、時間の経過に伴うデータの管理方法に対応できます。通常、データは古くなってアクセス頻度が低下するにつれて、有用性が低下します。時間が経ったデータは、より安価で低速なストレージ・タイプへ移行できるため、レポートや監査でデータを利用できる状態を維持しつつ、高性能ストレージの費用を回避できます。

関連ソリューション
分析ツールとソリューション

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら
データ分析コンサルティングサービス

IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。

分析サービスを発見する
IBM Cognos Analytics

より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。

Cognos Analyticsの詳細はこちら
次のステップ

企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。

分析ソリューションの詳細はこちら 分析サービスを発見する