データ・アーキテクチャーは、データの収集から トランスフォーメーション、配布、消費に至るまで、データの管理方法を表し、データ・ストレージ・システム内におけるデータの流れの青写真を設定します。これが、データ処理操作と人工知能(AI)アプリケーションの基盤となります。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
組織がデータを拡張するにつれて、適切に構造化された適応性のあるアーキテクチャーの必要性が、最優先に対処する事項となっています。しかし、データ・リーダーの94%は、データアーキテクチャーが定義されていないことを最大の課題として挙げています。1
最新のデータ・アーキテクチャーは、エンタープライズ・データを統合および標準化する上で役立ち、ビジネス・ドメイン間でシームレスなデータ共有を可能にします。また、リアルタイム・データ分析や生成AIなどの高度なユースケースのためのスケーラブルな基盤も提供し、チームがデータからより迅速かつ確実に価値を引き出せるよう支援します。
モノのインターネット(IoT)のようなテクノロジーによって新しいデータソースが生み出されても、適切に設計されたアーキテクチャーにより、データはライフサイクル全体を通じて管理しやすく、統合され、有用であり続けることができます。企業全体のシステムを接続することで、冗長性を削減し、データ品質を向上させ、サイロを排除するために役立ちます。
正しく機能すれば、データアーキテクチャーは単なる技術的構造ではなく、未加工データを再利用可能な資産に変える戦略的機能です。
データ・アーキテクチャーは、複数の重複する概念を統合したものです。以下は、ランドスケープを定義する際に役立ちます。
最新のデータ・アーキテクチャーは、集中型または分散型という2つの主要なアプローチのいずれかに従う傾向があります。これらのモデルは、企業データの収集、保管、管理方法の指針となります。
集中型アーキテクチャーでは、単一のデータ・ガバナンスモデルで管理される統合型プラットフォーム(データレイクやデータウェアハウスなど)にデータが取り込まれます。これにより、冗長性が削減され、データ品質が向上し、構造化クエリ言語(SQL)やその他のリレーショナル・データベースを使用した構造化データ・モデリング がサポートされます。
分散型アーキテクチャーは、ビジネス・ドメイン間でデータの所有権を分散させます。チームは、多くの場合、非リレーショナル・データベース・システム(「NoSQLデータベース」とも呼ばれる)または独自のスキーマ、メタデータ、アクセス制御を備えたイベントベースのパイプラインを使用して、データをローカルで管理します。このアプローチは、リアルタイムのデータ統合と処理、データ・ストリーム、機械学習(ML)のユースケースをサポートします。
ほとんどの組織は、スケーラビリティ、データ統合、俊敏性のバランスをとるために両方のモデルを組み合わせています。このハイブリッド・アプローチは、さまざまなデータ・ソースをサポートし、データ・サイロを削減し、AWSやMicrosoft Azureなどのプラットフォーム上でクラウドネイティブなオペレーションを可能にする上で役立ちます。
組織がどのようなアーキテクチャー・モデルを採用するかにかかわらず、成功は基礎となるデータがどれだけ適切に構造化されているかによって決まります。ここでデータ・モデリングが役立ちます。
データ・アーキテクチャーはシステム間でデータがどのように流れるかに焦点を当てるのに対し、データ・モデリングはそれらのシステム内でデータがどのように構造化されているかに焦点を当てます。データ・モデルは、情報がアーキテクチャー内を移動する際に、その情報の形状、関係、制約を定義します。
データ・アーキテクチャーのドキュメンテーションには、通常、次の3種類のモデルが含まれます。
論理データ・モデルは、概念モデルよりも抽象性が低く、特定のドメイン内のエンティティーと関係についてより具体的な詳細を提供します。正式なデータ・モデリング表記法に従って、データの種類や長さなどのデータ属性を定義し、エンティティーがどのように接続されるかを示します。重要な点として、論理モデルは依然としてテクノロジーに依存せず、システム固有の要件が含まれません。
物理データ・モデルは、データベースの実装方法表す3つのデータ・モデルの中で最も詳細なモデルです。これらは、テーブル構造、インデックス、ストレージ形式、およびパフォーマンスに関する考慮事項を定義します。これらのモデルは、構造化データがどのように保存され、アクセスされるかという技術的な側面に重点を置いており、スキーマの作成、構成、最適化をガイドするために使用されます。
データ・モデルは、システム内の情報の構造を形成します。そこから、より広範なアーキテクチャー・フレームワークが、モデルとその周辺のシステムがどのように実装されるかをガイドします。
データ・アーキテクチャーは、TOGAF、DAMA-DMBOK 2、Zachman Framework for Enterprise Architectureなどの一般的なエンタープライズ・アーキテクチャー・フレームワークから取得できます。
このエンタープライズ・アーキテクチャー方法論は、The Open Groupによって1995年に開発されました。そのアーキテクチャーは、次の4つの柱で構成されています。
TOGAFは、データ・アーキテクチャーを含む企業のITアーキテクチャーの設計と実装のための完全なフレームワークを提供しています。
DAMA Internationalは、もともとData Management Association Internationalとして設立され、データと情報の管理の推進を目的とした非営利団体でした。データ管理知識体系DAMA-DMBOK 2は、データ・アーキテクチャーだけでなく、ガバナンスと倫理、データ・モデリングと設計、ストレージ、セキュリティー、統合もカバーしています。
このフレームワークは、もともと1987年に当時IBMの社員であったJohn Zachmanによって開発され、コンテキストから詳細まで6つのレイヤーのマトリックスを使用し、なぜ、どのように、何を、などの6つの質問にマッピングされています。データを整理し分析するための正式な方法にはなるものの、それを行うための方法は含まれていません。
データは外部および内部ソースから取得され、処理および保存のためにシステムに移動します。
アプリケーション・プログラミング・インターフェース(API)と事前に構築されたコネクタにより、データ・システム、アプリケーション、分析ツール間のシームレスな統合が可能になります。これらは、さまざまなプラットフォーム間のデータ・アクセスを合理化する標準化された方法を提供し、リアルタイムのデータ交換における中心的な役割を果たします。
データは一度取り込まれると、構造化および非構造化の両方のスケーラブルなシステムに保管され、その後の使用と分析のために利用できるようになります。
データウェアハウスでは、企業全体のさまざまなリレーショナル・データ・ソースからのデータを、一元的で一貫性のあるリポジトリー1つに集約します。抽出後、データはETLパイプラインを通過し、事前定義されたデータ・モデルを満たすためにさまざまな変換が行われます。データがデータウェアハウス・システムにロードされると、さまざまなBusiness Intelligence(BI)およびデータサイエンスアプリケーションをサポートするために使用できるようになります。
データベースとは、データを保管、管理、セキュリティー保護するための基本的なデジタル・リポジトリーです。データベースの種類が異なれば、データを保管する方法も異なります。たとえば、リレーショナル・データベース(「SQLデータベース」とも呼ばれる)では、定義された行と列を持つテーブルにデータを格納します。NoSQLデータベースでは、キーと値のペアやグラフなど、データをさまざまなデータ構造として保管できます。
データが流れ、蓄積されていくと、ガバナンス・ツールによって、データがライフサイクル全体にわたって適切に整理され、安全で、検出しやすい状態が確保されます。
データ・カタログは、組織のデータ資産の集中型インベントリーです。メタデータを使用して、データセットの発信元、構造、所有権、使用履歴、品質など、各データセットに関するコンテキストを提供します。データ・カタログは、ユーザーがデータを検索して評価し、ガバナンスとコンプライアンスの取り組みをサポートし、チーム間のコラボレーションを促進するために役立ちます。
リネージュ・ツールは、システム間のデータの移動を追跡し、データがどのように変換され、どこから発生したかを示します。この可視性は、監査、トラブルシューティング、依存関係の理解において不可欠です。オブザーバビリティーは、パイプラインのパフォーマンスとデータ品質メトリクスを監視することで、リネージュを補完できます。
最後に、データは、意思決定を促進するダッシュボード、クエリ、または組み込みツールを通じて、それを使用する人やシステムに届けられます。
Business Intelligenceプラットフォームは、視覚化とダッシュボードを通じてデータ・アクセスを改善できます。これらのツールは、技術者以外のユーザーが傾向を解釈し、KPIを監視し、データ駆動型の意思決定を行うサポートを提供します。
SQLエンドポイントやその他のクエリ・インターフェースを使用すると、アナリストやデータ・サイエンティストはデータを直接調査・分析できます。Apache SparkやIBM watsonx.dataなどのツールは、分散型データセット全体にわたって大規模なクエリを実行するために必要なコンピューティング・レイヤーを提供します。
一部のアーキテクチャーでは、アプリケーション、ワークフロー、またはAPIへのデータの直接配信がサポートされています。これらの組み込み型のデータ・プロダクトは、日常のオペレーションに洞察をもたらし、データ駆動型の意思決定を可能にします。
アーキテクチャー全体からのデータも、AIやMLワークフローに供給できます。多くの場合、トレーニング・データはデータレイクから供給され、パイプラインを通じて変換され、モデルの開発と再トレーニングに使用されます。これらのモデルは、製品、ダッシュボード、またはビジネス・プロセスにデプロイして、オートメーションと予測を強化できます。
データ・アーキテクチャーの実装には、ビジネス・ニーズをデータ・コレクション、構造、セキュリティー、アクセシビリティーのロードマップに変換することが含まれます。全く同じ実装はありませんが、ほとんどの場合、計画から実行へと移行する段階的アプローチに従います。
このプロセスは、機械学習を実装するか、コンプライアンスをサポートするかなど、ビジネスがデータから何を必要としているのか確立することから始まります。これにより、アーキテクチャの優先順位、含めるデータソース、統合が必要なシステムが示されます。
Data Architectは、構造とフローを導く概念、論理、物理データ・モデルを開発します。これらのモデルは、主要なエンティティー、関係、データ要件、およびアクセス制御の特定に役立ちます。同時に、所有権、アクセス権、およびデータのライフサイクルルールを定義するためのガバナンス・ポリシーが確立されます。
モデルとポリシーを導入した後、チームはストレージ、統合、メタデータ管理、消費のテクノロジーを選択してアーキテクチャー自体を設計します。これには、データをシステム間で移動する方法や、ストレージ・システム間のデータが存在する場所の定義も含まれます。
実装には通常、取り込みパイプラインのデプロイ、APIの確立、ガバナンス・レイヤーの構成、ダッシュボードやクエリー・エンドポイントなどのアクセス・ポイントの有効化が含まれます。データを保護するために、セキュリティとコンプライアンスの要件がこの段階で組み込まれます。
デプロイされたデータアーキテクチャは、継続的に監視し、改良する必要があります。データ量は増加し、ユースケースは進化し、規制は変化します。組織は、特にクラウド・プラットフォームを採用し、最新のアーキテクチャパターンを導入する際に、アーキテクチャを見直して再最適化することがよくあります。
組織の規模が拡大するにつれて、柔軟でレジリエントな データ・アーキテクチャーの必要性も高まります。最新のデータ・アーキテクチャーでは、相互運用性、リアルタイムのアクセス、そしてデータを単なる資産ではなく製品として管理する性能が優先されます。また、APIを通じて、標準化、メタデータ管理、民主化をさらに進めることができます。
最新のデータ・アーキテクチャの主な特徴は次のとおりです。
データ・ファブリックは、ハイブリッド環境全体にわたるデータの統合と管理の自動化に重点を置いています。アクティブなメタデータと機械学習を使用して、システム間の関係を発見し、データフローを調整します。データ・ファブリックは、データ・プロダクトを自動的にプロビジョニングしてオンデマンドで提供できるため、運用効率が向上し、データ・サイロが減少します。
適切に構築されたデータ・アーキテクチャーは、企業に次のような大きなメリットをもたらします。
異なるソース間でデータ・フィールドが重複していると、不整合、不正確さ、データ統合の機会の逸失につながる可能性があります。優れたデータ・アーキテクチャーにより、データの保存方法が標準化され、冗長性が軽減され、より質の高い総合的な分析が可能になります。
適切に設計されたデータ・アーキテクチャーは、適切に管理されていないデータレイク(別名、「データ・スワンプ」)の課題の一部を解決できます。データ・スワンプには、有意義な洞察を提供するための適切なデータ標準(データ品質やデータ・ガバナンスの実践など)がありません。データ・アーキテクチャーは、データ・ガバナンスとデータ・セキュリティー標準の強化に役立ち、適切なデータ・パイプラインの監視を可能にします。
データがサイロ化するのは多くの場合、データストレージの技術的な制限や企業内の組織的な障壁が原因です。今日のデータ・アーキテクチャーでは、さまざまな地域や職務が互いのデータにアクセスできるよう、領域をまたがるデータ統合が容易になることを目的にします。これにより、一般的なメトリクスをより良く一貫性を持って理解することにつながるため、データ駆動型の意思決定に役立つ、より全体的なビジネスへの視点を獲得できます。
最新のデータ・アーキテクチャーでは、時間の経過に伴うデータの管理方法に対応できます。通常、データは古くなってアクセス頻度が低下するにつれて、有用性が低下します。時間が経ったデータは、より安価で低速なストレージ・タイプへ移行できるため、レポートや監査でデータを利用できる状態を維持しつつ、高性能ストレージの費用を回避できます。
企業が繁栄するには、データを活用して顧客ロイヤルティーを構築し、ビジネス・プロセスを自動化し、AI駆動型のソリューションで業務を刷新する必要があります。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。
より良い意思決定を可能にする、AIを活用して洞察を引き出すCognos Analytics 12.0をご紹介します。