データ・アーキテクチャーは、データの収集から、変換、配布、利用にいたるまでの管理の方法を示します。 データ・アーキテクチャーはデータの青写真と、データがストレージ・システムをどのように動いていくかを設定します。 これは、データ処理業務と人工知能(AI)アプリケーションの基礎となります。
データ・アーキテクチャーの設計は、ビジネス要件に主導されて行われるべきで、データ・アーキテクトとデータ・エンジニアはビジネス要件に基づき、個々のデータ・モデルとそれをサポートする基礎となるデータ構造を定義します。 これらを設計することで通常、レポート作成やデータサイエンス・イニシアチブなどのビジネス・ニーズが促進されます。
モノのインターネット(IoT)など新たに台頭してきたテクノロジーを通じて新しいデータソースが出現するとき、優れたデータ・アーキテクチャーは、データが管理可能で有用であることを保証し、データ・ライフサイクル管理をサポートします。 具体的には、冗長データ・ストレージを回避し、クレンジングと重複排除を通してデータ品質を改善し、新しいアプリケーションを有効にします。 最新のデータ・アーキテクチャーは、部門間や地域間など、ドメイン間でデータを統合するメカニズムを提供し、すべてを1カ所に格納することに伴う非常に複雑な事態はなしにデータ・サイロを解消します。
最新のデータ・アーキテクチャーは、多くの場合、クラウド・プラットフォームを活用してデータを管理し処理します。 コストが高くなる可能性がありますが、そのコンピュートの拡張性により、重要なデータ処理タスクを迅速に完了できます。 ストレージの拡張性は、データ量の増加に対応することと、関連するすべてのデータがAIアプリケーションの訓練の質を向上するために利用可能であることを保証することも支援します。
データ・アーキテクチャー文書には、次の3つのタイプのデータ・モデルが含まれています。
データ・アーキテクチャーは、エンタープライズ・アーキテクチャー用のTOGAF、DAMA-DMBOK 2、Zachmanフレームワークなどのよく利用されているエンタープライズ・アーキテクチャー・フレームワークから引き出すことができます。
The Open Group Architecture Framework(TOGAF)
このエンタープライズ・アーキテクチャーの手法は、IBMがプラチナ・メンバーであるThe Open Groupにより1995年に開発されました。
このアーキテクチャーには4つの柱があります。
そのため、TOGAFは、データ・アーキテクチャーを含む企業のITアーキテクチャーを設計および実装するための完全なフレームワークを提供します。
DAMA-DMBOK 2
DAMA International(もともとはData Management Association Internationalとして設立された)は、データと情報管理を促進することを専門にした非営利組織です。 そのData Management Body of Knowledge(DAMA-DMBOK 2)は、データ・アーキテクチャーに加えて、データ・ガバナンス、データ倫理、データ・モデリング、データ設計、データ・ストレージ、データ・セキュリティー、デ―タ統合についてもカバーします。
エンタープライズ・アーキテクチャー用のZachmanフレームワーク
もともと1987年にIBMのJohn Zachmanによって開発されたこのフレームワークは、なぜ、どのように、何をするのかなどの6つの質問がマップされたコンテキストから詳細まで6層のマトリックスを使用します。 これは、データを編成および分析する正式な方法を提供してくれますが、それを行うための手法は含まれていません。
データ・アーキテクチャーは、さまざまなデータ管理システムがどのようにして連携するかについておおまかな観点を示しています。 これらには、データレイク、データウェアハウス、データマート、データベースなど、多くのさまざまなデータ・ストレージが含まれます。 また、これらは、データ・ファブリックやデータ・メッシュなどのデータ・アーキテクチャーを作り出し、ますます人気が高まっています。 これらのアーキテクチャは、製品としてのデータに重点を置き、メタデータをより標準化し、APIを介して組織全体でよりデータの民主化を行います。
次のセクションでは、これらのストレージ・コンポーネントとデータ・アーキテクチャーのタイプについて詳しく説明します。
データ管理システムのタイプ
データ・アーキテクチャーのタイプ
データ・ファブリック:データ・ファブリックとはアーキテクチャーの概念であり、データ統合、データ・エンジニアリング、およびデータ提供者とデータ利用者の間のデータ・バリュー・チェーンにおけるガバナンスに焦点を置いています。 データ・ファブリックは、「アクティブ・メタデータ」の考え方が基礎にあり、ナレッジ・グラフ、セマンティクス、および機械学習(ML)テクノロジーを使用して、様々な種類のメタデータ(たとえばシステム・ログ、ソーシャルなど)のパターンを発見します。 次に、この洞察をデータ・バリュー・チェーンの自動化とオーケストレーションに適用します。 たとえば、データ利用者がデータ製品を見つけ、そのデータ製品を自動的にプロビジョニングされるようにすることを可能にします。 データ製品とデータ利用者との間でデータ・アクセスが増加すると、データ・サイロが減り、組織のデータのより完全な全体像を提供できることにつながります。 データ・ファブリックは、甚大な可能性を秘めた新興テクノロジーで、顧客プロファイル、不正行為の検出、予防保守を強化するのに使用できます。 Gartner社によると、データ・ファブリックは、インテグレーション設計時間を30%、デプロイメント時間を30%、保守を70%削減します。
データ・メッシュ:データ・メッシュは、ビジネス・ドメインによってデータを編成する分散型データ・アーキテクチャーです。 データ・メッシュを使用し、組織は、データをプロセスの副産物と考えることをやめて、データ自体を製品として考え始める必要があります。 データ・プロデューサーはデータ製品の所有者として機能します。 対象分野の専門家として、データ・プロデューサーはデータの1次利用者が把握していることを利用して、彼らのためにAPIを設計します。 これらのAPIは、組織の他の部門からもアクセス可能で、データを管理するためにより広範なアクセスを提供します。
データレイクやデータウェアハウスなどのより従来型のストレージ・システムは、データ・メッシュを実現するために、複数の分散型データ・リポジトリーとして使用できます。 また、データ・メッシュはデータ・ファブリックと連携し、データ・ファブリックの自動化によって新しいデータ製品がより迅速に作成され、グローバル・ガバナンスを強化できます。
適切に構築されたデータ・アーキテクチャーは、ビジネスに以下のような多くの主要なメリットをもたらします。
組織が、AI、ブロックチェーン、モノのインターネット・ワークロードを含む将来のアプリケーションのためのロードマップを構築する際に、データ要件に対応できる最新のデータ・アーキテクチャーが必要となります。
最新のデータ・アーキテクチャーの特徴の上位7つ以下の通りです。
IBM Cloud Pak for Dataは、オープンで拡張可能なデータ・プラットフォームで、データ・ファブリックを提供し、任意のクラウド上ですべてのデータを、AIおよび分析用に使用できるようにします。
AIモデルを構築、実行、管理します。 オープンソース・コードやビジュアル・モデリングを使用して、任意のクラウド上でデータを準備し、モデルを構築できます。 結果の予測と最適化を行うこともできます。
堅固なパフォーマンスを実現するために構成および最適化されたフルマネージドのSQLクラウド・データベース、Db2 on Cloudをご紹介します。