タグ

データ品質のためのデータ・アーキテクチャ戦略

著者

Grzegorz Przybycień

Senior Product Manager

Watson Knowledge Catalog

データ品質の低下は、データ駆動型を目指す組織が直面する最大の障壁の1つです。タイミングの悪いビジネス上の意思決定や誤った情報に基づいたビジネス・プロセス、収益機会の逸失、ビジネス・イニシアチブの失敗、複雑なデータ・システムはすべて、データ品質の問題に起因する可能性があります。これらの問題が1つあるだけでも、組織にとって大きな損失につながる可能性があります。これらすべてに対処しなければならない場合、壊滅的な事態となる可能性があります。

企業データの品質は、精度、完全性、一貫性など、いくつかの要因によって決まります。しかし、データ品質には十分な評価を受けていないもう1つの要素があります。それが、データ・アーキテクチャです。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

適切なデータ・アーキテクチャでデータ品質を向上させる方法

適切なデータ・アーキテクチャは、Business Intelligence（ビジネス・インテリジェンス）やデータサイエンスのユースケースでデータを収集、転送、保管、保護、使用、共有する方法を決定するフレームワークを提供するため、組織のデータ品質の向上に役立ちます。

エンタープライズ・データウェアハウスおよびBusiness Intelligenceプラットフォームに代表される第一世代のデータ・アーキテクチャは、数千ものETLジョブ、テーブル、レポートを特徴としています。これらは少数の専門データエンジニアしか理解していなかったため、ビジネスへのプラスの影響は十分に実現されていませんでした。次世代のビッグデータプラットフォームと、中央のデータエンジニアチームが運用する長時間のバッチジョブは、しばしばデータレイクのスワンプ化を招いてきました。

どちらのアプローチも、通常はデータ取り込み、処理、クレンジング、集約、サービスなどの機械的な機能を中心に編成されたモノリシックで集中型のアーキテクチャでした。このため、データ・ランドスケープの絶え間ない変化、データ・ソースとデータ・コンシューマーの急増、ユースケースが必要とするトランスフォーメーションとデータ処理のダイバーシティー、変化への対応スピードなど、いくつかの次元でデータ統合とスケールを妨げる組織的・技術的ボトルネックが数多く発生しました。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

データ品質を向上させるデータ・アーキテクチャの構築方法

データストラテジーは、Data Architectがデータ品質を向上させるデータアーキテクチャを作成し、実装するのに役立ちます。効果的なデータ・ストラテジーを策定するための手順は以下のとおりです。

1. データを活用して達成したいビジネス目標の概要を作成する

たとえば、金融機関は、規制遵守の改善、コストの削減、収益の増加を目指す場合があります。利害関係者は、データが取り込まれたリアルタイムデータに対してデータ分析を実行するなど、特定のデータタイプのビジネスユースケースを特定して、意思決定を自動化し、コスト削減を推進します。

2. 既存のデータ資産のインベントリーを作成し、現在のデータ・フローをマッピングする

このステップには、組織全体の全データを特定し、一元化された、または連携されたインベントリー・リストにカタログ化することが含まれ、これによりデータのサイロが解消されます。このリストには、各データセットがどこにあるか、およびどのアプリケーションやユースケースがそのデータセットに依存しているかを詳しく説明する必要があります。次に、主要なユースケースに必要なデータを選択し、それが含まれるデータ・ドメインに優先順位を付けます。

3. 標準化された命名法を開発する

組織全体で使用されるデータの命名規則と整合したデータ形式（データクラス）は、部門（ドメイン）やユースケース全体でのデータの一貫性と相互運用性を確保するのに役立ちます。

4. 既存アーキテクチャにどのような変更を加える必要があるかを決定する

ビジネス目標を達成するために、データを最適化する変更を決定します。データ・ファブリックやデータメッシュなど、さまざまな現代のデータアーキテクチャを研究することで、ビジネスニーズに最適なデータ構造を決めることができます。

5. データ・アーキテクチャの有効性を評価するためのKPIを決定する

KPIを作成し、アーキテクチャーの成功の尺度として、データ品質をどの程度サポートしているかに関連付ける高度な分析を使用します。

6. データ・アーキテクチャ・ロードマップを作成する

企業は、四半期ごとに3～4つのデータ・ドメインでデータ・アーキテクチャーとガバナンスを実装するロールアウト計画を策定できます。

データ・アーキテクチャとIBM

適切に設計されたデータ・アーキテクチャーは、組織がデータについて、どのように認識、使用、議論するかを決定する透明性と標準化を通じて、データ品質の基盤を構築します。

前述のとおり、データ・ファブリックはそのようなアーキテクチャーのひとつです。データ・ファブリックは、データ検出、ガバナンス、データ品質管理を自動化し、ハイブリッドクラウド環境に分散しているデータへのセルフサービス・データ・アクセスを簡素化します。データを生成・利用するアプリケーションだけでなく、データウェアハウス、データレイク（大量のビッグデータを保管）、NoSQLデータベース（非構造化データを保管）、SQLを利用するリレーショナルデータベースなど、さまざまなデータ・ストレージ・リポジトリを含みます。

データ・ファブリックと IBM Cloud Pak for Data のメリットに関する詳細はこちら。