端的に言うと、答えはイエスです。データの整合性については、組織のデータの全体的な完全性、正確性、一貫性、アクセス可能性、セキュリティーを指します。これらの要素を組み合わせることで、組織のデータの信頼性が決まります。データ品質では、これらの基準を使用してデータの整合性のレベルを測定することで、データの信頼性と使用目的への適用可能性を測定します。ビジネス上の意思決定に分析を採用し、社内の利害関係者にセルフサービスのデータ・アクセスを提供し、顧客にデータ・オファリングを提供するデータ駆動型の組織にとって、データの品質と整合性は不可欠です。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
高レベルのデータ整合性を実現するために、組織はデータの収集、保管、アクセス、編集、使用の方法を管理するプロセス、ルール、標準を実装します。これらのプロセス、ルール、標準は、次の目的で連携して機能します。
組織は、データ・ライフサイクル全体を通じて任意の数のツールとプライベートまたはパブリッククラウド環境を使用して、データ・ガバナンスと呼ばれるものを通じてデータの整合性を維持できます。これは、エラー、データ損失、データ破損、機密データや規制対象データの誤った取り扱い、データ侵害を防ぐプロセス、ルール、基準を作成、更新し、一貫して適用することです。
高レベルのデータ整合性を持つ組織は、次のことができます。
優れたデータ整合性により、組織の分析の精度が向上し、ビジネス上の意思決定の結果を改善することもできます。データセットの完全性、正確性、一貫性が高いほど、Business Intelligenceとビジネス・プロセスの情報が増えます。その結果、リーダーは組織に利益をもたらし、従業員と消費者の信頼を高める目標を設定して達成するための準備が整います。
機械学習などのデータサイエンス・タスクでも、優れたデータ整合性により大きなメリットが得られます。基盤となる機械学習モデルが信頼性が高く正確なデータ・レコードでトレーニングされている場合、そのモデルはビジネスに関する予測を行ったり、タスクを自動化したりする能力が向上します。
データの整合性には、物理的データの整合性と論理データの整合性という2つの主なカテゴリがあります。
物理的なデータの整合性とは、データの保管中または転送中のデータの完全性(データに重要な情報が欠落していないことを意味する)、アクセシビリティ、正確性を保護することです。自然災害、停電、人的ミス、サイバー攻撃は、データの物理的な整合性に対してリスクをもたらします。
論理的なデータ整合性とは、部門、分野、場所にまたがり、さまざまな利害関係者やアプリケーションによってデータにアクセスされている間、データの一貫性と完全性を保護することです。論理データの整合性は、次の方法で実現されます。
データ・セキュリティーはデータ完全性の下位構成要素であり、不正なデータ・アクセスや不正操作を防ぐために講じられる対策を指します。効果的なデータ・セキュリティー・プロトコルとツールは、強力なデータ整合性に貢献します。言い換えれば、データ・セキュリティーは手段であり、データの整合性は目標です。侵害、攻撃、停電、サービス中断が発生した場合のデータ回復可能性は、データ・セキュリティーの領域に該当します。
ヒューマン・エラー、転送エラー、悪意のある行為、不十分なセキュリティー、ハードウェアの誤動作はすべて、組織のデータの整合性に悪影響を与える「不良データ」の原因となっています。1つ以上の問題に直面している組織は、以下に直面するリスクがあります。
低品質のデータは、不正確で情報に基づいていない分析により、不適切な意思決定につながります。データ品質の低下は、生産性の低下、収益の減少、評判への損害につながる可能性があります。
適切に保護されていないデータは、データ侵害や自然災害やその他の計画外の出来事により失われたりするリスクが高くなります。また、データ・セキュリティーに関する適切な洞察と管理がなければ、組織は欧州連合の一般データ保護規則のような地域、地方、および世界的な規制の遵守から容易に外れる可能性があります。
データ品質は基本的に、データの整合性の尺度です。データ・セットの精度、完全性、一貫性、有効性、一意性、適時性は、組織が特定のビジネス・ユースケースに対するデータの有用性と有効性を判断するために採用するデータ品質測定基準です。
データ品質アナリストは、上記の側面を使用してデータセットを評価し、総合スコアを割り当てます。データがあらゆる側面で高いランクにある場合、意図したユースケースまたはアプリケーションに対して信頼性が高く信頼できる高品質のデータとみなされます。高品質のデータを測定および維持するために、組織はデータ検証ルールとも呼ばれるデータ品質ルールを使用して、データ・セットが組織が定義した基準を満たしていることを確認します。
ビジネス・ユーザーやデータサイエンティストは、異種のシステム間でのデータの検索やフォーマット設定に時間を無駄にする必要はありません。その代わり、より自信を持ってデータセットに容易にアクセスし、分析することができます。不完全または不正確なデータに基づいて行動するのに費やされていた時間をさらに節約することができます。
データは一貫してフォーマットされ、ユーザーまたはアプリケーション用にコンテキスト化されているため、組織は、そうでなければ破棄されたか無視された可能性のあるデータから価値を引き出すことができます。
高品質のデータにより、システムや部門間の不整合が解消され、プロセスや手順全体で一貫したデータが保証されます。すべての利害関係者が同じデータを利用するため、利害関係者間の連携と意思決定が改善されます。
高品質のデータは簡単に見つけてアクセスできます。データ・セットの再作成や追跡の必要がないため、人件費が削減され、手作業によるデータ入力ミスの可能性が低くなります。また、高品質のデータは適切な環境に簡単に保管し、必須のレポートで収集、編集することができるため、組織はコンプライアンスをより確実に確保し、規制上の罰則を回避できます。
高品質のデータにより、組織はより正確で詳細な洞察を得ることができ、組織は従業員や顧客に向けて、よりパーソナライズされたインパクトのあるエクスペリエンスを提供することができます。
データ品質を判断し、全体的なスコアを割り当てるために、アナリストはデータ特性とも呼ばれる次の6つの側面を使用してデータセットを評価します。
これらの各側面のデータセットのスコアが高いほど、全体のスコアが大きくなります。全体的なスコアが高いことは、データセットの信頼性が高く、容易にアクセスでき、関連性があることを示します。
組織がデータ品質向上のために使用する一般的な方法や取り組みには、次のようなものがあります。
データ・プロファイリングは、データ品質評価とも呼ばれ、組織のデータを現在の状態で監査するプロセスです。これは、エラー、不正確さ、ギャップ、一貫性のないデータ、重複、アクセシビリティの障壁を明らかにするために行われます。データ品質ツールはいくつでも使用でき、データセットをプロファイリングして、修正が必要なデータの異常を検知できます。
データ・クレンジングは、データ・プロファイリング中に発見されたデータ品質の問題と不整合を修正するプロセスです。これにはデータセットの重複排除も含まれ、複数のデータ入力が意図的に複数の場所に存在しないようにします。
これは、異種データ資産と非構造化ビッグデータを一貫したフォーマットに適合させるプロセスです。このプロセスにより、データ・ソースに関係なく、データは完全であり、かつすぐに使用できる状態が確保されます。データを標準化するには、データセットが組織の標準とニーズに準拠していることを確認するためにビジネス・ルールが適用されます。
ジオコーディングは、位置メタデータを組織のデータセットに追加するプロセスです。データに地理座標をタグ付けして、データの発信元、履歴、保管場所を追跡することで、組織は国内および世界の地理データ標準が満たされていることを確認できます。たとえば、地理的メタデータは、組織が顧客データの管理においてGDPRに準拠していることを確認するのに役立ちます。
これは、重複または冗長なデータを識別、マージ、解決する方法です。
良好なデータ品質を維持するには、継続的なデータ品質管理が必要です。データ品質モニタリングとは、以前にスコアリングされたデータセットを再検討し、データ品質の6つの側面に基づいて再評価する手法です。多くのデータアナリストは、データ品質ダッシュボードを使用してデータ品質のKPIを視覚化し、追跡しています。
これは、すべてのアプリケーションとデータタイプにデータ検証ルールを大規模にデプロイメントして、すべてのデータセットが特定の標準に準拠していることを確認することです。これは、バッチ・プロセスとして定期的に実行することも、変更データのキャプチャなどのプロセスを通じてリアルタイムで継続的に実行することもできます。
マスター・データ管理(MDM)とは、すべてのデータがカタログ化・追跡される、組織全体に一元化されたデータ・レジストリーを作成・維持することです。これにより、組織はデータが存在する場所やその種類に関係なく、データセットを迅速に表示して評価できる単一の場所が得られます。たとえば、顧客データ、サプライチェーン情報、マーケティング・データはすべてMDM環境に存在します。
IBMは、データ・プロファイリング、データ・クレンジング、データ・モニタリング、データ・マッチング、データ・エンリッチメントなど、幅広い統合されたデータ品質およびガバナンス機能を提供し、データ・コンシューマーが信頼できる高品質のデータにアクセスできるようにします。IBMのデータ・ガバナンス・ソリューション は、組織が自動化された、メタデータ主導の基盤を確立するのに役立ちます。この基盤では、資産にデータ品質スコアを割り当て、すぐに使用できるオートメーション・ルールを使用して、キュレーションを改善し、データ品質管理を簡素化します。
データ・オブザーバビリティー機能により、IBMは組織がデータ・パイプライン内の問題をより迅速に検知し、解決できるよう支援します。自動化されたデータ・リネージュ機能におけるManta社との提携により、IBMはお客様がより根本的な問題を発見、追跡、防止できるよう支援します。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。