ダーティ・データとは何ですか？

By Alexandra Jonker , Judith Aquino

ダーティ・データ、定義

ダーティ・データとは、不正確、無効、不完全、または一貫性のない情報であり、ビジネスでの使用の信頼性が低いものです。

ダーティ・データにはさまざまな形があり、重複レコード、欠落またはNULL値、一貫性のない形式、古い情報、無効なエントリー、レコード間の関係の解消、システム間での定義の競合などが含まれる場合があります。

このようなデータ品質の問題は、初期のキャプチャから下流の分析、配布に至るまで、データライフサイクルの任意の段階で発生する可能性があります。これらに対処することが不可欠です。不正確または一貫性のないインプットは、意思決定の精度を損ない、データ分析結果を歪め、人工知能（AI）モデルの性能を低下させ、システムやプロセス全体でエラーを拡大することでリスクを増大させる可能性があるためです。

組織はデータプロファイリング、検証、重複除去、標準化、監視など、多様なツールや技術を活用して汚れたデータをクリーンアップできます。強力なデータ・ガバナンスによって、これらの取り組みはさらに効果的になります。ガバナンスは、所有権を定義し、基準を確立し、データ品質の問題の再発を防ぎ、改善を維持するために必要な構造を提供します。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

ダーティ・データのコスト

ダーティ・データに対処できない組織は、多大な財務的および運用的コストを被る脆弱性があります。チームが不正確なデータ（しばしばダーティ・データや低品質のデータとも呼ばれる）に依存すると、現実や市場の状況にそぐわないビジネス上の意思決定を下す可能性が高くなります。

これらのリスクは広く認識されており、2025年のIBM Institute for Business Value（IBV）レポートによると、最高オペレーション責任者の43%がデータ品質を最優先事項として挙げています。¹また、Forresterによると、4分の1以上の組織がデータ品質の低さによる年間損失が500万ドルを超えると見積もっています。²

ダーティ・データは次の原因になる可能性もあります。

古いデータと重複した記録が原因の意思決定や計画の不備
不完全な顧客データに起因する非効率的なマーケティング・キャンペーン、販売上の意思決定、顧客体験の成果
不正確なデータ、欠落情報、その他の不正確さに起因するコンプライアンス違反の罰金と監査の失敗
タイプミスやデータの欠落などのエラーを修正するための、時間のかかるデータクリーニングと照合
基本的なデータアクセスや修正におけるITへの依存度の高まり
データ分析に対する信頼性の低下（意思決定の遅れにつながる）
イノベーションの遅延と分析とAIへの投資による投資収益率（ROI）の低下
データに基づく実行が不十分であることによる競争優位性の喪失

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

ダーティ・データがAIに与える影響

ダーティ・データは、大規模言語モデル（LLM）を含むAIシステムに複合的な影響を及ぼします。これらのシステム（およびその基礎となるアルゴリズム）は、データセットの統計的パターンを大規模に識別することで学習します。したがって、データセット内のエラーやバイアスはトレーニング中に学習され、推論時に欠陥や誤解を招くアウトプットに反映される可能性があります。実際、Gartnerは「2026年まで、組織はAI対応データに裏付けられていないAIプロジェクトの60%を放棄するだろう」と予測しています。³

その結果、AIの導入の台頭により、高品質で管理対象データの重要性がさらに顕著になっています。強力なデータ品質の実践により、より正確で信頼性の高い、信頼できるモデル・アウトプットが可能になります。この利点は、測定可能なビジネス効果につながります。IBVの研究によると、内部および外部の利害関係者から信頼される大量のデータを保有する企業は、AI機能からほぼ2倍の投資収益率を達成しています。⁴

ダーティ・データの根本原因

質の低いデータやダーティ・データは、自然に出現するものではなく、組織的、技術的、人的要因の結果です。ダーティ・データの根本原因は、多くの場合、次のソースや慣行にまで遡ることができます。

ヒューマン・エラー
データ・サイロ
弱いデータガバナンス
欠陥のあるデータ統合
技術的負債
検証と品質管理の欠如
優先順位の不整合
機械学習のフィードバック・ループ

ヒューマン・エラー

手動でのデータ入力は、繰り返し、時間的プレッシャー、認知負荷により本質的にミスが発生しやすく、タイプミス、文字の入れ替え、ソース資料の誤読、コピーペーストのミスなど、不正確なデータにつながる可能性があります。このような人為的エラーが体系的なものであると、急速に増加し、大規模な清掃プロセスが必要になる可能性があります。

データ・サイロ

データサイロは、部門間で情報を断片化することで、ダーティ・データを引き起こす可能性があります。チームが標準や調整を共有せずに孤立したデータセットを維持すると、重複や不整合のあるレコードが急増する可能性があります。

弱いデータガバナンス

一元的な監視、明確なデータ所有権、強制力のある標準、および強力なデータ・ガバナンスのその他の特徴がなければ、ダーティ・データが繁栄する可能性があります。

このような状況では、部門は一貫性のないデータを取得・管理し、その結果、形式や命名規則の矛盾、一貫性のないデータ定義、データの信頼性を損なう未検証のエントリーなど、問題が時間の経過とともに蓄積されます。

欠陥のあるデータ統合

異なる特殊なシステム間でデータを統合すると、スキーマの不一致、誤った変換、不完全な転送によってエラーが発生する可能性があります。このようなリスクは、クラウドとハイブリッド・アーキテクチャーによって増大しており、フォーマットや検証ルールが異なる環境間でデータが移動します。

技術的負債

レガシーシステムは多くの場合、現在のビジネス・ニーズに合致しない時代遅れのデータ・モデル、限定的な検証、脆弱なインターフェースに依存しています。要件が進化するにつれて、これらのシステムでは技術的負債が蓄積され、手作業による回避が必要になります。また、レポートやダウンストリーム分析を歪める、フラグが立てられない外れ値などの構造データエラーの可能性も高まります。

検証と品質管理の欠如

範囲チェック、形式の適用、必須フィールド、一意性の制約などのリアルタイムな検証なしでデータが受け入れられると、エラーが静かにシステムに入り込みます。これらの欠陥は一度取り込まれると下流に伝播し、検知と修正が困難になり、コストが高くなります。

優先順位の不整合

ダーティ・データは、技術的な欠点ではなく、組織の優先事項を反映している可能性があります。データの正確性や管理よりもスピード、量、短期的な納品が重視されると、エラー率が上昇することが多く、クリーンなデータを維持する責任が不明確になります。

機械学習のフィードバック・ループ

機械学習システムは、ダーティ・データを不注意に導入したり、増幅したりする可能性があります。データサイエンティストが、欠陥のある、偏った、あるいは不完全なデータセットでモデルをトレーニングすると、モデルのアウトプットは後に十分な検証や監視を経ずにインプットとして再統合される可能性があります。

ダーティ・データをクリーニングする方法

ダーティ・データのクリーニングは、プロセス、手法、ツール、ガバナンスを組み合わせた基本的なデータ管理手法です。データ・クレンジングには、さまざまなデータソースからデータがどのように収集され、そのライフサイクル全体にわたって管理されるかの理解、重複データ、一貫性のないデータ、不完全なデータなどのエラーの特定と修正、結果の検証、信頼できるデータを維持するための制御の埋め込みが含まれます。

最も一般的なデータクリーニングの手順のうちの8つには以下が含まれます。

コンテキストとデータの使用状況のキャプチャ
データのビジネス・コンテキスト、ライフサイクル、およびデータがどのように調達、統合され、分析や意思決定に使用されているかを理解します。
データの要件と関係の定義
必要なフィールド、各要素の関連性、テーブル内およびテーブル間で予想される関係を明確にし、データが意図した分析または運用の目的を確実にサポートするようにします。
サンプルのレビュー
代表的なデータサンプルを調査し、無関係な記録、一貫性のないフォーマット、データ収集または統合中に生じた構造的エラーなど、明らかな品質上の問題を特定します。
データ品質ベースラインの確立
データのプロファイリング（行数、分布、欠損値、重複、不整合の分析）により、品質ベースラインを確立し、全体的な使用適合性を評価します。
データ品質ルールと制約の特定
関連するレコードが適切にリンクされた状態を維持するための形式、範囲、許可された値、キー、ルールなど、フィールドと関係のデータ品質ルールを文書化します。
根本原因の分析
例外と失敗を評価して、データ入力エラー、システムの制限、統合の欠陥、曖昧なビジネス定義などの根本原因を特定します。
修復と予防的コントロールの実施
特定された問題に対処し、ガバナンスに沿ったプロセスまたはシステムコントロールを実施します。例えば、入力時の検証、標準化された定義、自動チェックにより、再発を減らし、長期的なデータ管理を改善します。
データ品質メトリクスの追跡と管理
データ品質メトリクス（完全性、正確性、一貫性、適時性、妥当性を含む）を確立し、監視することにより、改善を追跡し、コンプライアンスをサポートする。

データクリーニングのツールと手法

多様なデータ・クリーニング・ツールと手法（重複する機能を持つものもあります）は、データライフサイクル全体のさまざまなデータ品質の課題、ユースケース、複雑さのレベルに対処するように設計されています。

エンドツーエンドのクレンジングおよび統合プラットフォーム

一元化されたデータ統合プラットフォーム
これらのプラットフォームは、システム間で異なる形式のデータを移動、変換、統合するために構築されています。これらは通常、データのプロファイリング、検証、重複排除、変換、ルールベースのクレンジングを含むエンドツーエンドのクレンジング機能を提供し、多くの場合、ローコードまたはノーコードのインターフェースを備えています。
オールインワンのマッチングと高品質プラットフォーム
一元化されたデータ統合プラットフォームと比べて、これらのプラットフォームはデータの信頼性と一貫性の向上に重点を置き、データマッチング、エンティティ解決、標準化、管理に関するより深い統合能力を備えています。
お客様中心のデータ・プラットフォーム
これらのプラットフォームは通常、お客様の記録をシステム全体で管理・照合するのに役立つデータ品質、重複排除、ID解決の機能を提供します。

スペシャリストによるデータ・クレンジング・ソリューション

ビジネスユーザー指向の品質ツール
これらのツールは非技術系チーム向けに設計されており、確率的マッチング、重複排除、連絡先と住所の検証、ルールベースの標準化をサポートします。
ドメイン固有の検証サービス
これらのソリューションには、住所や郵便番号の検証、電子メールの検証、電話番号の検証などがあり、多くの場合、サービスやアプリケーション・プログラミング・インターフェース（API）として提供されています。

分析およびエンジニアリング指向の機能

データ・オブザーバビリティーと品質監視ツール
これらのツールは、スキーマの変更、異常、品質の期待値の違反など、データパイプラインを継続的に監視し、問題を早期に検知することを目的としています。
組み込みのデータ準備およびテスト機能
ビジネスインテリジェンス（BI）、抽出、変換、読み込み（ETL）、および変換フレームワークの多くには、ルーチンデータワークフローの一部としてコアデータ品質チェックを実装するプロファイリング、検証ルール、テストが含まれています。

データ・ガバナンスが長期的なデータ品質にとって重要な理由

組織内のダーティ・データを修正することは、孤立した問題に対処するだけではありません。また、プロセス、テクノロジー、所有モデルに組み込まれたデータ品質の問題を修正する必要があります。

データ・ガバナンスは、データのライフサイクル全体を管理するためのポリシー、役割、プロセス、ツールを定義することにより、データが信頼でき、ビジネス全体で活用できるようにするための組織的フレームワークを提供します。ガバナンスは、上流に説明責任と管理を組み込むことで、品質問題の再発を防止し、データ品質の持続的な改善をサポートします。

IBVの調査では、経営幹部の54%が、効果的なデータガバナンスとデータ管理の導入が組織にとって優先事項であると回答しています。⁵

データ・ガバナンスがなぜこのように重要な焦点となったのかを理解するためには、ガバナンスが実際に何をしているのかを明確にすることが役に立ちます。ガバナンスは、データの所有者、データの処理方法、および信頼できるデータと見なされるために従う必要のあるルールを定義します。ガバナンスをデータの「航空交通管制」システムと考えてください。アクセス、品質基準、コンプライアンスをオーケストレーションして、検証済みのデータが適切なユーザーやシステムに流れるようにします。

強力なデータ・ガバナンス・フレームワークには、通常、次のものが含まれます。