不良データとは？

By Alexandra Jonker , Tom Krantz

不良データの定義

不良データとは、不正確、不完全、一貫性がない、古い、重複している、無効、またはバイアス（偏り）があることによって、意思決定を損なう情報を指します。

不良データの原因はさまざまです。データ・アーキテクチャーの不備が原因の場合もあれば、ヒューマン・エラー（人為的ミス）が原因の場合もあります。原因にかかわらず、組織が意図せず不良データを使用すると、その影響は、税務書類を誤った住所に送付するといった軽微な不便から、規制違反、評判の低下、財務上の損失といった深刻なリスクにまで及ぶ可能性があります。

不良データ特有の危険性は、気付きにくい点にあります。システム停止とは異なり、不良データの影響は、重大な損害が発生するまで検知されない可能性があります。組織は、知らないうちに何年にもわたって不良データに基づいて運用している可能性があります。たとえば、営業チームはSalesforceのダッシュボードが読み込まれなければすぐに気付きますが、表示されているデータが誤っていることに気付くまでには、はるかに時間がかかります。

ビッグデータの量が急増し、ビジネス・リーダーが人工知能（AI）や意思決定を支えるためにデータへますます依存する中、データ品質を最大化することがこれまで以上に重要になっています。強力なデータ・ガバナンス、データ品質管理の実践、データ・オブザーバビリティー・ツールを通じて、組織はデータ資産が目に見えない負債になるのではなく、成長を促進するようにできます。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

不良データの種類

不良データは、以下のようにデータ品質の主要側面に基づいて大まかに分類できます。

不正確なデータ
不完全なデータ
一貫性のないデータ
古いデータ
重複したデータ
無効なデータ
バイアスのあるデータ

不正確なデータ

データの正確性は、データが実際の出来事や値をどの程度正確に反映しているかを示す指標です。データが不正確である場合、そこにはエラーが含まれており、意思決定に利用するには信頼性に欠けます。たとえば、不正確な顧客データ（価格設定に関するデータ・ポイントなど）は、企業の顧客理解を歪め、顧客満足度を低下させる誤った行動につながる可能性があります。

不完全なデータ

不完全なデータには必要なレコードや値が欠落しており、こうした欠落はデータ処理やデータ分析に影響を与えます。大きな欠落はバイアスを生じさせる可能性もあります。分析結果が実際のデータ・セットを正しく反映しなくなる可能性があるためです。たとえば、顧客データベースのエントリのほとんどに連絡先情報が欠落している場合、営業チームは顧客と関わる機会を逃してしまいます。

一貫性のないデータ

一貫性のないデータは標準化が行われておらず、さまざまなデータ・セットやシステム間で十分な互換性がありません。日付形式、命名規則、測定単位の不一致は、ユーザー間の混乱を招き、特定のプラットフォーム内でデータ・サイロを生み出し、レポートや分析にエラーを引き起こす可能性があります。

古いデータ

古いデータとは、最新ではなくなった情報のことであり、意思決定者が現実世界の状況を反映していない無関係な情報を利用してしまう可能性があります。データの鮮度は、データベース情報が更新される頻度を示すメトリクスです。更新の間隔がかなり長くなると、データの陳腐化が生じる可能性があります。

重複したデータ

重複したデータ（または冗長データ）とは、データ・セット内に存在する重複エントリーを指し、一意のデータは1回しか存在しません。特定のデータ値や傾向を過剰に反映することで、分析を歪める可能性があります。（高可用性、データ整合性、一貫性を確保するために、データベース設計において意図的なデータ冗長性が使用されるユースケースもあることに注意が必要です。）

無効なデータ

無効なデータとは、システムやビジネスのルール（許可された値範囲、必要な形式、定義済みのデータ型など）に準拠しない情報のことです。例としては、サポートされていない特殊文字を含むデータや、必要なハイフンが含まれていない形式の電話番号などがあります。

バイアスのあるデータ

バイアス自体はデータ品質の側面ではありませんが、複数の側面に影響を与えるため、利害関係者が考慮すべき重要な要素です。バイアスのあるデータは、実際の出来事、集団、状況を偏って表現していたり、適切に反映していなかったりするデータです。これは、不公平、不正確、信頼性に欠ける結果につながる可能性があり、機械学習（ML）やAIシステムで使用された場合には、個人、組織、社会に深刻な影響を及ぼす可能性があります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

不良データの影響とは？

不良データは、良質なデータとは対極にあるものです。高品質のデータは成長とイノベーションを促進しますが、質の低いデータは進歩を遅らせます。

組織は、情報に基づいた意思決定、実用的なインサイト、予測を通じて、社内オペレーションや顧客体験を支えるためにデータを活用しています。不良データに基づいた意思決定は、機会の逸失、業務の非効率化、評判の低下につながる可能性があります。金融や医療など、データが重要な意思決定を支える業界では、不良データが深刻、あるいは壊滅的な影響を及ぼす可能性があります。

一貫性のない患者データを含む臨床研究を考えてみましょう。研究者は結果を比較するのに苦労し、その結果、有望な治療法の開発が遅れる可能性があります。金融分野では、不正確なデータや欠落データによって、多額のコンプライアンス・コストが発生する可能性があります。不正確な財務報告は、サーベンス・オクスリー法（SOX法）などの規制違反につながる可能性があり、最高100万米ドルの罰金と最長10年の懲役が科される可能性があります。

人工知能の分野では、不良データのリスクがさらに高まります。AIやMLモデルが不正確、一貫性がない、またはバイアスのあるデータでトレーニングされると、そのアウトプットにも同様の誤りが反映されます。AIやMLへの投資効果を最大化するために、組織は自社のデータをAI対応の状態に整える必要があります。

Unity Technologiesは、AIやMLにおける不良データの影響を示す代表的な例です。2022年、このビデオゲーム会社の広告掲載アルゴリズムは、大手顧客から提供された不良データを取り込んでしまいました。アルゴリズムのパフォーマンスは大幅に低下し、再構築が必要になるほどでした。この問題により、Unityの株価は37％下落し、事業には推定1億1,000万米ドルの影響が生じました。

一方で、良質で正確なデータは、AIイニシアチブにとって大きなメリットとなります。IBM Institute for Business Valueの調査によると、信頼できるデータを保有する組織では、AI機能に対する投資収益率がほぼ2倍になっていることが分かりました。結論として、良質なデータは、あらゆるAIやデータ駆動型戦略にとって欠かせない優先事項です。

不良データの原因とは？

不良データに単一の根本原因はありません。テクノロジー、プロセス、人など、さまざまな要因によって発生する可能性があり、通常は複数の要因が組み合わさって生じます。データ品質低下の一般的な原因には、次のようなものがあります。

システム障害
データの劣化
信頼性の低いデータ収集
弱いデータガバナンス
ヒューマン・エラー
データ統合やデータ移行における障害

システム障害

設計が不十分なデータ・アーキテクチャーは、データ・サイロ、パフォーマンス低下、ソフトウェア・バグを引き起こし、データの一貫性や信頼性を低下させる可能性があります。システムに障害が発生すると、ファイルが破損したり不完全な状態になったりする可能性があり、その結果、ダウンストリーム・プロセスで欠損値や不正確なデータが発生します。

データの劣化

多くの種類のビジネス・データ（消費者行動メトリクスなど）は、定期的に更新されなければ劣化していきます。データベースが古くなると、データに基づくインサイトや意思決定も古くなり、不正確になる可能性があります。

信頼性の低いデータ収集

不良データは、低品質のデータ・ソースやプロバイダーだけでなく、データ収集の段階でも発生する可能性があります。データの入力中および処理中のバイアス、一貫性のない方法、誤ったツール、または不正確な測定は、いずれもデータ品質を損なう可能性があります。

弱いデータガバナンス

データ・ガバナンスは、データ・ライフサイクル全体にわたるポリシー、標準、手順を定義および実施するための規律です。これらの実践が一貫性なく適用されたり、責任の所在が不明確だったりすると、データ品質は急速に低下します。

ヒューマン・エラー

ヒューマン・エラー（人為的ミス）は、不良データの一般的な原因の1つです。手動でのデータ入力時の誤字、一貫性のないデータ・コーディング、バイアス、誤解は、いずれもデータの不正確さにつながる可能性があります。ヒューマン・エラーは、時間的プレッシャー、不十分なトレーニング、設計不良のシステムによって悪化します。

統合または移行の障害

適切なプロセス、計画、テクノロジーを伴わないデータ移行やデータ統合は、データ損失、不整合、不正確さを引き起こす可能性があります。これらの問題は、多くの場合、データ形式や構造の不一致、または見落とされた依存関係によって発生します。

不良データを防ぐには

理想的な環境では、不良データはソースで検出され、ダウンストリーム・システムやデータ分析ワークフローに到達することはありません。しかし実際には、データ品質はデータのライフサイクルのどの時点でも、さまざまな理由で低下する可能性があります。

あらゆる段階で不良データを防ぐには、各フェーズのリスクに対処する包括的な戦略が必要です。この戦略には、以下のような実践を組み込むことができます。

ガバナンスと戦略
監視と可視化
クレンジングと修復
データ・スキルとデータ・リテラシー

ガバナンスと戦略

強力なデータ・ガバナンスを確立することは、不良データを防ぐための重要な第一歩です。ライフサイクル全体を通じて正確で高品質なデータを維持するために必要なポリシー、基準、手順を定義し、適用します。強固なガバナンス・フレームワークは、意思決定や業務効率に影響を及ぼす前に、不正確さを特定して対処するのに役立ちます。

効果的なデータ・ガバナンスは、組織全体のデータ戦略を補完し、強化するものでなければなりません。通常、データの一貫性と信頼性を維持するために、データ管理、データ・セキュリティー、データ・アーキテクチャーなどの他の分野と連携して機能します。

監視と可視化

不良データの存在を知らなければ、修正できません。組織は、データの状態を可視化し、継続的に監視するために、いくつかのプロセスを活用できます。

データ・リネージュ：これらのツールは、データ（およびそのメタデータ）がライフサイクル全体を通じてどのように移動し、変化するかを可視化し、その起点や最終的な到達先を明確に把握できるようにします。データ・リネージュの可視化は、根本原因分析と規制コンプライアンスをサポートします。
データ監査：エンタープライズ・データの定期的なレビューと分析は、データ環境を可視化するのに役立ちます。監査は、組織がデータを発見、分類、監視し、リスク、不正確さ、不整合を特定するのに役立ちます。
データ・プロファイリング：データ・プロファイリング・プロセスでは、データを分析してその構造や品質に関するインサイトを取得し、チームが是正対応を計画できるようにします。通常は、データ・エンジニアがさまざまなビジネス・ルールと分析アルゴリズムを使用して行います。
データ・オブザーバビリティー：従来のモニタリングを超えて、データ・オブザーバビリティー・ツールは、オートメーションとインテリジェンスを活用し、データの問題が業務オペレーションに波及する前に、ほぼリアルタイムで問題の特定、トラブルシューティング、解決を支援します。

クレンジングと修復

データ・エラーとその根本原因を特定したら、不良データを修正する必要があります。データ・クレンジングのプロセスは、重複レコード、欠損値、不整合、構文エラー、無関係なデータ、構造的エラーなど、データ品質に関する一般的な問題への対処を目的としています。一般的な手法には、標準化、外れ値や欠損値への対応、重複排除、データ検証などがあります。

データ・チームは、これらのステップのいくつか、特に標準化や重複排除などのタスクを自動化および最適化するためにAIを使用することが増えています。

データ・スキルとデータ・リテラシー

データ・リテラシーの高い組織は、より良い意思決定を行うために、データを読み取り、理解し、活用し、コミュニケーションに役立てるスキルを備えています。データを批判的に評価する能力は、全体的なデータ品質の向上にもつながります。初歩的なデータ・スキルを持つ従業員であっても、バイアス、不一致、不正確さ、欠損値を認識しやすくなります。