The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
不良データとは、不正確、不完全、一貫性がない、古い、重複している、無効、またはバイアス(偏り)があることによって、意思決定を損なう情報を指します。
不良データの原因はさまざまです。データ・アーキテクチャーの不備が原因の場合もあれば、ヒューマン・エラー(人為的ミス)が原因の場合もあります。原因にかかわらず、組織が意図せず不良データを使用すると、その影響は、税務書類を誤った住所に送付するといった軽微な不便から、規制違反、評判の低下、財務上の損失といった深刻なリスクにまで及ぶ可能性があります。
不良データ特有の危険性は、気付きにくい点にあります。システム停止とは異なり、不良データの影響は、重大な損害が発生するまで検知されない可能性があります。組織は、知らないうちに何年にもわたって不良データに基づいて運用している可能性があります。たとえば、営業チームはSalesforceのダッシュボードが読み込まれなければすぐに気付きますが、表示されているデータが誤っていることに気付くまでには、はるかに時間がかかります。
ビッグデータの量が急増し、ビジネス・リーダーが人工知能(AI)や意思決定を支えるためにデータへますます依存する中、データ品質を最大化することがこれまで以上に重要になっています。強力なデータ・ガバナンス、データ品質管理の実践、データ・オブザーバビリティー・ツールを通じて、組織はデータ資産が目に見えない負債になるのではなく、成長を促進するようにできます。
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
不良データは、以下のようにデータ品質の主要側面に基づいて大まかに分類できます。
データの正確性は、データが実際の出来事や値をどの程度正確に反映しているかを示す指標です。データが不正確である場合、そこにはエラーが含まれており、意思決定に利用するには信頼性に欠けます。たとえば、不正確な顧客データ(価格設定に関するデータ・ポイントなど)は、企業の顧客理解を歪め、顧客満足度を低下させる誤った行動につながる可能性があります。
一貫性のないデータは標準化が行われておらず、さまざまなデータ・セットやシステム間で十分な互換性がありません。日付形式、命名規則、測定単位の不一致は、ユーザー間の混乱を招き、特定のプラットフォーム内でデータ・サイロを生み出し、レポートや分析にエラーを引き起こす可能性があります。
古いデータとは、最新ではなくなった情報のことであり、意思決定者が現実世界の状況を反映していない無関係な情報を利用してしまう可能性があります。データの鮮度は、データベース情報が更新される頻度を示すメトリクスです。更新の間隔がかなり長くなると、データの陳腐化が生じる可能性があります。
無効なデータとは、システムやビジネスのルール(許可された値範囲、必要な形式、定義済みのデータ型など)に準拠しない情報のことです。例としては、サポートされていない特殊文字を含むデータや、必要なハイフンが含まれていない形式の電話番号などがあります。
バイアス自体はデータ品質の側面ではありませんが、複数の側面に影響を与えるため、利害関係者が考慮すべき重要な要素です。バイアスのあるデータは、実際の出来事、集団、状況を偏って表現していたり、適切に反映していなかったりするデータです。これは、不公平、不正確、信頼性に欠ける結果につながる可能性があり、機械学習(ML)やAIシステムで使用された場合には、個人、組織、社会に深刻な影響を及ぼす可能性があります。
不良データは、良質なデータとは対極にあるものです。高品質のデータは成長とイノベーションを促進しますが、質の低いデータは進歩を遅らせます。
組織は、情報に基づいた意思決定、実用的なインサイト、予測を通じて、社内オペレーションや顧客体験を支えるためにデータを活用しています。不良データに基づいた意思決定は、機会の逸失、業務の非効率化、評判の低下につながる可能性があります。金融や医療など、データが重要な意思決定を支える業界では、不良データが深刻、あるいは壊滅的な影響を及ぼす可能性があります。
一貫性のない患者データを含む臨床研究を考えてみましょう。研究者は結果を比較するのに苦労し、その結果、有望な治療法の開発が遅れる可能性があります。金融分野では、不正確なデータや欠落データによって、多額のコンプライアンス・コストが発生する可能性があります。不正確な財務報告は、サーベンス・オクスリー法(SOX法)などの規制違反につながる可能性があり、最高100万米ドルの罰金と最長10年の懲役が科される可能性があります。
人工知能の分野では、不良データのリスクがさらに高まります。AIやMLモデルが不正確、一貫性がない、またはバイアスのあるデータでトレーニングされると、そのアウトプットにも同様の誤りが反映されます。AIやMLへの投資効果を最大化するために、組織は自社のデータをAI対応の状態に整える必要があります。
Unity Technologiesは、AIやMLにおける不良データの影響を示す代表的な例です。2022年、このビデオゲーム会社の広告掲載アルゴリズムは、大手顧客から提供された不良データを取り込んでしまいました。アルゴリズムのパフォーマンスは大幅に低下し、再構築が必要になるほどでした。この問題により、Unityの株価は37%下落し、事業には推定1億1,000万米ドルの影響が生じました。
一方で、良質で正確なデータは、AIイニシアチブにとって大きなメリットとなります。IBM Institute for Business Valueの調査によると、信頼できるデータを保有する組織では、AI機能に対する投資収益率がほぼ2倍になっていることが分かりました。結論として、良質なデータは、あらゆるAIやデータ駆動型戦略にとって欠かせない優先事項です。
不良データに単一の根本原因はありません。テクノロジー、プロセス、人など、さまざまな要因によって発生する可能性があり、通常は複数の要因が組み合わさって生じます。データ品質低下の一般的な原因には、次のようなものがあります。
設計が不十分なデータ・アーキテクチャーは、データ・サイロ、パフォーマンス低下、ソフトウェア・バグを引き起こし、データの一貫性や信頼性を低下させる可能性があります。システムに障害が発生すると、ファイルが破損したり不完全な状態になったりする可能性があり、その結果、ダウンストリーム・プロセスで欠損値や不正確なデータが発生します。
多くの種類のビジネス・データ(消費者行動メトリクスなど)は、定期的に更新されなければ劣化していきます。データベースが古くなると、データに基づくインサイトや意思決定も古くなり、不正確になる可能性があります。
不良データは、低品質のデータ・ソースやプロバイダーだけでなく、データ収集の段階でも発生する可能性があります。データの入力中および処理中のバイアス、一貫性のない方法、誤ったツール、または不正確な測定は、いずれもデータ品質を損なう可能性があります。
データ・ガバナンスは、データ・ライフサイクル全体にわたるポリシー、標準、手順を定義および実施するための規律です。これらの実践が一貫性なく適用されたり、責任の所在が不明確だったりすると、データ品質は急速に低下します。
ヒューマン・エラー(人為的ミス)は、不良データの一般的な原因の1つです。手動でのデータ入力時の誤字、一貫性のないデータ・コーディング、バイアス、誤解は、いずれもデータの不正確さにつながる可能性があります。ヒューマン・エラーは、時間的プレッシャー、不十分なトレーニング、設計不良のシステムによって悪化します。
理想的な環境では、不良データはソースで検出され、ダウンストリーム・システムやデータ分析ワークフローに到達することはありません。しかし実際には、データ品質はデータのライフサイクルのどの時点でも、さまざまな理由で低下する可能性があります。
あらゆる段階で不良データを防ぐには、各フェーズのリスクに対処する包括的な戦略が必要です。この戦略には、以下のような実践を組み込むことができます。
強力なデータ・ガバナンスを確立することは、不良データを防ぐための重要な第一歩です。ライフサイクル全体を通じて正確で高品質なデータを維持するために必要なポリシー、基準、手順を定義し、適用します。強固なガバナンス・フレームワークは、意思決定や業務効率に影響を及ぼす前に、不正確さを特定して対処するのに役立ちます。
効果的なデータ・ガバナンスは、組織全体のデータ戦略を補完し、強化するものでなければなりません。通常、データの一貫性と信頼性を維持するために、データ管理、データ・セキュリティー、データ・アーキテクチャーなどの他の分野と連携して機能します。
不良データの存在を知らなければ、修正できません。組織は、データの状態を可視化し、継続的に監視するために、いくつかのプロセスを活用できます。
データ・エラーとその根本原因を特定したら、不良データを修正する必要があります。データ・クレンジングのプロセスは、重複レコード、欠損値、不整合、構文エラー、無関係なデータ、構造的エラーなど、データ品質に関する一般的な問題への対処を目的としています。一般的な手法には、標準化、外れ値や欠損値への対応、重複排除、データ検証などがあります。
データ・チームは、これらのステップのいくつか、特に標準化や重複排除などのタスクを自動化および最適化するためにAIを使用することが増えています。
データ・リテラシーの高い組織は、より良い意思決定を行うために、データを読み取り、理解し、活用し、コミュニケーションに役立てるスキルを備えています。データを批判的に評価する能力は、全体的なデータ品質の向上にもつながります。初歩的なデータ・スキルを持つ従業員であっても、バイアス、不一致、不正確さ、欠損値を認識しやすくなります。
データ・サイロを排除し、複雑さを軽減し、データ品質を向上させることで、卓越した顧客体験と従業員体験を実現するデータ・ストラテジーを設計します。
watsonx.dataを使用すると、オープンでハイブリッド、かつ管理されたデータ・ストアを通じて、データがどこに保存されていても、すべてのデータを使用して分析とAIを拡張できます。
IBMコンサルティングと連携することで、企業データの価値を引き出し、ビジネス上の優位性をもたらす洞察を活用した組織を構築します。