AIの成功にはデータ品質が鍵となる理由

By Alexandra Jonker , Judith Aquino

AIデータ品質の定義

人工知能（AI）のデータ品質とは、トレーニング、検証、配備を含むAIのライフサイクル全体にわたって、データが正確かつ完全で、信頼でき、使用に適している度合いのことです。

AIシステムにおけるデータ品質には、従来のデータ品質の次元ではあまり重視されていない要素、例えば代表性、バイアス、ラベルの正確性、無関係な変動（ノイズ）なども含まれ、これらはモデルの動作に影響を与える可能性がある。

AIにおけるデータ品質の重要性はいくら強調してもしすぎることはない。データ品質の低さは、AIプロジェクトが失敗する最も一般的な理由の一つです。AIモデルは、欠陥のあるデータ、バイアスが含まれたデータ、または不完全なデータに基づいて学習された場合、どれほど洗練されたアーキテクチャーであっても、信頼性の低いアウトプットを生成します。格言が示すとおり、ゴミを入れたらゴミしか出てきません。

一方、質の高いデータは、信頼性が高く効果的なAIの基盤を形成します。AIシステムがより複雑かつスケーラブルになる中で、継続的かつ堅牢なデータ品質管理が、それらのシステムが信頼性を発揮し、変化する環境に適応し、情報に基づいた意思決定を可能にするかどうかを決定づけます。

高度なデータ品質ツールは、継続的なモニタリングと検証をデータとモデルのパイプラインに直接組み込むことで、AIのデータ品質管理を合理化するのに役立ちます。ルールベースの自動化に加えて、AIは、微妙な異常を検出したり、下流モデルへの影響に基づいて問題の優先順位付けを行ったりするなど、AIデータの品質を向上させるためにも使用できます。これらのツールは、正確性、一貫性、完全性、その他のデータ品質次元のチェックを自動化することで、チームが問題を早期に検知し、AIシステムの進化に合わせてデータ品質を維持するのに役立ちます。

AIの価値はデータで決まる

世界中の組織がAIに多額の投資を続けています。Gartnerによると、世界のAI支出は2026年に2兆米ドルを超え、前年比37%の成長率になると予測されています。¹しかし、この急速な拡大は、多くのAIイニシアチブが持続的な価値を提供するのに苦労しているという事実を覆しています。

IBM Institute for Business Valueの 2025 CEO Studyによると、AIイニシアチブのうち、企業全体でスケールアップに成功したのはわずか16%に過ぎません。²一方、MITのNANDA研究³では、生成AIパイロットの最大95%が実験以上の進展に失敗していると報告しています。

調査によると、AIのデータ品質とデータ・ガバナンスは、AIエコシステムにおける重要な差別化要因です。IBVの別の調査によると、AIファーストの組織の68％が、成熟した十分に確立されたデータおよびガバナンスのフレームワークを報告しているのに対し、他の組織ではわずか32％です。⁴

本調査の著者指摘しているように、「最先端のアルゴリズムや野心的なユースケースほど派手ではないが、構造化され、アクセス可能で、質の高いデータという基盤は、AIの持続的な成功に不可欠な前提条件である」

多くのAIシステムの中核をなす機械学習モデルは、与えられたデータセットから直接「学習」するため、その基盤が重要になります。データがエラー、ギャップ、古い情報、サイロ、または体系的な偏りによって現実を誤って伝えている場合、モデルはそれらの弱点を引き継ぐだけでなく、データの問題を大規模に悪化させる可能性があります。

例えば、自然言語処理に用いられる大規模言語モデル（LLM）などの生成AIシステムでは、データ品質の問題が事実誤りや偏った画像出力のテキストとして現れることがあります。データ品質が低いと、特に特殊なインプットや過小評価されるシナリオなどのエッジ・ケースで、パフォーマンスが不均衡になる可能性もあります。

低品質なデータがごく一部であっても、大きな影響を与える可能性があります。根本的な原因はデータの質にある場合、わずかな悪い結果が意思決定や技術全体の信頼を損なう可能性があり、経営陣はAIツールが欠陥があると結論づけます。

技術的な成果だけでなく、AIのデータ品質が低ければ、データ・プライバシーや責任あるデータ利用に関するリスクなど、法的・倫理的な意味合いもあります。管理の質が低いデータでトレーニングされたモデルは、雇用、融資、医療、公共サービスなどの分野で差別を永続化させる可能性があります。同時に、EUの人工知能法や増え続けている米国の州レベルのAI法などの規制により、組織はデータ・プライバシー、トレーニング・データの品質、代表性、出所に対して、責任を持つことがますます増えています。

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

AIのデータ品質は従来のデータ品質とどのように異なるのでしょうか。

AIのデータ品質測定は、従来のデータ品質測定基準で追跡されるのと同じデータ品質次元の多くに依存しています。その違いは、AIシナリオにおいてデータ品質次元がどのように再構成されるかにあります。モデルのトレーニング、モデルの汎化、公平性、オペレーショナルリスク、特にモデルが開発され、さまざまなデータ環境に展開される際の影響について評価されます。

AIシステムに適用する場合、データ品質は次のデータ品質次元を適応させたものを用いて評価されます。

データの正確性
完全性
データ完全性
一貫性
適時性
関連性

データの正確性

従来の設定では、正確性は、データ値が現実世界のエンティティまたはイベントを正しく表しているかどうかに重点を置いており、多くの場合、基本的なチェックと事前定義されたしきい値を通じて検証されます。AIシステムでは、精度は、ラベル・ノイズ（不正確または曖昧にラベル付けされたトレーニング例）、測定エラー、および代理変数がモデルトレーニングにどのように影響するかを評価する堅牢なデータ検証プロセスにも依存します。

AIの精度の詳細はこちら

完全性

AIのデータ品質の場合、必要なフィールドやレコードが欠落しているかどうかをチェックするだけでなく、エッジ・ケース、まれなイベント、少数派の集団など、モデルが遭遇することが予想されるすべてのケースをデータが十分にカバーしているかどうかまでチェックされます。カバレッジのギャップがあると、平均的には優れたパフォーマンスを発揮するものの、過小評価されているシナリオでは失敗する脆弱なモデルが発生する可能性があり、公平性と運用リスクが増大します。

データ完全性

従来、データの完全性とは、データが正しいスキーマに従うことや、システム間で正しく接続されることなど、基本的なルールに従うことを確認することであった。AIにとって、データの完全性は、データの出所を正確に知り、データ・パイプライン全体でデータがどのように準備され、使用されたかを再現できることも意味します。

チームはデータを元のソースまで追跡し、データに加えられたすべての変更を明確に記録しておくことができる必要があります。トレーニング・データやモデル・インプットなどの重要なデータ資産は、偶発的な破損、重複、不正な変更などの問題を検出して調査できるように保護する必要があります。

AI Academy

生成AIの成功の鍵はデータ管理

生成AIの使用を成功させるために、高品質のデータが不可欠である理由をご覧ください。

エピソードに移動

一貫性

一貫した形式と定義にとどまらず、AIのデータ品質を測定するということは、過去のデータと新しいデータ全体で一貫した方法でデータが収集、処理、拡張されているかどうかを調べることを意味します。このチェックにより、パイプラインやソースの変更によって、意図せず歪み、バイアス、またはダウンストリームのモデル・リスクが発生しないようにすることができます。

適時性

従来の適時性は、現在のデータが収集時点でどのようになっているかに焦点を当てています。AIシステムにおいては、新しいデータやリアルタイムデータがトレーニング・データとどのように異なるかを監視することも必要です。データや概念のドリフトはモデルのパフォーマンスを低下させる可能性があります。

高いAIデータ品質を実現する方法

AIデータの品質を測定することで初期の基準値を確立できますが、データ、使用パターン、運用条件が変化するにつれて、それを維持するには継続的なデータ品質の監視が必要です。AIのデータ品質を向上させ維持するための4つの基本的な実践方法は次のとおりです。

ライフサイクルの早い段階でのデータ・プロファイリングと探索
基盤としてのデータ・オブザーバビリティー
AIを活用したデータ品質チェック
修復とフィードバックによるループの終了

ライフサイクルの早い段階でのデータ・プロファイリングと探索

プロファイリングは、チームが基盤となるデータ・ソース、データがどのように収集・構造化・変換されたか、そしてデータ・リネージュを通じてパイプラインを通る流れを理解するのに役立ちます。このプロセスには、外れ値の特定、欠損値のチェック、テキストや画像などの構造化データおよび非構造化データ間の関係の分析が含まれます。

これらの実践により、モデルトレーニングのための正確なデータの強力な基盤が確立されます。モデル開発の前に行い、未加工データと関連するメタデータの両方を活用して初期のデータ準備ワークフローに組み込む必要があります。

基盤としてのデータ・オブザーバビリティー

データ・オブザーバビリティーは、運用ワークフロー全体で大規模かつ効果的な継続的な監視とチェックを可能にするために必要な可視性を提供します。オブザーバビリティーは、データ・パイプラインを監視することで、チームが時間の経過とともにデータがどのように変化しているかを確認し、品質の問題をその発生源まで追跡し、データの変更をダウンストリームモデルの結果と関連付けることを可能にします。

このエンドツーエンドの可視性は、AIシステムの複雑さ、量、拡張性が増大するにつれて、データ品質を維持するために不可欠です。

AIを活用したデータ品質チェック

AI自体は、モデルに供給されるデータの品質、信頼性、ガバナンスを向上させるために使用できます。自動化とAIエージェントを組み込んだAI搭載のデータ品質ソリューションは、データ・パイプラインを通過する際に、新しく大規模で複雑なデータセットを継続的にプロファイリングすることができます。

さらに、異常検知を実行して不整合、範囲外のデータポイント、分布のシフトを特定し、重複排除を適用して重複レコードや関連するデータ品質の問題を検出して排除することができます。