グラウンド・トゥルースとは

グラフとデータのパネルを確認する人

共同執筆者

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

グラウンド・トゥルースとは

グラウンド・トゥルースまたはグラウンド・トゥルース・データとは、 人工知能(AI)モデルのトレーニング、検証、テストに使用される、検証済みの真のデータのことです。
 

データサイエンスの分野では、グラウンド・トゥルース・データは正確なデータのゴールド・スタンダードを表します。これにより、データサイエンティストは、出力を「正しい答え」(実際の観察に基づくデータ)と比較することで、モデルのパフォーマンスを評価できます。これにより、機械学習(ML)モデルが、現実を反映した正確な成果を生成することが検証されます。

グラウンド・トゥルース・データは、教師あり学習にとって特に重要です。これは、ラベル付きデータセットを使用してデータを分類するアルゴリズム(分類器)や、結果の正確な予測をトレーニングする、MLのサブカテゴリーです。

データ・ラベリングまたはデータの注釈は、グラウンド・トゥルース・データ収集の基礎となります。正確なラベルや注釈がなければ、データは現実世界の真実のベンチマークとはみなされません。

ニュースレターを表示しているスマホの画面

The DX Leaders

「The DX Leaders」は日本語でお届けするニュースレターです。AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。

グラウンド・トゥルース・データが重要な理由

グラウンド・トゥルース・データは、高品質のラベル付きデータセットに依存する教師あり機械学習の基盤です。教師ありMLモデルは、今日のAIアプリケーションの多くを構築し、進化するために使用されています。例えば、教師ありMLモデルは、画像認識やオブジェクト認識、予測分析、顧客感情分析、スパム検知などの背後にあります。

グラウンド・トゥルース・データは、教師ありMLモデルのトレーニング、そのパフォーマンスの検証、一般化(または新しいデータに基づいて正確な予測)能力のテストに必要な、正確にラベル付けされ、検証済みの情報を提供します。グラウンド・トゥルースは、モデル予測と比較して「正しい答え」として機能することで、AI システムが正しいパターンを学習し、現実世界のシナリオで確実に機能することを保証するのに役立ちます。

たとえば、猫の写真を想像してみてくださいこの画像のトレーニング・データセットには、猫の体、耳、目、ひげのラベル、ピクセルレベルまでの分類が含まれる可能性があります。これらの注釈は、機械学習アルゴリズムに新しい画像データ内の類似した特徴を識別する方法を教えます。

これらのトレーニング・セットのラベルの正確さは非常に重要です。注釈が間違っていたり、一貫性がなかったりすると(猫の足の代わりに犬の足にラベリングするなど)、モデルは正しいパターンを学習できません。これは誤った予測につながる可能性があります。

犬の足を持つ猫は無害に見えるかもしれません。ですが、医療や気候変動の緩和など、リアルタイムの正確性が最優先される分野では、誤った予測の危険性が高くなります。

オフィスでミーティングをするビジネスチーム

IBMお客様事例

お客様のビジネス課題(顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など)を解決した多岐にわたる事例のご紹介です。

MLライフサイクル全体にわたるグラウンド・トゥルース

グラウンド・トゥルースは、モデルのトレーニング、検証、テストの段階を含む、教師あり機械学習(ML)ライフサイクルに不可欠です。

  • トレーニング:トレーニングの段階では、グラウンド・トゥルース・データが、モデルが学習するための正しい答えを提供します。データ・ラベリングの精度は極めて重要です。グラウンド・トゥルースのデータが間違っていたり、一貫性がなかったりすると、モデルは誤ったパターンを学習し、正確な予測を行うのに苦労します。

  • 検証:モデルがトレーニングされると、グラウンド・トゥルース・データからどの程度学習したかが評価されます。これは、モデルの予測がグラウンド・トゥルース・データの異なるサンプルと比較される検証を通じて行われます。この段階でモデルを調節および微調整できます。

  • テスト:モデルの学習と検証が完了したら、新たなグラウンド・トゥルース・データセットを用いたテストを実施します。これにより、新しい未知のデータ(汎化)に対しても良好なパフォーマンスを発揮できるかどうかを確認できます。これは、現実世界のシナリオにおけるモデルの有効性を真に評価されます。精度、適合率、再現率といったメトリクスは、モデルのパフォーマンスを評価し、改善の余地を明らかにします。

さまざまなMLタスクでのグラウンド・トゥルース

グラウンド・トゥルースは、分類、回帰、セグメンテーションなど、いくつかの教師あり学習タスクの基盤として機能します。モデルがデータの分類、数値的結果の予測、または画像内のオブジェクトの識別を学習している場合でも、グラウンド・トゥルースは正確な予測のベンチマークを提供します。これらのタスクには、広範囲にわたる現実世界のユースケースがあり、成功にはグラウンド・トゥルース・データの精度が不可欠です。

分類

分類タスクでは、グラウンド・トゥルース・データが各インプットに対して正しいラベルを提供し、モデルがデータを事前定義されたクラスに分類するのに役立ちます。例えば、二項分類では、モデルは2つのカテゴリー(真または偽など)を区別します。マルチクラス分類は少し複雑です。モデルは選択する必要がある複数のクラスのうちの1つにデータを割り当てます。

ヘルスケア業界について考えてみましょう。AIプラットフォームは多くの場合、多クラス分類を使用して、CTスキャンやMRIなどの医療画像を分析し、診断に役立てています。

大まかに言うと、AIアプリケーションは腕のX線画像を調べて、骨折、ひび、捻挫、健康の4つのクラスに分類できます。グラウンド・トゥルース・データに欠陥があると、不正確な予測につながり、誤った診断や治療の遅れにつながる可能性があります。

Regression

回帰タスクは、連続値の予測に焦点を当てています。グラウンド・トゥルース・データは、モデルが予測しようとする実際の数値的結果を表します。たとえば線形回帰モデルは、面積、部屋数、場所などの要素に基づいて、住宅価格を予測できます。

気候変動の緩和では、AIモデルが衛星画像やリモート・センシング・データを使用して、気温の変化や森林伐採などの環境変化を監視します。

この場合のグラウンド・トゥルース・データには、過去の気象データや既知の気温測定の検証済みの記録が含まれます。このグラウンド・トゥルース・データは、AIモデルの予測が正確であることを保証するのに役立ち、重要な政策や気候変動対策の決定に情報を提供できます。

セグメンテーション

セグメンテーション・タスクには、画像またはデータセットを個別の領域またはオブジェクトに分割することが含まれます。セグメンテーションのグラウンド・トゥルース・データは、多くの場合、画像内の境界または領域を識別するために、ピクセルレベルで定義されます。

たとえば、自動運転車の開発では、グラウンド・トゥルース・ラベルを使用してモデルをトレーニングし、現実世界の環境における歩行者、車両、道路標識の違いを検知し、それに応じて行動できるようにします。グラウンド・トゥルース・ラベルが不正確であったり一貫性がなかったりすると、モデルがオブジェクトを誤って識別し、道路上で重大な安全上のリスクが生じる可能性があります。

グラウンド・トゥルースを確立する際の一般的な課題

高品質のグラウンド・トゥルース・データを確立するには、次のようないくつかの課題があります。

  • 一貫性のないデータ・ラベリング:データサイエンティストはデータセットのばらつきに遭遇することが多く、それがモデルの動作に影響する一貫性のなさにつながる可能性があります。帰属や引用の小さなラベル付けのミスでさえ、モデルの予測エラーにつながる可能性があります。

  • 主観性と曖昧さ:多くのデータ・ラベリング・タスクは人間の判断を必要とし、それが主観的である可能性があります。たとえば感情分析などのタスクでは、異なる注釈者がデータを異なる方法で解釈し、その結果、グラウンド・トゥルースに一貫性のなさが生じる可能性があります。

  • データの複雑さ:自然言語処理(NLP)や生成人工知能(生成AI)などの分野で一般的な大規模で多様なデータセットでは、正確な注釈がより困難な場合があります。複数のラベルの可能性や文脈上のニュアンスなど、データが複雑さにより、一貫したグラウンド・トゥルースを確立することが難しくなります。

  • 歪んで偏りがあるデータ: グラウンド・トゥルース・データは、特にラベル付けされたデータセットが不完全あるいは不均衡である場合、現実世界のシナリオを常に完全に表しているとは限りません。これにより、偏りのあるモデルが生成される場合があります。

  • 拡張性とコスト:大規模なデータセット、特に専門家の知識や直接観察が必要なデータセット(医療画像など)のラベリングには、時間もコストもかかります。最新のAIシステムの要求を満たすためにデータ・ラベリング作業を拡大するには、自動化やクラウドソーシングが必要になることが多いのですが、こうしたアプローチでもエラーや一貫性のなさが発生する可能性があります。

高品質のグラウンド・トゥルース・データを確立するためのストラテジー

組織が高品質のグラウンド・トゥルース・データを確立および最適化するために使用できるストラテジーと方法論には、次のようなものがあります。

  • 目的とデータ要件の定義:モデルの目標を明確に定義することで、必要なデータの種類とラベルを決定し、データ収集プロセスがモデルの使用目的に沿うように調整します。この調整は、MLとニューラル・ネットワークがシステムに視覚入力から意味のある情報を導き出すことを教えるコンピューター・ビジョンなどの分野では特に重要です。
  • 包括的なラベリング・ストラテジーの開発:組織は、グラウンド・トゥルース・データのラベリングに関する標準化されたガイドラインを作成して、データセット全体の一貫性と正確性の確保を支援できます。明確に定義されたラベリングのスキーマは、さまざまなデータ形式に注釈を付け、モデルの開発中に注釈を統一された状態に保つ方法の指針となるかもしれません。

  • 人間と機械のコラボレーションの活用:Amazon SageMaker Ground TruthやIBM Watson Natural Language Understandingなどの機械学習ツールは、人間のアノテーターの専門知識を強化できます。例えば、Amazon SageMaker Ground Truthは、自動化されたラベリングと人間によるレビュー・プロセスを通じて、高品質のトレーニング・データセットの作成を容易にするデータ・ラベルリングサービスを提供しています。

  • データの一貫性の検証:チームは、インターアノテーター合意(IAA)などの品質保証プロセスを実装することで、ラベル付きデータの一貫性を監視できます。IAAは、同じデータにラベリングする際の異なるアノテーター間の一貫性レベルを測定する統計メトリクスです。

  • 偏りへの対処:データサイエンティストは、グラウンド・トゥルース・データセットの潜在的な偏りを認識し、回避するよう努める必要があります。各データ・ポイントに複数の多様なアノテーターを使用する、外部ソースでデータを相互参照する、不利な立場にあるグループにストラテジーを使用して増強するなど、多様なデータ収集手法を確保するために、いくつかの手法を採用できます。

  • グラウンド・トゥルース・データの更新: グラウンド・トゥルース・データは動的な資産です。組織は、現実世界の状況の変化に応じて、新しいデータに対するモデルの予測を確認し、ラベル付きデータセットを更新できます。衛星画像、リモート・センシング・データ、気候変動モデルはすべて、長期にわたって精度を維持するために継続的なキャリブレーションが必要なデータセットの例です。
関連ソリューション
IBM® watsonx.governance

IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。

watsonx.governanceの詳細はこちら
人工知能ソリューション

業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。

AIソリューションの詳細はこちら
AIコンサルティングとサービス

AIの導入によって重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。

AIサービスの詳細はこちら
次のステップ

AIを単一のポートフォリオで統括・管理・監視することで、透明性を高め、責任ある説明可能なAIの導入を加速させます。

watsonx.governanceの詳細はこちら デモの予約