データサイエンスの分野では、グラウンド・トゥルース・データは正確なデータのゴールド・スタンダードを表します。これにより、データサイエンティストは、出力を「正しい答え」(実際の観察に基づくデータ)と比較することで、モデルのパフォーマンスを評価できます。これにより、機械学習(ML)モデルが、現実を反映した正確な成果を生成することが検証されます。
グラウンド・トゥルース・データは、教師あり学習にとって特に重要です。これは、ラベル付きデータセットを使用してデータを分類するアルゴリズム(分類器)や、結果の正確な予測をトレーニングする、MLのサブカテゴリーです。
データ・ラベリングまたはデータの注釈は、グラウンド・トゥルース・データ収集の基礎となります。正確なラベルや注釈がなければ、データは現実世界の真実のベンチマークとはみなされません。
グラウンド・トゥルース・データは、高品質のラベル付きデータセットに依存する教師あり機械学習の基盤です。教師ありMLモデルは、今日のAIアプリケーションの多くを構築し、進化するために使用されています。例えば、教師ありMLモデルは、画像認識やオブジェクト認識、予測分析、顧客感情分析、スパム検知などの背後にあります。
グラウンド・トゥルース・データは、教師ありMLモデルのトレーニング、そのパフォーマンスの検証、一般化(または新しいデータに基づいて正確な予測)能力のテストに必要な、正確にラベル付けされ、検証済みの情報を提供します。グラウンド・トゥルースは、モデル予測と比較して「正しい答え」として機能することで、AI システムが正しいパターンを学習し、現実世界のシナリオで確実に機能することを保証するのに役立ちます。
たとえば、猫の写真を想像してみてくださいこの画像のトレーニング・データセットには、猫の体、耳、目、ひげのラベル、ピクセルレベルまでの分類が含まれる可能性があります。これらの注釈は、機械学習アルゴリズムに新しい画像データ内の類似した特徴を識別する方法を教えます。
これらのトレーニング・セットのラベルの正確さは非常に重要です。注釈が間違っていたり、一貫性がなかったりすると(猫の足の代わりに犬の足にラベリングするなど)、モデルは正しいパターンを学習できません。これは誤った予測につながる可能性があります。
犬の足を持つ猫は無害に見えるかもしれません。ですが、医療や気候変動の緩和など、リアルタイムの正確性が最優先される分野では、誤った予測の危険性が高くなります。
グラウンド・トゥルースは、モデルのトレーニング、検証、テストの段階を含む、教師あり機械学習(ML)ライフサイクルに不可欠です。
グラウンド・トゥルースは、分類、回帰、セグメンテーションなど、いくつかの教師あり学習タスクの基盤として機能します。モデルがデータの分類、数値的結果の予測、または画像内のオブジェクトの識別を学習している場合でも、グラウンド・トゥルースは正確な予測のベンチマークを提供します。これらのタスクには、広範囲にわたる現実世界のユースケースがあり、成功にはグラウンド・トゥルース・データの精度が不可欠です。
分類タスクでは、グラウンド・トゥルース・データが各インプットに対して正しいラベルを提供し、モデルがデータを事前定義されたクラスに分類するのに役立ちます。例えば、二項分類では、モデルは2つのカテゴリー(真または偽など)を区別します。マルチクラス分類は少し複雑です。モデルは選択する必要がある複数のクラスのうちの1つにデータを割り当てます。
ヘルスケア業界について考えてみましょう。AIプラットフォームは多くの場合、多クラス分類を使用して、CTスキャンやMRIなどの医療画像を分析し、診断に役立てています。
大まかに言うと、AIアプリケーションは腕のX線画像を調べて、骨折、ひび、捻挫、健康の4つのクラスに分類できます。グラウンド・トゥルース・データに欠陥があると、不正確な予測につながり、誤った診断や治療の遅れにつながる可能性があります。
回帰タスクは、連続値の予測に焦点を当てています。グラウンド・トゥルース・データは、モデルが予測しようとする実際の数値的結果を表します。たとえば線形回帰モデルは、面積、部屋数、場所などの要素に基づいて、住宅価格を予測できます。
気候変動の緩和では、AIモデルが衛星画像やリモート・センシング・データを使用して、気温の変化や森林伐採などの環境変化を監視します。
この場合のグラウンド・トゥルース・データには、過去の気象データや既知の気温測定の検証済みの記録が含まれます。このグラウンド・トゥルース・データは、AIモデルの予測が正確であることを保証するのに役立ち、重要な政策や気候変動対策の決定に情報を提供できます。
セグメンテーション・タスクには、画像またはデータセットを個別の領域またはオブジェクトに分割することが含まれます。セグメンテーションのグラウンド・トゥルース・データは、多くの場合、画像内の境界または領域を識別するために、ピクセルレベルで定義されます。
たとえば、自動運転車の開発では、グラウンド・トゥルース・ラベルを使用してモデルをトレーニングし、現実世界の環境における歩行者、車両、道路標識の違いを検知し、それに応じて行動できるようにします。グラウンド・トゥルース・ラベルが不正確であったり一貫性がなかったりすると、モデルがオブジェクトを誤って識別し、道路上で重大な安全上のリスクが生じる可能性があります。
高品質のグラウンド・トゥルース・データを確立するには、次のようないくつかの課題があります。
組織が高品質のグラウンド・トゥルース・データを確立および最適化するために使用できるストラテジーと方法論には、次のようなものがあります。
IBM watsonx.governanceを使用すれば、生成AIモデルをあらゆる場所から管理したり、クラウドまたはオンプレミスにデプロイしたりできます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入によって重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。