機械学習における不確実性定量化とは

Data Scientist

不確実性の定量化とは

統計学者George Boxは、「すべてのモデルは間違っているが、いくつかは有用である」と書いている。¹質的モデルであれ、人工知能モデルであれ、動的数学モデルであれ、統計モデルであれ、モデルは常に現実の複雑さには及ばない。

不確実性には複数の種類があり、あらゆる種類のモデルに影響を与えます。不確実性の原因としては、システム内のランダム・プロセスや確率的特性（偶然的不確実性と呼ばれる）、不完全な知識（認識論的不確実性と呼ばれる）、または計算の制限などがあります。

モデルの不確実性は、モデルの長期にわたる精度を推定するだけでなく、起こりうる成果の範囲を示すこともできます。また、測定とモデルの両方における不確実性を低減する方法を理解するのにも役立ちます。

不確実性と正確性は、互いに密接に関連する異なる概念です。予測精度とは、予測が既知の値にどれだけ近いかを重視し、不確実性とは、予測値と目標値がどの程度変化するかに注目します。

リンゴの画像のみを赤と緑に分類するコンピューター・ビジョン・システムには、世界で知られているあらゆる種類の果物の写真を分類するシステムよりも、内在する不確実性がはるかに少なくなります。不確実性定量化（UQ）は、これら2つの問題が互いにどの程度不確実性を備えているかを正確に測定する方法です。

モデルに不確実性が含まれる場合、そのアウトプットはさまざまな確率によって変化する可能性があります。これらのアウトプットをランダム変数として扱い、確率分布を使用して不確実性を測定します。分布が広いほど、結果はより不確実になります。分散はガウス分布ではうまく機能しますが、実際の多くのシステムは、異なる測定アプローチを必要とする非標準的な分布を作成します。

不確実性定量化手法は、特定の予測をどの程度信用すべきかを示す上で役立ちます。これは、分布の検定などの統計的手法によって行われる予測である場合もあれば、機械学習アルゴリズムによって行われる予測または推論である場合もあります。UQは、モデルによって導き出される結果の範囲を理解するのにも役立ちます。

例えば、気象モデルが雨の確率を70%予測する場合、UQは、その70%が確かなトレーニング・データに基づいているのか、それとも非常に不確実性があるため、実際の確率は50%から90%の範囲内にあるのかを判断するのに役立ちます。

UQメソッドは、エラーや未知な要素が最終的な結果にどのような影響を与えるかを示すため、重要です。これにより、モデルが自信過剰になることを防ぎ、機械学習モデルの精度を向上させる方法に集中できます。

UQの計算は、どの不確実性が最も重要かを特定するために役立ち、モデルのトレーニングを最適化する上で役立ちます。UQは、意思決定者が予測の信頼性を理解するのにも役立ちます。UQは、「このモデルは間違っている可能性がある」のような声明を、それがどの程度間違っているのか、どのような点で間違っているのかに関する具体的で測定可能な情報に変換するのに役立ちます。医療、フォールト・イントレラント・エンジニアリング、またはその他の信頼性が最優先される分野で作業する場合、これは非常に重要です。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

UQのための手法

不確実性には、主に、データ駆動型の不確実性とモデル駆動型の不確実性の2つのタイプがあります。いずれの場合でも、予測を行う前と行った後に、予測の信頼性を知ることが役に立ちます。

これは、およそプラスまたはマイナス1000回のオペレーションに失敗するまでにドアのヒンジが開閉できる回数を予測するモデルと考えることができます。また、今回ドアのヒンジを閉じると破損したという可能性を示すこともできます。

サンプリング・ベースの手法

サンプリング・ベースの手法は、あらゆる種類のモデルの複雑さに対応でき、直感的で包括的な不確実性の特徴付けができるため、不確実性の定量化に最も一般的に使用される手法の1つです。サンプリングによって多くのシナリオが生成されるため、現実世界のデータに適用したときにどのような結果が得られる可能性があるか、および予測がどの程度不確実であるかについての統計的な全体像を構築できます。これらの方法では、不確実性を分析的に計算するのではなく、多くのサンプルのアウトプットの統計分析を使用して不確実性の分布を特徴付けます。

モンテカルロ・シミュレーションは、最も一般的なアプローチの1つです。これは、ランダムに変化したインプットを使用して何千ものモデル・シミュレーションを実行し、可能な出力の範囲を確認します。これらは、可能なすべての値の範囲を確認するためにさまざまなモデルの信頼区間と出力を比較するパラメトリック・モデルで特に一般的です。

ラテン・ハイパーキューブ・サンプリングと呼ばれるモンテカルロ・シミュレーションのバリエーションは、インプット領域を適切にカバーしながら、必要な実行数が少なく、より効率的なバージョンです。

モンテカルロ・ドロップアウトは別の手法であり、予測中にドロップアウトをアクティブに保ち、複数のフォワード・パスを実行してアウトプットの分布を取得するものです。²ドロップアウトは主に正則化手法として使用され、機械学習モデルをファイン・チューニングするために使用される方法です。過剰適合や過小適合の問題を回避しながら、調整済み損失関数を最適化することを目的としています。

モンテカルロ・ドロップアウトは、テスト時にドロップアウトを適用し、異なるドロップアウト・マスクを使用して複数のフォワード・パスを実行します。これにより、モデルは単一点の推定ではなく、予測の分布を生成します。この分布は、予測に関するモデルの不確実性についての洞察を提供します。これは、ネットワークを複数回トレーニングする必要がなく、ニューラル・ネットワークを出力分布に導くための計算効率の高い手法です。

実際のモデルを何度も実行するのにコストがかかりすぎる場合、統計学者はガウス過程回帰（GPR）などの手法を使用して、簡略化された「代替」モデルを作成します。⁵GPRは、予測の確実性をモデル化するベイズ的アプローチであり、最適化、時系列予測、その他のアプリケーションにとって貴重なツールとなります。GPRは、結合ガウス分布を持つランダム変数の集合である「ガウス・プロセス」の概念に基づいています。

ガウス過程は関数の分布と考えることができます。GPRでは、関数全体に事前分布を配置し、観測されたデータを使用して事後分布を作成します。GPRを使用して不確実性を計算する際には、追加のトレーニングやモデルの実行が不要です。アウトプットは本質的に、分布を通じてモデルが推定値についてどの程度確実または不確実であるかを表しているからです。Scikit-learnのようなライブラリーでは、不確実性分析のためのGPRの実装を提供します。

サンプリング方法の選択は、モデルやシナリオにとって最も重要な特徴量によって異なります。ほとんどの実際のアプリケーションでは、複数のアプローチが組み合わされます。

ベイズ法

ベイズ統計は、ベイズの定理を使用して事前信念と観測データを組み合わせ、仮説の確率を更新する統計的推論へのアプローチです。ベイズ統計は、単一の固定値ではなく確率分布を割り当てることにより、不確実性に明示的に対処します。ベイズ法では、モデルパラメーターに対して単一の「最良」推定値を与えるのではなく、あり得る推定値の尤度の分布を提供します。

ベイズ推定は、新しいデータが利用可能になるたびに予測を更新するため、共変量を推定するプロセス全体に自然と不確実性が組み込まれます。マルコフ連鎖モンテカルロ（MCMC）法は、数学的解が複雑な場合にベイズ推定アプローチを導入するのに役立ちます。MCMCアプローチは、直接サンプリングできない複雑な高次元確率分布（特にベイズ推定における事後分布）からサンプリングします。

ベイズ・ニューラル・ネットワーク（BNN）は、ネットワークの重みを固定点推定ではなく確率分布として扱う従来のニューラル・ネットワークから脱却したものです。この確率的アプローチにより、原則に基づいた厳密な不確実性の定量化が可能になります。重みの単一点推定の代わりに、すべてのネットワーク・パラメーターにわたって確率分布を維持します。通常、予測には次のものが含まれます。

予測分布の平均および分散の推定
予測分布からのサンプル
分布から導出された信頼できる区間

PyMCやTensorflow-Probabilityなど、BNNを実装するための人気のあるオープンソース・ライブラリがいくつか存在します。

アンサンブル方式

アンサンブルベースの不確実性の定量化の中核となる考え方は、独立にトレーニングされた複数のモデルが予測で不一致を示した場合、この不一致は正解の不確実性を示すというものです。⁴逆に、アンサンブル内のすべてのモデルが一致した場合、予測の信頼度が高いことを示します。この直感は、アンサンブル予測の差異や広がりを通じて、具体的な不確実測定につながります。

f₁、f₂、...、fₙがインプットxに対するN個のアンサンブル・メンバーの推定値を表す場合、不確実性は次のように定量化できます。

$V a r [f (x)] = \frac{1}{N} \sum_{i = 1}^{N} (f_{i} (x) - \bar{f} (x))^{2}$

ここで、f̄(x)はアンサンブル平均です。複数の多様なモデル（異なるアーキテクチャー、トレーニング・データのサブセットまたは初期化）をトレーニングし、それらの予測を組み合わせます。こうした手法の主な欠点は計算コストです。複数のモデルをトレーニングして実行する必要があるということです。

コンフォーマル予測

共形予測は、不確実性を定量化するための手法です。これは、予測区間（回帰シナリオ用）または予測セット（分類アプリケーション用）を作成するための、配布に依存せず、モデルに依存しないフレームワークを提供します。³これにより、モデルまたはデータに関する最小限の仮定で有効なカバレッジが保証されます。これにより、共形予測は、特にブラックボックスで事前トレーニングされたモデルを使用する場合に役立ちます。

適合型予測には、広く適用できる特徴量がいくつかあります。例えば、データ・ポイントが独立して同一に分散されていることは必要なく、データ・ポイントが交換可能であることのみを必要とします。適合型予測はあらゆる予測モデルにも適用でき、モデルの許容可能な予測不確実性を設定できます。

たとえば、回帰タスクでは、95％のカバレッジを達成したい場合、モデルは真が出力間隔の95％に該当する範囲を出力する必要があることを意味します。このアプローチはモデルに依存せず、分類、線形回帰、ニューラル・ネットワーク、およびさまざまな時系列モデルの広範な種類とともにうまく機能します。

適合性予測を使用するには、データをトレーニング・セット、ベースライン・テスト・セット、および調整セットの3つのセットに分割します。キャリブレーションセットは、不適合スコアを計算するために使用され、多くの場合、s_iとして表されます。このスコアでは、予測がどれほど異常であるかを測定します。新しい入力があれば、これらのスコアに基づいて予測間隔を形成し、対象範囲を保証します。

分類タスクにおける共適合予測の非適合性スコアは、新しいインスタンスがトレーニング・セット内の既存のインスタンスからどの程度逸脱しているかを示す尺度です。これにより、新しいインスタンスが特定のクラスに属するかどうかが判断されます。マルチクラス分類の場合、これは通常1—特定ラベルの予測クラス確率という式で表されます。

$s_{i} = 1 - f (x_{i}) [y_{i}]$

したがって、新しいインスタンスが特定のクラスに属する予測確率が高い場合、不適合スコアは低くなり、その逆も同様です。一般的なアプローチは、調整セット内の各インスタンスのs_iスコアを計算し、スコアを低（確実）から高（不確実）まで分類することです。

95%のコンフォーマル・カバレッジを得るには、s_iスコアの95% がより低くなる閾値qを計算します。新しいテスト例について、そのs_iが閾値qより小さい場合、ラベルを予測セットに含めます。

モデルのコンフォーマル・カバレッジが95%であることを保証する必要がある場合は、すべてのクラスの平均s_iスコアを取得します。次に、データの95%を含むs_iスコアのしきい値が見つかります。これにより、分類子がすべてのクラスの新しいインスタンスの95%を正確に識別していることを確認できます。

コンフォーマル予測によって複数のクラスが識別される場合があるため、これは分類器の精度とは少し異なります。マルチクラス分類器では、コンフォーマル予測によってすべてのクラスのカバレッジも表示されます。トレーニング・セット全体ではなく、個々のクラスに対してカバレッジ率を割り当てることができます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

不確実性定量化のアプリケーション

不確実性の定量化は、機械学習、人工知能開発、コンピューター・サイエンスの多くの分野において重要です。ここでは、最も一般的なアプリケーションをいくつか紹介します。

時系列予測の不確実性

時系列予測の不確実性を管理および定量化することは、財務、経済学、予測、サプライチェーン管理にわたる意思決定プロセスにおいて不可欠です。確率的モデルは、単一点推定ではなく分布を出力できるため好まれています。これらのモデルは、可能な値の分布ではなく単一の値のみを出力する決定論的モデルとは対照化できます。時系列予測には、ARIMAモデルやベイズ・ニューラル・ネットワークなど、多数の確率モデルが存在します。

ARIMAモデルをフィッティングするには、自己回帰（AR）コンポーネントと移動平均（MA）コンポーネントを取得し、差分化によって定常性を確保することから始めます。点予測を生成した後、モデルは観測値と予測値の差を表す残差を評価します。ARIMAは、正規分布残差の標準偏差を使用して、点予測の周囲に予測区間を構築します。

基本的に、予測間隔が広がるほど、予測に関連する不確実性も大きくなります。この技術的方法論は、点予測の精度を改善するだけでなく、将来の観測が該当する可能性のある範囲の統計的に健全な測定値も提供します。

ディープラーニングと不確実性

ディープラーニングは、ネットワークのレイヤー全体にわたって高次元かつ非線形な関係を持つことが多いため、不確実性の定量化にはさまざまな課題が伴います。また、これらのモデルのトレーニングとデプロイの両方には大きな計算制約があることが多く、そのため、推論に存在する不確実性の量の定量化が困難になります。

一般的に使用されるいくつかの技術は、特にディープニューラル・ネットワーク向けに開発されています。例えば、複数の独立してトレーニングされたネットワークが異なる初期化やデータ・サブセットを持つディープ・アンサンブルなどのサンプリング・ベースの手法。アンサンブル予測間の差異は、アーキテクチャー自体の予測における不確実性を示している可能性があります。これはシンプルですが、複数の完全モデルをトレーニングする必要があるため、計算コストが高くなります。

もう1つのよく使われるテクニックは、モンテカルロ・ドロップアウトで、推論中もドロップアウト層はアクティブなままである。⁶このアプローチでは、複数のフォワード・パスを実行して、ベイズ推論を近似させます。各ドロップアウト・マスクは異なるサブネットワークを作成し、予測分散によって不確実性を推定します。モデル・アーキテクチャーを変更する必要がないため、既存のモデルを使って簡単に実装できます。推論中にドロップアウトをオフにする代わりに、有効な状態に保ち、複数のフォワード・パスを実行します。同様のアプローチは、バッチの正規化の不確実性で、推論時に学習されたバッチ統計からランダムにサンプリングして予測分布を作成します。

能動学習

アクティブ学習は、固定データセットでトレーニングされるのではなく、アルゴリズムが学習するデータ・ポイントを選択できる、スケーラブルな機械学習パラダイムです。学習アルゴリズムは、学習するデータを選択することができれば、より少ないラベル付きのサンプルでより優れた性能を達成できます。従来の教師あり学習では、モデル開発プロセスの開始時に大規模なラベル付きデータセットが利用できることを前提としています。多くの現実世界のシナリオでは、ラベル付けされていないデータは豊富にありますが、ラベル付けされたデータは費用や時間がかかるか、取得するために専門家の知識が必要です。小さいラベル付きセットを使用してモデルをトレーニングした後、そのモデルを使用してラベルのないサンプルの大規模なプールを評価します。アクティブ・ラーニングは、いくつかのストラテジーに従って、最も「有益な」ラベルのないサンプルを選択します。

アクティブ・ラーニング・ストラテジーでは、不確実性定量化の推定値を使用して、次にラベルを付ける価値が最も高くなる、ラベルの付けていないサンプルを特定できます。基本的な前提は、モデルが最も不確実なデータ・ポイントのラベルを要求する必要があることです。これらのサンプルは最大の情報源となる可能性が高いからです。

UQのためのメトリクス

不確実性定量化の指標は、異なるアーキテクチャーを比較したり絶対値として使用したりするのではなく、同じアーキテクチャーを使用する異なるモデルを比較するためによく使用されます。予想調整誤差などの一部のタイプの測定では、特定のモデルの調整を測定することができます。

ただし、テスト・データに対するモデルのキャリブレーションを測定しない場合は、異なるメトリクスによって不確実性のさまざまな側面を捉えるため、単一の測定に頼るのではなく、複数の補完的なメトリクスを使用できます。

一般的に、不確実性に関するメトリクスは、適切なスコアリング・ルールと校正指標という2つの大まかなカテゴリに分類されます。

適切なスコアリング・ルール

適切なスコアリング・ルールは、真の確率分布からの逸脱を推定するため、自然な不確実性推定値を使用する確率モデルで最もよく機能します。値が高いことは、予測された確率が真の確率から大きく離れていることを示します。これにより、確率的予測や予測を評価するための指標が提供されます。これは多くの場合、単一の値よりもあり得るアウトプットの範囲となります。

平均二乗誤差などの一般的な損失関数は、予測値と観測値に適合性スコアを割り当てます。ただし、スコアリング・ルールでは、予測された確率分布と観測値にスコアを割り当てます。

負の対数尤度（NLL）は、分類タスクのニューラル・ネットワークを最適化するためによく使用される方法です。ただし、この損失関数は不確実性の指標としても使用できます。NLLは、モデルの予測確率分布が観測された結果とどの程度一致しているかを直接測定するため、本質的に確率予測の精度と信頼品質の両方を把握できます。

真のクラス分布が60～40であるバイナリ問題に対して[0.9, 0.1]を予測する分類モデルの場合、そのモデルの平均NLLは高くなります。これは、信頼度が高い予測が間違った場合、NLLが自信過剰な2つ目のモデルに大きなペナルティを課すためです。

ブライア・スコアは、通常、分類タスクで使用されるもう1つの適切なスコアリング・ルールです。0から1の範囲内に厳密に制限されているため、数値的に安定していることから、NLLよりも適性が高い場合があります。これは、予測された確率が観測された頻度とどの程度一致しているか、および予測がどの程度信頼できるかの両方を評価するため、包括的な不確実性メトリクスです。

連続ランク確率スコア（CRPS）は、気象学、水力学、気候科学などの分野で広く使用されるメトリクスです。CRPSは、予測される累積分布関数（CDF）と真の結果を表すステップ関数との差異を測定します。CRPSは、観測値の予測分布の広がりを定量化します。

キャリブレーション・メトリクス

キャリブレーション・メトリクスは、基盤モデルや大規模言語モデル（LLM）などの事前トレーニング済みモデル、またはソフトマックス関数の出力を使用する分類タスクで最適に機能します。これは、「真の信頼性」と「予測された信頼性」の差異を測定するのに役立ちます。適切なスコアリング・ルールが分布を比較するのに対し、キャリブレーションは確実性自体を比較します。キャリブレーション・メトリクスが0.6と計算された場合、ニューラル・ネットワークは特定の予測において60％確実であることを意味します。⁷

モデルの予測される信頼スコアが真である可能性を正確に反映している場合、そのモデルは調整されたとみなされます。より正式には、キャリブレーションとは、モデルが信頼度pを表すすべての予測のうち、pがおおよその部分で正しいことを意味します。キャリブレーション・メトリクスは、さまざまな確率をグループ化するために、データセット全体に対して計算されます。対照的に、適切なスコアリング・ルールは個々の確率を比較します。⁸

期待される調整誤差（ECE）は、最も広く使用されている指標の一つです。信頼度レベルに基づいて予測をビンに分割し、各ビン内の信頼度と精度と差の平均を測定します。一般的なアプローチでは、10～15の等間隔なビンを使用します。これは、そのビン内の予測された確率の平均と、そのビン内で実際に正しい予測の割合を計算するために使用されます。

完璧に調整されたモデルでは、90%の信頼度があれば、その90%が正しくなります。ECEは、0（完璧な調整）から1（可能な限り最悪の調整）までの値を返すことによってこれを測定します。このメトリクスでは、メトリクスの絶対値に基づき、自信過剰と信頼不足を等しく扱います。メトリクスを特定のモデルに単独で適用するのではなく、モデルを相互に比較する場合に最も役立ちます。

最大キャリブレーションエラー（MCE）では、平均ではなく、すべてのビンに対する信頼性と精度の間に最大の差を取ることにより、最悪の場合のキャリブレーションエラーを測定します。これにより、最も調整が不十分な領域についての洞察が得られます。

適応型キャリブレーション誤差（ACE）は、各ビンにほぼ同じ数のサンプルが含まれるようにする適応型ビニング戦略を用いて、固定ビニングの限界に対処し、特に限られたデータに対してより堅実な推定値を提供します。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

参考情報

AIの専門知識のレベルアップを図る

ハンズオン・ラボ、コース、指導付きプロジェクト、トライアルなどで、基本的な概念を学び、スキルを身につけていただけます。

生成AI + MLの力を解き放つ

生成AIと機械学習をビジネスに活用する確実な方法を学びましょう。

AIの活用を本格化：生成AIでROI向上

AIの投資対効果を高めるために、主要な分野で生成AIの活用を拡大することで、どのように革新的な新規ソリューションの構築、提供を支援し、変化をもたらすかを紹介します。

適切な基盤モデルを選ぶ方法

ユースケースに最適なAI基盤モデルを選択する方法について説明します。

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。

AIの新時代に信頼と自信を持って成功する方法

強力なAIストラテジーの3つの重要な要素である、競争優位性の創出、ビジネス全体へのAIの拡張、信頼できるAIの推進について詳しく説明します。

AI in Actionレポート

2,000の組織を対象に、AIへの取り組みについて調査を行い、何が機能し、何が機能していないのか、どうすれば前進できるのかを明らかにしました。

脚注

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., & University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (2021, July 15). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2016, December 5). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2023, August 2). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330.https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, MW, Zhang, L., Jerfel, G., & Tran, D.（2019）。Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf