モデル評価とは

By David Zax

公開日 2026年03月10日

モデル評価の定義

モデル評価とは、機械学習モデルの性能を測定するプロセスを指します。このプロセスでは、「モデルが現実世界について判断を下すとき、どれくらいの頻度でそれが正しいのか」という疑問が生じます。または、スペクトル上のケースでは、それはどれだけ正しさに近いでしょうか？

間違いによるコスト

企業がAIモデルに依存するにつれて、リアルマネーがますます危険にさらされています。2021年2月、Zillow社のリーダーたちは、住宅の価値を予測する機械学習モデルに基づいて大きな賭けをしました。こうした見積もりを行うだけでなく、多くの場合、Zillow社がZillow Offersと呼ばれる関連ビジネスを通じて、そのモデル価格の住宅を購入します。

わずか8カ月後、Zillow社はZillow Offersの提供を停止し、3億400万米ドルの在庫減損を出しました。これは、販売可能と考えられる価格を上回る価格で多くの住宅を購入したことによるものだと同社は説明します。同社の在庫は急騰し、Zillow社は従業員の約25%を解雇しました。

責任を問われますか？そのAIモデルは、今後の市場を乗り切るほど正確ではありませんでした。その予想と予測は、実際の住宅価格と一致しませんでした。¹

MLモデルが医療、雇用、刑事司法に広がるにつれて、不十分な評価によるコストが、実際の人々に真の損害をもたらす可能性があります。データサイエンスと業界全体で、責任を持ってAIをデプロイするためには、モデル評価指標を適切に設定することが重要になっています。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モデルとメトリクスの種類

モデルが異なれば、その目的も異なります。

分類モデルは、受信データをいくつかのカテゴリーのいずれかに属するものとしてラベル付けします（患者が敗血症を持っているかどうかをフラグ付けするモデルは分類モデルです）。

回帰モデルは代わりに連続体に沿った数値をアウトプットします（Zillow社の住宅価格モデルは回帰モデルでした）。

モデル・タイプが異なれば、必要なテストの種類も異なります。多くの場合、複数のメトリクスによる性能の三角測量は理想的です。なぜなら、不確実性のない単一のメトリクスは存在しないからです。

分類モデルと分類指標

一部のモデルは「分類問題」に対処し、世界をカテゴリーに分割します。分類メトリクスも同様に単純です。モデルの精度はかなり直感的です。正しい予測数を総数で割ります（機械学習において、「予測」という言葉は、たとえその推測が未来ではなく今起きていることについてであっても、モデルが行う教育的な推測を指します）。

モデルの精度に関する問題は、数が多いと利害関係者を誤った安心感に誘導する可能性があることです。まれであるが壊滅的な出来事（例えば、特定の種類のがん）を検知することを目的としたモデルでは、すべてのスキャンが反射的に陰性と分類される場合があります。負の測定値の99.99%が正しいため、モデル精度は高くなります。しかし、この精度が高いことは、まれな偽陰性を経験した不運な患者にとっては気休めにしかなりません。このモデルは技術的な意味では正確でしたが、期待どおりではありませんでした。

分類モデルの性能を、そのモデルが行う予測や経験に基づいた推測の種類に分割するのに役立ちます。がん検知などの2値分類タスクでは、次の4つの結果が考えられます（2x2グリッドに並べる場合、このフレームワークは「混同行列」と呼ばれることがよくあります）。

真陽性（がんが正確に検出された）
真陰性（がんが正確に除外された）
誤検知（がんは検出されたが不正確）
偽陰性（がんは検出されず、不正確）

すでに、これらのカテゴリーを分類することに価値があることがわかり始めています。誤検知のがん診断は、さらに検査を行って医療的な恐怖であることが判明するまでは、間違いなく外傷的なものとなるでしょう。しかし、誤検知は致命的となる可能性があります。

データサイエンスの専門家は、分類器の性能を調査し、混同行列の象限間の関係を評価するために、一連のサブメトリクスを開発してきました。

精度と呼ばれるメトリクスは、分類器が行ったすべての肯定的な予測のうち、正しいものはいくつあるのかを尋ねます。

車に搭載された画像認識アルゴリズムが、テスト・コース上の10の交差点を通過し、そのうち6つは一時停止の標識があります。しかし、モデルが「6つの一時停止の標識をすべて捉えた」と言うのは、精度における重要な潜在的な違いを無視することになります。6つすべてに正確にフラグを立て、誤検知を生成しなかった場合、精度は6/6、つまり100%でした。しかし、これら6個の一時停止標識にフラグを立てるだけでなく、そこには存在しない4つの一時停止標識を警告した場合、その精度はわずか6/10、つまりわずか60％でした。

再現率という指標（「真陽性率」とも呼ばれる）は、微妙に異なるものを測定します。再現率は、実際にそこにあったすべての一時停止の標識のうち、モデルは何個を捕捉したのかを尋ねます。

100個の交差点があり、そのうち50個に一時停止の標識がある別のテスト・コースを想像してみてください。これらの一時停止の標識を30個検出するモデルの再現率は60％です。そのうち40個の場合は80％といった具合になります（再現率自体は誤報を気にしないので、理論的には、あらゆる場所で一時停止の標識を確認するようにモデルに教えることで、100%の再現率が可能になります）。

精度と再現率という2つのメトリクスは緊密に連携しています。再現率の向上を目指すエンジニアは、目標を達成しすぎて、誤検知が多いモデルを作ってしまう可能性があります。多くの場合、モデルのチューニングは、より高い再現率（検出しようとするすべての現象を捕捉する）と低い精度（マークをオーバーシュートし、誤検知も捕捉する）の間のトレードオフを管理することになります。

このトレードオフを管理するために、機械学習の専門家は、精度と再現率の「調和の平均」であるF1スコアと呼ばれるメトリクスをよく使用します（調和平均は、低い値によって不均衡な影響を受けるという点で、従来の平均とは異なります。したがって、精度または再現率のいずれかが低いと、F1スコアは急速に低下します）。

完璧なF1スコアは1.0ですが、残念ながら、十分に高いF1スコアに関する万能のガイダンスはなく、コンテキストに大きく左右されます。²F1スコアが高いほど良いことは明らかです。1.0に近いほど、このモデルは検知対象をより効率的に検知でき、偽陽性や偽陰性を最小限に抑えることができます。³

信頼度と閾値に関連する分類指標

分類メトリクス内では、2つのメトリクスに信頼度としきい値という関連する概念が含まれます。

モデルは、単に「一時停止の標識」または「立ち止まらない標識」を出力するだけではありません。むしろ、「これは一時停止の標識である可能性は98％です」（非常に信頼性の高い予測）のように言えます。あるいは、「これは一時停止の標識である可能性は51%あります」と表示されます（あまり自信を持てない予測）。

ログ損失として知られるメトリクスは、モデルの信頼度を評価するために設計されています。確信度が高い間違いは、大きなペナルティーを受けます。正しい予測に関する信頼度が低いことも、程度は低いですがペナルティーを受けます。完璧なモデルでは、ログ損失のスコアが0になることもありますが、それが達成されることはほとんどありません。「良い」スコアを構成する要素は、モデルとタスクのタイプによって異なります。

モデルの信頼スコアがどのようなものであれ、MLモデルを使用する人間のユーザーは、最終的にモデルの直感を最終的なはい・いいえの判断に変えるためのしきい値を決定する必要があります。あるしきい値は、「75%以上信頼できる場合は、『はい、停止信号です』をアウトプットする」というルールを定めるかもしれません。しかし、人間のユーザーであれば、信頼度51％や信頼度98％といったしきい値を選択することもできます。もちろん、モデルからのアウトプットは、選択されたしきい値によって大きく変化します。

ROC曲線（「受信者動作特性」という専門用語にちなむ）と関連する指標ROC AUC（「曲線下面積」とも）は、多くの異なる閾値におけるモデルの性能を調査します。技術的に、ROC曲線は、しきい値の変化に応じて真陽性率（TPR）と偽陽性率（FPR）をプロットします。概念的には、ROC AUCは特定のカットオフでの判断を棚上げし、モデルが並べ替えが得意かどうかを全体的に観察します。「しきい値をどこに設定するかに関係なく、一時停止の標識が実際にそこにある場合、モデルは少なくとも一貫してより高い信頼スコアをアウトプットしているでしょうか？」ROC AUCは、陽性と陰性を区別するこの全体的な能力を要約しています。

AI Academy

基盤モデルがAIのパラダイム・シフトとなる理由

新たな収入源の獲得、コスト削減、生産性の向上を実現する、柔軟で再利用可能な新しいAIモデルについて学びます。その後、ガイドブックを使ってさらに理解を深めてください。

エピソードに移動

回帰モデルと回帰メトリクス

前のセクションでは、現象（一時停止の標識やがんなど）が直接的に存在するかどうかという「分類」問題を扱っています。しかし、多くの現象（ホーム値、患者の血糖値）はスペクトル上で起こり、さまざまなモデルや性能測定が必要になります。これらの現象に対処するモデルは、カテゴリーではなく数値をアウトプットします。これらは回帰モデルと呼ばれ、回帰メトリクスで評価されます。回帰メトリクスは、「その数値はどの程度かけ離れているか」といったことをさまざまな方法で尋ねます。

平均絶対誤差（MAE）は、「平均してどれくらい離れていたか」という問いです。あるモデルが今週、ある住宅が50万米ドルで売れると考え、それが525,000米ドルで売れたとし、来週、ある住宅が40万米ドルで売れると考え、それが390,000米ドルで売れたとすると、そのMAEは17,500米ドル（25,000＋10,000を2で割る）です。MAEは、モデルの予測が一貫して過大か過小かを無視します。真実との平均的な距離を見ているだけです。

二乗平均平方根誤差（RMSE）は似ていますが、範囲から大きく外れた数値に対してより厳しいペナルティーを割り当てます。これは、結果として得られる平均の平方根を取る前に、誤差を二乗することで実現されます（この場合、大きな誤差はさらに大きくなります）。前の例でのRMSEは19,039米ドルです（関連するMSE、または平均二乗誤差は同様に機能しますが、平方根を使用しないため、解釈しにくくなりますが、場合によっては数学的に有用です）。RMSEは、大規模なエラーが特にコストがかかる場合に有効です。

あまり直感的ではないメトリクスはR二乗です。R二乗は、モデルの予測がどれだけ外れていたかではなく、ターゲット変数の全体的な変動のうちモデルがどれだけ説明できたかを測定します。

R二乗を理解するには、まず、すべての家に同じ値、つまり地域の平均価格を出力する単純な住宅価格モデルを想像してください。R二乗は、「私たちのモデルは、純粋な平均推測モデルよりもどれだけ優れているか」と質問します。モデルが実際の価格の変動をより適切に捉えられるほど、そのR二乗値は高くなります（R二乗が0.85であることは、モデルが結果の変動の約85％を説明していることを意味します。R二乗が0である場合は、平均的なものを吐き出すだけのモデルと同程度であることを意味します）。

すべてのメトリクスと同様に、R二乗は不完全です。外れ値を含むデータでは特に弱みとなります。

モデル評価における課題と問題

テストに合格したすべての生徒が学習した内容を本当に理解しているとは限りません。フラッシュ・カードを記憶していても、概念を内部化していない可能性があります。不正をしたかもしれませんし、何らかの策で事前にテストを見て取ったかもしれません。単にラッキーだったのかもしれません。機械学習モデルでも同じことが言えます。

データが限られている場合

機械学習モデルを評価する際の基本的な間違いの1つは、モデルのトレーニングに使用したデータと同じデータでモデルをテストしてしまうことです。モデルは非常に優れたパフォーマンスを発揮するかもしれませんが、それは単にデータを基本的に記憶しているためです。検出しようとする根本的な現象についての学習を一般化できず、現実世界で新しいデータに遭遇しても失敗する可能性が高くなります。この記憶化のような動作の技術用語は、過剰適合です。

通常、安全対策はトレーニング・テスト分割と呼ばれます。つまり、利用可能なデータを、モデルの学習が許可されるセット（トレーニングデータ）と、検査までは見られない部分（テストセット）に分割します。しかし、この安全対策でも不完全な結果が生じる可能性があります。不運な分割はモデルのテスト結果を歪める可能性があるからです。さらに、データが限られている場合、トレーニングにデータを使用することとテスト用にデータを保存することの間で、難しいトレードオフが生じます。

機械学習の実務者はこれらの問題にクロスバリデーションで対処しています。クロスバリデーションでは、データセットをいわゆるフォールドに分割します。ほとんどのフォールドはモデルのトレーニングに使用されますが、1つはテスト用に予約されています。次に、このプロセスをモデルの新しいコピーに対して、フォールドを回転させて繰り返します。別のフォールドがテストセットになっています。これらのさまざまな実行からのテスト・スコアが平均化されます。このアプローチにより、モデルが新しいデータでどの程度優れたパフォーマンスを発揮する可能性があるかについて、より安定した推定値が得られると同時に、限られたデータセットからより多くのマイルストーンを得ることもできます（各データポイントをあるコンテキストでのトレーニングに使用したり、別のコンテキストでテストしたりできるため）。

最終的に、どの候補モデルも十分なパフォーマンスを発揮できない場合、実践者はハイパーパラメーターのチューニング（モデルの深さや学習率などの組み込み設定を調整）を試し、パフォーマンスが向上するかどうかを確認することもできます。

Pythonでは、Scikit-learnのようなライブラリによってクロス検証の実装が簡単になり、これが標準的な手法になっている理由の1つです。

「正しい答え」が明確でない場合

いわゆる「グラウンド・トゥルース」が明確な場合もあります。つまり、患者ががんかどうか、つまり、この金額でまたはその金額で住宅を購入したということです。しかし、大規模言語モデル（LLM）の登場により、モデルのパフォーマンスはしばしば明確でなく、測定も容易ではありません。

LLMを利用したチャットボットは、事実を正しく認識しているかどうかなど、いくつかの二元的なタスクに直面する可能性があります。しかし、そのユーザーは、親しみやすさや有用性など、定義が難しいさまざまな側面で評価することもあります。このような場合、単一の正しい答えは存在せず、ベンチマークとなる「真の値」も存在しません。人間による注釈は、LLMの出力を評価するための代表的な方法と考えられていますが、拡張性はありません。

最終的には、最終的なモデル評価は、モデルを導入して、ユーザーがそのモデルから価値を得られるかどうかを確認することで得られる可能性があります。