モデル性能とは

執筆者

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

モデル性能とは

モデル性能とは、さまざまなメトリクスに基づき、機械学習（ML）モデルが設計されたタスクをどの程度うまく実行できるかを示すものです。モデル性能の測定は、MLモデルを本番環境にリリースする前の最適化や、デプロイメント後の改善に不可欠です。適切に最適化されていない場合、モデルは不正確または信頼性の低い予測を出す可能性があり、非効率性にもつながって性能が低下します。

モデル性能の評価は、機械学習パイプラインにおけるモデル評価段階とモデル監視段階で行われます。人工知能（AI）の実務者がMLプロジェクトの初期段階に取り組んだ後、複数のデータセット、タスク、メトリクスにわたってモデル性能を評価し、その有効性を測定します。モデルがデプロイされると、機械学習オペレーション（MLOps）チームがモデル性能を監視し、継続的な改善を行います。

モデル性能に影響を与える要因

AIモデルの性能は一般的にテストセットを用いて測定され、モデルの出力をベースラインのテストセットに対する予測と比較します。性能評価から得られるインサイトは、モデルが実環境へのデプロイに適しているか、それとも調整や追加学習が必要かを判断する助けとなります。

以下は、機械学習モデルの性能に影響を与える可能性のある要因です。

データ品質
データ漏洩
特徴選択
モデルの適合度
モデルドリフト
バイアス

データ品質

モデルの良し悪しは、それをトレーニングするデータの質に左右されます。トレーニング・データに不備があり、重複や欠損値、誤ったデータ・ラベルやアノテーションなどの不正確さや不整合を含んでいる場合、モデル性能は十分に発揮されません。バランスの欠如、例えばあるシナリオの値が他よりも極端に多い場合や、相関関係を正しく捉えるには不十分または多様性に欠けるトレーニング・データセットの場合も、結果が偏る原因となります。

データ侵害

機械学習におけるデータ侵害は、モデルがトレーニング中に、予測時には利用できない情報を使用してしまう場合に発生します。これは、データの前処理ミスや、トレーニング用・検証用・テスト用データの分割が不適切でデータが混入したことが原因で発生する場合があります。データ侵害があると、予測モデルは未確認データに対して一般化するのが難しくなり、予測結果が不正確または信頼できなくなるほか、性能指標が過大または過小に評価されることがあります。

特徴選択

特徴量選択とは、モデルのトレーニングに使用するデータセットの最も関連性の高い特徴量を選ぶことを指します。データの特徴量は、機械学習アルゴリズムがトレーニング中に重みをどのように設定するかに影響し、それがモデル性能に直結します。さらに、特徴量の空間を選定したサブセットに絞ることで、計算負荷を抑えつつ性能向上に役立ちます。しかし、関連性の低い特徴量や重要でない特徴量を選ぶと、モデル性能が低下する可能性があります。

モデルフィット

過剰適合は、機械学習モデルが複雑すぎてトレーニング・データに過度に、あるいは完全に適合してしまい、新しいデータに対してうまく汎化できない場合に発生します。逆に、過小適合は、モデルがあまりにも単純で、トレーニング・データとテスト・データの両方に潜む基本的なパターンを捉えられない場合に発生します。

モデルドリフト

モデル・ドリフトとは、データや入力と出力の関係性の変化によって、モデル性能が低下することを指します。この性能低下はモデル性能に悪影響を与え、誤った意思決定や不正確な予測につながる可能性があります。

バイアス

AIにおけるバイアスは、機械学習ワークフローのどの段階でも生じる可能性がありますが、特にデータ処理やモデル開発の段階で顕著に見られます。データ・バイアスは、トレーニング用およびファイン・チューニングデータセットの代表性が不十分なために、モデルの挙動や性能に悪影響を及ぼす場合に生じます。一方、アルゴリズム・バイアスはアルゴリズム自体が原因ではなく、データサイエンスチームがトレーニング・データを収集・コード化する方法や、AIプログラマーが機械学習アルゴリズムを設計・開発する方法に起因します。AIのバイアスは、出力の不正確さや潜在的に有害な結果を招く可能性があります。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

モデル性能メトリクス

モデルが達成すべきビジネス目標に合わせてメトリクスを設定することが重要です。機械学習モデルの種類ごとに評価メトリクスは異なりますが、多くのモデルには共通して用いられるメトリクスがいくつかあります。

精度
再現率
適合率
F1スコア

精度

正解率は、正しく予測された件数を予測の総数で割って算出されます。この割合は非常に一般的なメトリクスです。

モデルの正解率はモデル性能としばしば同一視されますが、正解率は性能の一要素に過ぎません。正確な予測は重要ですが、それだけではモデル性能全体を把握することはできません。

再現率

再現率は、真陽性、つまり実際に正しい予測の数を定量化します。再現率は、感度（sensitivity）や真陽性率（TPR）とも呼ばれます。

このメトリクスは、例えば病気の診断やがんの検出など、ヘルスケア分野で非常に重要です。再現率の高い機械学習モデルは、実際に陽性であるケースを正しく特定しつつ、偽陰性（実際に陽性であるケースを誤って陰性と予測すること）を最小限に抑えることができます。

$R e c a l l = \frac{T P}{T P + F N}$

適合率

適合率は、陽性と予測したケースのうち、実際に陽性である割合です。適合率の高い機械学習モデルは、偽陽性（実際には陰性であるケースを誤って陽性と予測すること）を最小限に抑えることができます。

このメトリクスは、例えば不正検知のような金融分野で非常に重要です。フラグが付けられた取引は、正真正銘の不正取引（真陽性）である必要があります。正当な取引を不正と誤ってフラグ付けする（偽陽性）と、悪影響が生じる可能性があるためです。

$P r e c i s i o n = \frac{T P}{T P + F P}$

F1スコア

F1スコアは再現率と適合率の調和平均であり、これら両方のメトリクスを1つにまとめたものです。偽陽性や偽陰性を相殺するために、2つの測定値を同等の重みを持つものとみなします。これは、陰性ケースが陽性ケースを大きく上回るような不均衡データセット、例えば希少疾患の検出などに特に有用です。

$F 1 = \frac{2 * P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

PythonベースのPyTorch、scikit-learn、TensorFlowなど、多くのAIフレームワークには、正確率、再現率、適合率、F1スコアを計算するための組み込み関数が用意されています。これらのフレームワークは、モデルの予測結果を混同行列として可視化する機能も提供しています。混同行列は、予測値と実際の値の両方を表す表であり、各マスには真陽性、偽陽性、真陰性、偽陰性の数が表示されます。

分類モデル性能メトリクス

分類モデルは、データ・ポイントを「クラス」と呼ばれるあらかじめ定義されたグループに振り分けます。以下は、分類モデルに特有のメトリクスです：

ROC曲線：受信者操作特性（ROC）曲線は、真陽性と偽陽性の比率を可視化するものです。グラフは、モデル分類で使用される各しきい値の真の負率に対する真の陽性率をプロットしています。曲線下面積（AUC）はROC曲線から導かれるメトリクスで、ランダムに選ばれた陽性サンプルがランダムな陰性サンプルよりも高い信頼度スコアを持つ可能性を示します。AUC-ROCは、二値分類（データを互いに排他的な2つのクラスに振り分ける）タスクにおいて有用なメトリクスです。

対数損失：対数損失は、モデルの分類に対する信頼度を評価するメトリクスで、自信を持って誤った予測をした場合に、評価値がより大きく下がるようになっています。これは、モデルの出力が確率的な場合に特に有用です。モデルは正しい分類に対しては自信を持ち、誤った分類に対しては慎重になるようにトレーニングできます。対数損失の値が低いほど、モデルの性能が高いことを示します。

回帰モデル性能メトリクス

回帰モデルは、販売予測や株価予測のような連続値の予測に用いられます。これらのアルゴリズムは定量的な概念を扱うため、メトリクスは予測の誤差を測定します。

平均絶対誤差（MAE）は、すべての誤差の絶対値の合計をサンプル数で割って算出します。これは、予測値と実際の値との平均的な絶対差を測定するメトリクスです。

平均二乗誤差（MSE）は、すべての訓練サンプルにおける予測値と実際の値の差の二乗の平均として算出されます。誤差を二乗することで、大きな誤差がより重く評価され、モデルがそれらを減らすように促されます。

二乗平均平方根誤差（RMSE）は、MSEの平方根です。誤差を二乗してから平均を取ることで、大きな誤差がさらに強く評価され、モデルがそれらを最小限に抑えるよう促されます。

自然言語処理モデル性能メトリクス

これらのメトリクスは、自然言語処理（NLP）モデルの性能を評価するためのものです。また、これらは大規模言語モデル（LLM）のベンチマークとしても使用されます。

以下は、NLPモデルの定量的な評価指標です。

困惑度は、モデルの予測精度を測定します。LLMの困惑度スコアが低いほど、タスクを理解する能力が優れていることを示します。

BLEU（Bilingual Evaluation understudy）は、LLMが予測した翻訳文と人間が作成した翻訳文のn-grams（隣接するn個のテキスト記号の列）の一致度を計算することで、機械翻訳を評価します。

要約評価向け再現率指向指標（ROUGE）は、文章要約を評価するメトリクスで、いくつかの種類があります。例えば、ROUGE-Nは要約に対してBLEUと同様の計算を行いますが、ROUGE-Lは予測された要約と人間が作成した要約の間の最長共通部分列を計算します。

定性的指標には、一貫性、関連性、意味内容などの評価が含まれ、通常は人間の評価者がモデルを確認してスコアを付けます。定量的指標と定性的指標の両方を組み合わせることで、より精緻な評価が可能になります。

コンピューター・ビジョン・モデル性能メトリクス

コンピューター・ビジョン・モデル、特にインスタンス・セグメンテーションや物体検出向けのモデルは、以下の2つの一般的な性能指標で評価されます。

交差領域比（IoU）は、交差部分の面積を結合部分の面積で割った比率を計算します。交差部分とは、モデルによって検出された物体を囲むバウンディングボックスと、実際の物体が重なっている領域のことです。結合部分とは、バウンディングボックスと実際の物体の両方の面積を合わせた領域のことです。コンピューター・ビジョン・モデルは、IoUを用いて検出した物体の位置特定の正確さを評価します。

平均適合率（mAP）は、すべての物体クラスにおける平均適合率の平均を算出したメトリクスです。コンピューター・ビジョン・モデルは、IoUを使用して予測と検知の精度を評価します。

モデル性能を向上させるための戦略

機械学習の性能を最適化する多くの手法は、モデルの開発、トレーニング、評価の段階で実装されます。しかし、モデルを実際の環境に展開した後は、その性能を常に監視する必要があります。モデルの監視は、時間の経過に伴い性能を向上させるための判断に役立ちます。

機械学習モデル性能を改善するには、以下のいずれか、または複数の手法を用います。

データの前処理
データ侵害の予防
適切な特徴量の選択
ハイパーパラメータ・チューニング
アンサンブル学習
転移学習
モデルの最適な適合の達成
モデルのドリフトへの対策
バイアスへの対処

多くのAIフレームワークには、これらの手法の多くをサポートする組み込み機能が用意されています。

データの前処理

厳密なデータ前処理やデータ準備の手順を確立し維持することで、データ品質の問題を回避することができます。データ前処理の基本としてデータ・クレンジング、ノイズ除去、データ正規化がありますが、データサイエンティストはデータ自動化ツールやAI搭載ツールを活用することで、時間と労力を節約し、人為的ミスを防ぐこともできます。データが不十分または不均衡な場合、合成データを用いて不足部分を補うことができます。

データ侵害の予防

慎重なデータ取り扱いは、データ侵害を防ぐための重要な要素です。データは、トレーニング用、検証用、テスト用の各セットに適切に分割し、それぞれのセットで別々に前処理を行う必要があります。

交差検証も有効です。交差検証では、データを複数のサブセットに分割し、定められた回数の反復で異なるサブセットを訓練用と検証用に使用します。

適切な特徴量の選択

特徴量の選択は難しく、最も重要で影響力のある特徴量を特定するには、ドメイン知識が必要です。各特徴量の重要性を理解し、特徴量とターゲット変数（モデルが予測する対象の従属変数）との相関を確認することが重要です。

教師あり学習の特徴量選択手法には、ラッパー法や組み込み法があります。ラッパー法では、異なる特徴量のサブセットで機械学習アルゴリズムをトレーニングし、各反復で特徴量を追加・削除して結果を検証することで、最適なモデル性能を導く特徴量セットを特定します。組み込み法では、特徴量選択をモデル・トレーニングに組み込み、性能の低い特徴量を特定して、次回の反復から除外します。

教師なし学習では、モデルがデータの特徴やパターン、関係性を自ら見つけ出します。教師なし学習の特徴量選択手法には、主成分分析（PCA）、独立成分分析（ICA）、およびオートエンコーダがあります。

ハイパーパラメータ・チューニング

ハイパーパラメーター・チューニングは、ハイパーパラメーター最適化やモデル・チューニングとも呼ばれ、ディープラーニングモデルのハイパーパラメーターを特定・選択・最適化して、最適なトレーニング・パフォーマンスを得る手法です。ハイパーパラメーターはモデルのトレーニング・プロセスを制御し、適切な組み合わせや設定を見つけることで、実運用におけるモデル性能を向上させることができます。

一般的なハイパーパラメーター・チューニング手法には、グリッド・サーチ、ランダム・サーチ、ベイズ最適化、ハイパーバンドがあります。データサイエンティストは、自身のユースケースに最適なハイパーパラメーターをアルゴリズム的に自動発見する手法を実装することもできます。

アンサンブル学習

アンサンブル学習は複数のモデルを組み合わせて予測精度を高める手法であり、単一のモデルよりも複数のモデルをまとめたアンサンブルの方が優れた予測を生成できるという前提に基づいています。

いくつかの代表的なアンサンブル学習手法は次のとおりです。

バギング（ブートストラップ集約とも呼ばれます）は、モデルを並列かつ相互に独立してトレーニングする手法です。その後、回帰タスクでは予測の平均を、分類問題では多数決を取ることで、より正確な推定を行います。

ブースティングは、モデルを逐次的にトレーニングし、各反復で過去の誤りを修正していく手法です。後続のモデルでは誤りや誤分類されたインスタンスにより大きな重みを与えることで、難しいデータに重点を置きながら性能を向上させていきます。

スタッキングは同じデータセットからモデルをトレーニングしますが、それぞれに異なるトレーニング・アルゴリズムを適用します。その後、まとめられた（スタックされた）予測を用いて最終モデルをトレーニングします。

転移学習

転移学習は、初期のタスクやデータセットで事前学習したモデルが得た知識を、新しいが関連性のあるターゲットタスクやデータセットに適用する手法です。事前学習済みモデルを別のタスクに再利用することで、そのモデルの汎化能力が高まり、パフォーマンスの最適化につながります。

モデルの最適な適合の達成

過剰適合と過小適合の管理は、機械学習における中心的な課題です。最適に適合したモデルは、ランダムな変動やノイズに過度に影響されることなく、データ内のパターンを正確に認識します。

過剰適合と過小適合を回避する手法には、モデルが必要な時間だけ学習できるよう適切なトレーニング期間を見極めること、トレーニング・データを拡張するためのデータ拡張、および大きな係数を持つ入力パラメーターにペナルティーを課すことでモデルの分散を抑える正則化があります。

モデルのドリフトへの対策

ドリフト検知は、モデル監視と可観測性の中核的な要素であり、モデル・ドリフトへの対策に役立ちます。例えば、AIドリフト検知ツールはモデルの精度が低下したり、あらかじめ定められたしきい値を下回ったりした場合に自動的に認識し、監視ツールはドリフトの状況を継続的に観測します。

ドリフトが検知されると、MLモデルはリアルタイムで更新するか、最新かつ関連性の高いサンプルを含む新しいデータセットで再トレーニングさせることができます。

バイアスへの対処

AIバイアスの軽減はAIガバナンスから始まります。AIガバナンスには、AIシステムやツールの倫理性と安全性を確保するためのガードレール、プロセス、標準が含まれます。バイアスを防ぐための責任あるAIの実践例は次のとおりです。

データソースを多様化し、幅広い条件、文脈、属性を代表するデータを取り入れる。
多様なチームを育成し、包括的なAI設計と開発を推進する。
説明可能なAIの手法を活用して透明性を確保する。例えば、MLアルゴリズムによる分類器の予測を説明するためのLocal Interpretable Model-Agnostic Explanations（LIME）や、あらゆるMLモデルの出力を説明するためのShapley Additive Explanations（SHAP）など。
開発プロセスに公正性メトリクスを組み込み、アルゴリズムの公正性を確保するツールやフレームワークを活用する。
データとアルゴリズムにバイアスがないかを評価するために、定期的な監査を実施する。
運用中（デプロイ済み）のMLモデルに対して継続的なパフォーマンス監視を実施し、結果のバイアスを迅速に検知・是正する。