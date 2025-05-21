これをバイアスと分散のトレードオフといます。

バイアスと分散のトレードオフの概要

機械学習（ML）人工知能（AI）において、バイアスと分散のトレードオフは、予測機械学習モデルの性能を制御する概念であり、データサイエンスの基本的な考え方です。

具体的なビジネス上の問題に対する機械学習（ML）モデルの構築を決定する際は、エラーを最小限に抑え、潜在的なシグナルを取り込むモデル・アーキテクチャーを選択することになります。偏りと分散は、予測誤差の2つの原因を表します。偏りは、過度に単純化された仮定によって予測が真の値からどの程度かけ離れているかを測定する。ただし、分散は、異なるトレーニングデータに基づいて予測がどの程度変動するかを捉えます。

このトレードオフを理解し、管理することは、目に見えないデータに対してうまく一般化するモデルを構築するために重要です。バイアスが高いモデルは、重要なパターンが欠落して過小適合しやすく、分散が高いモデルは過学習になりやすく、ノイズをあたかも信号であるかのように捉えます。適切なバランスを取ることが効果的な機械学習設計の核心であり、トレーニング・データに基づいてうまく機能するモデルが現実世界で失敗する可能性がある理由を説明するのに役立ちます。

この解説では、偏りと分散のトレードオフと予測誤差の技術的な詳細を掘り下げ、データ・セットに適したモデルを構築する方法を説明します。

トレードオフの図解

線形回帰やK近傍法（KNN）などの予測モデルでは、バイアスと分散は相互に依存します。

  • 偏りは、モデルの予測値が、グランド・トゥルースの値から平均してどの程度ずれているかを測定します。偏りの高いモデルは、データの形式について強い仮定を行う傾向があり、過小適合を引き起こします。過度に単純化されたモデルは、偏りが大きく、分散が小さくなる傾向があります。このようなモデルは、トレーニング誤差と予測誤差が大きくなる傾向があります。
  • 分散は、トレーニング・データセットの違いによってモデルの予測がどの程度変化するかを測定します。高分散モデルは、トレーニング・データのノイズに敏感であり、過剰適合を引き起こします。複雑なアーキテクチャーとより多くのパラメーターを持つモデルでは、分散が大きく、バイアスが小さくなる傾向があります。
偏りと分散の図

この解説では、線形回帰を例に、モデルの複雑さが予測成果の偏りと分散にどのように影響するかを示します。回帰においては、評価メトリクスは平均二乗誤差（MSE）、つまりグラウンド・トゥルースと予測値からの平均二乗誤差によって定義されます。MSEが大きい場合は、トレーニング・データに対するモデルの適合が不十分であり、MSEが小さい場合は、トレーニング・データに対してモデルが適切に適合していることを示します。

MSEは次のように定義されます。

 MSE=(ypred-yactual)2  

または、平方根の残差の合計で表されます。

 RSS=i=1n(yi-yi^)2

一連のインプット値Xと対応するアウトプット値Yが与えられたとしましょうXとYの間の真の関係は非線形であり、サイン波のように滑らかなU字形の曲線になると考えられます。しかし、その基盤となる機能は不明です代わりに、それを近似するノイズの多いデータ・ポイントを観察します。

ノイズの多いデータのグラフィック

次に、X を使用して Y を予測するモデルを構築します。

モデルの複雑さが性能にどのような影響を与えるかを説明するために、複雑さが増す3つのモデル、線形モデル、中程度に複雑な多項モデル、非常に複雑な多項モデルという3つのモデルを適合させていきます。

このノイズコンポーネントではランダム性を導入し、実世界のデータを模倣します。多項式は、Xの累乗の合計に係数を掛けた数式です。

たとえば、次数 1 多項式は次のとおりです。

 y^=β0+β1x

モデルは次の直線で表されます。

多項次数1

このモデルは非常に単純で、XとYの関係が線形であるという強い仮説を立てています。しかし、データには明らかに湾曲したパターンがあります。その結果、以下が発生しました。

  • 偏りが大きい：モデルはデータ内の非線形パターンを把握できません。
  • 分散が低い： データセットが変わっても大きく変化せず、安定しています。
  • MSE（平均二乗誤差）：0.2929。これは比較的高いものです。

これは過小適合の一例です。モデルが単純すぎて真の構造を学習できていません。

4次の多項式

 y^=β0+β1x+β2x2+β3x3+β4x4

多項次数 4

ここでは最大のxのパワーを含む多項式を使用しますx4 :

 y^=β0+β1x+β2x2+β3x3+β4x4

このモデルは、ノイズに敏感すぎず、データの曲線を捉えるのに十分な複雑さを備えています。

  • バイアスが中程度である：このモデルは真の関数をかなりよく表現できます。
  • 分散は中程度で、データの小さな変動に過剰に反応しません。
  • MSE：約0.0714（1度より低い）。

これは、このサンプルでは最も性能の高いモデルであり、うまく一般化できます。

25次の多項式：

 y^=i=025βixi

多項式25度

26個のパラメーターを備えたこのモデルは柔軟性が高く、ランダム・ノイズも含めて、トレーニング・データを非常に厳密に適合します。曲線は非常に波線状に見え、データを過剰適合させています。

  • 偏りが低い：シグナルに追従するのに十分な柔軟性があります。
  • 分散が大きい： ノイズに強く反応し、新しいデータサンプルによって大きく変化します。
  • MSE：約0.059—トレーニングデータのパターンを過剰に記憶したため、4次の場合よりも低くなります。

これは過剰適合の一例です。モデルは信号とともにノイズを学習するため、目に見えないデータに対してうまく一般化されません。

次数が増えるほど、曲線はより「曲がりくねり」になり、シグナルとノイズの両方を含むトレーニング・データに適応できるようになります。

上記のサンプルでは、モデルの複雑さとパラメーターの数が偏分散のトレードオフに直接影響することが分かります。モデルが複雑になり、パラメーターが増えるにつれて、テストセット内の予測値のばらつきが大きくなり、大きな分散が生じます。ただし、モデルが単純化され、パラメーターの数が減少すると、予測における  bias2 が増加します。

そのため、機械学習モデルを構築する際には、バイアスと分散を同時に発生させ、最適なモデルのパフォーマンスを達成することを目指します。この最適化は、トレーニングから適切な結果を生成するだけでなく、目に見えないテストデータに対しても適切に一般化します。次のセクションでは、バイアスと分散の計算がどのように導き出されるのか、また機械学習モデルにバイアス、分散、不可逆誤差で構成される不確実性が含まれている理由について数学的に詳しく説明します。

バイアスとバリアンスのトレードオフ

実践における偏りと分散

現実世界の機械学習モデルで偏りと分散がどのように明らかになるかを理解することは、診断とパフォーマンスの向上に不可欠です。次のセクションでは、偏りと分散の高いモデルがAIの性能の低下につながる可能性について詳しく説明します。

高バイアスモデル

高バイアスのモデルは、通常、単純すぎてデータ内の真のパターンを捉えることができません。トレーニング・セットに過小適合し、トレーニングとテストの精度が低下します。典型的なサンプルとしては、前述した非線形データに適用される線形回帰が挙げられます。特徴量とターゲットの間の真の関係が二次または正弦的であり、直線に適合する場合、このモデルには根底にある構造を把握する能力が不足しています。

症状：トレーニング・セットとテスト・セットの両方でエラーの発生頻度が高い。偏りが大きくなり、トレーニング・セットとテスト・セットの両方で性能の低下を引き起こしている。

高分散モデル

高分散モデルは柔軟性が強すぎて、ノイズを含めてトレーニング・データに適合しすぎます。これらは、トレーニング・セットを過剰適合させ、目に見えないデータに対して一般化できないため、過剰適合につながり、異常に大きなばらつきを伴う予測につながります。

一般的な例は次のとおりです。

  • 剪定を行わない決定木
  • 高い次数の多項回帰。
  • 非常に低いkをもつKNN。

症状: トレーニングでの誤差は低いが、テストでの誤差が高い。予測がデータセットによって大きく異なる。分散項が誤差を支配しており、モデルがトレーニング・データの変化に関して不安定であることを示しています。

バイアスと分散の診断

これらのエラーを診断するための実用的なツールには、次のようなものがあります。

学習曲線（前のセクション I で提示）：

  • プロット学習と検証誤差と学習セットサイズの比較。
  • 両方の誤差が大きく収束する場合は、バイアスが高いことを示します。

トレーニング誤差が低く、検証誤差が高く、ギャップが閉じていない場合は、分散が大きいことを示します。交差検証を適用して、モデルの性能を診断し、選択したトレーニング・セットからの誤差を平均化することができます。

  • 一般化誤差の推定に役立ちます。
  • 分散を考慮した方法でモデルまたはハイパーパラメーターを比較するのに役立ちます。

現実世界での考察

実際には、バイアスと分散のトレードオフを制御するには、「完璧な」モデルを選択することよりも、さまざまなストラテジーを通じて複雑さを管理することも重要です。予測誤差の変動を制御するために、次のストラテジーの一部を適用することで、いくつかの手法を適用できます。

正則化

正則化は、モデルの複雑さを制限またはペナルティを課して一般化、つまり未知のデータでのパフォーマンスを向上させるために使用される一連の手法を指します。数学用語としては、正則化は、複雑性を妨げるペナルティー項（通常、大きな重みまたは過度に柔軟なモデルの形で）を追加することにより、元の損失関数を変更するものです

その目的は、特に高次元データや限られたデータを扱う場合に、過剰適合を防ぐことです。機械学習モデルをトレーニングする際、通常、平均二乗誤差（MSE）などで損失関数を最小化します。

 RSS=∑i=1n(yi-yi^)2

正則化では、この目的にペナルティを追加します。

L2正則化（リッジ回帰）

LossRidge=∑i=1n(yi-yi^)2+λ*ペナルティ

この場合、

λ は、トレーニング データの適合とモデルの単純化の間のトレードオフを制御するハイパーパラメータです。

係数の大きさの2乗に比例したペナルティーが加算されます。これにより、過度に大きな重み付けが抑制され、分散が減少します。ペナルティー項では、予測力が低い特徴量をもつことを保証し、パラメーターの係数を効果的に低減します。

L1正則化（LASSO）

希薄性を高める：

 Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|

無関係な特徴量を完全に排除してモデルを簡素化し、分散を小さくすることができます。ペナルティー項USD{\sum_{j=1}^{p} |\beta_j}USDでは、重要でない特徴量がゼロに削減されることを保証し、事実上、重要でない特徴量を完全に排除します。

アンサンブル方式

アンサンブル法では、複数のモデルを組み合わせて、個々の予測偏差を平均化することでエラーを削減します。最高の予測精度を得るために、複数の高分散モデルを組み合わせるか、積み重ねることが含まれます。例としては、次のようなものがあります。

バギングランダムフォレストなど）では、異なるデータ・サブセットでトレーニングされた複数の高分散推定値を平均化することで分散を削減します。

ブースティング（例：xgBoost、AdaBoost）では、以前のモデルのエラーを順次修正し、多くの場合、バイアスまたは分散の削減と慎重な調整のバランスを取りながら、強力な学習者を構築します。

ハイパーパラメーターのチューニングとモデル選択

モデルの複雑さと正則化の強度は、多くの場合、ハイパーパラメーターによって制御されます。グリッド検索やクロス検証やベイズ最適化を使用したランダム検索などの手法は、保持されたデータの偏りと分散のバランスをとるモデルを見つけるのに役立ちます。

AI Academy

ユースケースに適したAIモデルの選択

AIモデルに関しては、大きいほど良いというわけではありません。ここでは、お客様のビジネス・ニーズに適したモデルをどのように見つけるかを学習します。その後、ガイドブックを活用して、学習したことを実践にお役立てください。
エピソードに移動

最新のAIへの応用

バイアスと分散のトレードオフは単なる理論上のものではありません。ディープラーニングや大規模なAIシステムでは重要な役割を果たしています。現代のAIの時代では、ニューラル・ネットワーク・アーキテクチャーの選択が、バイアスと分散の間のトレードオフを管理する上で重要な役割を果たします。ここでは、2つの基本アーキテクチャー（CNNとRNN）が実際にこのバランスをどのように乗り切るかについて説明します。

1. 畳み込みニューラル・ネットワーク（CNN）：CNNは、空間構造をもつデータ（最も一般的には画像）用に特別に設計されています。そのアーキテクチャーの特徴量により、十分な表現力を維持してバイアスを低く抑えながら、分散を削減できます。

  • 局所受容野（畳み込み）：CNNは、（完全に接続されたネットワークのように）すべての入力ピクセルをすべてのアウトプットニューロンに接続する代わりに、入力全体をスライドさせる小さなフィルター（カーネル）を使用します。これは、局所的な特徴量が有用であるという仮定を強制するものであり、空間的局所性に対するバイアスとなっています。
  • ウェイトの共有：各フィルタ（またはカーネル）は画像全体で再利用されるため、学習可能なパラメーター数が大幅に削減されます。これにより、過剰適合が制限され、分散が小さくなりますが、モデルの柔軟性が制限されるため、ある程度のバイアスが導入されます。
  • プーリング層（例：最大プーリング）：これらの層は、特徴マップを要約し、変換の不変性を導入します。これにより、わずかな変動を無視することで分散が小さくなりますが、潜在的に有用な詳細情報の一部が除外され、バイアスが増大する可能性があります。
  • 階層的特徴量学習： CNNは、低レベルのエッジから高レベルの形状まで層ごとに学習します。この階層化された帰納バイアスにより、より少ない例による一般化が可能になり、データ不足の領域で役立ちます。

2. リカレント・ニューラル・ネットワーク（RNN）： RNNは、テキスト、音声、時系列などの連続データに合わせて調整されており、現在の出力が前の要素に依存する場合があります。設計では、長期的な依存関係（バイアスを低減する）とトレーニングの安定性（分散を制御する）のバランスを取ることを目指しています。

  • 時間の経過に伴うウェイトシェアリング：RNNでは、すべてのタイムステップで同じパラメーターを使用するため、シーケンスに定常性に偏りが生じます（同じ種類のパターンが繰り返されると仮定します）が、パラメーターの増加を制限することで分散を大幅に減らします。
  • 過去入力の記憶： RNNは、過去の情報を要約した隠れた状態 h_t を維持します。理論的には、この状態のモデルは、長距離依存関係をモデル化することでバイアスを軽減することができます。しかし実際には、勾配が消えると長期的な関係を効果的に学習できず、しばしば偏りが大きくなります。
  • 長期短期記憶（LSTM）やゲーテッド・リカレント・ユニット（GRU）のような変種： これらのアーキテクチャーは、ゲートを使用することで消失勾配を緩和し、長期間の記憶保持を可能にします。その結果、分散を大きく増やすことなく偏りをさらに低減できます。
  • 学習の安定性とオーバーフィッティング：ディープRNN（多層または長いシーケンス）では、トレーニング・シーケンスにおいて高い分散オーバーフィッティングノイズが起こりやすいです。これを制御するために、ドロップアウト、勾配クリッピング、シーケンス・バケットなどの技術がよく使用されます。

トレードオフを制御するテクニック

  • ドロップアウト： トレーニング中にニューロンをランダムにオフにすることでノイズを追加し、ネットワークに冗長な表現を学習させ、過剰適合を抑制することで分散を減らします。
  • バッチ正規化：トレーニングの安定化と高速化に役立ち、多くの場合、最適化を平滑化することで分散を減らすことができます。
  • 早期停止：検証の損失が増加し始めたときに学習を停止することで、オーバーフィッティングを防ぎます。
  • 転移学習： 大規模なデータセットで事前にトレーニングされたモデルは、多くの場合、トレーニングの必要なパラメーターが少なくなり、より適切に一般化され、小規模なデータセットでの分散が小さくなります。
  • スケーリング法則と現代の観察：大規模モデル（トランスフォーマーなど）での最近の調査結果は、データ、コンピューティング、モデルのサイズが大きくなるとテストエラーが減少することを示しており、大容量モデルでは分散の増加よりもバイアスが速く減少することを示唆しています。ただし、正則化が不十分であったり、データが不十分であったりする場合は、依然として過剰適合につながる可能性があります。

理論的基礎

偏りと分散のトレードオフの数学的基礎を掘り下げていきます。前の例で示したとおり、目的は予測値と実際の値の合計誤差を削減することです。この誤差は、バイアス、分散、不可逆誤差の3つのコンポーネントで構成されています。モデルの予想二乗予測誤差は次のように分析できます。

 f^(x)

真関数：f(x)と比較すると、

ここでは、 f^(x)はトレーニング・データセットDから学習され、xは真の（未知の）関数です。

次に：

 y=f(x)+ε,ε∼N(0,σ2)

関数 y=f(x)+ε の場合、誤差（ ε で表される）は平均0と分散 σ2 （ σ は分布の標準偏差

f^(x) は、インプット x でのモデルの予測値です。

複数の異なるトレーニング・データセット D とノイズ ε に対して期待値（または平均）が取得されます。記号Eは、「期待」または「期待値」を表すために使用され、分布の平均の真の値です。

ここでの関心は単一点 x において期待される予測誤差です：

 ED,ε[(y-f^(x))2]

代入します：

 y=f(x)+ε を示す）で正規分布します。

これを表す表現は次のとおりです。

=ED、ε[(f(x)+ε-f^(x))2]

正方形を広げると、

 $=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$

線形性を使用して期待値を分割します（線形性とは単純な代数概念、例：E[A+B]=E[A]+E[B]）。

 =ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]

ここで、

 E[ε]=0⇒E[(f(x)-f^(x))ε]=0

E[ε2]=σ2

結果す：

 ED[(f(x)-f^(x))2]+σ2

最初の項を分解します：

追加と削除 

ED[f^(x)] :

 ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]

次に：

 a=f(x)-ED[f^(x)]

b=ED[f^(x)]-f^(x)

次も該当します：

 ED[(a+b)2]=a2+ED[b2]+2aED[b]

ED[b]=0 であるため、クロス用語が消えて次の結果が得られます。

=(f(x)-ED[f^(x)]2+ED[(f^(x)-ED[f^(x)])2]

最終的な偏りと分散の分解：

ED,ε[(yf^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)] )2]+σ2

ここで、第1項は偏り2、第2項は分散、第3項は不可逆誤差です。

これは、予想される予測誤差の合計が次のように分解できることを示しています。

- 偏り²： モデルの誤った仮定による誤差（例えば、過小適合、単純すぎるモデルなど）

分散：トレーニング・データに対する感度に起因する誤差（例えば、過剰適合、複雑すぎるモデルなど）

- 不可逆的ノイズ：観測における避けられないランダム性とエラー

結論と参考文献

つまり、バイアスと分散は、機械学習における予測誤差の2つの基本的な原因です。このトレードオフを理解することは、単なる理論的な演習ではなく、実際のMLモデルの設計、トレーニング、デプロイの方法に直接影響します。

シンプルな線形モデルと複雑なニューラル・ネットワークのどちらを選択する場合でも、過小適合と過剰適合のバランスを認識することは、堅牢なAIシステムを構築するために不可欠です。ここでは、損失関数として平均二乗誤差（MSE）に焦点を当てましたが、このトレードオフは幅広い分布と誤差メトリクスに適用されるため、教師あり学習全体で普遍的な考慮事項となっています。

近年、研究者は、ディープ・ニューラル・ネットワークのような大規模な過剰にパラメーター化されたモデルの興味深い動作を観察しています。これらのモデルは、高い処理能力にもかかわらず、トレーニング・データに完全に適合する場合でも、うまく一般化されることが多く、従来の偏分散フレームワークを覆しているように見えます。

この不可解な振る舞いは、二重降下の概念を導入したBelkin et al. "Reconciling modern machine learning and the bias-variance trade-off"（2019）、一般化の幾何学的解釈を提案したBubeck et al. "A universal law of robustness via isoperimetry" 等の論文で検討されています。

より強力なAIシステムを構築するにつれて、性能を最適化するだけでなく、モデルの動作の解釈や公平性の確保、責任あるAIの実践を推進するためにも、これらのダイナミクスをより深く理解することが不可欠になります。

参考情報

IBM Graniteはこちら

IBM Graniteは、ビジネス向けにカスタマイズされ、AIアプリケーションの拡張に合わせて最適化された、オープンで高性能、かつ信頼性の高いAIモデル・ファミリーです。言語、コード、時系列、ガードレールのオプションをご覧ください。
IBMが、『2024年第2四半期のThe Forrester Wave: AI Foundation Models for Language』でStrong Performerの評価を獲得

企業は、信頼できない基盤モデルでは生成AIを拡張できないことを認識しています。抜粋版をダウンロードして、主力の「Graniteモデル」を持つIBMがIStrong Performerに選ばれた理由をご覧ください。
CEOのためのモデル最適化ガイド

最新のAI技術とインフラストラクチャーを使用して、モデルのパフォーマンスを向上させ、競合他社に差をつけるよう、チームを継続的に後押しする方法を学びましょう。
AI基盤モデル提案の差別化

あらゆる業界に信頼性、パフォーマンス、費用対効果の高いメリットを提供するエンタープライズ・グレードの基盤モデルの価値に関する詳細をご覧ください。
生成AI + MLの力を解き放つ

生成AI、機械学習、基盤モデルを事業活動に組み込んでパフォーマンスを向上させる方法をご紹介します。
IBMは企業向け生成AIをどのように調整しているか

IBMが信頼性およびエネルギー効率に優れた、ポータブルな生成基盤モデルをどのように開発しているかをご覧ください。
