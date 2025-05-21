IBMニュースレター
具体的なビジネス上の問題に対する機械学習（ML）モデルの構築を決定する際は、エラーを最小限に抑え、潜在的なシグナルを取り込むモデル・アーキテクチャーを選択することになります。偏りと分散は、予測誤差の2つの原因を表します。偏りは、過度に単純化された仮定によって予測が真の値からどの程度かけ離れているかを測定する。ただし、分散は、異なるトレーニングデータに基づいて予測がどの程度変動するかを捉えます。
このトレードオフを理解し、管理することは、目に見えないデータに対してうまく一般化するモデルを構築するために重要です。バイアスが高いモデルは、重要なパターンが欠落して過小適合しやすく、分散が高いモデルは過学習になりやすく、ノイズをあたかも信号であるかのように捉えます。適切なバランスを取ることが効果的な機械学習設計の核心であり、トレーニング・データに基づいてうまく機能するモデルが現実世界で失敗する可能性がある理由を説明するのに役立ちます。
この解説では、偏りと分散のトレードオフと予測誤差の技術的な詳細を掘り下げ、データ・セットに適したモデルを構築する方法を説明します。
線形回帰やK近傍法（KNN）などの予測モデルでは、バイアスと分散は相互に依存します。
この解説では、線形回帰を例に、モデルの複雑さが予測成果の偏りと分散にどのように影響するかを示します。回帰においては、評価メトリクスは平均二乗誤差（MSE）、つまりグラウンド・トゥルースと予測値からの平均二乗誤差によって定義されます。MSEが大きい場合は、トレーニング・データに対するモデルの適合が不十分であり、MSEが小さい場合は、トレーニング・データに対してモデルが適切に適合していることを示します。
MSEは次のように定義されます。
または、平方根の残差の合計で表されます。
一連のインプット値Xと対応するアウトプット値Yが与えられたとしましょうXとYの間の真の関係は非線形であり、サイン波のように滑らかなU字形の曲線になると考えられます。しかし、その基盤となる機能は不明です代わりに、それを近似するノイズの多いデータ・ポイントを観察します。
次に、X を使用して Y を予測するモデルを構築します。
モデルの複雑さが性能にどのような影響を与えるかを説明するために、複雑さが増す3つのモデル、線形モデル、中程度に複雑な多項モデル、非常に複雑な多項モデルという3つのモデルを適合させていきます。
このノイズコンポーネントではランダム性を導入し、実世界のデータを模倣します。多項式は、Xの累乗の合計に係数を掛けた数式です。
たとえば、次数 1 多項式は次のとおりです。
モデルは次の直線で表されます。
このモデルは非常に単純で、XとYの関係が線形であるという強い仮説を立てています。しかし、データには明らかに湾曲したパターンがあります。その結果、以下が発生しました。
これは過小適合の一例です。モデルが単純すぎて真の構造を学習できていません。
4次の多項式：
ここでは最大のxのパワーを含む多項式を使用します :
このモデルは、ノイズに敏感すぎず、データの曲線を捉えるのに十分な複雑さを備えています。
これは、このサンプルでは最も性能の高いモデルであり、うまく一般化できます。
25次の多項式：
26個のパラメーターを備えたこのモデルは柔軟性が高く、ランダム・ノイズも含めて、トレーニング・データを非常に厳密に適合します。曲線は非常に波線状に見え、データを過剰適合させています。
これは過剰適合の一例です。モデルは信号とともにノイズを学習するため、目に見えないデータに対してうまく一般化されません。
次数が増えるほど、曲線はより「曲がりくねり」になり、シグナルとノイズの両方を含むトレーニング・データに適応できるようになります。
上記のサンプルでは、モデルの複雑さとパラメーターの数が偏分散のトレードオフに直接影響することが分かります。モデルが複雑になり、パラメーターが増えるにつれて、テストセット内の予測値のばらつきが大きくなり、大きな分散が生じます。ただし、モデルが単純化され、パラメーターの数が減少すると、予測における が増加します。
そのため、機械学習モデルを構築する際には、バイアスと分散を同時に発生させ、最適なモデルのパフォーマンスを達成することを目指します。この最適化は、トレーニングから適切な結果を生成するだけでなく、目に見えないテストデータに対しても適切に一般化します。次のセクションでは、バイアスと分散の計算がどのように導き出されるのか、また機械学習モデルにバイアス、分散、不可逆誤差で構成される不確実性が含まれている理由について数学的に詳しく説明します。
現実世界の機械学習モデルで偏りと分散がどのように明らかになるかを理解することは、診断とパフォーマンスの向上に不可欠です。次のセクションでは、偏りと分散の高いモデルがAIの性能の低下につながる可能性について詳しく説明します。
高バイアスのモデルは、通常、単純すぎてデータ内の真のパターンを捉えることができません。トレーニング・セットに過小適合し、トレーニングとテストの精度が低下します。典型的なサンプルとしては、前述した非線形データに適用される線形回帰が挙げられます。特徴量とターゲットの間の真の関係が二次または正弦的であり、直線に適合する場合、このモデルには根底にある構造を把握する能力が不足しています。
症状：トレーニング・セットとテスト・セットの両方でエラーの発生頻度が高い。偏りが大きくなり、トレーニング・セットとテスト・セットの両方で性能の低下を引き起こしている。
これらのエラーを診断するための実用的なツールには、次のようなものがあります。
学習曲線（前のセクション I で提示）：
トレーニング誤差が低く、検証誤差が高く、ギャップが閉じていない場合は、分散が大きいことを示します。交差検証を適用して、モデルの性能を診断し、選択したトレーニング・セットからの誤差を平均化することができます。
実際には、バイアスと分散のトレードオフを制御するには、「完璧な」モデルを選択することよりも、さまざまなストラテジーを通じて複雑さを管理することも重要です。予測誤差の変動を制御するために、次のストラテジーの一部を適用することで、いくつかの手法を適用できます。
正則化は、モデルの複雑さを制限またはペナルティを課して一般化、つまり未知のデータでのパフォーマンスを向上させるために使用される一連の手法を指します。数学用語としては、正則化は、複雑性を妨げるペナルティー項（通常、大きな重みまたは過度に柔軟なモデルの形で）を追加することにより、元の損失関数を変更するものです
その目的は、特に高次元データや限られたデータを扱う場合に、過剰適合を防ぐことです。機械学習モデルをトレーニングする際、通常、平均二乗誤差（MSE）などで損失関数を最小化します。
RSS=∑i=1n(yi-yi^)2
正則化では、この目的にペナルティを追加します。
LossRidge=∑i=1n(yi-yi^)2+λ*ペナルティ
この場合、
λ は、トレーニング データの適合とモデルの単純化の間のトレードオフを制御するハイパーパラメータです。
係数の大きさの2乗に比例したペナルティーが加算されます。これにより、過度に大きな重み付けが抑制され、分散が減少します。ペナルティー項では、予測力が低い特徴量をもつことを保証し、パラメーターの係数を効果的に低減します。
希薄性を高める：
Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|
無関係な特徴量を完全に排除してモデルを簡素化し、分散を小さくすることができます。ペナルティー項USD{\sum_{j=1}^{p} |\beta_j}USDでは、重要でない特徴量がゼロに削減されることを保証し、事実上、重要でない特徴量を完全に排除します。
モデルの複雑さと正則化の強度は、多くの場合、ハイパーパラメーターによって制御されます。グリッド検索やクロス検証やベイズ最適化を使用したランダム検索などの手法は、保持されたデータの偏りと分散のバランスをとるモデルを見つけるのに役立ちます。
バイアスと分散のトレードオフは単なる理論上のものではありません。ディープラーニングや大規模なAIシステムでは重要な役割を果たしています。現代のAIの時代では、ニューラル・ネットワーク・アーキテクチャーの選択が、バイアスと分散の間のトレードオフを管理する上で重要な役割を果たします。ここでは、2つの基本アーキテクチャー（CNNとRNN）が実際にこのバランスをどのように乗り切るかについて説明します。
1. 畳み込みニューラル・ネットワーク（CNN）：CNNは、空間構造をもつデータ（最も一般的には画像）用に特別に設計されています。そのアーキテクチャーの特徴量により、十分な表現力を維持してバイアスを低く抑えながら、分散を削減できます。
2. リカレント・ニューラル・ネットワーク（RNN）： RNNは、テキスト、音声、時系列などの連続データに合わせて調整されており、現在の出力が前の要素に依存する場合があります。設計では、長期的な依存関係（バイアスを低減する）とトレーニングの安定性（分散を制御する）のバランスを取ることを目指しています。
偏りと分散のトレードオフの数学的基礎を掘り下げていきます。前の例で示したとおり、目的は予測値と実際の値の合計誤差を削減することです。この誤差は、バイアス、分散、不可逆誤差の3つのコンポーネントで構成されています。モデルの予想二乗予測誤差は次のように分析できます。
f^(x)
真関数：f(x)と比較すると、
ここでは、 f^(x)はトレーニング・データセットDから学習され、xは真の（未知の）関数です。
次に：
y=f(x)+ε,ε∼N(0,σ2)
関数 y=f(x)+ε の場合、誤差（ ε で表される）は平均0と分散 σ2 （ σ は分布の標準偏差
f^(x) は、インプット x でのモデルの予測値です。
複数の異なるトレーニング・データセット D とノイズ ε に対して期待値（または平均）が取得されます。記号Eは、「期待」または「期待値」を表すために使用され、分布の平均の真の値です。
ここでの関心は単一点 x において期待される予測誤差です：
ED,ε[(y-f^(x))2]
代入します：
y=f(x)+ε を示す）で正規分布します。
これを表す表現は次のとおりです。
=ED、ε[(f(x)+ε-f^(x))2]
正方形を広げると、
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
線形性を使用して期待値を分割します（線形性とは単純な代数概念、例：E[A+B]=E[A]+E[B]）。
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
ここで、
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
結果す：
ED[(f(x)-f^(x))2]+σ2
追加と削除
ED[f^(x)] :
ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]
次に：
a=f(x)-ED[f^(x)]
b=ED[f^(x)]-f^(x)
次も該当します：
ED[(a+b)2]=a2+ED[b2]+2aED[b]
ED[b]=0 であるため、クロス用語が消えて次の結果が得られます。
=(f(x)-ED[f^(x)]2+ED[(f^(x)-ED[f^(x)])2]
ED,ε[(yf^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)] )2]+σ2
ここで、第1項は偏り2、第2項は分散、第3項は不可逆誤差です。
これは、予想される予測誤差の合計が次のように分解できることを示しています。
- 偏り²： モデルの誤った仮定による誤差（例えば、過小適合、単純すぎるモデルなど）
- 分散：トレーニング・データに対する感度に起因する誤差（例えば、過剰適合、複雑すぎるモデルなど）
- 不可逆的ノイズ：観測における避けられないランダム性とエラー
つまり、バイアスと分散は、機械学習における予測誤差の2つの基本的な原因です。このトレードオフを理解することは、単なる理論的な演習ではなく、実際のMLモデルの設計、トレーニング、デプロイの方法に直接影響します。
シンプルな線形モデルと複雑なニューラル・ネットワークのどちらを選択する場合でも、過小適合と過剰適合のバランスを認識することは、堅牢なAIシステムを構築するために不可欠です。ここでは、損失関数として平均二乗誤差（MSE）に焦点を当てましたが、このトレードオフは幅広い分布と誤差メトリクスに適用されるため、教師あり学習全体で普遍的な考慮事項となっています。
近年、研究者は、ディープ・ニューラル・ネットワークのような大規模な過剰にパラメーター化されたモデルの興味深い動作を観察しています。これらのモデルは、高い処理能力にもかかわらず、トレーニング・データに完全に適合する場合でも、うまく一般化されることが多く、従来の偏分散フレームワークを覆しているように見えます。
この不可解な振る舞いは、二重降下の概念を導入したBelkin et al. "Reconciling modern machine learning and the bias-variance trade-off"（2019）、一般化の幾何学的解釈を提案したBubeck et al. "A universal law of robustness via isoperimetry" 等の論文で検討されています。
より強力なAIシステムを構築するにつれて、性能を最適化するだけでなく、モデルの動作の解釈や公平性の確保、責任あるAIの実践を推進するためにも、これらのダイナミクスをより深く理解することが不可欠になります。
