壊滅的忘却とは

執筆者

Staff writer

Staff Editor, AI Models

IBM Think

破壊的忘却とは

新しいデータの訓練を受けた後、または特定のタスクのためにファイン・チューニングを受けた後、ニューラル・ネットワークが以前に学んだタスクを忘れると、破壊的忘却が起こります。壊滅的な干渉としても知られているこの現象により、訓練されたネットワークは、連続学習プロセスで新しいデータでトレーニングされているときに古いタスクに関連する情報を失います。

多くの人工知能の実装では、時間の経過とともに新しいユースケースに適応するための機械学習モデルが必要です。破壊的忘却は、新しいタスクのトレーニングプロセスがモデルの古いタスクの理解を妨げるときに起こります。新しい知識が以前の学習に取って代わると、モデルは元のタスクを処理する能力を失います。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

破壊的忘却が起きる理由

破壊的忘却は、1989年にMichael McCloskeyとNeal J. Cohenにより始めて観察されました。¹これは、機械学習アルゴリズムが新しいデータセットに適応する方法の結果として起こります。大規模な言語モデル（LLMS）などのディープラーニング・モデルのトレーニング・プロセスには、モデルをデータにさらし、それに応じて重みを更新できるようにします。2023年に発表されたコンピューターサイエンスにおける論文²では、これが小さなモデルよりも大きなモデルに、よりも重大な影響を与えることを発見しました。

モデルのパラメーターとも呼ばれるネットワークの重みは、トレーニング・データセットでパターンと関係を把握するために使用される内部ルール・セットです。トレーニング中、機械学習アルゴリズムは、損失関数、つまりモデルの予測のエラーを測定する数学的方程式に応じて、その重みを繰り返し更新します。

トレーニングの目標は、勾配降下などの手法を通じて損失関数を最小限に抑えることです。学習率は、モデルがトレーニング中に重みを更新するペースを設定します。

モデルの重みの構成は、その知識表現です。モデルがトレーニング用データをどのように理解しているかを数学的に反映しています。モデルが重量を大幅に調整して、新しい値が以前のタスクにもはや関連性がないようにすると、それらのタスクを実行する能力が失われます。新しいタスクを学ぶ過程で、モデルは「壊滅的に」、または古いタスクにアプローチする方法を完全に忘れています。

ニューラル・ネットワークが忘れる仕組み

ニューラル・ネットワークは、人間の脳のニューロンを模倣する相互接続されたノードで構成されています。学習するとき、脳はシナプス、または新皮質のニューロン間のつながりを作り出します。これは、高レベルの認知の原因となる脳の領域です。一方、海馬は、短期的な記憶を長期的な記憶に変換し、知識を保存する役割があります。

神経科学の分野にはまだ脳についてたくさんのことが解明されていませんが、脳が内部の最適化に優れていることは知っています。神経可塑性、または脳の可塑性は、継続的な学習のために自分自身を再構築する脳の能力を指します。使用されるシナプス接続はより強くなりますが、使用されるものはより頻繁に枯れ、最終的に消えます。

可塑性は、外傷性脳損傷を受けた後、発話や動きなど、失われた能力を取り戻すことを可能にするものです。神経可塑性がなければ、人間は成長するにつれて学ぶことができません。赤ちゃんと幼い子どもの脳は可塑性が高くなっているため、典型的な大人と比較して言語を非常に簡単に学ぶことができます。

人工ニューラル・ネットワークは、脳が新しいシナプス接続を忘れているのと同じように、新しいデータに応じて体重を調整するという点で同様に機能します。ニューラル・ネットワークの入力と出力の間の隠された層は、時間とともにシフトする可能性があります。ニューラル.・ネットワークが以前の知識をめぐる新しいデータを過剰に拡大すると、自分の重みを過剰に調整する可能性があります。すると、知識を拡大するのではなく、モデルは以前の知識を新しいデータに効果的に置き換えます。

IBMお客様事例

お客様のビジネス課題（顧客満足度の向上、営業力強化、コスト削減、業務改善、セキュリティー強化、システム運用管理の改善、グローバル展開、社会貢献など）を解決した多岐にわたる事例のご紹介です。

破滅的忘却の影響

破壊的忘却は、生成AIアプリに使用されるものなど、機械学習モデルの性能に大きな影響を与える可能性があります。モデルは新しいユースケースに適用されるため、体重が変化するにつれてモデル・ドリフトを経験し、最終的に破壊的忘却に至るかもしれません。

破壊的忘却は次の場面で悪影響を与える可能性があります：

モデル・トレーニングとリソースの使用：基礎知識を忘れるモデルは再訓練する必要があります。最先端の生成AIサービスを可能にするLLMのトレーニングには、コンピューティング・リソースだけでなく、LLMを収容するハイパースケールのデータセンターを運営するための電力や水道も必要で、数百万ドルの費用がかかります。
モデルのデプロイメントとAIアプリケーションの保守：モデルの性能が低下すると、それを呼び出すアプリケーションの性能も低下します。また、モデルが現地の状況に適応しなければならないエッジのデプロイメントでは、破壊的忘却のリスクが高まる可能性があります。
自律学習：体験学習システムは、時間の経過とともに破壊的忘却の影響を受けるかもしれません。基本的な知識の喪失により、これらのシステムの順応性や信頼性、一貫性が低下する可能性があります。ロボット工学と自動運転の自動車では、こうした影響は特に危険かもしれません。

破滅的忘却を克服する

研究者や他の専門家は、破壊的忘却に対抗するためのさまざまな技術を提案しています。James KirkpatrickおよびAndrei A. Rusiらが2017年に公開した画期的な論文では、古いタスクに関連する重みに対する学習率の低下に基づく手法を掘り下げました。2025年には、別のコンピューター科学者グループが、破壊的忘却を克服するためのバックプロパゲーションの使用について調査しました（脚注：https：//arxiv.org/abs/2501.01045#）。

破壊的忘却を克服するためのその他の手法は次のとおりです。

正規化
アーキテクチュラル・ソリューション
アンサンブル手法
リハーサル手法
メモリー拡張ニューラル・ネットワーク（MANN）

正則化

正則化は、バイアスを増やすリスクでモデルをより一般化できるようにする一連の手法であり、新しいデータにより簡単に適応します。Elastic weight consolidation（EWC）は、古いタスクにとって重要な体重をモデル化するための調整に対して損失関数にペナルティを追加するような手法の1つです。

シナプス・インテリジェンス同様に動作し、モデルの変化を妨げます。どちらの手法でも、モデルが以前の知識を失う可能性が低くなります。

アーキテクチュラル・ソリューション

モデル・アーキテクチャーは、持っている層数やノードの接続方法など、ニューラル.・ネットワークの構造を説明しています。各層は、予測や特徴抽出など、AIワークフローの異なる関数専用です。

プログレッシブ・ニューラル.・ネットワーク（PNN）以前の役割に使用されたネットワークの接続を保持しながら、新しいタスクにネットワークを追加します。このモデルは、すべてのネットワークのアウトプットを組み合わせており、新しいタスクに取り組む場合でも、古い知識を活用します。

他のネットワークは、マルチタスク中にダイナミック重量平均（DWA）を使用して、トレーニング中にモデルの重みを動的に調整するために使用されます。DWAを使用すると、モデルがさまざまなタスクに柔軟に適応することができます。

アンサンブル方式

アンサンブル方式は、複数のモデルの出力を組み合わせて、より信頼できる結果を得られます。ライフロング・ラーニング・フォレストは、新しいタスクに新しい森林や決定木を追加するランダム・フォレスト・モデルです。これは、ワークロードの拡大に応じてPNNが新しいネットワークを追加する方法と似ています。

一方、コンパートメント化モジュール式アーキテクチャーは、新しいデータがネットワークの残りの部分を汚染するのを防ぐことができます。タスク固有のモジュールは、必要に応じてアクティブになり、使用されていないときに獲得した知識を保存します。

リハーサル手法

リハーサル手法は、新しいタスクのトレーニング中にモデルを古いデータにさらし、モデルが以前に学んだことを破壊的に忘却しないようにします。Experience Replayは、モデルが過去の経験を別のデータセットに保存する強化学習手法であり、トレーニング中にこのメモリーからランダムにサンプリングします。

メモリ拡張ニューラル.・ネットワーク（MANN）

メモリー拡張ニューラル・ネットワークとは、ニューラル・ネットワークと外部メモリー・ストレージを組み合わせた有望なアーキテクチャーです。ユーザー・プロンプトなどの入力シーケンスを処理すると、メモリー拡張ニューラル・ネットワークはメモリーから読み書きできます。多くは、各タスクに最も関連するメモリー・コンポーネントを分離するために注意メカニズムを使用します。

Gradient episodic memory（GEM）は、AIモデルが過去の経験を保存およびリコールして新しいタスクを通知し、以前に獲得した知識を保存できるメモリー拡張ニューラル・ネットワークの例です。