읽기 소요 시간
1989년 Michael McCloskey와 Neal J. Cohen이 처음 관찰한 치명적 망각1은 머신 러닝 알고리즘이 새로운 데이터 세트로 적응하면서 발생합니다. 대형 언어 모델(LLM) 등의 딥 러닝 모델 훈련은 모델에 데이터를 입력하고 이에 맞추어 가중치를 업데이트하는 과정을 포함합니다. 2023년 발표된 연구2에 따르면, 치명적 망각은 작은 모델보다 큰 모델에서 더 심각하게 나타납니다.
모델의 파라미터라고도 알려진 네트워크 가중치는 학습 데이터 세트 내의 패턴과 관계를 포착하기 위해 모델이 사용하는 내부 규칙 세트입니다. 훈련 중에 머신 러닝 알고리즘은 손실 함수에 따라 가중치를 반복적으로 업데이트합니다. 손실 함수는 모델 예측의 오차를 측정하는 수학적 방정식입니다.
훈련의 목적은 경사 하강법과 같은 방법을 통해 손실 함수를 최소화하는 것입니다. 학습률은 훈련 중에 모델이 가중치를 업데이트하는 속도를 설정합니다.
모델의 가중치 구성은 모델이 학습 데이터를 이해하는 방식을 수학적으로 반영하는 지식 표현입니다. 모델이 가중치를 크게 조정하여 새로운 값이 이전 작업과 더 이상 관련이 없게 되면, 해당 작업을 수행할 수 있는 능력을 잃게 됩니다. 새로운 작업을 학습하는 과정에서 모델은 이전 작업을 처리하는 방법을 “치명적으로” 또는 완전히 잊어버린 것입니다.
신경망은 인간 뇌의 뉴런을 모방한 상호 연결된 노드들로 구성되어 있습니다. 학습 시, 뇌는 대뇌피질이라는 고차원 인지를 담당하는 영역의 뉴런들 간에 시냅스 또는 연결을 생성합니다. 한편, 해마는 단기 기억을 장기 기억으로 전환하고 지식을 보존하는 역할을 합니다.
신경과학 분야는 여전히 뇌에 대해 많은 것을 밝혀야 하지만, 뇌가 내부 최적화에 매우 능하다는 것은 알려져 있습니다. 신경가소성, 또는 뇌의 가소성이란 지속적인 학습을 위해 뇌가 스스로를 재구성하는 능력을 의미합니다. 더 자주 사용되는 시냅스 연결은 더 강해지고, 덜 사용되는 연결은 약해지며 결국 사라집니다.
가소성 덕분에 사람들은 외상성 뇌손상을 입은 후에도 언어 또는 운동 능력 같은 상실된 기능을 회복할 수 있습니다. 신경가소성이 없다면, 인간은 성장하면서 학습할 수 없습니다. 영아와 어린이의 뇌는 더 큰 가소성을 가지므로 일반 성인에 비해 언어를 훨씬 쉽게 배울 수 있습니다.
인공 신경망도 새로운 데이터에 반응하여 가중치를 조정한다는 점에서 뇌가 새로운 시냅스를 형성하는 방식과 유사하게 작동합니다. 신경망의 입력과 출력 사이의 은닉층은 시간이 지나면서 변화할 수 있습니다. 신경망이 이전 지식보다 새로운 데이터를 과도하게 우선시하면 가중치를 과도하게 조정할 수 있으며, 이로 인해 지식이 확장되기보다는 기존 지식이 새로운 데이터로 대체되는 결과가 발생합니다.
치명적인 망각은 생성형 AI 앱 등에 사용되는 머신 러닝 모델의 성능에 심각한 영향을 줄 수 있습니다. 모델이 새로운 사용 사례에 적용됨에 따라 가중치가 이동하면서 모델 드리프트가 발생하고 결국에는 치명적인 망각이 발생할 수 있습니다.
치명적인 망각은 다음과 같은 영역에 부정적인 영향을 미칠 수 있습니다.
모델 교육 및 리소스 사용: 기본 지식을 잊어버린 모델은 재교육을 받아야 합니다. 최신 생성형 AI 서비스를 지원하는 대형 언어 모델(LLM)의 훈련에는 수백만 달러의 비용이 들며, 여기에는 컴퓨팅 리소스뿐 아니라 이를 호스팅하는 하이퍼스케일 데이터 센터의 전기 및 냉각을 위한 물까지 포함됩니다.
모델 배포 및 AI 앱 유지보수: 모델 성능이 저하되면 해당 모델을 호출하는 앱도 성능 문제가 발생할 수 있습니다. 모델이 지역 상황에 적응해야 하는 엣지 배포 환경에서는 치명적인 망각의 위험이 더욱 커질 수 있습니다.
자율 학습: 경험 기반 학습 시스템은 시간이 지나면서 치명적인 망각 현상을 겪을 수 있습니다. 기본 지식의 손실로 인해 이러한 시스템은 적응력, 신뢰성, 일관성이 떨어질 수 있습니다. 로보틱 및 자율 주행 자동차 분야에서는 이러한 영향이 특히 위험할 수 있습니다.
연구자들과 전문가들은 치명적인 망각을 방지하기 위한 다양한 기법을 제안해왔습니다. James Kirkpatrick, Andrei A. Rusi 등이 2017년에 발표한 획기적인 논문에서는 이전 작업과 관련된 가중치의 학습률을 늦추는 방식의 해결책을 제안했습니다. 2025년에는 또 다른 컴퓨터 과학자 그룹이 역전파(backpropagation)를 활용해 치명적인 망각을 극복하는 방법을 연구했습니다(각주: https://arxiv.org/abs/2501.01045#).
치명적인 망각을 극복하기 위한 다른 기법으로는 다음과 같은 것들이 있습니다.
정규화
아키텍처 기반 솔루션
앙상블 방법
리허설 기법
메모리 증강 신경망(MANN)
정규화는 모델이 새로운 데이터에 더 쉽게 적응할 수 있도록 일반화 능력을 높이는 기법 모음이지만, 편향이 증가할 수 있는 위험이 있습니다. 탄성 가중치 통합(EWC)은 그런 기법 중 하나로, 이전 작업에 중요한 가중치를 조정할 경우 손실 함수에 패널티를 부여합니다.
시냅스 지능도 비슷한 방식으로 작동하여 모델이 주요 파라미터를 변경하지 않도록 억제합니다. 이 두 가지 기법 모두 모델이 이전 지식을 잃지 않도록 도와줍니다.
모델 아키텍처는 신경망의 구조를 설명하며, 이는 신경망이 가진 층의 수와 노드들이 연결되는 방식을 포함합니다. 각 층은 예측이나 특징 추출과 같은 AI 워크플로의 서로 다른 기능을 담당합니다.
점진적 신경망(PNN)은 이전 작업에 사용된 네트워크의 연결을 유지하면서 새로운 작업을 위한 네트워크를 추가합니다. 이 모델은 모든 네트워크의 아웃풋을 통합하여, 새로운 작업을 수행할 때도 기존 지식을 활용할 수 있게 합니다.
다른 네트워크는 다중 작업 학습 중에 동적 가중 평균(DWA)을 사용하여 훈련 도중 모델의 가중치를 동적으로 조정합니다. DWA는 모델이 다양한 작업에 유연하게 적응할 수 있도록 해줍니다.
앙상블 기법은 여러 모델의 출력을 결합하여 더 신뢰할 수 있는 결과를 도출합니다. 평생 학습 포레스트는 새로운 작업에 대해 새로운 포레스트나 결정 트리를 추가하는 랜덤 포레스트 모델로, 이는 PNN이 작업이 늘어남에 따라 새로운 네트워크를 추가하는 방식과 유사합니다.
한편, 구획화된 모듈형 아키텍처는 새로운 데이터가 네트워크의 나머지 부분에 영향을 주는 것을 방지할 수 있습니다. 작업별 모듈은 필요할 때만 활성화되며, 사용하지 않을 때는 습득한 지식을 보존합니다.
리허설 기법은 모델이 새로운 작업을 학습하는 동안 이전 데이터를 다시 노출시켜, 기존에 학습한 내용을 망각하지 않도록 돕습니다. 경험 재생은 강화 학습 기법 중 하나로, 모델이 과거의 경험을 별도의 데이터 세트에 저장해두고, 학습 시 이 메모리에서 무작위로 샘플링하는 방식입니다.
메모리 보강 신경망은 신경망에 외부 메모리 저장소를 결합한 유망한 아키텍처입니다. 사용자 입력과 같은 시퀀스를 처리할 때, MANN은 메모리에서 읽고 메모리에 쓸 수 있습니다. 많은 사람들이 주의 메커니즘을 사용하여 작업마다 가장 관련 있는 메모리 요소를 선별합니다.
그라데이션 에피소드 메모리(GEM)는 MANN의 한 예로, AI 모델이 과거의 경험을 저장하고 이를 회상하여 새로운 작업에 활용하며 이전에 습득한 지식을 유지할 수 있도록 합니다.
1. "Catastrophic Interference in Connectionist Networks: The Sequential Learning Problem," McCloskey and Cohen, Psychology of Learning and Motivation, 1989년
2. "An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning", Luo et al, 2025년 1월 5일
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.