지속적 학습이란 무엇인가요?

지속적 학습은 이전에 학습한 작업을 유지하면서 새로운 작업에 대한 모델을 순차적으로 훈련하는 인공 지능(AI) 학습 접근 방식입니다. 모델은 비정상 데이터의 연속적인 스트림에서 점진적으로 학습하며, 학습할 총 작업 수는 미리 알 수 없습니다.

점진적 학습을 통해 모델은 새로운 지식을 습득하고 기존 지식을 잊어버리지 않고 현실 세계의 예측 불가능성에 보조를 맞출 수 있습니다. 비고정 데이터는 데이터 분포가 정적이지 않다는 의미입니다. 성공적으로 구현되면 지속적 학습을 통해 작업별 지식을 유지하고 동적 데이터 분포 전반에 걸쳐 일반화할 수 있는 모델을 만들 수 있습니다.

지속적 학습 모델은 변화하는 환경에 새로운 데이터를 적응적으로 적용하도록 설계되었습니다. 평생 학습이라고도 하는 지속적 학습은 인간이 이미 알고 있는 것을 유지하면서 새로운 것을 배우는 방식과 관련된 신경 과학 개념에서 영감을 받았습니다. 사람이 보드 타는 법을 배우면 자전거 타는 법을 즉시 잊지 않습니다.

지속적 학습과 기존 머신 러닝 비교

기존 머신 러닝 시스템은 대규모 정적 데이터 세트에서 모델을 훈련합니다. 데이터 세트는 모델이 가중치 또는 매개변수를 업데이트하는 동안 모델의 알고리즘을 일괄적으로 통과합니다. 이 모델은 전체 데이터 세트를 여러 번 처리하며, 각 주기는 에포크라고 합니다.

개발자는 딥 러닝 모델의 목적을 미리 파악하고, 학습 목표에 맞게 학습 데이터 세트를 조립하고, 해당 데이터로 모델을 학습시킵니다. 그런 다음 모델을 테스트, 검증 및 배포합니다. 더 많은 데이터로 머신 러닝 모델을 미세 조정하면 새로운 작업에 맞게 성능을 조정할 수 있습니다.

기존의 학습 방식은 현실 세계의 역동성을 충분히 반영하지 못합니다. 지도 학습은 결과가 알려진 정적 데이터 세트를 사용합니다. 비지도 학습을 사용하면 모델이 스스로 데이터를 분류할 수 있지만, 학습 데이터는 여전히 유한하고 변하지 않습니다. 강화 학습도 마찬가지로 안전하고 제약이 있습니다.

기존 학습 방법과 달리 지속적 학습은 인간 두뇌의 가소성을 인공 신경망에 적용하려고 시도합니다. 신경 가소성은 변화하는 상황에 직면할 때 이전 지식을 잊지 않고 학습하면서 적응할 수 있는 뇌의 특성입니다.

일부 유형의 지속적 학습은 여전히 기존의 오프라인 교육과 유사하게 여러 번에 걸친 오프라인 일괄 교육으로 시작됩니다. 온라인 지속적 학습은 단일 패스 데이터 스트림으로만 모델을 학습합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

지속적 학습의 장점

지속적 학습은 심층 신경망이 동적 환경에서 최적화되고 적응하는 데 도움이 됩니다. 기존의 머신 러닝에는 광범위하고 고정된 데이터 세트, 학습을 위한 충분한 시간과 컴퓨팅, 모델의 알려진 목적이 필요합니다. 이러한 요구 사항 중 하나 이상이 충족되지 않으면 지속적 학습이 대안을 제공합니다.

치명적인 망각 완화

소규모 훈련 데이터 세트

데이터 분포 변경

리소스 최적화

노이즈 내성

치명적인 망각 완화

딥 러닝 모델이 새로운 데이터 또는 새로운 분포에 대해 훈련되면 이전 지식을 잃을 수 있습니다. 치명적인 망각으로 알려진 이 현상은 모델이 매개변수를 새 데이터에 과적합시킨 결과입니다. 모델은 새 매개변수가 더 이상 모델의 원래 작업과 관련이 없도록 내부 가중치를 업데이트합니다.

소규모 훈련 데이터 세트

지속적 학습은 AI 모델을 통해 학습 데이터를 점진적으로 스트리밍합니다. 모델에는 일련의 작은 데이터 세트가 제공되며 때로는 단일 샘플로만 구성됩니다. 모델이 이전 학습을 새 작업에 적용하는 전이 학습은 필요한 새 데이터의 양을 최소화하는 데 도움이 됩니다.

데이터 분포 변경

세상은 끊임없이 변화하고 있습니다. 인간과 다른 동물들은 역경 속에서도 성장할 수 있도록 돕는 학습 능력을 발전시켰습니다. 예를 들어, 식량 하나가 떨어지면 다른 음식을 어떻게 먹을 수 있는지 알아내 생존을 보장할 수 있습니다.

그러나 모든 동물이 그렇게 유능한 것은 아닙니다. 코알라는 나무에서 잎을 떼어 접시 위에 쌓아 놓으면 주 먹이인 유칼립투스 잎을 인식하지 못합니다. 코알라는 때때로 다른 나무의 다른 잎을 먹기도 하지만, 먹이를 "나무에 달린 잎"으로만 생각할 수 있습니다. 그들의 매끄러운 두뇌는 이러한 기대에서 벗어날 수 없습니다.

자율 주행 자동차에 사용하기 위한 컴퓨팅 비전 모델을 생각해 보세요. 모델은 도로의 다른 차량뿐만 아니라 보행자, 자전거, 오토바이, 동물 및 위험 요소도 인식할 수 있어야 합니다. 갑작스러운 폭우나 긴급 차량이 경광등과 사이렌을 켜고 접근하는 경우와 같이 변화하는 날씨와 교통 패턴을 완벽하게 감지하고 적응해야 합니다.

언어는 시간이 지남에 따라 변합니다. 자연어 처리(NLP) 모델은 단어의 의미와 사용 방식의 변화를 처리할 수 있어야 합니다. 마찬가지로 로보틱용으로 설계된 모델은 로봇의 환경이 변할 경우 적응할 수 있어야 합니다.

리소스 최적화

AI 모델은 리소스 집약적입니다. 학습하는 데 수백만 달러의 비용이 들고 많은 양의 전기와 물을 소비할 수 있습니다. 새로운 작업이 발생할 때마다 새로운 모델을 배포하는 것이 항상 가능한 것은 아닙니다. 또한 모델의 사용 가능한 메모리에 모든 이전 작업을 보존하는 것도 계산적으로 실현 가능하지 않습니다.

지속적 학습을 통해 대규모 언어 모델(LLM) 및 기타 신경망은 이전 문제를 처리하는 방법을 잊지 않고 변화하는 사용 사례에 적응할 수 있습니다. 기업은 사용하는 각 모델의 잠재적 능력을 확장하여 작동 중인 모델 수를 최소화할 수 있습니다.

노이즈 내성

잘 훈련된 경우 지속적 학습 알고리즘은 실제 값을 정확하게 반영하지 않는 무의미한 데이터 포인트인 노이즈를 무시하면서 관련 데이터를 자신 있게 식별할 수 있어야 합니다. 노이즈는 신호 오류, 측정 오류 및 입력 오류로 인해 발생하며 이상값도 포함합니다. 이상값은 나머지 데이터와 너무 달라서 관련성이 없는 데이터 포인트입니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

지속적 학습의 유형

지속적 학습 과제는 시간 경과에 따라 데이터 스트림이 어떻게 변화하는지에 따라 크게 세 가지 범주로 나눌 수 있습니다¹.

작업 점진적 지속적 학습
도메인 점진적 지속적 학습
클래스 점진적 지속적 학습

작업 점진적 지속적 학습

작업 점진적 학습은 알고리즘이 일련의 다양한 작업을 수행하는 방법을 학습해야 하는 멀티태스크 학습에 대한 단계별 접근 방식입니다. 작업이 서로 충분히 구별되거나 적절한 아웃풋으로 입력에 레이블을 지정하여 알고리즘에 어떤 작업이 예상되는지 명확히 해야 합니다.

과제 점진적 학습의 실제 사례는 일본어, 중국어, 체코어, 스페인어 순으로 말하는 방법을 배우는 것입니다. 일반적으로 화자가 특정 시간에 어떤 언어를 사용해야 하는지는 명확합니다.

작업은 순차적으로 모델에 스트리밍되기 때문에 모델이 학습을 충분히 전달할 수 있도록 하는 것이 과제 중 하나입니다. 또한 총 작업 수가 항상 미리 알려진 것은 아니며, 특히 이미 배포된 모델의 경우 더욱 그렇습니다.

치명적인 망각을 방지하는 것은 당연한 일입니다. 모델이 전이 학습을 적용하도록 하는 것이 작업 점진적 학습 방법론의 진정한 목표입니다.

도메인 점진적 지속적 학습

도메인 점진적 학습은 데이터 분포는 변경되지만 문제 유형은 동일하게 유지되는 문제를 다룹니다. 작업을 둘러싼 조건은 어떤 식으로든 변했지만 잠재적인 아웃풋은 변하지 않았습니다. 작업 점진적 학습과 달리 이 모델은 해결해야 할 특정 작업을 식별할 필요가 없습니다.

예를 들어, 광학 문자 인식(OCR)을 위해 구축된 모델은 다양한 문서 형식과 글꼴 스타일을 인식해야 합니다. 환경이 어떻게 또는 왜 바뀌었는지 아는 것이 중요한 것이 아니라, 환경이 바뀌었다는 사실을 인식하고 그에 관계없이 작업을 완료하는 것이 중요합니다.

일반적으로 모델은 불연속적이고 정적인 데이터 세트에서 훈련되기 때문에 데이터 분포의 변화는 머신 러닝의 오랜 과제입니다. 배포 후 데이터 분포가 변경되면 도메인 점진적 학습을 통해 모델이 성능 손실을 완화할 수 있습니다.

클래스 점진적 지속적 학습

클래스 점진적 학습은 분류기 모델이 점점 더 많은 아웃풋 클래스로 일련의 분류 작업을 수행해야 하는 경우입니다. 모델은 각 인스턴스를 올바르게 해결하는 동시에 이전 인스턴스에서 접한 클래스를 리콜할 수 있어야 합니다.

자동차 또는 트럭으로 차량을 분류하도록 훈련된 모델은 나중에 버스와 오토바이를 식별하도록 요청받을 수 있습니다. 모델은 각 인스턴스의 옵션뿐만 아니라 시간이 지남에 따라 학습한 모든 클래스에 대한 이해를 유지해야 합니다. '자동차 대 트럭'에 대해 학습한 후 나중에 '버스 대 오토바이'가 주어지면 모델은 차량이 자동차인지 버스인지도 성공적으로 결정해야 합니다.

새로운 클래스의 출현으로 인해 기존에 확립된 클래스 간의 구분이 약화될 수 있기 때문에 최첨단 클래스 점진적 학습은 가장 어려운 지속적 학습 과제 중 하나입니다.

지속적 학습 기법

모든 지속적 학습 기법의 목표는 안정성-가소성 딜레마의 균형을 맞추는 것, 즉 이전에 학습한 지식을 유지할 수 있을 만큼 안정적이면서도 새로운 지식을 배양할 수 있을 만큼 가소성 있는 모델을 만드는 것입니다. 연구자들은 지속적 학습에 대한 수많은 접근 방식을 확인했지만, 많은 접근 방식이 다음 세 가지 범주 중 하나로 분류될 수 있습니다.

정규화 기법
매개변수 격리 기법
리플레이 기법

정규화 기법

정규화는 모델이 새로운 데이터에 과적합하는 기능을 제한하는 일련의 기술입니다. 점진적 학습 중에는 모델의 아키텍처를 업데이트할 수 없지만, 큰 모델이 작은 모델을 '가르치는' 지식 증류와 같은 기법을 사용하면 지식을 보존하는 데 도움이 됩니다.

탄력적 가중치 통합(EWC)은 학습 알고리즘의 손실 함수에 페널티를 추가합니다. 손실 함수에 페널티를 추가하여 모델의 파라미터를 급격하게 변경하지 못하도록 제한합니다. 최적화 알고리즘은 손실 함수의 경사를 모델 성능을 벤치마크하는 지표로 사용합니다.

시냅스 인텔리전스(SI)는 각 매개변수의 상대적 중요도에 대한 누적된 이해를 바탕으로 매개변수 업데이트를 제한합니다.

망각 없이 학습(LWF)은 새로운 작업 데이터로 모델을 학습하고 이전 작업의 아웃풋 확률을 보존하여 이전 지식을 유지합니다.

매개변수 격리 기법

매개변수 격리 방법은 모델 아키텍처의 일부를 변경하여 새로운 작업을 수용하는 동시에 이전 작업의 매개변수를 동결합니다. 모델은 기능을 확장하기 위해 자체적으로 재구축되지만 일부 매개변수는 조정할 수 없다는 단점이 있습니다. 후속 훈련은 새 작업에 적합한 매개변수에 대해서만 수행됩니다.

예를 들어, 진행형 신경망(PNN)은 새로운 작업에 대한 작업별 신경망 열을 생성합니다. 다른 열에 병렬로 연결하면 이러한 열이 변경되는 것을 방지하면서 이전 학습이 가능합니다.

리플레이 기법

리플레이 기법은 훈련 활성화 중에 모델을 이전 훈련 데이터 세트의 샘플에 정기적으로 노출하는 것입니다. 리플레이 기반 지속적 학습은 이전 데이터의 샘플을 메모리 버퍼에 저장하고 후속 학습 주기에 통합합니다. 이전 데이터에 계속 노출되면 모델이 새 데이터에 과적합되는 것을 방지할 수 있습니다.

메모리 기술은 안정적으로 효과적이지만 이전 데이터에 정기적으로 액세스해야 하므로 충분한 스토리지 공간이 필요합니다. 민감한 개인 데이터를 사용하는 상황에서도 메모리 기술 구현에 문제가 발생할 수 있습니다.

생성형 리플레이는 생성형 모델을 사용하여 이전 데이터의 샘플을 합성하여 이전 클래스를 잊지 않고 새로운 클래스를 학습해야 하는 분류기와 같이 훈련 중인 모델에 공급합니다.