제로 샷 학습이란 무엇인가요?

작성자

Senior Staff Writer, AI Models

IBM Think

제로 샷 학습이란 무엇인가요?

ZSL(제로샷 학습)은 사전에 해당 카테고리나 개념의 예제를 보지 않고도 객체나 개념을 인식하고 분류하도록 AI 모델을 학습시키는 머신 러닝 시나리오입니다.

분류 또는 회귀를 위한 대부분의 최신 딥러닝 모델은 지도 학습을 통해 학습되며, 이를 위해서는 관련 데이터 클래스의 레이블이 지정된 많은 예제가 필요합니다. 모델은 레이블이 지정된 학습 데이터 세트에 대한 예측을 수행하여 "학습"합니다. 데이터 레이블은 각 학습 예제에 대해 가능한 답의 범위와 정답(또는 실측 자료)을 모두 제공합니다. 여기서 "학습"은 모델의 예측과 실측 자료 간의 차이를 최소화하기 위해 모델 가중치를 조정하는 것을 의미합니다. 이 과정에서 여러 차례의 학습 및 업데이트를 위해 라벨이 지정된 충분한 양의 샘플이 필요합니다.

지도 학습은 강력하지만 일부 실제 시나리오에서는 실용적이지 않습니다. 대량의 데이터 샘플에 주석을 다는 것은 비용과 시간이 많이 소요되며, 희귀 질병이나 새로 발견된 종과 같은 경우 사례가 부족하거나 존재하지 않을 수도 있습니다. 이미지 인식 작업을 고려해보세요. 한 연구에 따르면 인간은 개별적으로 구별할 수 있는 개체 범주를 약 30,000개까지 인식할 수 있습니다.¹ 각 클래스에 대해 레이블이 지정된 데이터에 대해 명시적으로 교육을 받아야 하는 경우 인공 지능 모델이 인간의 능력에 원격으로 접근하는 것은 시간, 비용 및 계산 리소스 측면에서 불가능합니다.

최소한의 학습 오버헤드를 사용해 많은 수의 의미론적 카테고리로 빠르게 일반화할 수 있는 머신 러닝 모델의 필요성으로 인해, 퓨샷 학습(FSL)과 원샷 학습도 포함하는 머신 러닝의 하위 집합인 n샷 학습이 등장했습니다. 퓨샷 학습은 일반적으로 전이 학습 및 메타 학습 기반 방법을 사용하여 레이블이 지정된 몇 가지 학습 예제만으로 새 클래스를 빠르게 인식하도록 모델을 학습시키며, 원샷 학습의 경우 레이블이 지정된 단일 예제를 사용합니다.

모든 n샷 학습과 마찬가지로 제로샷 학습은 특정 알고리즘이나 신경망 아키텍처가 아니라 학습 문제 자체의 본질을 참조합니다. ZSL에서 모델은 본 적이 없는 클래스에 대해 레이블이 지정된 예제를 학습하지 않고 학습 후 예측을 요청받습니다.

이러한 문제 설정은 해당 클래스가 학습 데이터에 존재했는지(레이블이 지정되지 않았어도) 여부를 고려하지 않습니다. 예를 들어, 일부 대규모 언어 모델(LLM)은 본 적이 없는 데이터 클래스에 대한 부수적인 참조나 지식을 포함할 수 있는 방대한 텍스트 코퍼스를 기반으로 자기 지도 학습을 통해 사전 학습하기 때문에 ZSL 작업에 매우 적합합니다. 레이블이 지정된 예제를 사용하지 않는 ZSL 방법은 모두 이러한 보조 지식을 사용하여 예측을 수행합니다.

다재다능함과 광범위한 사용 사례를 감안할 때 제로샷 학습은 데이터 과학, 특히 컴퓨팅 비전 및 자연어 처리(NLP) 분야에서 점점 더 주목받는 연구 분야가 되었습니다.

일반화된 제로샷 학습(GZSL)

기존 ZSL 설정에서 모델은 보이지 않는 데이터 클래스의 샘플이 포함된 데이터 세트에서 테스트됩니다. 제로샷 방법론을 개발하고 검증하는 데 유용하지만, 가장 일반적인 실제 조건을 반영하지는 않습니다: 일반화된 제로샷 학습(GZSL)은 모델이 분류해야 하는 데이터 포인트가 보이지 않는 클래스 또는 보이는 클래스(모델이 레이블이 지정된 예제에서 이미 "학습"한 클래스)에 속할 수 있는 특정 제로샷 학습 문제를 나타냅니다.

GZSL은 분류자가 아직 노출되지 않은 보이지 않는 클래스보다 학습에서 본 클래스에 대한 예측을 편향시키는 경향이라는 추가적인 문제를 극복해야 합니다. 따라서 GZSL은 이러한 편향을 완화하기 위해 추가 기술이 필요한 경우가 많습니다.

제로샷 학습은 어떻게 작동하나요?

모델이 학습하도록 훈련되는 범주의 레이블이 지정된 예가 없는 경우 제로샷 학습 문제는 텍스트 설명, 속성, 포함된 표현 또는 당면한 작업과 관련된 기타 의미 정보와 같은 보조 정보를 사용합니다.

제로 샷 학습 기법은 클래스 간의 결정 경계를 직접 모델링하는 대신, 일반적으로 주어진 입력이 특정 클래스에 속할 가능성을 나타내는 확률 벡터를 출력합니다. GZSL 메서드는 샘플이 보이는 클래스에 속하는지 아니면 새로운 클래스에 속하는지 먼저 결정한 다음 그에 따라 진행하는 예비 판별자를 추가할 수 있습니다.

레이블 이해

지도 학습과 FSL(퓨샷 러닝)에서 모델은 각 클래스의 레이블이 지정된 하나 이상의 예제를 직접 관찰하여 다양한 클래스를 인식하는 방법을 학습합니다. 이를 안내하는 이러한 명시적인 주석이 없으면 제로샷 학습에는 레이블의 의미에 대한 더 기본적인 이해가 필요합니다.

간단한 비유를 위해 어린이가 새가 어떻게 생겼는지 배우고 싶어한다고 상상해 보세요. 지도 학습(supervised learning, FSL)과 유사한 과정에서, 아이는 동물 그림책에서 "새"라고 표시된 이미지를 보면서 학습합니다. 앞으로 그녀는 이미 본 새 이미지와 닮았기 때문에 새를 알아볼 것입니다. 그러나 ZSL 시나리오에서는 이러한 레이블이 지정된 예제를 사용할 수 없습니다. 대신, 그 아이는 새에 관한 백과사전 항목을 읽고 그것들이 공중을 날 수 있는 깃털, 부리 그리고 날개를 가진 중소형 동물이라는 것을 배울 수 있다. 그러면 그녀는 새의 개념을 배웠기 때문에 이전에 새를 본 적이 없더라도 현실 세계에서 새를 알아볼 수 있습니다.

앞서 언급한 바와 같이 LLM은 데이터 클래스의 이름을 지정하는 데 사용되는 단어의 의미를 근본적으로 이해하는 능력에서 비롯된 ZSL의 자연스러운 잠재력을 입증했습니다.

전이 학습

학습에 필요한 시간 및 리소스와 본 적이 없는 클래스를 식별하는 데 필요한 보조 정보의 양을 최소화하기 위해, ZSL은 모델을 처음부터 학습시키지 않고 학습한 모델을 새 작업에 재사용하는 전이 학습을 활용하는 경우가 많습니다.

전이 학습은 클래스와 샘플을 시맨틱 임베딩으로 표현하는 ZSL 방법에서 두드러지게 사용됩니다. 예를 들어, 제로샷 텍스트 분류를 수행하는 모델은 이미 방대한 언어 데이터 코퍼스에 대해 사전 학습된 BERT와 같은 트랜스포머 기반 모델을 사용하여 단어를 벡터 임베딩으로 변환할 수 있습니다. 마찬가지로 제로샷 이미지 분류 모델은 분류에 정보를 제공할 수 있는 중요한 이미지 특징을 식별하는 데 도움이 되는 필터 가중치를 이미 학습했기 때문에, ResNet 또는 U-Net과 같은 사전 학습된 콘볼루션 신경망(CNN)의 용도를 변경할 수 있습니다.

전이 학습은 본 적이 있는 클래스에 대한 모델의 지식을 본 적이 없는 클래스에 대한 보조 정보로 사용할 수 있는 GSZL에서 특히 중요합니다. 예를 들어, 객체 감지 모델이 이미 회색곰을 인식하는 방법을 학습했다고 가정해 보겠습니다. 북극곰의 라벨이 붙은 예제를 제공하여 북극곰을 인식하도록 학습시키는 것이 아니라, 대신 북극곰이 흰 털을 가진 회색곰처럼 보인다는 것을 이해하도록 학습시킬 수 있습니다.

학습한 지식을 새로운 작업과 다른 수업에 적용하는 이 과정을 도메인 적응이라고도 합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

속성 기반 메소드

속성 기반 제로샷 학습 방법은 기존의 지도 학습과 유사한 논리를 사용합니다. 각 데이터 클래스의 레이블이 지정된 예제에 대해 직접 분류기를 학습시키는 것이 아니라, 특정 데이터 클래스의 색상, 모양 또는 기타 주요 특성과 같은 레이블이 지정된 특징에 대해 분류기를 학습시킵니다.

대상 클래스가 학습에서 직접적으로 보이지 않더라도 해당 속성이 학습 데이터에 존재하는 속성 클래스와 유사하면 보이지 않는 클래스의 레이블을 유추할 수 있습니다.

분류자가 모든 관련 기능을 학습한 후에는 다양한 클래스의 의미 체계 설명을 활용할 수 있습니다. 이 접근 방식은 대상 클래스의 레이블이 지정된 예제를 사용할 수 없지만 해당 특성의 레이블이 지정된 예제는 비교적 풍부할 때 특히 유용합니다. 예를 들어, 모델은 호랑이와 얼룩말의 이미지에서 "줄무늬"를 학습할 수 있습니다. 카나리아의 이미지에서 "노란색"을 학습하고 파리의 이미지에서 "날아다니는 곤충"을 학습할 수 있습니다. 이 모델은 이제 훈련 세트에 꿀벌 이미지가 없음에도 불구하고 꿀벌을 학습된 특징의 조합인 "노란색 줄무늬 날아다니는 곤충"으로 이해할 수 있기 때문에 꿀벌의 제로샷 분류를 수행할 수 있습니다.

적절한 상황에서 다재다능하고 유용하지만 속성 기반 ZSL 방법에는 다음과 같은 중요한 단점이 있습니다.

그들은 모든 클래스가 단일 속성 벡터로 설명될 수 있다는 주요 가정에 의존하지만 항상 그런 것은 아닙니다. Mall, Hariharan 및 Bala는 색상과 깃털 패턴이 성별, 연령 및 번식 상태에 따라 달라지는 American Goldfinch와 색상, 표면 및 공식적인 존재 여부(또는 부재)가 매우 다양한 야외 배드민턴 코트의 예를 인용합니다.²
개별 특성의 예제에 주석을 추가하는 것은 지정된 클래스의 예제에 주석을 추가하는 것만큼 비용과 시간이 많이 소요될 수 있습니다.
특성 기반 메서드는 특성을 알 수 없거나 사용 가능한 샘플에 없는 클래스로 일반화할 수 없습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

임베딩 기반 방법

많은 ZSL 방법은 클래스와 샘플을 시맨틱 임베딩, 즉 서로 다른 데이터 포인트의 기능이나 의미(및 관계)를 반영하는 데 사용할 수 있는 벡터 표현으로 나타냅니다. 그런 다음 지정된 샘플의 시맨틱 임베딩과 분류 가능한 다른 클래스의 임베딩 간의 유사성을 측정하여 분류가 결정됩니다.

데이터 포인트가 임베딩으로 표현되면 K-최근접 이웃 알고리즘과 유사한 원리를 사용하여 분류가 결정됩니다. 코사인 유사도, 유클리드 거리 또는 바서슈타인 거리와 같은 일부 거리 메트릭이 각 잠재적 클래스의 임베딩에 대한 인풋 데이터 임베딩의 근접성을 측정하는 데 사용됩니다. 해당 데이터 샘플의 임베딩이 지정된 클래스의 임베딩에 가까울수록(즉 더 유사할수록) 해당 클래스에 속할 가능성이 높아집니다.

이러한 임베딩은 여러 가지 방법으로 생성할 수 있습니다. 예를 들면 다음과 같습니다.

BERT, word2vec 또는 GloVe(글로벌 벡터)와 같은 사전 학습된 모델 및 알고리즘은 단어(예: 클래스 레이블 이름)에 대한 벡터 임베딩을 쉽게 출력할 수 있습니다.
마찬가지로, ResNet과 같은 사전 훈련된 CNN의 인코더 네트워크(또는 ViT와 같은 트랜스포머 기반 이미지 인코더)는 이미지에 대해 동일한 작업을 수행할 수 있습니다.
오토인코더는 샘플이나 클래스의 잠재 표현(주어진 데이터 인풋에서 가장 구별되는 변수를 분리하는 압축된 저차원 인코딩)을 학습할 수 있습니다.
전이 학습 대신, 관련 학습 데이터(예: 레이블이 지정된 예제를 사용할 수 있는 관련 데이터 클래스의 샘플)에 대해 처음부터 새롭게 다양한 신경망 아키텍처를 학습시켜 효과적인 임베딩을 출력할 수 있습니다.

공동 임베딩 공간

임베딩 기반 방법은 일반적으로 다양한 형태(또는 모달리티)의 데이터에 대한 보조 정보와 벡터 공간 임베딩(예: 클래스 레이블을 설명하는 단어 임베딩과 해당 클래스에 속할 수 있는 사진의 이미지 임베딩)을 처리하기 때문에 서로 다른 데이터 유형의 임베딩을 쉽게 비교할 수 있는 방법이 필요합니다.

비교하려면 다양한 유형과 크기의 벡터 임베딩을 정규화하고 공유된 고차원 의미 공간인 공동 임베딩 공간에 투영해야 하며, 여기에서 동일한 조건 설정으로 비교할 수 있습니다. 추상적으로 말하면, 분모가 서로 다른 분수를 비교하기 위해 최소 공통 분모를 찾는 개념과 유사하게 작동합니다. 다양한 임베딩 소스 간의 강력한 상관 매핑은 모델의 일반화 성능에 필수적입니다.³

일부 제로샷 학습 모델은 대조 학습을 사용하여 서로 다른 모델 또는 알고리즘의 시맨틱 임베딩을 더 효과적으로 정렬합니다. 대조 학습은 시맨틱 임베딩 쌍을 사용하여 "양성" 쌍(예: 개 이미지 임베딩과 "개"라는 단어 임베딩) 사이의 거리를 최소화하고 "음성"(일치하지 않는) 쌍 사이의 거리를 최대화하도록 모델을 학습시킵니다.

공동 엔드투엔드 학습

다양한 모델의 임베딩 간 정렬을 보장하는 효과적인 방법 중 하나는 해당 모델을 나란히 함께 학습하는 것입니다. 예를 들어, OpenAI의 Contrastive Language-Image Pre-training(CLIP) 모델은 인터넷에서 가져온 4억 개 이상의 이미지-캡션 쌍으로 구성된, 레이블이 지정되지 않은 방대한 데이터 세트를 기반으로 학습했습니다.⁴

이러한 페어링은 이미지 인코더와 텍스트 인코더를 처음부터 공동으로 학습하는 데 사용되었으며, 대조 손실을 사용하여 이미지 임베딩과 해당 캡션에 대한 임베딩 간의 코사인 유사성을 최대화했습니다. 이를 통해 제로샷 분류를 위한 자연스러운 능력을 얻을 수 있었습니다: 미세 조정 없이 CLIP은 27개의 서로 다른 이미지 분류 데이터 세트에서 강력한 분류 성능을 보여주었습니다.

생성형 기반 방법

생성형 AI는 레이블이 지정된 예제 없이 제로샷 학습 문제에 대한 대안 해결책으로 보조 정보를 사용하여 샘플 데이터를 생성하는 방법을 제공합니다.

생성 기반 방법은 보이지 않는 클래스의 의미론적 표현을 활용하여 샘플을 생성할 수 있으며, 이 샘플은 레이블이 지정되면 학습 문제를 표준 지도 학습으로 변환하는 데 사용할 수 있습니다. 레이블이 지정되지 않은 샘플(또는 밀접하게 관련된 본 클래스의 표현)은 샘플 합성에 도움이 될 수 있지만 제로 샷 설정에서 이 프로세스는 주로 의미론적 설명에 의존하는 경우가 많습니다.

LLM은 고품질 설명을 생성하는 데 필요한 작업을 줄일 수 있습니다. DALL-E 3 텍스트-이미지 생성 모델에 대한 릴리스 정보에서 OpenAI는 합성 캡션이 "실측 자료" 캡션에 비해 모델 성능을 향상시켰다고 언급했습니다.⁵

변이형 오토인코더

변이형 오토인코더(VAE)는 학습 데이터의 잠재 표현을 잠재 변수의 매개변수화된 분포로 학습하는 자기 지도 생성형 모델입니다. 즉, 데이터 클래스를 정적 시맨틱 임베딩이 아닌 잠재 공간의 확률 분포로 인코딩하는 방법을 학습합니다. 그런 다음 디코더를 사용하여 해당 잠재 공간에서 무작위 샘플을 생성할 수 있습니다. 조건부 VAE(CVAE)는 선택한 변수의 확률을 극대화하여 합성된 샘플의 속성을 제한할 수 있습니다.

생성적 적대적 네트워크(GANS)

생성적 적대 신경망(GANS )은 적대적 제로섬 게임에서 공동으로 훈련된 두 개의 신경망, 즉 의미론적 속성과 가우스 노이즈를 사용하여 샘플을 합성하는 생성기와 샘플이 진짜인지 "가짜"(즉, 생성기에 의해 합성됨)인지 결정하는 판별자로 구성됩니다. 판별기의 피드백은 판별기가 더 이상 실제 샘플과 가짜 샘플을 구별할 수 없을 때까지 생성기를 훈련하는 데 사용됩니다. 2014년 원본 GAN 논문 이후 이 프로세스를 개선하고 안정화하기 위해 여러 가지 수정 사항이 개발되었습니다.