업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
분류 또는 회귀를 위한 대부분의 최신 딥러닝 모델은 지도 학습을 통해 학습되며, 이를 위해서는 관련 데이터 클래스의 레이블이 지정된 많은 예제가 필요합니다. 모델은 레이블이 지정된 학습 데이터 세트에 대한 예측을 수행하여 "학습"합니다. 데이터 레이블은 각 학습 예제에 대해 가능한 답의 범위와 정답(또는 실측 자료)을 모두 제공합니다. 여기서 "학습"은 모델의 예측과 실측 자료 간의 차이를 최소화하기 위해 모델 가중치를 조정하는 것을 의미합니다. 이 과정에서 여러 차례의 학습 및 업데이트를 위해 라벨이 지정된 충분한 양의 샘플이 필요합니다.
지도 학습은 강력하지만 일부 실제 시나리오에서는 실용적이지 않습니다. 대량의 데이터 샘플에 주석을 다는 것은 비용과 시간이 많이 소요되며, 희귀 질병이나 새로 발견된 종과 같은 경우 사례가 부족하거나 존재하지 않을 수도 있습니다. 이미지 인식 작업을 고려해보세요. 한 연구에 따르면 인간은 개별적으로 구별할 수 있는 개체 범주를 약 30,000개까지 인식할 수 있습니다.1 각 클래스에 대해 레이블이 지정된 데이터에 대해 명시적으로 교육을 받아야 하는 경우 인공 지능 모델이 인간의 능력에 원격으로 접근하는 것은 시간, 비용 및 계산 리소스 측면에서 불가능합니다.
최소한의 학습 오버헤드를 사용해 많은 수의 의미론적 카테고리로 빠르게 일반화할 수 있는 머신 러닝 모델의 필요성으로 인해, 퓨샷 학습(FSL)과 원샷 학습도 포함하는 머신 러닝의 하위 집합인 n샷 학습이 등장했습니다. 퓨샷 학습은 일반적으로 전이 학습 및 메타 학습 기반 방법을 사용하여 레이블이 지정된 몇 가지 학습 예제만으로 새 클래스를 빠르게 인식하도록 모델을 학습시키며, 원샷 학습의 경우 레이블이 지정된 단일 예제를 사용합니다.
모든 n샷 학습과 마찬가지로 제로샷 학습은 특정 알고리즘이나 신경망 아키텍처가 아니라 학습 문제 자체의 본질을 참조합니다. ZSL에서 모델은 본 적이 없는 클래스에 대해 레이블이 지정된 예제를 학습하지 않고 학습 후 예측을 요청받습니다.
이러한 문제 설정은 해당 클래스가 학습 데이터에 존재했는지(레이블이 지정되지 않았어도) 여부를 고려하지 않습니다. 예를 들어, 일부 대규모 언어 모델(LLM)은 본 적이 없는 데이터 클래스에 대한 부수적인 참조나 지식을 포함할 수 있는 방대한 텍스트 코퍼스를 기반으로 자기 지도 학습을 통해 사전 학습하기 때문에 ZSL 작업에 매우 적합합니다. 레이블이 지정된 예제를 사용하지 않는 ZSL 방법은 모두 이러한 보조 지식을 사용하여 예측을 수행합니다.
다재다능함과 광범위한 사용 사례를 감안할 때 제로샷 학습은 데이터 과학, 특히 컴퓨팅 비전 및 자연어 처리(NLP) 분야에서 점점 더 주목받는 연구 분야가 되었습니다.
기존 ZSL 설정에서 모델은 보이지 않는 데이터 클래스의 샘플이 포함된 데이터 세트에서 테스트됩니다. 제로샷 방법론을 개발하고 검증하는 데 유용하지만, 가장 일반적인 실제 조건을 반영하지는 않습니다: 일반화된 제로샷 학습(GZSL)은 모델이 분류해야 하는 데이터 포인트가 보이지 않는 클래스 또는 보이는 클래스(모델이 레이블이 지정된 예제에서 이미 "학습"한 클래스)에 속할 수 있는 특정 제로샷 학습 문제를 나타냅니다.
GZSL은 분류자가 아직 노출되지 않은 보이지 않는 클래스보다 학습에서 본 클래스에 대한 예측을 편향시키는 경향이라는 추가적인 문제를 극복해야 합니다. 따라서 GZSL은 이러한 편향을 완화하기 위해 추가 기술이 필요한 경우가 많습니다.
모델이 학습하도록 훈련되는 범주의 레이블이 지정된 예가 없는 경우 제로샷 학습 문제는 텍스트 설명, 속성, 포함된 표현 또는 당면한 작업과 관련된 기타 의미 정보와 같은 보조 정보를 사용합니다.
제로 샷 학습 기법은 클래스 간의 결정 경계를 직접 모델링하는 대신, 일반적으로 주어진 입력이 특정 클래스에 속할 가능성을 나타내는 확률 벡터를 출력합니다. GZSL 메서드는 샘플이 보이는 클래스에 속하는지 아니면 새로운 클래스에 속하는지 먼저 결정한 다음 그에 따라 진행하는 예비 판별자를 추가할 수 있습니다.
지도 학습과 FSL(퓨샷 러닝)에서 모델은 각 클래스의 레이블이 지정된 하나 이상의 예제를 직접 관찰하여 다양한 클래스를 인식하는 방법을 학습합니다. 이를 안내하는 이러한 명시적인 주석이 없으면 제로샷 학습에는 레이블의 의미에 대한 더 기본적인 이해가 필요합니다.
간단한 비유를 위해 어린이가 새가 어떻게 생겼는지 배우고 싶어한다고 상상해 보세요. 지도 학습(supervised learning, FSL)과 유사한 과정에서, 아이는 동물 그림책에서 "새"라고 표시된 이미지를 보면서 학습합니다. 앞으로 그녀는 이미 본 새 이미지와 닮았기 때문에 새를 알아볼 것입니다. 그러나 ZSL 시나리오에서는 이러한 레이블이 지정된 예제를 사용할 수 없습니다. 대신, 그 아이는 새에 관한 백과사전 항목을 읽고 그것들이 공중을 날 수 있는 깃털, 부리 그리고 날개를 가진 중소형 동물이라는 것을 배울 수 있다. 그러면 그녀는 새의 개념을 배웠기 때문에 이전에 새를 본 적이 없더라도 현실 세계에서 새를 알아볼 수 있습니다.
앞서 언급한 바와 같이 LLM은 데이터 클래스의 이름을 지정하는 데 사용되는 단어의 의미를 근본적으로 이해하는 능력에서 비롯된 ZSL의 자연스러운 잠재력을 입증했습니다.
학습에 필요한 시간 및 리소스와 본 적이 없는 클래스를 식별하는 데 필요한 보조 정보의 양을 최소화하기 위해, ZSL은 모델을 처음부터 학습시키지 않고 학습한 모델을 새 작업에 재사용하는 전이 학습을 활용하는 경우가 많습니다.
전이 학습은 클래스와 샘플을 시맨틱 임베딩으로 표현하는 ZSL 방법에서 두드러지게 사용됩니다. 예를 들어, 제로샷 텍스트 분류를 수행하는 모델은 이미 방대한 언어 데이터 코퍼스에 대해 사전 학습된 BERT와 같은 트랜스포머 기반 모델을 사용하여 단어를 벡터 임베딩으로 변환할 수 있습니다. 마찬가지로 제로샷 이미지 분류 모델은 분류에 정보를 제공할 수 있는 중요한 이미지 특징을 식별하는 데 도움이 되는 필터 가중치를 이미 학습했기 때문에, ResNet 또는 U-Net과 같은 사전 학습된 콘볼루션 신경망(CNN)의 용도를 변경할 수 있습니다.
전이 학습은 본 적이 있는 클래스에 대한 모델의 지식을 본 적이 없는 클래스에 대한 보조 정보로 사용할 수 있는 GSZL에서 특히 중요합니다. 예를 들어, 객체 감지 모델이 이미 회색곰을 인식하는 방법을 학습했다고 가정해 보겠습니다. 북극곰의 라벨이 붙은 예제를 제공하여 북극곰을 인식하도록 학습시키는 것이 아니라, 대신 북극곰이 흰 털을 가진 회색곰처럼 보인다는 것을 이해하도록 학습시킬 수 있습니다.
학습한 지식을 새로운 작업과 다른 수업에 적용하는 이 과정을 도메인 적응이라고도 합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
속성 기반 제로샷 학습 방법은 기존의 지도 학습과 유사한 논리를 사용합니다. 각 데이터 클래스의 레이블이 지정된 예제에 대해 직접 분류기를 학습시키는 것이 아니라, 특정 데이터 클래스의 색상, 모양 또는 기타 주요 특성과 같은 레이블이 지정된 특징에 대해 분류기를 학습시킵니다.
대상 클래스가 학습에서 직접적으로 보이지 않더라도 해당 속성이 학습 데이터에 존재하는 속성 클래스와 유사하면 보이지 않는 클래스의 레이블을 유추할 수 있습니다.
분류자가 모든 관련 기능을 학습한 후에는 다양한 클래스의 의미 체계 설명을 활용할 수 있습니다. 이 접근 방식은 대상 클래스의 레이블이 지정된 예제를 사용할 수 없지만 해당 특성의 레이블이 지정된 예제는 비교적 풍부할 때 특히 유용합니다. 예를 들어, 모델은 호랑이와 얼룩말의 이미지에서 "줄무늬"를 학습할 수 있습니다. 카나리아의 이미지에서 "노란색"을 학습하고 파리의 이미지에서 "날아다니는 곤충"을 학습할 수 있습니다. 이 모델은 이제 훈련 세트에 꿀벌 이미지가 없음에도 불구하고 꿀벌을 학습된 특징의 조합인 "노란색 줄무늬 날아다니는 곤충"으로 이해할 수 있기 때문에 꿀벌의 제로샷 분류를 수행할 수 있습니다.
적절한 상황에서 다재다능하고 유용하지만 속성 기반 ZSL 방법에는 다음과 같은 중요한 단점이 있습니다.
많은 ZSL 방법은 클래스와 샘플을 시맨틱 임베딩, 즉 서로 다른 데이터 포인트의 기능이나 의미(및 관계)를 반영하는 데 사용할 수 있는 벡터 표현으로 나타냅니다. 그런 다음 지정된 샘플의 시맨틱 임베딩과 분류 가능한 다른 클래스의 임베딩 간의 유사성을 측정하여 분류가 결정됩니다.
데이터 포인트가 임베딩으로 표현되면 K-최근접 이웃 알고리즘과 유사한 원리를 사용하여 분류가 결정됩니다. 코사인 유사도, 유클리드 거리 또는 바서슈타인 거리와 같은 일부 거리 메트릭이 각 잠재적 클래스의 임베딩에 대한 인풋 데이터 임베딩의 근접성을 측정하는 데 사용됩니다. 해당 데이터 샘플의 임베딩이 지정된 클래스의 임베딩에 가까울수록(즉 더 유사할수록) 해당 클래스에 속할 가능성이 높아집니다.
이러한 임베딩은 여러 가지 방법으로 생성할 수 있습니다. 예를 들면 다음과 같습니다.
BERT, word2vec 또는 GloVe(글로벌 벡터)와 같은 사전 학습된 모델 및 알고리즘은 단어(예: 클래스 레이블 이름)에 대한 벡터 임베딩을 쉽게 출력할 수 있습니다.
마찬가지로, ResNet과 같은 사전 훈련된 CNN의 인코더 네트워크(또는 ViT와 같은 트랜스포머 기반 이미지 인코더)는 이미지에 대해 동일한 작업을 수행할 수 있습니다.
오토인코더는 샘플이나 클래스의 잠재 표현(주어진 데이터 인풋에서 가장 구별되는 변수를 분리하는 압축된 저차원 인코딩)을 학습할 수 있습니다.
전이 학습 대신, 관련 학습 데이터(예: 레이블이 지정된 예제를 사용할 수 있는 관련 데이터 클래스의 샘플)에 대해 처음부터 새롭게 다양한 신경망 아키텍처를 학습시켜 효과적인 임베딩을 출력할 수 있습니다.
임베딩 기반 방법은 일반적으로 다양한 형태(또는 모달리티)의 데이터에 대한 보조 정보와 벡터 공간 임베딩(예: 클래스 레이블을 설명하는 단어 임베딩과 해당 클래스에 속할 수 있는 사진의 이미지 임베딩)을 처리하기 때문에 서로 다른 데이터 유형의 임베딩을 쉽게 비교할 수 있는 방법이 필요합니다.
비교하려면 다양한 유형과 크기의 벡터 임베딩을 정규화하고 공유된 고차원 의미 공간인 공동 임베딩 공간에 투영해야 하며, 여기에서 동일한 조건 설정으로 비교할 수 있습니다. 추상적으로 말하면, 분모가 서로 다른 분수를 비교하기 위해 최소 공통 분모를 찾는 개념과 유사하게 작동합니다. 다양한 임베딩 소스 간의 강력한 상관 매핑은 모델의 일반화 성능에 필수적입니다.3
일부 제로샷 학습 모델은 대조 학습을 사용하여 서로 다른 모델 또는 알고리즘의 시맨틱 임베딩을 더 효과적으로 정렬합니다. 대조 학습은 시맨틱 임베딩 쌍을 사용하여 "양성" 쌍(예: 개 이미지 임베딩과 "개"라는 단어 임베딩) 사이의 거리를 최소화하고 "음성"(일치하지 않는) 쌍 사이의 거리를 최대화하도록 모델을 학습시킵니다.
다양한 모델의 임베딩 간 정렬을 보장하는 효과적인 방법 중 하나는 해당 모델을 나란히 함께 학습하는 것입니다. 예를 들어, OpenAI의 Contrastive Language-Image Pre-training(CLIP) 모델은 인터넷에서 가져온 4억 개 이상의 이미지-캡션 쌍으로 구성된, 레이블이 지정되지 않은 방대한 데이터 세트를 기반으로 학습했습니다.4
이러한 페어링은 이미지 인코더와 텍스트 인코더를 처음부터 공동으로 학습하는 데 사용되었으며, 대조 손실을 사용하여 이미지 임베딩과 해당 캡션에 대한 임베딩 간의 코사인 유사성을 최대화했습니다. 이를 통해 제로샷 분류를 위한 자연스러운 능력을 얻을 수 있었습니다: 미세 조정 없이 CLIP은 27개의 서로 다른 이미지 분류 데이터 세트에서 강력한 분류 성능을 보여주었습니다.
생성형 AI는 레이블이 지정된 예제 없이 제로샷 학습 문제에 대한 대안 해결책으로 보조 정보를 사용하여 샘플 데이터를 생성하는 방법을 제공합니다.
생성 기반 방법은 보이지 않는 클래스의 의미론적 표현을 활용하여 샘플을 생성할 수 있으며, 이 샘플은 레이블이 지정되면 학습 문제를 표준 지도 학습으로 변환하는 데 사용할 수 있습니다. 레이블이 지정되지 않은 샘플(또는 밀접하게 관련된 본 클래스의 표현)은 샘플 합성에 도움이 될 수 있지만 제로 샷 설정에서 이 프로세스는 주로 의미론적 설명에 의존하는 경우가 많습니다.
LLM은 고품질 설명을 생성하는 데 필요한 작업을 줄일 수 있습니다. DALL-E 3 텍스트-이미지 생성 모델에 대한 릴리스 정보에서 OpenAI는 합성 캡션이 "실측 자료" 캡션에 비해 모델 성능을 향상시켰다고 언급했습니다.5
변이형 오토인코더(VAE)는 학습 데이터의 잠재 표현을 잠재 변수의 매개변수화된 분포로 학습하는 자기 지도 생성형 모델입니다. 즉, 데이터 클래스를 정적 시맨틱 임베딩이 아닌 잠재 공간의 확률 분포로 인코딩하는 방법을 학습합니다. 그런 다음 디코더를 사용하여 해당 잠재 공간에서 무작위 샘플을 생성할 수 있습니다. 조건부 VAE(CVAE)는 선택한 변수의 확률을 극대화하여 합성된 샘플의 속성을 제한할 수 있습니다.
생성적 적대 신경망(GANS)은 적대적 제로섬 게임에서 공동으로 훈련된 두 개의 신경망, 즉 의미론적 속성과 가우스 노이즈를 사용하여 샘플을 합성하는 생성기와 샘플이 진짜인지 "가짜"(즉, 생성기에 의해 합성됨)인지 결정하는 판별자로 구성됩니다. 판별기의 피드백은 판별기가 더 이상 실제 샘플과 가짜 샘플을 구별할 수 없을 때까지 생성기를 훈련하는 데 사용됩니다. 2014년 원본 GAN 논문 이후 이 프로세스를 개선하고 안정화하기 위해 여러 가지 수정 사항이 개발되었습니다.
VAE와 GAN은 모두 다음과 같은 단점이 있습니다.
VAE는 안정적이지만 잠재 공간에서 샘플을 재구성하는 방식의 특성으로 인해 흐릿한 이미지를 생성하는 경향이 있습니다.
GAN은 고품질 이미지를 생성하는 방법을 배우지만 서로 다른 두 가지 학습 프로세스를 수렴해야 하기 때문에 불안정화되기 쉽습니다.
두 프로세스를 모두 개선하고 안정화하기 위해 여러 가지 수정 사항이 개발되었지만 두 모델 아키텍처를 결합하면 제로샷 환경에서 유망한 결과를 얻을 수 있습니다.6
LLM을 사용하여 레이블이 지정된 샘플을 합성할 수도 있습니다. 예를 들어 Llama 2와 같은 자기회귀 모델을 사용하면, 텍스트 분류 작업을 위해 Sentence-BERT와 같은 양방향 언어 모델을 학습시키는 데 사용할 수 있는 샘플을 생성할 수 있습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.