topics 자기 감독 학습 자기 지도 학습이란 무엇인가요?
IBM watsonx.ai 살펴보기
빅 데이터 기술 및 데이터 과학 일러스트

게시일: 2023년 12월 5일
기고자: Dave Bergmann

자기 지도 학습이란 무엇인가요?

자기 지도 학습은 일반적으로 지도 학습이 필요한 작업에 비지도 학습을 사용하는 머신 러닝 기법입니다. 자기 지도 모델은 감독 신호에 대해 레이블이 지정된 데이터 세트에 의존하는 대신 비정형 데이터에서 암시적 레이블을 생성합니다.

자기 지도 학습(SSL)은 컴퓨터 비전자연어 처리(NLP) 와 같이 최첨단 인공 지능(AI) 모델을 학습하기 위해 대량의 레이블이 지정된 데이터가 필요한 분야에서 특히 유용합니다. 이러한 레이블이 지정된 데이터 세트의 경우 전문가가 주석을 달아야 하기 때문에 시간이 많이 걸려 충분한 데이터를 수집하는 것이 매우 어려울 수 있습니다. 자기 지도 방식은 학습 데이터에 수동으로 라벨을 지정해야 하는 일부 또는 전체적인 업무를 대체하므로 시간과 비용 면에서 더 효율적일 수 있습니다.

분류나 회귀와 같이 정확도가 필요한 작업을 위해 딥러닝 모델을 훈련하려면, 주어진 입력에 대한 모델의 출력 예측을 해당 입력에 대한 '정확한' 예측(일반적으로 기준값이라고 함)과 비교할 수 있어야 합니다. 일반적으로 수동으로 레이블이 지정된 훈련 데이터가 그 기준값으로 사용되는데, 이 방법은 사람의 직접적인 개입이 필요하기 때문에 '지도 학습'이라고 부릅니다. 자기 지도 학습에서 작업은 레이블이 지정되지 않은 데이터에서 '기준값'을 추론할 수 있도록 설계됩니다.

SSL에서 작업은 사전 텍스트 작업다운스트림 작업의 두 가지 범주로 나뉩니다.사전 텍스트 작업에서 SSL은 AI 시스템이 비정형 데이터의 의미 있는 표현을 학습하도록 훈련하는 데 사용됩니다. 학습된 표현은 이후 지도 학습 작업이나 강화 학습 작업과 같은 다운스트림 작업의 입력으로 사용할 수 있습니다. 새로운 작업에서 사전 학습된 모델을 재사용하는 것을 "전이 학습"이라고 합니다.

자기 지도 학습은 BERT 및 GPT와 같은 트랜스포머 기반 대규모 언어 모델(LLM)부터 변형 자동 인코더(VAE) 및 생성적 적대적 네트워크(GAN) 같은 이미지 합성 모델, SimCLR 및 모멘텀 대비(MoCo) 같은 컴퓨팅 비전 모델에 이르기까지 다양한 작업을 위한 정교한 딥러닝 아키텍처의 학습에 사용됩니다.

IBM watsonx.ai 둘러보기

AI 빌더가 AI 모델을 훈련, 검증, 조정 및 배포할 수 있는 차세대 엔터프라이즈 스튜디오입니다.

관련 내용

IBM 뉴스레터 구독하기

자기 지도 학습과 지도 학습 및 비지도 학습 비교

자기 지도 학습은 레이블이 지정된 데이터 세트가 필요하지 않으므로 기술적으로는 비지도 학습의 하위 집합이지만, 기준값에 대해 성능을 최적화한다는 점에서 지도 학습과 밀접한 관련이 있습니다.

이는 기존의 두 가지 머신 러닝 패러다임 모두와 불완전한 적합성을 보였고, 이로써 현재 '자기 지도 학습'으로 통칭되는 다양한 기법들이 독자적으로 분류되기 시작했습니다.

이 용어는 튜링상을 수상한 컴퓨터 과학자이자 딥러닝 출현의 핵심 인물인 Yann LeCun이 만든 것으로 알려져 있습니다.1 그는 SSL을 진정한 비지도 학습(그는 이를 "부하가 많고 혼란스러운 용어"라고 불렀습니다)과 구별할 필요가 있다고 선언했습니다.2 이 이름(및 공식적인 개념)은 2007년 Raina 등이 발표한 논문 '자기 주도 학습: 레이블이 없는 데이터로부터의 전이 학습'3에서 유래된 것으로 보입니다. 자동 인코더와 같이 현재 SSL로 간주되는 일부 머신 러닝 프레임워크는 이 용어가 존재하기 몇 년 전부터 존재했다고 간주되고 있습니다.

자기 지도 학습과 비지도 학습

자기 지도 학습은 비지도 학습의 하위 집합으로, 모든 자기 지도 학습 기법은 비지도 학습이지만 대부분의 비지도 학습은 자기 지도를 수반하지 않습니다.

비지도 학습이나 자기 지도 학습 모두 학습 과정에서 레이블을 사용하지 않습니다. 두 방법 모두 주석이 달린 데이터 세트에서 외부적으로 부과된 상관관계가 아니라 레이블이 없는 데이터에서 내재적 상관관계와 패턴을 학습합니다. 라벨이 없는 데이터에 대한 이러한 공통된 초점 외에도, 자기 지도 학습과 비지도 학습의 차이점은 비지도 학습과 지도 학습의 차이점을 크게 반영합니다.

기존의 비지도 학습을 사용하는 문제는 사전에 알려진 기준값과 비교하여 결과를 측정하지 않습니다. 예를 들어, 비지도 연관 모델은 어떤 제품이 자주 함께 구매되는지 학습하여 전자상거래 추천 엔진을 강화할 수 있습니다. 이 모델의 유용성은 인간의 예측을 복제하는 것에서 파생되는 것이 아니라 인간 관찰자에게는 명확하지 않은 상관 관계를 발견하는 것에서 파생됩니다.

자기 지도 학습은 레이블이 지정되지 않은 학습 데이터에서 암시적으로 도출된 기준값과 비교하여 결과를 측정합니다. 지도 모델과 마찬가지로 자기 지도 모델도 손실 함수, 즉 기준값과 모델 예측 간의 차이('손실')를 측정하는 알고리즘을 사용하여 최적화됩니다. 학습 중에 자기 지도 모델은 역전파 중에 경사 하강을 사용하여 손실을 최소화하는 방식으로 모델 가중치를 조정합니다(따라서 정확도가 향상됨).

이러한 주요 차이점에 따라 두 가지 방법은 서로 다른 사용 사례에 중점을 둡니다. 비지도 모델은 손실 함수가 필요하지 않은 클러스터링, 이상 탐지 및 차원 축소와 같은 작업에 사용되는 반면, 자기 지도 모델은 일반적인 분류 및 회귀 작업에 사용됩니다.

자기 지도 학습과 지도 학습 비교

지도 학습과 자기 지도 학습은 주로 같은 종류의 작업에 사용되며 둘 다 손실 함수를 통해 성능을 최적화하기 위해 기준값이 필요하지만, 자기 지도 모델은 레이블이 없는 데이터로 학습하는 반면 지도 학습은 레이블이 있는 데이터 세트가 있어야 학습할 수 있습니다.

학습 데이터에 주석을 달면 모델이 해당 주석이 반영하는 주요 특징과 상관관계를 직접 학습할 수 있기 때문에 레이블이 지정된 데이터 세트는 모델 학습에 매우 효과적입니다. 학습 중에 모델 예측과 인간 전문가가 직접 주석을 추가한 "예측" 간의 차이를 최소화함으로써 지도 모델은 새로운(레이블이 지정되지 않은) 입력 데이터에 대해 올바른 추론을 수행하는 방법을 학습합니다.

최첨단 지도 접근법을 사용하면 높은 정확성을 얻을 수 있지만, 많은 양의 훈련에 주석을 달면 연구 과정에서 병목 현상이 발생하는 경우가 많습니다. 예를 들어, 픽셀별 예측이 필요한 인스턴스 분할과 같은 컴퓨팅 비전 작업에서는 학습 데이터의 주석을 픽셀 수준에서 수행해야 합니다. 이는 비용과 시간이 많이 소요되기 때문에 대부분의 기업과 연구자가 사용할 수 있는 학습 데이터의 양과 이를 확보할 수 있는 능력이 모두 제한됩니다.

이와 대조적으로, 자기 지도 모델은 레이블을 전혀 사용하지 않고 다양한 기법을 사용하여 입력 데이터 자체의 구조로부터 감시 신호를 얻습니다. 예를 들어, 문장의 일부를 임의로 숨기고(또는 "마스킹"), 레이블이 없는 원본 문장을 기준값으로 사용하여 숨겨진 단어를 예측하도록 자기 지도 모델에 과제를 부여합니다.

자기 지도 학습과 준 지도 학습

사람이 레이블이 지정된 데이터를 사용하지 않는 자기 지도 학습과 달리, 준 지도 학습은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 모두 사용하여 모델을 훈련합니다. 예를 들어, 준 지도 학습 모델은 소량의 레이블이 지정된 데이터 포인트를 사용하여 레이블이 지정되지 않은 나머지 학습 데이터 세트에 대한 레이블을 추론한 다음 전체 데이터 세트를 지도 학습에 사용할 수 있습니다. 두 접근 방식 모두 지도 학습에서 대규모 레이블이 지정된 데이터 세트의 필요성을 피할 수 있다는 점에서 동기는 비슷하지만, 각각의 방법론은 다릅니다.

자기 지도 학습은 어떻게 작동하나요?

자기 지도 학습 과제는 손실 함수가 레이블이 지정되지 않은 입력 데이터를 기준값으로 사용할 수 있도록 설계되었습니다. 이를 통해 모델은 레이블이나 주석 없이 입력 데이터의 정확하고 의미 있는 표현을 학습할 수 있습니다.

자기 지도 학습의 목표는 레이블이 지정된 데이터의 필요성을 최소화하거나 완전히 대체하는 것입니다. 레이블이 지정된 데이터는 상대적으로 부족하고 비용이 많이 드는 반면 레이블이 지정되지 않은 데이터 풍부하고 상대적으로 저렴합니다. 기본적으로 프리텍스트 작업은 레이블이 지정되지 않은 데이터에서 '의사 레이블'을 생성합니다. '프리텍스트'라는 용어는 학습 작업이 그 자체로 반드시 유용한 것은 아님을 의미합니다. 이는 후속 다운스트림 작업의 목적에 유용한 데이터 표현을 모델에 가르치기 때문에 유용하다는 것을 의미합니다. 따라서 프리텍스트 작업은 종종 표현 학습이라고도 합니다.

SSL로 사전 학습된 모델은 특정 다운스트림 작업에 맞게 미세 조정되는 경우가 많이 있습니다. 이러한 미세 조정에는 실제 지도 학습이 포함되는 경우가 많습니다(지도 학습만으로 모델을 학습하는 데 필요한 레이블이 지정된 데이터의 일부가 사용됨).

SSL 분야는 방법론과 사용 사례 모두 다양하지만 SSL로 학습된 모델은 자기 예측 학습대조 학습이라는 두 가지 머신러닝 기법 중 하나(또는 둘 다)를 사용합니다.

자기 예측 학습

자동 연관 자기 지도 학습이라고도 하는 자기 예측 방법은 다른 부분에 대한 정보가 주어지면 개별 데이터 샘플의 일부를 예측하도록 모델을 훈련시킵니다. 이러한 방법으로 훈련된 모델은 일반적으로 판별 모델이 아닌 생성 모델입니다.

Yann LeCun은 자기 지도 방법을 '빈칸을 채우는' 구조화된 관행으로 특징지었습니다. 그는 레이블이 지정되지 않은 데이터의 기본 구조에서 의미 있는 표현을 학습하는 과정을 "입력에 모르는 부분이 있다고 가정하고 그것을 예측하는 것"이라고 간단히 설명했습니다. 4 예를 들면 다음과 같습니다.

  • 다른 부분을 사용하여 입력 부분 예측
  • 과거를 사용하여 미래 예측
  • 노출된 부분을 사용하여 마스킹된 부분 예측
  • 사용 가능한 모든 부분을 사용하여 가려진 부분 예측

이러한 철학을 기반으로 구축된 자기 지도 시스템은 종종 특정 모델 아키텍처와 학습 기술을 사용합니다.
 

오토인코더
오토인코더는 입력 데이터를 압축(또는 인코딩)한 다음 압축된 표현을 사용하여 원본 입력을 재구성(또는 디코딩)하도록 학습된 신경망입니다. 원본 입력 자체를 비교 기준(Ground Truth)으로 사용하여 재구성 오류를 최소화하도록 학습되었습니다.

오토인코더 아키텍처는 다양하지만 일반적으로 일종의 병목 현상, 즉 데이터가 인코더 네트워크를 통과함에 따라 각 계층의 데이터 용량이 점진적으로 감소되는 현상이 발생합니다. 이로 인해 네트워크는 입력 데이터 내에 숨겨진 가장 중요한 패턴(잠재 변수 또는 잠재 공간)만 학습하게 되므로 현재 정보가 적더라도 디코더 네트워크가 원본 입력값을 정확하게 재구성할 수 있습니다.

기본 프레임워크를 수정하면 오토인코더가 유용한 기능을 학습할 수 있습니다.

  • 노이즈 제거 오토인코더 에는 부분적으로 손상된 입력 데이터가 주어지고 쓸모없는 정보('노이즈')를 제거하여 원본 입력값을 복원하도록 학습됩니다. 이는 과적합을 줄이고 손상된 입력 이미지 및 오디오 데이터 복원과 같은 작업에 유용한 모델로 만들어 줍니다.
  • 대부분의 자동 인코더가 잠재 공간의 이산 모델을 인코딩하는 반면 변이형 오토인코더(VAE)는 잠재 공간의 연속 모델을 학습합니다. 즉, 입력 데이터의 잠재 표현을 확률 분포로 인코딩함으로써 디코더는 해당 분포에서 무작위 벡터를 샘플링하여 새로운 데이터를 생성할 수 있습니다.
     

자기회귀
자기회귀 모델은 과거 행동을 사용하여 미래 행동을 예측합니다. 언어, 오디오 또는 비디오와 같이 고유한 순차 순서를 가진 모든 데이터를 회귀 분석을 통해 모델링할 수 있다는 논리에 따라 작동합니다.

자기회귀 알고리즘은 시계열 데이터를 모델링하여 이전 시간 단계의 값을 사용하여 다음 시간 단계의 값을 예측합니다. 선형 회귀에 사용되는 것과 같은 기존 회귀 알고리즘에서는 독립 변수가 목표 값(또는 종속 변수)을 예측하는 데 사용되는 반면 자기회귀에서는 독립 변수와 종속 변수가 본질적으로 동일하며 변수 자체에서 회귀가 수행되기 때문에 자기회귀라고 부릅니다.

자기회귀는 텍스트 생성 및 질문 답변과 같은 작업에 탁월한 LLM의 GPT, LLama 및 Claude 제품군과 같은 인과 관계 언어 모델에서 두드러지게 사용됩니다. 사전 학습에서 언어 모델에는 레이블이 지정되지 않은 학습 데이터에서 추출한 샘플 문장의 시작 부분이 제공되며 샘플 문장의 '실제' 다음 단어를 비교 기준으로 사용하여 다음 단어를 예측하는 작업을 수행합니다.
 

마스킹
또 다른 자기 지도 학습 방법은 레이블이 지정되지 않은 데이터 샘플의 특정 부분을 마스킹하고 모델이 누락된 정보를 예측하거나 재구성하는 작업을 수행하도록 합니다. 손실 함수는 원본(마스킹 전) 입력을 비교 기준으로 사용합니다. 예를 들어 마스킹된 오토인코더는 노이즈 제거 오디오 인코더의 반대입니다. 외부 정보를 제거하는 대신 누락된 정보를 예측하고 복원하는 방법을 학습합니다.

마스킹은 마스크 언어 모델 학습에도 사용됩니다. 샘플 문장에서 임의의 단어를 생략하고 이를 채우도록 모델을 학습시킵니다. BERT와 같은 마스킹 언어 모델(그리고 BART 및 RoBERTa와 같은 아키텍처를 기반으로 구축된 많은 모델)은 자기회귀 모델에 비해 텍스트 생성 능력이 떨어지는 경우가 많지만 양방향성이라는 장점이 있습니다. 즉, 단어뿐만 아니라 이전 단어나 시퀀스에서 나중에 발견된 단어도 예측할 수 있습니다. 따라서 번역, 요약 및 검색과 같이 강력한 문맥 이해가 필요한 작업에 매우 적합합니다.
 

내재 관계 예측
내재 관계 예측은 데이터 샘플이 다른 방식으로 변환된 후에도 데이터 샘플에 대한 이해를 유지하도록 모델을 학습시킵니다. 예를 들어 입력 이미지를 회전하고 모델에 원본 입력을 기준으로 변화 정도와 회전 방향을 예측하는 작업을 지정합니다.5

대조적 학습

대조적 자기 지도 학습 방법은 모델에 여러 데이터 샘플을 제공하고 이들 간의 관계를 예측하도록 작업을 지정합니다. 이러한 방법으로 학습된 모델은 일반적으로 생성 모델이 아닌 식별 모델입니다.

대조 모델은 일반적으로 훈련을 위해 데이터-데이터 쌍에서 작동하는 반면 자동 연관 모델은 데이터-레이블 쌍(레이블이 데이터에서 자체 생성됨)에서 작동합니다. 대조적 방법은 이러한 데이터-데이터 쌍을 사용하여 유사한 것과 다른 것을 구별하도록 모델을 학습시킵니다.   

이러한 쌍은 종종 데이터 증강을 통해 생성됩니다. 레이블이 지정되지 않은 데이터에 다양한 종류의 변환 또는 섭동을 적용하여 새 인스턴스 또는 증강 뷰를 생성합니다. 예를 들어 영상 데이터에 대한 일반적인 증강 기술에는 회전, 무작위 자르기, 뒤집기, 노이즈, 필터링 및 색상화 등이 포함됩니다. 데이터 증강은 데이터 가변성을 높이고 모델을 다양한 관점에 노출시켜 모델이 의미 있고 유동적인 의미 표현을 캡처하는 방법을 학습하도록 도와줍니다.
 

인스턴스 식별
인스턴스 식별 기반 모델은 이진 분류 작업으로 훈련을 구성합니다. 하나의 데이터 샘플을 대상(또는 '앵커')으로 사용하여 다른 데이터 샘플을 '양수'(일치) 또는 '음수'(불일치)로 결정합니다.

컴퓨팅 비전에서 SimCLR 또는 MoCo와 같은 방법은 일반적으로 레이블이 지정되지 않은 원시 이미지 배치로 시작하고 무작위 변환 조합을 적용하여 증강 이미지 샘플 쌍(또는 세트)을 생성합니다. 그런 다음 이러한 각 증강 이미지를 벡터 표현으로 인코딩하고 대비 손실 함수를 사용하여 동일한 원본 이미지에서 파생된 증강 이미지 쌍인 양수 일치 간의 벡터 표현 차이를 최소화하고 음수 일치 간의 차이를 최대화합니다.   

인스턴스 식별 방법은 무작위 데이터 증강을 통해 특정 이미지의 색상, 원근감 또는 보이는 부분과 같은 사소한 변형에 강한 다양한 범주의 표현을 학습하도록 모델을 교육합니다. 따라서 이러한 표현은 다운스트림 작업으로 매우 잘 일반화됩니다.
 

비대조 학습
일반적인 생각과 달리 '비대조 학습'은 대조 학습과 밀접하게 관련된 방법을 말합니다. 흔히 생각하는 것처럼 대조 학습이 아닌 학습을 총칭하는 것이 아닙니다. 모델은 양수 쌍만을 사용하여 학습되며 표현의 차이를 최소화하는 방법, 즉 비대조를 학습합니다.

비대조 학습은 대조 학습에 비해 상대적으로 간단합니다. 양수 샘플에 대해서만 작동하기 때문에 학습 기간에 더 작은 배치 크기를 활용하고 음수 샘플을 저장하기 위한 메모리 뱅크가 필요하지 않습니다. 이렇게 하면 사전 학습 중 메모리와 계산 비용을 절약할 수 있습니다.

Bootstrap Your Own Latent(BYOL)6 및 Barlow Twins7와 같은 비대조 모델은 대조 및 순수 감독 결과와 경쟁할 수 있는 결과를 달성했습니다.
 

멀티모달 학습
서로 다른 유형의 데이터 포인트(모달리티)가 주어지면 대조적인 방법으로 해당 모달리티 간의 매핑을 학습할 수 있습니다. 예를 들어 언어-이미지 대조 사전 학습(CLIP)은 인터넷에서 수집한 수백만 개의 레이블이 지정되지 않은(이미지, 텍스트) 쌍을 사용하여 이미지 인코더와 텍스트 인코더를 공동으로 학습시켜 어떤 캡션이 어떤 이미지와 함께 사용되는지 예측합니다. 사전 학습 후 자연어 처리(NLP)를 사용하여 학습에서 배운 시각적 개념을 참조하거나 새로운 시각적 개념을 설명할 수 있습니다. 이는 CLIP 학습 모델을 다양한 전이 학습 애플리케이션에 매우 유용하게 만듭니다.

대조 학습은 비디오와 텍스트,8 비디오와 오디오9 및 음성과 텍스트 간의 정렬을 학습하는 데에도 사용됩니다.10

자기 지도 학습 사용 사례

자기 지도 학습은 다양한 작업과 분야에 대한 인공 지능 모델을 사전 훈련하는 데 사용됩니다.

NLP를 위한 자기 지도 학습
  • 2018년 도입 후 1년 만에 Google은 검색의 순위 및 추천 스니펫을 위한 NLP 엔진으로 BERT 마스킹 언어 모델을 구현했습니다.11 2023년 현재 Google은 BERT 아키텍처를 계속 사용하여 실제 검색 애플리케이션을 구동하고 있습니다.12
  • LLaMa, GPT 및 Claude LLM 제품군은 자기회귀 언어 모델입니다. GPT3는 주로 자기 지도 학습으로 훈련되었습니다. InstructGPT와 ChatGPT를 출시하는 데 사용된 후속 GPT-3.5 모델은 인간 피드백을 통한 강화 학습(RLHF)을 사용하여 사전 학습된 모델을 미세 조정했습니다.
  • 자동 회귀 모델은 WaveNet과 같은 텍스트 음성 변환 모델뿐만 아니라 음성 텍스트 변환과 같은 오디오 기반 NLP 작업에도 사용됩니다.13 Facebook(Meta)은 음성 인식에 wav2vec 을 사용하며 서로 겹쳐진 두 개의 심층 컨볼루션 신경망을 사용하여 원시 오디오 입력을 벡터 표현에 매핑합니다. 자기 지도 사전 훈련에서 이러한 벡터는 자기 예측 작업에 대한 입력으로 사용됩니다.14
컴퓨팅 비전을 위한 자기 지도 학습
  • 자기 지도 학습은 의료 영상에 사용되는 딥 러닝 기술의 하위 집합으로 전문적으로 주석이 달린 이미지가 상대적으로 부족한 의료 영상 분야에서 빠르게 성장하고 있습니다. PubMed, Scopus 및 arXiv에서 의료 이미지 분류에 SSL을 사용한 사례가 2019년부터 2021년까지 1,000% 이상 증가했다는 내용이 여러 출판물에 실렸습니다.15
  • SSL 기반 방법은 종종 완전 감독 방식으로 학습된 모델의 정확도와 일치하거나 이를 능가할 수 있습니다. 예를 들어 오리지널 MoCo는 PASCAL, VOC 및 COCO 데이터 세트의 7가지 객체 감지 및 이미지 분할 작업에서 지도 모델보다 성능이 뛰어났습니다.16 전체 학습 데이터의 1%만 레이블이 지정된 데이터를 사용하여 미세 조정했을 때 SSL로 사전 학습된 모델은 ImageNet 데이터 세트에서 80% 이상의 정확도를 달성했습니다. 이는 ResNet50과 같은 벤치마크 지도 학습 모델의 성능에 필적하는 수준입니다.
  • 객체의 방향이 변경되더라도 객체를 성공적으로 감지하고 이미지 분할을 유지하는 능력은 많은 로봇 작업에 필수적입니다. 자기 지도 학습은 레이블이 지정된 데이터를 시간 집약적으로 수집하지 않고도 회전을 이해하도록 컴퓨팅 비전 모델을 훈련하는 효과적인 방법으로 제안되었습니다.17 18
  • 마스킹은 비디오에서 모션 궤적을 이해하기 위한 모델 학습에 사용됩니다.19
이미지 처리 및 이미지 합성을 위한 자기 지도 학습
  • 노이즈 제거 오토인코더는 스테이블 디퓨전과 같은 일부 최첨단 이미지 합성 모델의 훈련에 필수적인 요소입니다.20
  • 자기회귀 모델링은 PixelRNN 및 PixelCNN과 같은 모델의 이미지 합성에 사용됩니다. PixelCNN의 성공은 WaveNet의 기반이 되었습니다.
  • 컨볼루션 자동 인코더는 인페인팅 및 그레이 스케일 이미지의 색상화 등 다양한 이미지 처리 작업에 사용됩니다.
  • 변이형 오토인코더(VAE)는 이미지 합성에서 중요한 툴입니다. OpenAI의 오리지널 DALL-E 모델은 이미지를 생성하는 데 VAE를 사용했습니다. DALL-E 1과 DALL-E 2는 모두 자연어 프롬프트를 시각적 정보로 변환하는 과정에서 CLIP을 사용합니다.21
관련 솔루션
IBM watsonx.ai

생성형 AI, 파운데이션 모델, 머신 러닝 모델을 쉽게 훈련, 검증, 조정 및 배포할 수 있으며 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축할 수 있습니다.

watsonx.ai 살펴보기

자기 지도 학습 리소스

자기 지도 학습이 머신러닝이라는 더 큰 세계에 어떻게 적용되는지 자세히 알아보세요.

머신러닝 여정 계속하기

지도 학습과 비지도 학습 중 어떤 유형의 머신러닝 모델이 가장 적합한지 자세히 알아보세요.

지도 학습이란 무엇인가요?

지도 학습의 작동 방식과 이를 사용하여 다양한 작업을 위한 매우 정확한 기계 학습 모델을 구축하는 방법을 알아보세요.

비지도 학습이란 무엇인가요?

비지도 학습의 작동 방식과 이를 통해 다양한 사용 사례를 위한 데이터를 탐색하고 클러스터링할 수 있는 방법을 알아보세요.

다음 단계 안내

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

모든 링크는 ibm.com 외부에 있습니다.

1 'Fathers of the Deep Learning Revolution Receive ACM A.M. Turing Award,' Association for Computing Machinery, 2019년 3월 27일
2 Facebook, Yann LeCun, 2019년 4월 30일
3 'Self-taught learning: transfer learning from unlabeled data,' Proceedings of the 24th international conference on machine learning, 2007년 6월 20일
4 Lecture: Energy based models and self-supervised learning, YouTube, 2020년 업로드
5 'Learning to see by moving, arXiv, 2015년 9월14일
6 'Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning,' arXiv, 2020년 9월 10일
7 'Barlow Twins: Self-Supervised Learning via Redunancy Reduction,' arXiv, 2021년 6월 14일
8 'VideoCLIP: Contrastive Pre-Training for Zero-shot Video-Text Understanding,' arXiv, 2021년 10월 1일
9
'Active Contrasting Learning of Audio-Visual Video Representations,' Proceedings of the International Conference on Learning Representations, 2021년
10 'Cross-modal Contrastive Learning for Speech Translation,' arXiv, 2022년 5월 5일
11 'Understanding searches better than ever before,' Google, 2019년 10월 25일
12 'End-to-End Query Term Weighting,' Google, 2023년
13
'WaveNet: A Generative Model for Raw Audio,' arXiv, 2016년 9월 19일
14 'Wave2vec: State-of-the-art speech recognition through self-supervision,' Meta, 2019년 9월 19일
15 'Self-supervised learning for medical image classification: a systematic review and implementation guidelines,' Nature, 2023년 4월 26일
16 'Momentum Contrast for Unsupervised Visual Representation Learning,' arXiv, 2019년 11월 13일(2020년 3월 23일 최종 수정)
17
'Deep Projective Rotation Estimation through Relative Supervision,' arXiv, 2022년 11월 21일
18 'Orienting Novel 3D Objects Using Self-Supervised Learning of Rotation Transforms,' arXiv, 2021년 5월 29일
19 'Masked Motion Encoding for Self-Supervised Video Representation Learning,' The Computer Vision Foundation, 2022년 10월
20 'High-Resolution Image Synthesis with Latent Diffusion Models,' arXiv, 2021년 12월 20일(2022년 4월 13일 최종 수정)
21 'DALL-E: Creating images from text,' OpenAI, 2021년 1월 5일