잠재 공간이란 무엇인가요?

작성자

Senior Staff Writer, AI Models

IBM Think

잠재 공간이란 무엇인가요?

머신 러닝(ML)의 잠재 공간은 입력 데이터의 기본 구조를 알려주는 필수적인 특성만 보존한 데이터 포인트의 압축된 표현입니다. 잠재 공간을 효과적으로 모델링하는 것은 대부분의 생성형 AI(Gen AI) 알고리즘을 포함한 딥 러닝의 필수적인 부분입니다.

데이터 포인트를 잠재 공간에 매핑하면 복잡한 데이터를 효율적이고 의미 있는 방식으로 표현하여, 머신 러닝 모델이 데이터를 이해하고 조작하는 능력을 향상하는 동시에 계산 요구 사항을 줄일 수 있습니다. 이를 위해 잠재 공간 표현을 인코딩하려면 일반적으로 어느 정도의 차원 축소가 수반됩니다. 즉, 관련 없거나 중복된 정보를 생략하여 고차원 데이터를 저차원 공간으로 압축하는 작업이 필요합니다.

잠재 공간은 데이터 과학의 여러 분야에서 중요한 역할을 하며, 잠재 공간을 인코딩하는 것은 많은 현대 인공 지능(AI) 알고리즘의 필수적인 단계입니다. 예를 들어, 변형 오토인코더(VAE) 및 생성형 적대적 네트워크(GAN)와 같은 생성형 모델은 학습 데이터의 잠재 공간을 계산한 다음 이를 보간하여 새로운 데이터 샘플을 생성합니다. 객체 감지 또는 이미지 분할과 같은 분류 작업을 위해 훈련된 컴퓨팅 비전 모델은 입력 데이터를 잠재 공간에 매핑하여 정확한 예측과 관련된 특성을 분리합니다.

시맨틱 검색을 가능하게 하는 임베딩 모델부터 IBM Granite와 같은 자기회귀 모델 또는 OpenAI의 ChatGPT를지원하는 모델에 이르기까지 대규모 언어 모델(LLM)은 잠재 공간을 조작하여 특정 컨텍스트에서 서로 다른 단어 간의 복잡한 연관성을 탐색합니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

'잠재 공간'이란 무엇을 의미하나요?

공간이라는 단어는 일반 언어에서보다 머신 러닝의 맥락에서 더 다양한 의미를 갖습니다. 일반적으로 ML의 '공간'은 데이터 포인트를 매핑, 비교 또는 샘플링하는 특정 모드를 나타냅니다. 예를 들면 다음과 같습니다.

'입력 공간'은 입력 데이터에 포함될 수 있는 가능성의 범위입니다.
'아웃풋 공간'은 모델의 아웃풋에 대한 가능성의 범위입니다.
이미지 데이터에서 '픽셀 공간'은 숫자 픽셀 값의 가능한 범위입니다.
강화 학습에서 '행동 공간'이란 보드게임의 특정 순간에 둘 수 있는 유효한 수처럼 다음에 취할 수 있는 가능한 조치의 범위입니다.

수학적으로 말하자면, 공간은 주로 그 차원에 해당하는 것, 즉 해당 공간의 데이터 포인트를 설명하는 데 사용되는 특성(변수)에 따라 정의됩니다. 데이터 포인트가 특정 공간에 매핑되면 해당 공간을 정의하는 변수에 대해 비슷한 값을 갖는 데이터 포인트는 코사인 유사도, 유클리드 거리 또는 내적과 같은 메트릭을 통해 통해 서로 유사하거나 가까워집니다. 

머신 러닝에서 데이터 포인트는 숫자로 표현되어야 합니다. 대부분의 경우 데이터 포인트는 벡터로 표현(또는 '임베딩')됩니다. 따라서 데이터 포인트가 벡터 표현으로 비교되는 공간을 '벡터 임베딩 공간'(또는 '임베딩 공간')이라고 합니다. 벡터의 각 요소가 임베딩 공간의 개별 차원에 대응하는 수치 표현을 벡터 임베딩이라고 합니다. 머신 러닝 알고리즘은 일반적으로 벡터 임베딩을 입력으로 사용하거나 입력 데이터를 벡터 임베딩으로 변환하여 시작합니다.

특성 공간과 잠재 공간 비교

특성 공간은 데이터 포인트가 아니라, 특정 데이터 포인트 집합을 특징지을 수 있는 유의미한 특성 값에 대한 가능성 범위와 연결된 벡터 공간입니다. 예를 들어, 이미지 데이터를 처리하는 모델에서 특성 공간의 각 차원은 모델의 학습 데이터에 존재하는 특정 모양, 질감 또는 색상 패턴에 해당할 수 있습니다.

특성 공간은 일반적으로 특성을 포함하지 않는 임베딩 공간 차원에서 정보를 생략합니다. 이미지 데이터의 예시를 계속 진행하면 특성 공간은 배경이나 빈 곳을 제외합니다. 더 큰 임베딩 공간에서 유의미한 특성을 격리하는 프로세스를 특성 추출이라고 합니다.

'특성 공간'과 '잠재 공간'은 종종 같은 의미로 사용되지만 항상 동의어인 것은 아닙니다. 특성 추출은 일반적으로 유용하지 않은 정보를 생략하는 압축된 데이터 표현을 수반한다는 점을 고려하면 두 개념은 밀접하게 관련되어 있습니다. 그러나 일부 특성은 데이터의 기본 구조와 반드시 관련되지 않을 수도 있습니다. 따라서 잠재 공간은 일반적으로 머신 러닝을 통해 현재 작업과 가장 관련성이 높은 것으로 식별되는 특성의 하위 집합만 포함하는 특성 공간의 저차원 표현입니다.

머신 러닝에서 '잠재'란 무엇을 의미하나요?

잠재 공간에서 각 차원은 원래 데이터의 잠재 변수에 해당합니다. 잠재 변수란 데이터가 배포되는 방식을 알려주는 데이터의 기본적인 특성이지만, 직접 관찰할 수 없는 경우가 많습니다. 

직관적인 예시로, 지나가는 각 차량의 무게를 측정하는 센서가 있는 다리가 있다고 생각해보겠습니다. 가벼운 경차부터 대형 트럭에 이르기까지 다양한 차량이 다리를 사용하지만, 차량 유형을 감지할 수 있는 카메라는 없습니다. 그럼에도 불구하고 우리는 차량의 종류가 차량의 무게에 큰 영향을 미친다는 사실을 알고 있습니다. 이 예시에서 차량의 무게는 관측 가능한 변수이고 차량의 종류는 잠재 변수로, 차량의 무게 패턴을 탐색하여 어떤 종류의 차량이 다리를 사용하는지 추론할 수 있습니다.

모든 '숨겨진' 변수가 중요한 것은 아니므로 머신 러닝 모델에 의해 인코딩된 잠재 공간에 모든 숨겨진 변수가 표시되는 것은 아닙니다. 실제로 모델은 학습되는 작업을 정확하게 수행하는 데 가장 도움이 되는 잠재 공간을 인코딩하는 방법을 학습합니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

잠재 공간 및 차원 축소

잠재 공간 표현을 인코딩하는 것은 일반적으로 차원축소라는 프로세스를 통해 고차원 데이터를 더 낮은 차원 공간으로 압축하는 것을 수반합니다.

손으로 쓴 수만 개의 28x28 흑백 이미지가 포함된 오픈 소스 데이터 세트인 MNIST의 이미지를 생각해 보겠습니다. 각각의 작은 28x28 이미지는 784차원 벡터 임베딩으로 표현될 수 있으며, 각 차원은개별 픽셀에 해당하고 0(검은색)과 1(흰색) 사이의 값을 갖습니다. 784개의 픽셀 각각에 대해 각각의 빨강, 녹색, 파랑(RGB) 값에 대해 3차원으로 표현하는 컬러 이미지라면 이러한 벡터 임베딩은 2,352차원이 될 것입니다.

그러나 실제 숫자는 픽셀 공간의 작은 부분만을 차지합니다. 이미지의 대부분은 빈 배경입니다. 이미지(및 이미지를 나타내는 벡터)를 실제 정보가 포함된 차원(잠재 공간)으로만 줄이면 이미지를 정확하고 효율적으로 처리하는 머신 러닝 모델의 능력을 크게 향상시킬 수 있습니다.

오토인코더(및 기타 인코더-디코더 프레임워크)

차원을 축소하고 입력 데이터를 잠재 공간으로 압축하기 위해 명시적으로 설계된 신경망 아키텍처 유형 중 하나가 오토인코더입니다.

오토인코더는 차원 축소를 통해 입력 데이터를 압축(또는 인코딩)하고 그 압축된 표현에서 정확한 원래 입력을 재구성(또는 디코딩)하는 것을 학습 목표로 하는 자기 지도 시스템입니다. 표준 오토인코더에서 인코더의 각 계층은 이전 계층보다 점진적으로 더 적은 수의 노드를 포함합니다. 입력 데이터의 벡터 임베딩이 다음 인코더 계층으로 전달되면 더 적은 차원으로 '압축'하는 프로세스를 통해 압축됩니다. 그런 다음 디코더 네트워크는 인코더에서 생성된 잠재 벡터만 사용하여 원래 입력을 복원합니다.

오토인코더는 재구성 손실을 최소화하도록 훈련되며, 이는 디코더의 재구성이 원래 입력값과 얼마나 다른지를 측정합니다. 인코더는 제한된 양의 정보만 디코더에 전달할 수 있기 때문에 데이터의 가장 두드러진 특성만 추출해야 합니다. 즉, 오토인코더는 자연스럽게 입력 데이터의 잠재 공간에 대한 효과적인 매핑을 학습합니다.

이 기능은 오토인코더에 데이터 압축 외에도 많은 흥미로운 사용 사례를 제공합니다. 예를 들어 오토인코더는 사람이 관찰할 수 없는 이상을 기록할 수 있기 때문에 이상 활동 탐지에 사용할 수 있습니다. 훈련된 전문가가 보기에도 진품과 완벽하게 닮은 위조 시계가 있다고 생각해보겠습니다. 시계를 분해하고 내부의 기본 기어와 메커니즘, 즉 잠재 공간을 재구성하려고 시도해야만 위조 시계가 따라한 진품과 일치하지 않는 요소를 식별할 수 있습니다. 

선형 판별 분석이나 주성분 분석(PCA)과 같은 다른 차원 축소 알고리즘과 비교할 때 오토인코더의 주요 장점은 오토인코더는 서로 다른 변수 간의 비선형 관계를 모델링할 수 있다는 점입니다.

다른 많은 신경망은 인코더 네트워크가 입력 데이터의 차원을 줄이고 디코더가 해당 잠재 인코딩을 처리하여 예측을 수행하는 유사 인코더-디코더 아키텍처를 구현합니다. 오토인코더는 모델이 입력 데이터를 재구성하도록 훈련되는 해당 구조체의 구현입니다.

변이형 오토인코더(VAE) 및 기타 생성형 모델의 잠재 공간

변형 오토인코더(VAE)는 오토인코더 아키텍처를 사용하여 이미지 생성과 같은 생성 작업에 사용할 수 있는 방식으로 잠재 공간을 인코딩합니다.

훈련 데이터의 각 잠재 변수에 대해 불연속 값의 단일 벡터를 인코딩하는 '결정론적' 모델인 대부분의 오토인코더와 달리, VAE는 잠재 공간을 가능성의 범위로 인코딩하는 '확률적' 모델입니다. VAE는 인코딩된 가능성 범위 내에서 보간하여 고유하고 독창적이면서도 원본 학습 데이터와 유사한 새로운 데이터 샘플을 합성할 수 있습니다.

(단순히 학습 데이터에서 샘플을 다시 만들거나 결합하는 것이 아니라) 완전히 새로운 데이터 샘플을 생성하려면 잠재 공간은 다음의 2가지 규칙성을 보여야 합니다.

연속성: 잠재 공간 내에서 가까운 지점은 디코딩 시 유사한 콘텐츠를 생성해야 합니다.
완전성: 잠재 공간 내에서 샘플링된 모든 지점은 디코딩 시 의미 있는 콘텐츠를 생성해야 합니다.

잠재 공간에서 연속성과 완전성을 적용하는 간단한 방법은 정규(가우스) 분포를 따르도록 하는 것입니다. 따라서 VAE는 학습 데이터의 각 잠재 속성에 대해 평균 벡터 'μ'와 표준 편차 벡터 'σ'의 두 가지 벡터를 인코딩합니다. 본질적으로 이 2가지 벡터는 각각 각 잠재 변수의 가능성 범위와 각 가능성 범위 내에서 예상되는 분산을 나타냅니다.

VAE는 재구성 손실과 함께 추가 손실 함수인 컬백-라이블러(Kullback-Leibler) 발산(또는 KL 발산)을 추가하여 이를 달성합니다. 좀 더 구체적으로 말하자면, VAE는 재구성 손실을 최소화하여 표준 가우스 분포와 학습된 잠재 공간 간의 발산을 최소화하도록 훈련됩니다.

다른 이미지 생성 모델의 잠재 공간

다른 이미지 생성 모델 아키텍처는 재구성 손실 이외의 학습 목표를 사용하지만, 일반적으로 모두 잠재 공간의 연속성과 완전성을 강화하기 위해 정규화 용어를 사용합니다. 전부는 아니지만, 대부분의 경우 잠재 공간을 정규 분포에 맞춥니다.

생성적 적대적 네트워크(GAN)

생성적 적대적 네트워크(GAN)는 적대적 게임에서 두 개의 신경망, 즉 '판별자' 네트워크와 생성자 네트워크를 학습합니다. 판별자는 이미지를 표시하고 원본 이미지인지 아니면 데이터 세트에서 가져온 이미지인지 예측하도록 훈련됩니다. 생성자는 잠재 공간에서 샘플링하여 원래 샘플을 생성함으로써 판별자를 속이도록 훈련됩니다.

판별자가 더 이상 훈련 영상과 생성된 영상을 구별할 수 없을 때 생성자가 훈련된 것으로 간주됩니다.

잠재 확산 모델

잠재 확산 모델은 원래 Stable Diffusion 모델에서 처음 도입되었으며, 본질적으로 확산 모델과 VAE를 결합한 것입니다. 표준 확산 모델은 픽셀 공간에서 직접 작동하는 반면, 잠재 확산 모델은 먼저 VAE 스타일 아키텍처를 사용하여 입력 데이터를 더 낮은 차원의 잠재 표현으로 인코딩한 다음 잠재 공간에 확산을 적용합니다. 이 혁신으로 인해 확산 모델의 속도와 효율성이 크게 향상되었습니다.

잠재 공간 시각화

잠재 공간에 있는 서로 다른 데이터 요소 간의 관계는 본질적으로 상상하거나 시각화하기 어렵습니다. 우리의 감각과 경험은 세계에 대한 3차원적 이해에 국한되어 있으며, 우리의 정신은 수십, 수백 또는 수천 차원을 따라 점을 그리는 그래프를 상상할 수 없습니다.

이 문제를 해결하기 위해 데이터 과학자들은 T-분산 확률적 이웃 임베딩(t-SNE)이나 균일 매니폴드 근사 및 투영(UMAP)과 같은 차원 축소 기술을 적용합니다. 데이터 시각화에 널리 사용되는 이러한 기술은 고차원 데이터를 2차원(또는 3차원) 그래프에 매핑하며, 여기서 유사한 객체는 서로 가깝게, 서로 다른 객체는 멀리 배치됩니다. 예를 들어, 이 문서의 앞부분에서 다룬 VAE의 잠재 공간 시각화는 t-SNE를 사용하여 생성되었습니다.

이미지 모델에 대한 연구는 또한 잠재 공간의 특성에 대한 흥미로운 인사이트를 제공했으며, 이는 생성형 모델의 잠재 공간 조작을 발전시키는 데 기여했습니다. 예를 들어, 널리 인용되는 논문인 “Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks”에서는 잠재 벡터로 산술을 수행하여 특정 특성을 가진 새로운 이미지를 직관적으로 생성하는 등의 기술을 탐구했습니다.

자연어 처리(NLP)의 잠재 공간

이미지에 대한 벡터 임베딩이 이미지의 원래 픽셀 값 분포에서 제공하는 데이터를 나타내는 것을 목표로 하는 것과 마찬가지로, 단어 임베딩은 특정 단어의 의미론적 의미를 포착하는 것을 목표로 합니다.

그러나 이미지와 달리 단어의 의미론적 의미는 정적인 것이 아니라 주변의 단어에 따라 의미와 관계가 달라질 수 있는 동적인 것입니다. 따라서 트랜스포머 모델은 셀프 어텐션 메커니즘을 사용하여 단어의 의미가 문맥에 어떤 영향을 받는지 계산하고 이에 따라 임베딩을 업데이트합니다. 모델이 프롬프트를 받아들이는 입력 레이어와 새로운 텍스트가 생성되는 아웃풋 레이어 사이에서 문맥 이해를 지속적으로 개선함에 따라 원래 단어 임베딩은 일련의 잠재적 표현으로 변환됩니다.

지금까지 대규모 언어 모델(LLM)의 내부 작동 방식은 해석하기가 상당히 어려운 것으로 입증되었지만, 지속적인 연구를 통해 문맥 내 학습에서 잠재 공간의 활성화 및 LLM의 여타 새로운 능력을 탐구하고 있습니다.^{1, 2}