머신 러닝을 위한 선형 대수학이란 무엇인가요?

작성자

Developer Advocate

IBM

머신 러닝을 위한 선형 대수학이란 무엇인가요?

머신 러닝(ML)에서 선형 대수학은 수학적 연산을 사용하여 ML 모델 내부의 데이터, 매개변수 및 계산을 표현하고 조작하는 것을 포함합니다. 선형 대수학은 데이터가 모델을 통과하는 방식과 모델이 '학습'하는 방식을 표현하는 언어와 도구를 제공합니다.

강력한 최신 머신 러닝 알고리즘과 생성형 AI은 근본적으로 선형 대수학을 기반으로 합니다. 신경망을 학습시키든, 추천 시스템을 구축하든 혹은 복잡한 데이터 세트에 주성분 분석(PCA)을 적용하든, 실무자들은 선형 대수학을 사용하여 대규모 계산을 수행하고 있습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

선형 대수학이 중요한 이유

초창기부터 최근의 딥 러닝 발전에 이르기까지, 선형 대수학은 ML 환경의 어디에나 존재해 왔습니다. 많은 핵심 머신 러닝 모델은 근본적으로 선형 대수학 원리를 사용하여 표현되고 해결됩니다. 실제로 데이터는 단순한 단일 숫자인 경우가 거의 없으며, 종종 지저분한 데이터 포인트의 모음인 데이터 세트의 형태로 제공됩니다. 선형 대수학은 이 데이터를 효율적으로 구성, 조작 및 분석할 수 있는 도구를 제공합니다.

이를 통해 실무자는 벡터, 행렬 및 텐서와 같은 개체를 조작하여 구조화된 데이터(종종 표 형식 데이터)와 비정형 데이터를 표현할 수 있습니다. 이러한 추상적으로 보이는 개념은 컴퓨터 과학 및 데이터 과학자를 위한 데이터 언어입니다. 예를 들어, 이미지는 픽셀값의 행렬로 표현될 수 있으며, 주택을 설명하는 특징 모음(예: 이웃, 연령 및 평방피트)은 선형 회귀 모델에서 벡터로 표현될 수 있습니다. 선형 회귀는 아웃풋을 입력 기능의 선형 조합으로 모델링하며, 선형 대수학이 실제 세계에서 어떻게 작동하는지에 대한 전형적인 예입니다.

주요 선형 대수학 개념

머신 러닝 및 데이터 과학에서 선형 대수학은 데이터를 설명하고 작업하는 데 사용되는 프레임워크입니다. 선형 대수학은 신경망에서 행렬을 곱하거나, PCA에서 고유값을 찾거나, 특이값 분해(SVD)로 차원을 줄일 때 숫자가 어떻게 배열, 결합 및 변환되는지 설명합니다.

데이터 표현 및 조작

가장 기본적인 수준에서 선형 대수학은 구조화된 형식으로 데이터를 표현하고 작업할 수 있는 도구를 제공합니다. 대부분의 머신 러닝 워크플로는 데이터를 숫자 형식으로 구성하는 것으로 시작하며, 스칼라, 벡터, 행렬, 텐서와 같은 각 구조는 서로 다른 용도로 사용됩니다.

스칼라는 가장 간단한 빌딩 블록으로, 5 또는 2.3과 같은 단일 숫자 값입니다. 스칼라는 종종 매개변수, 배율 계수 또는 단일 측정값을 나타냅니다.
벡터는 일반적으로 열 또는 행으로 작성되는 정렬된 숫자 배열입니다. 벡터는 단일 데이터 포인트를 설명하는 기능 목록에서 공간 내 위치 좌표에 이르기까지 모든 것을 나타낼 수 있습니다. 예를 들어, 벡터 [3,5,7]는 고객의 방문, 구매 및 반품 횟수를 나타낼 수 있습니다.
행렬은 행과 열로 배열된 숫자의 2차원 배열입니다. 각 행이 데이터 포인트이고 각 열이 특징인 데이터 세트는 자연스럽게 행렬을 형성합니다. 행렬은 데이터를 효율적으로 저장할 수 있기 때문에 선형 대수학에 매우 중요합니다. 스칼라 곱셈(행렬의 모든 요소에 상수를 곱하는 것) 및 행렬 곱셈(변환을 적용하거나 관계를 계산하기 위해 두 행렬을 결합하는 것)과 같은 연산은 알고리즘에 만연합니다.
텐서는 스칼라, 벡터 및 행렬을 더 높은 차원으로 일반화한 것입니다. 예를 들어, 컬러 이미지는 높이, 너비 및 색상 채널이 세 개의 개별 축을 형성하는 3D 텐서로 저장될 수 있습니다. 딥 러닝에서 텐서는 신경망에 정보를 제공하기 위한 표준 데이터 구조입니다.

점곱은 두 벡터를 곱하여 단일 스칼라를 생성하는 방법입니다. 많은 추천 시스템에서 중요한 단계인 벡터 간 유사성을 계산하는 데 널리 사용됩니다. 행과 열을 뒤집는 행렬의 전치는 곱셈을 위해 차원을 정렬하고 데이터의 구조적 패턴을 발견할 수 있게 해주는 또 다른 기본 연산입니다.

선형 대수학은 알고리즘이 이해하고 처리할 수 있는 방식으로 복잡한 데이터 세트를 표현할 수 있으므로 현실 세계에서 수집된 데이터를 사용하여 복잡한 모델을 구성할 수 있습니다.

A comparison chart illustrating scalar, vector, matrix, and tensor concepts. The image uses colorful numerical representations to differentiate each mathematical structure. Numbers such as '1', '2', '5', and '6' are clearly visible within the matrix and tensor examples.

알고리즘 이해

많은 머신 러닝 알고리즘은 선형 방정식 시스템을 기반으로 구축됩니다. 선형 회귀 는 연속값을 예측하는 데 사용되는 간단하면서도 강력한 알고리즘입니다. 예측값과 실제값 사이의 오차를 최소화하는 '가장 적합한' 선이나 평면을 찾는 과정은 종종 선형 방정식 시스템을 푸는 것으로 귀결됩니다. 예를 들어, 평방피트와 침실 수를 기준으로 주택 가격을 예측할 때는 다음과 같은 방정식을 충족하기 위해 계수(가중치)를 찾아야 합니다.

$p r i c e = w_{1} * s q u a r e_{f} o o t a g e + w_{2} * n u m b e r_{o} f_{b} e d r o o m s + b$

...어디서 $w_{1}$ , $w_{2}$ 및 $b$ 는 해결해야 하는 알 수 없는 계수입니다. 이는 행렬을 사용하여 표현하고 해결할 수 있습니다. '최소 제곱'과 같은 기술은 정확한 해가 존재하지 않을 때 이러한 시스템에 대한 대략적인 해를 찾는 데 사용됩니다. 많은 경우 노이즈가 많은 실제 데이터가 이러한 경우에 해당합니다. 즉, 손실 함수를 근사화하는 것은 미적분학으로 풀린 선형 방정식의 모음으로 표현됩니다.

딥 러닝 및 신경망에서 볼 수 있는 것과 같은 더 복잡한 알고리즘은 다양한 계층을 통해 정보를 처리하기 위해 대규모 행렬 곱셈과 같은 연산에 크게 의존합니다. 신경망의 각 계층은 입력 데이터에 대해 선형 변환을 수행하며, 이는 본질적으로 입력 벡터에 가중치 행렬을 곱하는 행렬 변환입니다. 이를 통해 네트워크는 데이터 내에서 복잡한 패턴과 관계를 학습할 수 있습니다.

차원 축소

많은 실제 데이터 세트에는 각 데이터 포인트에 대한 다수의 특징(또는 변수)이 포함되어 있으며, 그 수는 때로는 수백, 수천, 수백만 개에 달합니다. 이를 고차원 데이터라고 합니다. 특징이 많을수록 모델을 더 정확하게 만들 것처럼 보일 수 있지만, 많은 경우 이는 학습을 더 어렵게 만듭니다. 고차원 데이터는 계산 리소스가 많이 들고, 저장 시 메모리가 많이 소요되며, 모델이 의미 있는 패턴을 학습하는 대신 노이즈를 기억하는 과적합이 발생하기 쉽습니다.

또 다른 문제는 차원의 저주입니다. 차원 수가 증가할수록 데이터 포인트는 특징 공간에서 점점 더 희소해지고 포인트 간 "근접성"이라는 개념은 의미가 감소합니다. 이러한 희소성으로 인해 알고리즘이 관계를 안정적으로 감지하기가 어렵습니다. 따라서 특징의 양을 줄이고 노이즈에서 신호를 추출할 수 있는 올적합한 도구를 갖추는 것이 중요합니다. 차원 축소는 원래의 구조와 중요한 정보를 최대한 보존하면서 고차원 공간에서 저차원 공간으로 데이터를 변환하는 프로세스입니다. 특징 수를 줄임으로써 실무자는 모델을 단순화하고, 일반화를 개선하고, 계산 속도를 높이고, 종종 유용한 데이터 시각화를 만들 수 있습니다.

선형 대수학은 많은 차원 축소 기술의 핵심입니다. 예를 들어, 주성분 분석은 고유값 및 고유 벡터와 같은 개념을 사용하여 데이터의 최대 분산을 포착하여 고차원 데이터 세트에서 의미 있는 속성을 나타내는 새로운 축(주성분)을 찾습니다. 데이터를 처음 몇 가지 주성분에 투영함으로써 실무자는 가장 중요한 패턴을 유지하고 덜 유용한 변형은 버립니다.

예를 들어, 수천 명의 고객을 각각 100가지의 서로 다른 특징(나이, 소득, 다양한 카테고리의 지출 등)으로 설명하는 데이터 세트가 있다고 상상해 보세요. 100개의 특징을 한 번에 모두 분석하는 것은 느리고 복잡하며 그 중 많은 기능이 중복될 수 있습니다(예: "스포츠 장비"에 대한 관심은 많은 경우 "아웃도어 장비"와 겹칩니다). PCA는 데이터 세트를 대다수의 고객 행동 변형을 요약하는 2개 또는 3개의 구성 요소로 줄여 다운스트림 알고리즘을 보다 효율적으로 시각화하고 실행할 수 있습니다.

요컨대, 차원 축소는 복잡한 데이터를 가장 유익한 부분으로 추출하는 방법이며, 선형 대수학은 이를 가능하게 하는 수학적 메커니즘을 제공합니다.

주성분 분석

고유값, 고유 벡터 및 고유 분해는 함께 선형 변환 또는 시스템의 기본 동작 모드를 설명합니다.

고유 벡터: 선형 변환(예: 벡터 공간 늘리기 또는 회전)을 상상해 보세요. 정사각형 행렬의 고유 벡터는 해당 변환이 적용될 때 스칼라 계수에 의해서만 변경되는 0이 아닌 벡터입니다. 이 벡터는 방향을 바꾸지는 않습니다. 이는 변환 중에도 안정적으로 유지되는 데이터의 특별한 방향입니다.

고유값: 고유 벡터가 확장되는 스칼라 계수입니다. 변환 중에 고유 벡터가 얼마나 늘어나거나 압축되는지 알려줍니다. PCA에서 더 큰 고유값은 데이터에서 더 많은 분산을 포착하는 주성분에 해당합니다.

고유 분해: 정사각형 행렬을 고유 벡터와 고유값 집합으로 분해하는 프로세스입니다. 주어진 행렬에 대해 고유 벡터와 고유값을 찾을 수 있으면 원래 행렬을 재구성할 수 있습니다. PCA에서 데이터의 공분산 행렬의 고유 분해를 통해 데이터의 분산을 가장 잘 나타내는 주성분(고유 벡터)을 해당 고유값에 따라 정렬하여 식별할 수 있습니다.

또 다른 강력한 기술인 특이값 분해(SVD)도 차원 축소에 중요한 역할을 하며, 추천 시스템의 행렬 인수분해와 같은 영역의 기본입니다. 고유 분해와 관련이 있지만, SVD는 정사각형 행렬뿐만 아니라 모든 행렬에 적용할 수 있으며 행렬을 구성 부분으로 분해하여 기본 구조를 드러내고 차원을 효과적으로 줄이는 보다 일반적인 방법을 제공합니다. 예를 들어, 추천 시스템에서 SVD는 사용자-항목 상호 작용 행렬을 사용자 및 항목의 잠재 기능을 나타내는 저차원 행렬로 분해한 다음 새로운 추천을 예측하는 데 사용됩니다.

최적화

많은 머신 러닝 모델에는 최적화 문제가 포함되며, 목표는 오류 함수를 최소화하거나 우도 함수를 최대화하는 모델에 가장 적합한 매개변수 집합을 찾는 것입니다. 신경망 및 기타 머신 러닝 알고리즘 학습에 광범위하게 사용되는 그래디언트 하강과 같은 알고리즘은 선형 대수를 사용하여 그래디언트(함수의 가장 가파른 상승 방향을 가리키는 벡터) 를 계산하고 모델 매개변수를 반복적으로 업데이트합니다.

최적화를 이해한다는 것은 이러한 계산과 관련된 행렬의 속성을 이해하는 것을 의미하기도 합니다. 여기에서 행렬식 및 항등 행렬과 같은 개념이 관련됩니다. 정사각형 행렬의 행렬식은 행렬에 대한 중요한 정보를 제공하는 단일 숫자입니다. 예를 들어, 0이 아닌 행렬식은 행렬이 가역적임을 나타내며(해당 행렬 반전 연산이 있음을 의미), 이는 선형 방정식 시스템을 고유하게 푸는 데 중요합니다. 행렬식이 0이면 시스템에 고유한 해가 없거나 무한히 많을 수 있으며, 이는 선형 독립성(집합의 한 벡터가 다른 벡터의 선형 조합으로 표현될 수 있음)과 같은 문제를 나타냅니다. 항등 행렬(주 대각선에 1이 있고 다른 곳에는 0이 있는 정사각형 행렬)은 행렬에 항등 행렬을 곱하면 원래 행렬이 변경되지 않고 스칼라 곱셈의 숫자 '1'처럼 작동하기 때문에 특별합니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

도구 및 추가 탐색

좋은 소식은 ML 실무자가 이러한 복잡한 계산을 수동으로 수행할 필요가 없다는 것입니다. Python과 같은 라이브러리인 NumPy는 이러한 모든 선형 대수학 개념에 대해 고도로 최적화된 함수를 제공하여 사실상 머신 러닝에서 수치 컴퓨팅의 표준이 되었습니다. 예를 들어, numpy.linalg.eig()는 고유값과 고유 벡터를 계산할 수 있으며, numpy.dot()은 점곱과 행렬 곱셈을 쉽게 처리합니다. TensorFlow와 같은 프레임워크도 내부적으로 선형 대수학을 많이 활용하여 사용자가 모델 구축에 집중할 수 있도록 낮은 수준의 세부 사항을 추상화합니다.

머신 러닝을 위한 선형 대수학에 대한 이 소개는 극히 일부분에 불과합니다. 선형 변환 및 행렬 변환과 같은 개념은 예를 들어 이미지를 회전하거나 기능을 확장하는 등 데이터를 조작하고 모양을 변경할 수 있는 방법을 설명합니다. 항등 행렬(곱할 때 벡터를 변경하지 않음) 및 직교 행렬(역행렬이 단순히 전치이므로 계산을 단순화함)과 같은 행렬 유형을 이해하는 것도 유용합니다. 일반적으로 ML에서 가우스 제거(선형 방정식 시스템을 푸는 알고리즘)를 수동으로 수행하지는 않지만, 그 원리를 이해하면 이러한 시스템이 계산적으로 어떻게 해결되는지 알 수 있습니다. 선형 독립성은 솔루션의 고유성과 벡터 공간(벡터 집합의 가능한 모든 선형 조합 집합)의 기초를 이해하는 데에도 중요합니다.

궁극적으로 선형 대수학 개념을 확실하게 이해하면 ML 실무자는 사전 구축된 머신 러닝 알고리즘을 사용할 수 있을 뿐만 아니라 내부 작동 방식을 진정으로 이해하고 효과적으로 디버깅하며 새로운 솔루션을 개발할 수도 있습니다. 이는 수십 년 동안 조용히 ML을 주도해 왔으며 인공 지능의 미래에도 계속해서 필수적인 역할을 할 것입니다.