머신 러닝 알고리즘이란 무엇인가요?

작성자

Senior Staff Writer, AI Models

IBM Think

머신 러닝 알고리즘이란 무엇인가요?

머신 러닝 알고리즘은 인공 지능(AI) 시스템인 '머신'이 학습 데이터의 패턴을 식별하고 해당 패턴 인식을 적용하여 새 데이터를 정확하게 예측하는 방법을 학습하는 절차이자 수학적 논리입니다. 머신 러닝 알고리즘은 간단한 선형 회귀 모델부터 최첨단 딥 러닝 기술에 이르기까지 현대 AI 및 데이터 과학의 기본 구성 요소입니다.

'알고리즘'과 '모델'은 종종 같은 의미로 사용되지만, 서로 (관련되어 있기는 하지만) 다른 개념의 용어입니다. 알고리즘은 특정 기능이나 목적을 수행하기 위해 일반적으로 수학적 언어 또는 의사 코드로 설명되는 단계별 프로세스를 포괄적으로 일컫는 용어입니다. 인공 지능의 맥락에서 AI 모델은 입력된 데이터를 수신하고 인간의 추가 개입 없이 예측 또는 결정을 출력하는 모든 프로그램입니다.

머신 러닝 알고리즘은 실제 사용 사례에서 유용한 예측을 할 수 있도록 머신 러닝 모델을 훈련하기 위해 정의된 단계들의 집합입니다. 모델이 인풋 데이터 포인트를 해당 아웃풋에 매핑하는 방식, 관련 예제의 훈련 데이터 세트에 '적합'하도록 모델의 예측을 최적화하는 프로세스로 구성됩니다. 기계가 데이터를 통해 학습을 하게 만드는 알고리즘 입니다.

간단히 말해서, 데이터 세트에 머신 러닝 알고리즘을 적용한 결과물은 훈련된 모델입니다. '학습'은 모델의 매개변수(모델이 인풋 데이터에 대한 예측이나 결정을 내리는 데 사용하는 수학적 논리의 조정 가능한 측면)를 더 유용한 아웃풋이 산출되도록 업데이트하는 반복 과정이라고 이해할 수 있습니다.

단일한 특정 작업을 수행하는 목적으로 모델을 훈련하도록 명시적으로 설계된 머신 러닝(ML) 알고리즘도 있지만 이는 규칙이 아닌 예외입니다. 일반적으로 ML 알고리즘 각각은 특정 유형의 작업(또는 특정 유형 또는 양의 데이터)에 유용한 특정 수학적 또는 실용적 특성을 가집니다. 대부분의 경우 동일한 머신 러닝 기술을 사용하여 여러 (유사한) 작업을 위한 모델을 훈련할 수 있습니다. 반대로, 어떤 작업을 위한 모델이든 훈련할 수 있는 ML 알고리즘은 거의 항상 여러 개가 있습니다.

ML 알고리즘의 가장 큰 이점은 AI 모델이 경험을 통해 암묵적으로 학습할 수 있다는 것입니다. 이는 데이터 과학자, 특정 영역의 전문가, ML 엔지니어가 모델의 의사 결정 논리를 명시적으로 직접 프로그래밍해야 하는 '기존' 또는 '규칙 기반' AI 기술과 대조되는 개념입니다. 지난 수십 년 동안 머신 러닝 시스템은 규칙 기반 AI보다는 인공 지능과 데이터 분석 모드로서 지배적으로 부상했습니다. 그 이유는 무엇보다도 묵시적 데이터 기반 머신 러닝이 본질적으로 더 유연하고 확장 가능하며 접근성이 높기 때문입니다.

하지만 모델을 훈련 데이터에 적합하게 맞추는 것은 목적을 위한 수단일 뿐이라는 점에 유의해야 합니다. 머신 러닝의 기본 전제는, 실제 문제와 충분히 유사한 표본 작업에서 모델이 최적의 성능을 발휘하도록 훈련시키켠 훈련 과정에서 보지 못했던 새로운 데이터를 접해도 좋은 성능을 보인다는 것입니다. 머신 러닝의 궁극적인 목표는 일반화, 처음 보는 새로운 데이터에서 성능을 발휘하는 것입니다. 학습 자체에 근시안적으로 초점을 맞추면 모델이 훈련 데이터의 패턴에 철저하게 맞춰진 지식을 익혀서 일반화를 하지 못하고, 훈련을 잘 해내더라도 실제 상황에서는 실패하는 과적합 현상을 보일 위험이 있습니다.

따라서 머신 러닝 모델을 쓸모 있게 훈련하려면 적절한 유형의 ML 알고리즘을 선택하고 구성하며, 훈련 데이터를 적절하게 구성하고, 훈련 후의 성능을 철저하게 검증해야 합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

머신 러닝 알고리즘의 유형

머신 러닝 알고리즘은 지도 학습, 비지도 학습, 강화 학습으로 분류합니다.각 학습 패러다임의 주된 차이는 고유의 목표, 해당 목표에 필요한 훈련 과제 종류, 해당 과제에서 성능을 최적화하는 데 사용되는 기술에 있습니다.

지도 학습 알고리즘은 주어진 입력에 대한 '올바른' 출력을 예측하도록, 즉 독립 변수(입력 데이터의 특징)와 종속 변수(출력 또는 '목표') 간의 관계를 학습하도록 모델을 학습시킵니다. 분류나 회귀와 같이 알려진 '실측 정보'에 비해 어느 정도 정확도가 요구되는 작업에 대한 모델을 학습하는 데 사용됩니다. 그러한 실측 정보는 일반적으로(항상 그런 것은 아니지만) 레이블이 지정된 데이터, 즉, 모델에 컨텍스트를 제공하기 위해 주석이 지정된 데이터 형태(예: 데이터 세트)로 제공됩니다. [input, output] 쌍.
비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터 세트의 고유한 패턴, 종속성 및 상관관계를 식별하도록 모델을 학습합니다. 지도 학습과 달리 비지도 학습은 아웃풋을 비교해야 하는 외부 실측 정보의 존재가 수반되지 않습니다.
강화 학습(RL) 알고리즘은 시행착오를 통해 모델을 학습시켜 환경을 평가하고 가장 큰 보상을 얻을 수 있는 조치를 취합니다. 강화 학습은 단일 근거 진실의 존재를 수반하지 않지만 "좋은" 행동(보상을 받음)과 "나쁜" 행동(불이익을 받음)을 수반하는 시나리오에 매우 적합합니다. 지도 학습 알고리즘의 목적은 오류를 최소화하는 방식으로 매개변수를 최적화하는 것이지만, 강화 학습 알고리즘의 목적은 보상을 최대화하는 방식으로 모델 매개변수를 최적화하는 것입니다.

이 세 가지 패러다임 중 어느 것도 맞지 않는 ML 알고리즘은 없지만, 분류가 상대적으로 모호한 학습 방법이 있습니다. 예를 들어, 준지도 학습은 지도 학습과 비지도 학습을 모두 결합합니다. 자기 지도 학습은 레이블이 지정되지 않은 데이터로 지도 학습을 가능하게 하는 방식으로 입력 데이터를 조작하고 학습 작업을 설계합니다.

모델은 두 가지 이상의 머신 러닝 알고리즘 유형을 사용하여 학습할 수 있습니다. 예를 들어, 대규모 언어 모델(LLM)은 일반적으로 자기 지도 학습을 통해 초기 학습('사전 학습')을 거치지만, 그런 다음 기존 지도 학습 알고리즘과 강화 학습 알고리즘을 통해 미세 조정됩니다. 마찬가지로 앙상블 학습 알고리즘은 여러 모델을 단일 "최종" 모델로 집계하는 일을 수반합니다.

머신 러닝 알고리즘은 모든 경우에 동일하게 적용되지 않습니다. 알고리즘마다 다양한 하이퍼 매개변수가 있으며, 이를 모델이 작동할 특정 시나리오와 데이터 세트에 가장 적합하도록 구성해야 합니다. 이를 피자에 비유해 봅시다. 피자를 만드는 기본 '알고리즘'은 동그란 반죽에 토마토 소스를 붓고, 그 위에 모짜렐라 치즈를 올려서 오븐에서 굽는 것으로 정의할 수 있습니다. 하지만 특정한 맛, 재료, 예산, 제약에 맞춰 '알고리즘'을 특수하게 구성하는 경우의 수는 무한에 가깝습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

지도 학습 알고리즘

모든 지도 머신 러닝 알고리즘의 공식적인 목표는 각 인풋에 대한 모델의 예측된 아웃풋과 실제 값 간의 차이('손실')를 측정하는 손실 함수의 아웃풋을 최소화하는 방식으로 모델 매개변수를 최적화하는 것입니다.

기존의 지도 학습에서는 레이블이 지정된 데이터가 실제 값을 제공합니다. 예를 들어 스팸 이메일을 감지하는 모델을 훈련하려면, 일반적으로 인간 주석자가 예제 이메일의 말뭉치를 수동으로 검토하고 각각에 '스팸' 또는 '스팸 아님'이라는 레이블을 지정합니다. 모델 학습의 목표는 주어진 이메일에 대한 모델의 아웃풋 예측이 인간이 그 이메일에 지정한 레이블과 일치하는 결과가 일관되게 나올 때까지 모델 매개변수를 조정하는 것입니다. 이 방식은 기계가 학습하는 내용을 인간이 직접 감독한다는 의미에서 '지도' 학습이라고 부릅니다. 그래서 지도 학습은 레이블이 지정된 데이터를 사용하는 머신 러닝이라고 간단하게 정의하곤 합니다.

그러나 일부 경우, 특히 최신 딥 러닝에는 매우 큰 데이터 세트와 복잡한 데이터 포인트가 필요하므로 레이블이 지정된 충분한 훈련 데이터를 얻는 데 엄청난 시간과 노동이 필요합니다. 이런 상황을 해결하는 데 큰 비중을 두고 개발된 자기 지도 학습은 레이블이 지정되지 않은 데이터에서 레이블(또는 '의사 레이블')을 유추할 수 있도록 훈련 작업을 고안합니다. 이는 레이블이 지정된 데이터가 필요하다는 지도 학습의 기존 정의에 부담을 줍니다. 따라서 지도 학습 알고리즘은 최적화의 기준이 되는 실제 값(또는 '감독 신호')과 모델 아웃풋을 실제 값에 비교하는 손실 함수가 포함되는 머신 러닝 방식이라고 더 광범위하고 적절하게 정의할 수 있습니다.

지도 학습 알고리즘은 분류 작업, 회귀 작업 또는 두 작업 모두를 위한 모델을 훈련하는 데 사용됩니다.

분류 작업에서는 데이터 포인트가 속하는 특정 범주 등을 개별적으로 예측합니다. 분류 작업은 이진('예' 또는 '아니요', '승인' 또는 '거부', '스팸' 또는 '스팸 아님'—또는 다중 분류의 형태를 띱니다.이진 분류에만 적합한 분류 알고리즘도 있지만, 모든 다중 분류 분류자는 이진 분류를 수행할 수 있습니다.
회귀는 수량, 가격, 기간, 온도 같은 연속적인 값을 예측하는 데 사용됩니다. 시계열 분석, 예측, 가격 책정, 확률 예측 등 다양한 사례에 사용됩니다.

많은 지도 학습 알고리즘이 회귀 또는 분류를 위한 모델 학습에 사용될 수 있습니다. 예를 들어 회귀를 사용하여 주어진 데이터 포인트가 각 잠재적 범주에 속할 확률을 예측한 다음, 확률이 가장 높은 범주를 출력할 수 있습니다.

일반적인 회귀 알고리즘

선형 회귀 는 기본적이고 널리 사용되는 머신 러닝 알고리즘 중 하나입니다. 선형 회귀 알고리즘은 아웃풋(종속 변수)을 하나 이상의 입력 변수(독립 변수)의 가중 조합으로 계산합니다. 각 입력 변수에 대한 최적의 가중치를 학습함으로써 알고리즘은 훈련에서 볼 수 있는 데이터 포인트에 대한 '최적 적합선'을 산출합니다. 다항식 회귀(비선형 곡선 관계를 모델링) 또는 분위수 회귀(데이터 세트의 특정 지점에서의 관계를 모델링)처럼 종속 변수와 독립 변수 간의 수학적으로 다양한 관계를 모델링하기 위해 유사한 논리를 사용하는 선형 회귀의 다양한 변형과 확장이 존재합니다.
의사 결정 트리 알고리즘은 나무처럼 생긴 다이어그램으로 시각화할 수 있는 if-then-else 결정의 분기 시퀀스를 통해 최종 아웃풋 예측에 도달합니다. 이 알고리즘은 회귀와 분류에 모두 활용할 수 있습니다. 대부분의 지도 학습 알고리즘과 달리, 이 알고리즘의 목적은 하나의 전역 손실 함수를 최소화하여 아웃풋 예측을 최적화하는 것이 아니라, 트리의 분기 노드 각각의 예측 능력을 최적화하는 것입니다.
상태 공간 모델(SSM)은 두 개의 상호 연관된 방정식을 통해 동적 시스템과 순차적 데이터를 모델링합니다. 하나는 상태 방정식으로, 직접 관측할 수 없는 시스템의 내부 역학('상태')을 설명합니다. 다른 하나는 출력 방정식으로, 이러한 내부 역학 관계가 관측 가능한 결과, 즉 시스템 출력과 어떤 관련이 있는지 설명합니다. 이러한 기술은 전기공학부터 재무 예측, 자연어 처리(NLP)까지 다양한 분야에서 사용됩니다.

일반적인 분류 알고리즘

나이브 베이즈 분류기는 기본적으로 이후 이벤트(예: 결과)의 정보를 사용하여 이전 이벤트(예: 입력)에 대한 이해를 업데이트할 수 있다는 아이디어의 수학적 공식인 베이즈 정리의 논리를 기반으로 작동합니다. 즉, 모델은 특정 결과와 얼마나 강한 상관관계가 있는지에 따라 주어진 입력 변수의 상대적 중요도를 학습합니다. 동명의 '나이브'한 가정은 분류에 기여하는 모든 특징이 상호 독립적이라는 것입니다. 이러한 단순화로 인해 알고리즘은 스팸 탐지와 같은 간단한 작업에 빠르고 효과적입니다.
로지스틱 회귀는 입력 특징의 가중치가 적용된 합을 시그모이드 함수에 공급하여 모든 입력을 0과 1 사이의 값으로 밀어내는 방식으로 선형 회귀 알고리즘을 조정해 이진 분류 문제를 해결합니다. 결과 값은 주어진 이벤트(이 경우 특정 분류)가 발생할 확률로 해석될 수 있습니다.
K-최근접 이웃(KNN) 알고리즘은 유사한 데이터 포인트가 서로 근처에서 발견될 수 있다는 가정 하에 이미 분류된(즉, 레이블이 지정된) 다른 데이터 포인트에 대한 벡터 임베딩 공간에서의 근접성을 기반으로 데이터 포인트를 분류합니다. k는 얼마나 많은 이웃 데이터 포인트가 고려되는지를 나타냅니다. 예를 들어,k = 5인 KNN 알고리즘에서 입력 데이터 포인트는 가장 가까운 이웃 5개와 비교되어 이 가장 가까운 이웃 데이터 포인트 5개 중 가장 많이 나타나는 카테고리에 따라 분류됩니다.
지원 벡터 머신(SVM)은 표면적으로는 이진 분류를 수행하지만 다중 클래스 분류 문제에도 적용할 수 있는 강력한 모델입니다. SVM 알고리즘의 목표는 데이터 포인트를 분류하는 방법을 직접 학습하는 것이 아니라 레이블이 지정된 데이터 포인트의 두 범주를 구분하는 최적의 결정 경계를 학습하여 데이터 포인트가 경계의 어느 쪽에 속하는지에 따라 새 데이터 포인트를 분류하는 것입니다. SVM 알고리즘은 이 경계를 반대 클래스의 데이터 포인트 사이의 마진(또는 간격)을 최대화하는 초평면으로 정의하며, 이는 반지도 학습의 저밀도 가정과 유사한 개념입니다. 논리적으로 해당 초평면의 계산을 지원할 수 있는 유일한 데이터 요소는 경계에 가장 가까운 각 클래스의 데이터 요소입니다. 따라서 경계에 인접한 데이터 포인트의 벡터 임베딩을 지원 벡터라고 합니다.

자기 지도 학습 알고리즘

자기 지도 학습 알고리즘의 목표는, 레이블이 지정되지 않은 데이터 구조 자체를 감시 신호에 사용하도록 작업을 설계해서 레이블이 지정된 데이터 없이 지도 학습을 수행하는 것입니다. 자기 지도 학습 기술은 보통 자기 예측 또는 대조 학습 중 하나에 속합니다.

자기 예측

자기 예측 알고리즘은 데이터 포인트에 대해 다른 정보가 주어졌을 때 해당 데이터 포인트의 한 측면을 예측하도록 모델을 훈련합니다. Yann LeCun은 이 방식의 목표를 '입력 값의 일부가 있다고 가정하고 이를 예측하는 것'이라고 간단하게 설명했습니다.¹예를 들어 봅시다.

다른 부분을 사용하여 입력 부분 예측
과거를 사용하여 미래 예측
노출된 부분을 사용하여 마스킹된 부분 예측
사용 가능한 모든 부분을 사용하여 가려진 부분 예측

자체 예측을 사용하여 학습된 모델은 일반적으로 차별적이기보다는 생성적입니다. 자체 예측 알고리즘을 사용하여 학습된 머신 러닝 모델의 대표적인 예로는 오토인코더 및 대규모 언어 모델(LLM)이 있습니다.

오토인코더는 원래 입력을 잠재 변수로만 압축한 후 재구성하는 임무를 맡습니다. 원본 입력은 실측 정보로 사용됩니다.
ChatGPT가 출시되면서 유명해진 자기 회귀 LLM 텍스트 생성 모델은 해당 시퀀스의 과거 토큰만 주어지면 시퀀스의 다음 토큰을 반복적으로 예측하는 임무를 수행합니다. 예측 각각에서, 시퀀스에 있는 실제 다음 토큰이 실제 값으로 사용됩니다.

대조 학습

대조 학습 알고리즘은 모델에 데이터 샘플을 여럿 제공하고 모델이 서로 얼마나 다른지(또는 비슷한지) 예측하는 작업을 수행합니다. 데이터 포인트 쌍은 데이터 증강을 통해 생성하는 경우가 많습니다. 데이터 증강은 레이블이 지정되지 않은 데이터를 변환하거나 교란하여 새로운 인스턴스나 증강된 뷰를 만드는 것을 말합니다. 예를 들어 영상 데이터에 대한 일반적인 증강 기술에는 회전, 무작위 자르기, 뒤집기, 노이즈, 필터링 및 색상화 등이 포함됩니다.

대조 학습은 컴퓨팅 비전 모델 학습에 주로 사용됩니다. 예를 들어 모델이 하나의 물체를 각기 다른 각도에서 보고 인식하는 방법을 학습하는 데 도움이 될 수 있습니다. 이는 멀티모달 AI 학습에도 필수적입니다. 예를 들어 모델이 하나의 데이터 양식(예: 텍스트 등)에서 다른 데이터 양식(예: 음성 또는 이미지)으로 벡터 임베딩을 '변환'하는 방법을 학습하는 데 도움이 될 수 있습니다.

비지도 학습 알고리즘

비지도 머신 러닝은 레이블이 지정되지 않은 데이터에서 고유한 패턴, 상관 관계 및 구조를 발견하도록 모델을 가르치는 데 사용됩니다. 모델이 출력하기 위해 학습할 '정답' 답변이 존재하는 지도 학습, 또는 모델이 수행할 수 있는 '좋은' 작업과 '나쁜' 작업이 여럿 있는 강화 학습과 다르게 비지도 학습은 이상적인 출력을 미리 알 수 없는 상황에 가장 유용합니다.

이러한 목표에는 사전 정의된 실제 값이나 보상 구조가 적용되지 않으므로 '감독을 받지 않는다'고 할 수 있습니다. 그래서 비지도 학습 알고리즘에는 손실 함수가 수반되지 않습니다. 알려진 이상적 아웃풋을 기준으로 측정하고 최적화하는 작업이 아니기 때문입니다. 학습 프로세스의 성공 여부는 모델의 내부 매개변수를 최적화하는 알고리즘이 아니라, 주로 수동 하이퍼매개변수 조정에 의해 결정됩니다.

비지도 학습 알고리즘에는 클러스터링 알고리즘, 연관 알고리즘, 차원 축소 알고리즘이라는 세 가지 하위 집합이 있습니다.

클러스터링 알고리즘

클러스터링 알고리즘은 시장 세분화 같은 작업을 위해 레이블이 지정되지 않은 데이터 포인트를 서로의 근접성 또는 유사성에 따라 '클러스터' 내지는 그룹으로 분할합니다. 또한 모든 데이터 포인트를 정렬해야 하는 클러스터를 학습하고 이상값 데이터 포인트가 해당 클러스터 어디에도 적합하지 않는 경우를 식별하여 이상 징후 감지를 위한 예측 모델로 사용할 수도 있습니다.

K-평균 클러스터링 알고리즘은 주어진 데이터 포인트에서 데이터를 k개의 클러스터로 분할하여 중심(중심점)에 가까운 클러스터에 할당합니다. 이 프로세스는 무작위로 지정되는(그러나 특정 규칙에 따라 결정될 수도 있는) k 중심점의 처음 위치에서 시작됩니다. 각 데이터 포인트는 가장 가까운 중심점의 클러스터에 할당됩니다. 그런 다음, 각 중심점이 방금 할당된 모든 데이터 포인트의 평균(mean)을 나타내는 위치로 재배치됩니다. 데이터 포인트는 가장 가까운 중심점에 따라 다시 한 번 클러스터링되고 각 중심점의 위치가 다시 조정됩니다. 각 클러스터의 중심점 위치가 안정화될 때까지 이 과정이 반복적으로 진행됩니다.

가우시안 혼합 모델(GMM)은 '소프트' 클러스터링 알고리즘입니다. GMM은 데이터 세트가 여러 가우시안 분포, 즉 고전적인 '정규' 또는 '종형 곡선' 분포의 혼합이라고 가정하고, 주어진 데이터 포인트가 클러스터에 속할 확률을 예측합니다. GMM 알고리즘은 데이터 세트에 가장 적합한 각 가우시안 분포에 대한 매개변수(특히 각 분포의 평균, 분산 및 가중치)를 학습하도록 설계되었습니다.

DBSCAN(노이즈가 있는 밀도 기반 공간 클러스터링 애플리케이션)은 서로 밀집된 데이터 포인트에서 클러스터를 생성합니다. 모든 데이터 포인트를 클러스터로 묶는 대신, 저밀도 영역에 단독으로 위치한 데이터 포인트를 이상값으로 표시합니다. 특정 수의 인접 데이터 포인트가 지정된 반경 안에 있는지 여부를 기반으로, 클러스터에 속할 수 있을 만큼 밀도가 높은 영역을 식별합니다. DBSCAN은 k-평균과 달리 임의의 형태의 클러스터를 찾을 수 있으며 미리 클러스터 수를 지정할 필요가 없습니다.

연관 알고리즘

연관 알고리즘은 대규모 데이터 세트에서 변수 간의 상관 관계를 식별합니다. 이는 장바구니 분석이나 제품 추천 엔진과 같은 작업에 주로 사용됩니다. 예를 들어 전자 상거래 서비스에서 연관 알고리즘을 사용하면, 함께 구매하는 경우가 많은 품목들을 식별하고 해당 정보를 활용해서 관련 품목 재고들을 동적으로 홍보할 수 있습니다.
선험적 알고리즘 은 고전적인 연관 방법입니다. 알고리즘은 '상향식' 접근 방식을 사용하여 데이터 세트를 여러 번 통과하여 개별 항목의 조합이 점진적으로 커지고 자주 나타나지 않는 가지치기 조합의 빈도를 탐색합니다. 선험적 원칙에서는 대규모 그룹화가 빈번한 것으로 간주되면 해당 그룹화의 하위 집합도 빈번해야 하고, 반대로 소규모 그룹화가 낮은 빈도로 이루어진다고 간주되면 그 그룹화가 포함된 상위 집합도 빈도가 낮아야 합니다. 선험적 알고리즘은 단순하고 적응력이 뛰어나지만 메모리 집약적이고 컴퓨팅 비용이 많이 들 수 있습니다.
동적 항목집합 계산(DIC)은 기존 선험적 알고리즘과 유사한 논리로 작동하지만, 연산 측면에서 더 효율적인 연결 방법입니다. 각 패스에서 데이터 세트 전체를 탐색하는 대신, 데이터베이스의 하위 집합으로만 시작한 다음 주기적으로 새 항목을 추가하여 '동적'으로 초점을 확장합니다.

CHARM(Closed Association Rule Mining의 약자 - CHARM 논문의 저자는 'H는 불필요하다'고 언급)²과CARMA(Continuous Association Rule Mining Algorithm) ³도 주목할 만한 연관 알고리즘입니다.

차원 축소 알고리즘

차원 축소 알고리즘은 데이터 포인트를 가져와서 해당 데이터 포인트를 더 효율적으로 나타내는 아웃풋을 내도록 설계되었습니다. 더 구체적으로 말하면, 이러한 알고리즘은 더 적은 특징을 사용하여 정확하게 설명할 수 있는 공간에 고차원 데이터 포인트를 매핑하는 방법을 배우도록 설계되었습니다. 다시 말해, 데이터를 효과적으로 표현하는 데 필요한 차원 수를 줄이는 것 입니다.

차원 축소는 보통 데이터 전처리 단계에서 수행되며, 예측을 개선하거나 컴퓨팅 요구를 줄이기 위해 데이터의 복잡성과 노이즈를 줄이는 데 도움이 됩니다. 이는 데이터 세트의 잠재 공간 모델링에서 필수적인 단계입니다. 주어진 작업과 가장 관련성이 높은 특징 집합만 남긴 데이터 압축(저차원) 상태를 나타냅니다. 다른 일반적인 차원 축소 사용 사례로는 데이터 압축과 데이터 시각화가 있습니다.

주성분 분석(PCA)은 데이터 세트의 원래 변수(서로 상관관계가 있는 경우가 많아 다소 중복됨)를 상관관계가 없는 변수의 더 작은 하위 집합으로 요약하여 복잡한 데이터 세트를 단순화합니다. 더 구체적으로 설명하자면, 알고리즘이 데이터의 주성분, 즉 다른 선형 조합에 비해 가장 분산이 가장 큰 변수의 선형 조합에 우선순위를 둡니다.
t-분산 확률적 이웃 임베딩(t-SNE)은 데이터 시각화에 주로 사용되는 비선형 차원 축소 알고리즘입니다. 2차원 또는 3차원의 데이터를 나타내는 데 거의 독점적으로 사용되며, 주된 목표는 고차원 공간에서 서로 가까운 데이터 요소가 새로운 저차원 공간에서 서로 가깝게 유지되게 하는 것입니다.
오토인코더는 일반적으로 자기 지도 학습 알고리즘이라고 간주할 수 있는 것(손실 함수를 최소화하는 것이 목표라는 점에서)을 통해 훈련된 일종의 인코더-디코더 신경망 아키텍처이지만, 레이블이 지정되지 않은 데이터의 차원 축소를 수행합니다. 이 경우에는 잠재 공간을 모델링합니다. 인코더는 점진적으로 작아지는 일련의 레이어로 구성되며, 인풋 데이터가 디코더에 도달하기 전에 데이터를 점점 적은 차원으로 '압착'하는 '병목 현상'을 통과하게 합니다. 점진적으로 커지는 일련의 레이어로 구성된 디코더는 재구성 손실을 최소화하기 위해 이 압축된 표현을 사용하여 원본 데이터를 재구성하는 임무를 맡습니다. 따라서 인코더는 원본 입력을 정확하게 재구성하는 데 가장 도움이 되는 정보만 추출하여 전달하는 방법을 학습해야 합니다.

준지도 학습 알고리즘

일반적으로 지도 학습 방법과 동일한 사용 사례에 사용되는 준지도 학습은 레이블이 지정된 데이터의 하위 집합과 함께 레이블이 지정되지 않은 데이터를 모델 훈련에 통합하는 기술이라는 점이 특징입니다. 레이블이 지정된 데이터를 충분히 확보하기가 매우 어렵거나 비용이 많이 들지만 레이블이 지정되지 않은 관련 데이터를 비교적 쉽게 획득할 수 있는 상황에 특히 유용합니다.

준지도 학습에 사용되는 레이블이 지정되지 않은 예제는 모델이 수행하도록 학습하는 작업과 관련이 있어야 합니다. 예를 들어 고양이와 개 사진을 구별하기 위해 이미지 분류기를 훈련한다면 레이블이 지정되지 않은 고양이와 개 이미지가 훈련에 도움이 될 수 있습니다. 그러나 말과 오토바이 이미지는 도움이 되지 않습니다. 이 조건은 준지도 방법의 형식적 논리를 제공하는 데이터 포인트가 서로 어떻게 연관되는지에 대한 일련의 가정을 알려줍니다.

준지도 학습 알고리즘은 일반적으로 변환적, 귀납적, 본질적인 자기 지도 방식으로 분류됩니다.

변환적 방법은 훈련 과정에서 제공되는, 레이블이 지정되지 않은 데이터 포인트를 분류해서 이후 전형적인 지도 학습 알고리즘에 적용할 수 있게 하는 데 중점을 둡니다. 예를 들어 레이블 전파는, 알려진 레이블을 그래프의 인접한 노드에 있는 데이터 포인트에 '전파'하여 레이블이 지정되지 않은 데이터에 대한 '의사 레이블'을 추론하는 그래프 기반 방법입니다.
귀납적 방법은 훈련에 사용되는 레이블이 지정되지 않은 데이터, 보이지 않는 새로운 데이터 포인트를 모두 분류하도록 일반화 가능한 모델을 구축하는 것이 목표입니다. 자체 훈련에서, 모델은 먼저 레이블이 지정된 작은 데이터 세트에서 기존의 지도 학습으로 훈련을 받습니다. 그런 다음 레이블이 지정되지 않은 데이터 포인트에 대한 확률적 예측을 수행하는 임무를 맡습니다. 이때 특정 신뢰 임계값을 초과하는 예측만 허용됩니다. 공동 훈련은 앙상블 학습을 통해 자체 훈련을 확장하여, 데이터의 다양한 특징에 대해 다양한 유형의 기본 학습자를 훈련합니다. 클러스터 후 레이블 지정 방법은 모든 가용 데이터 포인트에 대해 비지도 클러스터링을 수행한 다음, 해당 클러스터 안에서 가장 자주 표현되는 레이블을 기반으로 클러스터마다 레이블을 할당합니다.
사다리 네트워크와 같은 일부 알고리즘⁴또는 준지도 서포트 벡터 머신(S3VM)⁵은 본질적으로 준지도 학습을 위해 설계되었습니다(반면 전환적 및 귀납적 방법은 전형적인 지도 학습 알고리즘에 적응하거나 단계를 추가합니다).

강화 학습 알고리즘

강화 학습(RL) 알고리즘은 하나의 '올바른' 아웃풋(또는 동작)은 없지만 '좋은' 아웃풋들이 있는 작업에 적합합니다. 로보틱, 비디오 게임, 추론 모델, 그 밖에 가능한 솔루션과 접근 방식의 공간이 유독 크거나, 개방적이거나, 정의하기 어려운 사용 사례에서 두드러지게 사용됩니다. RL 용어로는, 훈련 받는 개체를 보통 '에이전트'라고 부릅니다.

감독 신호와 명시적으로 정의된 작업 대신, 모델이 시행착오를 통해 전체적인 학습을 할 수 있게 하는 보상 신호를 수반합니다. 이러한 보상 신호는 보상 함수, 별도로 훈련된 보상 모델 또는 규칙 기반 보상 시스템에서 나올 수 있습니다.

RL 알고리즘은 정책을 최적화합니다.수학적으로 말하면 정책(π)은 상태(s)를 입력 값으로 받아 작업(a)을 반환하는 함수입니다: π(s)→a . RL 알고리즘의 목표는 주어진 상태에 대해 보상을 최대치로 얻을 수 있는 조치를 취하는 정책을 학습하는 것입니다.

RL 알고리즘은 값 기반 또는 정책 기반일 수 있습니다.정책 기반 알고리즘에서 모델은 최적의 정책을 직접 학습합니다. 가치 기반 알고리즘에서 에이전트는 일반적으로 해당 상태에서 취할 수 있는 행동에 대한 잠재적 보상을 기반으로 각 상태가 얼마나 '좋은지'에 대한 점수를 계산하는 가치 함수를 학습한 다음, 더 높은 가치의 상태로 이어지는 행동을 선택합니다. 하이브리드 접근 방식은 가치 함수를 학습한 다음 정책을 최적화하는 데 사용됩니다.

주목할만한 강화 알고리즘:

가치 기반 방법에서 파생된 Q-러닝
인간 피드백을 통한 강화 학습(RLHF)에서 주로 사용되는 정책 기반 방법인 근거리 정책 최적화(PPO)
가치 기반 방법과 정책 기반 방법을 혼합하여 사용하는 어드밴티지 액터-크리틱(A2C)과 같은 액터-크리틱 및 파생 방법
REINFORCE (REward Increment = Nonnegative Factor × Offset Reinforcement × Characteristic Eligibility)의 약자), 중요한 정책 기반 방법

앙상블 학습 알고리즘

앙상블 학습은 여러 머신 러닝 알고리즘(이 맥락에서는 보통 '학습자'라고 부름)을 결합하여 구성 알고리즘만으로 가능한 것보다 정확하거나 안정적인 성능에 도달하는 기술을 말합니다.

앙상블 학습 알고리즘은 보통 부스팅, 스태킹 또는 배깅 기술을 활용합니다.

부스팅

부스팅 알고리즘은 모델을 순차적으로 구축하며, 후속 새 모델 각각은 이전 모델의 오류를 수정하도록 훈련됩니다. 초반에 '약한' 학습자들이 나오다가 나중에는 아주 정확도가 높은 하나의 '강한' 학습자가 됩니다.

적응형 부스팅(AdaBoost)은 원래 이전 모델이 잘못 분류했던 인스턴스에 더 큰 가중치를 부여하여 후속 모델에 대한 업데이트가 해당 훈련 예제의 성능 향상에 우선순위를 두도록 합니다. 최종 예측은 가중 다수결 투표로 결정되며, 나중에 나온 모델이 정확할수록 최종 아웃풋에 더 큰 영향을 미칩니다.
그라디언트 부스팅은 이전 모델이 실수했던 데이터 포인트보다 이전 학습자가 만든 오류에 초점을 맞춥니다. 더 구체적으로, 주어진 데이터 포인트에서 이전 모델이 저지른 오류를 학습(즉, 예측)하도록 각 모델을 훈련합니다. 앙상블은 각 후속 모델의 예측을 집계해서, 궁극적으로 원래 데이터 포인트에 대한 올바른 아웃풋을 리버스 엔지니어링할 수 있습니다. XGBoost (eXtreme Gradient Boosting의 약자)는 그라디언트 부스팅을 효율적으로 구현하기 위한 오픈 소스 머신 러닝 라이브러리입니다.

배깅

부트스트랩 집계라고도 하는 배깅 알고리즘은 학습 데이터 세트에서 무작위로 샘플링된 각기 다른 하위 집합들로 여러 모델을 병렬 학습시킨 다음 투표(분류 문제) 또는 회귀(회귀 문제)를 통해 예측을 결합합니다. 이 방식은 분산을 줄이고 과적합을 방지하는 데 매우 효과적입니다.

예를 들어 랜덤 포레스트 알고리즘은 배깅을 사용하여 상관 관계가 없는 의사결정트리 모델의 앙상블을 구성합니다.

스태킹

스태킹 알고리즘은 여러 기본 학습자(각각 특정 유형의 예측을 전문으로 하는 경우가 많음)의 예측을 결합한 다음, 이러한 기본 모델의 아웃풋에 대한 최종 '메타 모델'을 학습시켜 보다 정확한 예측을 위해 예측을 가장 잘 결합하는 방법을 학습합니다. 강력한 최종 결과물을 제공합니다.

지식 증류 기술과 관련해, 최종 모델은 기본 학습자의 최종 아웃풋 예측('중요 목표')은 물론 중간 아웃풋('로짓' 또는 '쉬운 목표')에 대해서도 훈련을 해 '사고 과정'을 복제하고자 합니다.

딥 러닝 알고리즘

딥 러닝은 다층 인공 신경망을 사용하는 것으로 정의되는 머신 러닝의 하위 집합입니다. 보통 레이블이 지정된 데이터에 대한 지도 학습을 통해, 또는 레이블이 지정되지 않은 데이터에 대한 자기 지도 학습을 통해(특히 생성형 AI 모델의 경우) 훈련합니다. 심층 강화 학습에서 심층 신경망은 RL 에이전트의 정책 역할을 합니다. 딥 러닝은 2010년대 초반부터 최첨단 인공지능 분야의 발전을 주도해 왔습니다. 가장 중요한 장점 중 하나는, 기존 머신 러닝에서는 수동으로 수행하곤 하던 특징 엔지니어링 프로세스를 자동화하는 기능입니다.

'전통적' 머신 러닝의 명시적으로 정의된 알고리즘과 달리, 딥 러닝 모델은 각각 수학 연산('활성화 함수')을 수행하는 상호 연결된 '뉴런'(또는 '노드') 여러 계층으로 구성됩니다. 각 뉴런의 활성화 함수에 대한 입력은, 이전 계층의 뉴런 각각의 활성화 함수 아웃풋의 가중 조합입니다. 최종 계층의 뉴런은 모델의 최종 아웃풋을 연산합니다. 여기서 중요한 점은, 각 노드에서 수행되는 활성화 함수가 비선형이며 신경망으로 하여금 복잡한 패턴과 종속성을 모델링하게 한다는 점입니다. 최신 AI에서 신경망은 가장 일반적으로 최첨단 딥 러닝과 연관되어 있지만, 제한된 볼츠만 머신과 같은 '비심층' 신경망은 수십 년 동안 사용되어 왔습니다.

딥 러닝 알고리즘의 분산 구조는 놀라운 힘과 다양성을 제공합니다. 학습 데이터를 2차원 그래프에 흩어져 있는 데이터 포인트라고 상상해 보세요. 이때 모델 학습의 목표는 각 데이터 포인트를 통과하는 선을 찾는 것입니다. 전통적인 머신 러닝 알고리즘은 단일 선(또는 곡선)을 생성하는 단일 수학 함수로 이 작업을 시도하는 반면, 딥 러닝 알고리즘은 개별적으로 조정할 수 있는 더 작은 수의 선을 조합하여 원하는 모양을 형성할 수 있습니다. 심층 신경망은 보편적인 근사치로,모든 함수에 대해 이를 재현할 수 있는 신경망 배열이 존재한다는 것이 이론적으로 입증되었습니다.⁶

아키텍처와 알고리즘 비교

딥 러닝의 맥락에서 특정 모델 유형은 알고리즘과 관련되지만 구별되는 개념인 '아키텍처'로 불리는 경우가 많습니다.
신경망 아키텍처는 레이어의 수와 크기, 특수 레이어의 사용, 활성화 기능의 선택 등 레이아웃을 의미합니다. 동일한 신경망 아키텍처를 여러 종류의 작업 중 하나를 수행하거나 여러 데이터 양식 중 하나를 처리하도록 학습시킬 수 있습니다.
딥 러닝 알고리즘은 모델에 사용되는 신경망 아키텍처뿐만 아니라, 해당 모델이 훈련 받은 작업과 해당 작업에 맞게 모델을 최적화하는 단계까지 아우릅니다.

오토인코더 고려: 아키텍처 측면에서 오토인코더는 인코더-디코더 모델로, 인코더 네트워크는 점진적으로 작은 계층을 특징으로 하는 반면 디코더 네트워크는 점진적으로 더 큰 계층을 특징으로 합니다. 그러나 오토인코더는 많은 인코더-디코더 모델 중 하나일 뿐입니다. 예를 들어, 이미지 분할 모델은 아키텍처가 매우 유사한데, 이러한 아키텍처에서 점진적으로 작아지는 컨볼루션 계층은 데이터를 다운샘플링하여 주요 특징을 격리 및 세분화하고, 이어서 점진적으로 더 커지는 계층이 (세분화된) 데이터를 업샘플링하여 원래 크기로 되돌립니다.

오토인코더를 만드는 것은 아키텍처가 아니라 이를 학습하는 데 사용되는 알고리즘에 있습니다. 오토인코더는 원본 학습을 재구성하는 작업을 수행하고 모델 학습을 통해 최적화되어 재구성 손실을 측정하는 함수를 최소화합니다(많은 경우 추가적인 정규화 항으로 수정됨).아키텍처는 동일하지만 다른 작업을 수행하도록 학습되고 다른 목표에 최적화된 모델은 오토인코더가 아닙니다.