업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
머신 러닝 알고리즘은 인공 지능(AI) 시스템인 '머신'이 학습 데이터의 패턴을 식별하고 해당 패턴 인식을 적용하여 새 데이터를 정확하게 예측하는 방법을 학습하는 절차이자 수학적 논리입니다. 머신 러닝 알고리즘은 간단한 선형 회귀 모델부터 최첨단 딥 러닝 기술에 이르기까지 현대 AI 및 데이터 과학의 기본 구성 요소입니다.
'알고리즘'과 '모델'은 종종 같은 의미로 사용되지만, 서로 (관련되어 있기는 하지만) 다른 개념의 용어입니다. 알고리즘은 특정 기능이나 목적을 수행하기 위해 일반적으로 수학적 언어 또는 의사 코드로 설명되는 단계별 프로세스를 포괄적으로 일컫는 용어입니다. 인공 지능의 맥락에서 AI 모델은 입력된 데이터를 수신하고 인간의 추가 개입 없이 예측 또는 결정을 출력하는 모든 프로그램입니다.
머신 러닝 알고리즘은 실제 사용 사례에서 유용한 예측을 할 수 있도록 머신 러닝 모델을 훈련하기 위해 정의된 단계들의 집합입니다. 모델이 인풋 데이터 포인트를 해당 아웃풋에 매핑하는 방식, 관련 예제의 훈련 데이터 세트에 '적합'하도록 모델의 예측을 최적화하는 프로세스로 구성됩니다. 기계가 데이터를 통해 학습을 하게 만드는 알고리즘 입니다.
간단히 말해서, 데이터 세트에 머신 러닝 알고리즘을 적용한 결과물은 훈련된 모델입니다. '학습'은 모델의 매개변수(모델이 인풋 데이터에 대한 예측이나 결정을 내리는 데 사용하는 수학적 논리의 조정 가능한 측면)를 더 유용한 아웃풋이 산출되도록 업데이트하는 반복 과정이라고 이해할 수 있습니다.
단일한 특정 작업을 수행하는 목적으로 모델을 훈련하도록 명시적으로 설계된 머신 러닝(ML) 알고리즘도 있지만 이는 규칙이 아닌 예외입니다. 일반적으로 ML 알고리즘 각각은 특정 유형의 작업(또는 특정 유형 또는 양의 데이터)에 유용한 특정 수학적 또는 실용적 특성을 가집니다. 대부분의 경우 동일한 머신 러닝 기술을 사용하여 여러 (유사한) 작업을 위한 모델을 훈련할 수 있습니다. 반대로, 어떤 작업을 위한 모델이든 훈련할 수 있는 ML 알고리즘은 거의 항상 여러 개가 있습니다.
ML 알고리즘의 가장 큰 이점은 AI 모델이 경험을 통해 암묵적으로 학습할 수 있다는 것입니다. 이는 데이터 과학자, 특정 영역의 전문가, ML 엔지니어가 모델의 의사 결정 논리를 명시적으로 직접 프로그래밍해야 하는 '기존' 또는 '규칙 기반' AI 기술과 대조되는 개념입니다. 지난 수십 년 동안 머신 러닝 시스템은 규칙 기반 AI보다는 인공 지능과 데이터 분석 모드로서 지배적으로 부상했습니다. 그 이유는 무엇보다도 묵시적 데이터 기반 머신 러닝이 본질적으로 더 유연하고 확장 가능하며 접근성이 높기 때문입니다.
하지만 모델을 훈련 데이터에 적합하게 맞추는 것은 목적을 위한 수단일 뿐이라는 점에 유의해야 합니다. 머신 러닝의 기본 전제는, 실제 문제와 충분히 유사한 표본 작업에서 모델이 최적의 성능을 발휘하도록 훈련시키켠 훈련 과정에서 보지 못했던 새로운 데이터를 접해도 좋은 성능을 보인다는 것입니다. 머신 러닝의 궁극적인 목표는 일반화, 처음 보는 새로운 데이터에서 성능을 발휘하는 것입니다. 학습 자체에 근시안적으로 초점을 맞추면 모델이 훈련 데이터의 패턴에 철저하게 맞춰진 지식을 익혀서 일반화를 하지 못하고, 훈련을 잘 해내더라도 실제 상황에서는 실패하는 과적합 현상을 보일 위험이 있습니다.
따라서 머신 러닝 모델을 쓸모 있게 훈련하려면 적절한 유형의 ML 알고리즘을 선택하고 구성하며, 훈련 데이터를 적절하게 구성하고, 훈련 후의 성능을 철저하게 검증해야 합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
머신 러닝 알고리즘은 지도 학습, 비지도 학습, 강화 학습으로 분류합니다.각 학습 패러다임의 주된 차이는 고유의 목표, 해당 목표에 필요한 훈련 과제 종류, 해당 과제에서 성능을 최적화하는 데 사용되는 기술에 있습니다.
이 세 가지 패러다임 중 어느 것도 맞지 않는 ML 알고리즘은 없지만, 분류가 상대적으로 모호한 학습 방법이 있습니다. 예를 들어, 준지도 학습은 지도 학습과 비지도 학습을 모두 결합합니다. 자기 지도 학습은 레이블이 지정되지 않은 데이터로 지도 학습을 가능하게 하는 방식으로 입력 데이터를 조작하고 학습 작업을 설계합니다.
모델은 두 가지 이상의 머신 러닝 알고리즘 유형을 사용하여 학습할 수 있습니다. 예를 들어, 대규모 언어 모델(LLM)은 일반적으로 자기 지도 학습을 통해 초기 학습('사전 학습')을 거치지만, 그런 다음 기존 지도 학습 알고리즘과 강화 학습 알고리즘을 통해 미세 조정됩니다. 마찬가지로 앙상블 학습 알고리즘은 여러 모델을 단일 "최종" 모델로 집계하는 일을 수반합니다.
머신 러닝 알고리즘은 모든 경우에 동일하게 적용되지 않습니다. 알고리즘마다 다양한 하이퍼 매개변수가 있으며, 이를 모델이 작동할 특정 시나리오와 데이터 세트에 가장 적합하도록 구성해야 합니다. 이를 피자에 비유해 봅시다. 피자를 만드는 기본 '알고리즘'은 동그란 반죽에 토마토 소스를 붓고, 그 위에 모짜렐라 치즈를 올려서 오븐에서 굽는 것으로 정의할 수 있습니다. 하지만 특정한 맛, 재료, 예산, 제약에 맞춰 '알고리즘'을 특수하게 구성하는 경우의 수는 무한에 가깝습니다.
모든 지도 머신 러닝 알고리즘의 공식적인 목표는 각 인풋에 대한 모델의 예측된 아웃풋과 실제 값 간의 차이('손실')를 측정하는 손실 함수의 아웃풋을 최소화하는 방식으로 모델 매개변수를 최적화하는 것입니다.
기존의 지도 학습에서는 레이블이 지정된 데이터가 실제 값을 제공합니다. 예를 들어 스팸 이메일을 감지하는 모델을 훈련하려면, 일반적으로 인간 주석자가 예제 이메일의 말뭉치를 수동으로 검토하고 각각에 '스팸' 또는 '스팸 아님'이라는 레이블을 지정합니다. 모델 학습의 목표는 주어진 이메일에 대한 모델의 아웃풋 예측이 인간이 그 이메일에 지정한 레이블과 일치하는 결과가 일관되게 나올 때까지 모델 매개변수를 조정하는 것입니다. 이 방식은 기계가 학습하는 내용을 인간이 직접 감독한다는 의미에서 '지도' 학습이라고 부릅니다. 그래서 지도 학습은 레이블이 지정된 데이터를 사용하는 머신 러닝이라고 간단하게 정의하곤 합니다.
그러나 일부 경우, 특히 최신 딥 러닝에는 매우 큰 데이터 세트와 복잡한 데이터 포인트가 필요하므로 레이블이 지정된 충분한 훈련 데이터를 얻는 데 엄청난 시간과 노동이 필요합니다. 이런 상황을 해결하는 데 큰 비중을 두고 개발된 자기 지도 학습은 레이블이 지정되지 않은 데이터에서 레이블(또는 '의사 레이블')을 유추할 수 있도록 훈련 작업을 고안합니다. 이는 레이블이 지정된 데이터가 필요하다는 지도 학습의 기존 정의에 부담을 줍니다. 따라서 지도 학습 알고리즘은 최적화의 기준이 되는 실제 값(또는 '감독 신호')과 모델 아웃풋을 실제 값에 비교하는 손실 함수가 포함되는 머신 러닝 방식이라고 더 광범위하고 적절하게 정의할 수 있습니다.
지도 학습 알고리즘은 분류 작업, 회귀 작업 또는 두 작업 모두를 위한 모델을 훈련하는 데 사용됩니다.
많은 지도 학습 알고리즘이 회귀 또는 분류를 위한 모델 학습에 사용될 수 있습니다. 예를 들어 회귀를 사용하여 주어진 데이터 포인트가 각 잠재적 범주에 속할 확률을 예측한 다음, 확률이 가장 높은 범주를 출력할 수 있습니다.
자기 지도 학습 알고리즘의 목표는, 레이블이 지정되지 않은 데이터 구조 자체를 감시 신호에 사용하도록 작업을 설계해서 레이블이 지정된 데이터 없이 지도 학습을 수행하는 것입니다. 자기 지도 학습 기술은 보통 자기 예측 또는 대조 학습 중 하나에 속합니다.
자기 예측 알고리즘은 데이터 포인트에 대해 다른 정보가 주어졌을 때 해당 데이터 포인트의 한 측면을 예측하도록 모델을 훈련합니다. Yann LeCun은 이 방식의 목표를 '입력 값의 일부가 있다고 가정하고 이를 예측하는 것'이라고 간단하게 설명했습니다. 1예를 들어 봅시다.
자체 예측을 사용하여 학습된 모델은 일반적으로 차별적이기보다는 생성적입니다. 자체 예측 알고리즘을 사용하여 학습된 머신 러닝 모델의 대표적인 예로는 오토인코더 및 대규모 언어 모델(LLM)이 있습니다.
대조 학습 알고리즘은 모델에 데이터 샘플을 여럿 제공하고 모델이 서로 얼마나 다른지(또는 비슷한지) 예측하는 작업을 수행합니다. 데이터 포인트 쌍은 데이터 증강을 통해 생성하는 경우가 많습니다. 데이터 증강은 레이블이 지정되지 않은 데이터를 변환하거나 교란하여 새로운 인스턴스나 증강된 뷰를 만드는 것을 말합니다. 예를 들어 영상 데이터에 대한 일반적인 증강 기술에는 회전, 무작위 자르기, 뒤집기, 노이즈, 필터링 및 색상화 등이 포함됩니다.
대조 학습은 컴퓨팅 비전 모델 학습에 주로 사용됩니다. 예를 들어 모델이 하나의 물체를 각기 다른 각도에서 보고 인식하는 방법을 학습하는 데 도움이 될 수 있습니다. 이는 멀티모달 AI 학습에도 필수적입니다. 예를 들어 모델이 하나의 데이터 양식(예: 텍스트 등)에서 다른 데이터 양식(예: 음성 또는 이미지)으로 벡터 임베딩을 '변환'하는 방법을 학습하는 데 도움이 될 수 있습니다.
비지도 머신 러닝은 레이블이 지정되지 않은 데이터에서 고유한 패턴, 상관 관계 및 구조를 발견하도록 모델을 가르치는 데 사용됩니다. 모델이 출력하기 위해 학습할 '정답' 답변이 존재하는 지도 학습, 또는 모델이 수행할 수 있는 '좋은' 작업과 '나쁜' 작업이 여럿 있는 강화 학습과 다르게 비지도 학습은 이상적인 출력을 미리 알 수 없는 상황에 가장 유용합니다.
이러한 목표에는 사전 정의된 실제 값이나 보상 구조가 적용되지 않으므로 '감독을 받지 않는다'고 할 수 있습니다. 그래서 비지도 학습 알고리즘에는 손실 함수가 수반되지 않습니다. 알려진 이상적 아웃풋을 기준으로 측정하고 최적화하는 작업이 아니기 때문입니다. 학습 프로세스의 성공 여부는 모델의 내부 매개변수를 최적화하는 알고리즘이 아니라, 주로 수동 하이퍼매개변수 조정에 의해 결정됩니다.
비지도 학습 알고리즘에는 클러스터링 알고리즘, 연관 알고리즘, 차원 축소 알고리즘이라는 세 가지 하위 집합이 있습니다.
클러스터링 알고리즘은 시장 세분화 같은 작업을 위해 레이블이 지정되지 않은 데이터 포인트를 서로의 근접성 또는 유사성에 따라 '클러스터' 내지는 그룹으로 분할합니다. 또한 모든 데이터 포인트를 정렬해야 하는 클러스터를 학습하고 이상값 데이터 포인트가 해당 클러스터 어디에도 적합하지 않는 경우를 식별하여 이상 징후 감지를 위한 예측 모델로 사용할 수도 있습니다.
CHARM(Closed Association Rule Mining의 약자 - CHARM 논문의 저자는 'H는 불필요하다'고 언급)2과 CARMA(Continuous Association Rule Mining Algorithm) 3도 주목할 만한 연관 알고리즘입니다.
차원 축소 알고리즘은 데이터 포인트를 가져와서 해당 데이터 포인트를 더 효율적으로 나타내는 아웃풋을 내도록 설계되었습니다. 더 구체적으로 말하면, 이러한 알고리즘은 더 적은 특징을 사용하여 정확하게 설명할 수 있는 공간에 고차원 데이터 포인트를 매핑하는 방법을 배우도록 설계되었습니다. 다시 말해, 데이터를 효과적으로 표현하는 데 필요한 차원 수를 줄이는 것 입니다.
차원 축소는 보통 데이터 전처리 단계에서 수행되며, 예측을 개선하거나 컴퓨팅 요구를 줄이기 위해 데이터의 복잡성과 노이즈를 줄이는 데 도움이 됩니다. 이는 데이터 세트의 잠재 공간 모델링에서 필수적인 단계입니다. 주어진 작업과 가장 관련성이 높은 특징 집합만 남긴 데이터 압축(저차원) 상태를 나타냅니다. 다른 일반적인 차원 축소 사용 사례로는 데이터 압축과 데이터 시각화가 있습니다.
일반적으로 지도 학습 방법과 동일한 사용 사례에 사용되는 준지도 학습은 레이블이 지정된 데이터의 하위 집합과 함께 레이블이 지정되지 않은 데이터를 모델 훈련에 통합하는 기술이라는 점이 특징입니다. 레이블이 지정된 데이터를 충분히 확보하기가 매우 어렵거나 비용이 많이 들지만 레이블이 지정되지 않은 관련 데이터를 비교적 쉽게 획득할 수 있는 상황에 특히 유용합니다.
준지도 학습에 사용되는 레이블이 지정되지 않은 예제는 모델이 수행하도록 학습하는 작업과 관련이 있어야 합니다. 예를 들어 고양이와 개 사진을 구별하기 위해 이미지 분류기를 훈련한다면 레이블이 지정되지 않은 고양이와 개 이미지가 훈련에 도움이 될 수 있습니다. 그러나 말과 오토바이 이미지는 도움이 되지 않습니다. 이 조건은 준지도 방법의 형식적 논리를 제공하는 데이터 포인트가 서로 어떻게 연관되는지에 대한 일련의 가정을 알려줍니다.
준지도 학습 알고리즘은 일반적으로 변환적, 귀납적, 본질적인 자기 지도 방식으로 분류됩니다.
강화 학습(RL) 알고리즘은 하나의 '올바른' 아웃풋(또는 동작)은 없지만 '좋은' 아웃풋들이 있는 작업에 적합합니다. 로보틱, 비디오 게임, 추론 모델, 그 밖에 가능한 솔루션과 접근 방식의 공간이 유독 크거나, 개방적이거나, 정의하기 어려운 사용 사례에서 두드러지게 사용됩니다. RL 용어로는, 훈련 받는 개체를 보통 '에이전트'라고 부릅니다.
감독 신호와 명시적으로 정의된 작업 대신, 모델이 시행착오를 통해 전체적인 학습을 할 수 있게 하는 보상 신호를 수반합니다. 이러한 보상 신호는 보상 함수, 별도로 훈련된 보상 모델 또는 규칙 기반 보상 시스템에서 나올 수 있습니다.
RL 알고리즘은 정책을 최적화합니다.수학적으로 말하면 정책(π)은 상태(s)를 입력 값으로 받아 작업(a)을 반환하는 함수입니다: π(s)→a . RL 알고리즘의 목표는 주어진 상태에 대해 보상을 최대치로 얻을 수 있는 조치를 취하는 정책을 학습하는 것입니다.
RL 알고리즘은 값 기반 또는 정책 기반일 수 있습니다.정책 기반 알고리즘에서 모델은 최적의 정책을 직접 학습합니다. 가치 기반 알고리즘에서 에이전트는 일반적으로 해당 상태에서 취할 수 있는 행동에 대한 잠재적 보상을 기반으로 각 상태가 얼마나 '좋은지'에 대한 점수를 계산하는 가치 함수를 학습한 다음, 더 높은 가치의 상태로 이어지는 행동을 선택합니다. 하이브리드 접근 방식은 가치 함수를 학습한 다음 정책을 최적화하는 데 사용됩니다.
주목할만한 강화 알고리즘:
앙상블 학습은 여러 머신 러닝 알고리즘(이 맥락에서는 보통 '학습자'라고 부름)을 결합하여 구성 알고리즘만으로 가능한 것보다 정확하거나 안정적인 성능에 도달하는 기술을 말합니다.
앙상블 학습 알고리즘은 보통 부스팅, 스태킹 또는 배깅 기술을 활용합니다.
부스팅 알고리즘은 모델을 순차적으로 구축하며, 후속 새 모델 각각은 이전 모델의 오류를 수정하도록 훈련됩니다. 초반에 '약한' 학습자들이 나오다가 나중에는 아주 정확도가 높은 하나의 '강한' 학습자가 됩니다.
스태킹 알고리즘은 여러 기본 학습자(각각 특정 유형의 예측을 전문으로 하는 경우가 많음)의 예측을 결합한 다음, 이러한 기본 모델의 아웃풋에 대한 최종 '메타 모델'을 학습시켜 보다 정확한 예측을 위해 예측을 가장 잘 결합하는 방법을 학습합니다. 강력한 최종 결과물을 제공합니다.
지식 증류 기술과 관련해, 최종 모델은 기본 학습자의 최종 아웃풋 예측('중요 목표')은 물론 중간 아웃풋('로짓' 또는 '쉬운 목표')에 대해서도 훈련을 해 '사고 과정'을 복제하고자 합니다.
딥 러닝은 다층 인공 신경망을 사용하는 것으로 정의되는 머신 러닝의 하위 집합입니다. 보통 레이블이 지정된 데이터에 대한 지도 학습을 통해, 또는 레이블이 지정되지 않은 데이터에 대한 자기 지도 학습을 통해(특히 생성형 AI 모델의 경우) 훈련합니다. 심층 강화 학습에서 심층 신경망은 RL 에이전트의 정책 역할을 합니다. 딥 러닝은 2010년대 초반부터 최첨단 인공지능 분야의 발전을 주도해 왔습니다. 가장 중요한 장점 중 하나는, 기존 머신 러닝에서는 수동으로 수행하곤 하던 특징 엔지니어링 프로세스를 자동화하는 기능입니다.
'전통적' 머신 러닝의 명시적으로 정의된 알고리즘과 달리, 딥 러닝 모델은 각각 수학 연산('활성화 함수')을 수행하는 상호 연결된 '뉴런'(또는 '노드') 여러 계층으로 구성됩니다. 각 뉴런의 활성화 함수에 대한 입력은, 이전 계층의 뉴런 각각의 활성화 함수 아웃풋의 가중 조합입니다. 최종 계층의 뉴런은 모델의 최종 아웃풋을 연산합니다. 여기서 중요한 점은, 각 노드에서 수행되는 활성화 함수가 비선형이며 신경망으로 하여금 복잡한 패턴과 종속성을 모델링하게 한다는 점입니다. 최신 AI에서 신경망은 가장 일반적으로 최첨단 딥 러닝과 연관되어 있지만, 제한된 볼츠만 머신과 같은 '비심층' 신경망은 수십 년 동안 사용되어 왔습니다.
딥 러닝 알고리즘의 분산 구조는 놀라운 힘과 다양성을 제공합니다. 학습 데이터를 2차원 그래프에 흩어져 있는 데이터 포인트라고 상상해 보세요. 이때 모델 학습의 목표는 각 데이터 포인트를 통과하는 선을 찾는 것입니다. 전통적인 머신 러닝 알고리즘은 단일 선(또는 곡선)을 생성하는 단일 수학 함수로 이 작업을 시도하는 반면, 딥 러닝 알고리즘은 개별적으로 조정할 수 있는 더 작은 수의 선을 조합하여 원하는 모양을 형성할 수 있습니다. 심층 신경망은 보편적인 근사치로,모든 함수에 대해 이를 재현할 수 있는 신경망 배열이 존재한다는 것이 이론적으로 입증되었습니다.6
오토인코더 고려: 아키텍처 측면에서 오토인코더는 인코더-디코더 모델로, 인코더 네트워크는 점진적으로 작은 계층을 특징으로 하는 반면 디코더 네트워크는 점진적으로 더 큰 계층을 특징으로 합니다. 그러나 오토인코더는 많은 인코더-디코더 모델 중 하나일 뿐입니다. 예를 들어, 이미지 분할 모델은 아키텍처가 매우 유사한데, 이러한 아키텍처에서 점진적으로 작아지는 컨볼루션 계층은 데이터를 다운샘플링하여 주요 특징을 격리 및 세분화하고, 이어서 점진적으로 더 커지는 계층이 (세분화된) 데이터를 업샘플링하여 원래 크기로 되돌립니다.
오토인코더를 만드는 것은 아키텍처가 아니라 이를 학습하는 데 사용되는 알고리즘에 있습니다. 오토인코더는 원본 학습을 재구성하는 작업을 수행하고 모델 학습을 통해 최적화되어 재구성 손실을 측정하는 함수를 최소화합니다(많은 경우 추가적인 정규화 항으로 수정됨).아키텍처는 동일하지만 다른 작업을 수행하도록 학습되고 다른 목표에 최적화된 모델은 오토인코더가 아닙니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
모두 IBM.com 외부의 링크.
1. “Energy-Based Self-Supervised Learning,” Yann LeCun (accessed via UCLA), 19 November 2019
2. “CHARM: An Efficient Algorithm for Closed Itemset Mining,” Proceedings of the 2002 SIAM International Conference on Data Mining
3. “Online Association Rule Mining,” Proceedings of the 1999 ACM SIGMOD International Conference on Management of Data, 1 June 1999
4. “Semi-Supervised Learning with Ladder Networks,” arXiv, 24 November 2015
5. “Kolmogorov’s Mapping Neural Network Existence Theorem,” Proceedings of the IEEE First International Conference on Neural Networks (accessed through University of Waterloo), 1987
6. “Multilayer Feedforward Networks with a Non-Polynomial Activation Function Can Approximate Any Function,” Center for Research on Information Systems (New York University), March 1992