알아야 할 5가지 머신 러닝 유형

로봇 팔에서 작업 중인 젊은 엔지니어

작가

Chrystal R. China

Staff Writer, Automation & ITOps

IBM Think

머신 러닝(ML) 기술은 의료부터 인적 자원, 재무, 그리고 컴퓨팅 비전, 대규모 언어 모델(LLM), 음성 인식, 자율 주행 자동차 등과 같은 수많은 사용 사례에 이르기까지 거의 모든 산업에서 의사 결정을 주도할 수 있습니다.

하지만 ML의 영향력 확대에 따른 문제점이 없는 것은 아닙니다. ML 기술의 기반이 되는 검증 및 학습 데이터 세트는 사람이 집계하는 경우가 많으며, 사람은 편견에 취약하고 오류가 발생하기 쉽습니다. ML 모델 자체가 편향되거나 결함이 없는 경우에도 잘못된 컨텍스트에 배포하면 오류가 발생하여 의도하지 않은 유해한 결과를 초래할 수 있습니다.

그렇기 때문에 엔터프라이즈 AI 및 ML 사용을 다양화하는 것이 경쟁 우위를 유지하는 데 매우 중요할 수 있습니다. ML 알고리즘의 각 유형 및 하위 유형에는 팀이 다양한 작업에 활용할 수 있는 고유한 이점과 기능이 있습니다. 여기서는 5가지 주요 유형과 그 적용 사례에 대해 살펴보겠습니다.

머신 러닝이란 무엇인가요?

ML은 컴퓨터 과학, 데이터 과학인공 지능(AI) 하위 집합으로, 시스템이 추가 프로그래밍 개입 없이 데이터를 통해 학습하고 개선할 수 있도록 지원합니다.

성능 최적화를 위해 명시적인 지침을 사용하는 대신, ML 모델은 데이터 패턴과 추론을 기반으로 작업을 배포하는 알고리즘과 통계 모델에 의존합니다. 즉, ML은 인풋 데이터를 활용하여 아웃풋을 예측하고 새로운 데이터를 사용할 수 있게 되면 아웃풋을 지속적으로 업데이트합니다.

예를 들어, 소매 웹사이트에서 머신 러닝 알고리즘은 구매 내역을 기반으로 추천을 제공하여 소비자의 구매 결정에 영향을 미칩니다. IBM, Amazon, Google, Meta 및 Netflix를 포함한 많은 소매업체의 전자 상거래 플랫폼은 개인화된 추천을 제공하기 위해 인공 신경망(ANN)을 사용합니다. 또한 소매업체는 챗봇 및 가상 어시스턴트의 데이터를 ML 및 자연어 처리(NLP) 기술과 함께 활용하여 사용자의 쇼핑 경험을 자동화하는 경우가 많습니다.

머신 러닝 유형

머신 러닝 알고리즘은 지도 학습, 비지도 학습, 준지도 학습, 자기 지도 학습, 강화 학습의 다섯 가지 범주로 나뉩니다.

1. 지도형 머신 러닝

 

지도형 머신 러닝은 라벨이 지정된 데이터 세트(즉, 목표 또는 결과 변수가 알려져 있음)를 기반으로 모델을 학습시키는 머신 러닝의 한 유형입니다. 예를 들어, 데이터 과학자가 토네이도 예측을 위한 모델을 구축하는 경우 입력 변수에는 날짜, 위치, 온도, 바람의 흐름 패턴 등이 포함될 수 있으며, 출력은 해당 날짜에 기록된 실제 토네이도 활동이 됩니다.

지도 학습은 일반적으로 위험 평가, 이미지 인식, 예측 분석 및 사기 탐지에 사용되며 여러 유형의 알고리즘으로 구성됩니다.

  • 회귀 알고리즘- 실제 값 또는 연속적인 값(예: 온도, 급여) 간의 선형 관계를 식별하여 출력 값을 예측합니다. 회귀 알고리즘에는 선형 회귀, 랜덤 포레스트 및 그래디언트 부스팅 및 기타 하위 유형이 포함됩니다.
  • 분류 알고리즘 - 입력 데이터에 라벨을 지정하여 범주형 출력 변수(예: '정크' 또는 '정크 아님')를 예측합니다. 분류 알고리즘에는 로지스틱 회귀, k-최근접 이웃 및 지원 벡터 머신(SVM) 등이 포함됩니다.
  • 나이브 베이즈 분류기 - 대규모 데이터 세트에 대한 분류 작업을 지원합니다. 또한 주어진 클래스 또는/카테고리의 입력 분포를 모델링하는 생성형 학습 알고리즘 제품군의 일부입니다. 나이브 베이즈 알고리즘에는 회귀 및 분류 알고리즘을 모두 수용할 수 있는 Decision Tree가 포함됩니다.
  • 신경망 - 자연어 번역, 이미지 인식, 음성 인식 및 이미지 생성과 같은 프로세스를 촉진할 수 있는 수많은 연결된 처리 노드를 통해 인간의 두뇌가 작동하는 방식을 시뮬레이션합니다.
  • 랜덤 포레스트 알고리즘 - 여러 개의 Decision Tree에서 얻은 결과를 결합하여 값이나 범주를 예측합니다.

비지도형 머신 러닝

 

Apriori, 가우스 혼합 모델(GMM) 및 주성분 분석(PCA)과 같은 비지도 학습 알고리즘은 라벨이 지정되지 않은 데이터 세트에서 추론을 도출하여 탐색적 데이터 분석을 용이하게 하고 패턴 인식 및 예측 모델링을 가능하게 합니다.

가장 일반적인 비지도 학습 방법은 클러스터 분석으로, 클러스터링 알고리즘을 사용하여 값 유사성에 따라 데이터 포인트를 분류합니다(고객 세분화 또는 이상 징후 탐지에서처럼). 연결 알고리즘을 사용하면 데이터 과학자가 대규모 데이터베이스 내의 데이터 개체 간의 연결을 식별하여 데이터 시각화 및 차원 축소를 용이하게 할 수 있습니다.

  • K-평균 클러스터링 - 데이터 포인트를 K 그룹에 할당합니다. 여기서 주어진 중심에 가장 가까운 데이터 포인트가 동일한 범주로 클러스터링되고 K는 클러스터의 크기 및 세부 수준을 기준으로 클러스터를 나타냅니다. K-평균 클러스터링은 일반적으로 시장 세분화, 문서 클러스터링, 이미지 세분화 및 이미지 압축에 사용됩니다.
  • 계층적 클러스터링 - 처음에는 데이터 요소를 그룹으로 분리한 다음 유사성을 기준으로 하나의 클러스터가 남을 때까지 반복하여 병합하는 병합 클러스터링과 단일 데이터 클러스터를 데이터 요소 간의 차이를 기준으로 나누는 분할 클러스터링을 비롯한 일련의 클러스터링 기술을 나타냅니다.
  • 확률적 클러스터링) - 특정 분포에 속할 가능성에 따라 데이터 포인트를 그룹화하여 밀도 추정 또는 "소프트" 클러스터링 문제를 해결하는 데 도움이 됩니다.

비지도 ML 모델은 "이 제품을 구매한 고객이 구매한 다른 제품"과 같은 추천 시스템에 종종 사용됩니다.

3. 자기 지도형 머신 러닝

 

자기 지도 학습(SSL)을 사용하면 모델이 주석이 달렸거나 라벨이 지정된 방대한 데이터 세트를 필요로 하는 대신 라벨이 지정되지 않은 데이터로 스스로 학습할 수 있습니다. 예측 또는 프리텍스트 학습 알고리즘이라고도 하는 SSL 알고리즘은 입력의 한 부분을 다른 부분에서 학습하여 자동으로 라벨을 생성하고 비지도형 문제를 지도형 문제로 변환합니다. 이러한 알고리즘은 컴퓨팅 비전 및 NLP와 같은 작업에 특히 유용하며, 모델을 훈련하는 데 필요한 라벨이 지정된 훈련 데이터의 양이 매우 클 수 있습니다(때로는 엄청나게 클 수 있음).

4. 강화 학습

 

인간 피드백을 통한 강화 학습(RLHF)이라고도 하는 강화 학습은 보상과 처벌 시스템을 사용하여 알고리즘을 훈련시키는 동적 프로그래밍의 한 유형입니다. 강화 학습을 배포하기 위해 에이전트는 특정 환경에서 미리 정해진 목표에 도달하기 위한 행동을 취합니다. 에이전트는 설정된 메트릭(일반적으로 점수)에 따라 행동에 대해 보상이나 벌칙을 받음으로써 좋은 행동은 계속하고 나쁜 행동은 중단하도록 유도됩니다. 그리고 이 과정을 반복하여 최상의 전략을 학습하게 됩니다.

강화 학습 알고리즘은 비디오 게임 개발에서 일반적으로 사용되며 로봇에게 인간의 작업을 복제하는 방법을 가르치는 데 자주 사용됩니다.

5. 준지도 학습

 

다섯 번째 유형의 머신 러닝 기술은 지도 학습과 비지도 학습의 조합을 제공합니다.

준지도 학습 알고리즘은 라벨이 지정된 작은 데이터 세트와 라벨이 지정되지 않은 대규모 데이터 세트에서 훈련되며, 라벨이 지정된 데이터는 라벨이 지정되지 않은 더 큰 데이터에 대한 학습 프로세스를 안내합니다. 준지도 학습 모델은 비지도 학습을 사용하여 데이터 클러스터를 식별한 다음 지도 학습을 사용하여 클러스터에 라벨을 지정할 수 있습니다.

생성적 적대 신경망(GAN)은 두 개의 신경망을 훈련하여 라벨이 지정되지 않은 데이터를 생성하는 딥 러닝 도구로, 준지도 머신 러닝의 한 예입니다.

유형에 관계없이 ML 모델은 엔터프라이즈 데이터에서 데이터 인사이트를 얻을 수 있지만, 인간/데이터 편향에 대한 취약성으로 인해 책임감 있는 AI 관행은 조직에서 필수적입니다.

watsonx.ai로 다양한 머신 러닝 모델 관리

개발자부터 사용자, 규제 기관에 이르기까지 거의 모든 사람이 AI 기술과 직접 상호 작용하는지 여부에 관계없이 어느 시점에서 머신 러닝 애플리케이션에 참여합니다. 그리고 ML 기술의 채택은 점점 더 가속화되고 있습니다. 전 세계 머신 러닝 시장은 2022년 190억 달러로 평가되었으며, 2030년에는 1,880억 달러(37% 이상의 연평균 성장률)에 달할 것으로 예상됩니다.

ML 채택의 규모와 비즈니스에 미치는 영향력이 커짐에 따라 AI 및 ML 기술을 이해하는 것은 지속적이고 매우 중요한 과제이며, 기술이 발전함에 따라 주의 깊게 모니터링하고 적시에 조정해야 합니다. IBM watsonx.ai AI 스튜디오를 통해 개발자는 ML 알고리즘과 프로세스를 쉽게 관리할 수 있습니다.

IBM watsonx AI와 함께 새로운 생성형 AI 기능과 다음 세대 엔터프라이즈 스튜디오를 결합하여 일부의 데이터와 시간 소비를 최소화하여 AI 모델을 훈련, 검증, 튜닝 및 배포할 수 있도록 지원하는 IBM watsonx 포트폴리오의 AI 제품입니다. watsonx.ai는 기업이 데이터 인사이트를 활용하여 최적의 실제 AI 성능을 발휘할 수 있도록 지원하는 고급 데이터 생성 및 분류 기능을 팀에 제공합니다.

데이터 급증의 시대에 AI와 머신 러닝은 기술 혁신과 비즈니스 경쟁만큼이나 일상적인 비즈니스 운영에 필수적인 요소입니다. 그러나 이는 현대 사회의 새로운 기둥으로서 기업 IT 인프라를 다각화하고 기업과 이에 의존하는 사람들에게 도움이 되는 기술을 개발할 수 있는 기회이기도 합니다.

 
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기