지도 학습이란?
지도 학습이 어떻게 작동하는지 그리고 매우 정밀한 머신 러닝 모델을 구축하기 위해 어떻게 사용될 수 있는지 알아봅니다.
청록색 삼각형이 있는 파란색 배경
지도 학습이란?

지도형 머신 러닝이라고도 하는 지도 학습은 머신 러닝 및 인공지능의 서브 카테고리입니다. 데이터를 분류하거나 결과를 정확하게 예측하는 알고리즘을 훈련하기 위해 레이블이 지정된 데이터 세트를 사용하여 정의됩니다. 입력 데이터가 모델에 공급되면, 모델이 적절하게 맞춰질 때까지 해당 가중치를 조정하며 이는 유효성 검증 프로세스의 일부로 발생합니다. 지도 학습은 기업들이 실제 발생하는 다양한 문제점들을 규모에 맞게 해결하도록 지원하며, 여기에는 받은 메일함과는 별도의 폴더에 스팸 문자 분류 등이 해당됩니다.

주요 제품

Watson Studio

SPSS Statistics

지도 학습의 작동 방법

지도 학습은 훈련 세트를 사용하여 원하는 출력을 산출하도록 모델을 교육합니다. 이 훈련 데이터 세트에는 입력 및 올바른 출력이 포함되어 있으며, 이를 통해 시간이 지남에 따라 모델이 학습할 수 있습니다. 이 알고리즘은 손실 함수를 통해 해당 정확도를 측정하며, 오류가 충분히 최소화될 때까지 조정합니다.

지도 학습은 데이터 마이닝—분류와 회귀분석이라는 두 가지 유형의 문제로 나눌 수 있습니다.

  • 분류 는 테스트 데이터를 특정 범주로 정확하게 지정하는 알고리즘을 사용합니다. 데이터 세트 내의 특정 엔티티를 인식하고 이러한 엔티티에 레이블을 지정하거나 정의하는 방법에 대한 몇 가지 결론을 도출하려고 시도합니다. 일반적인 분류 알고리즘은 선형 분류기, 서포트 백터 머신(SVM), 결정 트리, K-최근접이웃법(k-nearest neighbor) 및 랜덤 포레스트이며, 아래에서 자세히 설명합니다.
  • 회귀분석 은 종속 변수와 독립 변수 간의 관계를 이해하는데 사용됩니다. 지정된 비즈니스의 판매 수익에 대한 예측과 같이 일반적으로 예측하는 데 사용됩니다. 선형 회귀분석로지스틱 회귀분석 및 다항 회귀분석은 대중적인 회귀분석 알고리즘입니다.
지도 학습 알고리즘

다양한 알고리즘과 계산 기술이 지도형 머신 러닝 프로세스에 사용됩니다. 다음은 가장 일반적으로 사용되는 몇 가지 학습 방법에 대한 간략한 설명이며, 보통 R 또는 Python과 같은 프로그램을 사용하여 계산됩니다.

  • 신경망: 주로 딥러닝 알고리즘에 활용되는 신경망은 노드의 계층을 통해 인간 두뇌의 상호연결성을 모방함으로써 훈련 데이터를 처리합니다. 각각의 노드는 입력, 가중치, 편향(또는 임계값) 및 아웃풋으로 구성되어 있습니다. 해당 출력 값이 주어진 임계값을 초과하면, 이는 노드를 "실행"하거나 활성화하여 데이터를 네트워크의 다음 계층으로 전달합니다. 신경망은 지도 학습을 통해 이러한 맵핑 기능을 학습하며, 기울기 하강 프로세스를 통한 손실 함수를 기반으로 조정을 수행합니다. 비용 함수가 0이거나 또는 거의 0이면, 올바른 답을 내놓을 만큼 모델의 정확도가 높다고 확신할 수 있습니다.
  • 나이브 베이즈: 나이브 베이즈는 베이즈 정리에서 클래스 조건부 독립성 원칙을 채택한 분류 기법입니다. 이는 주어진 결과의 확률에서 한 특징의 존재가 다른 특징의 존재에 영향을 미치지 않는다는 것을 의미하며, 각 예측 변수는 해당 결과에 동일한 영향을 줍니다. 나이브 베이즈 분류에는 다항 분포 나이브 베이즈, 베르누이 나이브 베이즈, 가우시안 나이브 베이즈의 세 가지 유형이 있습니다. 이 기법은 주로 텍스트 분류, 스팸 식별 및 추천 시스템에 사용됩니다.
  • 선형 회귀분석: 선형 회귀분석은 종속 변수와 하나 이상의 독립 변수 간의 관계를 식별하는 데 사용되며, 일반적으로 미래 결과에 대해 예측하는 데 활용됩니다. 단 하나의 독립 변수와 하나의 종속 변수가 있는 경우를 단순 선형 회귀라고 합니다. 독립 변수의 수가 증가함에 따라 다중 선형 회귀라고 합니다. 각 선형 회귀분석 유형의 경우 최소 제곱법을 통해 계산되는 최적 적합선을 표시하려고 합니다. 그러나, 다른 회귀분석 모델과 달리 이 선은 그래프에 표시될 때 직선입니다.
  • 로지스틱 회귀분석: 종속 변수가 연속형일 때 선형 회귀분석이 활용되는 반면, 로지스틱 회귀분석은 종속 변수가 범주형일 때 선택되며, 이는 "True" 및 "False" 또는 "yes" 및 "no"와 같은 2진 출력이 있음을 의미합니다. 두 회귀분석 모델 모두 데이터 입력 간의 관계를 이해하려고 하지만, 로지스틱 회귀분석은 주로 스팸 식별과 같은 2진 분류 문제를 해결하는 데 사용됩니다.
  • 서포트 벡터 머신(SVM): 서포트 벡터 머신은 Vladimir Vapnik이 개발한 인기 있는 지도 학습 모델이며, 데이터 분류 및 회귀분석 모두에 사용됩니다. 즉, 일반적으로 분류 문제에 활용되며 데이터 포인트의 두 클래스 간의 거리가 최대인 초평면을 구성합니다. 이 초평면을 결정 경계라고 하며, 평면의 양쪽에서 데이터 포인트의 클래스(예: 오렌지 대 사과)를 구분합니다.
  • K-최근접이웃법(K-nearest neighbor): KNN 알고리즘으로도 알려진 K-최근접이웃법은 다른 가용 데이터와의 근접성과 연관성을 기반으로 데이터 포인트를 분류하는 비모수적 알고리즘입니다. 이 알고리즘은 가까운 곳에서 유사한 데이터 포인트를 찾을 수 있다고 가정합니다. 결과적으로, 이 알고리즘은 보통 유클리드 거리를 통해 데이터 포인트 간의 거리를 계산하려고 하며, 가장 빈도가 높은 범주 또는 평균을 기반으로 범주를 할당합니다. 사용하기 쉽고 계산 시간이 짧기 때문에 데이터 사이언티스트가 선호하는 알고리즘이지만, 테스트 데이터 세트가 늘어남에 따라 처리 시간이 길어지므로 분류 작업에 대한 매력은 떨어지고 있습니다. KNN은 일반적으로 추천 엔진 및 이미지 인식에 사용됩니다.
  • 랜덤 포레스트: 랜덤 포레스트는 분류 및 회귀분석 목적으로 모두 사용되는 또 다른 유연한 지도 머신 러닝 알고리즘입니다. "포레스트"는 상관 관계가 없는 결정 트리의 콜렉션을 참조하며, 그런 다음 분산을 줄이고 보다 정확한 데이터 예측을 생성하기 위해 함께 병합됩니다.

 

비지도 학습, 지도 학습 및 준지도 학습 비교

비지도형 머신 러닝 및 지도형 머신 러닝은 함께 논의되는 경우가 많습니다. 지도 학습과 달리, 비지도 학습은 레이블이 지정되지 않은 데이터를 사용합니다. 해당 데이터에서 클러스터링 또는 연관 문제를 해결하는 데 도움이 되는 패턴을 발견합니다. 특히, 업무 전문가(SME)가 데이터 세트 내의 공통 특성을 확신할 수 없을 때 유용합니다. 일반적인 클러스터링 알고리즘은 계층적, k-평균 및 가우시안 혼합 모델입니다.

준지도 학습은 주어진 입력 데이터의 일부만 레이블이 지정된 경우에 발생합니다. 지도 학습에 적합한 데이터 레이블을 지정하기 위해 도메인 전문 지식에 의존하는 것은 시간과 비용이 많이 들 수 있으므로, 비지도 및 준지도 학습이 더 매력적인 대안이 될 수 있습니다.

이러한 접근 방식의 차이점을 자세히 알아보려면 "지도 학습과 비지도 학습: 차이점"의 내용을 확인하세요.

지도 학습 사례

지도 학습 모델은 다음을 포함하여 다양한 비즈니스 애플리케이션을 구축하고 발전시키는 데 사용할 수 있습니다.

  • 이미지 및 객체 인식: 지도 학습 알고리즘은 비디오나 이미지에서 객체를 찾고, 분리하고, 분류하는 데 사용할 수 있으므로, 다양한 컴퓨터 비전 기술과 이미지 분석에 적용할 때 유용합니다.
  • 예측 분석: 지도 학습 모델의 광범위한 사용 사례는 다양한 비즈니스 데이터 포인트에 대한 심도 깊은 통찰력을 제공하기 위해 예측 분석 시스템을 만드는 것입니다. 이를 통해 기업은 주어진 출력 변수를 기반으로 특정 결과를 예상할 수 있으므로, 비즈니스 리더가 의사 결정을 정당화하거나 조직의 이익을 위해 중심을 잡을 수 있도록 지원합니다.
  • 고객 감정 분석: 조직은 지도 머신 러닝 알고리즘을 사용하여 사용자의 개입이 거의 없이, 컨텍스트, 감정 및 의도를 포함하여 많은 양의 데이터에서 중요한 정보를 추출하고 분류할 수 있습니다. 이는 고객의 상호 작용을 더 잘 이해할 때 매우 유용할 수 있으며 브랜드 참여 노력을 개선하는 데 사용될 수 있습니다.
  • 스팸 분류: 스팸 분류는 지도 학습 모델의 또 다른 사례입니다. 지도 분류 알고리즘을 사용하면, 조직은 스팸 및 비스팸 관련 메일을 효과적으로 정리하기 위해 새 데이터의 패턴 또는 이상 항목을 인식하도록 데이터베이스를 훈련시킬 수 있습니다.
지도 학습의 과제

지도 학습은 심도 깊은 데이터 인사이트 및 향상된 자동화와 같은 비즈니스 이점을 제공할 수 있지만, 지속 가능한 지도 학습 모델을 구축하는 데에는 몇 가지 과제가 있습니다. 다음은 이러한 과제 중 일부입니다.

  • 지도 학습 모델은 정확하게 구조화하기 위해 특정 수준의 전문 지식이 필요할 수 있습니다.
  • 지도 학습 모델 훈련은 시간이 많이 소요될 수 있습니다.
  • 데이터 세트는 사용자 오류의 가능성이 더 높아 알고리즘 학습이 잘못될 수 있습니다.
  • 비지도 학습 모델과 달리, 지도 학습은 자체적으로 데이터를 클러스터링하거나 분류할 수 없습니다.
관련 솔루션
IBM Watson® Studio

클라우드에서 신뢰할 수 있는 AI를 구축하고 이를 스케일링합니다. ModelOps에 대한 AI 라이프사이클을 자동화합니다.

IBM Watson® Studio 살펴보기
Cloud Pak for Data

어디서나 적절한 데이터를 적절한 시간에 적절한 사용자에게 연결합니다.

Cloud Pak for Data 살펴보기
IBM Cloud 솔루션

하이브리드의 개방형 접근 방식을 갖췄으며 우수한 복원성을 제공하는 디지털 혁신을 위한 플랫폼이자 파트너입니다.

클라우드 솔루션 살펴보기
리소스 지도 학습과 비지도 학습: 차이점

이 섹션에서, 두 가지 데이터 사이언스의 접근 방식인 지도 및 비지도 학습의 기본 사항을 살펴봅니다.

지도 학습 모델

서포트 벡터 머신 및 확률적 분류와 같은 몇 가지 지도 학습 접근 방법을 살펴봅니다.

다음 단계

지도 학습 모델은 수동 분류 작업을 줄이고 레이블이 지정된 데이터를 기반으로 향후 예측을 수행하는 데 유용한 솔루션이 될 수 있습니다. 그러나 머신 러닝 알고리즘을 형식화하려면, 데이터 모델의 과적합을 방지하기 위해 사용자의 지식과 전문 지식이 필요합니다.IBM과 해당 데이터 사이언스 및 AI 팀은 수많은 비즈니스 유스 케이스를 통해 지도 학습 모델의 개발 및 배치를 완성하는 데 오랜 시간을 보냈습니다. IBM Cloud Pak for Data의 IBM Watson Studio와 같은 강력한 툴의 지원을 통해, 조직은 데이터가 있는 위치에 상관없이 확장성이 뛰어난 머신 러닝 모델을 작성할 수 있으며 동시에 IBM의 강력한 하이브리드 멀티클라우드 환경의 지원을 받습니다.

IBM Watson® Studio 살펴보기