업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
머신 러닝에서의 분류는 머신 러닝 모델이 분류 알고리즘을 사용하여 입력 데이터에 대한 올바른 레이블을 예측하는 예측 모델링 프로세스입니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
분류 모델은 데이터 포인트를 클래스라고 하는 미리 정의된 그룹으로 분류하는 일종의 머신 러닝 모델입니다. 분류기는 입력 데이터에서 클래스 특성을 학습한 다음 학습된 특성에 따라 보이지 않는 새로운 데이터에 가능한 클래스를 할당하는 방법을 학습합니다.1
분류 알고리즘은 입력 데이터를 다양한 클래스 또는 카테고리로 정렬하는 분류 중심의 머신 러닝 알고리즘 입니다. 인공 지능(AI) 모델은 분류 알고리즘을 사용하여 데이터를 정렬하는 방법에 대한 기준을 설정하는 지정된 분류기를 기준으로 입력 데이터 세트를 처리합니다. 분류 알고리즘은 패턴을 예상하고 결과를 예측하기 위해 데이터 과학에서 널리 사용됩니다.
어떤 머신 러닝 분류 알고리즘도 완전히 똑같지는 않지만, 모두 다음과 같이 동일한 2단계 데이터 분류 프로세스를 따릅니다.
분류는 전통적으로 일종의 지도 머신 러닝의 한 유형으로, 이는 레이블이 지정된 데이터를 사용하여 모델을 학습시킨다는 것을 의미합니다. 지도 학습에서 학습 데이터의 각 데이터 포인트에는 입력 변수(독립 변수 또는 특징이라고도 함)와 아웃풋 변수 또는 레이블이 포함됩니다.
분류 학습에서 모델의 역할은 특징과 클래스 레이블 간의 관계를 이해한 다음 이러한 기준을 향후 데이터 세트에 적용하는 것입니다. 분류 모델은 각 데이터 포인트의 특징과 클래스 레이블을 함께 사용하여 각 클래스를 정의하는 특징을 디코딩합니다. 수학적으로 이 모델은 각 데이터 포인트를 튜플 x로 간주합니다. 튜플은 x = (x1,x2,x3…xn)으로 표현되는 정렬된 숫자 시퀀스입니다.
튜플의 각 값은 데이터 포인트의 특징입니다. 이 방정식에 따라 학습 데이터를 매핑함으로써 모델은 각 클래스 레이블과 관련된 특징을 학습합니다.
학습의 목적은 예측 모델링 중 오류를 최소화하는 것입니다. 경사 하강법 알고리즘은 예측 결과와 실제 결과 간의 격차를 최소화하여 모델을 학습합니다. 나중에 모델을 더 구체적인 작업을 수행할 수 있도록 더 많은 학습을 통해 미세 조정할 수 있습니다.
분류 문제에 대한 비지도 학습 접근 방식은 최근 연구의 핵심 초점이 되고 있습니다. 비지도 학습 방법을 사용하면 모델이 레이블이 지정되지 않은 데이터에서 패턴을 자체적으로 발견할 수 있습니다. 레이블이 없다는 것이 비지도 학습과 지도 학습을 구별하는 지점입니다.
한편, 준지도 학습은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 분류 및 회귀 목적으로 모델을 학습시킵니다. 레이블이 지정된 데이터의 대규모 데이터 세트를 얻을 수 없는 상황에서는 준지도 학습이 실행 가능한 대안일 수 있습니다.
분류 기반 예측 모델링 작업은 카테고리 수와 카테고리가 배타적인 정도에 따라 서로 구별됩니다.
이진 분류는 데이터를 두 개의 배타적인 카테고리로 정렬합니다.
다중 클래스 분류는 데이터를 두 개 이상의 독점적인 카테고리로 정렬합니다.
다중 레이블 분류는 데이터를 비독점적인 카테고리로 분류합니다.
불균형 분류는 카테고리 전체에 걸쳐 데이터 포인트가 불균등하게 분포되어 있습니다.
이진 분류 문제에서 모델은 데이터가 두 클래스 중 하나에 해당하는지를 예측합니다. 학습 중에 적용되는 학습 기법은 모델이 학습 데이터의 특징을 평가하고 각 데이터 포인트에 적용되는 두 가지 가능한 레이블(긍정 또는 부정, 참 또는 거짓, 예 또는 아니오) 중 어느 것이 적용되는지 예측하도록 합니다.
예를 들어 스팸 필터는 이메일을 스팸 또는 스팸 아님으로 분류합니다. 이진 분류 모델은 스팸 탐지 외에도 잠재 고객이 특정 제품을 이탈할 것인지, 구매할 것인지에 대한 신뢰할 수 있는 행동 예측 변수를 만듭니다. 또한 자연어 처리(NLP), 감정 분석, 이미지 분류 및 사기 탐지 에도 유용합니다.
다중 클래스 분류 문제는 모두 상호 배타적인 클래스 레이블이 두 개 이상 있는 데이터를 분류합니다. 이러한 방식으로 다중 클래스의 과제는 더 많은 클래스가 있다는 점을 제외하고는 이진 분류 작업과 유사합니다.
다중 클래스 분류 모델에는 실제 사용 사례가 많이 있습니다. 다중 클래스 분류 솔루션은 이메일이 스팸인지 아닌지를 판단하는 것 외에도 이메일이 홍보용인지 우선순위가 높은지도 판단할 수도 있습니다. 이미지 분류기는 개, 고양이, 라마, 오리너구리 등과 같은 수많은 클래스 레이블을 사용하여 애완동물 이미지를 분류할 수 있습니다.
다중 클래스 분류 학습 방법의 목표는 입력 데이터를 더 넓은 범위의 가능한 카테고리에 정확하게 할당하도록 모델을 학습시키는 것입니다. 다중 클래스 학습의 일반적인 목적 함수는 테스트 데이터에 대한 모델의 예측과 각 데이터 포인트에 대한 올바른 레이블 간의 격차를 평가하는 범주형 교차 엔트로피 손실입니다.
다중 레이블 분류는 각 데이터 포인트에 여러 개의 비배타적 레이블을 할당할 수 있는 상황에서 사용됩니다. 다중 레이블 분류는 배타성 기반 분류 유형과 달리, 데이터 포인트가 두 개 이상의 카테고리의 특성을 나타낼 가능성을 허용하며, 이는 빅 데이터 수집의 실제 모호성을 더 잘 반영합니다.
다중 레이블 분류 작업은 여러 이진 또는 다중 클래스 분류 모델의 예측을 결합하여 수행되는 경우가 많습니다.
일부 카테고리에 다른 카테고리보다 더 많은 데이터 포인트가 포함된 불균형 분류에는 전문적인 접근 방식이 필요합니다. 특정 그룹이 더 많은 데이터 포인트를 축적함에 따라 일부 분류 모델은 해당 그룹에 대해 편향되어 점점 자신에게 유리하게 예측합니다.
대응책에는 잘못된 예측의 비용에 더 큰 비중을 두도록 구성된 알고리즘 또는 다수 표본을 제거하거나 과소 대표된 그룹에서 과다 표본을 추출하는 표본 추출 방법이 포함됩니다.
예측 모델은 두 가지 유형의 예측을 출력합니다.
불연속 예측은 데이터를 명확하게 여러 카테고리로 분류합니다.
연속 예측은 확률에 따라 클래스를 지정합니다.
불연속형 예측은 각 데이터 요소에 대해 예측된 클래스 레이블입니다. 예를 들어, 의료 예측 변수는 기반으로 의료 환자를 당뇨 환자 와 비당뇨 환자로 분류할 수 있습니다. 당뇨병 및 비당뇨병 클래스는 불연속형 범주형 예측입니다.
연속 분류기는 클래스 예측을 신뢰도 점수라고 하는 연속형 확률로 할당합니다. 이러한 확률은 0과 1 사이의 값으로 백분율을 나타냅니다. 당뇨병 예측 변수 모델은 0.82 확률로 환자를 당뇨병으로 분류할 수 있습니다. 이 모델은 환자가 당뇨병에 걸릴 확률이 82%라고 판단합니다.
연구자들은 일반적으로 연속 예측을 임계값으로 사용하면서 불연속 예측을 사용하여 모델을 평가합니다. 분류기는 특정 임계값 미만의 모든 예측을 무시합니다. 당뇨병 예측 변수의 임계값이 0.4(40%)인데환자가 0.35(35%)의 확률로 당뇨병 환자로 분류된 경우,모델은 해당 레이블을 무시하고 환자를 당뇨병 클래스로 지정하지 않습니다.3
분류와 회귀의 차이점은 분류는 데이터 포인트의 카테고리를 예측하는 반면, 회귀는 관련 실수 값을 예측한다는 것입니다. 분류와 회귀는 모두 예측 모델링의 한 유형이지만 사용 사례가 다릅니다.
분류 모델은 데이터 포인트를 카테고리로 분류합니다. 분류는 데이터 포인트를 분류하는 함수를 발견하기 위해 딥 러닝 모델을 학습시키는 프로세스입니다.
회귀 모델은 다양한 데이터 포인트를 고려하여 다른 변수에 대한 연속적인 수치 값을 예측합니다. 예를 들어, 회귀 모델은 연령, 경험, 위치, 교육을 기반으로 근로자의 급여를 예측할 수 있습니다.
실제로 이 둘은 밀접한 관련이 있는 경우가 많습니다. 예를 들어, 로지스틱 회귀 알고리즘은 회귀를 사용하여 분류 작업을 수행합니다.
분류 알고리즘에는 다양한 유형이 있습니다. 중복되는 사용 사례도 있지만, 일부는 다른 애플리케이션보다 특정 애플리케이션에 더 적합합니다. 가장 널리 사용되는 분류 알고리즘은 다음과 같습니다.
로지스틱 회귀분석
의사결정트리
랜덤 포레스트
지원 벡터 머신(SVM)
K-최근접 이웃
Naïve Bayes
이러한 알고리즘 중 다수는 scikit-learn 라이브러리를 사용하여 Python에서 쉽게 구현할 수 있습니다. 한편, 앙상블 방법과 트랜스포머 모델은 분류 문제에 적용되는 새로 개발된 방법입니다.
로지스틱 회귀 모델은 여러 변수를 고려할 때 데이터 포인트가 한 범주에 속할지, 아니면 다른 범주에 속할지에 대한 다변량 회귀 문제의 이진 분류에 사용됩니다. 일반적인 응용 분야로는 사기 탐지와 생물학적 예측이 있습니다. 예를 들어, 로지스틱 회귀는 외상과 관상동맥 심장병으로 인한 환자 사망률을 예측하는 데 도움이 되도록 구현되었습니다.10
분류와 회귀에 모두 사용되는 의사결정트리는 일련의 이진 분류 판단에서 데이터 세트를 점진적으로 더 작은 그룹으로 나눕니다. 결과로 발생하는 구조는 초기 판단에서 바깥쪽으로 가지를 뻗어 후속 잎이나 노드로 이어지는 나무와 유사합니다.
의사결정트리는 순서도와 같은 특성으로 인해 비즈니스 사용자가 이해하기에 더 직관적인 모델 중 하나입니다. 시각화하기 쉬운 의사결정트리는 데이터를 분류하는 데 사용되는 의사 결정 프로세스와 기준을 명확하게 표현하여 분류 프로세스에 투명성을 제공합니다.
랜덤 포레스트는 여러 의사결정트리의 아웃풋을 단일 결과로 결합하는 앙상블 기술입니다. 결과로 나타나는 '숲'은 과적합을 방지하면서 단일 나무의 예측 정확도를 향상시킵니다. 의사결정트리와 마찬가지로 랜덤 포레스트는 분류 및 회귀 작업을 모두 처리할 수 있습니다.
랜덤 포레스트 알고리즘은 각 작업에 대해 여러 개의 의사결정트리를 만들고 모든 트리의 예측을 집계한 다음 가장 인기 있는 답변을 최종 결과로 선택합니다. 각 트리는 데이터 특징의 임의의 하위 집합을 고려하므로 트리 간의 낮은 상관관계를 보장합니다.
지원 벡터 머신(SVM) 알고리즘은 데이터의 특징 수에 해당하는 차원 수를 사용하여 데이터 포인트를 다차원 공간으로 표시합니다. 이 알고리즘의 목표는 데이터 포인트를 카테고리로 가장 잘 나누는 최적의 선(초평면 또는 결정 경계라고도 함)을 발견하는 것입니다.
최적의 초평면은 각 클래스에서 초평면과 가장 가까운 데이터 포인트 사이의 거리인 가장 넓은 여백을 가진 초평면입니다. 이러한 주변 데이터 포인트를 지원 벡터라고 합니다. 초평면으로 데이터를 분리하는 모델은 선형 모델이지만, SVM 알고리즘은 더 복잡한 데이터 세트로 비선형 분류 작업도 처리할 수 있습니다.
로지스틱 회귀, 의사결정트리, 랜덤 포레스트, SVM 알고리즘은 열성 학습자의 예로, 모두 학습 데이터에서 모델을 구성한 다음 해당 모델을 미래 예측에 적용하는 알고리즘입니다. 학습은 더 오래 걸리지만 알고리즘이 좋은 모델을 구축한 후에는 예측이 더 빨라집니다.
K-최근접 이웃(KNN)은 데이터 포인트를 다차원 공간에 매핑합니다. 그런 다음 특징값이 비슷한 데이터 포인트를 별도의 그룹 또는 클래스로 그룹화합니다. 새 데이터 샘플을 분류하기 위해 분류기는 새 데이터에 가장 가까운 k개의 점을 살펴보고, 인접한 하위 집합을 구성하는 각 클래스의 멤버 수를 세고, 해당 비율을 새 데이터 포인트에 대한 클래스 추정치로 반환합니다.
즉, 모델은 해당 포인트의 이웃 클래스의 대부분을 구성하는 클래스에 새 데이터 포인트를 할당합니다. KNN 모델은 학습 데이터에서 모델을 즉시 구축하지 않고 대신 학습 데이터를 참조하고 새로운 데이터를 비교하는 알고리즘인 게으른 학습자입니다. 일반적으로 이러한 모델은 예측을 수행하는 데 열성 학습자보다 시간이 더 오래 걸립니다.
KNN 모델은 일반적으로 데이터 포인트 간의 거리를 유클리드 거리로 비교합니다.6
나이브 베이즈는 생성형 분류기로 알려져 있습니다. 베이지안 분류기는 관측값의 변수 값을 사용하여 해당 관측값을 생성했을 가능성이 가장 높은 클래스를 계산합니다.
자연어 처리(NLP) 연구자들은 감정 분석과 같은 텍스트 분류 작업에 나이브 베이즈를 널리 적용하고 있습니다. 나이브 베이즈 분류기는 각 단어가 변수를 구성하는 Bag of words 모델을 사용하여 양수 클래스나 음수 클래스가 해당 텍스트를 생성했는지를 예측합니다.9
앙상블 방법과 머신 러닝 기법은 결과를 개선하기 위해 여러 개의 작은 모델을 하나의 분류기로 결합합니다. 심층 앙상블 방법은 여러 딥 러닝 모델을 결합하여 훨씬 더 강력한 앙상블 분류기를 만듭니다. 심층 학습자가 포함된 앙상블은 복잡한 다중 레이블 분류 작업을 처리할 수 있습니다.
그래디언트 부스팅은 예측 정확도를 높이는 앙상블 방법입니다. 이는 부스팅의 일종으로, 여러 개의 약한 학습자가 순서대로 서로에게서 학습하여 각 반복에서 결과를 개선하는 앙상블 기법입니다.
변환기 모델은 일반적으로 NLP 작업에 사용되지만 분류 문제에도 적용되었습니다. GPT 및 Claude와 같은 변환기 모델은 셀프 어텐션 메커니즘을 사용하여 입력 데이터 세트의 가장 관련성이 높은 부분에 집중합니다. 위치 인코딩은 각 데이터 포인트가 시퀀스의 어디에 있는지 모델에 알리는 데 사용됩니다.
연구원과 개발자는 특정 분류 작업에 따라 분류 모델에 대한 특정 평가 지표를 선택합니다. 모두 학습자 또는 분류자가 모델 클래스를 정확하게 예측하는 정확도를 측정합니다.
가장 널리 사용되는 평가 지표는 다음과 같습니다.
참 긍정(TP)은 모델이 해당 클래스에서 정확하게 예측한 데이터 샘플을 말합니다. 거짓 긍정(FP)은 부정적 클래스의 인스턴스가 긍정적 사례로 잘못 식별되는 것을 말합니다. 거짓 부정(FN)은 실제 긍정적인 사례를 부정으로 잘못 예측한 것입니다. 참 부정(TN)은 모델이 부정으로 정확하게 분류한 실제 부정 클래스 사례입니다.
정확도는 데이터 세트의 모든 예측에 대한 참 양성의 비율입니다. 머신 러닝이 모델이 결과(이 경우 데이터 포인트에 적합한 클래스)를 정확하게 예측하는 빈도를 측정합니다.
정확도는 모델의 성능에 대한 높은 수준의 개요를 제공하지만, 모델이 다른 클래스보다 특정 클래스를 더 잘 예측하는지를 나타내지는 않습니다. 데이터 세트의 불균형이 매우 높은 경우 정확도에 초점을 맞추면 모델이 모든 작은 데이터 세트를 무시하고 모든 결과를 다수 클래스로 예측할 수 있습니다. 이 상황에서도 전반적인 정확도는 여전히 높습니다.
스팸 필터는 실제 스팸 이메일의 대부분을 놓치더라도 대부분의 추측이 정확하다면 정확도가 높습니다.
정밀도 또는 긍정 예측값(PPV)은 지정된 클래스에 속하는 양의 클래스 예측의 비율입니다. 정밀도는 모델이 대상 클래스에 대해 올바르게 예측하고 있는지 여부를 나타내므로 불균형한 분류 작업이나 오탐 비용이 높은 경우에 유용합니다.
스팸 필터에서 정밀도는 탐지된 스팸 이메일 중 실제 스팸 이메일의 수를 나타냅니다. 데이터를 오탐으로 잘못 분류하는 모델은 정밀도가 낮은 반면, 오탐이 적은 모델은 정밀도가 높습니다.10
민감도 또는 실제 양성률(TPR)이라고도 하는 재현율은 모델이 탐지한 클래스 인스턴스의 비율을 나타냅니다. 재현율은 모델이 데이터 세트에서 대상 클래스의 멤버를 감지하는 빈도를 보여줍니다. 스팸 필터의 경우 재현율은 모델이 스팸으로 식별하는 실제 스팸 이메일의 양을 보여줍니다.11
정밀도와 재현율은 역의 관계를 공유합니다. 분류기가 더 많은 참 긍정을 반환하여 재현율이 증가하면 인스턴스가 아닌 것을 잘못 분류하여 거짓 긍정을 생성하고 정밀도가 떨어질 수 있습니다. F1 점수는 정밀도와 재현율을 결합하여 모델의 총 클래스별 정확도를 나타내어 이러한 상충 관계를 해결합니다.12
데이터 시각화 툴은 데이터 분석 결과를 설명하는 데 도움이 됩니다. 데이터 과학자와 머신 러닝 연구원은 분류기 성능을 시각화하기 위해 다음과 같은 두 가지 주요 툴을 사용합니다.
예측값과 실제 값을 보여주는 표인 혼동 행렬.
참 긍정과 참 부정의 비율을 나타내는 그래프인 ROC 곡선.
수신기 작동 특성(ROC) 곡선은 참 긍정과 참 부정의 비율을 시각화합니다. 이 차트는 모델 분류에 사용된 각 임계값에 대한 참 긍정 비율과 참 부정 비율을 비교하여 그래프로 표시합니다. 곡선 아래 영역(AUC) 통계는 ROC 곡선에서 발생합니다.
AUC는 무작위로 선택된 긍정이 무작위 부정보다 신뢰도 점수가 더 높을 가능성을 측정합니다. AUC 값의 범위는 0에서 1까지입니다. 0점은 모델이 긍정보다 더 높은 확률로 모든 부정에 점수를 매긴다는 의미이고, 1은 모델이 모든 긍정에 더 높은 확률로 점수를 매긴다는 의미입니다.14
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.
2. Jaiwei Han, Micheline Kamber 및 Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012년.
3. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.
4. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani 및 Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023년
5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs 및 Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016년, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590
6. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012년.
7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024년, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html
8. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. William Bolstad 및 James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016년.
9. Daniel Jurafsky 및 James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023년.
10. Ethan Zhang 및 Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018년.
11. Ethan Zhang 및 Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018년.
12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018년.
13. Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.
14. Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.