분류 모델이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

분류 모델은 특징 값에 따라 데이터를 미리 정의된 클래스로 구성하는 예측 모델링의 한 유형입니다.

분류 모델은 데이터 포인트를 클래스라고 하는 미리 정의된 그룹으로 나누는 일종의 머신 러닝 모델입니다. 분류기는 입력 데이터에서 클래스 특성을 학습하고 학습한 특성에 따라 새로운 데이터에 가능한 클래스를 할당하는 예측 모델링의 한 유형입니다.¹ 분류 알고리즘은 데이터 과학에서 패턴 예측 및 결과 예측을 위해 널리 사용됩니다. 실제로 잠재적 상황 위험에 따른 환자 분류, 스팸 이메일 필터링 등 다양한 실제 사용 사례를 보유하고 있습니다.

분류 작업은 이진 또는 다중 클래스일 수 있습니다. 이진 분류 문제에서 모델은 두 클래스 사이를 예측합니다. 예를 들어 스팸 필터는 이메일을 스팸 또는 스팸 아님으로 분류합니다. 다중 클래스 분류 문제는 데이터를 두 개 이상의 클래스 레이블로 분류합니다. 예를 들어 이미지 분류기는 개, 고양이, 라마, 오리너구리 등과 같은 수많은 클래스 레이블을 사용하여 애완동물 이미지를 분류할 수 있습니다.

일부 출처, 특히 온라인에서는 분류를 지도형 머신 러닝의 한 형태로 언급하기도 합니다. 하지만 분류기가 지도 학습의 영역에만 속하는 것은 아닙니다. 분류 문제에 대한 비지도 학습 접근 방식은 최근 연구의 핵심 초점이 되고 있습니다.

분류 모델의 작동 방식

물론 각 머신 러닝 분류 알고리즘은 내부 작동 방식이 다릅니다. 그럼에도 불구하고 모두 일반적인 2단계 데이터 분류 프로세스를 준수합니다.

학습.지도 학습에서 인간 주석자는 학습 데이터 세트의 각 데이터 포인트에 레이블을 지정합니다. 이러한 포인트는 숫자, 텍스트 문자열, 이미지 특징 등 여러 입력 변수(또는 독립 변수)로 정의됩니다. 수학적으로 이 모델은 각 데이터 포인트를 튜플 x로 간주합니다. 튜플은 x = (_x1, _x2, _x3... _xn)으로 표현되는 정렬된 숫자 시퀀스일 뿐입니다. 튜플의 각 값은 데이터 포인트의 주어진 특징입니다. 이 모델은 각 데이터 포인트의 특징과 클래스 레이블을 함께 사용하여 각 클래스를 정의하는 특징을 디코딩합니다. 이 방정식에 따라 학습 데이터를 매핑함으로써 모델은 각 클래스 레이블과 관련된 일반적인 특징(또는 변수)을 학습합니다.

분류.분류 작업의 두 번째 단계는 분류 자체입니다. 이 단계에서는 사용자가 보이지 않는 데이터의 테스트 세트에 모델을 배포합니다. 이전에 사용되지 않은 데이터는 과적합을 방지하기 위해 모델 분류를 평가하는 데 이상적입니다. 이 모델은 학습된 예측 함수 y=f(x)를 사용하여 각 샘플의 특징에 따라 보이지 않는 데이터를 여러 클래스로 분류합니다. 그런 다음 사용자는 올바르게 예측된 테스트 데이터 샘플의 수에 따라 모델 정확도를 평가합니다.²

예측

분류 모델은 불연속형과 연속형의 두 가지 유형의 예측을 출력합니다.

불연속.불연속형 예측은 각 데이터 요소에 대해 예측된 클래스 레이블입니다. 예를 들어, 상황 데이터를 기반으로 의료 환자를 당뇨 환자와 비당뇨 환자로 분류하는 예측 툴을 사용할 수 있습니다. 당뇨병 및 비당뇨병 클래스는 불연속형 범주형 예측입니다.

연속.분류기는 클래스 예측을 신뢰도 점수라고 하는 연속형 확률로 할당합니다. 이러한 확률은 0과 1 사이의 값으로 백분율을 나타냅니다. 모델은 0.82의 확률로 환자를 당뇨병 환자로 분류할 수있습니다. 즉, 이 모델은 환자가 당뇨병일 확률은 82%, 비당뇨병일 확률은 18%라고 판단합니다.

연구자들은 일반적으로 연속 예측을 임계값으로 사용하면서 불연속 예측을 사용하여 모델을 평가합니다. 분류기는 특정 임계값 미만의 모든 예측을 무시합니다. 예를 들어, 당뇨병 예측 변수의 임계값이 0.4(40%)인데환자가 0.35(35%)의 확률로 당뇨병 환자로 분류된 경우,모델은 해당 레이블을 무시하고 환자를 당뇨병 등급으로 지정하지 않습니다.³

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

평가 메트릭

연구자와 개발자는 분류 모델에 다양한 평가 메트릭을 사용합니다. 선택한 평가 메트릭은 특정 분류 작업에 따라 다릅니다. 모두 학습자(즉, 분류자)가 모델 클래스를 정확하게 예측하는 정확도를 측정합니다.

분류 메트릭은 공통 용어를 사용합니다. 참 긍정(TP)은 모델이 해당 클래스에서 정확하게 예측한 데이터 샘플을 말합니다. 거짓 긍정(FP)은 부정적 클래스의 인스턴스가 긍정적 사례로 잘못 식별되는 것을 말합니다. 거짓 부정(FN)은 실제 긍정적인 사례를 부정으로 잘못 예측한 것입니다. 참 부정(TN)은 모델이 부정으로 정확하게 분류한 실제 부정 클래스 사례입니다.

정밀도. 이를 긍정 예측값(PPV)이라고 합니다. 이는 실제로 해당 클래스에 속하는 긍정적인 클래스 예측의 비율입니다. 예를 들어 스팸 필터에서 정밀도는 모델이 스팸으로 분류하는 메시지 중 실제로 스팸인 메시지의 비율입니다. 이는 다음 방정식으로 표현됩니다.⁴

회수.민감도 또는 실제 양성률(TPR)이라고도 하는 회수는 모델이 탐지한 클래스 인스턴스의 비율을 나타냅니다. 스팸 필터로 돌아가서, 회수는 모델이 실제로 스팸으로 분류한 스팸 메시지의 수를 나타냅니다. 이는 다음 방정식으로 표현됩니다.⁵

F1 점수.정밀도와 회수율은 반비례 관계에 있으며, 분류기가 더 많은 참 긍정을 반환하면(회수율 증가) 분류기는 필연적으로 인스턴스가 아닌 것(즉, 거짓 긍정)도 잘못 분류하여 정확도를 떨어뜨릴 수 있습니다. F1 점수는 이러한 상충 관계를 해결하는 것을 목표로 합니다. F1(또는 F-점수)은 정밀도와 회수율을 효과적으로 결합하여 모델의 총 클래스별 정확도를 나타냅니다. 이는 다음 방정식으로 표현됩니다.⁶

데이터 시각화

데이터 시각화 툴은 데이터 분석 결과를 설명하는 데 도움이 됩니다. 데이터 과학자와 머신 러닝 연구원은 분류기 성능을 시각화하기 위해 다음과 같은 두 가지 주요 툴을 사용합니다.

혼동 행렬. 혼동 행렬은 열은 주어진 클래스의 예측 값을 나타내고 행은 실제 값을 나타내는 테이블입니다(또는 그 반대를 나타냄).왼쪽 상단 상자는 참 긍정의 수를 나타냅니다. 아래 상자는 거짓 긍정입니다. 오른쪽 상단 상자는 거짓 부정의 수입니다. 오른쪽 아래 상자는 참 부정의 수입니다. 이러한 각 값의 합계를 계산하면 모델의 총 예측 수를 얻을 수 있습니다.⁷ 이진 분류기의 혼동 행렬은 다음과 같습니다.

ROC 곡선. 수신기 작동 특성(ROC) 곡선은 참 긍정과 참 부정의 비율을 시각화합니다. 이 차트는 모델 분류에 사용된 각 임계값에 대한 참 긍정 비율과 참 부정 비율을 비교하여 그래프로 표시합니다. 곡선 아래 영역(AUC) 통계는 ROC 곡선에서 발생합니다. AUC는 무작위로 선택된 긍정이 무작위 부정보다 신뢰도 점수가 더 높을 가능성을 측정합니다. AUC 값의 범위는 0에서 1까지입니다. 전자는 모델이 긍정보다 더 높은 확률로 모든 부정에 점수를 매긴다는 의미이고, 1은 모델이 모든 긍정에 더 높은 확률로 점수를 매긴다는 의미입니다.⁸

분류 알고리즘의 유형

분류 알고리즘에는 다양한 유형이 있습니다. 중복되는 사용 사례도 있지만, 일부는 다른 애플리케이션보다 특정 애플리케이션에 더 적합합니다. 다음은 분류에 널리 사용되는 세 가지 머신 러닝 알고리즘에 대한 개요입니다. 이 세 가지 모두 다양한 scikit-learn 라이브러리를 사용하여 Python에서 쉽게 구현할 수 있습니다.

로지스틱 회귀분석

온라인 소스는 종종 머신 러닝 분류와 회귀 작업을 병행합니다. 하지만 이는 지나치게 단순화한 것입니다. 로지스틱 회귀는 선형 회귀 모델에서 파생된 확률 분류기입니다. 선형 회귀는 하나 이상의 독립 변수를 사용하여 독립 변수의 값을 예측하며, 그 값은 임의의 연속적인 유리수일 수 있습니다. 로지스틱 회귀는 아웃풋 값(또는 독립 변수)을 0과 1 사이의 값으로 제한하는 등 선형 회귀를 수정한 것입니다. 이는 표준 선형 회귀 공식에 로짓 또는 로그 확률 변환을 적용하여 이를 수행합니다.⁹

로지스틱 회귀 모델은 다변량 회귀 문제의 이진 분류에 유용합니다. 일반적인 응용 분야로는 사기 탐지와 생물학적 예측이 있습니다. 예를 들어, 로지스틱 회귀는 외상과 관상동맥 심장병으로 인한 환자 사망률을 예측하는 데 도움이 되도록 구현되었습니다.¹⁰

나이브 베이즈

나이브 베이즈 분류기(나이브 베이즈라고도 함)는 베이즈 정리를 기반으로 하는 인기 있는 분류기 유형입니다. 다른 분류기와 가장 큰 차이점 중 하나는 클래스 예측에 대한 사후 확률을 계산한다는 점입니다. 즉, 나이브 베이즈는 새로운 데이터가 나올 때마다 초기 클래스 예측(사전 확률이라고 함)을 업데이트합니다. 예를 들어, 환자의 당뇨병 발병 확률을 분류하려고 한다고 가정해 보겠습니다. 이 환자의 혈압, 나이, 혈당 수치 등과 같은 의료 데이터가 독립 변수로 작용합니다. 예측을 위해 베이지안 분류기는 현재 인구 집단에서 당뇨병의 유병률(사전 확률)을 계산하고, 환자의 의료 데이터 값이 당뇨병 환자에게 나타날 확률(조건부 확률)을 계산합니다. 나이브 베이즈 분류기는 다음과 같은 베이즈 규칙 방정식을 따릅니다.¹¹

나이브 베이즈는 생성형 분류기로 알려져 있습니다. 즉, 베이지안 분류기는 주어진 관측값의 변수 값을 사용하여 해당 관측값을 생성했을 가능성이 가장 높은 클래스를 계산합니다. 자연어 처리(NLP) 연구자들은 감정 분석과 같은 텍스트 분류 작업에 나이브 베이즈를 널리 적용하고 있습니다. Bag of words 모델을 사용하면 각 단어가 변수로 구성되며, 이를 통해 감정 분석에 나이브 베이즈 분류기를 적용할 수 있습니다. 해당 텍스트가 긍정적 또는 부정적 클래스에 의해 생성되었는지 예측합니다.¹²

K-최근접 이웃

K-최근접 이웃(KNN)은 데이터 포인트를 다차원 공간에 매핑합니다. 그런 다음 특징값이 비슷한 데이터 포인트를 별도의 그룹 또는 클래스로 그룹화합니다. 새 데이터 샘플을 분류하기 위해 분류기는 단순히 주어진 새 데이터 샘플 테스트 입력값 x에 가장 가까운 포인트의 k 개수를 살펴보고, 이웃 서브셋을 구성하는 각 클래스의 멤버 수를 세고, 이 비율을 새 데이터 포인트에 대한 클래스 추정값으로 반환합니다. 즉, 모델은 해당 포인트의 이웃 클래스의 대부분을 구성하는 클래스에 새 데이터 포인트를 할당합니다. KNN 모델은 일반적으로 데이터 포인트 간의 거리를 유클리드 거리로 비교합니다.¹³

근사 최근접 이웃(ANN)은 KNN의 변형입니다. 고차원 데이터 공간에서는 지정된 데이터 포인트의 정확한 이웃을 찾는 데 계산 비용이 많이 들 수 있습니다. 차원 축소는 이 문제를 해결하는 한 가지 방법입니다. 또 다른 예로 ANN이 있습니다. ANN은 지정된 데이터 포인트의 정확한 최근접 이웃을 찾는 대신 지정된 거리 내에서 대략적인 최근접 이웃을 찾습니다. 최근 연구는 다중 레이블 분류의 맥락에서 ANN에 대한 유망한 결과를 보여주었습니다.¹⁴

이러한 기법 중 상당수는 이상값에 의해 부정적인 영향을 받을 수 있습니다. 다행히도 여러 가지 정규화 기술을 사용하면 이러한 부정적인 영향 요인을 해결하는 데 도움이 될 수 있습니다. 머신 러닝에는 분류를 위한 다른 많은 알고리즘도 있습니다. 추가 알고리즘으로는 Decision Trees, 랜덤 포레스트, 그래디언트 부스팅, 지원 벡터 머신(SVM) 등이 있습니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

리소스

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

2024년 AI 활용 현황

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

지도 학습 모델

서포트 벡터 머신과 확률적 분류기와 같은 지도형 학습 접근 방식을 살펴보세요.

생성형 AI 실습

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

각주

1 Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

2 Jaiwei Han, Micheline Kamber, Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012년.

3 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

4 Ethan Zhang 및 Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018년.

5 Ethan Zhang 및 Yi Zhang, "Recall," Encyclopedia of Database Systems, Springer, 2018년.

6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018년.

7 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

8 Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

9 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023년

10 Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs, Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol.117, No. 5, 2016년, pp.853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590 .

11 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.William Bolstad 및 James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016년.

12 Daniel Jurafsky 및 James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023년.

13 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012년.

14 Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024년, pp.1−51, https://www.jmlr.org/papers/v25/23-0286.html .