머신 러닝에서의 분류란 무엇인가요?

작성자

Staff writer

머신 러닝에서의 분류란 무엇인가요?

머신 러닝에서의 분류는 머신 러닝 모델이 분류 알고리즘을 사용하여 입력 데이터에 대한 올바른 레이블을 예측하는 예측 모델링 프로세스입니다.

AI 모델은 학습 데이터 세트의 데이터를 분석하고 분류하는 방법을 학습함에 따라 다양한 데이터 유형을 식별하고, 추세를 발견하며, 더 정확한 예측을 수행하는 데 더욱 능숙해집니다.

모델 학습 프로세스가 끝나면 테스트 데이터를 사용하여 모델의 성능을 평가합니다. 모델이 일관되게 좋은 성능을 보이면 보이지 않는 실제 데이터에 도입됩니다. 학습된 신경망은 학습 중에 배운 내용을 적용하여 새로운 데이터로 성공적인 예측을 합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

분류 모델이란 무엇인가요?

분류 모델은 데이터 포인트를 클래스라고 하는 미리 정의된 그룹으로 분류하는 일종의 머신 러닝 모델입니다. 분류기는 입력 데이터에서 클래스 특성을 학습한 다음 학습된 특성에 따라 보이지 않는 새로운 데이터에 가능한 클래스를 할당하는 방법을 학습합니다.¹

AI 아카데미

고객 서비스에 AI 활용

생성형 AI를 활용하여 더 원활한 경험으로 고객을 만족시키고 셀프 서비스, 인간 상담원, 컨택 센터 운영이라는 세 가지 핵심 영역에서 조직의 생산성을 높이는 방법을 알아보세요.

에피소드로 이동

분류 알고리즘이란 무엇인가요?

분류 알고리즘은 입력 데이터를 다양한 클래스 또는 카테고리로 정렬하는 분류 중심의 머신 러닝 알고리즘 입니다. 인공 지능(AI) 모델은 분류 알고리즘을 사용하여 데이터를 정렬하는 방법에 대한 기준을 설정하는 지정된 분류기를 기준으로 입력 데이터 세트를 처리합니다. 분류 알고리즘은 패턴을 예상하고 결과를 예측하기 위해 데이터 과학에서 널리 사용됩니다.

분류 모델의 작동 방식

어떤 머신 러닝 분류 알고리즘도 완전히 똑같지는 않지만, 모두 다음과 같이 동일한 2단계 데이터 분류 프로세스를 따릅니다.

러닝
분류

1단계: 학습

분류는 전통적으로 일종의 지도 머신 러닝의 한 유형으로, 이는 레이블이 지정된 데이터를 사용하여 모델을 학습시킨다는 것을 의미합니다. 지도 학습에서 학습 데이터의 각 데이터 포인트에는 입력 변수(독립 변수 또는 특징이라고도 함)와 아웃풋 변수 또는 레이블이 포함됩니다.

분류 학습에서 모델의 역할은 특징과 클래스 레이블 간의 관계를 이해한 다음 이러한 기준을 향후 데이터 세트에 적용하는 것입니다. 분류 모델은 각 데이터 포인트의 특징과 클래스 레이블을 함께 사용하여 각 클래스를 정의하는 특징을 디코딩합니다. 수학적으로 이 모델은 각 데이터 포인트를 튜플 x로 간주합니다. 튜플은 x = (x1,x2,x3…xn)으로 표현되는 정렬된 숫자 시퀀스입니다.

튜플의 각 값은 데이터 포인트의 특징입니다. 이 방정식에 따라 학습 데이터를 매핑함으로써 모델은 각 클래스 레이블과 관련된 특징을 학습합니다.

학습의 목적은 예측 모델링 중 오류를 최소화하는 것입니다. 경사 하강법 알고리즘은 예측 결과와 실제 결과 간의 격차를 최소화하여 모델을 학습합니다. 나중에 모델을 더 구체적인 작업을 수행할 수 있도록 더 많은 학습을 통해 미세 조정할 수 있습니다.

분류 문제에 대한 비지도 학습 접근 방식은 최근 연구의 핵심 초점이 되고 있습니다. 비지도 학습 방법을 사용하면 모델이 레이블이 지정되지 않은 데이터에서 패턴을 자체적으로 발견할 수 있습니다. 레이블이 없다는 것이 비지도 학습과 지도 학습을 구별하는 지점입니다.

한편, 준지도 학습은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 결합하여 분류 및 회귀 목적으로 모델을 학습시킵니다. 레이블이 지정된 데이터의 대규모 데이터 세트를 얻을 수 없는 상황에서는 준지도 학습이 실행 가능한 대안일 수 있습니다.

2단계: 분류

분류 작업의 두 번째 단계는 분류 자체입니다. 이 단계에서는 사용자가 새로운 데이터의 테스트 세트에 모델을 배포합니다. 이전에 사용되지 않은 데이터는 모델이 학습 데이터에 너무 많이 의존하여 실제 세계에서 정확한 예측을 할 수 없게 되는 경우인 과적합을 방지하기 위해 모델 성능을 평가하는 데 사용됩니다.

이 모델은 학습된 예측 함수를 사용하여 각 샘플의 특징에 따라 새로운 데이터를 여러 클래스로 분류합니다. 그런 다음 사용자는 올바르게 예측된 테스트 데이터 샘플의 수에 따라 모델 정확도를 평가합니다.²

어떤 유형의 분류가 있나요?

분류 기반 예측 모델링 작업은 카테고리 수와 카테고리가 배타적인 정도에 따라 서로 구별됩니다.

이진 분류는 데이터를 두 개의 배타적인 카테고리로 정렬합니다.

다중 클래스 분류는 데이터를 두 개 이상의 독점적인 카테고리로 정렬합니다.

다중 레이블 분류는 데이터를 비독점적인 카테고리로 분류합니다.

불균형 분류는 카테고리 전체에 걸쳐 데이터 포인트가 불균등하게 분포되어 있습니다.

이진 분류

이진 분류 문제에서 모델은 데이터가 두 클래스 중 하나에 해당하는지를 예측합니다. 학습 중에 적용되는 학습 기법은 모델이 학습 데이터의 특징을 평가하고 각 데이터 포인트에 적용되는 두 가지 가능한 레이블(긍정 또는 부정, 참 또는 거짓, 예 또는 아니오) 중 어느 것이 적용되는지 예측하도록 합니다.

예를 들어 스팸 필터는 이메일을 스팸 또는 스팸 아님으로 분류합니다. 이진 분류 모델은 스팸 탐지 외에도 잠재 고객이 특정 제품을 이탈할 것인지, 구매할 것인지에 대한 신뢰할 수 있는 행동 예측 변수를 만듭니다. 또한 자연어 처리(NLP), 감정 분석, 이미지 분류 및 사기 탐지 에도 유용합니다.

다중 클래스 분류

다중 클래스 분류 문제는 모두 상호 배타적인 클래스 레이블이 두 개 이상 있는 데이터를 분류합니다. 이러한 방식으로 다중 클래스의 과제는 더 많은 클래스가 있다는 점을 제외하고는 이진 분류 작업과 유사합니다.

다중 클래스 분류 모델에는 실제 사용 사례가 많이 있습니다. 다중 클래스 분류 솔루션은 이메일이 스팸인지 아닌지를 판단하는 것 외에도 이메일이 홍보용인지 우선순위가 높은지도 판단할 수도 있습니다. 이미지 분류기는 개, 고양이, 라마, 오리너구리 등과 같은 수많은 클래스 레이블을 사용하여 애완동물 이미지를 분류할 수 있습니다.

다중 클래스 분류 학습 방법의 목표는 입력 데이터를 더 넓은 범위의 가능한 카테고리에 정확하게 할당하도록 모델을 학습시키는 것입니다. 다중 클래스 학습의 일반적인 목적 함수는 테스트 데이터에 대한 모델의 예측과 각 데이터 포인트에 대한 올바른 레이블 간의 격차를 평가하는 범주형 교차 엔트로피 손실입니다.

다중 레이블 분류

다중 레이블 분류는 각 데이터 포인트에 여러 개의 비배타적 레이블을 할당할 수 있는 상황에서 사용됩니다. 다중 레이블 분류는 배타성 기반 분류 유형과 달리, 데이터 포인트가 두 개 이상의 카테고리의 특성을 나타낼 가능성을 허용하며, 이는 빅 데이터 수집의 실제 모호성을 더 잘 반영합니다.

다중 레이블 분류 작업은 여러 이진 또는 다중 클래스 분류 모델의 예측을 결합하여 수행되는 경우가 많습니다.

불균형 분류

일부 카테고리에 다른 카테고리보다 더 많은 데이터 포인트가 포함된 불균형 분류에는 전문적인 접근 방식이 필요합니다. 특정 그룹이 더 많은 데이터 포인트를 축적함에 따라 일부 분류 모델은 해당 그룹에 대해 편향되어 점점 자신에게 유리하게 예측합니다.

대응책에는 잘못된 예측의 비용에 더 큰 비중을 두도록 구성된 알고리즘 또는 다수 표본을 제거하거나 과소 대표된 그룹에서 과다 표본을 추출하는 표본 추출 방법이 포함됩니다.

불연속 예측 및 연속 예측

예측 모델은 두 가지 유형의 예측을 출력합니다.

불연속 예측은 데이터를 명확하게 여러 카테고리로 분류합니다.

연속 예측은 확률에 따라 클래스를 지정합니다.

개별 예측

불연속형 예측은 각 데이터 요소에 대해 예측된 클래스 레이블입니다. 예를 들어, 의료 예측 변수는 기반으로 의료 환자를 당뇨 환자 와 비당뇨 환자로 분류할 수 있습니다. 당뇨병 및 비당뇨병 클래스는 불연속형 범주형 예측입니다.

연속 예측

연속 분류기는 클래스 예측을 신뢰도 점수라고 하는 연속형 확률로 할당합니다. 이러한 확률은 0과 1 사이의 값으로 백분율을 나타냅니다. 당뇨병 예측 변수 모델은 0.82 확률로 환자를 당뇨병으로 분류할 수 있습니다. 이 모델은 환자가 당뇨병에 걸릴 확률이 82%라고 판단합니다.

연구자들은 일반적으로 연속 예측을 임계값으로 사용하면서 불연속 예측을 사용하여 모델을 평가합니다. 분류기는 특정 임계값 미만의 모든 예측을 무시합니다. 당뇨병 예측 변수의 임계값이 0.4(40%)인데환자가 0.35(35%)의 확률로 당뇨병 환자로 분류된 경우,모델은 해당 레이블을 무시하고 환자를 당뇨병 클래스로 지정하지 않습니다.³

분류와 회귀 비교

분류와 회귀의 차이점은 분류는 데이터 포인트의 카테고리를 예측하는 반면, 회귀는 관련 실수 값을 예측한다는 것입니다. 분류와 회귀는 모두 예측 모델링의 한 유형이지만 사용 사례가 다릅니다.

분류 모델은 데이터 포인트를 카테고리로 분류합니다. 분류는 데이터 포인트를 분류하는 함수를 발견하기 위해 딥 러닝 모델을 학습시키는 프로세스입니다.

회귀 모델은 다양한 데이터 포인트를 고려하여 다른 변수에 대한 연속적인 수치 값을 예측합니다. 예를 들어, 회귀 모델은 연령, 경험, 위치, 교육을 기반으로 근로자의 급여를 예측할 수 있습니다.

실제로 이 둘은 밀접한 관련이 있는 경우가 많습니다. 예를 들어, 로지스틱 회귀 알고리즘은 회귀를 사용하여 분류 작업을 수행합니다.

분류 알고리즘의 유형

분류 알고리즘에는 다양한 유형이 있습니다. 중복되는 사용 사례도 있지만, 일부는 다른 애플리케이션보다 특정 애플리케이션에 더 적합합니다. 가장 널리 사용되는 분류 알고리즘은 다음과 같습니다.

로지스틱 회귀분석

의사결정트리

랜덤 포레스트

지원 벡터 머신(SVM)

K-최근접 이웃

Naïve Bayes

이러한 알고리즘 중 다수는 scikit-learn 라이브러리를 사용하여 Python에서 쉽게 구현할 수 있습니다. 한편, 앙상블 방법과 트랜스포머 모델은 분류 문제에 적용되는 새로 개발된 방법입니다.

로지스틱 회귀분석

로지스틱 회귀 알고리즘은 분류 작업을 수행하는 데 자주 사용됩니다. 로지스틱 회귀는 선형 회귀 모델에서 파생된 확률 분류기입니다. 선형 회귀는 하나 이상의 독립 변수를 사용하여 종속 변수의 값을 예측합니다. 이 값은 임의의 연속된 유리수일 수 있습니다.

로지스틱 회귀는 아웃풋 값(또는 독립 변수)을 0과 1 사이의 값으로 제한하는 등 선형 회귀를 수정한 것입니다. 이는 표준 선형 회귀 공식에 로짓 또는 로그 확률 변환을 적용하여 이를 수행합니다.⁴

로지스틱 회귀 모델은 여러 변수를 고려할 때 데이터 포인트가 한 범주에 속할지, 아니면 다른 범주에 속할지에 대한 다변량 회귀 문제의 이진 분류에 사용됩니다. 일반적인 응용 분야로는 사기 탐지와 생물학적 예측이 있습니다. 예를 들어, 로지스틱 회귀는 외상과 관상동맥 심장병으로 인한 환자 사망률을 예측하는 데 도움이 되도록 구현되었습니다.¹⁰

의사결정트리

분류와 회귀에 모두 사용되는 의사결정트리는 일련의 이진 분류 판단에서 데이터 세트를 점진적으로 더 작은 그룹으로 나눕니다. 결과로 발생하는 구조는 초기 판단에서 바깥쪽으로 가지를 뻗어 후속 잎이나 노드로 이어지는 나무와 유사합니다.

의사결정트리는 순서도와 같은 특성으로 인해 비즈니스 사용자가 이해하기에 더 직관적인 모델 중 하나입니다. 시각화하기 쉬운 의사결정트리는 데이터를 분류하는 데 사용되는 의사 결정 프로세스와 기준을 명확하게 표현하여 분류 프로세스에 투명성을 제공합니다.

랜덤 포레스트

랜덤 포레스트는 여러 의사결정트리의 아웃풋을 단일 결과로 결합하는 앙상블 기술입니다. 결과로 나타나는 '숲'은 과적합을 방지하면서 단일 나무의 예측 정확도를 향상시킵니다. 의사결정트리와 마찬가지로 랜덤 포레스트는 분류 및 회귀 작업을 모두 처리할 수 있습니다.

랜덤 포레스트 알고리즘은 각 작업에 대해 여러 개의 의사결정트리를 만들고 모든 트리의 예측을 집계한 다음 가장 인기 있는 답변을 최종 결과로 선택합니다. 각 트리는 데이터 특징의 임의의 하위 집합을 고려하므로 트리 간의 낮은 상관관계를 보장합니다.

지원 벡터 머신(SVM)

지원 벡터 머신(SVM) 알고리즘은 데이터의 특징 수에 해당하는 차원 수를 사용하여 데이터 포인트를 다차원 공간으로 표시합니다. 이 알고리즘의 목표는 데이터 포인트를 카테고리로 가장 잘 나누는 최적의 선(초평면 또는 결정 경계라고도 함)을 발견하는 것입니다.

최적의 초평면은 각 클래스에서 초평면과 가장 가까운 데이터 포인트 사이의 거리인 가장 넓은 여백을 가진 초평면입니다. 이러한 주변 데이터 포인트를 지원 벡터라고 합니다. 초평면으로 데이터를 분리하는 모델은 선형 모델이지만, SVM 알고리즘은 더 복잡한 데이터 세트로 비선형 분류 작업도 처리할 수 있습니다.

로지스틱 회귀, 의사결정트리, 랜덤 포레스트, SVM 알고리즘은 열성 학습자의 예로, 모두 학습 데이터에서 모델을 구성한 다음 해당 모델을 미래 예측에 적용하는 알고리즘입니다. 학습은 더 오래 걸리지만 알고리즘이 좋은 모델을 구축한 후에는 예측이 더 빨라집니다.

K-최근접 이웃(KNN)

K-최근접 이웃(KNN)은 데이터 포인트를 다차원 공간에 매핑합니다. 그런 다음 특징값이 비슷한 데이터 포인트를 별도의 그룹 또는 클래스로 그룹화합니다. 새 데이터 샘플을 분류하기 위해 분류기는 새 데이터에 가장 가까운 k개의 점을 살펴보고, 인접한 하위 집합을 구성하는 각 클래스의 멤버 수를 세고, 해당 비율을 새 데이터 포인트에 대한 클래스 추정치로 반환합니다.

즉, 모델은 해당 포인트의 이웃 클래스의 대부분을 구성하는 클래스에 새 데이터 포인트를 할당합니다. KNN 모델은 학습 데이터에서 모델을 즉시 구축하지 않고 대신 학습 데이터를 참조하고 새로운 데이터를 비교하는 알고리즘인 게으른 학습자입니다. 일반적으로 이러한 모델은 예측을 수행하는 데 열성 학습자보다 시간이 더 오래 걸립니다.

KNN 모델은 일반적으로 데이터 포인트 간의 거리를 유클리드 거리로 비교합니다.⁶

근사 최근접 이웃(ANN)은 KNN의 변형입니다. 고차원 데이터 공간에서는 데이터 포인트의 정확한 이웃을 찾는 데 계산 비용이 많이 듭니다. 차원 축소와 ANN은 이 문제에 대한 두 가지 해결책입니다.

ANN은 데이터 포인트의 정확한 최근접 이웃을 찾는 대신 지정된 거리 내에서 대략적인 최근접 이웃을 찾습니다. 최근 연구는 다중 레이블 분류의 맥락에서 ANN에 대한 유망한 결과를 보여주었습니다.⁷

나이브 베이즈(Naïve Bayes)

베이즈의 정리를 기반으로 한 나이브 베이즈 분류기는 클래스 예측에 대한 사후 확률을 계산합니다. 나이브 베이즈는 새로운 데이터가 나올 때마다 초기 클래스 예측 또는 사전 확률을 업데이트합니다.

당뇨병 예측 변수를 사용하면 환자의 의료 데이터(혈압, 연령, 혈당 수치 등)가 독립 변수로 작용합니다. 베이지안 분류기는 현재 인구 집단에서 당뇨병의 유병률(사전 확률)을 계산하고, 환자의 의료 데이터 값이 당뇨병 환자에게 나타날 조건부 확률을 계산합니다.

나이브 베이즈 분류기는 다음과 같은 베이즈 규칙 방정식을 따릅니다.⁸

나이브 베이즈는 생성형 분류기로 알려져 있습니다. 베이지안 분류기는 관측값의 변수 값을 사용하여 해당 관측값을 생성했을 가능성이 가장 높은 클래스를 계산합니다.

자연어 처리(NLP) 연구자들은 감정 분석과 같은 텍스트 분류 작업에 나이브 베이즈를 널리 적용하고 있습니다. 나이브 베이즈 분류기는 각 단어가 변수를 구성하는 Bag of words 모델을 사용하여 양수 클래스나 음수 클래스가 해당 텍스트를 생성했는지를 예측합니다.⁹

앙상블 기법

앙상블 방법과 머신 러닝 기법은 결과를 개선하기 위해 여러 개의 작은 모델을 하나의 분류기로 결합합니다. 심층 앙상블 방법은 여러 딥 러닝 모델을 결합하여 훨씬 더 강력한 앙상블 분류기를 만듭니다. 심층 학습자가 포함된 앙상블은 복잡한 다중 레이블 분류 작업을 처리할 수 있습니다.

그래디언트 부스팅은 예측 정확도를 높이는 앙상블 방법입니다. 이는 부스팅의 일종으로, 여러 개의 약한 학습자가 순서대로 서로에게서 학습하여 각 반복에서 결과를 개선하는 앙상블 기법입니다.

분류에서의 변환기 모델

변환기 모델은 일반적으로 NLP 작업에 사용되지만 분류 문제에도 적용되었습니다. GPT 및 Claude와 같은 변환기 모델은 셀프 어텐션 메커니즘을 사용하여 입력 데이터 세트의 가장 관련성이 높은 부분에 집중합니다. 위치 인코딩은 각 데이터 포인트가 시퀀스의 어디에 있는지 모델에 알리는 데 사용됩니다.

분류 학습 평가 방법

연구원과 개발자는 특정 분류 작업에 따라 분류 모델에 대한 특정 평가 지표를 선택합니다. 모두 학습자 또는 분류자가 모델 클래스를 정확하게 예측하는 정확도를 측정합니다.

가장 널리 사용되는 평가 지표는 다음과 같습니다.

정확도

정밀도

재현율

F1 점수

혼동 행렬

ROC 곡선

참 긍정(TP)은 모델이 해당 클래스에서 정확하게 예측한 데이터 샘플을 말합니다. 거짓 긍정(FP)은 부정적 클래스의 인스턴스가 긍정적 사례로 잘못 식별되는 것을 말합니다. 거짓 부정(FN)은 실제 긍정적인 사례를 부정으로 잘못 예측한 것입니다. 참 부정(TN)은 모델이 부정으로 정확하게 분류한 실제 부정 클래스 사례입니다.

정확도

정확도는 데이터 세트의 모든 예측에 대한 참 양성의 비율입니다. 머신 러닝이 모델이 결과(이 경우 데이터 포인트에 적합한 클래스)를 정확하게 예측하는 빈도를 측정합니다.

정확도는 모델의 성능에 대한 높은 수준의 개요를 제공하지만, 모델이 다른 클래스보다 특정 클래스를 더 잘 예측하는지를 나타내지는 않습니다. 데이터 세트의 불균형이 매우 높은 경우 정확도에 초점을 맞추면 모델이 모든 작은 데이터 세트를 무시하고 모든 결과를 다수 클래스로 예측할 수 있습니다. 이 상황에서도 전반적인 정확도는 여전히 높습니다.

스팸 필터는 실제 스팸 이메일의 대부분을 놓치더라도 대부분의 추측이 정확하다면 정확도가 높습니다.

정밀도

정밀도 또는 긍정 예측값(PPV)은 지정된 클래스에 속하는 양의 클래스 예측의 비율입니다. 정밀도는 모델이 대상 클래스에 대해 올바르게 예측하고 있는지 여부를 나타내므로 불균형한 분류 작업이나 오탐 비용이 높은 경우에 유용합니다.

스팸 필터에서 정밀도는 탐지된 스팸 이메일 중 실제 스팸 이메일의 수를 나타냅니다. 데이터를 오탐으로 잘못 분류하는 모델은 정밀도가 낮은 반면, 오탐이 적은 모델은 정밀도가 높습니다.¹⁰

재현율

민감도 또는 실제 양성률(TPR)이라고도 하는 재현율은 모델이 탐지한 클래스 인스턴스의 비율을 나타냅니다. 재현율은 모델이 데이터 세트에서 대상 클래스의 멤버를 감지하는 빈도를 보여줍니다. 스팸 필터의 경우 재현율은 모델이 스팸으로 식별하는 실제 스팸 이메일의 양을 보여줍니다.¹¹

F1 점수

정밀도와 재현율은 역의 관계를 공유합니다. 분류기가 더 많은 참 긍정을 반환하여 재현율이 증가하면 인스턴스가 아닌 것을 잘못 분류하여 거짓 긍정을 생성하고 정밀도가 떨어질 수 있습니다. F1 점수는 정밀도와 재현율을 결합하여 모델의 총 클래스별 정확도를 나타내어 이러한 상충 관계를 해결합니다.¹²

데이터 시각화 및 모델 평가

데이터 시각화 툴은 데이터 분석 결과를 설명하는 데 도움이 됩니다. 데이터 과학자와 머신 러닝 연구원은 분류기 성능을 시각화하기 위해 다음과 같은 두 가지 주요 툴을 사용합니다.

예측값과 실제 값을 보여주는 표인 혼동 행렬.

참 긍정과 참 부정의 비율을 나타내는 그래프인 ROC 곡선.

혼동 행렬

혼동 행렬은 클래스의 예측 값과 실제 값을 모두 나타내는 표입니다. 행렬의 상자는 참 긍정, 거짓 긍정, 거짓 부정, 참 부정의 수를 나타냅니다. 이러한 값의 합계는 모델의 총 예측 수입니다.¹³

ROC 곡선

수신기 작동 특성(ROC) 곡선은 참 긍정과 참 부정의 비율을 시각화합니다. 이 차트는 모델 분류에 사용된 각 임계값에 대한 참 긍정 비율과 참 부정 비율을 비교하여 그래프로 표시합니다. 곡선 아래 영역(AUC) 통계는 ROC 곡선에서 발생합니다.

AUC는 무작위로 선택된 긍정이 무작위 부정보다 신뢰도 점수가 더 높을 가능성을 측정합니다. AUC 값의 범위는 0에서 1까지입니다. 0점은 모델이 긍정보다 더 높은 확률로 모든 부정에 점수를 매긴다는 의미이고, 1은 모델이 모든 긍정에 더 높은 확률로 점수를 매긴다는 의미입니다.¹⁴

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

리소스

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

2024년 AI 활용 현황

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

지도 학습 모델

서포트 벡터 머신과 확률적 분류기와 같은 지도형 학습 접근 방식을 살펴보세요.

생성형 AI 실습

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

각주

1. Chris Drummond, “Classification,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

2. Jaiwei Han, Micheline Kamber 및 Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufman, 2012년.

3. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

4. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani 및 Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023년

5. Lisa X. Deng, Abigail May Khan, David Drajpuch, Stephanie Fuller, Jonathan Ludmir, Christopher E. Mascio, Sara L. Partington, Ayesha Qadeer, Lynda Tobin, Adrienne H. Kovacs 및 Yuli Y. Kim, "Prevalence and Correlates of Post-traumatic Stress Disorder in Adults With Congenital Heart Disease," The American Journal of Cardiology, Vol. 117, No. 5, 2016년, pp. 853-857, https://www.sciencedirect.com/science/article/abs/pii/S0002914915023590

6. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012년.

7. Ville Hyvönen, Elias Jääsaari, Teemu Roos, “A Multilabel Classification Framework for Approximate Nearest Neighbor Search,” Journal of Machine Learning Research, Vol. 25, No. 46, 2024년, pp. 1−51, https://www.jmlr.org/papers/v25/23-0286.html

8. Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년. William Bolstad 및 James Curran, Introduction to Bayesian Statistics, 3rd edition, Wiley, 2016년.

9. Daniel Jurafsky 및 James Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd edition, 2023년.

10. Ethan Zhang 및 Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018년.

11. Ethan Zhang 및 Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018년.

12. Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018년.

13. Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

14. Peter Flach, “ROC Analysis,” Encyclopedia of Machine Learning and Data Mining, Springer, 2017년.

머신 러닝에서의 분류란 무엇인가요?

작성자