혼동 행렬이란 무엇인가요?

2024년 1월 19일

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

혼동 행렬은 머신 러닝에서 분류 모델 성능을 평가하기 위해 예측된 값을 데이터 세트의 실제 값과 비교합니다.

혼동 행렬(또는 오류 행렬)은 분류기 알고리즘 결과를 시각화하는 방법입니다. 좀 더 구체적으로 말하자면, 특정 클래스의 실측값 인스턴스 수를 예측된 클래스 인스턴스 수에 대해 분석하는 표입니다. 혼동 행렬은 분류 모델의 성능을 측정하는 여러 평가 메트릭 중 하나입니다. 정밀도 및 재현률과 같은 여러 다른 모델 성능 메트릭을 계산하는 데 사용할 수 있습니다.

혼동 행렬(Confusion matrice)은 Naïve Bayes, 로지스틱 회귀(logistic regression) 모델, 의사 결정 트리(Decision Trees) 등과 같은 모든 분류기 알고리즘과 함께 사용할 수 있으며, 데이터 과학머신 러닝 모델에 광범위하게 적용할 수 있기 때문에 많은 패키지와 라이브러리에는 사이킷 학습의 Python용 sklearn.metrics 모듈과 같은 혼동 행렬을 생성하는 함수가 사전 로드되어 있습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

혼동 행렬 레이아웃

혼동 행렬에서 열은 주어진 클래스의 예측값을 나타내고 행은 주어진 클래스의 실제값(즉,기준값)을 나타내거나 그 반대의 경우도 마찬가지입니다. 연구에서 그 반대의 현상도 나타났습니다. 이 격자 구조는 모든 클래스에 대한 올바른 예측과 잘못된 예측의 수를 나란히 표시하여 모델 분류 정확도를 시각화하는 데 편리한 툴입니다.

이진 분류기의 표준 혼동 행렬 템플릿은 다음과 같습니다.

왼쪽 상단 상자는 양성 클래스에 대한 올바른 예측의 수인 참긍정(TP) 수를 제공합니다. 그 아래의 상자는 위양성(FP)이며, 이러한 부정 클래스 인스턴스는 긍정 사례로 잘못 식별됩니다. 이를 통계에서는 제1종 오류라고도 합니다. 오른쪽 상단 상자는 거짓부정(false negative, FN)의 수이며, 실제 긍정 인스턴스는 음성으로 잘못 예측되었습니다. 마지막으로, 오른쪽 하단 상자에는 실제 부정 클래스 인스턴스인 참부정(TN)의 수가 표시되며, 이는 부정이 정확하게 예측된 실제 부정 클래스 인스턴스입니다. 이러한 각 값의 합계를 계산하면 모델의 총 예측 수를 얻을 수 있습니다.1

물론 이 템플릿은 기본적인 이진 분류 문제를 위한 것입니다. 혼동 행렬은 다중 클래스 분류 문제에 대한 결과도 시각화할 수 있습니다. 예를 들어 해양 생물 보호 프로그램의 일환으로 종 분류 모델을 개발 중이라고 가정해 보겠습니다. 이 모델은 어종을 예측합니다. 이러한 다중 클래스 분류 문제에 대한 혼동 행렬은 다음과 같습니다.

대각선 상자는 모두 실제 예측된 긍정을 나타냅니다. 다른 상자는 집중할 클래스에 따라 거짓 긍정, 거짓 부정 및 참 부정에 대한 수치를 제공합니다.

모델 평가를 위한 혼동 행렬 사용

분류기 예측 결과를 쉽게 시각화할 수 있다는 점을 감안할 때 혼동 행렬은 다른 모델 평가 메트릭을 계산하는 데 유용합니다. 행렬에서 값을 간단히 추출하여 모델 성능을 측정하기 위한 여러 방정식에 연결할 수 있습니다.

정확도

모델 정확도는 분류기에 대해 전적으로 유용한 평가 메트릭이 아닙니다. 예를 들어, 100개의 인스턴스로 구성된 데이터 세트에 대해 분류기를 실행한다고 가정해 보겠습니다. 모델의 혼동 행렬에는 거짓 부정이 하나만 표시되고 거짓 긍정은 표시되지 않으며, 모델은 다른 모든 데이터 인스턴스를 올바르게 분류합니다. 따라서 모델의 정확도는 99%입니다. 표면적으로는 바람직하지만 정확도가 높다고 해서 모델 성능이 우수하다는 뜻은 아닙니다. 예를 들어, 전염성이 강한 질병을 분류하는 모델이 있다고 가정해 보겠습니다. 이 1%의 잘못된 분류가 엄청난 위험을 초래할 수 있습니다. 따라서 다른 평가 메트릭을 사용하여 분류 알고리즘 성능에 대한 더 나은 그림을 제공할 수 있습니다.

정밀도 및 재현률

정밀도는 실제로 해당 클래스에 속하는 양성 클래스 예측값의 비율입니다.2 정밀도를 이해하는 또 다른 방법은 무작위로 선택된 인스턴스가 특정 클래스에 속할 가능성을 측정하는 것입니다.3 정밀도는 PPV(positive predicted value)라고도 하며 다음 방정식으로 표시됩니다.

재현율은 모델이 감지한 클래스 인스턴스의 백분율을 나타냅니다.4 즉, 해당 클래스의 모든 실제 인스턴스 중에서 주어진 클래스에 대한 긍정적 예측의 비율을 나타냅니다.5 재현율은 민감도 또는 진양성률(TPR)로도 알려져 있으며 다음 방정식으로 표현됩니다.

F1 점수

정밀도와 재현율은 때때로 역의 관계를 공유할 수 있습니다. 모델이 더 많은 실제 클래스 인스턴스를 반환하여 재현율을 높일수록(예: 참긍정), 모델은 필연적으로 비클래스 인스턴스(예: 위양성)도 잘못 분류하여 정밀도가 떨어지게 됩니다.6 F1 점수는 정밀도와 재현율을 결합하여 이러한 절충점을 해결하려고 합니다.

F-점수, F-측정 또는 정밀도 및 재현률 조화 평균이라고도 하는 F1 점수는 정밀도와 재현률을 결합하여 모델의 총 클래스별 정확도를 나타냅니다. 이 두 값을 사용하여 방정식으로 F1 점수를 계산할 수 있으며, 여기서 P는 정밀도(PPV)를 나타내고 R은 재현률(민감도)을 나타냅니다.

F1 점수는 정밀도-재현률 균형이 가장 뚜렷할 수 있는 불균형 데이터 세트에서 특히 유용합니다. 예를 들어 희귀 질환의 발생 가능성을 예측하는 분류기가 있다고 가정해 보겠습니다. 테스트 데이터 세트에서 아무도 질병에 걸리지 않았다고 예측하는 모델은 정밀도는 완벽하지만 재현률은 0일 수 있습니다. 반면, 데이터 세트의 모든 사람이 질병에 걸렸다고 예측하는 모델은 완벽한 정밀도를 반환하지만 실제로 질병에 걸린 사람의 비율과 동일한 정밀도를 반환합니다(예를 들어1,000만 명 중 1명만 질병에 걸린 경우 0.00001%). F1 점수는 분류기의 성능을 보다 전체적인 관점에서 파악하기 위해 이 두 값의 균형을 맞추는 수단입니다.7

일부 연구자들은 F1 점수를 성능 메트릭으로 사용하는 것을 비판하기도 합니다. 이들은 일반적으로 F1 점수가 정밀도와 재현률에 동일한 가중치를 부여하는데, 이는 모든 데이터 세트에서 똑같이 중요한 성능 메트릭이 아닐 수 있다고 주장합니다.8 이에 대한 응답으로 연구자들은 F1 점수의 수정된 변형을 제공했습니다.9

조건부 측정

조건부 측정은 특정 클래스 또는 비클래스를 감지하기 위한 모델의 정확도를 나타냅니다. 진양성률(TPR) 또는 민감도라고도 하는 재현율은 이러한 척도 중 하나로, 모든 실제 클래스 인스턴스에서 포지티브 클래스 예측의 비율을 나타냅니다. 특이성(specificity) 또는 진음성률(TNR)은 또 다른 조건부 측정입니다. 주어진 클래스의 실제 비인스턴스에서 올바른 부정 예측의 비율을 측정합니다. 다음 방정식으로 특이성을 계산할 수 있습니다.10

거짓 긍정 비율

특이성은 모델의 위양성 비율(FPR)을 계산하는 데 도움이 됩니다. 다른 분류기 평가 시각화, 특히 ROC 곡선 및 AUC는 FPR을 활용합니다. FPR은 모델이 특정 클래스의 비인스턴스를 해당 클래스의 일부로 잘못 분류할 확률입니다. 따라서 모델이 통계에서 유형 I 오류로 알려진 위양성을 반환하는 비율을 나타냅니다.

유형 I 오류는 거짓 긍정을 나타내지만, 유형 II 오류는 특정 클래스의 실제 인스턴스가 해당 클래스의 일부가 아닌 것으로 잘못 분류된 거짓 부정을 의미합니다. 이름에서 알 수 있듯이 거짓 부정 비율(FNR)은 모델이 실제 클래스 인스턴스를 해당 클래스의 일부가 아닌 것으로 잘못 분류할 확률을 나타냅니다. FPR이 특이도에 해당하는 것처럼 FNR은 민감도에 해당합니다.

참고로 FNR은 주어진 클래스의 총 실제 인스턴스 수를 알아야 하기 때문에 문헌에서 자주 사용되지 않습니다. 보이지 않는 테스트 데이터 세트에서 아직 알려지지 않은 상태로 남아 있을 수 있기 때문입니다.11

무조건적 메트릭

무조건적 메트릭은 모델에 따라 특정 클래스가 발생하거나 발생하지 않을 확률을 나타내는 메트릭입니다. 정밀도 또는 긍정 예측값(PPV)은 무조건적 메트릭 중 하나입니다. 앞서 언급했듯이 선택한 인스턴스가 특정 클래스에 속할 가능성을 측정합니다. 다른 무조건적 메트릭인 부정 예측 값(NPV)는 선택한 인스턴스가 해당 클래스에 속하지 않을 확률입니다. 기본적으로 두 무조건적 메트릭 모두 무작위로 선택된 인스턴스가 특정 클래스에 속할지 여부에 대한 답변을 시도합니다. 다음 방정식을 사용하여 NPV를 계산할 수 있습니다.12

Mixture of Experts | 팟캐스트

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

1 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2018년.

2 Ethan Zhang 및 Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018년.

3 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

4 Ethan Zhang 및 Yi Zhang, "Recall," Encyclopedia of Database Systems, Springer, 2018년.

5 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

6 Ben Carterette, "Precision and Recall," Encyclopedia of Database Systems, Springer, 2018년.

7 Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

8 David Hand 및 Peter Christen, "A note on using the F-measure for evaluating record linkage algorithms," Statistics and Computing, Vol. 28, 2018년, pp. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

9 David Hand, Peter Christen 및 Nishadi Kirielle, "F*: an interpretable transformation of the F-measure," Machine Learning, Vol. 110, 2021년, pp. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco 및 Giuseppe Jurman, "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC Genomics, Vol. 21, 2020년,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

10 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

11 Allen Downey, Think Stats, 2nd edition, O’Reilly, 2014년.

12 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.