혼동 행렬이란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

혼동 행렬은 머신 러닝에서 분류 모델 성능을 평가하기 위해 예측된 값을 데이터 세트의 실제 값과 비교합니다.

혼동 행렬(또는 오류 행렬)은 분류기 알고리즘 결과를 시각화하는 방법입니다. 좀 더 구체적으로 말하자면, 특정 클래스의 실측값 인스턴스 수를 예측된 클래스 인스턴스 수에 대해 분석하는 표입니다. 혼동 행렬은 분류 모델의 성능을 측정하는 여러 평가 메트릭 중 하나입니다. 정밀도 및 재현률과 같은 여러 다른 모델 성능 메트릭을 계산하는 데 사용할 수 있습니다.

혼동 행렬(Confusion matrice)은 Naïve Bayes, 로지스틱 회귀(logistic regression) 모델, 의사 결정 트리(Decision Trees) 등과 같은 모든 분류기 알고리즘과 함께 사용할 수 있으며, 데이터 과학 및 머신 러닝 모델에 광범위하게 적용할 수 있기 때문에 많은 패키지와 라이브러리에는 사이킷 학습의 Python용 sklearn.metrics 모듈과 같은 혼동 행렬을 생성하는 함수가 사전 로드되어 있습니다.

혼동 행렬 레이아웃

혼동 행렬에서 열은 주어진 클래스의 예측값을 나타내고 행은 주어진 클래스의 실제값(즉,기준값)을 나타내거나 그 반대의 경우도 마찬가지입니다. 연구에서 그 반대의 현상도 나타났습니다. 이 격자 구조는 모든 클래스에 대한 올바른 예측과 잘못된 예측의 수를 나란히 표시하여 모델 분류 정확도를 시각화하는 데 편리한 툴입니다.

이진 분류기의 표준 혼동 행렬 템플릿은 다음과 같습니다.

왼쪽 상단 상자는 양성 클래스에 대한 올바른 예측의 수인 참긍정(TP) 수를 제공합니다. 그 아래의 상자는 위양성(FP)이며, 이러한 부정 클래스 인스턴스는 긍정 사례로 잘못 식별됩니다. 이를 통계에서는 제1종 오류라고도 합니다. 오른쪽 상단 상자는 거짓부정(false negative, FN)의 수이며, 실제 긍정 인스턴스는 음성으로 잘못 예측되었습니다. 마지막으로, 오른쪽 하단 상자에는 실제 부정 클래스 인스턴스인 참부정(TN)의 수가 표시되며, 이는 부정이 정확하게 예측된 실제 부정 클래스 인스턴스입니다. 이러한 각 값의 합계를 계산하면 모델의 총 예측 수를 얻을 수 있습니다.¹

물론 이 템플릿은 기본적인 이진 분류 문제를 위한 것입니다. 혼동 행렬은 다중 클래스 분류 문제에 대한 결과도 시각화할 수 있습니다. 예를 들어 해양 생물 보호 프로그램의 일환으로 종 분류 모델을 개발 중이라고 가정해 보겠습니다. 이 모델은 어종을 예측합니다. 이러한 다중 클래스 분류 문제에 대한 혼동 행렬은 다음과 같습니다.

대각선 상자는 모두 실제 예측된 긍정을 나타냅니다. 다른 상자는 집중할 클래스에 따라 거짓 긍정, 거짓 부정 및 참 부정에 대한 수치를 제공합니다.

모델 평가를 위한 혼동 행렬 사용

분류기 예측 결과를 쉽게 시각화할 수 있다는 점을 감안할 때 혼동 행렬은 다른 모델 평가 메트릭을 계산하는 데 유용합니다. 행렬에서 값을 간단히 추출하여 모델 성능을 측정하기 위한 여러 방정식에 연결할 수 있습니다.

정확도

모델 정확도는 분류기에 대해 전적으로 유용한 평가 메트릭이 아닙니다. 예를 들어, 100개의 인스턴스로 구성된 데이터 세트에 대해 분류기를 실행한다고 가정해 보겠습니다. 모델의 혼동 행렬에는 거짓 부정이 하나만 표시되고 거짓 긍정은 표시되지 않으며, 모델은 다른 모든 데이터 인스턴스를 올바르게 분류합니다. 따라서 모델의 정확도는 99%입니다. 표면적으로는 바람직하지만 정확도가 높다고 해서 모델 성능이 우수하다는 뜻은 아닙니다. 예를 들어, 전염성이 강한 질병을 분류하는 모델이 있다고 가정해 보겠습니다. 이 1%의 잘못된 분류가 엄청난 위험을 초래할 수 있습니다. 따라서 다른 평가 메트릭을 사용하여 분류 알고리즘 성능에 대한 더 나은 그림을 제공할 수 있습니다.

정밀도 및 재현률

정밀도는 실제로 해당 클래스에 속하는 양성 클래스 예측값의 비율입니다.² 정밀도를 이해하는 또 다른 방법은 무작위로 선택된 인스턴스가 특정 클래스에 속할 가능성을 측정하는 것입니다.³ 정밀도는 PPV(positive predicted value)라고도 하며 다음 방정식으로 표시됩니다.

재현율은 모델이 감지한 클래스 인스턴스의 백분율을 나타냅니다.⁴ 즉, 해당 클래스의 모든 실제 인스턴스 중에서 주어진 클래스에 대한 긍정적 예측의 비율을 나타냅니다.⁵ 재현율은 민감도 또는 진양성률(TPR)로도 알려져 있으며 다음 방정식으로 표현됩니다.

F1 점수

정밀도와 재현율은 때때로 역의 관계를 공유할 수 있습니다. 모델이 더 많은 실제 클래스 인스턴스를 반환하여 재현율을 높일수록(예: 참긍정), 모델은 필연적으로 비클래스 인스턴스(예: 위양성)도 잘못 분류하여 정밀도가 떨어지게 됩니다.⁶ F1 점수는 정밀도와 재현율을 결합하여 이러한 절충점을 해결하려고 합니다.

F-점수, F-측정 또는 정밀도 및 재현률 조화 평균이라고도 하는 F1 점수는 정밀도와 재현률을 결합하여 모델의 총 클래스별 정확도를 나타냅니다. 이 두 값을 사용하여 방정식으로 F1 점수를 계산할 수 있으며, 여기서 P는 정밀도(PPV)를 나타내고 R은 재현률(민감도)을 나타냅니다.

F1 점수는 정밀도-재현률 균형이 가장 뚜렷할 수 있는 불균형 데이터 세트에서 특히 유용합니다. 예를 들어 희귀 질환의 발생 가능성을 예측하는 분류기가 있다고 가정해 보겠습니다. 테스트 데이터 세트에서 아무도 질병에 걸리지 않았다고 예측하는 모델은 정밀도는 완벽하지만 재현률은 0일 수 있습니다. 반면, 데이터 세트의 모든 사람이 질병에 걸렸다고 예측하는 모델은 완벽한 정밀도를 반환하지만 실제로 질병에 걸린 사람의 비율과 동일한 정밀도를 반환합니다(예를 들어1,000만 명 중 1명만 질병에 걸린 경우 0.00001%). F1 점수는 분류기의 성능을 보다 전체적인 관점에서 파악하기 위해 이 두 값의 균형을 맞추는 수단입니다.⁷

일부 연구자들은 F1 점수를 성능 메트릭으로 사용하는 것을 비판하기도 합니다. 이들은 일반적으로 F1 점수가 정밀도와 재현률에 동일한 가중치를 부여하는데, 이는 모든 데이터 세트에서 똑같이 중요한 성능 메트릭이 아닐 수 있다고 주장합니다.⁸ 이에 대한 응답으로 연구자들은 F1 점수의 수정된 변형을 제공했습니다.⁹

조건부 측정

조건부 측정은 특정 클래스 또는 비클래스를 감지하기 위한 모델의 정확도를 나타냅니다. 진양성률(TPR) 또는 민감도라고도 하는 재현율은 이러한 척도 중 하나로, 모든 실제 클래스 인스턴스에서 포지티브 클래스 예측의 비율을 나타냅니다. 특이성(specificity) 또는 진음성률(TNR)은 또 다른 조건부 측정입니다. 주어진 클래스의 실제 비인스턴스에서 올바른 부정 예측의 비율을 측정합니다. 다음 방정식으로 특이성을 계산할 수 있습니다.¹⁰

거짓 긍정 비율

특이성은 모델의 위양성 비율(FPR)을 계산하는 데 도움이 됩니다. 다른 분류기 평가 시각화, 특히 ROC 곡선 및 AUC는 FPR을 활용합니다. FPR은 모델이 특정 클래스의 비인스턴스를 해당 클래스의 일부로 잘못 분류할 확률입니다. 따라서 모델이 통계에서 유형 I 오류로 알려진 위양성을 반환하는 비율을 나타냅니다.

유형 I 오류는 거짓 긍정을 나타내지만, 유형 II 오류는 특정 클래스의 실제 인스턴스가 해당 클래스의 일부가 아닌 것으로 잘못 분류된 거짓 부정을 의미합니다. 이름에서 알 수 있듯이 거짓 부정 비율(FNR)은 모델이 실제 클래스 인스턴스를 해당 클래스의 일부가 아닌 것으로 잘못 분류할 확률을 나타냅니다. FPR이 특이도에 해당하는 것처럼 FNR은 민감도에 해당합니다.

참고로 FNR은 주어진 클래스의 총 실제 인스턴스 수를 알아야 하기 때문에 문헌에서 자주 사용되지 않습니다. 보이지 않는 테스트 데이터 세트에서 아직 알려지지 않은 상태로 남아 있을 수 있기 때문입니다.¹¹

무조건적 메트릭

무조건적 메트릭은 모델에 따라 특정 클래스가 발생하거나 발생하지 않을 확률을 나타내는 메트릭입니다. 정밀도 또는 긍정 예측값(PPV)은 무조건적 메트릭 중 하나입니다. 앞서 언급했듯이 선택한 인스턴스가 특정 클래스에 속할 가능성을 측정합니다. 다른 무조건적 메트릭인 부정 예측 값(NPV)는 선택한 인스턴스가 해당 클래스에 속하지 않을 확률입니다. 기본적으로 두 무조건적 메트릭 모두 무작위로 선택된 인스턴스가 특정 클래스에 속할지 여부에 대한 답변을 시도합니다. 다음 방정식을 사용하여 NPV를 계산할 수 있습니다.¹²

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

IBM이 데이터 과학 및 머신러닝 분야의 리더로 선정

IBM은 2025년 Gartner® Magic Quadrant™ 에서 데이터 과학 및 머신러닝 플랫폼 부문에서 리더로 인정받았습니다.

리소스

ROI 달성: 비즈니스에 AI 에이전트 도입

IBM과 함께하는 웨비나에 참여하여 산업 전반의 사례, 사용 사례, IBM의 자체 성공 사례를 살펴보며 에이전틱 AI 이니셔티브를 통해 ROI를 실현하는 방법을 알아보세요.

IBM, 데이터 과학 및 머신 러닝 부문 리더로 선정

IBM이 2025년 Gartner Magic Quadrant™ 데이터 과학 및 머신 러닝 플랫폼 부문에서 리더로 선정된 이유를 알아보세요.

AI 프로젝트에서 수익으로: 에이전틱 AI로 지속 가능한 재무 성과를 달성하는 방법

조직이 서로 다른 파일럿을 통해 AI를 도입하는 것에서 AI를 사용하여 조직의 중심에서 혁신을 추진하는 것으로 전환하는 방법을 알아보세요.

AI 전문성 업그레이드

지금 개인 또는 여러 사용자 구독을 구매하여 100개가 넘는 온라인 과정에 액세스하세요. 저렴한 가격으로 다양한 제품에 걸쳐 기술을 확장할 수 있습니다.

IBM Granite 살펴보기

IBM® Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

IBM AI Academy

IBM 사고 리더들이 이끄는 이 커리큘럼은 비즈니스 리더들에게 성장을 촉진하는 AI 투자의 우선순위를 정하는 데 필요한 지식을 제공합니다.

2024년 AI 사용 사례

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시해 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

2025년 CEO 가이드: 비즈니스 성장을 촉진하기 위한 다섯 가지 사고 전환

다음 다섯 가지 사고 전환을 실행하여 불확실성을 극복하고 비즈니스 혁신을 촉진하며 에이전틱 AI를 통해 성장을 가속화하세요.

생성형 AI와 ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.

각주

¹ Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2018년.

² Ethan Zhang 및 Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018년.

³ Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

⁴ Ethan Zhang 및 Yi Zhang, "Recall," Encyclopedia of Database Systems, Springer, 2018년.

⁵ Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

⁶ Ben Carterette, "Precision and Recall," Encyclopedia of Database Systems, Springer, 2018년.

⁷ Ian Goodfellow, Yoshua Bengio, Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

⁸ David Hand 및 Peter Christen, "A note on using the F-measure for evaluating record linkage algorithms," Statistics and Computing, Vol. 28, 2018년, pp. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

⁹ David Hand, Peter Christen 및 Nishadi Kirielle, "F*: an interpretable transformation of the F-measure," Machine Learning, Vol. 110, 2021년, pp. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco 및 Giuseppe Jurman, "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC Genomics, Vol. 21, 2020년,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

¹⁰ Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

¹¹ Allen Downey, Think Stats, 2nd edition, O’Reilly, 2014년.

¹² Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.