모델 성능이란 무엇인가요?

작성자

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

모델 성능이란 무엇인가요?

모델 성능은 다양한 지표를 기반으로 머신 러닝(ML) 모델이 설계된 작업을 얼마나 잘 수행하는지 나타냅니다. 모델 성능을 측정하는 것은 ML 모델을 프로덕션에 출시하기 전에 최적화하고 배포 후 모델 성능을 개선하는 데 필수적입니다. 적절한 최적화가 이루어지지 않으면 모델이 부정확하거나 신뢰할 수 없는 예측을 생성하고 비효율성으로 인해 성능이 저하될 수 있습니다.

모델 성능 평가는 머신 러닝 파이프라인의 모델 평가 및 모델 모니터링 단계에서 이루어집니다. 인공 지능 (AI) 실무자는 ML 프로젝트의 초기 단계를 수행한 후 여러 데이터 세트, 작업, 지표에서 모델의 성능을 평가하여 모델의 효과를 측정합니다. 모델이 배포되면 머신러닝 운영(MLOps) 팀이 지속적인 개선을 위해 모델의 성능을 모니터링합니다.

모델 성능에 영향을 미치는 요인

AI 모델의 성능은 일반적으로 테스트 세트를 사용하여 측정되며, 모델의 아웃풋을 기준 테스트 세트의 예측과 비교합니다. 성능 평가를 통해 얻은 인사이트는 모델이 실제 배포에 적합한지 또는 조정이나 추가 학습이 필요한지 판단하는 데 도움이 됩니다.

머신 러닝 모델의 성능에 영향을 미칠 수 있는 몇 가지 요인은 다음과 같습니다.

데이터 품질
데이터 유출
특징 선택
모델 적합성
모델 드리프트
편향

데이터 품질

모델의 성능은 학습에 사용되는 데이터에 따라 달라집니다/ 학습 데이터에 결함이 있거나 중복, 누락된 값, 잘못된 데이터 레이블, 주석 등 부정확성이나 불일치가 포함된 경우 모델 성능이 저하됩니다. 한 시나리오의 값이 다른 시나리오에 비해 너무 많거나 데이터 세트가 상관 관계를 올바르게 파악하기에 충분하지 않거나 다양하지 않은 것과 같이 균형이 부족하면 결과가 왜곡될 수 있습니다.

데이터 유출

머신 러닝의 데이터 유출은 모델이 학습할 때 예측 시점에 사용할 수 없는 정보를 사용할 때 발생합니다. 이는 데이터 전처리 오류나 데이터를 학습, 검증, 테스트 세트로 부적절하게 분할하여 발생하는 오염으로 인해 발생할 수 있습니다. 데이터 유출은 예측 모델이 보이지 않는 데이터를 일반화할 때 어려움을 겪거나, 부정확하거나 신뢰할 수 없는 결과를 산출하거나, 성능 지표를 부풀리거나 축소합니다.

특징 선택

특징 선택에는 모델 학습에 사용할 데이터 세트의 가장 관련성이 높은 특징을 선택하는 작업이 포함됩니다. 데이터 특징은 머신 러닝 알고리즘이 학습 중에 가중치를 구성하는 방식에 영향을 미쳐 성능을 결정합니다. 또한 특징 공간을 선택한 하위 집합으로 줄이면 계산 요구 사항을 낮추면서 성능을 향상시키는 데 도움이 될 수 있습니다. 그러나 관련이 없거나 중요하지 않은 특징을 선택하면 모델의 성능이 저하될 수 있습니다.

모델 적합성

과적합은 ML 모델이 너무 복잡하고 훈련 데이터에 너무 가깝거나 정확하게 맞아 새 데이터에 대해 잘 일반화할 수 없을 때 발생합니다. 반대로, 과소적합은 모델이 너무 단순하여 훈련 및 테스트 데이터 모두에서 기본 패턴을 파악하지 못할 때 발생합니다.

모델 드리프트

모델 드리프트는 데이터의 변화나 입력 변수와 아웃풋 변수 간의 관계 변화로 인해 모델의 성능이 저하되는 것을 말합니다. 이러한 붕괴는 모델의 성능에 부정적인 영향을 미쳐 잘못된 의사 결정과 잘못된 예측으로 이어질 수 있습니다.

편향

AI 편향성은 워크플로의 어느 단계에서나 발생할 수 있지만, 특히 데이터 처리 및 모델 개발 단계에서 가장 많이 발생합니다. 데이터 편향은 학습 및 미세 조정 데이터 세트의 대표성이 없는 특성이 모델 동작 및 성능에 부정적인 영향을 미칠 때 발생합니다. 한편, 알고리즘 편향은 알고리즘 자체에 의해 발생하는 것이 아니라 데이터 과학 팀이 학습 데이터를 수집하고 코딩하는 방식과 AI 프로그래머가 머신 러닝 알고리즘을 설계하고 개발하는 방식에 의해 발생합니다. AI 편향은 부정확한 아웃풋과 잠재적으로 유해한 결과를 초래할 수 있습니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

모델 성능 지표

지표는 모델이 달성하고자 하는 비즈니스 목표에 맞게 조정하는 것이 중요합니다. 각 유형의 머신 러닝 모델에는 고유한 평가 지표가 있지만, 많은 모델이 다음과 같은 몇 가지 공통된 측정값을 공유합니다.

정확도
회수
정밀도
F1 점수

정확도

정확도는 올바른 예측 수를 전체 예측 수로 나눈 값으로 계산됩니다. 이 비율은 매우 일반적인 지표입니다.

모델 정확도와 모델 성능을 비교하는 경우가 많지만, 모델 정확도는 모델의 성능의 일부분일 뿐입니다. 그리고 서로 얽혀 있지만 정확한 예측만으로는 모델의 성능에 대한 전체적인 관점을 제공할 수 없습니다.

재현율

재현율은 실제 정확한 예측인 참 긍정의 수를 정량화합니다. 민감도 또는 참 긍정 비율(TPR)이라고도 합니다.

이 지표는 질병을 진단하거나 암을 발견하는 등 의료 분야에서 매우 중요합니다. 높은 재현율을 갖춘 ML 모델은 거짓 부정(실제 양성 사례를 음성 사례로 잘못 예측)을 최소화하면서 양성 사례를 정확하게 식별할 수 있습니다.

$R e c a l l = \frac{T P}{T P + F N}$

정밀도

정밀도는 긍정 예측 중 실제 긍정인 비율입니다. 정밀도가 높은 머신 러닝 모델은 거짓 긍정(실제 음성 사례를 양성 사례로 잘못 예측)을 최소화할 수 있습니다.

이 지표는 예를 들어 금융 분야에서 사기를 탐지하는 경우에 매우 중요합니다. 합법적인 거래를 사기성으로 표시(거짓 긍정)하면 부정적인 결과를 초래할 수 있으므로, 플래그가 지정된 거래는 실제로 사기성(참 긍정)이어야 합니다.

$P r e c i s i o n = \frac{T P}{T P + F P}$

F1 점수

F1 점수는 재현율과 정밀도의 조화 평균으로, 두 지표를 하나의 지표로 결합한 값입니다. 거짓 긍정(False Positive) 또는 거짓 부정(False Negative)의 균형을 맞추기 위해 두 측정값의 가중치를 동일하게 고려합니다. 희귀 질환을 감지할 때와 같이 불균형한 데이터 세트에 특히 유용한데, 음성 사례가 양성 사례보다 훨씬 많기 때문입니다.

$F 1 = \frac{2 * P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

Python 기반 PyTorch, scikit-learn 및 TensorFlow와 같은 여러 AI 프레임워크는 정확도, 재현율, 정밀도 및 F1 점수를 계산하기 위한 내장 함수를 제공합니다. 또한 모델 예측을 혼동 행렬(예측값과 실제값을 모두 나타내며 참 긍정, 거짓 긍정, 참 부정. 거짓 부정의 수를 나타내는 상자가 있는 표)으로 시각화합니다.

분류 모델 성능 지표

분류 모델은 데이터 포인트를 클래스라고 하는 미리 정의된 그룹으로 정렬합니다. 다음은 분류 모델과 관련된 몇 가지 지표입니다.

ROC 곡선: ROC(수신자 조작 특성) 곡선은 참 긍정과 참 부정의 비율을 시각화합니다. 이 차트는 모델 분류에 사용된 각 임계값에 대한 참 긍정 비율과 참 부정 비율을 비교하여 그래프로 표시합니다. 곡선 아래 면적(AUC) 통계는 ROC 곡선에서 발생하며, 무작위로 선택된 긍정이 무작위 부정보다 신뢰 점수가 더 높을 가능성을 측정합니다. AUC-ROC는 이진 분류(데이터를 두 개의 배타적 클래스로 정렬)와 관련된 작업에 유용한 지표입니다.

로그 손실: 로그 손실은 모델 분류의 신뢰도를 평가하여 신뢰도가 낮은 분류보다 신뢰도가 높은 잘못된 분류에 더 큰 불이익을 줍니다. 이를 통해 모델이 올바른 분류에 대해 확신을 갖고 잘못된 분류에 대해 확신하지 않는 하는 방법을 배우기 때문에 확률론적 아웃풋을 다룰 때 특히 유용합니다. 로그 손실 값이 낮을수록 성능이 더 좋습니다.

회귀 모델 성능 지표

회귀 모델은 소매 판매 예측과 주가 예측과 같이 연속 값과 관련된 예측에 사용됩니다. 이러한 알고리즘은 정량화 가능한 개념을 다루기 때문에 관련 지표는 예측의 오류를 측정합니다.

평균 절대 오차(MAE)는 모든 오차의 절대값을 표본 크기로 나눈 값의 합으로 계산됩니다. 예측값과 실제값 간의 평균 절대 차이를 측정합니다.

평균 제곱 오차(MSE)는 모든 학습 샘플에서 예측값과 실제값의 차이 제곱의 평균으로 계산됩니다. 오차를 제곱하면 큰 실수를 처벌하고 모델이 실수를 줄이도록 인센티브를 제공합니다.

평균 제곱근 오차(RMSE)는 MSE의 제곱근입니다. 오차를 평균화하기 전에 제곱하면 더 큰 실수를 훨씬 더 무겁게 처벌하여 모델이 실수를 최소화하도록 다시 장려합니다.

자연어 처리 모델 성능 지표

이러한 지표는 자연어 처리(NLP) 모델의 성능을 평가합니다. 또한 대규모 언어 모델(LLM)의 벤치마크로도 사용됩니다.

다음은 몇 가지 정량적 NLP 모델 측정값입니다.

난해도는 모델의 예측 능력이 얼마나 좋은지를 측정합니다. LLM의 난해도 점수가 낮을수록 작업 이해도가 높다는 것을 의미합니다.

번역 품질 평가(BLEU)는 LLM의 예측 번역과 사람이 생성한 번역 간에 일치하는 n-gram(n개의 인접한 텍스트 기호 시퀀스)을 계산하여 기계 번역을 평가합니다.

요약 품질 평가(ROUGE)는 텍스트 요약을 평가하며 여러 유형이 있습니다. 예를 들어, ROUGE-N은 요약에 대해 BLEU와 유사한 계산을 수행하는 반면, ROUGE-L은 예측된 요약과 사람이 생성한 요약 사이의 최장 공통 부분 수열을 계산합니다.

정성적 지표는 일관성, 관련성, 의미론적 의미를 포함하며 일반적으로 인간 평가자가 모델을 검사하고 점수를 매기는 것을 포함합니다. 정량적 지표와 정성적 지표의 균형을 맞추면 보다 미묘한 차이를 평가할 수 있습니다.

컴퓨팅 비전 모델 성능 지표

컴퓨팅 비전 모델, 특히 세분화 및 객체 감지를 위한 모델은 다음과 같은 두 가지 일반적인 성능 측정을 사용하여 평가됩니다.

IoU(Intersection over union)는 유니온 면적에 대한 교차 면적의 비율을 계산합니다. 교차 부분은 모델에서 예측한 대로 감지된 객체와 실제 객체를 구분하는 경계 상자 사이의 겹치는 부분이 포함됩니다. 유니온은 경계 상자와 실제 객체의 총 면적을 나타냅니다. 컴퓨팅 비전 모델은 IoU를 사용하여 감지된 객체의 위치 파악의 정확성을 평가합니다.

평균 AP(mAP)는 객체 클래스 전체에 걸친 모든 평균 정밀도 점수의 평균을 계산합니다. 컴퓨팅 비전 모델은 IoU를 사용하여 예측 및 감지 정확도를 평가합니다.

모델 성능 개선을 위한 전략

머신 러닝 성능을 최적화하는 대부분의 기술은 모델 개발, 학습, 평가 과정에서 구현됩니다. 그러나 모델이 실제 환경에 배포된 후에는 성능을 지속적으로 추적해야 합니다. 모델 모니터링은 시간이 지남에 따라 성능을 개선하는 방법에 대한 결정을 내리는 데 도움이 됩니다.

ML 모델의 성능을 개선하려면 다음 기법 중 하나 이상을 사용해야 합니다.

데이터 사전 처리
데이터 유출 방지
적합한 특징 선택
초매개변수 조정
앙상블 학습
전이 학습
최적의 모델 적합성 달성
모델 드리프트 방지
편향성 해결

많은 AI 프레임워크에는 이러한 기법 대부분을 지원하는 기능이 사전 구축되어 있습니다.

데이터 전처리

엄격한 데이터 전처리 또는 데이터 준비 절차를 수립하고 유지하면 데이터 품질 문제를 방지하는 데 도움이 될 수 있습니다. 데이터 정리, 노이즈 제거, 데이터 정규화가 데이터 전처리의 주요 요소이지만, 데이터 과학자는 데이터 자동화 도구와 심지어 AI 기반 도구를 사용하여 시간과 노력을 절약하고 인적 오류를 방지할 수도 있습니다. 불충분하거나 불균형한 데이터 세트의 경우 합성 데이터로 격차를 메울 수 있습니다.

데이터 유출 방지

데이터 유출을 방지하려면 신중한 데이터 처리가 중요합니다. 데이터는 학습, 검증, 테스트 세트로 적절하게 분할되어야 하며 각 세트에 대해 별도로 전처리를 수행해야 합니다.

교차 검증도 도움이 될 수 있습니다. 교차 검증은 데이터를 여러 하위 집합으로 분할하고 정의된 반복 횟수에서 학습 및 검증을 위해 서로 다른 하위 집합을 사용합니다.

적합한 특징 선택

특징 선택은 어려울 수 있으며 가장 필수적이고 영향력 있는 특징을 정확히 찾아내기 위해 도메인 전문 지식이 필요합니다. 각 특징의 중요성을 이해하고 특징과 대상 변수(모델이 예측해야 하는 종속 변수) 간의 상관 관계를 조사하는 것이 중요합니다.

지도 학습을 위한 특징 선택 방법에는 래퍼 방법과 내장 방법이 포함됩니다. 래퍼 방법은 다양한 특성 하위 집합으로 머신 러닝 알고리즘을 학습시키며, 각 반복에서 특징을 추가하거나 제거하고 결과를 테스트하여 최적의 모델 성능을 이끄는 특징 집합을 결정합니다. 내장 방법은 특징 선택을 모델 훈련에 통합하여 성능이 저조한 특징을 식별하고 이후 반복에서 제거합니다.

모델은 비지도 학습을 통해 자체적으로 데이터 특징, 패턴, 관계를 파악합니다. 비지도 학습을 위한 특징 선택 방법에는 주성분 분석(PCA), 독립 성분 분석(ICA) 및 오토인코더가 있습니다.

하이퍼파라미터 튜닝

하이퍼파라미터 최적화 또는 모델 튜닝이라고도하는 하이퍼파라미터 튜닝은 딥 러닝 모델의 하이퍼파라미터를 식별, 선택, 최적화하여 최상의 성능을 얻습니다. 하이퍼파라미터는 모델의 학습 프로세스를 제어하며, 하이퍼파라미터의 적절한 조합과 구성을 찾으면 실제 환경에서 모델의 성능을 강화할 수 있습니다.

일반적인 하이퍼파라미터 튜닝 방법에는 그리드 검색, 무작위 검색, 베이지안 최적화, 하이퍼밴드가 있습니다. 데이터 과학자는 자동화된 방법을 구현하여 사용 사례에 맞는 최적의 하이퍼파라미터를 알고리즘으로 검색할 수도 있습니다.

앙상블 학습

앙상블 학습은 여러 모델을 결합하여 성능을 향상시키며, 모델의 집합체 또는 앙상블이 단일 모델보다 더 나은 예측을 생성할 수 있다는 가정 하에 이루어집니다.

다음은 몇 가지 인기 있는 앙상블 학습 기법입니다.

배깅은 부트스트랩 집계라고도 불리며, 모델을 서로 독립적으로 병렬로 학습합니다. 그런 다음 더 정확한 추정치를 계산하기 위해 예측의 평균(회귀 작업의 경우) 또는 다수(분류 문제의 경우)를 사용합니다.

부스팅은 모델을 순차적으로 학습시키고, 각 반복에서 과거의 실수를 수정합니다. 후속 모델에서 오류 또는 잘못 분류된 인스턴스에 더 많은 가중치를 부여하여 도전적인 데이터 포인트에 집중하고 그 과정에서 성능을 향상시킵니다.

스태킹은 동일한 데이터 세트에서 모델을 학습시키지만 각각에 대해 다른 학습 알고리즘을 적용합니다. 그런 다음 컴파일되거나 누적된 예측을 사용하여 최종 모델을 학습시킵니다.

전이 학습

전이 학습은 초기 작업 또는 데이터 세트에서 사전 학습된 모델이 얻은 지식을 가져와, 관련된 새 대상 작업 또는 데이터 세트에 적용합니다. 사전 학습된 모델의 용도를 다른 작업에 맞게 변경하면 해당 모델의 능력이 향상되어 성능을 최적화하는 데 도움이 됩니다.

최적의 모델 적합성 달성

과적합 및 과소적합을 관리하는 것은 머신 러닝의 핵심 과제입니다. 최적의 모델은 무작위 변동이나 노이즈에 너무 민감하지 않으면서 데이터의 패턴을 정확하게 인식합니다.

과적합 및 과소적합을 방지하는 기술에는 모델이 학습할 수 있는 충분한 시간을 제공하기 위한 적절한 학습 기간 찾기, 학습 세트를 확장하기 위한 데이터 증강 , 더 큰 계수를 가진 입력 파라미터에 페널티를 적용하여 모델의 분산을 줄이기 위한 정규화 등이 있습니다.

모델 드리프트로부터 보호

모델 모니터링 및 관측 가능성의 핵심 측면인 드리프트 감지는 모델 드리프트를 방지하는 데 도움이 될 수 있습니다. 예를 들어, AI 드리프트 감지기는 모델의 정확도가 감소하거나 사전 정의된 임계값 아래로 떨어지거나 드리프트할 때 자동으로 인식하고 모니터링 툴은 드리프트 시나리오를 지속적으로 관찰합니다.

드리프트가 감지되면 ML 모델을 실시간으로 업데이트하거나 더 최신의 관련 샘플이 포함된 새로운 데이터 세트를 사용하여 재학습할 수 있습니다.

편향성 해결

AI 편향 완화는 AI 시스템과 도구가 윤리적이고 안전한지 확인하는 데 도움이 되는 가드레일, 프로세스, 표준을 포괄하는 AI 거버넌스에서 시작됩니다. 편견을 방지할 수 있는 몇 가지 책임감 있는 AI 관행은 다음과 같습니다.

데이터 소스를 다양화하고 다양한 조건, 컨텍스트, 인구 통계를 대표하는 데이터를 포함합니다.
포용적인 AI 설계 및 개발을 촉진하기 위해 다양한 팀을 육성합니다.
ML 알고리즘으로 분류기의 예측을 설명하는 로컬 해석 가능한 모델에 구애받지 않는 설명(LIME), 모든 ML 모델의 아웃풋을 설명하는 Shapley 부가 설명(SHAP) 등 설명 가능한 AI 기법을 사용하여 투명성을 높입니다.
개발 프로세스에 공정성 지표를 통합하고 알고리즘 공정성 도구와 프레임워크를 사용합니다.
정기적인 감사를 실시하여 데이터와 알고리즘에 편향성이 있는지 평가합니다.
배포된 ML 모델에 대한 지속적인 성능 모니터링을 구현하여 결과의 편향을 신속하게 감지하고 수정합니다.