머신 러닝에서 불확실성 정량화란 무엇인가요?

Data Scientist

불확실성 정량화란 무엇인가요?

통계학자 George Box는 "모든 모델은 틀렸지만 일부는 유용하다"고 썼습니다.¹ 정성적, 인공 지능, 동적 수학 또는 통계적 모델은 항상 현실의 복잡성에 미치지 못합니다.

모든 종류의 모델에 영향을 미치는 여러 유형의 불확실성이 있습니다. 불확실성의 원인에는 시스템의 무작위 과정 또는 확률론적 특성(우연적 불확실성이라고 함), 불완전한 지식(인식론적 불확실성이라고 함) 또는 계산 한계가 포함됩니다.

모델 불확실성은 시간이 지남에 따라 모델이 얼마나 정확한지 추정하는 데 도움이 될 뿐만 아니라 가능한 결과의 범위를 보여주는 데도 도움이 될 수 있습니다. 또한 측정과 모델 모두에서 불확실성을 줄이는 방법을 이해하는 데 도움이 됩니다.

불확실성과 정확성은 서로 밀접한 관련이 있는 서로 다른 개념입니다. 예측 정확도는 예측값이 실제값에 얼마나 가까운지를 나타냅니다. 불확실성은 예측과 목표 값이 얼마나 달라질 수 있는지를 말합니다.

사과 이미지만 빨간색 또는 녹색으로 분류하는 컴퓨팅 비전 시스템은 세상에 알려진 모든 종류의 과일 사진을 분류하는 시스템보다 내재된 불확실성이 훨씬 적습니다. 불확실성 정량화(UQ)는 이 두 문제가 서로 얼마나 더 불확실한지 정확히 측정하는 방법입니다.

모델에 불확실성이 포함되어 있으면 아웃풋이 확률에 따라 달라질 수 있습니다. 우리는 이러한 아웃풋을 확률 변수로 취급하고 확률 분포를 사용하여 불확실성을 측정합니다. 분포가 넓을수록 결과가 더 불확실합니다. 분산은 가우스 분포에 잘 작동하지만 많은 실제 시스템은 다른 측정 접근 방식이 필요한 비표준 분포를 생성합니다.

불확실성 정량화 방법은 특정 예측에 대해 얼마나 확신해야 하는지 알려주는 데 도움이 됩니다. 이는 분포 테스트와 같은 통계적 기법에 의해 이루어진 예측일 수도 있고 머신 러닝 알고리즘에 의해 이루어진 예측 또는 추론일 수도 있습니다. UQ는 또한 모델의 가능한 결과 범위를 이해하는 데 도움이 됩니다.

예를 들어, 날씨 모델이 비가 올 확률이 70%라고 예측하는 경우 UQ는 그 70%가 확실한 학습 데이터를 기반으로 하는지 아니면 실제 확률이 50%에서 90% 사이일 정도로 불확실성이 너무 큰지 판단하는 데 도움이 됩니다.

UQ 방법은 오류와 미지수가 최종 결과에 어떤 영향을 미치는지 보여주기 때문에 중요합니다. 이렇게 하면 모델이 과신하는 것을 방지하고 머신 러닝 모델의 정확도를 개선하는 방법에 집중할 수 있습니다.

UQ를 계산하면 어떤 불확실성이 가장 중요한지 식별하는 데 도움이 되며 모델 학습을 최적화하는 데 도움이 됩니다. 또한 UQ는 의사 결정자가 예측의 신뢰성을 이해하는 데 도움이 됩니다. UQ는 "이 모델이 틀릴 수 있다"와 같은 진술을 그것이 얼마나 틀렸는지, 어떤 방식으로 틀릴 수 있는지에 대한 구체적이고 측정 가능한 정보로 바꾸는 데 도움이 됩니다. 이는 의학, 내결함성 엔지니어링 또는 신뢰성이 가장 중요한 기타 시나리오와 같은 분야에서 작업할 때 매우 중요합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

UQ 방법

불확실성은 데이터 기반 불확실성과 모델 기반 불확실성의 두 가지 기본 유형으로 나뉩니다. 두 경우 모두 예측이 이루어지기 전과 후에 예측이 얼마나 신뢰할 수 있는지 아는 것이 도움이 될 수 있습니다.

이를 도어 경첩이 약 1000회 작동에 실패하기 전에 몇 번이나 열고 닫을 수 있는지 예측하는 모델로 생각할 수 있습니다. 또한 이번에는 문 경첩을 닫으면 문 경첩이 부러질 가능성도 표시됩니다.

샘플링 기반 방법

샘플링 기반 접근 방식은 모든 종류의 모델 복잡성을 처리할 수 있고 직관적이고 포괄적인 불확실성 특성화를 제공하기 때문에 불확실성 정량화에 가장 일반적으로 사용되는 기술 중 일부입니다. 샘플링은 가능한 많은 시나리오를 생성함으로써 어떤 결과가 발생할 수 있는지, 실제 데이터에 적용될 때 예측이 얼마나 불확실한지에 대한 통계적 그림을 구축할 수 있습니다. 불확실성을 분석적으로 계산하는 대신 이러한 방법은 많은 샘플 아웃풋에 대한 통계 분석을 사용하여 불확실성 분포를 특성화합니다.

몬테카를로 시뮬레이션은 가장 일반적인 접근 방식 중 하나입니다. 이 시뮬레이션은 가능한 아웃풋의 범위를 확인하기 위해 무작위로 다양한 입력으로 수천 개의 모델 시뮬레이션을 실행합니다. 가능한 모든 값의 범위를 확인하기 위해 서로 다른 모델에 대한 신뢰 구간과 아웃풋을 비교하는 파라메트릭 모델에서 특히 자주 사용됩니다.

라틴어 하이퍼큐브 샘플링이라고 하는 몬테카를로 시뮬레이션의 변형은 입력 공간을 잘 커버하면서도 더 적은 수의 실행이 필요한 보다 효율적인 버전입니다.

몬테카를로 드롭아웃은 예측 중에 드롭아웃을 활성 상태로 유지하고 여러 차례의 전방 패스를 실행하여 아웃풋 분포를 얻는 또 다른 기법입니다.² 드롭아웃은 주로 머신 러닝 모델을 미세 조정하는 데 사용되는 방법인 정규화 기법로 사용됩니다. 과적합 또는 과소적합 문제를 피하면서 조정된 손실 함수를 최적화하는 것을 목표로 합니다.

Monte Carlo Dropout은 테스트 시간에 드롭아웃을 적용하고 서로 다른 드롭아웃 마스크를 사용하여 여러 포워드 패스를 실행합니다. 이렇게 하면 모델이 단일 포인트 추정치가 아닌 예측 분포를 생성합니다. 이 분포는 예측에 대한 모델 불확실성에 대한 인사이트를 제공합니다. 네트워크를 여러 번 학습시킬 필요 없이 신경망을 아웃풋 분포로 만드는 계산 효율적인 기술입니다.

실제 모델을 여러 번 실행하는 데 비용이 너무 많이 드는 경우 통계학자는 가우스프로세스 회귀(GPR)와 같은 기술을 사용하여 단순화된 '대리' 모델을 만듭니다. ⁵ GPR은 예측의 확실성을 모델링하기 위한 베이지안 접근 방식으로, 최적화, 시계열 예측 및 애플리케이션에 유용한 도구입니다. GPR은 공동 가우스 분포를 갖는 확률 변수의 모음인 '가우스 프로세스'의 개념을 기반으로 합니다.

가우스 프로세스는 함수의 분포로 생각할 수 있습니다. GPR은 함수에 대한 사전 분포를 배치한 다음 관찰된 데이터를 사용하여 사후 분포를 생성합니다. GPR을 사용하여 불확실성을 계산하는 것은 아웃풋이 본질적으로 분포를 통해 추정치에 대해 모델이 얼마나 확실하거나 불확실한지 표현하기 때문에 추가 학습이나 모델 실행이 필요하지 않습니다. Scikit-learn과 같은 라이브러리는 불확실성 분석을 위한 GPR 구현을 제공합니다.

샘플링 방법의 선택은 모델 및 시나리오에 가장 중요한 기능에 따라 달라집니다. 대부분의 실제 애플리케이션은 여러 접근 방식을 결합합니다.

베이지안 방법

베이지안 통계는 베이즈의 정리를 사용하여 이전의 믿음과 관찰된 데이터를 결합하고 가설의 확률을 업데이트하는 통계적 추론에 대한 접근 방식입니다. 베이지안 통계는 단일 고정 값이 아닌 확률 분포를 할당하여 불확실성을 명시적으로 처리합니다. 베이지안 방법은 모델 매개변수에 대해 단일 '최적' 추정치를 제공하는 대신 가능한 추정치의 가능성 분포를 제공합니다.

베이지안 추론은 새로운 데이터를 사용할 수 있게 되면 예측을 업데이트하며, 이는 공변량을 추정하는 과정 전반에 걸쳐 자연스럽게 불확실성을 통합합니다. 마르코프 연쇄 몬테카를로(MCMC) 방법은 수학적 솔루션이 복잡할 때 베이지안 접근 방식을 구현하는 데 도움이 됩니다. MCMC 접근 방식은 직접 샘플링할 수 없는 복잡한 고차원 확률 분포, 특히 베이지안 추론의 사후 분포에서 샘플링합니다.

베이지안 신경망(BNN)은 네트워크 가중치를 고정 소수점 추정치가 아닌 확률 분포로 처리하는 기존 신경망에서 출발합니다. 이러한 확률론적 접근 방식을 통해 원칙적이고 엄격한 불확실성 정량화가 가능합니다. 이러한 신경망은 가중치에 대한 단일 지점 추정치 대신 모든 네트워크 매개변수에 대한 확률 분포를 유지합니다. 예측에는 일반적으로 다음이 포함됩니다.

예측 분포에 대한 평균 및 분산 추정치
예측 분포의 샘플
분포에서 도출된 신뢰할 수 있는 구간

PyMC 및 Tensorflow-Probability와 같은 BNN을 구현하기 위한 몇 가지 인기 있는 오픈 소스 라이브러리가 있습니다.

앙상블 방법

앙상블 기반 불확실성 정량화의 핵심 아이디어는 독립적으로 학습된 여러 모델이 예측에 동의하지 않는 경우 이 불일치는 정답에 대한 불확실성을 나타낸다는 것입니다.⁴ 반대로, 앙상블의 모든 모델이 일치하면 예측에 대한 신뢰도가 더 높다는 것을 나타냅니다. 이러한 직관은 앙상블 예측의 분산 또는 확산을 통해 구체적인 불확실성 측정으로 변환됩니다.

f₁, f₂, ..., fn이 입력 x에 대한 N 앙상블 멤버의 추정량을 나타내는 경우 불확실성은 다음과 같이 정량화할 수 있습니다.

$V a r [f (x)] = \frac{1}{N} \sum_{i = 1}^{N} (f_{i} (x) - \bar{f} (x))^{2}$

여기서 f(x)는 앙상블 평균입니다. 여러 가지 다양한 모델(서로 다른 아키텍처, 학습 데이터 하위 집합 또는 초기화)을 학습하고 해당 예측을 결합합니다. 이 접근 방식의 주요 단점은 계산 비용입니다. 여러 모델을 학습하고 실행해야 하기 때문입니다.

등각 예측

등각 예측은 불확실성 정량화를 위한 기술입니다. 이는 회귀 시나리오의 경우 예측 구간을 생성하고 분류 애플리케이션의 경우 예측 세트를 생성하기 위한 분포 없는 모델 독립적 프레임워크를 제공합니다.³ 이는 모델 또는 데이터에 대한 최소한의 가정으로 유효한 적용 범위를 보장합니다. 따라서 등각형 예측은 블랙박스 사전 학습된 모델로 작업할 때 특히 유용합니다.

등각 예측에는 널리 적용할 수 있는 몇 가지 기능이 있습니다. 예를 들어, 데이터 포인트가 독립적이고 동일하게 분산되어 있어야 하는 것이 아니라 교환 가능하기만 하면 됩니다. 등각형 예측은 모든 예측 모델에도 적용할 수 있으며 모델의 허용 가능한 예측 불확실성을 설정할 수 있습니다.

예를 들어, 회귀 작업에서 95% 커버리지를 달성하고자 할 수 있습니다. 이 접근 방식은 모델 독립적이며 분류, 회귀, 신경망 및 다양한 시계열 모델에서 잘 작동합니다.

등각 예측을 사용하려면 데이터를 학습 세트, 기준선 테스트 세트 및 보정 세트의 세 가지 세트로 분할합니다. 보정 세트는 부적합 점수를 계산하는 데 사용되며 종종 s_i로 표시됩니다. 이 점수는 예측이 얼마나 비정상적인지 측정합니다. 새 입력이 주어지면 이러한 점수를 기반으로 예측 구간을 형성하여 적용 범위를 보장합니다.

분류 작업에서 등각 예측 부적합 점수는 새 인스턴스가 학습 세트의 기존 인스턴스에서 얼마나 벗어났는지를 측정한 것입니다. 이는 새 인스턴스가 특정 클래스에 속하는지 여부를 결정합니다. 다중 클래스 분류의 경우 일반적으로 특정 레이블에 대해 1(예측 클래스 확률)입니다.

$s_{i} = 1 - f (x_{i}) [y_{i}]$

따라서 특정 클래스에 속하는 새 인스턴스의 예측 확률이 높으면 부적합 점수가 낮으며, 그 반대의 경우도 마찬가지입니다. 일반적인 접근 방식은 보정 세트의 각 인스턴스에 대한 s_i 점수를 계산하고 점수를 낮음(확실)에서 높음(불확실)으로 정렬하는 것입니다.

95% 등각 커버리지에 도달하려면 s_i 점수의 95%가 더 낮은 임계값 q를 계산합니다. 새 테스트 예제의 경우 s_i가 임계값 q보다 작은 경우 예측 집합에 레이블을 포함합니다.

모델의 등각 커버리지가 95%라는 보장이 필요한 경우 모든 클래스에 대해 평균 s_i 점수를 얻을 수 있습니다. 그런 다음 데이터의 95%를 포함하는 s_i 점수의 임계값을 찾을 수 있습니다. 그러면 분류기가 모든 클래스에서 새 인스턴스의 95%를 올바르게 식별한다는 것을 확신할 수 있습니다.

등각 예측이 여러 클래스를 식별할 수 있기 때문에 이는 분류기의 정확도와 약간 다릅니다. 다중 클래스 분류기에서 등각 예측은 모든 클래스에 대한 적용 범위도 표시합니다. 전체 학습 집합이 아닌 개별 클래스에 적용 범위 비율을 할당할 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

불확실성 정량화의 응용 분야

불확실성 정량화는 머신 러닝, 인공지능 개발, 컴퓨터 과학의 여러 분야에서 중요합니다. 다음은 가장 일반적인 애플리케이션 중 몇 가지입니다.

시계열 예측의 불확실성

시계열 예측의 불확실성을 관리하고 정량화하는 것은 재무, 경제, 날씨 예측 및 공급망 관리 전반의 의사 결정 프로세스에 매우 중요합니다. 확률적 모델은 단일 점 추정치 대신 아웃풋 분포를 출력할 수 있는 능력 때문에 선호됩니다. 이러한 모델은 가능한 값의 분포가 아닌 단일 값만 아웃풋하는 결정론적 모델과 대조될 수 있습니다. 시간 예측을 위한 수많은 확률 모델(예: ARIMA 모델 또는 신경망)이 존재합니다.

ARIMA 모델 적합은 자기 회귀(AR) 및 이동 평균(MA) 구성 요소를 포착하고 차분을 통해 정상성을 보장하는 것으로 시작됩니다. 점 예측을 생성한 후 모델은 관측값과 예측값 간의 차이를 나타내는 잔차를 평가합니다. ARIMA는 정규 분포 잔차의 표준 편차를 사용하여 포인트 예측을 중심으로 예측 구간을 구성합니다.

기본적으로 예측 구간이 넓을수록 예측과 관련된 불확실성이 커집니다. 이 기술적 방법론은 포인트 예측의 정확성을 개선할 뿐만 아니라 향후 관측이 포함될 가능성이 있는 범위에 대한 통계적으로 건전한 측정값을 제공합니다.

딥 러닝과 불확실성

딥 러닝은 딥 러닝 모델이 네트워크 계층 전반에 걸쳐 높은 차원과 비선형 관계를 갖는 경우가 많기 때문에 불확실성 정량화에 대한 여러 가지 과제를 제시합니다. 또한 이러한 모델을 학습시키고 배포하는 데 상당한 계산 제약이 있는 경우가 많기 때문에 추론에 존재하는 불확실성의 양을 정량화하기가 어렵습니다.

일반적으로 사용되는 몇 가지 기술은 심층 신경망을 위해 특별히 개발되었습니다. 독립적으로 학습된 여러 네트워크가 서로 다른 초기화 또는 데이터 하위 집합을 갖는 딥 앙상블과 같은 샘플링 기반 방법을 예로 들 수 있습니다. 앙상블 예측 간의 차이는 아키텍처 자체의 예측의 불확실성을 나타낼 수 있습니다. 이는 간단하지만, 여러 전체 모델을 학습해야 하기 때문에 계산 비용이 많이 드는 기술입니다.

일반적으로 사용되는 또 다른 기술은 추론 중에 드롭아웃 레이어를 활성 상태로 유지하는 몬테카를로 드롭아웃입니다.⁶ 이 접근 방식은 베이지안 추론을 근사화하기 위해 여러 정방향 패스를 수행합니다. 각 드롭아웃 마스크는 서로 다른 하위 네트워크를 생성하고 예측 분산은 불확실성을 추정합니다. 모델 아키텍처를 변경할 필요가 없기 때문에 기존 모델에서 쉽게 구현할 수 있습니다. 추론 중에 드롭아웃을 끄는 대신 활성화된 상태로 유지하고 여러 포워드 패스를 실행할 수 있습니다. 유사한 접근 방식은 예측 분포를 생성하기 위해 추론 시간에 학습된 배치 통계에서 무작위로 샘플링하는 배치 정규화 불확실성입니다.

능동적 학습

능동 학습은 고정된 데이터 세트에서 학습하는 대신 알고리즘이 학습할 데이터 포인트를 선택적으로 선택할 수 있는 확장가능한 머신 러닝 패러다임입니다. 학습 알고리즘은 학습하는 데이터를 선택할 수 있는 경우 레이블이 지정된 예제 수를 줄여 더 나은 성능을 달성할 수 있습니다. 기존의 지도 학습은 모델 개발 프로세스 시작부터 레이블이 지정된 대규모 데이터 세트를 사용할 수 있다고 가정합니다. 많은 실제 시나리오에서 레이블이 지정되지 않은 데이터는 풍부하지만, 레이블이 지정된 데이터는 비용이 많이 들고 시간이 많이 걸리거나 전문 지식이 필요합니다. 더 작은 레이블이 지정된 집합을 사용하여 모델을 학습한 후 모델을 사용하여 레이블이 지정되지 않은 예제의 대규모 풀을 평가합니다. 능동적 학습은 일부 획득 전략에 따라 가장 '유익한' 레이블이 지정되지 않은 예를 선택합니다.

능동적 학습 전략은 불확실성 정량화 추정치를 사용하여 다음에 레이블을 지정하기에 가장 가치가 있는 레이블이 지정되지 않은 예제를 식별할 수 있습니다. 기본 전제는 이러한 예제가 가장 큰 정보 이득을 제공할 가능성이 높기 때문에 모델이 가장 불확실한 데이터 포인트에 대한 레이블을 요청해야 한다는 것입니다.

UQ용 지표

불확실성 정량화를 위한 지표는 서로 다른 아키텍처를 비교하거나 절대값으로 사용하는 것이 아니라 동일한 아키텍처를 사용하는 서로 다른 모델을 비교하는 데 자주 사용됩니다. 예상 교정 오류와 같은 일부 유형의 측정을 사용하면 특정 모델의 교정을 측정할 수 있습니다.

그러나 테스트 데이터에 대한 모델의 보정을 측정하지 않는 경우 서로 다른 지표가 불확실성의 서로 다른 측면을 포착하므로 단일 측정값에 의존하는 대신 여러 보완 지표를 사용할 수 있습니다.

일반적으로 불확실성에 대한 지표는 적절한 점수 산정 규칙과 분류지표라는 두 가지 광범위한 카테고리로 나뉩니다.

적절한 점수 산정 규칙

적절한 점수 산정 규칙은 실제 확률 분포로부터의 편차를 추정하기 때문에 자연 불확실성 추정치가 있는 확률 모델에서 가장 잘 작동합니다. 값이 높으면 예측된 확률이 실제 확률과 멀리 떨어져 있음을 나타냅니다. 이는 확률적 예측 또는 예측을 평가하기 위한 지표를 제공하며, 이는 단일 값이 아닌 가능한 출력 범위인 경우가 많습니다.

평균 제곱 오차와 같은 일반적인 손실 함수는 예측값과 관찰값에 적합도 점수를 할당합니다. 그러나 점수 산정 규칙은 예측된 확률 분포와 관측된 값에 점수를 할당합니다.

음의 로그 우도(NLL)는 분류 작업을 위해 신경망을 최적화하는 데 일반적으로 사용되는 방법입니다. 그러나 이 손실 함수는 불확실성 지표로 사용할 수도 있습니다. NLL은 모델의 예측 확률 분포가 관찰된 결과와 얼마나 잘 일치하는지 직접 측정하므로 본질적으로 확률 예측의 정확도와 신뢰도 품질을 모두 포착합니다.

실제 클래스 분포가 60–40인 이항 문제에 대해 [0.9, 0.1]을 예측하는 분류 모델의 경우 해당 모델은 평균적으로 더 높은 NLL을 갖습니다. 이는 NLL이 자신감 있는 예측이 틀릴 때 과신한 두 번째 모델에 큰 불이익을 주기 때문입니다.

Brier 점수는 분류 작업에 일반적으로 사용되는 또 다른 적절한 점수 산정 규칙입니다. 0-1 범위 내로 엄격하게 제한되어 수치적으로 더 안정적이기 때문에 NLL보다 선호되기도 합니다. 예측된 확률이 관측된 빈도와 얼마나 잘 일치하는지, 그리고 예측이 얼마나 신뢰할 수 있는지를 모두 평가하므로포괄적인 불확실성 지표입니다.

연속 순위 확률 점수(CRPS)는 기상학, 수문학, 기후 과학과 같은 분야에서 널리 사용되는 지표입니다. CRPS는 예측의 예측 누적 분포 함수(CDF)와 실제 결과를 나타내는 단계 함수 간의 불일치를 측정합니다. CRPS는 관측값 주변의 예측 분포의 산포를 정량화합니다.

보정 지표

지표는 파운데이션 모델 또는 대규모 언어 모델(LLM)과 같은 사전 학습된 모델 또는 소프트맥스 아웃풋을 사용하는 분류 작업에서 가장 잘 작동합니다. 이는 '진정한 신뢰도'와 '예측 신뢰도'의 차이를 측정하는 데 도움이 됩니다. 적절한 점수 산정 규칙이 분포를 비교하는 경우 보정은 확실성 자체를 비교합니다. 교정 지표가 0.6으로 계산되면 신경망이 특정 예측에 대해 60%의 확신을 가지고 있다는 것을 의미합니다.⁷

모델은 예측된 신뢰도 점수가 정확성의 실제 가능성을 정확하게 반영할 때 보정된 것으로 간주됩니다. 보다 공식적으로 보정은 모델이 신뢰도 p를 표현하는 모든 예측 중에서 약 p 분율이 정확해야 함을 의미합니다. 보정 지표는 다양한 확률을 그룹화하기 위해 전체 데이터 세트에서 계산됩니다. 이와 대조적으로, 적절한 점수 규칙은 개별 확률을 비교합니다.⁸

예상 보정 오차(ECE)는 가장 널리 사용되는 지표 중 하나입니다. 신뢰 수준에 따라 예측을 구간으로 분할하고 각 구간 내에서 신뢰도와 정확도 간의 평균 차이를 측정합니다. 일반적인 접근 방식은 10~15개의 동일한 간격의 구간을 사용하며, 이 구간은 해당 구간에서 예측된 확률의 평균과 해당 구간에서 실제로 정확한 예측의 비율을 계산하는 데 사용됩니다.

완벽하게 보정된 모델은 90% 신뢰도가 있을 때 90%의 확률로 정확해야 합니다. ECE는 0(완벽한 보정)에서 1(가능한 최악의 보정)까지의 값을 반환하여 이를 측정합니다. 지표는 지표의 절대값으로 인해 과신과 과소 신뢰를 동일하게 처리합니다. 이는 특정 모델에 지표를 분리하여 적용하는 것과는 달리 모델을 서로 비교하는 데 가장 유용합니다.

최대 교정 오차(MCE)는 평균이 아닌 모든 빈에서 신뢰도와 정확도 간의 최대 차이를 취하여 최악의 교정 오차를 측정합니다. 이를 통해 가장 잘 보정되지 않은 영역에 대한 인사이트를 얻을 수 있습니다.

적응적 보정 오류(ACE)는 각 빈에 거의 동일한 수의 샘플이 포함되도록 하는 적응형 비닝 전략을 사용하여 고정 비닝의 한계를 해결하며, 특히 제한된 데이터에서 보다 강력한 추정치를 제공합니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

리소스

ML 전문성 업그레이드

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

업무에 AI 활용: 생성형 AI로 ROI 향상

AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.

AI 활용 현황 보고서

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

각주

1. Box, G. E. P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z., & University of Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (2021, July 15). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (2016, December 5). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2023, August 2). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G., & Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf