고급 수학 및 연구와 같은 전문 분야에서는 신뢰할 수 있는 AI 자체 평가를 보장하는 것이 훨씬 더 어렵습니다. 즉, 결과를 검증하고 AI 시스템의 신뢰성을 유지하고 순조롭게 진행하려면 인간 전문가가 필요한 경우가 많습니다.

"그렇게 하려면 객관식 답변을 이리저리 섞는 것과 같은 많은 요령이 필요합니다."라고 Varshney는 말합니다.

QueryPal의 설립자이자 CEO인 Dev Nag에 따르면, Meta의 자가 학습 평가기는 인간의 판단력을 증폭하고 확장하는 것이지, 인간을 루프에서 제거하는 것이 아니라고 합니다.

"이는 교사가 무엇이 좋은 답이고 나쁜지 이해를 바탕으로 연습 문제를 만드는 것과 유사하다고 생각하면 됩니다."라고 Nag는 말합니다. "알파고가 자기 대국을 하기 전에 바둑 규칙을 기초로 삼았던 것처럼, 자가 학습 평가기는 인간의 판단을 암시적으로 포함하는 합성 훈련 예제를 생성하기 전에 인간이 확립한 품질 기준을 기반으로 구축합니다."

자체 모니터링 AI를 사용하더라도 정기적인 감사를 통해 숨겨진 편견이나 문제를 발견할 수 있다고 Arrive AI의 회장 겸 CEO인 Dan O'Toole은 말합니다.

"여러 AI 모델을 사용하여 동일한 평가를 독립적으로 수행하거나 순차적으로 연결하면 오류가 줄어들고 잠재적인 문제가 강조 표시됩니다."라고 그는 말합니다. 설명 가능성도 필수적입니다. "생각의 연결고리는 투명성을 향한 중요한 단계이며, 신뢰성을 높입니다."

O'Toole은 고급 수학 및 과학 연구와 같은 분야에서는 전문 지표가 매우 중요하다고 강조합니다. 예를 들어 Meta는 범용 평가를 위해 MT-Bench와 RewardBench를 사용했지만 수학적 문제 해결에는 벤치마크가 적합하다고 그는 말합니다. CruxEval은 코드 추론을 지원할 수 있으며, FactKB, PubMed 및 SciBench와 같은 도메인별 벤치마크는 모델이 특정 요구 사항을 충족하는지 확인하는 데 도움이 될 수 있습니다.

Nag은 특히 전문 분야에서 성능을 측정하고 신뢰성을 보장하는 것이 중요하다고 강조합니다. 그는 결과가 해당 분야의 인간 전문가가 내린 평가와 얼마나 잘 일치하는지가 궁극적인 벤치마크라고 믿습니다.

"자가 학습 평가기가 RewardBench에서 인간 판단에 88.7%를 동의하는 것은 강력한 기준이 되지만, 일관성, 설명 가능성, 엣지 사례를 식별하는 시스템의 능력과 같은 다른 요소를 추적하는 것도 똑같이 중요합니다."라고 그는 말합니다. "알파고의 자기 대국이 인간 챔피언과의 대결에서 성능을 검증받은 것처럼, 평가자 시스템도 도메인 전문가 패널을 대상으로 정기적으로 테스트를 거쳐야 합니다."

EisnerAmper에서 자문 및 기술 서비스를 이끌고 있는 Jen Clark은 AI 개발에는 안전과 효과적인 발전을 보장하기 위한 구조화된 프레임워크가 필요하다고 강조합니다.

"AI가 계속 발전함에 따라 과학적 방법, 강력한 커뮤니티, 협업 네트워크 등 인간 연구를 지원해 온 방법론에 의존하는 것이 중요해졌습니다."라고 그녀는 말합니다. "AI 안전을 크라우드소싱하고 AI 개발의 속도와 규모를 관리하려면 여기에 노력을 집중하는 것이 필수적입니다."