AI 에이전트를 평가하려면 더 넓은 공식적 관측 가능성 프레임워크 내에서 구조화된 접근 방식이 필요합니다. 평가(또는 eval) 방법은 매우 다양하지만, 일반적으로 다음 단계를 거칩니다.
1. 평가 목표 및 메트릭 정의
에이전트의 목적은 무엇입니까? 예상되는 결과는 무엇입니까? AI는 실제 시나리오에서 어떻게 사용되나요?
가장 널리 사용되는 몇몇 메트릭은 '일반적인 AI 에이전트 평가 메트릭'에서 확인할 수 있습니다. 이러한 메트릭은 성능, 상호 작용 및 사용자 경험, 책임감 있는 AI, 시스템 및 효율성, 작업별 메트릭 카테고리에 속합니다.
2. 데이터 수집 및 테스트 준비
AI 에이전트를 효과적으로 평가하려면 실제 상황을 반영하는 다양한 입력 데이터와 실시간 상황을 시뮬레이션하는 테스트 시나리오를 포함한 대표적인 평가 데이터 세트를 사용하세요. 주석이 달린 데이터는 AI 모델을 테스트할 수 있는 실측 정보를 나타냅니다.
API 호출, 두 번째 에이전트에게 정보 전달, 의사 결정 등 에이전트의 워크플로의 모든 잠재적 단계를 계획하세요. AI 워크플로를 개별 부분으로 나누면 에이전트가 각 단계를 어떻게 처리하는지 쉽게 평가할 수 있습니다. 또한 워크플로 전반에서 에이전트의 전체 접근 방식, 즉 다단계 문제를 해결하는 과정에서 에이전트가 취하는 실행 경로를 고려해야 합니다.
3. 테스트 수행
다양한 환경에서 AI 에이전트를 실행하고 필요에 따라 다양한 LLM을 백본으로 사용하여 성능을 추적합니다. 개별 에이전트 단계를 세분화하고 각 단계를 평가합니다. 예를 들어, 에이전트가 외부 데이터베이스에서 정보를 검색하기 위해 검색 증강 생성(RAG)를 사용하거나 API 호출의 응답을 모니터링합니다.
4. 결과 분석
미리 정의된 성공 기준이 있는 경우 결과를 이 기준과 비교하고, 없는 경우 LLM-as-a-judge를 사용합니다(아래 참조). 성능과 윤리적 고려 사항의 균형을 맞춰 상충 관계를 평가합니다.
에이전트가 올바른 도구를 선택했습니까? 올바른 함수를 호출 했습니까? 올바른 맥락에서 올바른 정보를 전달했습니까? 사실에 입각한 올바른 답변을 내놓았습니까?
함수 호출/도구 사용은 실시간으로 상황에 맞는 정확한 응답을 제공할 수 있는 지능형 에이전트를 구축하는 데 필수적인 기능입니다. LLM-as-a-judge를 사용한 시맨틱 평가와 함께 규칙 기반 접근 방식을 사용한 전용 평가 및 분석을 고려합니다.
LLM-as-a-judge는 사전 정의된 기준과 메트릭을 사용하여 AI 에이전트의 성능을 평가하는 자동화된 평가 시스템입니다. LLM-as-a-judge는 인간 검토자에게만 의존하는 대신 알고리즘, 휴리스틱 또는 AI 기반 채점 모델을 적용하여 에이전트의 응답, 결정 또는 행동을 평가합니다.
아래의 '함수 호출 평가 메트릭'을 참조하세요.
5. 최적화 및 반복
이제 개발자는 평가 결과를 기반으로 프롬프트를 조정하고, 알고리즘을 디버그하고, 논리를 간소화하거나 에이전트 아키텍처를 구성할 수 있습니다. 예를 들어 응답 생성 및 작업 완료 시간을 단축하여 고객 지원 사용 사례를 개선할 수 있습니다. 확장성과 리소스 사용량에 맞춰 시스템 효율성을 최적화할 수 있습니다.