AI 에이전트 평가란 무엇인가요?

작성자

Staff Editor, AI Models

IBM Think

Distinguished Engineer, AI Benchmarking and Evaluation

AI 에이전트 평가는 작업 실행, 의사 결정 및 사용자와의 상호 작용에서 AI 에이전트의 성능을 평가하고 이해하는 프로세스를 말합니다. AI 에이전트의 고유한 자율성을 감안할 때, AI 에이전트를 평가하는 것은 AI 에이전트의 적절한 기능을 촉진하는 데 필수적입니다. AI 에이전트는 설계자의 의도에 따라 행동하고, 효율적이어야 하며, 조직의 요구에 부응하기 위해 특정 윤리적 AI 원칙을 준수해야 합니다. 평가는 에이전트가 이러한 요구 사항을 충족하고 있는지 확인하는 데 도움이 되며 개선 및 최적화가 필요한 영역을 식별하여 에이전트의 품질을 개선하는 데도 기여합니다.

생성형 AI(Gen AI) 에이전트는 전통적인 텍스트-텍스트 변환 작업에서 평가되는 경우가 많으며, 이는 생성된 텍스트의 일관성, 관련성, 원본 충실도 등 지표가 일반적으로 사용되는 표준 대규모 언어 모델 (LLM) 벤치마크와 유사합니다. 그러나 생성형 AI 에이전트는 일반적으로 다단계 추론, 도구 호출, 외부 시스템과의 상호 작용 등 보다 광범위하고 복잡한 작업을 수행하므로 보다 포괄적인 평가가 필요합니다. 최종 아웃풋이 텍스트인 경우에도 데이터베이스 쿼리 또는 API 호출과 같은 중간 작업의 결과일 수 있으며, 각 작업은 별도로 평가해야 합니다.

다른 경우에는 에이전트가 텍스트 아웃풋을 전혀 생성하지 않고 대신 레코드 업데이트 또는 메시지 전송과 같은 작업을 완료할 수 있으며, 여기서 성공은 올바른 실행 여부로 측정됩니다. 따라서 평가는 표면 수준의 텍스트 품질을 넘어 에이전트의 전체적인 행동, 작업 성공 및 사용자 의도와의 일치 여부를 평가해야 합니다. 또한 성능이 뛰어나지만 리소스 집약적이어서 실제 배포를 제한하는 에이전트의 개발을 피하기 위해 비용 및 효율성 측정이 평가의 일부로 포함되어야 합니다.

AI 에이전트를 평가할 때는 작업 성능을 측정하는 것 외에도 안전성, 신뢰성, 정책 준수, 편향 완화 등의 핵심 요건에 우선순위를 두어야 합니다. 이러한 요소는 실제 고위험 환경에 에이전트를 배포하는 데 필수적입니다. 평가는 에이전트가 유해하거나 안전하지 않은 행동을 피하도록 보장하고, 예측 가능하고 검증 가능한 아웃풋을 통해 사용자 신뢰를 유지하며, 조작이나 오용에 저항하도록 하는 데 도움이 됩니다.

이러한 기능적(품질, 비용) 및 비기능적(안전) 목표를 달성하기 위해 평가 방법에는 벤치마크 테스트, 휴먼 인 더 루프 평가, A/B 테스트, 실제 시뮬레이션 등이 포함될 수 있습니다. 조직은 AI 에이전트를 체계적으로 평가함으로써 AI 기능을 향상하고, 자동화 작업을 최적화하며, 비즈니스 기능을 강화하는 동시에 안전하지 않거나 신뢰할 수 없거나 편향된 에이전틱 AI와 관련된 위험을 최소화할 수 있습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

AI 에이전트 평가 작동 방식

AI 에이전트를 평가하려면 더 넓은 공식적 관측 가능성 프레임워크 내에서 구조화된 접근 방식이 필요합니다. 평가(또는 eval) 방법은 매우 다양하지만, 일반적으로 다음 단계를 거칩니다.

1. 평가 목표 및 메트릭 정의

에이전트의 목적은 무엇입니까? 예상되는 결과는 무엇입니까? AI는 실제 시나리오에서 어떻게 사용되나요?

가장 널리 사용되는 몇몇 메트릭은 '일반적인 AI 에이전트 평가 메트릭'에서 확인할 수 있습니다. 이러한 메트릭은 성능, 상호 작용 및 사용자 경험, 책임감 있는 AI, 시스템 및 효율성, 작업별 메트릭 카테고리에 속합니다.

2. 데이터 수집 및 테스트 준비

AI 에이전트를 효과적으로 평가하려면 실제 상황을 반영하는 다양한 입력 데이터와 실시간 상황을 시뮬레이션하는 테스트 시나리오를 포함한 대표적인 평가 데이터 세트를 사용하세요. 주석이 달린 데이터는 AI 모델을 테스트할 수 있는 실측 정보를 나타냅니다.

API 호출, 두 번째 에이전트에게 정보 전달, 의사 결정 등 에이전트의 워크플로의 모든 잠재적 단계를 계획하세요. AI 워크플로를 개별 부분으로 나누면 에이전트가 각 단계를 어떻게 처리하는지 쉽게 평가할 수 있습니다. 또한 워크플로 전반에서 에이전트의 전체 접근 방식, 즉 다단계 문제를 해결하는 과정에서 에이전트가 취하는 실행 경로를 고려해야 합니다.

3. 테스트 수행

다양한 환경에서 AI 에이전트를 실행하고 필요에 따라 다양한 LLM을 백본으로 사용하여 성능을 추적합니다. 개별 에이전트 단계를 세분화하고 각 단계를 평가합니다. 예를 들어, 에이전트가 외부 데이터베이스에서 정보를 검색하기 위해 검색 증강 생성(RAG)를 사용하거나 API 호출의 응답을 모니터링합니다.

4. 결과 분석

미리 정의된 성공 기준이 있는 경우 결과를 이 기준과 비교하고, 없는 경우 LLM-as-a-judge를 사용합니다(아래 참조). 성능과 윤리적 고려 사항의 균형을 맞춰 상충 관계를 평가합니다.

에이전트가 올바른 도구를 선택했습니까? 올바른 함수를 호출 했습니까? 올바른 맥락에서 올바른 정보를 전달했습니까? 사실에 입각한 올바른 답변을 내놓았습니까?

함수 호출/도구 사용은 실시간으로 상황에 맞는 정확한 응답을 제공할 수 있는 지능형 에이전트를 구축하는 데 필수적인 기능입니다. LLM-as-a-judge를 사용한 시맨틱 평가와 함께 규칙 기반 접근 방식을 사용한 전용 평가 및 분석을 고려합니다.

LLM-as-a-judge는 사전 정의된 기준과 메트릭을 사용하여 AI 에이전트의 성능을 평가하는 자동화된 평가 시스템입니다. LLM-as-a-judge는 인간 검토자에게만 의존하는 대신 알고리즘, 휴리스틱 또는 AI 기반 채점 모델을 적용하여 에이전트의 응답, 결정 또는 행동을 평가합니다.

아래의 '함수 호출 평가 메트릭'을 참조하세요.

5. 최적화 및 반복

이제 개발자는 평가 결과를 기반으로 프롬프트를 조정하고, 알고리즘을 디버그하고, 논리를 간소화하거나 에이전트 아키텍처를 구성할 수 있습니다. 예를 들어 응답 생성 및 작업 완료 시간을 단축하여 고객 지원 사용 사례를 개선할 수 있습니다. 확장성과 리소스 사용량에 맞춰 시스템 효율성을 최적화할 수 있습니다.

AI 에이전트

AI 에이전트의 5가지 유형: 자율 기능 및 실제 애플리케이션

목표 중심 및 유틸리티 기반 AI가 워크플로와 복잡한 환경에 어떻게 적응하는지 알아보세요.

AI 에이전트 구축, 배포 및 모니터링

일반적인 AI 에이전트 평가 메트릭

개발자는 에이전트가 의도한 대로 작동하기를 원합니다. 그리고 AI 에이전트의 자율성을 고려할 때 AI가 내리는 결정의 이면에 있는 '이유'를 이해하는 것이 중요합니다. 개발자가 에이전트를 성공적으로 평가하는 데 사용할 수 있는 메트릭 몇 가지를 검토하세요.

작업별

AI 애플리케이션에 따라 품질을 평가하기 위한 특정 메트릭이 적용될 수 있습니다.

LLM as a judge는 실측 정보 데이터의 가용성에 관계없이 AI 텍스트 생성의 품질을 평가합니다.
BLEU와 ROUGE는 AI가 생성한 텍스트를 사람이 작성한 텍스트와 비교하여 품질을 평가하는 저렴한 대안입니다.

AI 에이전트 성능을 평가하기 위한 다른 기능 메트릭은 다음과 같습니다.

성공률/작업 완료율은 에이전트가 시도한 총 작업 중 정확하거나 만족스럽게 완료한 작업 또는 목표의 비율을 측정합니다.
오류율은 잘못된 아웃풋 또는 실패한 작업의 백분율입니다.
비용은 토큰이나 컴퓨팅 시간과 같은 리소스 사용량을 측정합니다.
지연 시간은 AI 에이전트가 결과를 처리하고 반환하는 데 걸리는 시간입니다.

윤리적이고 책임감 있는 AI

프롬프트 인젝션 취약점은 적대적인 프롬프트의 성공률을 평가하여 에이전트의 의도된 동작을 변경합니다.
정책 준수율은 미리 정의된 조직 또는 윤리 정책을 준수하는 응답의 백분율입니다.
편향 및 공정성 점수는 다양한 사용자 그룹 간의 AI 의사결정의 격차를 감지합니다.

상호 작용 및 사용자 경험

챗봇 및 가상 어시스턴트와 같이 사용자와 상호 작용하는 AI 에이전트의 경우, 평가자는 다음 지표를 고려합니다.

사용자 만족도 점수(CSAT)는 사용자가 AI 응답에 얼마나 만족하는지를 측정합니다.
참여율은 사용자가 AI 시스템과 상호 작용하는 빈도를 추적합니다.
대화 흐름은 일관되고 의미 있는 대화를 유지하는 AI의 능력을 평가합니다.
작업 완료율은 AI 에이전트가 사용자가 작업을 완료하는 데 얼마나 효과적으로 도움을 주는지를 측정합니다.

함수 호출

이러한 규칙 기반 메트릭은 AI 기반 시스템의 운영 효율성을 평가하는 데 도움이 됩니다.

잘못된 함수 이름: 에이전트가 존재하는 함수를 호출하려고 시도했지만 잘못된 이름이나 철자를 사용하여 실행에 실패했습니다.
필수 매개변수 누락: 에이전트가 함수 호출을 시작했지만 함수가 작동하는 데 필요한 하나 이상의 매개변수를 생략했습니다.
잘못된 매개변수 값 유형: 에이전트가 매개변수 값을 제공했지만 해당 유형(문자열, 숫자, 부울)이 함수가 기대하는 유형과 일치하지 않았습니다.
허용되는 값: 에이전트가 특정 매개변수에 대해 허용되거나 미리 정의된 값 집합을 벗어난 값을 사용했습니다.
할루시네이션 매개변수: 에이전트가 함수 사양에 의해 정의되거나 지원되지 않는 매개변수를 함수 호출에 포함했습니다.

다음은 LLM-as-a-judge를 기반으로 하는 몇 가지 시맨틱 지표입니다.

매개변수 값 그라운딩은 모든 매개변수 값이 사용자 텍스트, 컨텍스트 히스토리(예: API 호출의 이전 아웃풋) 또는 API 사양 기본값에서 직접 파생되도록 보장하는 데 도움이 됩니다.
단위 변환은 컨텍스트의 값과 도구 호출의 매개변수 값 사이에서 )기본 유형을 넘어) 단위 또는 형식 변환이 올바르게 수행되었는지 검증합니다.