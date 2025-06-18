AI 에이전트의 보급이 증가함에 따라 이러한 자율 AI 에이전트의 성능, 신뢰성, 안전성 및 윤리적 행동을 평가하는 문제와 같은 상당한 복잡성이 발생하고 있습니다.

에이전틱 AI 평가 모범 사례는 예측 가능하고 알려지지 않은 다양한 위험에 대한 노출을 줄일 수 있습니다. 그러나 에이전트는 아웃풋뿐만 아니라 행동, 의사 결정 및 의도를 관찰해야 하기 때문에 효과적인 성과 추적은 조직과 개발자에게 어려울 수 있습니다. watsonx.governance와 함께라면 조직은 다음을 사용하여 성능을 평가할 수 있습니다.

벤치마크가 포함된 평가 지표 : 에이전트의 전반적인 역량과 다양한 업무에 대한 역량을 평가하는 데 도움이 됩니다.

: 에이전트의 전반적인 역량과 다양한 업무에 대한 역량을 평가하는 데 도움이 됩니다. 근본 원인 분석 : 최종 결과물뿐만 아니라 성능 추적 의사 결정 체인이 좋지 않은 근본적인 이유를 파악하여 편향되지 않은 데이터 부족과 같은 개선 사항을 알려줍니다.

: 최종 결과물뿐만 아니라 성능 추적 의사 결정 체인이 좋지 않은 근본적인 이유를 파악하여 편향되지 않은 데이터 부족과 같은 개선 사항을 알려줍니다. 인간 피드백 또는 레드팀 구성: SME이 에이전트의 행동을 관찰 및 확인하고(인간 참여) 취약성에 대해 에이전트를 테스트할 수 있습니다.

3월부터 watsonx.governance는 추가적인 전문 지표를 지원하기 위해 이러한 새로운 능력을 도입했습니다. 이제 새로운 RAG 에이전틱 AI 평가 지표를 사용할 수 있습니다. 성능을 평가하는 종합적인 지표에는 HAP, PII, 프롬프트 삽입, 문맥 관련성, 충실도, 답변 유사성, 답변 관련성, 적중률, 평균 정확도, 상호 순위, 실패한 요청 등이 포함되어 있어 시스템의 효율성을 철저히 평가할 수 있습니다. 이를 통해 에이전트가 적절하게 행동하는지 확인하고, 원하는 결과를 향해 에이전트의 행동을 조절하는 데 필요한 가드레일을 추가하여 경고 신호를 감지할 수 있습니다.

이러한 지표는 LangGraph 애플리케이션의 도구 노드에 간단한 python 데코레이터를 추가하여 사용할 수 있습니다. 이 데코레이터를 추가하면 지표가 에이전틱 애플리케이션에서 노드를 실행할 때 부산물로 계산됩니다. 계산된 지표는 애플리케이션 내에서 흐름 결정을 내리는 데 사용할 수 있습니다. 예를 들어, 벡터 데이터베이스에서 가져온 컨텍스트가 사용자 쿼리와 관련이 없는 경우 답변을 생성하지 말고 웹 검색을 시도하여 올바른 컨텍스트를 가져옵니다. 이러한 평가기는 사용하기 쉬울 뿐만 아니라 효율적이며 오픈 소스 지표와 IBM 고급 지표를 모두 포함합니다. 따라서 평가를 위한 넓은 범위의 능력을 제공하며 다양한 사용 사례 및 작업 유형에 적합합니다.