프롬프트부터 지표에 이르기까지 AI 에이전트 평가

작성자

Lead AI Advocate

AI 에이전트란 무엇인가요?

AI 에이전트는 자체 워크플로를 개발하고 필요에 따라 외부 툴을 사용하여 사용자 또는 다른 시스템을 대신하여 자율적으로 작업을 수행할 수 있는 소프트웨어 시스템을 말합니다.

에이전트는 단순한 언어 처리와 이해 이상을 수행합니다. 에이전트는 의사 결정, 문제 해결, 환경과의 상호 작용 및 목표 추구를 위해 행동할 수 있습니다.

AI 에이전트는 이제 IT 자동화 및 소프트웨어 엔지니어링부터 대화형 인터페이스 및 코드 생성 구현에 이르기까지 다양한 엔터프라이즈 솔루션에 통합되고 있습니다. AI 에이전트는 대규모 언어 모델(LLM)을 기반으로 복잡한 방향을 이해하고, 여러 단계로 분해하고, 외부 소스의 리소스와 상호 작용하고, 작업 달성에 도움이 되는 특정 툴이나 서비스를 배포할 시기를 아는 인지 능력을 갖출 수 있습니다.

에이전트 평가가 중요한 이유는 무엇인가요?

에이전트 평가는 에이전트가 할당된 작업을 얼마나 잘 수행하고, 의사 결정을 내리고, 사용자 또는 환경과 상호 작용하는지 측정하므로 자율 AI 시스템을 만들고 배포할 때 중요한 절차입니다. 이를 통해 에이전트가 의도한 사용 사례에서 안정적이고 효율적이며 윤리적으로 운영되도록 할 수 있습니다.

에이전트 평가의 주요 이유는 다음과 같습니다.

기능 확인: 이 단계는 특정 조건에서 에이전트의 동작과 행동 및 정의된 제약 조건 내에서 목표를 달성하는지 여부를 확인하는 데 도움이 됩니다.
설계 최적화: 에이전트의 추론, 계획 또는 툴 사용의 단점과 비효율성을 식별하여 에이전트의 아키텍처와 흐름을 반복적으로 개선할 수 있습니다.
견고성: 엣지 사례, 적대적 입력 또는 최적이 아닌 조건에 직면한 에이전트의 능력을 평가하여 내결함성과 복원력을 높일 수 있습니다.
성능 및 리소스 지표: 지연 시간, 처리량, 토큰 소비량, 기억 및 기타 시스템 지표를 추적하여 런타임 효율성을 파악하고 운영 비용을 최소화할 수 있습니다.
사용자 상호 작용 품질: 사용자 만족도 또는 대화 효과의 지표로서 에이전트 응답의 명확성, 유용성, 일관성 및 관련성을 측정합니다.
목표 완료 분석: 성공 기준이나 특정 작업 기반 벤치마크를 사용하면 에이전트가 목표를 얼마나 신뢰성 있고 정확하게 완료했는지 평가할 수 있습니다.
윤리 및 안전 고려 사항: 공정성, 편향, 잠재적 위험 및 모든 안전 절차 준수 여부 측면에서 에이전트의 아웃풋을 평가할 수 있습니다.

AI 에이전트 평가 지표

AI 에이전트의 성과를 평가할 때는 정확도, 응답 시간(속도), 사용된 리소스 비용 등 여러 공식 성능 등급으로 구성된 지표를 사용합니다. 정확도는 에이전트가 정확하고 관련성 높은 응답을 얼마나 잘 제공하는지와 더불어 의도한 기능을 완료할 수 있는 에이전트의 능력을 나타냅니다. 응답 시간은 에이전트가 입력을 처리하고 아웃풋을 생성하는 데 걸리는 속도를 측정합니다. 지연 시간 최소화는 대화형 프로그램과 실시간 프로그램에 특히 중요하며, 토큰 사용, 애플리케이션 프로그래밍 인터페이스(API) 호출 또는 시스템 시간과 같이 에이전트가 소비하는 계산 리소스의 비용을 측정합니다. 이러한 지표는 시스템의 성능을 개선하고 운영 비용을 제한하기 위한 지침을 제공합니다.

정확성, 유용성, 일관성 과 같은 주요 지표는 정확도에 포함되는 반면, 응답 시간(대기 시간)은 처리량, 평균 대기 시간, 시간 초과 지연 등의 지표를 측정합니다. 비용 지표에는 토큰 사용량, 계산 시간, API 호출 수 및 메모리 소비가 포함됩니다.

이 튜토리얼에서는 정확도에 속하는 정확성, 유용성, 일관성의 주요 지표를 살펴보겠습니다.

정확성: 정확성은 에이전트의 답변이 입력 프롬프트에 대해 사실 측면에서 정확하고 논리적으로 참인지 평가합니다. 많은 경우 이 지표는 특히 의료, 법률 자문 또는 기술 지원과 같은 분야에서 가장 기본적인 지표입니다.
유용성: 유용성은 에이전트의 답변이 사용자의 의도에 얼마나 유용하고 실행 가능한지를 평가합니다. 답변이 사실 측면에서 정확하더라도 해결 방법이나 다음 단계를 다루지 않으면 도움이 되지 않을 수 있습니다.
일관성: 논리적 흐름과 서사적 흐름 모두와 관련이 있습니다. 이는 멀티턴 상호 작용과 추론이 여러 단계에 걸쳐 수행되는 상호 작용에서 중요합니다. 일관성은 에이전트가 처음부터 끝까지 '말이 되는 답변을 하는지' 여부를 나타냅니다.

이제 여행 에이전트를 개발하고 "LLM-as-a-judge"를 사용하여 그 성능을 평가해 보겠습니다.

전제조건

watsonx.ai 를 작성하려면 IBM® Cloud® 계정 이 필요합니다 .® 설명
Python 버전 3.12.7도 필요합니다.

단계

1단계. 환경 설정

여러 툴 중에서 선택할 수 있지만, 이 튜토리얼에서는 Jupyter Notebook을 사용하기 위해 IBM 계정을 설정하는 방법을 안내합니다.

IBM Cloud 계정을 사용하여 watsonx.ai에 로그인합니다.
watsonx.ai 프로젝트를 생성합니다.프로젝트 내에서 프로젝트 ID를 가져올 수 있습니다. 관리 탭을 클릭합니다.그런 다음 일반 페이지의 세부 정보 섹션에서 프로젝트 ID를 복사합니다.이 튜토리얼에는 이 ID가 필요합니다.
Jupyter Notebook을 만듭니다.이 단계에서는 이 튜토리얼의 코드를 복사할 수 있는 Notebook 환경이 열립니다. 또는 이 노트북을 로컬 시스템에 다운로드하여 watsonx.ai 프로젝트에 에셋으로 업로드할 수 있습니다. 더 많은 IBM Granite 튜토리얼을 보려면 IBM Granite 커뮤니티를 확인하세요.

2단계. watsonx.ai 런타임 인스턴스 및 API 키 설정

watsonx.ai 런타임 서비스 인스턴스를 만듭니다(적절한 지역을 선택하고 무료 인스턴스인 Lite 요금제를 선택합니다).
애플리케이션 프로그래밍 인터페이스(API) 키를 생성합니다.
watsonx.ai 런타임 서비스 인스턴스를 watsonx.ai에서 생성한 프로젝트에 연결합니다.

3단계. 관련 라이브러리 설치, 가져오기 및 자격 증명 설정

이 튜토리얼에는 몇 가지 라이브러리와 모듈이 필요합니다. 다음 항목을 가져와야 합니다. 설치되지 않은 경우, 빠른 PIP 설치로 이 문제를 해결할 수 있습니다.

이 튜토리얼은 Python 3.12.7을 사용하여 작성되었습니다.

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

import os
import getpass
import requests
import random
import json
from typing import Type
from typing import Dict, List
from langchain_ibm import WatsonxLLM
from langchain_ibm import ChatWatsonx
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain_ibm import WatsonxEmbeddings
from langchain.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.agents.agent_types import AgentType
from langchain.prompts import ChatPromptTemplate
from langchain.evaluation import load_evaluator
from langchain.agents import initialize_agent, Tool

자격 증명을 설정하려면 1단계에서 생성한 WATSONX_APIKEY와 WATSONX_PROJECT_ID가 필요합니다. 또한 API 엔드포인트 역할을 하는 URL도 설정합니다. API 엔드포인트는 지리적 위치에 따라 다를 수 있습니다.

WATSONX_APIKEY = getpass.getpass("Please enter your watsonx.ai Runtime API key (hit enter): ")
WATSONX_PROJECT_ID = getpass.getpass("Please enter your project ID (hit enter): ")
URL = "https://us-south.ml.cloud.ibm.com"

4단계. LLM 초기화

이 튜토리얼에서는 Granite 3 -8B Instruct 모델을 사용합니다. LLM을 초기화하려면 모델 매개변수를 설정해야 합니다. 최소 및 최대 토큰 제한과 같은 이러한 모델 매개변수에 대해 자세히 알아보려면 문서를 참조하세요.

llm = ChatWatsonx(model_id="ibm/granite-3-8b-instruct",
url = URL,
apikey = WATSONX_APIKEY,
project_id = WATSONX_PROJECT_ID,
params = {"decoding_method": "greedy","temperature": 0, "min_new_tokens": 5,
"max_new_tokens": 2000})

5단계. 여행 탐색 에이전트(buddy) 구축

사용자의 여행 계획 및 여행 조사를 돕는 여행 탐색 buddy를 만들어 보겠습니다.

외부 여행 API에 연결하여 사용자 문의에 대한 답변으로 항공사 및 호텔 정보를 검색할 수 있는 간단한 여행 어시스턴트 애플리케이션을 만들겠습니다. 동적 여행 계획을 위해 AI 에이전트와 통합할 수 있도록 API 쿼리를 만들고 이를 툴로 래핑하는 간단한 함수를 사용합니다.

def travel_api(query: str) -> str:
# Example of connecting to a real travel API
response = requests.get("https://www.partners.skyscanner.net", params={"query": query})
if response.status_code == 200:
return response.json().get("result", "No results found.")
return "Error contacting travel API."

travel_tool = Tool(
name="TravelPlannerTool",
func=travel_api,
description="Connects to a travel API to find flights and hotels for a given city and date"
)

agent = initialize_agent(
tools=[travel_tool],
llm=llm,
agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION,
verbose=True,
handle_parsing_errors= "Check your output and make sure it conforms! Do not output an action and a final answer at the same time."
)

query = "What are the best places to visit in India during winters?"
response = agent.invoke(query)
print("\n--- Travel Agent Response ---")
print(response)

6단계. 평가 실행 및 점수 받기

마지막으로 평가를 실행하고 최종 평가 점수를 인쇄합니다. 세 가지 별개의 기준(정확성, 유용성 및 일관성)을 사용하여 여행 플래너를 평가하기 위해 평가자 LLM을 위한 구조화된 프롬프트가 개발됩니다.

from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

evaluation_prompt = PromptTemplate(
input_variables=["input", "prediction"],
template="""
You are an evaluation agent.

### User Input:
{input}

### Agent's Response:
{prediction}

Evaluate this response based on:
- Correctness (Is the information factually accurate?)
- Helpfulness (Is it useful and actionable?)
- Coherence (Is it well-written and logically structured?)

Reply in this format:
Correctness: <score>/5 - <reason>
Helpfulness: <score>/5 - <reason>
Coherence: <score>/5 - <reason>
"""
)

eval_input = evaluation_prompt.format(input=query, prediction=response)
evaluation_result = agent.invoke(eval_input)

아웃풋은 정확성, 유용성 및 일관성의 세 가지 기준을 사용하여 생성된 여행 플래너의 정성적 및 정량적 평가를 모두 보여줍니다.

에이전트 아웃풋의 컨텍스트에서 각 점수와 지표가 의미하는 바를 분석해 보겠습니다.

정확성은 답변이 얼마나 사실적 측면에서 정확하고 논리적으로 들리는지 보여줍니다. 이전 예에서 사실적 내용은 정확하므로 정확성 점수는 (5점 만점에 5점)입니다.
유용성은 답변이 사용자의 필요 사항에 얼마나 도움이 되고 적절한지를 유용성으로 측정하여 보여줍니다. 이 시나리오에서 (5점 만점에 5점)의 점수는 AI의 여행 계획이 유용하고 신중하게 설계되었음을 의미합니다. 이 점수는 겨울철에 인도에서 방문하기 가장 좋은 장소를 처음으로 검색하는 사람에게 답변이 도움이 됨을 나타냅니다.
일관성은 플래너가 논리적으로 구성되고 읽기 쉬운지를 보여줍니다. 이 예시의 일관성 점수는 5점으로 높습니다.

결론

사용자 요구 사항을 진정으로 충족하는 에이전트의 능력을 평가할 때 일관성, 유용성 및 정확성과 같은 기준은 핵심적인 역할을 합니다. OpenAI, IBM Granite 또는 기타 서비스형 LLM 모델 중 무엇을 사용하든 벤치마크, 데이터 세트, 주석 및 실측 정보와 같은 구조화된 평가 방법을 사용하여 최종 아웃풋을 철저히 테스트하는 것이 중요합니다. 챗봇이나 RAG 기반 고객 지원과 같은 실제 사용 사례에서는 LangGraph와 같은 오픈 소스 프레임워크가 매우 중요합니다. 이러한 프레임워크는 확장가능한 자동화와 신뢰할 수 있는 라우팅을 지원하며 빠른 반복 주기를 가능하게 합니다. 또한 이러한 기술을 사용하면 생성형 AI 시스템을 더 쉽게 구동하고, 동작을 디버깅하고, 복잡한 워크플로를 최적화하고 구성할 수 있습니다. 팀은 테스트 사례를 신중하게 정의하고 계산 비용, 가격, 지연 시간과 같은 관측 가능성 지표를 주시함으로써 시스템 성능을 지속적으로 개선할 수 있습니다. 궁극적으로 신뢰할 수 있고 반복 가능한 평가 접근 방식을 적용하면 머신 러닝 시스템을 철저하게 검증하고 시간이 지남에 따라 신뢰성을 강화할 수 있습니다.