AI 에이전트는 자체 워크플로를 개발하고 필요에 따라 외부 툴을 사용하여 사용자 또는 다른 시스템을 대신하여 자율적으로 작업을 수행할 수 있는 소프트웨어 시스템을 말합니다.
에이전트는 단순한 언어 처리와 이해 이상을 수행합니다. 에이전트는 의사 결정, 문제 해결, 환경과의 상호 작용 및 목표 추구를 위해 행동할 수 있습니다.
AI 에이전트는 이제 IT 자동화 및 소프트웨어 엔지니어링부터 대화형 인터페이스 및 코드 생성 구현에 이르기까지 다양한 엔터프라이즈 솔루션에 통합되고 있습니다. AI 에이전트는 대규모 언어 모델(LLM)을 기반으로 복잡한 방향을 이해하고, 여러 단계로 분해하고, 외부 소스의 리소스와 상호 작용하고, 작업 달성에 도움이 되는 특정 툴이나 서비스를 배포할 시기를 아는 인지 능력을 갖출 수 있습니다.
에이전트 평가는 에이전트가 할당된 작업을 얼마나 잘 수행하고, 의사 결정을 내리고, 사용자 또는 환경과 상호 작용하는지 측정하므로 자율 AI 시스템을 만들고 배포할 때 중요한 절차입니다. 이를 통해 에이전트가 의도한 사용 사례에서 안정적이고 효율적이며 윤리적으로 운영되도록 할 수 있습니다.
에이전트 평가의 주요 이유는 다음과 같습니다.
AI 에이전트의 성과를 평가할 때는 정확도, 응답 시간(속도), 사용된 리소스 비용 등 여러 공식 성능 등급으로 구성된 지표를 사용합니다. 정확도는 에이전트가 정확하고 관련성 높은 응답을 얼마나 잘 제공하는지와 더불어 의도한 기능을 완료할 수 있는 에이전트의 능력을 나타냅니다. 응답 시간은 에이전트가 입력을 처리하고 아웃풋을 생성하는 데 걸리는 속도를 측정합니다. 지연 시간 최소화는 대화형 프로그램과 실시간 프로그램에 특히 중요하며, 토큰 사용, 애플리케이션 프로그래밍 인터페이스(API) 호출 또는 시스템 시간과 같이 에이전트가 소비하는 계산 리소스의 비용을 측정합니다. 이러한 지표는 시스템의 성능을 개선하고 운영 비용을 제한하기 위한 지침을 제공합니다.
정확성, 유용성, 일관성 과 같은 주요 지표는 정확도에 포함되는 반면, 응답 시간(대기 시간)은 처리량, 평균 대기 시간, 시간 초과 지연 등의 지표를 측정합니다. 비용 지표에는 토큰 사용량, 계산 시간, API 호출 수 및 메모리 소비가 포함됩니다.
이 튜토리얼에서는 정확도에 속하는 정확성, 유용성, 일관성의 주요 지표를 살펴보겠습니다.
이제 여행 에이전트를 개발하고 "LLM-as-a-judge"를 사용하여 그 성능을 평가해 보겠습니다.
watsonx.ai 를 작성하려면 IBM® Cloud® 계정 이 필요합니다 .® 설명
Python 버전 3.12.7도 필요합니다.
여러 툴 중에서 선택할 수 있지만, 이 튜토리얼에서는 Jupyter Notebook을 사용하기 위해 IBM 계정을 설정하는 방법을 안내합니다.
IBM Cloud 계정을 사용하여 watsonx.ai에 로그인합니다.
watsonx.ai 프로젝트를 생성합니다.프로젝트 내에서 프로젝트 ID를 가져올 수 있습니다. 관리 탭을 클릭합니다.그런 다음 일반 페이지의 세부 정보 섹션에서 프로젝트 ID를 복사합니다.이 튜토리얼에는 이 ID가 필요합니다.
Jupyter Notebook을 만듭니다.이 단계에서는 이 튜토리얼의 코드를 복사할 수 있는 Notebook 환경이 열립니다. 또는 이 노트북을 로컬 시스템에 다운로드하여 watsonx.ai 프로젝트에 에셋으로 업로드할 수 있습니다. 더 많은 IBM Granite 튜토리얼을 보려면 IBM Granite 커뮤니티를 확인하세요.
watsonx.ai 런타임 서비스 인스턴스를 만듭니다(적절한 지역을 선택하고 무료 인스턴스인 Lite 요금제를 선택합니다).
애플리케이션 프로그래밍 인터페이스(API) 키를 생성합니다.
watsonx.ai 런타임 서비스 인스턴스를 watsonx.ai에서 생성한 프로젝트에 연결합니다.
이 튜토리얼에는 몇 가지 라이브러리와 모듈이 필요합니다. 다음 항목을 가져와야 합니다. 설치되지 않은 경우, 빠른 PIP 설치로 이 문제를 해결할 수 있습니다.
이 튜토리얼은 Python 3.12.7을 사용하여 작성되었습니다.
자격 증명을 설정하려면 1단계에서 생성한 WATSONX_APIKEY와 WATSONX_PROJECT_ID가 필요합니다. 또한 API 엔드포인트 역할을 하는 URL도 설정합니다. API 엔드포인트는 지리적 위치에 따라 다를 수 있습니다.
이 튜토리얼에서는 Granite 3 -8B Instruct 모델을 사용합니다. LLM을 초기화하려면 모델 매개변수를 설정해야 합니다. 최소 및 최대 토큰 제한과 같은 이러한 모델 매개변수에 대해 자세히 알아보려면 문서를 참조하세요.
사용자의 여행 계획 및 여행 조사를 돕는 여행 탐색 buddy를 만들어 보겠습니다.
외부 여행 API에 연결하여 사용자 문의에 대한 답변으로 항공사 및 호텔 정보를 검색할 수 있는 간단한 여행 어시스턴트 애플리케이션을 만들겠습니다. 동적 여행 계획을 위해 AI 에이전트와 통합할 수 있도록 API 쿼리를 만들고 이를 툴로 래핑하는 간단한 함수를 사용합니다.
마지막으로 평가를 실행하고 최종 평가 점수를 인쇄합니다. 세 가지 별개의 기준(정확성, 유용성 및 일관성)을 사용하여 여행 플래너를 평가하기 위해 평가자 LLM을 위한 구조화된 프롬프트가 개발됩니다.
아웃풋은 정확성, 유용성 및 일관성의 세 가지 기준을 사용하여 생성된 여행 플래너의 정성적 및 정량적 평가를 모두 보여줍니다.
에이전트 아웃풋의 컨텍스트에서 각 점수와 지표가 의미하는 바를 분석해 보겠습니다.
사용자 요구 사항을 진정으로 충족하는 에이전트의 능력을 평가할 때 일관성, 유용성 및 정확성과 같은 기준은 핵심적인 역할을 합니다. OpenAI, IBM Granite 또는 기타 서비스형 LLM 모델 중 무엇을 사용하든 벤치마크, 데이터 세트, 주석 및 실측 정보와 같은 구조화된 평가 방법을 사용하여 최종 아웃풋을 철저히 테스트하는 것이 중요합니다. 챗봇이나 RAG 기반 고객 지원과 같은 실제 사용 사례에서는 LangGraph와 같은 오픈 소스 프레임워크가 매우 중요합니다. 이러한 프레임워크는 확장가능한 자동화와 신뢰할 수 있는 라우팅을 지원하며 빠른 반복 주기를 가능하게 합니다. 또한 이러한 기술을 사용하면 생성형 AI 시스템을 더 쉽게 구동하고, 동작을 디버깅하고, 복잡한 워크플로를 최적화하고 구성할 수 있습니다. 팀은 테스트 사례를 신중하게 정의하고 계산 비용, 가격, 지연 시간과 같은 관측 가능성 지표를 주시함으로써 시스템 성능을 지속적으로 개선할 수 있습니다. 궁극적으로 신뢰할 수 있고 반복 가능한 평가 접근 방식을 적용하면 머신 러닝 시스템을 철저하게 검증하고 시간이 지남에 따라 신뢰성을 강화할 수 있습니다.
생성형 AI로 워크플로와 프로세스를 자동화하는 강력한 AI 어시스턴트 및 에이전트를 구축, 배포, 관리하세요.
믿을 수 있는 AI 솔루션으로 비즈니스의 미래를 설계하세요.
IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.