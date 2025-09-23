IBM 팀의 또 다른 혁신은 '평가 스튜디오(Evaluation Studio)'입니다. 이 기능은 다음과 같은 두 가지 주요 능력을 제공합니다.

프롬프트의 여러 버전을 나란히 비교하여 프롬프트 최적화 및 에이전트에 대한 실험 추적

평가 스튜디오는 개발자가 데이터 세트에서 다양한 버전의 프롬프트를 평가하고 직관적인 사용자 인터페이스에서 결과를 비교할 수 있도록 도와줍니다. 또한 사용자가 지표를 선택하고 중요도에 따라 가중치를 할당하여 사용자 지정 순위 체계를 제시할 수 있는 고유한 사용자 지정 순위를 지원합니다. 이를 통해 사용자는 도구 또는 에이전트에서 사용할 프롬프트를 쉽게 최적화할 수 있습니다.

Watsonx.governance 평가 스튜디오는 더 뛰어난 에이전틱 AI 시스템을 구축하기 위한 강력한 도구인 실험 추적도 지원합니다. 실험을 빠르게 설정하고, (에이전트의) 다양한 변형을 시도하고, 사용한 모델, 검색기 또는 프롬프트와 같은 세부 정보로 태그를 지정할 수 있습니다. 지연 시간, 비용 및 품질(예: 충실도)을 기반으로 나란히 비교하면 어떤 변형이 가장 효과적인지 쉽게 확인할 수 있습니다. 중요한 것은 이 플랫폼을 통해 각 실행에 대한 정확한 코드를 저장할 수 있으므로 개발자가 각 버전을 저장하는 데 시간을 할애하고 에이전트 구축 및 개선에 집중할 수 있다는 것입니다.