AI 모델 선택 시 고려 사항

적합한 AI 모델을 선택하는 것은 에이전트가 프롬프트를 해석하고, 작업을 추론하며, 응답을 생성하는 방식을 결정합니다.

적합한 모델을 선택하면 에이전트가 다음을 수행할 수 있습니다:

  • 지시를 확실히 따르십시오

  • 관련성 높고 고품질의 결과물 생성

  • 복잡한 추론과 다단계 워크플로를 처리합니다

  • 예산 범위 내에서 대규모 환경에서도 일관된 성능 유지

부적합한 모델을 사용하면 느린 응답, 환각 현상 또는 부정확한 출력이 발생할 수 있습니다. 핵심 요소를 조기에 평가함으로써, 에이전트가 사용 사례에 맞게 의도된 대로 작동하도록 보장할 수 있습니다.

AI 모델 선택 시 고려해야 할 사항

모델을 선택할 때는 다음 요소를 평가하여 성능, 정확성 및 비용이 요구 사항에 맞는지 확인하세요.

1. 담당자의 업무 유형을 확인하십시오

모델에 따라 기능과 효율성이 다릅니다. 상담원 업무의 복잡성에 맞게 모델을 조정하세요.

모델 유형

최적의 대상

제한사항

소형

라우팅, 분류, 키워드 추출

제한된 추론, 더 많은 환각

중간

명령어 따라하기, 요약, 구조화된 출력

복잡한 로직으로 인해 어려움을 겪을 수 있습니다

대형

다단계 추론, 심층 분석, 컨텍스트가 풍부한 작업

더 높은 지연 시간, 더 높은 비용

예제:

  • IT 티켓 라우팅에 작은 모델을 사용하세요.

  • 계약 분석이나 세부 계획 작업에는 대규모 모델을 사용하세요.

2. 정확도, 지연 시간, 비용 간의 균형을 맞추다

이 세 가지 요소는 상담원의 목적에 가장 적합한 모델에 영향을 줍니다.

  • 상담원이 일관되고 비즈니스적으로 신뢰할 수 있는 답변을 제공해야 할 때는 정확성이 중요합니다.

예: 인사 정책에 대한 대응은 언제나 정확해야 합니다.

  • 지연 시간은 실시간 사용자 경험에 영향을 미칩니다.

예: 워크플로 자동화는 몇 초 이내에 응답해야 합니다.

  • 대용량 워크로드에서는 비용이 중요해집니다.

예시: 티켓 분류 담당자는 효율적이고 비용이 저렴한 모델을 사용해야 합니다.

고려사항

고용량 모델

저용량 모델

정확도

지식이 풍부하고 중요한 작업에 적합

간단한 조회 또는 라우팅에 충분

대기 시간

느리게

더 빠름

비용

고레벨

경제성 향상

환각 위험

저레벨

더 높음(특히 오픈 소스)

팁:

성능 기준선을 설정하기 위해 대용량 모델부터 시작하십시오. 그런 다음 더 가벼운 모델을 평가하여 비용을 최적화하세요.

3. 텍스트 전용 모델과 다중 모달 모델 중 선택하세요

상담원이 처리해야 하는 입력 유형을 지원하는 모델을 선택합니다.

모델 유형

언제 사용

텍스트 전용

상담원은 자연어만 처리합니다

멀티모달

상담원이 이미지, 스캔한 PDF, 그래프 또는 문서를 읽을 수 있어야 합니다

예시: 이미지가 포함된 송장 추출 또는 문서 요약에 멀티모달 모델을 사용하세요.

4. 타사 모델을 고려해 보십시오

watsonx Orchestrate AI 게이트웨이를 통해 외부 모델을 지원합니다. 타사 모델을 사용할 때는 다음과 같이 하세요:

  • 고급 추론 또는 전문 역량이 필요한 경우

  • 현재 모델이 정확도 요구 사항을 충족하지 않습니다

  • 특정 지역의 가용성 또는 규정 준수 요구 사항을 충족해야 합니다

타사 모델은 ADK(에이전트 개발 키트)를 통해 구성해야 합니다. 자세한 내용은 AI 게이트웨이를 통한 AI 모델 추가를 참조하십시오.

모델 할당 요약

시나리오

모범 사례 모델

가장 정확한 추론

llama-3-405b-instruct 사용 중단됨

가장 짧은 지연 시간

GPT-OSS 120B — OpenAI (출처: Groq) GPT-OSS 120B — OpenAI (출처: AWS Bedrock)

최고의 멀티모달 지원

llama-3-2-90b-vision-instruct 사용 중단됨

균형 잡힌 비용 + 기능

llama-3-2-90b-vision-instruct 사용 중단됨

대용량, 빠른 상호작용

GPT-OSS 120B — OpenAI (출처: Groq) GPT-OSS 120B — OpenAI (출처: AWS Bedrock)

모델 선택 테스트 및 구체화

  1. 성능이 뛰어난 모델부터 시작하여 성능 기준선을 설정하세요.

  2. 다음을 사용하여 출력을 평가합니다:

    • 샘플 대화

    • 컴포넌트 수준 프롬프트 테스트

    • 회귀 테스트 도구

  3. 더 가벼운 모델로 실험하여 비용을 절감하면서도 만족할 만한 품질을 유지하세요.

이 반복적인 접근 방식은 사용 사례에 필요한 최소 모델 용량을 결정하는 데 도움이 됩니다.

모델 계획 체크리스트

이 체크리스트를 사용하여 상담원에게 어떤 시나리오가 적용되는지 파악하세요:

질문

모델 선택을 안내하는 방법

상담원은 어떤 업무를 수행하나요?

고도의 추론 능력( llama-3-405b-instruct, 사용 중단됨 )이 필요한지, 아니면 단순한 구조화된 작업(경량 모델)이 필요한지를 판단하는 데 도움이 됩니다

응답은 얼마나 정확해야 하나요?

정확도를 높이려면 더 큰 모델이 필요합니다 ( llama-3-405b-instruct 사용 중단됨 )

허용되는 지연 시간은 어느 정도인가요?

저지연 흐름은 GPT-OSS 모델(GPT-OSS 120B — OpenAI (via Groq) 및 GPT-OSS 120B — OpenAI (via AWS Bedrock))을 선호합니다

입력에 이미지나 문서가 포함되나요?

그렇다면 다중 모달 모델을 선택하세요 ( llama-3-2-90b-vision-instruct 사용 중단됨 )

에이전트가 대량으로 실행되나요?

비용과 속도의 균형을 고려할 때 더 효율적인 모델들이 주목받고 있습니다(GPT-OSS 120B — OpenAI (Groq 또는 AWS Bedrock을 통해) 또는 llama-3-2-90b-vision-instruct (사용 중단됨 ))

다음에 수행할 작업