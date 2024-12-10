이 튜토리얼에서는 watsonx.ai에서 제공되는 Mistral AI의 Pixtral 12B 멀티모달 모델을 활용해 이미지 캡션 생성과 시각적 질의응답 같은 멀티모달 작업을 수행하는 방법을 알아봅니다.
2024년 9월, Mistral AI는 Apache 2.0 라이선스에 따라 오픈 소스 대규모 언어 모델(LLM)인 Pixtral 12B를 출시했습니다.
120억 개의 매개변수가 포함된 이 멀티모달 모델은 Mistral AI의 Nemo 12B LLM을 기반으로 구축되었습니다. Pixtral 12B에는 두 가지 구성 요소가 있습니다. 하나는 이미지를 토큰화하는 비전 인코더이고, 다른 하나는 텍스트와 이미지의 시퀀스가 주어지면 다음 토큰을 예측하는 멀티모달 트랜스포머 디코더입니다. 비전 인코더는 4억 개의 매개변수를 갖추고 있으며 다양한 이미지 크기를 지원합니다.
이 모델은 문서 질문 답변, 지침 따르기 또는 검색 증강 생성(RAG) 작업에 사용할 수 있는 고해상도의 그래프, 다이어그램, 차트, 문서 이해를 포함하여 다양한 사용 사례에서 탁월합니다. 또한 Pixtral 12B는 128,000토큰 분량의 컨텍스트 윈도우를 갖추고 있어, 여러 이미지를 동시에 처리할 수 있습니다.
벤치마크 측면에서 Pixtral 12B는 Qwen2-VL, Gemini-1.5 Flash 8B, Claude-3 Haiku를 포함한 다양한 모델보다 성능이 뛰어납니다. DocVQA(ANLS), VQAv2(VQA Match) 등 특정 벤치마크의 경우, 이 모델은 OpenAI의 GPT-4o 및 Claude-3.5 Sonnet보다 성능이 뛰어납니다.
이 모델은 watsonx.ai에서 Pixtral 12B를 실행할 수 있을 뿐만 아니라 Hugging Face, Mistral의 챗봇 Le Chat, 또는 Mistral의 La Plateforme API 엔드포인트를 통해서도 사용할 수 있습니다.
1단계와 2단계의 설정 지침을 안내하는 이 IBM Technology YouTube 동영상을 참조하세요.
사용할 수 있는 도구는 여러 가지가 있지만, 이 튜토리얼은 Jupyter Notebook에 가장 적합합니다. Jupyter Notebook은 데이터 과학 분야에서 코드를 텍스트, 이미지, 데이터 시각화와 같은 다양한 데이터 소스와 결합하는 데 널리 사용됩니다.
이 튜토리얼에서는 Jupyter Notebook을 사용하기 위해 IBM 계정을 설정하는 방법을 안내합니다.
IBM Cloud 계정을 사용하여 watsonx.ai에 로그인합니다. 참고로 Pixtral 12B는 현재 IBM 유럽 프랑크푸르트 및 런던 지역에서만 사용할 수 있습니다.
watsonx.ai 프로젝트를 생성합니다.
프로젝트 내에서 프로젝트 ID를 가져올 수 있습니다. 관리 탭을 클릭합니다. 그런 다음 일반 페이지의 세부 정보 섹션에서 프로젝트 ID를 복사합니다. 이 튜토리얼에는 이 ID가 필요합니다.
Jupyter Notebook을 만듭니다.
이 단계에서는 이 튜토리얼의 코드를 복사하여 프롬프트 튜닝을 직접 구현할 수 있는 노트북 환경이 열립니다. 또는 이 노트북을 로컬 시스템에 다운로드하여 watsonx.ai 프로젝트에 에셋으로 업로드할 수 있습니다. 이 Jupyter Notebook과 함께 사용된 데이터 세트는 GitHub에서 확인할 수 있습니다.
Python 패키지 종속성 충돌을 피하려면 가상 환경을 설정하는 것이 좋습니다.
이 튜토리얼에는 몇 가지 라이브러리와 모듈이 필요합니다. 다음 항목을 가져와야 합니다. 설치되지 않은 경우, 빠른 PIP 설치로 이 문제를 해결할 수 있습니다.
다음 셀을 실행할 때 1단계와 2단계에서 생성한 WATSONX_EU_APIKEY 및 WATSONX_EU_PROJECT_ID를 입력합니다. 또한 API 엔드포인트 역할을 하는 URL도 설정합니다.
Credentials 클래스를 사용하여 전달된 자격 증명을 캡슐화할 수 있습니다.
이 튜토리얼에서는 이미지 캡션 및 객체 감지와 같은 멀티모달 AI 애플리케이션을 위해 여러 이미지를 다룹니다. 우리가 사용할 이미지는 다음 URL을 사용하여 액세스할 수 있습니다. 이 URL을 목록에 저장하여 반복적으로 인코딩할 수 있습니다.
데이터 입력을 더 잘 이해하기 위해 이미지를 표시해 보겠습니다.
아웃풋:
url_image_0
url_image_1
url_image_2
url_image_3
LLM에서 이해할 수 있는 방식으로 이 이미지를 인코딩하기 위해, 이미지를 바이트로 인코딩한 다음 UTF-8 표현으로 디코딩합니다.
이미지를 LLM으로 전달할 수 있게 되었으니, 이제 watsonx API 호출을 위한 함수를 설정해 보겠습니다. augment_api_request_body 함수는 사용자 쿼리와 이미지를 매개변수로 사용하고 API 요청의 본문을 보강합니다. 각 반복에서 이 함수를 사용할 예정입니다.
ModelInference 클래스를 사용하여 모델 인터페이스를 인스턴스화해 보겠습니다. 이 튜토리얼에서는 mistralai/pixtral-12b 모델을 사용합니다.
이제 이미지를 반복하여 "What is happening in this image?(이 이미지에서 무슨 일이 일어나고 있나요?)"라는 쿼리에 대한 응답으로 모델이 생성한 텍스트 설명을 확인할 수 있습니다.
아웃풋:
이 이미지는 맑고 푸른 하늘 아래 활짝 핀 꽃밭과 밝게 빛나는 태양이 어우러져 고요하고 그림 같은 장면을 연출합니다.
이미지 속 사람은 테이블에 앉아 신용카드를 든 채 노트북을 사용하고 있습니다. 테이블에 놓인 노트북 옆 그릇에는 사과가 몇 개 있습니다.
눈으로 뒤덮인 자동차 옆에 한 사람이 내리는 눈을 피하기 위해 빨간 우산을 들고 서 있습니다.
이미지는 기계 학습이나 데이터 분석을 위한 데이터 처리 및 저장을 위한 워크플로를 보여줍니다. 먼저 HTML 또는 XML 문서와 같은 소스 데이터를 로드하고, 데이터를 적절한 형식으로 변환하고, 숫자 벡터로 임베딩하고, 이러한 벡터를 데이터베이스에 저장하고, 마지막으로 필요할 때 데이터를 검색합니다.
Pixtral 12B 모델은 각 이미지에 대해 상세한 캡션을 성공적으로 생성했습니다.
이전 단계에서 이미지 캡션을 수행하는 모델의 기능을 소개했으니, 이제 모델에 객체 감지가 필요한 몇 가지 질문을 해 볼 차례입니다. 온라인 쇼핑을 하는 여성을 묘사하는 두 번째 이미지와 관련하여, 모델에게 "What does the woman have in her hand?(이 여성은 손에 무엇을 들고 있나요?)"라고 질문해 보겠습니다.
출력: 여성이 손에 신용카드를 들고 있습니다.
모델은 여성의 손에 있는 물체를 정확하게 식별했습니다. 이제 눈으로 뒤덮인 자동차 이미지의 문제에 대해 질문해 보겠습니다.
출력: 차가 깊은 눈 속에 갇혀 있어 이동이 어렵거나 불가능할 수 있습니다.
이 응답은 보험과 같은 영역에서 멀티모달 AI가 갖는 가치를 강조합니다. 이 모델은 눈 속에 갇힌 차의 문제를 감지할 수 있었습니다. 이는 보험금 청구 처리 시간을 개선할 수 있는 강력한 도구가 될 수 있습니다.
다음으로 모델에게 순서도 이미지의 단계에 대해 질문해 보겠습니다.
출력: 다이어그램은 '로드', '변환', '임베드', '저장', '검색' 등 여러 단계로 구성된 프로세스를 보여줍니다. 이 순서는 데이터를 처리하고 저장하며, 효율적인 저장과 검색을 위해 데이터를 임베딩 벡터로 변환하는 워크플로를 나타내는 것으로 보입니다.
훌륭하군요! 이 모델은 사용자 쿼리에 따라 이미지 내의 객체를 식별할 수 있었습니다. 모델의 성능을 보다 잘 확인할 수 있도록 더 많은 쿼리를 시도해 보시기 바랍니다.
이 튜토리얼에서는 Pixtral 12B 모델을 사용하여 이미지 캡션 및 시각적 질의응답을 포함한 멀티모달 작업을 수행했습니다.
다른 멀티모달 모델을 사용해 보려면 watsonx.ai에서 Meta의 멀티모달 모델 Llama 3.2 튜토리얼을 확인하세요.
AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.
IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.
IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.