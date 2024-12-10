2024년 9월, Mistral AI는 Apache 2.0 라이선스에 따라 오픈 소스 대규모 언어 모델(LLM)인 Pixtral 12B를 출시했습니다.

120억 개의 매개변수가 포함된 이 멀티모달 모델은 Mistral AI의 Nemo 12B LLM을 기반으로 구축되었습니다. Pixtral 12B에는 두 가지 구성 요소가 있습니다. 하나는 이미지를 토큰화하는 비전 인코더이고, 다른 하나는 텍스트와 이미지의 시퀀스가 주어지면 다음 토큰을 예측하는 멀티모달 트랜스포머 디코더입니다. 비전 인코더는 4억 개의 매개변수를 갖추고 있으며 다양한 이미지 크기를 지원합니다.

이 모델은 문서 질문 답변, 지침 따르기 또는 검색 증강 생성(RAG) 작업에 사용할 수 있는 고해상도의 그래프, 다이어그램, 차트, 문서 이해를 포함하여 다양한 사용 사례에서 탁월합니다. 또한 Pixtral 12B는 128,000토큰 분량의 컨텍스트 윈도우를 갖추고 있어, 여러 이미지를 동시에 처리할 수 있습니다.

벤치마크 측면에서 Pixtral 12B는 Qwen2-VL, Gemini-1.5 Flash 8B, Claude-3 Haiku를 포함한 다양한 모델보다 성능이 뛰어납니다. DocVQA(ANLS), VQAv2(VQA Match) 등 특정 벤치마크의 경우, 이 모델은 OpenAI의 GPT-4o 및 Claude-3.5 Sonnet보다 성능이 뛰어납니다.

이 모델은 watsonx.ai에서 Pixtral 12B를 실행할 수 있을 뿐만 아니라 Hugging Face, Mistral의 챗봇 Le Chat, 또는 Mistral의 La Plateforme API 엔드포인트를 통해서도 사용할 수 있습니다.