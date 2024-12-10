2024 年 9 月，Mistral AI 发布了 Pixtral 12B，这是在 Apache 2.0 许可下发布的开源大语言模型 (LLM)。

这款拥有 120 亿参数的多模态模型是基于 Mistral AI 的 Nemo 12B LLM 构建的。Pixtral 12B 包含两个组件：用于分词图片的视觉编码器，以及用于根据给定文本和图片序列预测下一文本令牌的多模态转换器解码器。视觉编码器拥有 4 亿个参数，并支持可变图片。

该模型在处理多种用例时表现出色，包括高分辨率图形、图表和文档，可用于文档问答、指令遵循或检索增强生成 (RAG) 任务。此外，Pixtral 12B 拥有 128,000 令牌的上下文窗口，允许同时处理多张图片。

在基准测试方面，Pixtral 12B 的表现优于多种模型，包括 Qwen2-VL、Gemini-1.5 Flash 8B 和 Claude-3 Haiku。对于某些基准测试，包括 DocVQA (ANLS) 和 VQAv2 (VQA Match)，该模型的性能优于 OpenAI 的 GPT-4o 和 Claude-3.5 Sonnet。

除了能够在 watsonx.ai 上运行 Pixtral 12B 外，该模型还可以通过 Hugging Face、Le Chat（Mistral 的对话式聊天机器人）或通过 Mistral 的 La Plateforme 的 API 端点获得。