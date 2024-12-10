En septiembre de 2024, Mistral AI lanzó Pixtral 12B, un modelo de lenguaje grande (LLM) de código abierto bajo la licencia Apache 2.0.

Con 12 000 millones de parámetros, el modelo multimodal se basa en Nemo 12B LLM de Mistral IA. Pixtral 12B tiene dos componentes: el codificador de visión para tokenizar imágenes y un decodificador transformador multimodal para predecir el siguiente token de texto dada una secuencia de texto e imágenes. El codificador de visión tiene 400 millones de parámetros y admite tamaños de imagen variables.

El modelo sobresale en múltiples casos de uso, incluida la comprensión de gráficos, diagramas, tablas y documentos en alta resolución, que pueden usarse para responder preguntas de documentos, seguir instrucciones o tareas de generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, Pixtral 12B tiene una ventana de contexto de 128 000 tokens, lo que permite el consumo de varias imágenes simultáneamente.

En términos de puntos de referencia, Pixtral 12B supera a varios modelos, incluidos Qwen2-VL, Gemini-1.5 Flash 8B y Claude-3 Haiku. Para ciertos puntos de referencia, incluidos DocVQA (ANLS) y VQAv2 (VQA Match), el modelo supera a GPT-4o y Claude-3.5 de OpenAI Sonnet.

Además de poder ejecutar Pixtral 12B en watsonx.ai, el modelo también está disponible mediante Hugging Face, en Le Chat, el chatbot conversacional de Mistral, o mediante el endpoint a través de La Plateforme de Mistral.