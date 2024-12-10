En septiembre de 2024, Mistral AI lanzó Pixtral 12B, un modelo de lenguaje de gran tamaño (LLM) de código abierto bajo la licencia Apache 2.0.

Con 12 mil millones de parámetros, el modelo multimodal se basa en Nemo 12B LLM de Mistral AI. Pixtral 12B tiene dos componentes: el codificador de visión para tokenizar imágenes y un decodificador de transformador multimodal para predecir el siguiente token de texto dada una secuencia de texto e imágenes. El codificador de visión tiene 400 millones de parámetros y admite tamaños de imagen variables.

El modelo sobresale en múltiples casos de uso, incluida la comprensión de gráficos, diagramas, tablas y documentos en alta resolución, que pueden utilizarse para responder a preguntas de documentos, seguir instrucciones o tareas de generación aumentada por recuperación (RAG). Además, Pixtral 12B tiene una ventana de contexto de 128 000 tokens, que permite consumir múltiples imágenes simultáneamente.

En términos de puntos de referencia, Pixtral 12B supera a varios modelos, incluidos Qwen2-VL, Gemini-1.5 Flash 8B y Claude-3 Haiku. Para ciertos puntos de referencia, incluidos DocVQA (ANLS) y VQAv2 (VQA Match), el modelo supera a GPT-4o y Claude-3.5 de OpenAI Sonnet.

Además de poder ejecutar Pixtral 12B en watsonx.ai, el modelo también está disponible a través de Hugging Face, en Le Chat, el chatbot conversacional de Mistral, o a través del endpoint de API a través de La Plateforme de Mistral.