¿Qué es Mistral AI?

Vista aérea de personas caminando

Mistral AI es una startup de inteligencia artificial (IA) con sede en Francia conocida principalmente por sus modelos de lenguaje de gran tamaño (LLM) de código abierto. Desde su fundación en 2023, se ha convertido en uno de los principales desarrolladores de IA generativa del mundo.

Mistral AI fue fundada en abril de 2023 por Arthur Mensch, anteriormente de Google DeepMind, junto con Guillaume Lample y Timothée Lacroix, anteriormente de Meta AI. Los cofundadores, que se conocieron originalmente mientras estudiaban en la École Polytechnique, en las afueras de París, bautizaron a su empresa por el fuerte viento del noroeste que sopla desde el sur de Francia hacia el Mediterráneo. Según su valoración, la empresa francesa era la mayor startup de IA de Europa y la mayor fuera del área de la bahía de San Francisco, en junio de 20241.

En DeepMind, Mensch fue uno de los autores principales del influyente artículo, “Training compute-optimal large language models”. El artículo, y el modelo "Chinchilla" presentado en él, exploraban las leyes de escalabilidad de los LLM e introducían varios descubrimientos muy influyentes sobre la relación entre el tamaño del modelo, los datos de entrenamiento, la eficiencia y el rendimiento de los modelos lingüísticos autorregresivos. En Meta, Lacroix y Lample estaban entre los investigadores detrás de los modelos originales de LLaMa.

La experiencia combinada de los cofundadores en eficiencia y desarrollo de LLM ha dado lugar a una serie de modelos, en su mayoría de código abierto, cuyo rendimiento suele equipararse al de LLM significativamente más grandes. Entre las primeras contribuciones más notables de la empresa europea al desarrollo de la IA generativa se encuentran las innovaciones en los modelos de mezcla de expertos (MoE) dispersos.   

Su misión declarada implica un "fuerte compromiso con las soluciones abiertas, portátiles y personalizables, y un enfoque extremo en el envío de la tecnología más avanzada en un tiempo limitado".

 

Modelos de Mistral AI

Mistral AI suele dividir sus LLM en tres categorías: modelos "de uso general", modelos "especializados" y modelos "de investigación".

Aunque Mistral ofrece muchos de sus modelos con pesos abiertos en la mayoría de las plataformas comunes de machine learning (ML) bajo una licencia Apache 2.0, normalmente impone algunas restricciones a la implementación comercial de sus modelos más eficaces.

Mistral utiliza un sistema de nomenclatura simple, aunque poco convencional, para sus modelos. Los nombres de algunos modelos, como Mistral 7B o Pixtral 12B, indican recuentos de parámetros, mientras que otros se refieren al tamaño de forma más descriptiva, como "Mistral Large" o "Mistral Small", o ninguno. Muchos, como "Mixtral" o "Mathstral", implican un juego con el nombre de la empresa.

Algunas actualizaciones de la versión del modelo se reflejan en los nombres de los modelos principales, mientras que otras no. Por ejemplo, Mistral Large y Mistral Small se lanzaron por primera vez en febrero de 2024. El primero se actualizó en julio como "Mistral Large 2", pero el segundo siguió siendo "Mistral Small" después de una actualización de septiembre.
 

Modelos de uso general

Los modelos que Mistral AI clasifica como "de uso general" suelen ser LLM de entrada y salida de texto que se acercan al rendimiento más avanzado para sus respectivos tamaños, costes o exigencias computacionales. Como sugiere el nombre de la categoría, estos modelos son adecuados para casos de uso generales de procesamiento del lenguaje natural (PLN) y generación de texto.
 

Mistral Large 2

Mistral Large 2 es el LLM insignia de Mistral y el modelo más grande. Tras su lanzamiento en septiembre de 2024, su rendimiento en los puntos de referencia comunes superó a todos los modelos abiertos (excepto el Meta Llama 3.1 405B, mucho más grande) y rivalizó con el de muchos de los principales modelos cerrados.

Con parámetros 123B, Mistral Large 2 ocupa un nicho único en el panorama LLM, siendo más grande que cualquier modelo "mediano", pero significativamente más pequeño que sus competidores directos. En su anuncio oficial de lanzamiento, Mistral AI indicó que el modelo se dimensionó con el objetivo de permitirle funcionar con un gran rendimiento en un solo nodo.

Según Mistral AI, el Mistral Large 2 multilingüe admite docenas de idiomas, incluidos inglés, francés, alemán, español, italiano, portugués, árabe, hindi, ruso, chino, japonés y coreano. También incluye soporte para más de 80 lenguajes de codificación.

Mistral Large 2 se lanzó bajo la licencia de investigación Mistral, permite el uso abierto y la modificación solo con fines no comerciales. La implementación comercial requiere ponerse en contacto directamente con el proveedor de IA para solicitar una licencia comercial de Mistral o acceder a ella a través de partners seleccionados, como IBM® watsonx.
 

Mistral Small

Mistral Small se lanzó por primera vez en febrero de 2024 como modelo de nivel empresarial, pero fue relegado al estado de modelo heredado antes de recibir una revisión y volver como modelo de nivel empresarial, Mistral Small v24.09, en septiembre. A pesar de su nombre, Mistral ofrece varios modelos más pequeños que Mistral Small.

Con parámetros 22B, Mistral Small representa un punto medio rentable entre Mistral Larger 2 y el Mistral NeMo 12B más pequeño. Al igual que Mistral Large 2, Mistral Small 24.09 se ofrece bajo la licencia de investigación Mistral.
 

Mistral NeMo

Mistral NeMo se creó en colaboración con NVIDIA. Con parámetros 12B, se encuentra entre los modelos de mayor rendimiento en su categoría de tamaño, con soporte multilingüe para idiomas romances, chino, japonés, coreano, hindi y árabe. De los modelos de uso general de Mistral, Mistral NeMo es el único LLM que es totalmente de código abierto bajo una licencia Apache 2.0.

 

Modelos especializados

A diferencia de sus modelos de uso general, los modelos "especializados" de Mistral AI están entrenados para tareas y dominios específicos, en lugar de para aplicaciones generales de texto de entrada y texto de salida.

Sin embargo, cabe señalar que no se trata de una designación rígida: Mistral AI clasifica algunos modelos especializados adicionales, como Mathstral, en "modelos de investigación" en lugar de "modelos especializados". La distinción se basa principalmente en los derechos de uso disponibles: los modelos especializados pueden tener ciertas restricciones en los entornos de implementación o el uso comercial, mientras que los modelos de investigación no.
 

Codestral

Codestral es un modelo de peso abierto 22B especializado en tareas de generación de código, con fluidez en más de 80 modelos de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran. Se lanzó bajo la licencia de no producción de Mistral AI, lo que permite su uso con fines de investigación y pruebas. Las licencias comerciales se pueden conceder previa solicitud poniéndose en contacto directamente con Mistral.
 

Mistral Embed

Mistral Embed es un modelo de incrustación entrenado para generar embeddings de palabras. En la actualidad, solo es compatible con el idioma inglés.
 

Pixtral 12B

Pixtral 12B es un modelo multimodal abierto, ofrecido bajo una licencia Apache 2.0, capaz de realizar tareas tanto de entrada y salida de texto como de entrada y salida de imagen. Su arquitectura combina un decodificador multimodal de 12B basado en Mistral Nemo y un codificador de visión de 400M de parámetros entrenado desde cero con datos de imagen. Pixtral se puede utilizar en interfaces conversacionales, de forma similar a como se interactúa con los LLM estándar de solo texto, con la capacidad añadida de cargar imágenes y dar instrucciones al modelo para que responda preguntas sobre ellas.

En relación con los modelos multimodales de tamaño comparable, tanto propietarios como de código abierto, Pixtral logró resultados altamente competitivos en la mayoría de los puntos de referencia multimodales. Por ejemplo, Pixtral superó a los modelos Claude 3 Haiku de Anthropic, Gemini 1.5 Flash 8B de Google y Phi 3.5 Vision de Microsoft en puntos de referencia que medían la resolución de problemas a nivel universitario (MMMU), el razonamiento matemático visual (MathVista), la comprensión de gráficos (ChartQA), la comprensión de documentos (DocQA ) y respuesta a preguntas de visión general (VQAv2)2
 
.

Modelos de investigación

Cada uno de los modelos de investigación de Mistral se ofrece como modelos de código abierto, sin restricciones de uso comercial, entornos de implementación o capacidad de afinar.
 

Mixtral

Mixtral es una familia de modelos de mezcla de expertos (MoE) dispersos solo para decodificadores. A diferencia de las redes neuronales convencionales, que utilizan toda la red para cada inferencia, los modelos MoE se subdividen en distintos grupos de parámetros denominados expertos. Para cada token, una red de enrutadores selecciona solo un cierto número de expertos en cada capa para procesar la entrada.

En el entrenamiento, esta estructura permite a cada red de expertos especializarse en el procesamiento de ciertos tipos de entradas. Durante la inferencia, el modelo utiliza solo una fracción del total de parámetros disponibles, específicamente, los parámetros de las redes expertas más adecuados para la tarea en cuestión, para cada entrada. Al hacerlo, la arquitectura MoE reduce significativamente el coste y la latencia de la inferencia sin la correspondiente disminución del rendimiento.

Mixtral se ofrece en 2 variantes, cada una de las cuales se subdivide en 8 redes expertas: Mixtral 8x7B y Mixtral 8x22B. El primero es uno de los modelos fundacionales disponibles en IBM watsonx.

Mathstral

Mathstral es una variante de Mistral 7B (que ahora está relegada al estado de modelo heredado) optimizada para resolver problemas matemáticos, disponible bajo la licencia Apache 2.0.
 

Codestral Mamba

Mientras que el modelo Codestral original utiliza la arquitectura de transformador estándar común a casi todos los modelos de lenguaje de gran tamaño, Codestral Mamba utiliza la arquitectura mamba, que es distinta. La investigación sobre los modelos Mamba se encuentra aún en una fase muy temprana (Mamba se presentó por primera vez en un artículo publicado en 2023), pero esta novedosa arquitectura ofrece importantes ventajas teóricas tanto en velocidad como en longitud de contexto.

 

Le Chat

Le Chat es el servicio de chatbot de Mistral, similar a ChatGPT de OpenAI, lanzado por primera vez en versión beta el 26 de febrero de 2024. Junto con Mistral Large y Mistral Small, Mistral ha añadido recientemente el multimodal Pixtral 12B a la lista de LLM disponibles en Le Chat.

 

La Plateforme

La Plateforme es la plataforma de desarrollo e implementación de API de Mistral, que proporciona endpoints de API y un ecosistema para experimentar, afinar conjuntos de datos personalizados, evaluar y crear prototipos con modelos Mistral.

 

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA
Notas a pie de página