Mistral AI es una startup de inteligencia artificial (IA) con sede en Francia conocida principalmente por sus modelos de lenguaje grandes (LLM) de código abierto. Desde su fundación en 2023, se ha convertido en uno de los principales desarrolladores de IA generativa del mundo.
Mistral AI fue cofundada en abril de 2023 por Arthur Mensch, antes de Google DeepMind, junto con Guillaume Lample y Timothée Lacroix, antes de Meta AI. Los cofundadores, que se conocieron originalmente mientras estudiaban en la École Polytechnique en los suburbios de París, nombraron a su empresa por el fuerte viento del noroeste que sopla desde el sur de Francia hacia el Mediterráneo. Por valoración, la empresa francesa era la startup de IA más grande de Europa y la más grande fuera del Área de la Bahía de San Francisco, a junio de 2024.1
En DeepMind, Mensch fue uno de los autores principales del artículo seminal "Training compute-optimal large language models". El documento, y el modelo "Chinchilla" presentado en él, exploraron las leyes de escala para los LLM e introdujeron varios descubrimientos muy influyentes con respecto a la relación entre el tamaño del modelo, los datos de entrenamiento, la eficiencia y el rendimiento de los modelos de lenguaje autorregresivos. En Meta, Lacroix y Lample estuvieron entre los investigadores detrás de los modelos originales de LLaMa.
La experiencia combinada de los cofundadores en eficiencia y desarrollo de LLM ha producido una variedad de modelos de código abierto, en su mayoría, cuyo rendimiento a menudo coincide con el de LLM significativamente más grandes. Entre las primeras contribuciones más notables de la empresa europea al desarrollo de la IA generativa se encuentran las innovaciones en los modelos de mixture of experts (MoE).
Su misión declarada implica un "fuerte compromiso con las soluciones abiertas, portátiles y personalizables, y un enfoque extremo en el envío de la tecnología más avanzada en un tiempo limitado".
Mistral AI generalmente divide sus LLM en 3 categorías: modelos de "uso general", modelos "especialistas" y modelos de "investigación".
Aunque Mistral ofrece muchos de sus modelos con ponderaciones abiertas en las plataformas de machine learning (ML) más comunes bajo una licencia Apache 2.0, normalmente impone algunas restricciones en el despliegue comercial para sus modelos de mayor rendimiento.
Mistral utiliza un sistema de nombres simple, aunque poco convencional, para sus modelos. Los nombres de algunos modelos, como Mistral 7B o Pixtral 12B, indican recuentos de parámetros, mientras que otros se refieren al tamaño de manera más descriptiva, como "Mistral Large" o "Mistral Small", o ninguno. Muchos, como "Mixtral" o "Mathstral", implican un juego de palabras con el nombre de la empresa.
Algunas actualizaciones de la versión del modelo se reflejan en los nombres de los modelos principales, mientras que otras no. Por ejemplo, Mistral Large y Mistral Small se lanzaron por primera vez en febrero de 2024. El primero se actualizó en julio como "Mistral Large 2", pero el segundo siguió siendo "Mistral Small" después de una actualización de septiembre.
Los modelos que Mistral AI categoriza como de "uso general" suelen ser LLM de entrada y salida de texto que se acercan al rendimiento de vanguardia para sus respectivos tamaños de modelo, costos o demandas computacionales. Como sugiere el nombre de la categoría, estos modelos son adecuados para casos de uso generales de procesamiento de lenguaje natural (PLN) y generación de texto.
Mistral Large 2 es el LLM insignia de Mistral y el modelo más grande. Tras su lanzamiento en septiembre de 2024, su rendimiento en puntos de referencia comunes superó a todos los modelos abiertos (excepto Meta Llama 3.1 405B, mucho más grande) y compitió con el de muchos modelos cerrados líderes.
Con parámetros 123B, Mistral Large 2 ocupa un nicho único en el escenario de LLM, siendo más grande que cualquier modelo "mediano", pero significativamente más pequeño que sus competidores directos. En su anuncio de lanzamiento oficial, Mistral AI indicó que el modelo se dimensionó con el objetivo de permitirle ejecutarse con un gran rendimiento en un solo nodo.
Según Mistral AI, Mistral Large 2 multilingüe admite docenas de idiomas, como inglés, francés, alemán, español, italiano, portugués, árabe, hindi, ruso, chino, japonés y coreano. También incluye soporte para más de 80 lenguajes de programación.
Mistral Large 2 se lanzó bajo la licencia de investigación Mistral, y permite el uso abierto y la modificación solo con fines no comerciales. El despliegue comercial requiere ponerse en contacto directamente con el proveedor de IA para solicitar una licencia comercial de Mistral o acceder a ella a través de socios seleccionados, como IBM® watsonx.
Mistral Small se lanzó por primera vez en febrero de 2024 como modelo de nivel empresarial, pero fue relegado a un estado de "modelo existente" antes de recibir una revisión y regresar como un modelo "De nivel empresarial", Mistral Small v24.09, en septiembre. A pesar de su nombre, Mistral ofrece varios modelos más pequeños que Mistral Small.
Con parámetros 22B, Mistral Small representa un punto medio rentable entre Mistral Larger y el Mistral NeMo 12B más pequeño. Al igual que Mistral Large 2, Mistral Small 24.09 se ofrece bajo la licencia de investigación Mistral.
Mistral NeMo se creó en colaboración con NVIDIA. Con parámetros 12B, se encuentra entre los modelos de mayor rendimiento en su categoría de tamaño, con soporte multilingüe para idiomas romances, chino, japonés, coreano, hindi y árabe. De los modelos de uso general de Mistral, Mistral NeMo es el único LLM que es totalmente de código abierto bajo una licencia Apache 2.0.
A diferencia de sus modelos de uso general, los modelos "especializados" de Mistral IA están entrenados para tareas y dominios específicos, en lugar de para aplicaciones generales de texto de entrada y de salida.
Sin embargo, vale la pena señalar que esta no es una designación rígida: Mistral AI clasifica algunos modelos especializados adicionales, como Mathstral, como "modelos de investigación" en lugar de "modelos especializados". La distinción se basa principalmente en los derechos de uso disponibles: los modelos especializados pueden tener ciertas restricciones en los entornos de despliegue o el uso comercial, mientras que los modelos de investigación no.
Codestral es un modelo de ponderación abierta 22B especializado en tareas de generación de código, con fluidez en más de 80 modelos de programación, incluidos Python, Java, C, C++, JavaScript, Bash, Swift y Fortran. Se lanzó bajo la licencia de no producción de Mistral AI, lo que permite su uso con fines de investigación y pruebas. Las licencias comerciales se pueden otorgar previa solicitud poniéndose en contacto directamente con Mistral.
Mistral Embed es un modelo de incorporación entrenado para generar incorporaciones de palabras. En la actualidad, solo admite el idioma inglés.
Pixtral 12B es un modelo multimodal abierto, ofrecido bajo una licencia Apache 2.0, capaz de realizar tareas de entrada y salida de texto y de entrada y salida de texto de imágenes. Su arquitectura combina un decodificador multimodal 12B basado en Mistral Nemo y un codificador de visión de 400M de parámetros entrenado desde cero con datos de imagen. Pixtral se puede utilizar en interfaces conversacionales, de manera similar a cómo se interactúa con los LLM estándar de solo texto, con la capacidad adicional de cargar imágenes y dar instrucción al modelo para que responda preguntas sobre ellas.
En relación con los modelos multimodales de tamaño comparable, tanto propietarios como de código abierto, Pixtral logró resultados altamente competitivos en la mayoría de los puntos de referencia multimodales. Por ejemplo, Pixtral superó a los modelos Claude 3 Haiku de Anthropic, Gemini 1.5 Flash 8B de Google y Phi 3.5 Vision de Microsoft en puntos de referencia que midieron la resolución de problemas a nivel universitario (MMMU), el razonamiento matemático visual (MathVista), la comprensión de gráficos (ChartQA), la comprensión de documentos (DocQA ) y respuesta a preguntas de visión general (VQAv2).2
Cada uno de los modelos de investigación de Mistral se ofrece como modelos de código abierto, sin restricciones de uso comercial, entornos de despliegue o la capacidad de ajuste.
Mixtral es una familia de modelos mixture of experts (MoE) dispersos solo para decodificadores. A diferencia de las redes neuronales convencionales, que utilizan toda la red para cada inferencia, los modelos MoE se subdividen en distintos grupos de parámetros llamados expertos. Para cada token, una red de enrutadores selecciona solo un cierto número de expertos en cada capa para procesar la entrada.
En el entrenamiento, esta estructura permite que cada red de expertos se especialice en el procesamiento de ciertos tipos de entradas. Durante la inferencia, el modelo utiliza solo una fracción del total de parámetros disponibles, específicamente, los parámetros de las redes expertas más adecuados para la tarea en cuestión, para cada entrada. Al hacerlo, la arquitectura MoE reduce significativamente el costo y la latencia de la inferencia sin una disminución correspondiente en el rendimiento.
Mixtral se ofrece en 2 variantes, cada una de las cuales se subdivide en 8 redes expertas: Mixtral 8x7B y Mixtral 8x22B. El primero se encuentra entre los modelos fundacionales disponibles en IBM watsonx.
Mathstral es una variante de Mistral 7B, que ahora está relegada al estado de modelo heredado, optimizada para resolver problemas matemáticos, disponible bajo la licencia Apache 2.0.
Mientras que el modelo Codestral original utiliza la arquitectura transformadora estándar común a casi todos los modelos de lenguaje grandes, Codestral Mamba utiliza la arquitectura mamba distinta. La investigación sobre los modelos Mamba aún se encuentra en la etapa inicial (Mamba se introdujo por primera vez en un documento de 2023), pero la nueva arquitectura ofrece una ventaja teórica significativa tanto en velocidad como en longitud de contexto.
Le Chat es el servicio de chatbot de Mistral, similar a ChatGPT de OpenAI, lanzado por primera vez en versión beta el 26 de febrero de 2024. Junto con Mistral Large y Mistral Small, Mistral agregó recientemente el multimodal Pixtral 12B a la lista de LLM disponibles en Le Chat.
La Plateforme es la plataforma de servicio de API de desarrollo y despliegue de Mistral, que proporciona endpoints de API y un ecosistema para experimentar, ajustar conjuntos de datos personalizados, evaluar y crear prototipos con modelos Mistral.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 "OpenAI’s French rival Mistral AI is now worth $6 billion. That’s still a fraction of its top competitors," Quartz, 13 de junio de 2024.
2 "Announcing Pixtral 12B," Mistral AI, 17 de septiembre de 2024.