Qu’est-ce que Mistral AI ?

Vue aérienne de personnes en train de marcher

Mistral AI est une startup d’intelligence artificielle (IA) basée en France, principalement connue pour ses grands modèles de langage (LLM) open source. Depuis sa création en 2023, l’entreprise est devenue l’un des principaux développeurs d’IA générative au monde.

Mistral AI a été cofondé en avril 2023 par Arthur Mensch, ancien de Google DeepMind, aux côtés de Guillaume Lample et Timothée Lacroix, anciens de Meta AI. Les cofondateurs, qui se sont rencontrés lors de leurs études à l’École polytechnique en banlieue parisienne, ont baptisé leur entreprise en référence au puissant vent du nord-ouest qui souffle du sud de la France jusqu’à la Méditerranée. En termes de valorisation, en juin 2024, l’entreprise française était la plus grande startup d’IA en Europe et en dehors de la région de la baie de San Francisco.1

Chez DeepMind, Mensch était l’un des principaux auteurs de l’article fondateur intitulé « Training Compute-Optimal Large Language Models ». Le document et le modèle « Chinchilla » qui y était présenté exploraient les lois de mise à l’échelle des LLM et plusieurs découvertes très influentes concernant la relation entre la taille du modèle, les données d’entraînement, l’efficacité et les performances des modèles de langage autorégressifs. Chez Meta, Lacroix et Lample faisaient partie des chercheurs à l’origine des modèles originaux LLaMa.

L’expertise combinée des cofondateurs en matière d’efficacité et de développement de LLM a permis de développer une série de modèles principalement open source dont les performances n’ont souvent rien à envier à celles de LLM beaucoup plus grands. Parmi les premières contributions les plus notables de l’entreprise européenne au développement de l’IA générative figuraient les innovations dans les modèles de mélange d’experts (MoE) épars.  

Sa mission déclarée implique un « engagement fort en faveur de solutions ouvertes, portables et personnalisables, et une attention particulière portée à la livraison des technologies les plus avancées dans un délai limité ».

 

Modèles Mistral AI

Mistral AI répartit généralement ses LLM en trois catégories : les modèles « à usage général », les modèles « spécialisés » et les modèles « de recherche ».

Bien que Mistral propose de nombreux modèles avec des pondérations ouvertes sur la plupart des plateformes de machine learning (ML) sous une licence Apache 2.0, il impose généralement certaines contraintes au déploiement commercial pour ses modèles les plus performants.

Mistral utilise un système de dénomination simple pour ses modèles, bien que non conventionnel. Les noms de certains modèles, tels que Mistral 7B ou Pixtral 12B, indiquent le nombre de paramètres, tandis que d’autres font référence à la taille de manière plus descriptive, comme « Mistral Large » ou « Mistral Small », ou pas du tout. Beaucoup, comme « Mixtral » ou « Mathstral », impliquent un jeu de mots avec le nom de l’entreprise.

Les mises à jour de certaines versions de modèles apparaissent dans les noms de modèles principaux, d’autres pas. Par exemple, Mistral Large et Mistral Small ont été publiés pour la première fois en février 2024. Le premier a été mis à jour en juillet et intitulé « Mistral Large 2 », mais le second est resté « Mistral Small » après une mise à jour en septembre.
 

Modèles à usage général

Les modèles « à usage général » selon la classification de Mistral AI sont généralement des LLM de type « text-in, text-out » qui se rapprochent des performances de pointe par leurs tailles de modèle, leurs coûts ou leurs exigences de calcul respectives. Comme le nom des catégories l’indique, ces modèles sont bien adaptés aux cas d’utilisation généraux de traitement automatique du langage naturel (NLP) et de génération de texte.
 

Mistral Large 2

Mistral Large 2 est le LLM phare et le plus grand modèle de Mistral. Lors de sa sortie en septembre 2024, ses performances sur les indices de référence courants surpassaient tous les modèles ouverts (à l’exception de Meta Llama 3.1 405B beaucoup plus grand) et rivalisent avec de nombreux modèles fermés de premier plan.

Avec ses 123 milliards de paramètres, Mistral Large 2 occupe une niche unique dans l’environnement des LLM, étant plus grand que n’importe quel modèle « de taille moyenne », mais nettement plus petit que ses concurrents directs. Dans son annonce officielle de sortie, Mistral AI a indiqué que le modèle était dimensionné dans le but de lui permettre de fonctionner à haut débit sur un seul nœud.

Selon Mistral AI, le modèle Mistral Large 2 multilingue prend en charge des dizaines de langues, dont l’anglais, le français, l’allemand, l’espagnol, l’italien, le portugais, l’arabe, l’hindi, le russe, le chinois, le japonais et le coréen. Il prend également en charge plus de 80 langages de codage.

Mistral Large 2 a été publié sous la licence Mistral Research, ne permettant l’utilisation et la modification ouvertes qu’à des fins non commerciales. Le déploiement commercial nécessite de contacter directement le fournisseur d’IA pour demander une licence commerciale Mistral ou d’y accéder via certains partenaires, tels qu’IBM® watsonx.
 

Mistral Small

Mistral Small a été publié pour la première fois en février 2024 en tant que modèle d’entreprise, mais il a été relégué au statut de « modèle hérité » avant de faire l’objet d’une refonte et de revenir en tant que modèle « dédié aux entreprises », Mistral Small v24.09, en septembre. Malgré son nom, Mistral propose plusieurs modèles plus petits que Mistral Small.

Avec des paramètres de 22B, Mistral Small représente un point médian rentable entre Mistral Large 2 et le plus petit Mistral NeMo 12B. Comme Mistral Large 2, Mistral Small 24.09 est proposé sous licence Mistral Research.
 

Mistral NeMo

Mistral NeMo a été développé en collaboration avec NVIDIA. Avec ses paramètres de 12B, il figure parmi les modèles les plus performants dans sa catégorie de taille, avec une prise en charge multilingue des langues romanes, du chinois, du japonais, du coréen, de l’hindi et de l’arabe. Parmi les modèles à usage général de Mistral, Mistral NeMo est le seul LLM entièrement open source sous une licence Apache 2.0.

 

Modèles spécialisés

Contrairement à ses modèles à usage général, les modèles « spécialisés » de Mistral AI sont entraînés pour des tâches et des domaines spécifiques, plutôt que pour des applications générales de type t« text-in, text-out ».

Notons toutefois que ce n’est pas une désignation rigide. En effet, Mistral AI classe d’autres modèles spécialisés, tels que Mathstral, dans la catégorie « modèles de recherche » plutôt que « modèles spécialisés ». La distinction repose principalement sur les droits d’utilisation disponibles : les modèles spécialisés peuvent imposer certaines restrictions sur les environnements de déploiement ou l’utilisation commerciale, ce qui n’est pas le cas des modèles de recherche.
 

Codestral

Codestral est un modèle à poids ouverts de 22B spécialisé dans les tâches de génération de code. Il maîtrise plus de 80 modèles de programmation, dont Python, Java, C, C++, JavaScript, Bash, Swift et Fortran. Il a été publié sous la licence Mistral AI Non-Production, autorisant son utilisation à des fins de recherche et de test. Les licences commerciales peuvent être accordées sur demande en contactant directement Mistral.
 

Mistral Embed

Mistral Embed est un modèle d’embedding entraîné pour générer des embeddings lexicaux. À l’heure actuelle, il ne prend en charge que la langue anglaise.
 

Pixtral 12B

Pixtral 12B est un modèle multimodal ouvert, proposé sous licence Apache 2.0, capable de réaliser des tâches text-in, text-out et image-in, text-out. Son architecture combine un décodeur multimodal 12B basé sur Mistral Nemo et un encodeur de vision de 400 M de paramètres entraîné à partir de zéro sur les données d’image. Pixtral peut être utilisé dans les interfaces conversationnelles, de la même manière que l’on interagit avec les LLM textuels standard, avec la possibilité de charger des images et d’instruire le modèle pour qu’il réponde à des questions à leur sujet.

Par rapport aux modèles multimodaux de taille comparable, propriétaires et open source, Pixtral a obtenu des résultats très compétitifs sur la plupart des points de référence multimodaux. Par exemple, il a surpassé les modèles Claude 3 Haiku d’Anthropic, Gemini 1.5 Flash 8B de Google et Phi 3.5 Vision de Microsoft sur les tests de référence mesurant la résolution de problèmes de niveau universitaire (MMMU), le raisonnement mathématique visuel (MathVista), la compréhension des graphiques (ChartQA), la compréhension des documents (DocQA) et la réponse aux questions de vision générale (VQAv2).2
 

Modèles de recherche

Les modèles de recherche de Mistral sont chacun proposés en tant que modèles entièrement open source, sans aucune restriction quant à l’utilisation commerciale, aux environnements de déploiement ou aux possibilités de réglage.
 

Mixtral

Mixtral est une famille de modèles de mélange d’experts (MoE) épars par décodeur uniquement. Contrairement aux réseaux neuronaux à propagation avant conventionnels qui utilisent l’ensemble du réseau pour chaque inférence, les modèles MoE sont subdivisés en groupes distincts de paramètres appelés experts. Pour chaque token, un réseau de routeurs sélectionne uniquement un certain nombre d’experts à chaque couche pour traiter l’entrée.

Lors de l’entraînement, cette structure permet à chaque réseau expert de se spécialiser dans le traitement de certains types d’entrées. Lors de l’inférence, le modèle n’utilise qu’une fraction du total des paramètres disponibles, c’est-à-dire les paramètres des réseaux experts les mieux adaptés à la tâche à accomplir, pour chaque entrée. Ce faisant, l’architecture MoE réduit considérablement le coût et la latence de l’inférence sans diminuer les performances.

Mixtral est proposé en deux variantes, chacune d’entre elles étant divisée en 8 réseaux experts, Mixtral 8x7B et Mixtral 8x22B. Le premier fait partie des modèles de fondation disponibles dans IBM watsonx.

Mathstral

Mathstral est une variante de Mistral 7B, qui est maintenant reléguée au statut « modèle de l’héritage », optimisée pour résoudre des problèmes mathématiques, disponible sous la licence Apache 2.0.
 

Codestral Mamba

Alors que le modèle Codestral original utilise l’architecture transformatrice standard commune à presque tous les grands modèles de langage, Codestral Mamba utilise l’architecture mamba distincte. La recherche sur les modèles Mamba n’en est qu’à ses débuts – Mamba a été introduite pour la première fois dans un article de 2023 – mais la nouvelle architecture offre un avantage théorique significatif en termes de vitesse et de longueur du contexte.

 

Le Chat

Le Chat est le service de chatbot de Mistral, semblable à ChatGPT d’OpenAI, publié en version bêta le 26 février 2024. Outre Mistral Large et Mistral Small, Mistral a récemment ajouté le multimodal Pixtral 12B à la liste des LLM disponibles dans Le Chat.

 

La Plateforme

La Plateforme est la plateforme de développement et de déploiement de services API de Mistral. Elle fournit des points de terminaison d’API et un écosystème pour expérimenter, affiner des ensembles de données personnalisés, évaluer et créer des prototypes avec des modèles Mistral.

 

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA