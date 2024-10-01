人工智能

什么是 Mistral AI？

Mistral AI 是一家总部位于法国的人工智能 (AI) 初创公司，主要以其开源大型语言模型 (LLM)而闻名。自 2023 年成立以来，它已成为全球领先的生成式 AI 开发商之一。

Mistral AI 于 2023 年 4 月由前 Google DeepMind 的 Arthur Mensch 与前 Meta AI 的 Guillaume Lample 和 Timothée Lacroix 共同创立。这三位联合创始人最初是在巴黎郊区的巴黎综合理工学院学习时相识的，他们以法国南部吹向地中海的强劲西北风命名了自己的公司。截至 2024 年 6 月，按估值计算，这家法国公司是欧洲最大的 AI 初创公司，也是旧金山湾区之外最大的一家。1

在 DeepMind，Mensch 是开创性论文 《训练计算最优的大型语言模型》的主要作者之一。该论文及其介绍的“Chinchilla”模型探索了 LLM 的扩展规律，并介绍了几项关于自回归语言模型的模型大小、训练数据、效率和性能之间关系的几个极具影响力的观点。在 Meta，Lacroix 和 Lample 是最初的 LLaMa 模型背后的研究人员之一。

联合创始人在效率和 LLM 开发方面的专业知识相结合，产生了一系列主要为开源的模型，其性能通常与规模大得多的 LLM 相当。Mistral AI 在生成式 AI 的开发中，早期最显著的贡献之一是对稀疏专家混合（MoE）模型的创新。  

其既定使命包括“坚定地致力于开放、便携和可定制的解决方案，并极其重视在有限的时间内提供最先进的技术”。

 

Mistral AI 模型

Mistral AI 通常将其 LLM 分为三类：“通用”模型、“专家”模型和“研究”模型。

尽管 Mistral 在大多数常见的机器学习（ML） 平台上以 Apache 2.0 许可证提供其许多模型的开放权重，但对于其性能最高的模型，通常会在商业部署方面设置一些限制。

Mistral 为其模型采用了一个简单但不寻常的命名系统。一些模型的名称，如 Mistral 7B 或 Pixtral 12B，表示参数数量，而其他一些则更描述性地指代大小，如“Mistral Large”或“Mistral Small”，甚至有些根本不指代大小。多名称，如“Mixtral”或“Mathstral”，则是对该公司名称的一种文字游戏。

有些模型版本的更新反映在主要模型名称中，而有些则没有。例如，Mistral Large 和 Mistral Small 都是在 2024 年 2 月首次发布的。前者在 7 月更新为“Mistral Large 2”，但后者在 9 月更新后仍然是“Mistral Small”。
 

通用模型

Mistral AI 归类为“通用”模型的模型通常是文本输入、文本输出的 LLM，其性能接近各自模型大小、成本或计算需求的最新水平。顾名思义，这些模型非常适合通用自然语言处理（NLP）和文本生成用例。
 

Mistral Large 2

Mistral Large 2是 Mistral 的旗舰 LLM，也是最大的模型。该模型于 2024 年 9 月发布时，其在通用基准上的性能超越了所有开放模型（除了更大的 Meta Llama 3.1 405B ），可与许多领先的封闭模型相媲美。

Mistral Large 2 拥有 123B 个参数，在 LLM 领域中占据了一个独特的地位，它比任何“中型”模型都要大，但又明显小于其直接竞争对手。在官方发布声明中，Mistral AI 表示，该模型的大小旨在使其能够在单个节点上以大吞吐量运行。

根据 Mistral AI 的说法，Mistral Large 2 支持多种语言，包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语。它还支持超过 80 种编码语言。

Mistral Large 2 是根据 Mistral Research 许可证发布的，仅允许出于非商业目的进行开放使用和修改。商业部署需要直接联系 AI 提供商以申请 Mistral 商业许可证，或通过 IBM watsonx 等选定的合作伙伴申请许可证。
 

Mistral Small

Mistral Small 最初于 2024 年 2 月作为企业模型发布，但在经过大改并于 9 月重新发布为“企业级”模型 Mistral Small v24.09 之前，它曾被降级为“旧版模型”。尽管名字叫 Small，Mistral 还提供了多个比 Mistral Small 更小的模型。

Mistral Small 拥有 22B 参数，在 Mistral Large 2 和更小的 Mistral NeMo 12B 之间提供了一个成本效益高的中间选择。与 Mistral Large 2 一样，Mistral Small 24.09 也是根据 Mistral Research 许可证提供的。
 

Mistral NeMo

Mistral NeMo 是与 NVIDIA 合作构建的。它拥有 12B 参数，是同类别中性能最好的模型之一，支持罗曼语、中文、日语、韩语、印地语和阿拉伯语等多种语言。在 Mistral 的通用模型中，Mistral NeMo 是唯一一个完全开源的 LLM，采用 Apache 2.0 许可证。

 

专家模型

与通用模型不同，Mistral AI 的“专家”模型是针对特定任务和领域进行训练的，而不是用于通用的文本输入、文本输出应用。

但值得注意的是，这并不是一个严格的名称：Mistral AI 将一些其他的专用模型（例如 Mathstral）归类为“研究模型”而不是“专家模型”。这种区分主要基于可用的使用权限：专家模型可能在部署环境或商业使用方面有一定限制，而研究模型则没有。
 

Codestral

Codestral 是一个 22B 参数的开源模型，专注于代码生成任务，可流畅使用包括 Python、Java、C、C++、JavaScript、Bash、Swift 和 Fortran 在内的 80 多种编程语言。它是在 Mistral AI 非生产许可下发布的，允许用于研究和测试目的。商业许可可以通过直接联系 Mistral 申请获得。

Mistral Embed

Mistral Embed 是一种经过训练，用于生成词嵌入的嵌入模型。目前，它仅支持英语。
 

Pixtral 12B

Pixtral 12B 是一个开源的多模态模型，提供 Apache 2.0 许可证，能够处理文本输入、文本输出以及图像输入、文本输出的任务。其架构结合了基于 Mistral Nemo 的 12B 多模态解码器和根据图像数据从头开始训练的 400M 参数视觉编码器。Pixtral 可以用于对话界面，类似于与标准纯文本 LLM 的交互，额外增加了上传图像并提示模型回答有关问题的能力。

相比其他同等大小的多模态模型，无论是专有还是开源的，Pixtral 在大多数多模态基准测试中都取得了极具竞争力的结果。例如，在衡量大学水平问题解决（MMMU）、视觉数学推理（MathVista）、图表理解（ChartQA）、文档理解（DocQA）和一般视觉问答（VQAv2）的基准测试中，Pixtral 的表现优于 Anthropic 的 Claude 3 Haiku、Google 的 Gemini 1.5 Flash 8B 和 Microsoft 的 Phi 3.5 Vision 模型。2
 

研究模型

Mistral 的研究模型均作为完全开源的模型提供，没有对商业使用、部署环境或微调能力的限制。
 

Mixtral

Mixtral 是一组仅限解码器的稀疏混合专家 (MoE)模型。与传统的前馈神经网络不同，后者使用整个网络进行每次推理，MoE 模型被细分为称为专家的不同参数组。对于每个令牌，路由器网络在每一层仅选择一定数量的专家来处理输入。

在训练中，这种结构使每个专家网络能够专门处理某些类型的输入。在推理过程中，模型对每个输入只使用全部可用参数的一部分，具体来说，就是专家网络中最适合当前任务的参数。这样一来，MoE 架构就显著降低了推理的成本和延迟，而性能却没有相应下降。

Mixtral 提供 2 种变体，每种变体又细分为 8 个专家网络：Mixtral 8x7B 和 Mixtral 8x22B。前者是IBM watsonx 中可用的基础模型之一。

Mathstral

Mathstral 是 Mistral 7B 的一个变体（现已降级为“旧版模型”），针对数学问题的求解进行了优化，可根据 Apache 2.0 许可证使用。

Codestral Mamba

虽然原始的 Codestral 模型使用了几乎所有大型语言模型都有的标准转换器架构，但 Codestral Mamba 则使用独特的 mamba 架构。关于 Mamba 模型的研究仍处于早期阶段——Mamba 在 2023 年的一篇论文中首次提出，但这种新架构在速度和上下文长度方面提供了显著的理论优势。

 

Le Chat

Le Chat 是 Mistral 的聊天机器人服务，类似于 OpenAI 的 ChatGPT，于 2024 年 2 月 26 日首次发布测试版。除了 Mistral Large 和 Mistral Small 之外，Mistral 最近还在 Le Chat 中增加了多模态 Pixtral 12B。

 

La Plateforme

La Plateforme 是 Mistral 的开发和部署 API 服务平台，提供 API 端点和生态系统，用于实验、对自定义数据集进行微调、使用 Mistral 模型进行评估和原型设计。

 
