抽象的三维矩形

大语言模型 (LLM) 的列表

大语言模型列表

大语言模型 (LLM) 已成为现代人工智能发展的基石。它们开启并如今定义了生成式 AI 时代,从直接的聊天机器人应用到智能体工程以及其他由 AI 智能体驱动的复杂自动化工作流程。它们的出现标志着机器学习历史上的一个根本性转折点。

生成式 AI (Gen AI) 的蓬勃发展使人们关注其背后的驱动力:大语言模型 (LLM)。目前已经存在数十种 LLM,但随着技术的快速发展,越来越多的人工智能 (AI) 模型将不断涌现。

从汽车行业的角度来思考这个问题。全球数百家汽车制造商都有自己的车型,以满足不同消费者的需求。随着时间推移,汽车也发生了变化,从燃料汽车发展到拥有众多智能功能的电动汽车。

LLM 也是如此。这些 AI 系统最初是基础模型,由多个神经网络层组成,这些神经网络层在大量数据集上进行训练。

这些模型采用深度学习技术来完成自然语言处理 (NLP) 和自然语言理解 (NLU) 任务。但是,它们的能力已经得到提升,包括 agentic AI 功能和推理能力。

这一快速的演进意味着 LLM 的环境处于不断变化的状态。 AI 开发人员必须不断更新他们的模型,甚至构建新的模型,才能跟上快速的发展步伐。

虽然内容摘要、机器翻译、情感分析文本生成 等 NLP 和 NLU 任务仍然继续,但是 AI 开发人员正在根据特定用例定制自己的模型。

例如,有些 LLM 专门用于代码生成,而另一些 LLM 则用于处理视觉语言任务。

虽然不可能提及现有的每个 LLM,但下面列出了一些当前最流行的大语言模型,以帮助组织缩小选择范围,并考虑哪种模型能满足其需求:

开发商:Anthropic

发布日期:2025 年 2 月 (Claude 3.7 Sonnet)

参数数量:未公开披露

上下文窗口:200,000 个令牌

许可证:专有

访问:Anthropic API、Amazon Bedrock、Google Cloud Vertex AI

输入:多模态(图像、文本)

输出:文本

Claude 是基于转换器架构的 LLM 系列。它是同名会话式 AI 助手背后的大模型。 Claude 的设计遵循宪法式 AI 原则,这些原则侧重于 AI 的安全,旨在减少有害行为,如 AI 偏见

Claude 系列由 3 个 AI 模型组成:

    ● Claude Haiku

    ● Claude Sonnet

● Claude Opus

开发商:OpenAI

发布日期: GPT-4o 的发布日期为 2024 年 5 月,GPT-4o mini 的发布日期为 2024 年 7 月

参数数量:未公开

上下文窗口:128,000 个词元

许可证:专有

访问:OpenAI API(使用 .NET、JavaScript、Python、TypeScript)

输入:多模态(音频、图像、文本、视频)

输出:多模态(音频、图像、文本)

生成式预训练转换器 (GPT) 是 OpenAI 开发的一系列大语言模型。GPT 包括以下 LLM:

● GPT-4o

    ● GPT-4o mini

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

闭源 LLM

闭源模型或专有模型,只能直接在模型开发者的平台上、已获得模型授权的其他平台上,或通过模型提供商的专有 API 进行访问。

由于闭源模型开发者通常将其技术细节视为严格保密的商业机密,因此通常无法确切知晓闭源模型的具体规模、神经网络架构或训练过程。一些细节可以推断出来——例如,通过将闭源模型的推理速度、GPU 内存使用和基准性能与那些细节已公开的开放模型进行比较——但很少(如果有的话)能得到确认。

至少大致从 2022 年起,在任何特定时间点,大多数最先进的前沿模型都是闭源模型——但这在很大程度上反映了该行业现实世界的历史情况,而非闭源模型相对于开放模型具有任何内在优越性。以下是一些最著名的闭源模型系列,按字母顺序排列。

Claude (Anthropic)

Anthropic 的 Claude 语言模型是全球性能最高的模型之一。Anthropic 于 2021 年由前 OpenAI 员工创立,最初是一个 AI 安全研究实验室,其模型开发方法基于独特的宪法 AI 概念Claude 的“宪法”是一份文件,不仅用于指导 Anthropic 员工的行为,还用于指导 Claude 模型自身的行为(以及合成训练数据的生成)。

自 Claude 3 以来,后续各代 Claude 均推出了三种不同尺寸的多模态模型

  • Claude Haiku 是 Anthropic 最小的模型,针对速度和成本效率进行了优化。与 Sonnet 和 Opus 不同,Haiku 模型不是推理模型:除非明确提示,否则 Haiku 模型不会输出思维链 (CoT) 推理轨迹。
  • Claude Sonnet 是 Anthropic 的中型模型,旨在实现 Anthropic 认为的适合大多数用例的性能与效率之间的最佳权衡。Sonnet 和 Opus 都是混合推理模型,这意味着它们可以配置为执行标准推理或针对复杂的多步骤问题求解执行自适应 CoT 推理。
  • Claude Opus 是 Anthropic 最大、最强大的模型,旨在挑战性任务上实现前沿性能。

Claude Haiku、Sonnet 和 Opus 均可处理文本、音频和图像输入,并输出文本或音频(作为文本转语音)。从历史上看,与大多数闭源模型竞争对手不同,它们(以及它们所驱动的 Claude 平台)不具备图像生成能力——但截至 2026 年 3 月 12 日,Claude 现在可以生成图像。当通过 Claude API 访问模型时,用户可以将 Sonnet 或 Opus 推理过程的“努力程度”设置为“最大”、“高”、“中”、“低”或“自适应”。

Gemini (Google)

Gemini 是 Google 的闭源语言模型系列,由其子公司 Google DeepMind 开发,并于 2023 年 12 月首次推出。值得注意的是,Google Brain(于 2023 年与 DeepMind 合并组成 Google DeepMind)负责创建了促成第一批 LLM 的 Transformer 模型架构,并于 2017 年发表了具有里程碑意义的研究论文 Attention is All You Need。

自 2025 年初以来,Google 发布的每一代 Gemini 模型都有三种不同的尺寸,它们都是推理模型。当通过 Gemini API 访问时,用户可以选择多个“思考级别”之一,以定制模型在生成最终输出之前将花费的令牌数量和时间。

  • Gemini Pro 模型是 Google 最大、最先进的 LLM。

  • Gemini Flash 模型相较于 Gemini Pro,针对速度进行了优化。

  • Gemini Flash-Lite 模型是快速、成本高效的模型,针对高容量任务(如翻译和智能体工具使用)进行了优化。

Gemini Pro、Flash 和 Flash-Lite 模型天生就是多模态的:它们可以处理文本、音频、图像或视频输入,并生成文本输出。当通过 Gemini 平台访问时,可以通过 Gemini 独立的、专门的图像生成、视频生成或音乐生成模型来生成多模态输出。

自 2025 年 3 月 Gemini 2.5 Pro 发布(该模型在当时大多数学术基准上实现了业界最佳性能)以来,Gemini 模型已与 Claude 和 OpenAI 的 GPT 系列竞争,成为全球性能最强的 LLM。总体而言,“顶级”模型的地位每次随着这三个系列中的一个发布新的前沿模型而易手。

Grok (xAI)

Grok 是 xAI 生产的专有 LLM 系列,于 2023 年 11 月首次作为 X(原 Twitter)上的聊天机器人以测试预览版形式推出。2025 年 4 月,xAI 推出了 Grok 3 的 API 访问权限,Grok 3 当时是其最新的旗舰模型。

Grok 的模型阵容随着一代又一代模型的发布而不断变化。

  • Grok 2 推出了 Grok 2 Mini,这是该模型系列中第一个基于尺寸的变体。同样的命名方式在 2025 年 2 月的 Grok 3 中再次沿用。

  • 第四代 Grok 模型于 2025 年 7 月与 Grok 4Grok 4 Heavy 一同推出。2025 年秋季,随后推出了 Grok 4 Fast,接着是 Grok 4.1(提供思考和非思考两种配置)。

  • 2025 年 8 月,xAI 发布了 Grok Code Fast 1,这是一个针对智能体编码优化的、注重效率的模型。

从 Grok 4 开始,Grok 模型可以处理文本、图像和语音输入。尽管 Grok LLM 无法提供多模态输出,但图像和视频输出可以通过 xAI 的 Aurora 模型在其 Grok Imagine 平台上生成。

与其原始性能无关,Grok 的许多历史(尤其是 Grok 聊天机器人)一直充满争议,例如被指控传播选举错误信息、将两极分化的观点插入无关对话以及延续有害的刻板印象

开源版本

在公开声明中,xAI 首席执行官埃隆·马斯克曾表示:“我们的总体方法是,当新版本完全发布时,我们将开源上一个版本。”1

xAI 于 2024 年 3 月在 Apache 2.0 许可证下开源了 Grok 1。尽管 Grok 3 于 2025 年 2 月发布,但下一个 Grok 模型的开源版本直到 2025 年 8 月才发布。令人困惑的是,xAI(和马斯克)宣布他们已经开源了“Grok 2.5”, 2 但在此声明之前没有任何模型被命名或宣布为此。该模型的 Hugging Face 模型卡片甚至将该模型称为“Grok-2”。

在 2025 年 8 月的公告中,马斯克表示 Grok 3 也将在大约“6 个月后”开源。截至 8 个月后,该开源发布日期尚未公布。

GPT (OpenAI)

OpenAI 的 GPT 系列——生成式预训练变换器(Generative Pretrained Transformer)的缩写——被普遍认为是开创了当前生成式 AI 时代,尤其是在 2022 年随其 GPT-3.5 模型推出 ChatGPT 之后。

自 2022 年以来,OpenAI 的模型命名和变体惯例已发生显著变化,且常常令人困惑。例如,GPT-4.1 是在 GPT-4.5 之后发布的,而 o4 推理模型与多模态非推理模型 GPT-4o 同时可用,后者与他们的“o4”推理模型完全不同,且“o4”的性能不如“o3”。2025 年初,OpenAI 首席执行官 Sam Altman 承认:“我们意识到我们的模型和产品组合变得多么复杂。”

自 2025 年 8 月 GPT-5 发布以来,该公司整合后的 LLM 产品现包括:

  • GPT-5.x 是 OpenAI 的旗舰通用产品。截至 2026 年 3 月,最新模型版本是 GPT-5.4。尽管所有 GPT-5 模型都是推理模型,但 GPT-5.4 还有一个 GPT-5.4 Pro 变体可用,它“使用更多计算能力进行更深入的思考并提供始终如一的更好的答案。”3 OpenAI 还提供 GPT-5 Codex,这是一个针对最佳智能体代码生成进行微调的 GPT-5 版本(它会随着核心模型的更新版本而定期更新)。
  • 根据 OpenAI 的模型概览GPT-5 mini 为“对成本敏感、低延迟、高容量的工作负载提供接近前沿的智能”。
  • GPT-5 nano 是“最快、最具成本效益的 GPT-5 版本”。

OpenAI 还发布了 2 个开放权重的 GPT 模型,详情见本文的“开放模型”部分。

Mistral AI

Mistral AI 是一家总部位于法国的公司,由 Meta AI 和 Google DeepMind 的前员工创立,最初在 2023 年 9 月发布其首个模型 (Mistral 7B) 时完全致力于开源模型。自那以后,Mistral 已过渡到混合模式,其许多产品开放发布,但部分前沿模型仍保持闭源。

截至 2026 年 3 月,Mistral AI 的旗舰专有 LLM 包括:

  • Mistral Medium 3.1,一个于 2025 年 8 月发布的通用多模态模型。

  • Codestral,一个专注于编码的模型,“专为高精度中间填充 (FIM) 补全而构建”。4

  • Magistral Medium 1.2,一个与 Mistral Medium 配套的推理模型。

Mistral 的开放权重模型产品详见本文后续部分。

Llama 3.2 提供 10 亿和 30 亿参数规模的不同版本,这些版本足够紧凑,适用于移动设备和边缘设备。而 110 亿和 900 亿参数规模的不同版本则是多模态大语言模型,针对回答关于图像的一般问题、图像字幕、图像推理和视觉识别等任务进行了优化。6

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

开源 LLM

在机器学习中,开源通常口语化地指免费提供源代码的 AI 工具,但该术语实际上是由开放源代码促进会 (OSI) 管理的一个正式称谓。OSI 只有在认定某个软件许可证符合官方开源定义 (OSD) 中列出的十项要求时,才会将该许可证认证为“开源促进会批准”。

大多数“开源”模型并不满足所有这些要求。既然如此,术语开放模型(或开放权重模型)更准确地指任何免费分发的 LLM。在开放模型的范围内存在很大的可变性。一个开放权重(但非开源)模型可用于运行推理,甚至可以微调——但如果其完整源代码未提供,则无法通过微调之外的方式修改其权重值。其许可证可能禁止在某些场景(如商业环境)下使用该模型,或对其应用程序施加其他特定规定。

相反,一个真正的开源模型如果随附训练代码及其训练过程的描述发布,则可以以任何方式完全修改并无限制使用。最常见和标准化的开源许可证是 Apache 2.0 许可证和 MIT 许可证。不过需注意:除非开源模型的开发者提供其训练数据的详细信息,否则模型本身无法完全复现。

开源发布对于 LLM 的持续发展和改进不可或缺,并且在很大程度上首先促成了它们的发明。开放模型通常可以通过其模型开发者或流行的开源平台(如 GitHub 或 Hugging Face)进行访问。以下是一些著名的开放模型系列列表,按字母顺序排列。

Cohere

Cohere 是一家总部位于加拿大的公司,其创始人包括 Attention is All You Need 论文的作者之一,于 2019 年成立。尽管该公司为每个 LLM 发布详细的技术报告,并且表面上将其作为开放权重模型发布,但 Cohere 对其开放版本采用知识共享 4.0 许可证的修改版 进行许可,该版本禁止商业用途。

Command

 Command 是 Cohere 的旗舰基础模型系列,专为企业用例设计。

  • Command R 是第一代 Cohere 企业模型,于 2024 年 3 月推出,是一个 350 亿参数的模型,强调 RAG 和工具使用。紧随其后的是次月发布的 Command R+,一个 104 亿参数的变体。同年 12 月,较小的 Command R7B 也加入了该系列。

  • Command A 是 Cohere 的第二代企业模型,于 2025 年 3 月发布,专注于商业、 STEM 和编码任务。最初的 111 亿参数模型最终发布了多个变体,包括 Command A ReasoningCommand A Translate(针对 23 种语言的翻译性能进行微调优化)和 Command A Vision一个将 LLM 与视觉编码器配对的视觉语言模型 (VLM)。

2026 年 3 月的 Reddit 评论中,Cohere 首席执行官 Aidan Gomez 表示,公司正在积极开发下一代 Command,这将是该组织的首个 Mixture of Experts (MoE) 模型。

Aya

Aya 是 Cohere 专注于多语言的模型系列,于 2024 年 2 月首次推出 Aya 101——顾名思义,它“能够用 101 种语言遵循指令”。

  • Aya Vision 是一个多模态、多语言的 VLM,提供 8 亿和 32 亿参数变体,支持 23 种不同语言。

  • Tiny Aya 于 2026 年 2 月发布,是一系列轻量级多语言模型,具有 33.5 亿参数。Tiny Aya-Base 是一个预训练模型,支持超过 70 种语言。TinyAya-Global 是其指令微调版本,支持 67 种语言。

  • Tiny Aya 版本中还包含专门的区域变体。TinyAya-Earth 针对非洲和西亚语言进行了优化;TinyAya-Fire 针对南亚语言进行了优化;TinyAya-Water 针对亚太和欧洲语言进行了优化。

DeepSeek

DeepSeek 是开源生态系统中不可或缺的一员,为 LLM 架构和训练过程贡献了多项创新。有时,其模型的性能可与顶级闭源模型相媲美。他们的 LLM——包括权重和代码——均根据标准 MIT 许可证开源。DeepSeek 还频繁发布技术论文,详细阐述其发现和技术。

  • DeepSeek-V3 是一个大型 MoE 模型,总参数量为 6710 亿(推理时激活参数量为 370 亿),于 2024 年底首次发布。该模型通常被认为使混合专家架构重新回到主流视野。

  • DeepSeek-R1 是一个推理模型,通过使用当时新颖的强化学习技术对 DeepSeek-V3 进行微调而构建。DeepSeek-R1 是开源 LLM 历史上的一个里程碑。它不仅与 OpenAI 此前无与伦比的 o1 模型性能相媲美,还提供了详细说明 DeepSeek 训练方法的技术论文。它的发布直接激发了第一代开放推理模型的诞生。

  • DeepSeek-V3.1 于 2025 年 8 月发布,是一个混合推理模型,可配置为运行标准推理和思维链推理。本质上,它将 DeepSeek-V3 和 DeepSeek-R1 合并为一个模型。它最近于 2025 年 10 月更新为 DeepSeek-V3.2。DeepSeek-V3.1 和 DeepSeek-V3.2 均保留了原始模型的 6710 亿-370 亿 MoE 架构。

  • DeepSeek 还发布了几个“DeepSeek-R1-Distill”模型,通过微调较小的 Qwen 和 Llama 模型,以知识蒸馏的方式模拟 DeepSeek-R1。

尽管不时有关于 DeepSeek-V4(或“DeepSeek-R2”)即将发布的传闻,但它们尚未面世。

Falcon (TII)

Falcon 系列 LLM 由阿联酋技术创新研究所 (TTI) 开发。尽管 TII 在 2023 年的第一代模型可能以 Falcon-180B 最为引人注目,该模型当时是最大的开源模型之一,但 TII 此后专注于较小的模型。Falcon2 拥有 110 亿参数,而 Falcon3(TII 的首批多模态模型,于 2024 年 12 月发布)的参数范围从 10 亿到 100 亿不等。

最近几代 Falcon 模型专注于混合 Mamba-Transformer 模型。

  • Falcon-H1 于 2025 年 5 月发布,包含预训练和指令微调的混合模型,有 5 亿、15 亿、30 亿、70 亿和 340 亿参数变体。Falcon-H1R 于 2026 年 1 月发布,是 Falcon-H1-7B 的推理变体。

  • Falcon-H1-Tiny,顾名思义,是 Falcon-H1 的极小变体,参数规模为 9000 万、1 亿和 6 亿。每种规模均以基础模型和针对特定用例微调的专业变体形式提供。

  • Falcon-Edge 模型是一系列实验性的 1 位(“BitNet”)LLM,规模为 10 亿和 30 亿参数。

Falcon 模型根据专有的 Falcon 许可证发布,该许可证受 Apache 2.0 框架启发,但增加了显著的规定和限制。

Gemma (Google)

Gemma 是 Google 的开放模型系列。据 Google 称,Gemma 模型“采用与驱动其 Gemini 模型相同的技术构建”。7

  • Gemma 3 于 2025 年 3 月发布,是最新一代 Gemma 核心 LLM。最初的 Gemma 版本包含预训练和指令微调变体,规模为 10 亿、40 亿、120 亿和 270 亿参数。2025 年 8 月,Google 添加了一个具有 2.7 亿参数的较小变体。Gemma 3 模型可以处理文本或图像输入,并提供超过 140 种语言的多语言支持。
  • Gemma 3n 于 2025 年 7 月发布,具有实验性的 MatFormer 架构,该架构本质上允许将任意数量的较小、定制尺寸的模型“嵌套”在一个较大的模型中。该架构以俄罗斯套娃(也称为“Matryoshka” dolls)命名——因此得名 MatFormer。Gemma 3n 以名义上的 20 亿和 40 亿参数规模提供,支持文本、图像、视频或音频输入(但仅输出文本)。

  • FunctionGemma 是 Gemma 3 2.7 亿参数的一个变体,针对工具使用(或“函数调用”,因此得名)进行了微调。

Gemma 模型根据 Gemma 许可证发布,其使用条款与 Apache 2.0 许可证相似,但受 Gemma 禁止使用政策的约束。

GLM (Z.ai)

GLM 是来自北京的智谱华章(Z.ai,也称 Zhipu AI)的一系列 LLM,旨在实现最先进的性能。该公司凭借 GLM-4.5 取得了突破,该模型于 2025 年 7 月底首次发布时,在学术基准测试上表面上与包括 DeepSeek 和 Qwen 的旗舰模型在内的全球顶级开放模型相媲美。

  • GLM-4.5 提供两种模型规模——旗舰 LLM,一个总参数量 3550 亿(激活参数量 320 亿)的大型 MoE 模型,以及较小的 GLM-4.5-Air(总参数量 1060 亿,激活参数量 120 亿)。GLM-4.5V 是一个VLM,建立在 GLM-4.5-Air 基础模型之上,增加了计算机视觉和视频理解能力。

  • GLM-4.6 于 2025 年 9 月 30 日发布,是 GLM-4.5 的更新版本,不包含较小的纯文本变体。然而,在 12 月初,该公司发布了 GLM-4.6V(GLM-4.5V 的更新)和 GLM-4.6V-Flash,一个 90 亿参数的稠密模型。

  • GLM-4.7 于 2025 年 12 月底发布,是对旗舰纯文本模型的更新,增加了 GLM-4.7-Flash,一个显著更小的 LLM,总参数量仅为 300 亿(激活参数量 30 亿)。

  • GLM-5 于 2026 年 2 月发布,明显大于其前代产品,总参数量 7440 亿(激活参数量 400 亿)。

Granite (IBM)

IBM Granite 是一系列针对企业用例优化的开源 LLM,主要关注小型、实用和高效的模型。Granite 于 2023 年 9 月首次推出,在 2024 年 10 月 Granite 3.0 发布 后声名鹊起,Granite 系列的性能达到了与领先的同类规模开放模型相媲美的水平。

Granite 4 于 2025 年 10 月推出,引入了新的混合 Mamba2-Transformer 架构,与传统 Transformer 模型相比,尤其是在大工作负载下,具有卓越的速度和内存效率。

  • Granite 4-H Small 是一个混合 MoE 模型,总参数量 320 亿(激活参数量 90 亿)。Granite 4 还包括另一个混合 MoE 模型 Granite 4-H Tiny,总参数量 70 亿(激活参数量 10 亿),以及一个稠密混合模型 Granite 4-H Micro,激活参数量 30 亿。

  • Granite 4 Micro 是一个建立在传统 Transformer 模型架构上的 30 亿稠密模型,与 4-H 模型不同。

  • Granite 4 Nano 是一系列混合 Mamba-Transformer 和传统 Transformer 模型,参数规模从 3.5 亿到 10 亿不等。

  • Granite 4 1B-Speech 是一个用于自动语音识别 (ASR) 和双向自动语音翻译 (AST) 的语音到文本模型。

所有 Granite 模型均根据标准的 Apache 2.0 许可证开源,并使用企业安全数据进行训练。2025 年 10 月,Granite 系列成为首个获得 ISO-42001 认证的主要开放模型家族

GPT-OSS (OpenAI)

GPT-OSS 是 OpenAI 的开放权重语言模型,于 2025 年 8 月根据标准的 Apache 2.0 许可证发布。它们是该公司自 2019 年发布 GPT-2 以来的首个开放 LLM。

  • GPT-OSS-120B 是一个 MoE 模型,总参数量 1170 亿(激活参数量 51 亿),专为通用目的和受益于高级推理的任务而设计。

  • GPT-OSS-20B 是一个 MoE 模型,参数量 210 亿(激活参数量 36 亿),适用于较低延迟使用和本地部署。

这两个 GPT-OSS 模型均采用模型权重的 4 位量化进行训练,相比类似规模的传统模型,显著提高了速度并降低了内存需求。

Kimi (Moonshot AI)

Kimi 是由北京 Moonshot AI 开发的一系列开放模型。

  • Kimi-K2 是一个纯文本、大规模 MoE 模型,总参数量 1 万亿(激活参数量 320 亿)。它在 2025 年 7 月发布时因在关键编码基准测试上与 GPT-4.1 和 Claude Opus 4 模型相媲美(且有时超越)而声名鹊起。

  • Kimi-K2 Thinking 是 Kimi-K2 的推理模型变体,同样因其在具有挑战性的智能体AI基准测试中再次与顶级闭源模型抗衡而引发轰动。

  • Kimi-K2.5 是 Kimi-K2 的更新版本,增加了多模态视觉能力。它可以在多种“模式”下运行,每种模式针对特定用例进行了优化。

Kimi 模型根据修改后的 MIT 许可证发布,要求任何月活跃用户超过 1 亿或月收入超过  2000 万美元的产品,在其用户界面上“显著展示‘Kimi K2’”。

Llama (Meta)

Meta 的 Llama 模型(原名风格化为 LLaMA,是“Large Language model Meta AI”的缩写)一直是开放 LLM 历史中不可或缺的一部分。早期的 Llama 发布有助于 LLM 方法的民主化,从训练到架构和规模变化,为 LLM 开发的许多标准惯例提供了信息并产生了强烈影响。

  • Llama 2 于 2023 年 7 月发布,尺寸有 70 亿、130 亿和 700 亿参数。

  • Llama 3 于 2024 年 4 月发布,尺寸有 80 亿和 700 亿参数,在学术基准测试上与许多领先的闭源模型展开竞争。Llama 3.1 显著扩展了模型的上下文长度,并于同年 7 月增加了当时前所未有的 4050 亿参数变体。Llama 3.2 增加了较小的变体和视觉能力,而 Llama 3.3 则推出了一款 700 亿参数的单一模型,其性能与 Llama 3.1 4050 亿参数模型相当。

  • Llama 4 发布时包含两个大型多模态 MoE 模型:Llama 4 Maverick,总参数量 4000 亿(激活参数量 170 亿)和 Llama 4 Scout,总参数量 1090 亿(激活参数量 190 亿)。尽管它们的性能在大多数基准测试上显著超过了之前的 Llama 世代,但 Llama 3 模型仍然是 Meta 最受欢迎的 LLM(正如 Hugging Face 上的下载量所反映的那样)。10

尽管 Meta 经常使用“开源”一词,但 Llama 模型是根据定制的 Llama 许可证发布的,该许可证对使用、署名和访问施加了限制。因此,开放源代码促进会批评 Meta 使用该术语

Minimax

总部位于上海的 MiniMax Group 于 2025 年 1 月发布了其首个同名 LLM——MiniMax-Text-01,以及配套的 VLM——MiniMax-VL-01。此后,他们作为中国主要的 LLM 开发者之一崭露头角,优先发展大规模模型和长上下文窗口。

  • MiniMax-M1 于 2025 年 6 月发布,是一个纯文本推理模型,通过对 MiniMax-Text-01 进行微调而构建。与其前代一样,它是一个大型 MoE 模型,总参数量 4560 亿,每个令牌激活 459 亿参数。
  • MiniMax-M2 在性能和效率上均优于 M1。它拥有 2300 亿总参数,以及更细粒度的 MoE 架构,每个令牌仅激活 100 亿参数。它于 2025 年 10 月发布,两个月后更新为 MiniMax-M2.1。MiniMax 还提供 MiniMax-M2-her,一个针对基于角色的角色扮演进行微调的版本。

  • MiniMax-M2.5MiniMax-M2.5-Lightning 于 2026 年 2 月发布,实现了进一步的性能优化,在特定编码基准测试上与 Claude Opus 4.5 相媲美。它们在除速度和吞吐量外的所有方面都相同:“Lightning”变体的输出速度是其两倍。

  • MiniMax-M2.7  于 2026 年 3 月发布,是 MiniMax-M2.5 的更新版本,该公司声称该版本帮助实现了自我训练。11

MiniMax 模型根据修改后的 MIT 许可证提供。

Mistral AI

除了闭源产品外,Mistral AI 还提供多种备受好评的开放模型。Mistral 的大部分(但并非全部)开放模型均根据标准的 Apache 2.0 许可证发布。

  • Mistral Large 3 采用了受 DeepSeek-V3 启发的 MoE 架构,总参数量 6750 亿(激活参数量 410 亿)。其基准性能大致相当于 DeepSeek-V3.1 和 Kimi-K2.1。12它于 2025 年 12 月发布,是多语言、多模态的,能够处理文本和图像输入。

  • Ministral 3 是 Mistral 的小型模型系列,提供 30 亿、80 亿和 140 亿参数规模,并有基础版、指令微调版和推理版变体。

  • Mistral Small 3.2 是一个 240 亿参数的 LLM,于 2025 年 6 月发布。其性能与较新的 Ministral 3 140 亿参数模型相当。

  • Devstral 是 Mistral 专注于智能体工程的模型系列。Devstral 2 于 2025 年 12 月发布,包含两个模型。Devstral 2 1230 亿参数模型根据修改后的 MIT 许可证发布,要求月收入超过 2000 万美元的组织向 Mistral 申请商业许可证。Devstral Small 2 240 亿参数模型根据标准的 Apache 2.0 许可证发布。

  • Mixtral 于 2023 年 12 月发布,是一个最初普及了混合专家架构用于语言模型的 LLM。截至 2026 年初,其 8x70 亿参数变体在 Hugging Face 上仍然非常受欢迎,每月下载量超过 70 万次。13

Nemotron (NVIDIA)

卓越的硬件制造商英伟达的开放 LLM 系列因其性能、研究文献和架构创新而备受好评。

  • NVIDIA-Nemotron-Nano v2 是一个混合 Mamba-2-LLM 模型系列,规模为 90 亿和 120 亿参数,能够进行推理和标准推理。它们于 2025 年 8 月发布,遵循定制的英伟达开放模型许可协议,该协议包含关于法律责任、使用以及英伟达未来修改协议的权利等显著条款。

  • Nemotron 3 Nano 于 2025 年 12 月发布,包含两个模型:Nemotron-3-Nano-4BNemotron-3-Nano-30B-A3B,后者是一个总参数量 300 亿(激活参数量 30 亿)的 MoE 模型。它们根据英伟达 Nemotron 开放模型许可证发布,该许可证取消了英伟达单方面未来更新条款的权利。

  • Nemotron 3 Super 是一个更大的 MoE 模型,总参数量 1200 亿(激活参数量 120 亿),于 2026 年 3 月发布。

Olmo (AllenAI)

Olmo 由艾伦人工智能研究所 (Ai2) 开发,是所有开源模型中最真正“开放”的模型之一:Ai2 通常会在标准 Apache 2.0 发布的同时,发布所有代码、权重、训练检查点和相关数据集。

  • Olmo 3 于 2025 年 11 月发布,包含规模为 70 亿和 320 亿参数的稠密 Transformer 模型。这些模型以基础版、指令版和“思考”版变体形式发布。2025 年 12 月,320 亿参数模型更新为 Olmo 3.1。
  • Olmo Hybrid 于 2026 年 3 月发布,是一个 70 亿参数的模型,采用结合了 Transformer 和线性 RNN 的实验性混合架构(基于由 Qwen 推广的 Gated DeltaNet 架构)。

Phi (Microsoft)

Phi 是微软的开放模型系列,历来专注于小型模型。它们根据标准 MIT 许可证发布。

  • Phi 4 是一个 140 亿参数的纯文本 LLM,最初于 2024 年 12 月发布。

  • Phi 4-mini 于 2025 年 2 月发布,是一个更小的 38 亿参数模型。

  • Phi 4-multimodal 与 Phi 4-mini 一同发布,支持文本、图像和语音输入。

  • Phi 4-Reasoning-Vision 于 2026 年 3 月发布,是一个 150 亿参数的模型,增加了跨图像、文本和文档的整体多模态推理能力。

Qwen (Alibaba)

由阿里巴巴开发的 Qwen 系列 LLM 已成为业界最受欢迎的开放模型之一。该模型系列提供多种模型规模、架构和能力,旨在满足开发者的不同需求。

  • Qwen3 包含纯文本稠密 Transformer 模型,规模有 6 亿、17 亿、40 亿、80 亿、140 亿和 320 亿参数,以及 MoE 模型,规模有 30B-A3B 和旗舰版 Qwen3-235B-A22B。所有 Qwen3 模型均以基础版、思考版和指令版变体形式提供。

  • Qwen3-Next 是一个实验性的纯文本 MoE 模型,参数量 800 亿(激活参数量 30 亿),用 Gated Delta Networks(受 Mamba-2 启发)和 Gated Attention 取代了标准注意力机制。

  • Qwen3-Omni 是一个原生多模态模型,基于 Qwen3-30B-A3B 构建,支持文本、图像、音频或视频输入以及文本或语音输出。

  • Qwen3-Coder-Next 是 Qwen3-Next 针对代码生成进行微调的版本。

  • Qwen3.5 于 2026 年 2 月发布,是一个多模态模型系列,采用了 Qwen3-Next 首次引入的架构。它包含基础版和混合推理模型,规模有 8 亿、20 亿、40 亿、90 亿和 270 亿参数,以及 MoE 模型,规模有 35B-A3B、122B-A10B 和旗舰版 397B-A17B。Qwen3.5-397B-A17B 旨在与领先的 Gemini、GPT 和 Claude 模型竞争前沿性能。

作者

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

开发者: 阿里云

发布日期:Qwen 2.5 的发布日期为 2024 年 9 月,Qwen2.5-Max 的发布日期为 2025 年 1 月

参数数量: 多达 720 亿

上下文窗口:多达 100 万个词元

许可证:开源 (Apache 2.0),大模型专有

访问:阿里云、Hugging Face

输入:多模态(音频、图像、文本、视频)

输出:文本

Qwen 是来自中国云计算公司阿里云的一系列 LLM。Qwen 包含针对音频、编码、数学和视觉任务进行优化的语言模型和变体。

Qwen 提供以下模型:

    ● Qwen 2.5

    ● Qwen Audio

    ● Qwen Coder

    ● Qwen Math

    ● Qwen VL

相关解决方案
IBM Bob

借助您的 AI 合作伙伴 Bob,加速软件交付,实现安全的意图感知型开发。

深入了解 IBM® Bob
IBM® watsonx Orchestrate

使用 IBM watsonx Orchestrate 轻松设计可扩展的 AI 助手和智能体,自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解 AI 解决方案
采取后续步骤

无论您处于开发生命周期的哪个阶段,Bob 都能满足您的需求,为您构建意图感知、安全一致的智能体式评审体系,从而加速高质量的软件交付。

  1. 了解 IBM Bob
  2. 探索 watsonx Orchestrate
脚注

1. “埃隆·马斯克收紧 Grok AI 机器人以阻止选举错误信息”, The Register,2024 年 8 月 28 日
2. “马斯克的 x AI 聊天机器人 Grok 持续随机回应关于南非‘白人种族灭绝’的内容,” CNBC,2025 年 5 月 14 日
3. “埃隆·马斯克的 AI 聊天机器人 Grok 开始自称‘MechaHitler’,” NPR,2025 年 7 月 9 日
4. @MarioNawfal 的推文,X(原 Twitter),2025 年 2 月 18 日
5. “GPT-5.4 pro”,OpenAI,API 文档于 2026 年 3 月 12 日访问
6. “宣布 Codestral 25.08 和面向企业的完整 Mistral 编码栈”, Mistral AI,2025 年 7 月 30 日
7. Gemma,Google DeepMind,于 2026 年 3 月 12 日访问
8. “阿里巴巴支持的月之暗面发布新的 Kimi AI 模型,在编码方面击败 ChatGPT 和 Claude——且成本更低”, CNBC,2025 年 7 月 14 日
9. “关于 Kimi K2 Thinking 的 5 点思考”,Interconnects,2025 年 11 月 6 日
10. Meta Llama:模型页面(按“下载最多”排序),Hugging Face,于 2026 年 3 月 11 日访问
11. “MiniMax M2.7:自我进化的早期回响”,MiniMax,2026 年 3 月 18 日
12. “介绍 Mistral 3”,Mistral AI,2025 年 12 月 2 日
13. Mistral AI:模型页面(按“下载最多”排序),Hugging Face,于 2026 年 3 月 11 日访问