生成式 AI (Gen AI) 的蓬勃发展使人们关注其背后的驱动力:大型语言模型 (LLM)。目前已经存在数十种 LLM,但随着技术的快速发展,越来越多的人工智能 (AI) 模型将不断涌现。
从汽车行业的角度来思考这个问题。全球数百家汽车制造商都有自己的车型,以满足不同消费者的需求。随着时间推移,汽车也发生了变化,从燃料汽车发展到拥有众多智能功能的电动汽车。
LLM 也是如此。这些 AI 系统最初是基础模型,由多个神经网络层组成,这些神经网络层在大量数据集上进行训练。
这些模型采用深度学习技术来完成自然语言处理 (NLP) 和自然语言理解 (NLU) 任务。但是,它们的能力已经得到提升,包括 agentic AI 功能和推理能力。
这一快速的演进意味着 LLM 的环境处于不断变化的状态。 AI 开发人员必须不断更新他们的模型,甚至构建新的模型,才能跟上快速的发展步伐。
虽然内容摘要、机器翻译、情感分析和文本生成 等 NLP 和 NLU 任务仍然继续,但是 AI 开发人员正在根据特定用例定制自己的模型。
例如,有些 LLM 专门用于代码生成,而另一些 LLM 则用于处理视觉语言任务。
虽然不可能提及现有的每个 LLM,但下面列出了一些当前最流行的大型语言模型,以帮助组织缩小选择范围,并考虑哪种模型能满足其需求:
开发商:Anthropic
发布日期:2025 年 2 月 (Claude 3.7 Sonnet)
参数数量:未公开披露
上下文窗口:200,000 个令牌
许可证:专有
访问:Anthropic API、Amazon Bedrock、Google Cloud Vertex AI
输入:多模态(图像、文本)
输出:文本
Claude 是基于转换器架构的 LLM 系列。它是同名会话式 AI 助手背后的大型模型。 Claude 的设计遵循宪法式 AI 原则,这些原则侧重于 AI 的安全,旨在减少有害行为,如 AI 偏见 。
Claude 系列由 3 个 AI 模型组成:
● Claude Haiku
● Claude Sonnet
● Claude Opus
Claude 3.5 haiku 是速度最快的模型。它非常适合低延迟的应用场景,例如客服聊天机器人和代码补全,以加快软件开发的工作流程。
Claude 3.7 Sonnet 是 Anthropic 所说的“迄今为止最智能的模型”。这种推理模型有一种“扩展思维”模式,可以在回答之前进行自我反省。使用 Anthropic API 的用户还可以指定模型的思考时间。
Claude 3.7 Sonnet 可用于更具体的任务,例如代码生成、计算机使用(允许 LLM 以人类的方式操作计算机)、从视觉数据中提取信息以及回答问题。
Claude 3 Opus 是这三者中最强大的模型。它可以处理深入分析以及较长、较复杂的多步骤任务。
开发者:Cohere
发布日期:Command R+ 于 2024 年 4 月推出,Command R7B 于 2024 年 12 月推出
参数数量: 多达 1040 亿
上下文窗口:128,000 个词元
许可证:专有
访问方式:Cohere API、Amazon Bedrock、Microsoft Azure AI Studio、Oracle Cloud Infrastructure Generative AI
输入:文本
输出:文本
Command 是 Cohere 的旗舰语言模型。这一系列面向企业的 LLM 包括以下模型:
● Command R
● Command R+
● Command R7B
Command R 是一款拥有 320 亿参数的多语言文本生成模型。1 它经过训练,能够在其回复中提供引用,从而增强其检索增强生成 (RAG) 能力。 Command R 还具备会话式工具使用功能。
Command R+ 是功能更强大的版本,拥有 1040 亿个参数。2 它能够处理复杂的 RAG 函数以及多步骤工具使用,从而允许 AI 智能体 通过调用外部工具来收集最新信息并更新其知识库。
Command R7B 是参数最少 (70 亿) 且速度最快的模型。它非常适合基于 CPU 的部署、低端 GPU 以及其他边缘设备,并可实现设备端推理。
开发商:DeepSeek
发布日期:2025 年 1 月
参数数量: 6710 亿
上下文窗口:128,000 个词元
许可证:开源(MIT 许可证)
访问:DeepSeek API、Hugging Face
输入:文本
输出:文本
DeepSeek-R1 是中国人工智能初创公司 DeepSeek 推出的一款开源推理模型。它采用 Mixture of Experts (MoE) 机器学习架构,并通过大规模强化学习进行训练,以提升其推理能力。
在某些 LLM 基准上,DeepSeek-R1 的性能与 OpenAI 的 o1 系列推理模型相似甚至更好。DeepSeek-R1 还利用知识提炼技术,借助更大型的DeepSeek-R1 LLM 生成的推理数据,对几个较小的 Llama 和 Qwen 模型进行微调。
由此产生的提炼模型增强了原始模型的功能,甚至比其他更大的模型具有更高的性能。3
开发商:Technology Innovation Institute
发布日期:Falcon 3 的发布日期为 2024 年 12 月
参数数量:多达 1800 亿
上下文窗口: 最多 32,000 个令牌
许可证:开源
访问方式:Hugging Face
输入:文本
输出:文本
Falcon 是由阿联酋 Technology Innovation Institute (TII) 的研究人员开发的一组开源模型。这些模型在 TII 自己的 RefinedWeb 上进行训练,RefinedWeb 是一个包含经过滤英语网络数据的庞大数据集。
Falcon 由以下 LLM 组成:
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
其他更早且更大的 Falcon 版本包括具有 400 亿个参数的 Falcon 40B 和具有 1,800 亿个参数的 Falcon 180B。
Falcon 2 11B是一款仅包含因果解码器的模型,拥有 110 亿参数。它提供多语言支持,即将具备视觉到语言的能力。
Falcon 3 采用仅解码器的设计,参数规模较小,有 10 亿、30 亿、70 亿和 100 亿等几种选择。它在前代产品的基础上进行了改进,提升了推理能力。
Falcon Mamba 7B 是一种状态空间语言模型 (SSLM),它不同于典型的 LLM 转换器架构。转换器模型使用注意力机制,“将注意力集中”在输入序列中最重要的词元上。然而,随着上下文窗口的增长,转换器需要更多的内存和计算能力。
SSLM 在处理过程中不断更新“状态”,并采用选择算法根据输入动态调整参数。这使得 Falcon Mamba 7B 无需额外内存即可处理长文本序列,并且无论上下文长度如何,都能在相同的时间内生成新词元。
许可证:专有
访问方式:Gemini API、Google AI Studio、Google Cloud Vertex AI
输入:多模态(音频、图像、文本、视频)
输出:文本
Gemini 是 Google 推出的一套多模态模型 。它还为同名的生成式人工智能聊天机器人(之前称为 Bard)提供支持。
Gemini 采用了 Transformer 模型,这是一种源自 Google 自身的神经网络架构,并基于该公司之前的基础语言模型构建,包括 BERT(来自 Transformers 的双向编码器表示)和 PaLM 2(Pathways 语言模型)。
谷歌表示,最新版本 Gemini 2.0 “专为智能体时代打造”。Gemini 2.0 有多种版本:
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Lite
● Gemini 2.0 Pro
Gemini 2.0 Flash 是一款支持工具使用的轻量级模型。即将推出的功能包括图像生成和文本转语音。
Gemini 2.0 Flash-Lite 是之前轻巧且经济高效的 1.5 Flash 版本的改进版。它在保持相同速度和成本的同时,提升了质量。
Gemini 2.0 Pro 被谷歌称为进行编码和处理复杂提示的最强大模型,因为它的工具使用功能和更长的上下文窗口(200 万个词元)。它目前仍处于实验阶段。
开发商:OpenAI
发布日期: GPT-4o 的发布日期为 2024 年 5 月,GPT-4o mini 的发布日期为 2024 年 7 月
参数数量:未公开
上下文窗口:128,000 个词元
许可证:专有
访问:OpenAI API(使用 .NET、JavaScript、Python、TypeScript)
输入:多模态(音频、图像、文本、视频)
输出:多模态(音频、图像、文本)
生成式预训练转换器 (GPT) 是 OpenAI 开发的一系列大型语言模型。GPT 包括以下 LLM:
● GPT-4o
● GPT-4o mini
GPT-4o 是一款多语言、多模态模型。作为最先进的 LLM 之一,GPT-4o 能够处理音频、文本和视觉输入,并生成音频、图像和文本输出的任意组合。
与之前的 GPT-4 Turbo 和 GPT-4 相比,GPT-4o 的性能有所提升。GPT-4o 是目前为 OpenAI 的 ChatGPT 生成式 AI 聊天机器人提供支持的 LLM。
GPT-4o mini 是一款更小、更实惠的模型,它接受图像和文本输入并生成文本输出。其性能方面已超越 GPT-3.5 Turbo。
开发商:IBM
发布日期:2025 年 2 月
参数数量:多达 340 亿
上下文窗口:128,000 个词元
许可证:开源 (Apache 2.0)
访问:IBM® watsonx.ai、Hugging Face、LM Studio、Ollama、Replicate
输入:多模态(图像、文本)
输出:文本
IBM Granite 是一系列企业级开源 LLM。它包括以下模型:
● Granite 3.2
● Granite Vision
Granite 3.2 融合了增强的推理功能和针对 RAG 任务的高级功能。它提供的参数规格包括 20 亿和 80 亿个参数。
Granite 3.2 的训练数据是具有许可授权的开源数据集和内部收集且专为解决长上下文问题而定制的高质量合成数据集。
Granite Vision是一款拥有 20 亿参数的视觉语言模型,专为视觉文档理解而定制。它旨在从图表、示意图和表格中高效提取内容,非常适合用于结构化数据分析。
Granite 系列中的其他 LLM 由以下专用模型组成:
● Granite Code
● Granite Guardian
● Granite Embedding
这些仅解码器模型专为代码生成任务而设计,包括代码编辑、代码解释和代码生成。Granite Code 模型使用以 116 种编程语言编写的代码进行训练,提供30 亿、80 亿、200 亿和 340 亿参数规模的不同版本。
Granite Guardian 模型是基于 LLM 的防护栏,旨在检测提示和回复中的风险。 Granite Guardian 提供 20 亿、30 亿、50 亿和 80 亿参数规模的不同版本。
Granite Embedding 模型是句子转换器模型,专为语义搜索和 RAG 等基于检索的应用程序而构建。
开发商:xAI
发布日期:Grok 3 的发布日期为 2025 年 2 月
参数数量:3,140 亿
上下文窗口:128,000 个词元
许可证:专有
访问方式:xAI API
输入:多模态(图像、文本)
输出:文本
Grok 是 xAI 推出的一款语言模型。第一代 LLM Grok-1 是一款拥有 3140 亿参数的 MoE 模型。由于 Grok-1 规模庞大,在给定输入令牌时,Grok-1 的模型权重中只有 25% 是活跃的。
2024 年 3 月,xAI 发布了 Grok-1.5,上下文窗口包含 128,000 个词元,并且增强了问题解决功能。五个月后,xAI 推出了 Grok-2 的测试版及其较小版本 Grok-2 mini。Grok-2 的聊天、编码和推理能力得到了进一步提高,并增加了对基于视觉的任务的支持。
最新发布的 Grok 3 和 Grok 3 mini 配备了先进的推理和 AI 智能体功能。
Llama 3.1 有一个 80 亿参数的模型和一个 4,050 亿参数的旗舰基础模型。两者都是多语言纯文本模型。
Llama 3.2 提供 10 亿和 30 亿参数规模的不同版本,这些版本足够紧凑,适用于移动设备和边缘设备。而 110 亿和 900 亿参数规模的不同版本则是多模态大型语言模型,针对回答关于图像的一般问题、图像字幕、图像推理和视觉识别等任务进行了优化。6
Llama 3.3 是一个拥有 700 亿参数的多语言纯文本模型。它的性能与 Llama 3.1 405B 相当,甚至更高,但成本效益更高。
开发者:Mistral AI
发布日期:Mistral Large 2 于 2024 年 7 月推出
参数数量:多达 1240 亿
上下文窗口: 最多 256,000 个令牌
许可证: Mistral Research License、Mistral Commercial License、Apache 2.0
访问:La Plateforme、Amazon Bedrock、Microsoft Azure AI Studio、Google Cloud Vertex AI、IBM watsonx.ai
输入:多模态(图像、文本)
输出:文本
总部位于法国的 Mistral AI 公司拥有包含以下模型的 LLM 套件:
● Mistral Large
● Mistral Small
● Codestral
● Pixtral Large
Mistral Large 2 是 Mistral AI 的旗舰模型。它有 1,230 亿参数和含 128,000 个令牌的上下文窗口。该模型在代码生成、数学运算和推理方面表现出色。 Mistral Large 2 提供多语言支持,并具备函数调用功能。
Mistral Small 3 是一个较紧凑的版本,拥有 240 亿个参数。此模型适用于快速响应的会话式 AI、低延迟函数调用以及在资源受限的机器上本地处理推理。Mistral Small 3 是开源软件,并根据 Apache 2.0 许可证发布。
Codestral 25.01 是 Mistral AI 最新一代的编码模型。它的上下文长度为 256,000 个令牌,支持代码补全、代码修正、代码生成和测试生成等任务。
Pixtral Large 是一个拥有 1,240 亿个参数的多模态模型。它基于 Mistral Large 2 构建而成,并扩展了其功能,涵盖图像理解。
开发商:OpenAI
发布日期:o1 版本的发布日期为 2024 年 9 月;o3-mini 版本的发布日期为 2025 年 1 月
参数数量:未公开披露
上下文窗口: 最多 200,000 个令牌
许可证:专有
访问:OpenAI API
输入:多模态(图像、文本)
输出:文本
AI 模型中的o1 系列包括 o1 和 o1-mini。与 OpenAI 的 GPT 模型相比,o1 系列的 LLM 配备了更先进的推理能力。 o1 和 o1-mini 均通过大规模强化学习进行训练,使其能够在做出响应之前进行“思考”。它们可以在回答问题之前生成一长串的思考过程。
o1 LLM 接受图像和文本输入,而 o1-mini 只能处理文本输入。7 与 o1 相比,o1-mini 尺寸更小、速度更快且更具成本效益。它还擅长 STEM 推理和编码。
与此同时,o3-mini 是最新推出的推理模型。与 o1-mini 类似,o3-mini 的优势在于编码、数学和科学领域。它支持函数调用,并提供三种推理强度选项(低、中、高),以针对不同场景进行优化,例如需要更多推理工作的复杂问题,或者需要快速响应且推理工作量较少的简单问题。
发布日期:Qwen 2.5 的发布日期为 2024 年 9 月,Qwen2.5-Max 的发布日期为 2025 年 1 月
参数数量: 多达 720 亿
上下文窗口:多达 100 万个词元
许可证:开源 (Apache 2.0),大型模型专有
访问:阿里云、Hugging Face
输入:多模态(音频、图像、文本、视频)
输出:文本
Qwen 是来自中国云计算公司阿里云的一系列 LLM。Qwen 包含针对音频、编码、数学和视觉任务进行优化的语言模型和变体。
Qwen 提供以下模型:
● Qwen 2.5
● Qwen Audio
● Qwen Coder
● Qwen Math
● Qwen VL
Qwen2.5 系列模型是用于多语言语言处理任务的仅解码器模型。提供 5 亿、30 亿、70 亿、140 亿、320 亿和 720 亿参数规模的不同版本。较大的模型(例如 72 亿参数的版本)仅通过阿里巴巴专有云平台的 API 访问提供。
Qwen2.5-Turbo 具有更长的上下文长度(100 万个词元)和更快的推理速度。同时,Qwen2.5-Max 是全新的大型 MoE 模型
。Qwen 2 Audio 专为基于音频的任务而构建。这个拥有 70 亿参数的模型可用于转录、检测和分类声音,处理语音命令以及识别音乐元素。
Qwen2.5 Coder 是特定于代码的 LLM。它提供的参数规格包括 15 亿、70 亿、140 亿和 320 亿个参数。
Qwen 2 Math 是一组经过数学优化的 LLM。此类模型适用于高级数学推理和解决复杂的数学问题。Qwen 2 Math 提供的参数规格包括 15 亿、70 亿和 720 亿个参数。
Qwen 2 VL 是一种将视觉处理与自然语言理解相结合的视觉语言模型。示例用例包括从视觉数据中提取信息以及为图像和视频生成标题和摘要。Qwen 2 VL 提供的参数规格包括 20 亿、70 亿和 720 亿参数。
开发商:Stability AI
发布日期:Stable LM 2 12B 的发布日期为2024 年 4 月
参数数量:多达 120 亿
上下文窗口: 4096 个令牌
许可证:Stability AI 社区许可证或 Enterprise 许可证
访问方式: Stability AI, Hugging Face
输入:文本
输出:文本
Stable LM 是 Stability AI 公司(即文本到图像模型 Stable Diffusion 的开发者)推出的一组开放式语言模型。Stable LM 2 12B 有 120 亿参数,而Stable LM 2 1.6B 则有 16 亿参数。这些仅解码器的 LLM 是在多语言数据和代码数据集上进行训练的。两个模型都包含函数调用和工具使用功能。
Stable Code 3B 是另一个在代码相关数据集上进行微调的 LLM。作为拥有 30 亿个参数的轻量级模型,Stable Code 3B 可以在设备(甚至是没有 GPU 的设备)上实时运行。
1 Model Card for C4AI Command R 08-2024,Hugging Face,访问日期:2025 年 2 月 14 日。
2 C4AI Command R+ 08-2024 模型卡,Hugging Face,访问日期:2025 年 2 月 14 日。
3 DeepSeek-R1:通过强化学习激励 LLM 的推理能力,GitHub,2025 年 1 月 23 日。
4 在 Gemini 应用程序中访问最新的 2.0 实验性模型,Google,2025 年 2 月 5 日。
5 Model Information,GitHub,2024 年 9 月 30 日。
6 Model Information,GitHub,2024 年 9 月 30 日。
7 o1 和 o1-mini,OpenAI,访问时间:2025 年 2 月 14 日。
深入了解 watsonx 组合中基础模型库,从容自信地为您的业务扩展生成式 AI。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。