什么是 Llama 2？| IBM

发布日期： 2023 年 12 月 19 日
撰稿人：Dave Bergmann

什么是 Llama 2？

Llama 2 是 Meta AI 于 2023 年发布的一系列经过预训练和微调的大型语言模型 (LLM)。 Llama 2 AI 模型免费发布用于研究和商业用途，能够执行从文本生成到编程代码的各种自然语言处理 (NLP) 任务。

Llama 2 模型系列提供基础模型和微调的“聊天”模型，作为原始 LLaMa 1 模型的后续版本，该模型于 2022 年根据非商业许可发布，仅允许研究机构根据具体情况访问权限。与前代产品不同，Llama 2 模型可免费用于 AI 研究和商业用途。

因此，Meta 的 Llama 模型旨在在生成式 AI 生态系统的民主化中发挥重要作用。正如 Llama 2 研究论文（链接位于 ibm.com 外部）中所述，目前为止，通过自监督式学习预训练自回归 LLM 的方法相对简单且易于理解，但该过程所需的巨大计算要求很大程度上限制了尖端 LLM 的发展仅限于少数关键参与者。因为大多数最先进的 LLM，如 OpenAI 的 GPT、Anthropic 的 Claude 和 Google 的 BARD 都是专有（且大规模）的闭源模型，公共 AI 研究访问可能有助于了解这些模型的工作方式和原因，以及如何更好地使其发展与人类利益保持一致，但受到了明显的限制。

除了免费提供其代码和模型权重之外，Llama 项目还专注于提高较小模型的性能，而不是通过增加参数计数。大多数著名的闭源模型拥有数千亿个参数，而 Llama 2 模型则提供 70 亿个 (7B)、130 亿个 (13B) 或 700 亿个参数 (70B)。

这使得初创公司和研究社区成员等小型组织能够部署 Llama 2 模型（或 AI 社区开发的基于 Llama 的模型）的本地实例，而无需昂贵的计算时间或基础架构投资。

了解更多：IBM 将在其 Watsonx AI 和数据平台中提供 Llama 2

Llama 2 与 LLaMa 1

Llama 2 研究论文详细介绍了新一代 AI 模型与原始 LLaMa 模型相比具有的几个优势。

扩展上下文长度：Llama 2 模型提供 4,096 个令牌的上下文长度，是 LLaMa 1 的两倍。上下文长度（或上下文窗口）是指模型在推理（即生成文本或正在进行的对话）期间“记住”的最大令牌数。这样，自然语言就更加复杂，交流也更加连贯流畅。
提高可访问性：LLaMa 1 专为研究用途而发布，而 Llama 2 可供任何组织（活跃用户少于 7 亿）使用。
更强大的训练：Llama 2 使用增加 40% 的数据进行预训练，增强其知识库和上下文理解。此外，与 LLaMa 1 不同，Llama 2 聊天模型使用基于人类反馈的强化学习 (RLHF) 进行微调，有助于更好地将模型响应与人类期望保持一致。

AI 数据存储

了解将数据湖仓一体策略集成到您的数据架构的强大功能，包括扩展 AI 的增强功能和成本优化机会。

相关内容

立即注册，获取 IDC 报告

Llama 2 是开源的吗？

尽管 Meta 已免费提供 Llama 2 模型的起始代码和模型权重以供研究和商业用途，但其许可协议中的某些限制引起了关于是否可以正确地将其称为“开源”的争论。

这场争论具有些许技术性和语义性：尽管“开源”通常通俗地用来指任何免费发布源代码的软件（或其他编程工具），但它实际上是由开源倡议 (OSI) 管理的正式名称。仅当 OSI 认为给定软件许可证满足官方开源定义 (OSD) （链接位于 ibm.com 外部）中列出的十项要求时，OSI 才会将给定软件许可证认证为“开源倡议已批准”。

正如 OSI 执行董事 Stefano Maffulli 在一份声明中所述，“OSI 很高兴看到 Meta 正在降低访问强大 AI 系统的障碍。不幸的是，这家科技巨头造成了误解，认为 LLaMa 2 是“开源”——事实并非如此。” ¹

这种差异源于 Llama 2 许可协议的两个方面：

月活跃用户超过 7 亿的任何组织必须向 Meta 申请许可证（由 Meta 自行决定是否授予）。²
“可接受的使用政策”禁止将模型用于暴力、犯罪活动和冒充人类，以及其他法律和道德限制。

这些限制与 OSD 的两点规定相矛盾：

第 5 点：“许可证不得歧视任何个人或群体。”³
第 6 点：“许可证不得限制任何人在特定的工作领域使用该程序。” ³

为了承认 Llama 2 的开放精神及其未能满足“开源”的技术定义，科技界的一些人使用了“开放方法”一词。⁴

Llama 2 如何运作？

Llama 2 基本模型是经过预训练的基础模型，旨在针对特定用例进行微调，而 Llama 2 聊天模型已经针对对话进行了优化。

Llama 2 基本模型

Llama 2 是一个基于 Transformer 的自回归因果语言模型系列。自回归语言模型将一系列单词作为输入，并递归地预测（输出）下一个单词。

在自监督式预训练期间，LLM 会获得从大量未标注数据的语料库中提取的例句开头，并负责预测下一个单词。在训练模型以最小化真实情况（实际的下一个单词）与其自身预测之间的差异时，模型学习复制训练数据中的语言和逻辑模式。尽管该研究论文明显省略了特定数据源的细节，但它指出 Llama 2 使用来自公开来源的 2 万亿个令牌进行训练，这些标记是基于 Transformer 的神经网络用于语言处理的数字表示的单词、单词部分、短语和其他语义片段。

从根本上讲，基础模型并不是为了真正回答提示而预先训练：它们是以语法连贯的方式将文本附加到提示中。开箱即用的基础模型可能会用“参加节日聚会”来响应“教我烤饼干”的提示。需要通过监督式学习和强化学习等技术进一步微调，为对话、指令遵循或创意写作等特定应用训练基础模型。

相反，Llama 2 基本模型旨在作为构建特定用途模型的基础。迄今为止，Llama 2（和最初的 LLaMa）模型已成为多个著名开源 LLM 的基础，包括：

Alpaca：LLaMa 7B 的一个版本，针对斯坦福大学研究人员的指令进行了微调。值得注意的是，尽管计算资源成本仅为 600 美元，但它却取得了与 GPT-3.5 相媲美的结果。⁵
Vicuna：LMSYS Org 的聊天助手模型，通过对 ShareGPT 的用户对话微调 Llama 2 13B 进行训练（ibm.com 外部链接）。在超过 90％的案例中，它的表现都优于 Alpaca，而训练成本仅为 300 美元。⁶
Orca：Llama 2 的微调版本，由 Microsoft 使用“师生”方案进行训练，其中使用更强大的大型 LLM 来生成有用的推理行为示例，供较小的模型遵循。 ⁷
WizardLM：使用 Evol-Instruct（一种使用 LLM 创建大量合成指令数据的方法）进行微调，WizardLM 在评估的 29 项技能中的 17 项实现了 ChatGPT 90% 以上的性能。 ⁸

Llama 2 聊天模型

Llama-2-chat 模型针对对话驱动的用例进行了微调，类似于 ChatGPT 中使用的特定 GPT 模型版本。

监督式微调 (SFT) 用于启动预训练的 Llama 2 基本型，以在聊天机器人或虚拟代理设置中以用户期望的格式生成响应。在一系列监督式学习任务中，注释为（提示、响应）的标注对话式交流对将用来训练模型，以最小化模型自己对给定提示的响应与标注数据提供的示例响应之间的偏差。例如，该模型因此学会了对“教我烤饼干”提示的正确响应是，提供烤饼干的实际指导，而不仅仅是完成句子。

该论文指出，Meta AI 收集了 27,540 个带注释的样本，而不是使用数百万个标注示例，而是通过使用“更少但更高质量的示例”来改善结果。

继 SFT 之后，Meta 使用基于人类反馈的强化学习 (RLHF)，进一步使聊天模型的行为与人类偏好和指令保持一致。在 RLHF 中，直接的人类反馈用于训练“奖励模型”，以学习人类喜欢的响应模式。通过将奖励模型的预测（关于人类是否喜欢给定的响应）转换为标量奖励信号，然后使用奖励模型通过强化学习进一步训练 Llama-2-chat。

收集人类反馈意见的方法和形式多种多样。 Meta AI 使用一种简单的二进制比较方法：要求人类注释者编写提示，然后根据 Meta 提供的标准，在 Llama 2 的两个不同变体生成的两个模型响应之间进行选择。为了帮助奖励模型正确权衡这些选择，还要求注释者对自己选择的响应的偏爱程度进行评分：“明显好很多”、“稍好一点”或“差不多/不确定”。

人类偏好用来训练两种独立的奖励模型：一种针对有用性进行优化，另一种针对安全性进行优化（即，避免有害、仇恨的响应或可能用来协助暴力或犯罪活动的响应）。除了近端策略优化 (PPO)，该算法通常用于更新 RLHF 中的 LLM 模型权重，Meta 还使用了拒绝采样 （链接位于 ibm.com 外部）更新 Llama-2-chat-70B。

Code Llama

Code Llama 构建于 Llama 2 之上，经过微调，可根据基于代码和基于自然语言的提示生成代码（以及关于代码的自然语言）。在 Llama 2 基本型和聊天型发布后不久推出，可免费用于研究和商业用途。

它支持大多数流行的编程语言，包括 Python、C++、Java、PHP 和 Javascript 等，模型大小为 7B、13B 和 34B 参数，上下文长度高达 100,000 个令牌。另外两个变体 Code Llama - Python 和 Code Llama - Instruct 分别针对 Python（和 PyTorch）和指令跟踪进行了微调。

Llama 2 与闭源模型

相对于其闭源竞争对手，Llama 2 模型在安全性和事实准确性等方面表现出色。尽管 Llama 2 可能无法与更大模型的全部功能相媲美，但其开放可用性和更高的效率呈现出独特的优势。

在将 Llama 2 与 OpenAI、Anthropic 和 Google 等竞争对手的旗舰专有模型进行比较时，必须考虑规模问题。尽管闭源模型并不总是公开其架构的全部细节，但现有信息强烈表明它们都远远超过了最大的 Llama 2 模型的 700 亿个参数：

GPT-3 有 1,750 亿个参数。
GPT-4 估计有 1 万亿个参数。 ⁹
据报道，谷歌的 PalM 2 有 3,400 亿个参数。¹⁰ 它的前身 PalM 有 5,400 亿个参数。¹¹
Anthropic 尚未发布 Claude 模型的参数计数，但最近的一篇论文表明 Claude 2 存在 1,750 亿个参数版本。¹²

人工评价
根据 Llama 2 研究论文，人类评估者更喜欢 Llama-2-chat 70B 响应，而不是 GPT-3.5.-turbo-0301（ChatGPT 的标准模型）：Llama 2 响应的胜率为 36%，并列平局率为 31.5%。相对于第二大 PaLM 模型 PaLM Bison，70B 胜率超过 50%。

安全性
在 Meta 的测试中，7B、13B 和 70B Llama 2 模型的安全违规百分比均明显低于 PaLM Bison，分别为 3% 和 4%，而 PaLM 为 27%，安全违规百分比也低于 ChatGPT 的 7%。这是企业用例的主要优势，在企业用例中，聊天机器人的有害、仇恨或煽动性语言可能会产生重大后果。

隐私和效率
与大型闭源模型相比，较小的开放模型的固有优势是企业可以自由运行本地模型实例，并且无需对基础架构或云计算进行大量投资即可实现成本效益。运行本地模型可确保专有代码、训练修改和专有数据可用于微调模型性能，而无需加载到商业服务器或可能用于未来的闭源模型训练。此外，较小模型（例如 7B 和 13B 变体）可以在处理能力有限的移动应用程序等环境中实现更流畅的性能。

如何使用 Llama 2

Llama 2 没有自己的专用 API，但可以通过多个提供商访问。

通过 IBM 与 Hugging Face 的合作，Llama-2-13B-chat 和 Llama-2-70B-chat 是 watsonx 中可用的众多基础模型之一。
Llama 2 的模型权重和起始代码可以直接从 Github 下载，其中 Meta 还提供了Llama 2 的说明、演示和“食谱”（链接位于 ibm.com 外部）。这些模型可以在 PyTorch 或 LangChain 等开源机器学习框架中实现。
除了许多基于云的初创公司之外，Llama 2 还可以通过 Hugging Face 等开源提供商和 Microsoft Azure、Amazon Sagemaker 和 Bedrock 等企业提供商获得。

脚注