7 月 23 日星期二，Meta 宣布推出多语言大型语言模型 (LLM) Llama 3.1 系列。Llama 3.1 包含经过预训练和指令微调的文本输入/文本输出开源生成式 AI 模型，大小分别为 8B、70B，且首次包含了 405B 参数。
经过指令微调的 Llama 3.1-405B 将在 IBM® watsonx.ai 上线，它是当今规模最大、功能最强大的开源语言模型，可与市场上最好的专有模型相媲美。当前，它可以在 IBM® Cloud、混合云环境或本地部署中部署。
Llama 3.1 版本是在 4 月 18 日发布 Llama 3 模型之后推出的。在随附的发布公告中，Meta 表示，“[他们的]近期目标是使 Llama 3 多语言和多模态具有更长的上下文，并继续提升推理和编码等 LLM 功能的整体性能。”
当前 Llama 3.1 的发布表明，在实现这一目标方面取得了重大进展，其中包含大幅增加上下文长度，扩大工具使用范围和提升多语言能力等。
2023 年 12 月，Meta 和 IBM 共同成立了 AI 联盟，该联盟在全球有 50 多家创始成员和合作者。AI 联盟汇聚了来自行业、初创企业、学术界、研究机构和政府中的领先组织，致力于推动 AI 的发展，以最大程度反映我们社会的需求和复杂性。自成立以来，联盟成员已发展到超过 100 家。
具体来说，AI联盟致力于建立一个开放的社区，使开发人员和研究人员能够加速开展负责任创新，同时确保信任度、安全性、可靠性、多元性、科学严谨性和经济竞争力。为此，该联盟支持制定和部署基准和评估标准的项目，帮助解决全社会面临的挑战，支持全球 AI 技能培养，并鼓励 AI 以安全、有益的方式开放式发展。
Llama 3.1 为全球 AI 社区提供了一个开放、先进的模型系列和开发生态系统，进一步推进了该使命，使社区能够构建、实验和负责任地扩展新的创意和方法。除了强大的新模型外，此次发布还包含了强大的系统级安全措施、新的网络安全评估方案以及更新的推理时防护栏。这些资源共同推动生成式 AI 信任与安全工具的开发及使用走向标准化。
4 月份的 Llama 3 公告中讨论了即将推出的具有“超过 400 亿个参数”的 Llama 模型，包括对模型性能的一些初步评估，但其确切大小和细节直到今天发布时才公布。虽然 Llama 3.1 代表了所有模型大小的重大升级，但新的 405B 开源模型实现了与领先的专有闭源 LLM 前所未有的性能对等。
Meta 今天发布的最新数据全面展现了 405B 模型与其他先进竞争产品相比所展现出的惊人实力。以下是该产品在常见基准测试中与领先 LLM 的对比情况。[1]
将 405B 与其他顶尖模型进行比较时，性能基准并不是唯一要考虑的因素。与仅能通过 API 访问且底层模型可能在不通知的情况下发生变更的闭源同类产品不同，Llama 3.1-405B 是一个稳定的平台，可以在本地构建、修改，甚至在本地运行。这种级别的可控性和可预测性对于重视一致性和可重复性的研究人员、企业和其他实体来说是一个福音。
与 Meta 一样，IBM 认为，可行开放模型的可用性有助于产生更好、更安全的产品，加速创新，并有助于打造整体健康的 AI 市场。复杂的 405B 参数开源模型的规模和功能为各种规模的组织提供了独特的机会和用例。
除了直接使用模型进行推理和文本生成（鉴于其大小和相应的计算需求，可能需要量化或其他优化方法才能在大多数硬件设置上本地运行），405B 还可用于：
为了成功推出 Llama 3.1 模型，Meta AI“强烈建议”使用像 IBM® watsonx 这样的平台来提供模型评估、安全防护栏和检索增强生成 (RAG) 的核心功能。
期待已久的 405B 模型可能是 Llama 3.1 版本中最值得注意的模型，但值得关注的远不止于此。虽然 Llama 3.1 模型与 Llama 3 共享相同的密集转换器架构，但它们在各种规模的模型上都对 Llama 3 版本实现了多项重大升级。
对于所有经过预训练和指令微调的 Llama 3.1 模型，上下文长度已从 Llama 3 中的 8,192 个词元扩大到 Llama 3.1 中的 128,000 个词元，增幅高达 1600%。这使得 Llama 3.1 的上下文长度与提供给企业用户的 GPT-4o 版本的上下文长度相同，明显大于 GPT-4（或 ChatGPT Free 中的 GPT-4o 版本），相当于 Claude 3 提供的 200,000 词元窗口。由于 Llama 3.1 可以在用户选择的硬件或云供应商平台上部署，因此在需求旺盛期，其上下文长度不会受到临时限制。同样，Llama 3.1 通常不受宽泛的使用限制约束。
模型的上下文长度（也称为上下文窗口）是指 LLM 在任何给定时间可以考虑或“记住”的文本总量（以词元为单位）。当对话、文档或代码库超过模型的最大上下文长度时，必须进行修剪或汇总，模型才能继续处理。Llama 3.1 扩展了上下文窗口，这意味着 Llama 模型现在可以进行更长的对话而不会忘记细节，并可在训练和推理过程中采集更大的文档或代码样本。
尽管将文本转换为词元并不需要任何固定的词到词元“转换率”，但一个合适的估计值是每个词大约 1.5 个词元。因此，Llama 3.1 的 12.8 万个词元上下文窗口相当于大约 85,000 个词。Hugging Face 的 Tokenizer Playground 是一种简单的途径，来查看和试验不同的模型如何对文本输入进行词元化处理。
Llama 3.1 模型继续享有为 Llama 3 推出的新词元生成器的优势，它对语言进行编码的效率比 Llama 2 高得多。
秉承负责任创新的理念，Meta 在扩展上下文长度方面采取了审慎而周全的策略。值得注意的是，之前的开源实验已经产生了 128,000 个词元窗口，甚至 100 万个词元窗口的 Llama 衍生模型。尽管这些项目是 Meta 对开放模型承诺带来优势的绝佳案例，但仍应谨慎对待：最近研究表明，在没有严格对策的情况下，非常长的上下文窗口“为 LLM 提供了丰富的新攻击面”。
幸运的是，Llama 3.1 版本还包含了一套新的推理防护机制。除了 Llama Guard 和 CyberSec Eval 的更新版本外，此次发布还引入了 Prompt Guard，该工具可提供直接和间接的提示注入过滤。Meta 通过 CodeShield 提供进一步的风险缓解，CodeShield 是一款强大的推理时过滤工具，旨在防止 LLM 生成的不安全代码进入生产系统。
与生成式 AI 的任何实施一样，在具有强大的安全、隐私和保障措施的平台上部署模型，始终是明智之举。
经过预训练和指令微调的 Llama 3.1 模型，无论大小，现在都是多语言的。除了英语之外，Llama 3.1 模型还精通其他语言，包括西班牙语、葡萄牙语、意大利语、德语和泰语。Meta 指出，“其他几种语言”仍在训练后验证阶段，可能在未来发布。
Llama 3.1 Instruct 模型针对“工具使用”进行了微调，这意味着 Meta 优化了它们与某些程序交互的能力，以补充或扩展 Llama 的功能。这包括训练模型生成针对特定搜索、图像生成、代码执行及数学推理工具的调用指令，并支持零样本工具使用，即与训练过程中未见过的工具无缝集成的能力。
Meta 的最新版本提供了一个前所未有的机会，您可以根据特定用例调整和定制真正尖端的生成式 AI 模型。
IBM 致力于进一步推动 AI 领域的开源创新，并让我们的客户能够访问 watsonx 中的同类最佳开放模型，包括第三方模型和 IBM Granite 模型系列，而对 Llama 3.1 的支持是其中的一部分。
IBM watsonx 可帮助客户以最符合自身需求的方式真正定制 Llama 3.1 等开源模型的实施，从在本地或其首选云环境中灵活部署模型，到用于微调、提示工程以及与企业应用程序集成的直观工作流程。为您的企业即时构建定制的 AI 应用程序，管理所有数据源，并加快负责任的 AI 工作流，而所有这些任务均可在一个平台上完成。
Llama 3.1-405B 将于今日在 IBM watsonx.ai 上推出，8B 和 70B 型号也将很快推出。
立即开始学习 RAG 教程，以使用 Llama 3.1-405B 和 watsonx.ai：
[1] 所引用的专有模型基准评估来自 Anthropic 于 2024 年 6 月 20 日（针对 Claude 3.5 Sonnet 和 Claude 3 Opus）和 2024 年 3 月 4 日（针对 Claude 3 Sonnet 和 Haiku）、OpenAI 于 2024 年 5 月 13 日（针对 GPT 模型）和 Google Deepmind 于 2024 年 5 月（针对 Gemini 模型）提供的自报告数据。