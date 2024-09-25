Artificial Intelligence Open source AI for the Enterprise Technology

Meta Llama 3.2 模型现已在 watsonx 上线，包括多模态 11B 和 90B 模型。

团队协作的俯视图

IBM 宣布将于 IBM 面向 AI 开发者的企业级工作室 watsonx.ai 上线多款 Llama 3.2 模型，而在今天早些时候，在 MetaConnect 大会上推出了 Llama 3.2 系列预训练和指令微调的多语言大型语言模型 (LLM)。

最值得注意的是，Llama 3.2 标志着 Meta 首次涉足多模态 AI：该版本包括 11B 和 90B 两种大小的模型，可以将图像作为输入。指令微调的 Llama 3.2 90B Vision 和 11B Vision 模型可通过 SaaS 在 watsonx.ai 中立即使用。

watsonx.ai 还推出了迄今为止最小的 Llama 模型：两个文本输入、文本输出 LLM，大小分别为 1B 和 3B。所有 Llama 3.2 模型都支持长上下文长度（长达 128K 个词元），并经过优化，可通过分组查询注意力机制进行快速高效的推理。Meta 官方指定的支持语言为英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语，但指出 Llama 3.2 的训练涵盖了这 8 种之外的其他语言，开发人员可基于此对 Llama 3.2 模型进行微调。

这些来自 Meta 的最新成员加入了 watsonx.ai 提供的庞大基础模型库，与 IBM 面向生成式 AI 的开放式多模型战略保持一致。

“通过在 watsonx 上线我们最新的 Llama 模型，更多的企业可以从这些创新中受益，并根据自己的情况在混合云环境中轻松部署我们最新的模型，”Meta GenAI 负责人 Ahmad Al-Dahle 说道。“在 Meta，我们认为必须根据每家组织的具体需求量身定制 AI 解决方案，并使他们能够轻松扩展 Llama 部署。IBM 与我们一样致力于开放、安全、可靠、信任和透明，我们与 IBM 的合作使我们能够实现这一目标。”

请继续阅读以了解有关 Llama 3.2 系列的更多详细信息，包括新的多模态功能、移动和其他边缘设备上的新部署机会、更新的安全功能等。

 

首批多模态 Llama 模型

与 Llama 系列中之前的纯文本 LLM 不同，Llama 3.2 11B 和 Llama 3.2 90B 对功能进行了扩展，以涵盖图像输入、文本输出用例，例如文档级理解、图表和图形解释以及图像描述生成。现在，开发人员可以使用功能强大的视觉推理模型，这些模型具备封闭模型的先进功能，同时又提供了开放模型的完全灵活性和可定制性。

全新的多模态 Llama 3.2 视觉 LLM 可以对高达 1120x1120 像素的高分辨率图像进行推理，从而可用于计算机视觉任务，包括分类、对象检测和识别、通过光学字符识别 (OCR) 实现的图像到文本（包括手写体）转录、上下文问答、数据提取和处理、图像比较和个人视觉辅助。

提示 watsonx 中的 Llama 根据一个女孩的照片（照片中，女孩拿着篮球，身穿短裙）推断出女孩从事的运动项目

这种多模态方法有三个关键优势。

  • 简化了微调：基础 LLM 的参数保持不变，保留模型的通用知识，并确保 Llama 3.1 版本取得的显著进步得以延续：与 8B 和 70B Llama 3.1 的同类模型相比，Llama 3.2 11B 和 90B 在数学、推理和通用知识方面略有改进。这还可能简化多模态 Llama 3.2 模型的微调过程，允许定制语言性能，且不必担心对图像推理能力造成意外后果。

  • 高效训练：与典型的多模态训练范例相比，它的效率非常高，后者通常必须更新数十亿个模型参数。例如，LLaMa-Adapter V2 背后的研究人员指出，他们专注于图像的参数仅占整个模型的 0.04%。在包含 60 亿个图像和文本对的数据集上预训练 Llama 3.2-Vision，两个模型总共需要 202 万 GPU 小时的计算量，远远低于单是预训练 Llama 3.1 70B 所花费的 700 万 GPU 小时计算量。

  • 提高速度和成本效益：仅在输入需要时，它才允许 Llama 3.2 模型利用额外的计算资源进行图像推理。这凸显了 Meta 对行业领先的输出速度和成本效益的承诺，从而针对聊天机器人和动态内容生成等时效型用例实现了高效的大规模部署和实时应用。

这两种模型在视觉语言模型 (VLM) 的常见多模态基准测试中表现良好，接近开放模型的最高分，且常常可与最先进的封闭模型媲美。例如，经过指令微调的 Llama 3.2 90B-Vision 在图表理解 (ChartQA) 方面与 OpenAI 的 GPT-4o 相当，而在解读科学图表 (AI2D) 方面则击败了 Anthropic 的 Claude 3 Opus 和 Google 的 Gemini 1.5 Pro。1

同样，Llama 3.2 11B-Vision 在同等权重类别中取得了有竞争力的基准分数，在文档视觉问答 (DocVQA) 方面击败了 Gemini 1.5 Flash 8B，在 AI2D、ChartQA 和视觉数学推理 (MathVista) 方面超过了 Claude 3 Haiku 和 Claude 3 Sonnet，在一般视觉问答 (VQAv2) 方面与 Pixtral 12B 和 Qwen2-VL 7B 并驾齐驱。2
 

轻量级 Llama 模型，几乎可以在随时随地运行

Llama 3.2 系列还包括具有 1B 和 3B 参数的变体，它们代表了迄今为止最小的 Llama 模型。

其较小的模型规模及对应的适度计算与内存需求，使得 Llama 能够在大多数硬件（包括移动设备及其他边缘设备）上本地运行。这使得 Llama 3.2 1B 和 Llama 3.2 3B 有可能引发本地应用和智能体 AI 的创新浪潮。虽然这种紧凑的高性能模型具有诸多优势，但最重要的两个优势可能是：

  • 即使在最普通的硬件（包括智能手机）上，也有机会在本地以极低延迟运行

  • 无需将敏感的专有或个人数据传输到设备外服务器，相应地能够保护用户隐私并避免网络安全问题

这些轻量级 Llama 3.2 模型在本地运行，可以作为经济高效的智能体来协调设备上的应用，包括 RAG、多语言摘要和子任务委托。它们还可用于降低实施 Llama Guard 等安全模型的成本，该模型的一个新的多模态版本也包含在 Meta 今天的发布中，并可在 watsonx 上获取

这两款全新的轻量级 Llama 模型在性能基准测试中表现出色，尤其是在与关键智能体式 AI 任务相关的测试中。例如，Llama 3.2 3B 在工具使用 (BFCL v2) 方面与规模较大的 Llama 3.1 8B 相当，而在摘要生成 (TLDR9+) 方面则表现更优，1B 在摘要和重写任务方面同样不分上下。Llama 3.2 3B 在MATH 基准测试中的表现明显优于最初的 GPT-4，这充分说明开放式 LLM 在短时间内取得了长足进步。

为什么在 IBM watsonx 中使用 Llama 模型？

随着强大的 AI 模型层出不穷，仅使用现成的解决方案建立竞争优势将变得越来越困难。Llama 开放模型在性能基准测试中可以与最强大的模型相媲美，同时还提供封闭模型无法实现的定制化、透明度和灵活性。

  • 定制化：通过提供对其模型权重和架构的直接访问，Llama 使开发人员能够根据特定需求、领域和用例定制模型。经过预训练的 Llama 3.2 模型将在未来几周内进行微调，或在 watsonx Tuning Studio 中进行持续的预训练。

  • 灵活性：IBM watsonx中 所有基础模型一样，Llama 模型可部署在任何环境中，无论是云端、本地部署还是混合环境。与将用户限制在特定公有云的其他提供商不同，watsonx 可支持开发人员充分利用 Llama 3.2 的灵活性。

  • 安全且可靠：Meta 负责任的 AI 创新方法持续催生出一系列广泛且重要的安全保障措施。Llama 3.2 系列包括更新的 Llama Guard 3 模型 Llama-Guard-3-11B-Vision，该模型提供了一组与 Llama 的全新多模态功能兼容的输入输出推理防护措施。IBM watsonx 通过动态 AI 防护措施强大的安全、隐私和保障措施，进一步增强了负责任、可问责的 AI。

  • 透明度：与闭源模型所提供的黑匣不同，Llama 生态系统提供全面的可见性、可控性和可解释性，尤其是与 IBM 强大的 AI 治理解决方案配合使用来管理和监控整个组织的 AI 时。

Llama 3.2 入门

支持 Llama 3.2 是 IBM 推动 AI 开源创新承诺的一部分，并支持我们的客户访问 watsonx 中一流的开放模型，包括第三方模型和 IBM Granite 模型系列。

从部署环境的高度灵活性，到用于微调、提示工程以及与企业应用程序集成的直观工作流，IBM watsonx 可帮助客户真正定制化 Llama 3.2 等开源模型的实施。为您的企业即时构建定制的 AI 应用程序，管理所有数据源，并加快负责任的 AI 工作流，而所有这些任务均可在一个平台上完成。

IBM watsonx.ai 现已提供以下模型：

  • Llama-3.2-90B-Vision-Instruct（文本和图像输入）
  • Llama-3.2-11B-Vision-Instruct（文本和图像输入）
  • Llama-3.2-3B-Instruct（仅文本）
  • Llama-3.2-1B-Instruct（仅文本）
  • Llama-Guard-3-11B-Vision（文本和图像输入）

在接下来的几周里，还将加入预先训练好的 Llama 3.2 模型。这些“-Instruct”模型都经过了监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF)，以更好地分别与常见用例和人类对有用性和安全性的偏好保持一致。

试用 watsonx.ai 中的 Llama 3.2 →

 

脚注

1 被引用的专有模型基准评估均来自 Anthropic 于 2024 年 6 月 20 日（针对 Claude 3 Sonnet 和 Claude 3 Opus）和 2024 年 3 月 4 日（针对 Claude 3 Sonnet 和 Haiku）、OpenAI 于 2024 年 5 月 13 日（针对 GPT 模型）以及 Google Deepmind 于 2024 年 5 月和 9 月（针对 Gemini 模型）发布的自报告数据。Anthropic 报告称，Gemini 1.5 Pro 进行了 AI2D 测试。

2 Pixtral 和 Qwen-VL 的被引用基准评估来自 Mistral AI 报告的数字

Llama 3.2 教程和资源

watsonx 中使用 Llama 3.2 的多模态 AI
教程

立即开始
2024 年最重要的人工智能趋势
文章

立即阅读
IBM watsonx.ai™交互式演示
演示

探索平台
面向企业的生成式 AI + ML
指南

注册并下载
采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai，可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据，即可在很短时间内构建 AI 应用程序。

 深入了解 watsonx.ai 预约实时演示