什么是视觉语言模型 (VLM)？

视觉语言模型 (VLM) 是一种人工智能 (AI) 模型，其整合了计算机视觉和自然语言处理 (NLP) 功能。

VLM 学习映射文本数据与图像或视频等视觉数据之间的关系，从而允许这些模型从视觉输入生成文本或在视觉信息的上下文中理解自然语言提示。

VLM 也称为可视语言模型，它将大语言模型 (LLM) 与视觉模型或视觉机器学习 (ML) 算法相结合。

作为多模式 AI 系统，VLM 以文本和图像或视频作为输入，并产生文本作为输出，通常以图像或视频描述的形式，回答有关图像的问题或识别图像的某些部分或视频中的对象。

VLM 的要素

VLM 通常由两个关键组件组成：

语言编码器
视觉编码器

语言编码器

语言编码器捕获单词和短语之间的语义和上下文关联，并将其转换为文本嵌入，以供 AI 模型处理。

大多数 VLM 使用一种特定的神经网络架构，称为转换器模型，作为其语言编码器。转换器的示例包括 Google 的 BERT（基于转换器的双向编码器表示），这是支持当今许多 LLM 的最早的基础模型之一，以及 OpenAI 的生成式预训练转换器 (GPT)。

以下是转换器架构的简要概述：

编码器将输入序列转换为称为嵌入的数值表示，以捕捉输入序列中令牌的语义和位置。
自我关注机制允许转换器“聚焦”于输入序列中最重要的令牌上，而无论其位置如何。
解码器利用这种自我关注机制和编码器的嵌入来生成统计上最可能的输出序列。

视觉编码器

视觉编码器从图像或视频输入中提取颜色、形状和纹理等重要视觉属性，并将它们转换为机器学习模型可以处理的向量嵌入。

早期版本的 VLM 使用深度学习算法（例如卷积神经网络）进行特征提取。更现代的 VLM 采用视觉转换器 (ViT)，它应用了基于转换器的语言模型元素。

ViT 将图像处理成图块并将它们视为序列，类似于语言转换器中的词元。然后，视觉转换器会在这些图块上执行自注意力机制，从而创建一个基于转换器的输入图像表征。

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

训练 VLM

VLM 的训练策略涉及对齐和融合来自视觉和语言编码器的信息，以便 VLM 可以学习如何将图像与文本关联起来，并综合这两种模式做出决策。

VLM 训练通常采用多种方法：

对比学习
屏蔽
生成式模型训练
预训练模型

对比学习

对比学习将来自两个编码器的图像和文本嵌入映射到联合或共享的嵌入空间。VLM 在图像-文本对的数据集上进行训练，并学习最小化匹配对嵌入之间的距离并最大化不匹配对的嵌入之间的距离。

一种常见的对比学习算法是 CLIP（对比语言-图像预训练）。CLIP 使用从互联网获取的 4 亿个图像-说明对进行训练，并表现出很高的零样本分类准确性。¹

屏蔽

遮蔽是另一种训练技术，其中 VLM 学习预测输入文本或图像中随机遮挡的部分。在遮蔽语言建模中，VLM 学习填写给定的未遮蔽图像的文本说明中缺少的单词。

同时，在遮蔽的图像建模中，VLM 学习在给定未遮蔽文本说明的情况下重建图像中的隐藏像素。

FLAVA（基础语言和视觉对齐）就是使用遮蔽的模型的一个示例。FLAVA 采用视觉转换器作为图像编码器，并为语言编码器和多模态编码器采用转换器架构。

多模态编码器应用交叉注意力机制来集成文本和视觉信息。FLAVA 的训练包括遮蔽建模和对比学习。¹

生成式模型训练

VLM 的生成式模型训练要学习生成新数据。文本到图像的生成会从输入文本生成图像，而图像到文本的生成会从输入图像生成文本，例如字幕、图像描述或摘要。

流行的文本到图像模型的示例包括扩散模型，例如 Google 的 Imagen、Midjourney，OpenAI 的 DALL-E（从 DALL-E 2 开始）和 Stability AI 的 Stable Diffusion。

预训练模型

从头开始训练 VLM 可能需要大量资源且成本高昂，因此可以从预训练模型来构建 VLM。

可以使用预训练的 LLM 和预训练的视觉编码器，再加上一个映射网络层，将图像的视觉表示与 LLM 的输入空间对齐或投影。

LLaVA（大语言和视觉助手）就是根据预训练模型开发的 VLM 的一个示例。该多模态模型使用 Vicuna LLM 和 CLIP ViT 作为视觉编码器，使用线性投影器将它们的输出合并到共享维度空间中。¹

为 VLM 收集高质量的训练数据可能很繁琐，但一些现有的数据集可用于更具体下游任务的预训练、优化和微调。

例如，ImageNet 包含数百万张带注释的图像，而 COCO 则包含数千张带标签的图像，用于大规模字幕添加、对象检测和分割。同样，LAION 数据集由数十亿个多语言图像-文本对组成。

AI 学院

面向企业的生成式 AI 的兴起

了解生成式 AI 的历史兴起及其对企业的意义。

转到视频集

VLM 用例

VLM 可以弥合视觉和语言信息之间的差距。以前每种模式需要 2 个独立的 AI 模型，现在可以合并为 1 个模型。

VLM 可用于一系列视觉语言任务：

说明和摘要
图片生成
图片搜索和检索
图片分割
对象检测
视觉问题解答 (VQA)

说明和摘要

VLM 可以生成详细的图像字幕或描述。它们还可以汇总文档中的视频和视觉信息，例如医疗装置中的医学图像或制造设施中的设备维修图表。

图像生成

DAL-E、Imagen、Midjourney 和 Stable Diffusion 等文本到图像生成器可以帮助创作与书面内容相匹配的美术作品或图像。企业还可以在设计和原型制作阶段使用这些工具，帮助可视化产品创意。

图片搜索和检索

VLM 可以搜索大型图片库或视频数据库，并根据自然语言查询检索相关照片或视频。这可以改善电子商务网站上购物者的用户体验，例如，帮助他们查找特定商品或在庞大的目录中浏览。

图像分割

VLM 可以根据其从图像中学习到并提取的空间特征将图像划分为多个片段。然后，VLM 可以提供这些分段的文本描述。

它还可以生成边界框来定位对象，或提供其他形式的注释，如标签或彩色高亮，以指定与查询相关的图像部分。

这对于预测性维护非常有价值，例如，帮助分析工厂车间的图像或视频以实时检测潜在的设备缺陷。

对象检测

VLM 可以识别和分类图像中的对象，并提供上下文描述，例如对象相对于其他视觉元素的位置。

例如，物体检测可用于机器人技术，使机器人更好地了解其环境并理解视觉指令。

视觉问答 (VQA)

VLM 可以回答有关图像或视频的问题，展示视觉推理能力。这可以帮助进行图像或视频分析，甚至可以扩展到智能体式 AI 应用程序。

例如，在运输领域，AI 智能体的任务可以是分析道路检查视频和识别道路标志损坏、交通信号灯故障和路面坑洼等危险。

然后，可以提示它们制作一份维护报告，概述这些危险的位置和说明。

VLM 示例

VLM 正在迅速发展，有可能像当前先进的 LLM 一样普及。

以下是一些热门 VLM 的示例：

DeepSeek-VL2
Gemini 2.0 Flash
GPT-4o
Llama 3.2
NVLM
Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 是中国 AI 初创公司 DeepSeek 的一个开源 VLM，拥有 45 亿个参数。它由视觉编码器、视觉语言适配器和 DeepSeekMoE LLM 组成，后者采用混合专家 (MoE) 架构。

DeepSeek-VL2 有一个包含 10 亿个参数的小型变体和一个包含 28 亿个参数的小型变体。²

Gemini 2.0 Flash

Gemini 2.0 Flash 是 Google Gemini 模型套件的一部分。输入模式包括音频、图像、文本和视频，输出纯文本。图像生成功能即将推出。

GPT-4o

OpenAI 的 GPT-4o 是一个跨音频、视觉和文本数据进行端到端训练的单一模型。它可以接受音频、图像、文本和视频的混合输入，生成音频、图像和文本的任意组合输出；其由同一个神经网络处理所有输入和输出。

其较小的同类产品 GPT-4o mini 支持图像和文本输入，并生成文本输出。

Llama 3.2

Llama 3.2 开源模型包括 2 个 VLM，参数大小分别为 110 亿和 900 亿。输入可以是文本和图像的组合，输出为纯文本。³

根据 Meta 的说法，VLM 架构由 ViT 图像编码器、视频适配器和图像适配器组成。⁴单独训练的图像适配器有一系列交叉注意层，可将图像编码器表征输入预训练的 Llama 3.1 LLM。³

NVLM

NVLM 是来自 NVIDIA 的多模态模型系列。NVLM-D 是一个仅解码器模型，它将图像词元直接输入 LLM 解码器。

NVLM-X 采用交叉注意力机制来处理图像词元，在处理高分辨率图像方面可以更高效。NVLM-H 采用一种混合架构，结合了仅解码器方法和交叉注意力方法，提高了计算效率和推理能力。⁵

Qwen 2.5-VL

Qwen 2.5-VL 是中国云计算公司阿里云的旗舰 VLM。它有 30 亿、70 亿和 720 亿参数三种规模。

该模型使用 ViT 视觉编码器和 Qwen 2.5 LLM。它可以理解长度为一个小时以上的视频，并可以浏览桌面和智能手机界面。

VLM 基准

与 LLM 一样，VLM 也有自己的基准。每个基准可能都有自己的排行榜，但也有独立的排行榜，例如 Hugging Face 上发布的 OpenVLM 排行榜，它们根据各种指标对开源 VLM 进行排名。

以下是 VLM 的一些常见基准：

MathVista 是视觉数学推理的基准。
MMBench 包含一个涵盖多个评估维度的多项选择题集合，包括对象定位、光学字符识别 (OCR) 等。
大规模多学科多模态理解 (MMMU) 包含跨不同学科的多模态多项选择挑战，以衡量知识、感知和推理技能。
MM-Vet 评估不同 VLM 能力的整合，例如语言生成、空间意识等。
OCRBench 专注于 VLM 的 OCR 能力。它由 5 个组件组成：文档导向的 VQA、手写体数学表达式识别、关键信息提取、文本识别和以文本为中心的场景 VQA。
VQA 是最早的 VLM 基准测试之一。数据集包含有关图片的开放式问题。其他 VQA 衍生品包括 GQA（关于图片场景图的问答）、OK-VQA（需要外部知识进行视觉问答）、ScienceQA（科学问答）和 TextVQA（基于图片文本的视觉推理）。

对 VLM 进行基准测试可能非常耗时，但一些工具可以帮助简化该过程。VLMEvalKit 是一个开源评估工具包，允许对 VLM 进行单命令评估。另一个评估套件是 LMMs-Eval，它也提供了用于评估的命令行界面。

VLM 的挑战

与任何 AI 系统一样，VLM 仍然需要应对 AI 的风险。企业在考虑将 VLM 集成到其内部工作流中或在商业应用中实施时必须牢记这一点。

以下是与 VLM 相关的一些挑战：

偏见
成本与复杂性
泛化能力
幻觉

偏见

VLM 可以从它们训练所使用的真实世界数据中或它们用作基础的预训练模型中可能存在的偏见中学习。使用多样的数据源并在整个过程中纳入人工监督有助于减少偏见。

成本和复杂性

视觉模型和语言模型本身已经很复杂了，因此合并它们会进一步增加它们的复杂性。这种复杂性导致需要更多计算资源，从而难以大规模部署 VLM。公司必须准备好投资开发、训练和部署这些模型所需的资源。

泛化能力

在泛化方面，即模型适应新的、从未见过的数据并做出准确预测的能力方面，VLM 可能会有所欠缺。

包含异常值或边缘情况并采用零样本学习的平衡数据集可以让 VLM 适应新概念或非典型的图像-文本组合。

IBM 的 LiveXiv 可视化文档理解任务基准测试也可以提供帮助。LiveXiv 是一个动态基准，每月自动更新，用于评估 VLM 针对可能从未见过的问题和图像的表现。

幻觉

VLM 可能容易产生 AI 幻觉。验证这些模型的结果是确保它们事实准确的关键步骤。

资源

2030 年的企业：为持续创新而设计

了解我们对 2030 年最成功企业的五大预测，以及领导者可以采取哪些步骤来获得 AI 优先优势。

将你的生成式 AI 技能提升到新的水平

学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。

让 AI 充分发挥作用：利用生成式 AI 提高投资回报率

想要从 AI 投资中获得更好的回报吗？了解如何通过帮助您最优秀的人才构建和提供创新的新解决方案，在关键领域扩展生成式人工智能来推动变革。

从推行 AI 项目到实现盈利：智能体式 AI 如何维持财务回报

了解组织如何从在不同试点项目中启动 AI 转变为在核心业务中应用 AI 来推动转型。

生成式 AI 讲解

从关键概念到实际用例，IBM 出品的 Techsplainers 系列深入剖析了生成式 AI 的基本要素。清晰简短的节目可助您快速掌握基础知识。

面向 CEO 的生成式 AI 指南

了解 CEOs 如何在生成式 AI 所能创造的价值与其所需的投资和带来的风险之间取得平衡。

watsonx 开发者中心

深入了解可用于加快下一个项目的基本工具和资源。立即开始了解 IBM 提供的全系列受支持模型。

成功生成式 AI 的真相

揭示 AI 平台通过科技、流程和最佳实践来实现基础模型定制的优势，以帮助您轻松实现生成式 AI 生命周期的运营。

深入了解 IBM Granite

IBM Granite 是我们开放、高性能且值得信赖的 AI 模型系列，它专为企业而设计，并经过优化以帮助您扩展 AI 应用程序。深入了解用于语言、代码、时间序列和防护措施的模型。

如何选择合适的基础模型

了解如何为您的用例选择最合适的 AI 基础模型。

树立信任，从容自信在 AI 新时代蓬勃发展

深入了解强大 AI 战略的 3 个关键要素：创造竞争优势、在整个企业中扩展 AI 以及推进值得信赖的 AI。

脚注

所有链接均为 ibm.com 外部链接

¹ An Introduction to Vision-Language Modeling, arXiv, 27 May 2024.

² DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 December 2024.

³ Model Information, GitHub, 30 September 2024.

⁴ The Llama 3 Herd of Models , arXiv, 23 November 2024.

⁵ NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 October 2024.

什么是视觉语言模型 (VLM)？