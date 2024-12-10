在本教程中，您将探索如何将 Mistral AI 的 Pixtral 12B 多模态模型，该模型现已通过 watsonx.ai 提供，可用于图像说明和视觉问答等多模态任务。
2024 年 9 月，Mistral AI 发布了 Pixtral 12B，这是在 Apache 2.0 许可下发布的开源大语言模型 (LLM)。
这款拥有 120 亿参数的多模态模型是基于 Mistral AI 的 Nemo 12B LLM 构建的。Pixtral 12B 包含两个组件：用于分词图片的视觉编码器，以及用于根据给定文本和图片序列预测下一文本令牌的多模态转换器解码器。视觉编码器拥有 4 亿个参数，并支持可变图片。
该模型在处理多种用例时表现出色，包括高分辨率图形、图表和文档，可用于文档问答、指令遵循或检索增强生成 (RAG) 任务。此外，Pixtral 12B 拥有 128,000 令牌的上下文窗口，允许同时处理多张图片。
在基准测试方面，Pixtral 12B 的表现优于多种模型，包括 Qwen2-VL、Gemini-1.5 Flash 8B 和 Claude-3 Haiku。对于某些基准测试，包括 DocVQA (ANLS) 和 VQAv2 (VQA Match)，该模型的性能优于 OpenAI 的 GPT-4o 和 Claude-3.5 Sonnet。
除了能够在 watsonx.ai 上运行 Pixtral 12B 外，该模型还可以通过 Hugging Face、Le Chat（Mistral 的对话式聊天机器人）或通过 Mistral 的 La Plateforme 的 API 端点获得。
请参阅 IBM 技术的 YouTube 视频，其中分步讲解了第 1 步和第 2 步的设置说明。
尽管您可以从多种工具中进行选择，但本教程最适合使用 Jupyter Notebook。Jupyter Notebook 广泛应用于数据科学领域，用于将代码与文本、图像等各种数据源以及数据可视化相结合。
本教程将引导您完成设置 IBM 帐户以使用 Jupyter Notebook 的步骤。
使用您的 IBM Cloud 帐户登录 watsonx.ai。请注意，Pixtral 12B 目前仅在 IBM 欧洲法兰克福和伦敦区域可用。
创建一个 watsonx.ai 项目。
您可以从项目内部获取项目 ID。点击管理选项卡。然后，从常规页面的详细信息部分复制项目 ID。您需要此 ID 来完成本教程。
创建一个 Jupyter Notebook。
此步骤将打开一个笔记本环境，您可以在其中复制代码，来自行实现提示微调。或者，您也可以将此笔记本下载到本地系统并将其作为资产上传到您的 watsonx.ai 项目。可以在 GitHub 上找到本 Jupyter 笔记本以及使用的数据集。
为避免 Python 包依赖关系冲突，我们建议设置虚拟环境。
学习本教程时，您将需要一些库和模块。请确保导入以下内容；如果尚未安装，可以通过快速的 pip 安装来解决。
在运行以下单元时，输入您在步骤 1 和 2 中创建的 WATSONX_EU_APIKEY 和 WATSONX_EU_PROJECT_ID。我们还将设置作为 API 端点的 URL。
我们可以使用凭据类来封装传递的凭证。
在本教程中，我们将处理多个图片，用于图像字幕和对象检测等多模态 AI 应用。我们将要使用的图片可以通过以下 URL 访问。我们可以将这些 URL 存储在一个列表中，以便迭代地对它们进行编码。
为了更好地了解我们的数据输入，让我们来展示一些图片。
输出：
url_image_0
url_image_1
url_image_2
url_image_3
为了以 LLM 可理解的方式对这些图片进行编码，我们先将图片编码为字节，然后再解码为 UTF-8 格式。
现在，我们的图片可以传递到 LLM，接下来我们为 watsonx API 调用设置一个函数。augment_api_request_body 函数将用户查询和图像作为参数，并增强 API 请求的主体。我们将在每次迭代中使用这个函数。
让我们使用 ModelInference 类来实例化模型接口。在本教程中，我们将使用 mistralai/pixtral-12b 模型。
现在，我们可以循环查看图片，查看模型针对“这张图片中发生了什么？”的询问时生成的文本描述。
输出：
这张图片描绘了一片生机勃勃的花海，天空晴朗，阳光明媚，共同构成一幅宁静而如画的景象。
在图片中，一个人坐在桌旁，使用笔记本电脑，手里还拿着一张信用卡。笔记本电脑旁边桌子上有一个碗，碗中装有一些苹果。
一个人正站在一辆被大雪覆盖的汽车旁，举着一把红色的雨伞为自己遮挡落下的雪花。
这张图片描绘了一个用于处理和存储数据的工作流程，可能是用于机器学习或数据分析。它从加载源数据（如 HTML 或 XML 文档）开始，将数据转换为合适的格式，嵌入到数值矢量，并将这些矢量存储在数据库中，并最终在需要时检索数据。
Pixtral 12B 模型能够成功地为每张图片生成非常详细的说明文字。
现在，我们已经在上一步中展示了模型执行图片说明的能力，接下来让我们向模型提出一些需要进行对象检测的问题。关于描绘女子在线购物的第二张图，片我们将询问模型：“这位女士手里拿着什么？”
输出：这位女士手里拿着一张信用卡。
该模型正确识别出该女士手中的物品。现在，让我们来询问一下关于雪中被困汽车图片的问题。
输出：这辆一似乎深陷在雪中，导致它难以或无法移动。
这一回复凸显了多模态 AI 对保险等领域的价值。该模型能够检测到雪中被困汽车的问题。这对于改进保险理赔处理时间来说，可能是一个强大的工具。
接下来，我们来问问模型关于流程图图片中的步骤。
输出：该图展示了包含多个步骤的流程：“加载”、“转换”、“嵌入”、“存储”和“检索。该序列可能代表了一个处理和存储数据的工作流，将数据转换为嵌入式矢量，以实现高效的存储和检索。
太棒了！该模型能够根据用户查询，识别出图片中的对象。我们鼓励您尝试更多查询，以进一步展示该模型的性能。
在本教程中，您使用了 Pixtral 12B 模型执行包括图片说明和视觉问答在内的多模态操作。
要尝试其他多模态模型，请查阅 watsonx.ai 上关于 Meta 多模态模型 Llama 3.2 的教程。
