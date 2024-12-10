En este tutorial, aprenderá a utilizar el modelo multimodal Pixtral 12B de Mistral AI, ahora disponible en watsonx.ai, para realizar tareas multimodales, como la creación de pies de foto y la respuesta a preguntas visuales.
En septiembre de 2024, Mistral AI lanzó Pixtral 12B, un modelo de lenguaje de gran tamaño (LLM) de código abierto bajo la licencia Apache 2.0.
Con 12 mil millones de parámetros, el modelo multimodal se basa en Nemo 12B LLM de Mistral AI. Pixtral 12B tiene dos componentes: el codificador de visión para tokenizar imágenes y un decodificador de transformador multimodal para predecir el siguiente token de texto dada una secuencia de texto e imágenes. El codificador de visión tiene 400 millones de parámetros y admite tamaños de imagen variables.
El modelo sobresale en múltiples casos de uso, incluida la comprensión de gráficos, diagramas, tablas y documentos en alta resolución, que pueden utilizarse para responder a preguntas de documentos, seguir instrucciones o tareas de generación aumentada por recuperación (RAG). Además, Pixtral 12B tiene una ventana de contexto de 128 000 tokens, que permite consumir múltiples imágenes simultáneamente.
En términos de puntos de referencia, Pixtral 12B supera a varios modelos, incluidos Qwen2-VL, Gemini-1.5 Flash 8B y Claude-3 Haiku. Para ciertos puntos de referencia, incluidos DocVQA (ANLS) y VQAv2 (VQA Match), el modelo supera a GPT-4o y Claude-3.5 de OpenAI Sonnet.
Además de poder ejecutar Pixtral 12B en watsonx.ai, el modelo también está disponible a través de Hugging Face, en Le Chat, el chatbot conversacional de Mistral, o a través del endpoint de API a través de La Plateforme de Mistral.
Aunque puede elegir entre varias herramientas, este tutorial es el más adecuado para un Jupyter Notebook. Los Jupyter Notebooks se utilizan ampliamente en la ciencia de datos para combinar código con diversas fuentes de datos, como texto, imágenes y visualizaciones de datos.
Este tutorial le muestra cómo configurar una cuenta de IBM para utilizar un Jupyter Notebook.
Inicie sesión en watsonx.ai utilizando su cuenta de IBM Cloud. Tenga en cuenta que Pixtral 12B actualmente solo está disponible en las regiones de IBM Europa Frankfurt y Londres.
Cree un proyecto watsonx.ai.
Puede obtener el ID de su proyecto desde su proyecto. Haga clic en la pestaña Administrar. A continuación, copie el ID del proyecto de la sección Detalles de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.
Este paso abrirá un entorno de cuaderno en el que podrá copiar el código de este tutorial para implementar el ajuste rápido por su cuenta. También puede descargar este cuaderno en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Este Jupyter Notebook junto con los conjuntos de datos utilizados se pueden encontrar en GitHub.
Para evitar conflictos de dependencia de paquetes de Python, recomendamos configurar un entorno virtual.
Necesitaremos algunas bibliotecas y módulos para este tutorial. Asegúrese de importar los siguientes; si no están instalados, puede resolverlo con una instalación rápida de pip.
Introduzca su WATSONX_EU_APIKEY y WATSONX_EU_PROJECT_ID que ha creado en los pasos 1 y 2 al ejecutar la siguiente celda. También estableceremos la URL que sirve como endpoint de la API.
Podemos utilizar la clase Credentials para encapsular nuestras credenciales.
En este tutorial, trabajaremos con varias imágenes para aplicaciones de IA multimodal, como el subtitulado de imágenes y la detección de objetos. Se puede acceder a las imágenes que utilizaremos mediante las siguientes URL. Podemos almacenar estas URL en una lista para codificarlas iterativamente.
Para comprender mejor nuestra entrada de datos, mostremos las imágenes.
Resultado:
url_image_0
url_image_1
url_image_2
url_image_3
Para que estas imágenes sean comprensibles para el LLM, las codificaremos en bytes y luego las decodificaremos a la representación UTF-8.
Ahora que nuestras imágenes se pueden pasar al LLM, configuremos una función para nuestras llamadas a la API de watsonx. La función augment_api_request_body toma la consulta del usuario y la imagen como parámetros y amplía el cuerpo de la solicitud de API. Usaremos esta función en cada iteración.
Vamos a instanciar la interfaz del modelo usando la clase ModelInference. En este tutorial, utilizaremos el modelo mistralai/pixtral-12b.
Ahora podemos revisar nuestras imágenes para ver las descripciones de texto generadas por el modelo en respuesta a la consulta: "¿Qué está sucediendo en esta imagen?".
Resultado:
La imagen muestra un vibrante campo de flores en plena floración bajo un cielo azul claro, con el sol brillando intensamente, creando una escena serena y pintoresca.
En la imagen, una persona está sentada en una mesa, utilizando un ordenador portátil mientras sostiene una tarjeta de crédito. Hay algunas manzanas en un cuenco en la mesa junto al ordenador portátil.
Una persona está de pie junto a un coche cubierto de nieve, sosteniendo un paraguas rojo para protegerse de la nieve que cae.
La imagen muestra un flujo de trabajo para procesar y almacenar datos, probablemente para machine learning o análisis de datos. Comienza cargando datos de origen (como documentos HTML o XML), transformando los datos en un formato adecuado, realizando el embedding en un almacén de vectores, almacenando estos vectores en una base de datos y, finalmente, recuperando los datos cuando sea necesario.
El modelo Pixtral 12B pudo subtitular con éxito cada imagen con un detalle significativo.
Ahora que hemos mostrado la capacidad del modelo para realizar subtítulos de imágenes en el paso anterior, hagamos al modelo algunas preguntas que requieren detección de objetos. En cuanto a la segunda imagen que representa a la mujer comprando en línea, le preguntaremos al modelo: "¿Qué tiene la mujer en la mano?"
Output: la mujer sostiene una tarjeta de crédito en la mano.
El modelo identificó correctamente el objeto en la mano de la mujer. Ahora, indaguemos sobre el problema en la imagen del coche cubierto de nieve.
Output: probablemente el coche esté atascado en la nieve profunda, lo que dificulta o imposibilita su desplazamiento.
Esta respuesta destaca el valor que la IA multimodal tiene para dominios como los seguros. El modelo pudo detectar el problema con el coche atascado en la nieve. Esta podría ser una herramienta poderosa para mejorar el tiempo de procesamiento de reclamaciones de seguros.
A continuación, preguntemos al modelo sobre los pasos de la imagen del diagrama de flujo.
Output: El diagrama ilustra un proceso que consta de varios pasos: "Cargar", "Transformar", "Insertar", "Almacenar" y "Recuperar". Esta secuencia probablemente representa un flujo de trabajo para procesar y almacenar datos, transformándolos en vectores insertados para un almacenamiento y recuperación eficientes.
¡Genial! El modelo ha sido capaz de discernir objetos dentro de las imágenes siguiendo las consultas de los usuarios. Le animamos a probar más consultas para demostrar aún más el rendimiento del modelo.
En este tutorial, ha utilizado el modelo Pixtral 12B para realizar operaciones multimodales, como el subtitulado de imágenes y la respuesta visual a preguntas.
Para probar otros modelos multimodales, consulte este tutorial sobre el modelo multimodal Llama 3.2 de Meta en watsonx.ai.
