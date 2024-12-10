En este tutorial, descubrirá cómo aplicar el modelo multimodal Pixtral 12B de Mistral IA, ya disponible en watsonx.ai para tareas multimodales como las leyendas de imágenes y la respuesta visual a preguntas.
En septiembre de 2024, Mistral AI lanzó Pixtral 12B, un modelo de lenguaje grande (LLM) de código abierto bajo la licencia Apache 2.0.
Con 12 000 millones de parámetros, el modelo multimodal se basa en Nemo 12B LLM de Mistral IA. Pixtral 12B tiene dos componentes: el codificador de visión para tokenizar imágenes y un decodificador transformador multimodal para predecir el siguiente token de texto dada una secuencia de texto e imágenes. El codificador de visión tiene 400 millones de parámetros y admite tamaños de imagen variables.
El modelo sobresale en múltiples casos de uso, incluida la comprensión de gráficos, diagramas, tablas y documentos en alta resolución, que pueden usarse para responder preguntas de documentos, seguir instrucciones o tareas de generación aumentada por recuperación (RAG, por sus siglas en inglés). Además, Pixtral 12B tiene una ventana de contexto de 128 000 tokens, lo que permite el consumo de varias imágenes simultáneamente.
En términos de puntos de referencia, Pixtral 12B supera a varios modelos, incluidos Qwen2-VL, Gemini-1.5 Flash 8B y Claude-3 Haiku. Para ciertos puntos de referencia, incluidos DocVQA (ANLS) y VQAv2 (VQA Match), el modelo supera a GPT-4o y Claude-3.5 de OpenAI Sonnet.
Además de poder ejecutar Pixtral 12B en watsonx.ai, el modelo también está disponible mediante Hugging Face, en Le Chat, el chatbot conversacional de Mistral, o mediante el endpoint a través de La Plateforme de Mistral.
Consulte este IBM video de YouTube de Tecnología que lo guía a través de las siguientes instrucciones de configuración en los pasos 1 y 2.
Si bien puede elegir entre varias herramientas, este tutorial es el más adecuado para un Jupyter Notebook. Los Jupyter Notebooks se utilizan ampliamente dentro de la ciencia de datos para combinar código con varias fuentes de datos, como texto, imágenes y visualizaciones de datos.
Este tutorial le muestra cómo configurar una cuenta de IBM para usar un Jupyter Notebook.
Inicie sesión en watsonx.ai con su cuenta de IBM Cloud. Tenga en cuenta que Pixtral 12B actualmente solo está disponible en las regiones de IBM Europa Frankfurt y Londres.
Cree un proyecto watsonx.ai.
Puede obtener su ID de proyecto desde dentro de su proyecto. Haga clic en la pestaña Manage. Luego, copie el ID del proyecto de la sección Details de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.
Este paso abrirá un entorno de notebook donde podrá copiar el código de este tutorial para implementar el ajuste de instrucción por su cuenta. También puede descargar este Notebook en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Este Jupyter Notebook y los conjuntos de datos utilizados se pueden encontrar en GitHub.
Para evitar conflictos de dependencia de paquetes de Python, recomendamos configurar un entorno virtual.
Necesitaremos algunas bibliotecas y módulos para este tutorial. Asegúrese de importar los siguientes; si no están instalados, puede resolver esto con una instalación rápida de pip.
Ingrese su WATSONX_EU_APIKEY y WATSONX_EU_PROJECT_ID que creó en los pasos 1 y 2 al ejecutar la siguiente celda. También estableceremos la URL que sirve como endpoint de la API.
Podemos usar la clase credenciales para encapsular nuestras credenciales pasadas.
En este tutorial, trabajaremos con varias imágenes para aplicaciones de IA multimodal, como leyendas de imágenes y detección de objetos. Se puede acceder a las imágenes que usaremos mediante las siguientes URL. Podemos almacenar estas URL en una lista para codificarlas iterativamente.
Para comprender mejor nuestra entrada de datos, mostremos las imágenes.
Resultado:
url_image_0
url_image_1
url_image_2
url_image_3
Para codificar estas imágenes de una manera que sea digerible para el LLM, codificaremos las imágenes en bytes que luego decodificaremos a la representación UTF-8.
Ahora que nuestras imágenes se pueden pasar al LLM, configuremos una función para nuestras llamadas a la API de watsonx. La función augment_api_request_body toma la consulta y la imagen del usuario como parámetros y aumenta el cuerpo de la solicitud de API. Usaremos esta función en cada iteración.
Vamos a crear una instancia de la interfaz del modelo usando la clase ModelInference. En este tutorial, utilizaremos el modelo mistralai/pixtral-12b.
Ahora, podemos recorrer nuestras imágenes para ver las descripciones de texto producidas por el modelo en respuesta a la consulta "¿Qué está pasando en esta imagen?".
Resultado:
La imagen muestra un vibrante campo de flores en plena floración bajo un cielo azul claro, con el sol brillando intensamente, creando una escena serena y pintoresca.
En la imagen, una persona está sentada en una mesa, usa una computadora portátil mientras sostiene una tarjeta de crédito. Hay algunas manzanas en un bol sobre la mesa junto a la computadora portátil.
Una persona está de pie junto a un automóvil cubierto de nieve, sosteniendo un paraguas rojo para protegerse de la nieve que cae.
La imagen muestra un flujo de trabajo para procesar y almacenar datos, probablemente para machine learning o análisis de datos. Comienza cargando datos de origen (como documentos HTML o XML), transformando los datos en un formato adecuado, incorporándolos en un almacén de vectores, almacenando estos vectores en una base de datos y finalmente recuperando los datos cuando sea necesario.
El modelo Pixtral 12B pudo colocar las leyendas con éxito en cada imagen con un detalle significativo.
Ahora que hemos mostrado la capacidad del modelo para colocar leyendas de imágenes en el paso anterior, hagámosle al modelo algunas preguntas que requieren detección de objetos. Con respecto a la segunda imagen que representa a la mujer comprando en línea, le preguntaremos al modelo "¿Qué tiene la mujer en la mano?".
Resultado: La mujer sostiene una tarjeta de crédito en la mano.
El modelo identificó correctamente el objeto en la mano de la mujer. Ahora, indaguemos sobre el problema en la imagen del automóvil cubierto de nieve.
Resultados: Es probable que el automóvil esté atascado en la nieve profunda, lo que le dificulta o imposibilita moverse.
Esta respuesta destaca el valor que tiene la IA multimodal para ámbitos como el de los seguros. El modelo pudo detectar el problema con el automóvil atascado en la nieve. Esta podría ser una herramienta poderosa para mejorar el tiempo de procesamiento de reclamos de seguros.
A continuación, preguntemos al modelo sobre los pasos de la imagen del diagrama de flujo.
resultados: El diagrama ilustra un proceso que implica varios pasos: "Cargar", "Transformar", "Insertar", "almacenar" y "Recuperar". Esta secuencia probablemente representa un flujo de trabajo para procesar y almacenar datos, transformándolos en vectores integrados para almacenamiento y recuperación eficientes.
¡Excelente! El modelo pudo discernir objetos dentro de las imágenes siguiendo las consultas de los usuarios. Le recomendamos que pruebe más consultas para demostrar aún más el rendimiento del modelo.
En este tutorial, utilizó el modelo Pixtral 12B para realizar operaciones multimodales, incluidas las leyendas de imágenes y la respuesta visual a preguntas.
Para probar otros modelos multimodales, consulte este tutorial sobre el modelo multimodal Llama 3.2 de Meta en watsonx.ai.
Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.
Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.
Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.
¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.
Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.
IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.
Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.