Utilice Llama 3.2-90b-vision-instruct para consultas de IA multimodal en Python con watsonx

En este tutorial, descubrirá cómo aplicar el modelo Meta Llama 3.2-90b-vision-instruct ahora disponible en watsonx.ai a tareas de visión artificial como subtitulado de imágenes y respuesta visual a preguntas.

Descripción general de la IA multimodal

Modelos de IA multimodal frente a IA unimodal

Muchos de nosotros estamos familiarizados con las aplicaciones de IA unimodal. Una herramienta popular de IA unimodal es ChatGPT. Los chatbots como ChatGPT utilizan el procesamiento de lenguaje natural (PLN) para comprender las preguntas de los usuarios y automatizar las respuestas en tiempo real. El tipo de entrada al que se pueden aplicar estos modelos de lenguaje grandes (LLM) unimodales se limita al texto.

La inteligencia artificial (IA) multimodal se basa en modelos de machine learning construidos sobre redes neuronales. Estas redes neuronales son capaces de procesar e integrar información de múltiples tipos de datos empleando técnicas de aprendizaje profundo. Estas diferentes modalidades producidas por el modelo de IA generativa, pueden incluir entrada de texto, imágenes, video y audio.

Los sistemas de IA multimodal tienen muchos casos de uso en el mundo real que van desde diagnósticos de imágenes médicas en entornos de atención médica mediante visión artificial hasta reconocimiento de voz en aplicaciones de traducción. Estos avances en tecnología de IA pueden optimizar diversos ámbitos. La principal ventaja de las arquitecturas multimodales es la capacidad de procesar diferentes tipos de datos.

IA multimodal: cómo funciona

La IA multimodal implica tres elementos:

Módulo de entrada

El módulo de entrada se basa en múltiples redes neuronales unimodales para preprocesar diferentes tipos de datos. Aquí, los datos se preparan para los algoritmos de machine learning que se ejecutan en el módulo de fusión.

Módulo de fusión

La combinación, alineación y procesamiento de datos se produce en este módulo. El proceso de fusión ocurre para cada modalidad de datos. En este módulo se utilizan comúnmente varias técnicas. Un ejemplo es la fusión temprana, en la que se combinan los datos sin procesar de todas las entradas. Además, la fusión intermedia es cuando los datos de diferentes modalidades se codifican en diferentes etapas de preprocesamiento. Por último, la fusión tardía consolida los datos después de ser procesados inicialmente en el módulo de entrada por diferentes modelos correspondientes a cada modalidad.

Módulo de salida

El módulo de salida genera resultados en el formato deseado al dar sentido a los datos producidos en el módulo de fusión. Estos resultados pueden adoptar diversas formas, como texto, imagen o una combinación de formatos.

Pasos

Consulte este video de YouTube de IBM Technology que lo guía a través de las siguientes instrucciones de configuración en los pasos 1 y 2.

Paso 1: Configuración del entorno

Si bien puede elegir entre varias herramientas, este tutorial es el más adecuado para un Jupyter Notebook. Los Jupyter Notebooks se utilizan ampliamente dentro de la ciencia de datos para combinar código con varias fuentes de datos, como texto, imágenes y visualizaciones de datos.

Este tutorial le muestra cómo configurar una cuenta de IBM para usar un Jupyter Notebook.

Inicie sesión en watsonx.ai con su cuenta de IBM Cloud.
Cree un proyecto watsonx.ai.

Puede obtener su ID de proyecto desde dentro de su proyecto. Haga clic en la pestaña Manage. Luego, copie el ID del proyecto de la sección Details de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.

Este paso abrirá un entorno de notebook donde podrá copiar el código de este tutorial para implementar el ajuste de instrucción por su cuenta. También puede descargar este Notebook en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Este Jupyter Notebook y los conjuntos de datos utilizados se pueden encontrar en GitHub.

Para evitar conflictos de dependencia de paquetes de Python, recomendamos configurar un entorno virtual.

Paso 2. Configure una instancia de watsonx.ai Runtime y una clave de API

Para este tutorial, sugerimos usar el modelo Meta 3.2-90b-vision-instruct con watsonx.ai para lograr resultados similares. Usted es libre de usar cualquier modelo de IA que admita el aprendizaje multimodal de su elección. Hay varios modelos de IA multimodal para elegir, incluidos GPT-4 V(ision) y DALL-E 3 de OpenAI, así como Gemini de Google. Asegúrese de utilizar la API adecuada si trabaja con otros modelos, ya que este tutorial está diseñado para watsonx.ai.

Cree una instancia de servicio watsonx.ai Runtime (seleccione la región adecuada y elija el plan Lite, que es una instancia gratuita).
Genere una clave de API.
Asocie la instancia del servicio watsonx.ai Runtime al proyecto que creó en watsonx.ai.

Paso 3. Instalación e importación de bibliotecas relevantes y configuración de sus credenciales

Necesitaremos algunas bibliotecas y módulos para este tutorial. Asegúrese de importar los siguientes; si no están instalados, puede resolver esto con una instalación rápida de pip.

#installations
%pip install image | tail -n 1
%pip install -U "ibm_watsonx_ai>=1.1.14" | tail -n 1
%pip install python-dotenv | tail -n 1 #imports
import requests
import base64
import os

from PIL import Image
from ibm_watsonx_ai import Credentials
from ibm_watsonx_ai.foundation_models import ModelInference
from dotenv import load_dotenv
load_dotenv(os.getcwd()+"/.env", override=True)

Para establecer nuestras credenciales, necesitamos el WATSONX_APIKEY y WATSONX_PROJECT_ID que generó en el paso 1. Puede almacenarlos en un archivo .env en su directorio o reemplazar el texto del marcador de posición. También estableceremos la URL que sirve como endpoint de la API.

WATSONX_APIKEY = os.getenv('WATSONX_APIKEY', "<YOUR_WATSONX_APIKEY_HERE>")
WATSONX_PROJECT_ID = os.getenv('WATSONX_PROJECT_ID', "<YOUR_WATSONX_PROJECT_ID_HERE>")
URL = "https://us-south.ml.cloud.ibm.com"

Podemos usar la clase credenciales para encapsular nuestras credenciales aprobadas.

credentials = Credentials(
url=URL,
api_key=WATSONX_APIKEY
)

Paso 4. Codificar imágenes

En este tutorial, trabajaremos con varias imágenes para aplicaciones de IA multimodal, como subtítulos de imágenes y detección de objetos. Se puede acceder a las imágenes que usaremos mediante las siguientes URL. Podemos almacenar estas URL en una lista para codificarlas iterativamente.

url_image_1 = 'https://assets.ibm.com/mx-es/is/image/ibm/hv6b0935?$original$'
url_image_2 = 'https://assets.ibm.com/mx-es/is/image/ibm/c30a2d57-a62b-4bb3-818895bfe2fc7bf8?$original$'
url_image_3 = 'https://assets.ibm.com/mx-es/is/image/ibm/nt170969?$original$'
url_image_4 = 'https://assets.ibm.com/mx-es/is/image/ibm/fb123b45-6530-4dd9-a758-10a7ec234d9d?$original$'

image_urls = [url_image_1, url_image_2, url_image_3, url_image_4]

Para comprender mejor nuestra entrada de datos, mostremos las imágenes.

for idx, url in enumerate(image_urls):
print(f'url_image_{idx}')
display(Image.open(requests.get(url, stream=True).raw))

Resultado:

url_image_0

url_image_1

url_image_2

url_image_3

Para codificar estas imágenes de una manera que sea digerible para el LLM, codificaremos las imágenes en bytes que luego decodificaremos a la representación UTF-8.

encoded_images = []

for url in image_urls:
encoded_images.append(base64.b64encode(requests.get(url).content).decode("utf-8"))

Paso 5. Configurar la solicitud de API y el LLM

Ahora que nuestras imágenes se pueden pasar al LLM, configuremos una función para nuestras llamadas a la API de watsonx. La función augment_api_request_body toma la consulta y la imagen del usuario como parámetros y aumenta el cuerpo de la solicitud de API. Usaremos esta función en cada iteración.

def augment_api_request_body(user_query, image):
    messages = [
        {
            "role": "user",
            "content": [{
              " tipo ": " texto ",
 " texto ": 'Eres un asistente muy útil. Responde a la siguiente consulta del usuario en 1 o 2 frases: ' + user_query
 },
 { 
                "type": "image_url",
                "image_url": {
                "url": f"data:image/jpeg;base64,{image}",
                }
            }]
        }
    ]

    return messages

Vamos a crear una instancia de la interfaz del modelo usando la clase ModelInference. En este tutorial, utilizaremos el modelo themeta-llama/llama-3-2-90b-vision-instruct.

model = ModelInference(
    model_id="meta-llama/llama-3-2-90b-vision-instruct",
    credentials=credentials,
    project_id=WATSONX_PROJECT_ID,
    params={
        "max_tokens": 200
}
)

Paso 6. Leyendas de imágenes

Ahora, podemos recorrer nuestras imágenes para ver las descripciones de texto producidas por el modelo en respuesta a la consulta "¿Qué está pasando en esta imagen?".

for i in range(len(encoded_images)):
image = encoded_images[i]
user_query = "What is happening in this image?"
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Resultado:

Esta imagen muestra una calle concurrida de la ciudad con edificios altos y automóviles, y personas caminando por la acera. La calle está llena de semáforos, árboles y letreros, y hay varias personas cruzando la calle en una intersección.
La imagen muestra a una mujer con atuendo deportivo corriendo por la calle, con un edificio y un automóvil visibles en el fondo. La mujer lleva una sudadera con capucha amarilla, leggings negros y zapatos deportivos, y parece estar haciendo un trote o carrera casual.
La imagen muestra un área inundada, con agua cubriendo el suelo y los edificios circundantes. La inundación parece ser grave, y el nivel del agua llega a los techos de algunas estructuras.
**Descripción de la imagen**

* La imagen muestra un primer plano de una etiqueta nutricional, con un dedo que la señala.
* La etiqueta proporciona información detallada sobre el contenido nutricional de un alimento específico, incluyendo:
        + Calorías
        + Grasa
        + Sodio
        + Carbohidratos
        + Otra información relevante
        * La etiqueta se muestra sobre un fondo blanco con texto negro, lo que facilita su lectura y comprensión.

El modelo Llama 3.2-90b-vision-instruct pudo colocar las leyendas correctamente en cada imagen con un detalle significativo.

Paso 7. Detección de objetos

Ahora que mostramos la capacidad del modelo para realizar conversión de imagen a texto en el paso anterior, hagamos algunas preguntas que requieren detección de objetos. Con respecto a la segunda imagen que muestra a la mujer corriendo al aire libre, le preguntaremos al modelo: "¿Cuántos autos hay en esta imagen?".

image = encoded_images[1]
user_query = "How many cars are in this image?"
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Salida: Hay un auto en esta imagen. El auto está estacionado en la calle, a la derecha del edificio.

El modelo identificó correctamente el vehículo singular en la imagen. Ahora, indaguemos sobre los daños representados en la imagen de la inundación.

image = encoded_images[2]
user_query = "How severe is the damage in this image?"
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Resultado: El daño en esta imagen es grave; las aguas de inundación cubren una parte significativa de la tierra y causan potencialmente daños extensos a las estructuras y cultivos. El nivel del agua parece estar al menos hasta la cintura, lo que podría provocar pérdidas significativas para los propietarios y agricultores de la zona.

Esta respuesta destaca el valor que tiene la IA multimodal para ámbitos como el de los seguros. El modelo fue capaz de detectar la gravedad de los daños causados a la vivienda inundada. Esta podría ser una herramienta poderosa para mejorar el tiempo de procesamiento de reclamos de seguros.

A continuación, preguntemos al modelo cuánto contenido de sodio hay en la imagen de la etiqueta nutricional.

image = encoded_images[3]
user_query = "How much sodium is in this product?"
request_body = augment_api_request_body(user_query, image)
messages = augment_api_request_body(user_query, image)
response = model.chat(messages=messages)
print(response['choices'][0]['message']['content'])

Resultado: **Contenido de sodio:** 640 miligramos (mg)

¡Excelente! El modelo pudo discernir objetos dentro de las imágenes siguiendo las consultas de los usuarios. Le recomendamos que pruebe más consultas para demostrar aún más el rendimiento del modelo.

Resumen

En este tutorial, utilizó el modelo Llama 3.2-90b-vision-instruct para realizar operaciones multimodales, incluyendo leyendas de imágenes y respuesta visual a preguntas. Para conocer más casos de uso de este modelo, le recomendamos que consulte la página de documentación oficial. Allí encontrará más información sobre los parámetros y capacidades del modelo. El resultado de Python es importante, ya que muestra la capacidad del sistema multimodal para extraer información de datos multimodales.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Recursos

La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

Lleve sus habilidades de IA generativa al siguiente nivel

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

IA en acción 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Explorar IBM Granite

IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo