Cree un sistema de respuesta a preguntas de análisis de imágenes de PPT AI con el modelo de visión Granite

A medida que evolucionan las tecnologías impulsadas por IA, el análisis de imágenes se vuelve cada vez más sofisticado, lo que permite obtener insights más profundos a partir de los datos visuales. Con los avances en los modelos de machine learning, la IA puede procesar imágenes cargadas, extraer metadatos y admitir la moderación de contenido a gran escala. Estas herramientas de análisis también contribuyen al modelado predictivo para aplicaciones como precios, optimización visual y generación de imágenes, lo que hace que los flujos de trabajo sean más rentables y eficientes. Al integrar enfoques basados en datos, la IA mejora la automatización y la toma de decisiones, ofreciendo nuevas posibilidades para la interpretación visual inteligente.

Casos de uso

Con los rápidos avances en visión artificial e IA avanzada, las empresas y los investigadores están aprovechando las tecnologías basadas en imágenes para una amplia gama de aplicaciones. Desde la clasificación de imágenes y el OCR (reconocimiento óptico de caracteres) hasta la segmentación y el análisis de video, las herramientas impulsadas por IA están transformando la manera en que extraemos y analizamos la información visual.

En industrias como las redes sociales, la IA mejora la moderación del contenido mediante el análisis de imágenes a nivel de píxel, lo que garantiza el cumplimiento y mejora la interacción. Las empresas también pueden utilizar Vision API para el procesamiento automatizado de documentos, convirtiendo archivos escaneados, Excel e informes en datos estructurados. Estas aplicaciones agilizan los flujos de trabajo, mejoran la eficiencia y permiten a las organizaciones extraer insights significativos de conjuntos de datos visuales a gran escala.

Estos casos de uso destacan el papel cada vez mayor del análisis de imágenes impulsado por IA en todas las industrias. En este tutorial, nos centramos en aplicar estas capacidades a las presentaciones de PowerPoint, lo que permite realizar preguntas y respuestas interactivas sobre texto e imágenes utilizando modelos avanzados de visión artificial y modelos de IA

Preguntas y respuestas interactivas impulsadas por IA para presentaciones

Los modelos de lenguaje grandes (LLM) han revolucionado el machine learning al permitir insights inteligentes a partir de vastos conjunto de datos de texto no estructurado. Sin embargo, los LLM tradicionales a menudo tienen dificultades con el análisis de imágenes, lo que dificulta extraer información de gráficos, diagramas y elementos visuales en presentaciones.

IBM® Granite Vision 3.2, un modelo de lenguaje grande (LLM), acorta esta brecha mediante la integración de herramientas de IA con algoritmos avanzados de detección de objetos, lo que permite a los usuarios automatizar el análisis multimodal. Este tutorial demuestra cómo optimizar su flujo de trabajo mediante el uso de IA para extraer y analizar texto e imágenes de archivos de PowerPoint (.pptx), lo que permite preguntas y respuestas interactivas para mejorar los insights de la presentación.

En este tutorial, aprenderá a crear un sistema impulsado por IA capaz de responder en tiempo real a las consultas de los usuarios a partir de diapositivas de PowerPoint, utilizando tanto texto como imágenes como contexto. Este tutorial le guiará a través de:

Procesamiento de PowerPoint: extraiga texto e imágenes de archivos .pptx para análisis basados en IA.

Preguntas y respuestas basadas en texto: utilice Granite Vision para generar respuestas basadas en el texto extraído de la diapositiva.

Preguntas y respuestas basadas en imágenes: solicite a la IA que analice imágenes, gráficos y diagramas de diapositivas.

Formulación optimizada de preguntas: aprenda a elaborar preguntas efectivas para obtener respuestas de IA precisas y relevantes.

Tecnologías utilizadas

Este tutorial aprovecha las tecnologías de IA de vanguardia, que incluyen:

1. IBM Granite Vision: un potente modelo de lenguaje visual (VLM) que procesa tanto texto como imágenes.

2. Python-PPTX: una biblioteca para extraer texto e imágenes de archivos PowerPoint.

3. Transformadores: un marco para procesar las entradas de los modelos de IA de manera eficiente.

Lo que logrará

Al final de este tutorial, podrá:

1. Extraer y procesar contenido de PowerPoint (texto e imágenes).

2. Utilizar el modelo Granite vision 3.2 para preguntas y respuestas impulsadas por IA sobre el contenido de las diapositivas.

3. Hacer preguntas perspicaces a la IA sobre texto e imágenes.

4. Mejorar la interacción del usuario con las presentaciones mediante el uso de explicaciones impulsadas por IA.

Este tutorial está diseñado para desarrolladores de IA, investigadores, creadores de contenido y profesionales de negocios que buscan mejorar sus presentaciones con insights impulsados por IA.

Video

Requisitos previos

Necesita una cuenta de IBM Cloud para crear un proyecto en watsonx.ai.

Pasos

Paso 1: Configuración del entorno

Si bien puede elegir entre varias herramientas, este tutorial lo guiará a través de cómo configurar una cuenta de IBM para usar un Jupyter Notebook.

Inicie sesión en watsonx.ai con su cuenta de IBM Cloud.

2. Cree un proyecto de watsonx.ai. Puede obtener su ID de proyecto desde dentro de su proyecto. Haz clic en la pestaña Manage. Luego, copie el ID del proyecto de la sección Details de la página General. Necesita este ID para este tutorial.

3. Cree un Jupyter Notebook.

4. Cargar el archivo PPTX como activo en watsonx.ai

Este paso abre un entorno de notebook donde puede copiar el código de este tutorial. También puede descargar este Notebook en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Este tutorial también está disponible en GitHub.

Nota: Este tutorial necesita infraestructura de GPU para ejecutar el código, por lo que se recomienda usar watsonx.ai como se ilustra en este tutorial.

Paso 2: Instalar las dependencias necesarias

Antes de comenzar a extraer y procesar contenido de PowerPoint, debemos instalar las bibliotecas de Python necesarias:

transformers: proporciona acceso a IBM Granite Vision y otros modelos de IA.

Torch: un marco de aprendizaje profundo necesario para ejecutar el modelo de manera eficiente.

python-pptx: una biblioteca para extraer texto e imágenes de archivos PowerPoint (.pptx).

Ejecute los siguientes comandos para instalar y actualizar estos paquetes:

!pip install --upgrade transformers
!pip install --upgrade torch
!pip install python-pptx
!pip install botocore
!pip install ibm-cos-sdk

Paso 3: Importar las bibliotecas necesarias

En este paso, importamos las bibliotecas necesarias para procesar archivos de PowerPoint, manejar imágenes e interactuar con el modelo IBM Granite Vision:

  1. os e io: para el manejo de archivos y operaciones de entrada/salida.
  2. torch: garantiza la compatibilidad con el modelo de IA.
  3. pptx.Presentation: extrae texto e imágenes de archivos de PowerPoint (.pptx).
  4. PIL.Image: procesa imágenes extraídas de diapositivas.
  5. transformers: carga IBM Granite Vision para preguntas y respuestas basadas en IA.
  6. botocore.client.Config y ibm_boto3: gestiona el acceso al almacenamiento basado en la nube (IBM Cloud Object Storage).
import os
import io
import torch
from pptx import Presentation
from PIL import Image
from io import BytesIO
from transformers import AutoProcessor, AutoModelForVision2Seq
from botocore.client import Config
import ibm_boto3

Paso 4: Conectarse a IBM Cloud Object Storage

En este paso, establecemos una conexión con IBM Cloud Object Storage para acceder a archivos de PowerPoint almacenados en la nube y recuperarlos.

Puede aprovechar el soporte de python, proporcionado a través de una bifurcación de la biblioteca boto3 con características para aprovechar al máximo IBM Cloud Object Storage. Consulte la documentación oficial para obtener estas credenciales.

ibm_boto3.client: crea un cliente para interactuar con IBM Cloud Object Storage.

ibm_api_key_id: su clave de API de IBM Cloud para la autenticación.

ibm_auth_endpoint: el endpoint de autenticación para IBM Cloud.

endpoint_url: el endpoint de almacenamiento de objetos en la nube (COS) específico.

# IBM COS credentials
cos_client = ibm_boto3.client(
    service_name='s3',
    ibm_api_key_id='Enter your API Key',
    ibm_auth_endpoint='[Enter your auth end-point url]',
    config=Config(signature_version='oauth'),
    endpoint_url='[Enter your end-point url]'
)

Nota: Cuando carga un archivo como activos en watsonx.ai, se almacena automáticamente en IBM Cloud Object Storage. Cuando más tarde importa el archivo a un Jupyter Notebook, watsonx.ai genera e inserta las credenciales necesarias (clave de API, endpoint de autenticación y endpoint de almacenamiento) en su notebook. Las credenciales proporcionadas de IBM Cloud Object Storage permiten un acceso seguro para recuperar archivos del almacenamiento, facilitando una integración fluida entre watsonx.ai Activos y el entorno del notebook para un procesamiento posterior.

Al configurar esta conexión, podemos importar y procesar perfectamente presentaciones de PowerPoint almacenadas en IBM Cloud para análisis impulsados por IA

Paso 5: Definir los parámetros de almacenamiento

En este paso, especificamos el bucket de IBM Cloud Object Storage y los detalles del archivo para localizar y recuperar la presentación de PowerPoint (.pptx) para su procesamiento.

Consulte este documento oficial para obtener los detalles de configuración del bucket a través de la interfaz de usuario (IU) de IBM Cloud.

bucket: el nombre del bucket de IBM Cloud Object Storage donde se almacena el archivo.

object_key: el nombre de archivo exacto de la presentación de PowerPoint a la que se accederá.

bucket = 'Enter your bucket key'
object_key = 'Application Integration client presentation.PPTX [You can replace this with your PPT name]'

Paso 6: Recuperar el archivo de PowerPoint de IBM Cloud Object Storage

En este paso, descargamos el archivo PowerPoint (.pptx) de IBM Cloud Object Storage para procesarlo localmente.

cos_client.get_object(): recupera el archivo del bucket y la clave objeto especificados.

streaming_body.read(): lee el contenido del archivo en un flujo de bytes para su posterior procesamiento.

# Download PPTX file from IBM COS
streaming_body = cos_client.get_object(Bucket=bucket, Key=object_key)['Body']
pptx_bytes = streaming_body.read()

Paso 7: Guardar el archivo de PowerPoint en la ruta local

En este paso, almacenamos el archivo de PowerPoint descargado (.pptx) localmente para que pueda procesarse.

pptx_path: define el nombre del archivo local donde se guardará la presentación.

open(pptx_path, 'wb'): abre el archivo en modo binario de escritura para almacenar los bytes recuperados.

f.write(pptx_bytes): escribe el contenido del archivo descargado en el archivo.pptx recién creado.

# Save the bytes to a local PPTX file
pptx_path = "downloaded_presentation.pptx"
with open(pptx_path, 'wb') as f:
    f.write(pptx_bytes)

Paso 8: Confirmar la ubicación para guardar el archivo

En este paso, imprimimos un mensaje de confirmación para asegurarnos de que el archivo de PowerPoint se guardó correctamente. La función `print` muestra la ruta del archivo donde se encuentra el archivo .pptx. almacenado localmente.

print(f"PPTX file saved as: {pptx_path}")

Paso 9: Extraer texto e imágenes del archivo de PowerPoint

En este paso, definimos una función para procesar el archivo de PowerPoint (.pptx) y extraer su contenido:

slide_texts: almacena el texto extraído de cada diapositiva.

slide_images: almacena las imágenes extraídas como objetos de imagen de la biblioteca de imágenes de Python (PIL), junto con sus números de diapositiva correspondientes.

Recorre las diapositivas para extraer texto de las formas que contienen contenido textual e imágenes insertadas en las diapositivas.

Esta función separa el texto y las imágenes del PPT, lo que permite al agente de chat responder fácilmente a las preguntas de los usuarios en función del contenido extraído.

def extract_text_and_images_from_pptx(pptx_path):
        presentation = Presentation(pptx_path)
        slide_texts = []
        slide_images = []
        for slide_number, slide in enumerate(presentation.slides):
                # Extract text from slide
                slide_text = []
                for shape in slide.shapes:
                        if hasattr(shape, "text"):
                                slide_text.append(shape.text)
                                slide_texts.append("\n".join(slide_text))
                # Extract images from slide
                for shape in slide.shapes:
                        if hasattr(shape, "image"):
                                image_stream = BytesIO(shape.image.blob)
                                image = Image.open(image_stream)
                                slide_images.append((slide_number, image))
return slide_texts, slide_images

Paso 10: Procesar el archivo de PowerPoint

En este paso, llamamos a la función para extraer texto e imágenes del archivo de PowerPoint guardado.

pptx_path: especifica la ruta local del archivo PowerPoint descargado.

extract_text_and_images_from_pptx(pptx_path): extrae texto e imágenes de las diapositivas.

slide_texts: almacena el texto extraído de todas las diapositivas.

slide_images: almacena las imágenes extraídas.

pptx_path = "downloaded_presentation.pptx"
slide_texts, slide_images = extract_text_and_images_from_pptx(pptx_path)

Paso 11: Mostrar el texto extraído de las diapositivas

En este paso, imprimimos el texto extraído de cada diapositiva para verificar que el contenido de PowerPoint se haya procesado correctamente.

enumerate(slide_texts): itera a través del texto extraído, asociando cada uno con su respectivo número de diapositiva.

Separator ('-' * 40): ayuda a distinguir visualmente el contenido de diferentes diapositivas.

# Display extracted text and images
for i, text in enumerate(slide_texts):
        print(f"Slide {i + 1} Text:\n{text}\n{'-'*40}")

Paso 12: Mostrar las imágenes extraídas de las diapositivas

En este paso, confirmamos y visualizamos las imágenes extraídas de las diapositivas de PowerPoint.

len: cuenta el número total de imágenes extraídas.

img.show(): abre cada imagen extraída para su revisión.

Puede reemplazar `.show () `por `.save ('filename.png')` para almacenar las imágenes localmente.

print(f"\nExtracted {len(slide_images)} images.")
for slide_num, img in slide_images:
        img.show() # This will open the image, or you can save it using img.save('filename.png')

Paso 13: Cargar el modelo de visión de IBM Granite

En este paso, inicializamos el modelo IBM Granite-Vision-3.2-2B para el procesamiento de texto e imágenes impulsado por IA.

MODEL_NAME especifica el modelo Granite Vision preentrenado que se va a utilizar y torch.cuda.is_available( ) comprueba si hay una GPU (CUDA) disponible para un procesamiento más rápido; de lo contrario, el valor predeterminado es la CPU.

# Load IBM Granite-Vision-3.1-2B-Preview model and processor
MODEL_NAME = "ibm/granite-vision-3-2-2b"
device = "cuda" if torch.cuda.is_available() else "cpu"

Paso 14: Inicializar el modelo y el procesador

En este paso, cargamos el modelo IBM Granite Vision y su procesador correspondiente para manejar entradas de texto e imágenes.

AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True): carga el procesador previamente entrenado para formatear las entradas (texto e imágenes) para el modelo.

AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device): Carga el modelo de Granite Vision y lo transfiere al dispositivo disponible (GPU o CPU).

donde,

trust_remote_code=True: garantiza la compatibilidad con implementaciones de modelos personalizados.

ignore_mismatched_sizes=True: evita errores si hay incongruencias menores en el tamaño del modelo.

Nota: Esto puede tardar un poco en cargarse.

processor = AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device)

Paso 15: Implemente el chat de IA basado en texto

En este paso, creamos una función de chat que permite a los usuarios hacer preguntas basadas en el texto extraído de las diapositivas de PowerPoint.

Cómo funciona:

  1. El usuario ingresa una pregunta relacionada con el contenido de la diapositiva.
  2. Todo el texto extraído del PPT se formatea en una conversación estructurada para el modelo. Esto le dará al modelo un contacto preciso para generar la respuesta específica a partir del propio contenido de PPT.
  3. apply_chat_template() prepara la entrada para el modelo de IA en un formato conversacional.
  4. model.generate() genera una respuesta basada en la consulta de entrada.
  5. procesador.decode() decodifica la respuesta generada por IA en texto legible por humanos.
  6. El bucle continúa hasta que el usuario escribe `exit` para salir del chat.
# Chat based on Text Only
def chat_with_text(model, processor, slide_texts):
    while True:
        query = input("Ask a question based on the presentation text (or type 'exit' to quit): ")
        if query.lower() == 'exit':
            break
        conversation = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "\n".join(slide_texts) + f"\nQuery: {query}"},
                ],
            },
        ]
        inputs = processor.apply_chat_template(
            conversation,
        add_generation_prompt=True,
        tokenize=True,
        return_dict=True,
        return_tensors="pt"
        ).to(device)
        outputs = model.generate(**inputs, max_new_tokens=150)
        response = processor.decode(outputs[0], skip_special_tokens=True)
        print("Model Response:", response)

Paso 16: Implementar el chat de IA basado en imágenes

En este paso, creamos una función de chat que permite a los usuarios hacer preguntas sobre imágenes individuales extraídas de las diapositivas de PowerPoint.

Cómo funciona:

  1. El usuario ingresa una pregunta relacionada con las imágenes de diapositivas.
  2. Especifica un número de diapositiva para hacer referencia a una imagen en particular.
  3. La imagen seleccionada se guarda temporalmente como `slide_image_temp.png`.
  4. Se crea una conversación estructurada, que incluye: (a) La ruta del archivo de imagen. (b) La pregunta del usuario.
  5. apply_chat_template() procesa la entrada en un formato adecuado para el modelo de IA.
  6. model.generate() genera una respuesta basada en la imagen y la consulta.
  7. La respuesta se decodifica e imprime para el usuario.
  8. El bucle continúa hasta que el usuario escribe exit para salir.
# Chat based on Images Only
def chat_with_images(model, processor, slide_images):
    while True:
        query = input("Ask a question based on the presentation images (or type 'exit' to quit): ")
            if query.lower() == 'exit':
                break
            slide_num = int(input(f"Enter slide number (1 to {len(slide_images)}) to ask about its image: ")) - 1
            image = slide_images[slide_num][1]
            img_path = "slide_image_temp.png"
            image.save(img_path) # Save the image temporarily
            conversation = [
                {
                    "role": "user",
                    "content": [
                            {"type": "image", "url": img_path},
                            {"type": "text", "text": query},
                    ],
                },
            ]
            inputs = processor.apply_chat_template(
                conversation,
                add_generation_prompt=True,
                tokenize=True,
                return_dict=True,
                return_tensors="pt"
            ).to(device)
            outputs = model.generate(**inputs, max_new_tokens=150)
            response = processor.decode(outputs[0], skip_special_tokens=True)
            print("Model Response:", response)

Paso 17: Ejecutar el chat de IA basado en texto

En este paso, llamamos a la función chat_with_text, que permite al usuario hacer preguntas sobre el texto extraído de las diapositivas de PowerPoint.

Cómo funciona:

  1. chat_with_text() inicia la sesión de preguntas y respuestas basada en texto.
  2. La función continuamente solicita entrada al usuario que haga una entrada, respondiendo preguntas basadas en el texto extraído de la diapositiva.
  3. El bucle de chat continúa hasta que el usuario escribe exit para salir.
chat_with_text(model, processor, slide_texts)

RESULTADOS

Consulta: ¿La integración es una ventaja competitiva para su organización?

<|asistente|>

Sí, la integración es una ventaja competitiva para su organización. Le ayuda a moverse más rápido y a superar los desafíos, y puede generar mayores costos, ineficiencias, riesgos de seguridad y una mala experiencia, lo que, en última instancia, pone en peligro la competitividad y la capacidad de una organización para prosperar en un escenario en rápida evolución.

Hacer una pregunta basada en el texto de la presentación (o escribir 'exit' para salir): exit

Cuando el usuario preguntó: "¿La integración es una ventaja competitiva para su organización?", el modelo Granite Vision procesó la consulta utilizando el texto extraído de la diapositiva de PowerPoint y generó una respuesta.

El modelo reconoció "integración" como un concepto de negocio y proporcionó una respuesta estructurada de la ` diapositiva número 7` explicando tanto sus beneficios como sus riesgos. Destacó que la integración mejora la velocidad y la resolución de problemas, pero también señaló posibles desventajas, como mayores costos, ineficiencias, riesgos de seguridad y una mala experiencia del usuario si no se gestiona de manera efectiva.

Esta respuesta demuestra la capacidad del modelo para interpretar el texto extraído de la diapositiva y generar una respuesta contextualmente relevante y bien equilibrada.

Paso 18: Ejecutar el chat de IA basado en imágenes

En este paso, llamamos a la función chat_with_images, que permite al usuario hacer preguntas sobre las imágenes extraídas de las diapositivas de PowerPoint.

Cómo funciona:

  1. chat_with_images() inicia la sesión de preguntas y respuestas basada en imágenes.
  2. La función da una instrucción al usuario para seleccionar un número de diapositiva específico que contenga una imagen.
  3. La imagen seleccionada se procesa y formatea en una conversación estructurada para el modelo de visión.
  4. El modelo genera una respuesta basada en el contenido de la imagen y la consulta del usuario.
  5. El bucle continúa hasta que el usuario escribe exit para salir.
chat_with_images(model, processor, slide_images)

RESULTADOS

Hacer una pregunta basada en las imágenes de la presentación (o escribir 'exit' para salir): ¿qué es esta imagen?

Ingrese el número de diapositiva (1 a 41) para preguntar sobre su imagen: 2

Respuesta del modelo: <|system|>

Una conversación entre un usuario curioso y un asistente de inteligencia artificial. El asistente ofrece respuestas útiles, detalladas y educadas a las preguntas del usuario.

<|usuario|>

¿Qué es esta imagen?

<|asistente|>

Modelo 3d

Haga una pregunta basada en las imágenes de la presentación (o escriba 'exit' para salir): explique esta imagen

Ingrese el número de diapositiva (1 a 41) para preguntar sobre su imagen: 2

Respuesta del modelo: <|system|>

Una conversación entre un usuario curioso y un asistente de inteligencia artificial. El asistente ofrece respuestas útiles, detalladas y educadas a las preguntas del usuario.

<|usuario|>

explique esta imagen

<|asistente|>

la imagen es un modelo 3d de un cubo

Haga una pregunta basada en las imágenes de la presentación (o escriba 'exit' para salir): ¿puede explicar este gráfico?

Ingrese el número de diapositiva (1 a 41) para preguntar sobre su imagen: 1

Respuesta del modelo: <|system|>

Una conversación entre un usuario curioso y un asistente de inteligencia artificial. El asistente ofrece respuestas útiles, detalladas y educadas a las preguntas del usuario.

<|usuario|>

¿puede explicar este gráfico?

<|asistente|>

Aquí hay un gráfico de barras titulado Progresión de madurez del mercado de nube empresarial de la 1ª a la 4ª generación. El eje x mide la progresión de las generaciones, mientras que el eje y traza la progresión de la madurez a lo largo de los años. El gráfico muestra que, a medida que avanzan las generaciones, aumenta la madurez del mercado de la nube empresarial.

Haga una pregunta basada en las imágenes de la presentación (o escriba 'exit' para salir): exit

Cuando el usuario hizo preguntas relacionadas con las imágenes, el modelo Granite Vision procesó las imágenes seleccionadas y generó respuestas basadas en su comprensión del contenido visual.

Para la pregunta "¿Qué es esta imagen?" (diapositiva 2), el modelo identificó la imagen como un "modelo 3D", pero proporcionó una descripción mínima.

Para "Explique esta imagen" (diapositiva 2), el modelo perfeccionó su respuesta e identificó que se trataba de "un modelo 3D de un cubo."

Para "¿Puede explicar este gráfico?" (diapositiva 1), el modelo proporcionó una descripción detallada del gráfico de barras, explicando su título, eje X, eje Y y tendencia general, indicando cómo la madurez de la nube empresarial progresa a través de generaciones.

Este paso permite a los usuarios interactuar con elementos visuales, como gráficos, diagramas e infografías, aprovechando el modelo IBM Granite Vision para análisis y explicaciones inteligentes.

Conclusiones clave

  1. El modelo reconoce formas y objetos básicos, pero puede proporcionar descripciones generalizadas para algunas imágenes.
  2. Para gráficos y diagramas, proporciona insights estructurados, incluidos títulos, etiquetas de ejes y tendencias, lo que lo hace útil para presentaciones comerciales y de datos.
  3. La precisión de las respuestas depende de la claridad y complejidad de la imagen, las imágenes más simples (como los modelos 3D) pueden recibir respuestas más cortas, mientras que las imágenes estructuradas (como los gráficos) obtienen insight más detallado.

Este tutorial demuestra la capacidad de IBM Granite Vision para interpretar imágenes.

Soluciones relacionadas
IBM Maximo Visual Inspection

Libere el poder de la visión artificial sin código para la automatización de inspecciones visuales.

Explore Maximo Visual Inspection
Consultoría y servicios de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma en que las empresas trabajan con IA para la transformación.

Explore los servicios de inteligencia artificial
Soluciones de inteligencia artificial

Ponga a trabajar la IA en su negocio con la experiencia en IA líder del sector y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Dé el siguiente paso

IBM Maximo Visual Inspection pone el poder de las capacidades de IA de visión artificial en manos de sus equipos de inspección y control de calidad. Libere el poder de la visión artificial sin código para la automatización de la inspección visual.

Explore Maximo Visual Inspection Haga un recorrido del producto