Costruisci un sistema QA per l'analisi delle immagini AI con Granite

Con l'evoluzione delle tecnologie basate su AI, l'analisi delle immagini sta diventando sempre più sofisticata, permettendo insight più profondi dai dati visivi. Grazie ai progressi nei modelli di machine learning, l'AI può elaborare le immagini caricate, estrarre metadati e supportare la moderazione dei contenuti su larga scala. Questi strumenti di analisi contribuiscono anche alla modellazione predittiva per applicazioni come prezzi, ottimizzazione visiva e generazione di immagini, rendendo i workflow più economici ed efficienti. Integrando approcci basati sui dati, l'AI migliora l'automazione e il processo decisionale, offrendo nuove possibilità per un'interpretazione visiva intelligente.

Casi d’uso

Con i rapidi progressi nella computer vision e nell'AI avanzata, aziende e ricercatori stanno sfruttando tecnologie basate sulle immagini per una vasta gamma di applicazioni. Dalla classificazione delle immagini e dall'OCR (riconoscimento ottico dei caratteri) fino alla segmentazione e all'analisi video, gli strumenti basati su AI stanno trasformando il modo in cui estraiamo e analizziamo le informazioni visive.

In settori come i social media, l'AI migliora la moderazione dei contenuti analizzando le immagini a livello di pixel, garantendo la conformità e migliorando il coinvolgimento. Le aziende possono anche utilizzare Vision API per l'elaborazione automatizzata dei documenti, convertendo i file scansionati, gli excel e i report in dati strutturati. Queste applicazioni semplificano i workflow, migliorano l'efficienza e permettono alle organizzazioni di estrarre insight da grandi set di dati visivi.

Questi casi d'uso evidenziano il ruolo crescente dell'analisi delle immagini basata sull'AI in diversi settori. In questo tutorial, ci concentreremo sull'applicazione di queste funzionalità alle presentazioni PowerPoint, abilitando Q&A interattive su testo e immagini grazie a modelli avanzati di computer vision e modelli AI

Q&A interattive basate sull'AI per le presentazioni

I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato il machine learning, abilitando insight intelligenti da vasti set di dati di testo non strutturato. Tuttavia, gli LLM tradizionali spesso hanno difficoltà con l'analisi delle immagini, il che rende difficile estrarre insight da grafici, diagrammi ed elementi visivi nelle presentazioni.

Il modello linguistico di grandi dimensioni (LLM) IBM Granite Vision 3.2 colma questa lacuna integrando strumenti di AI con algoritmi avanzati di rilevamento degli oggetti, consentendo agli utenti di automatizzare l'analisi multimodale. Questo tutorial dimostra come semplificare il tuo workflow utilizzando l'AI per estrarre e analizzare testo e immagini da file PowerPoint (.pptx), abilitando domande e risposte interattive per insight di presentazione migliori.

In questo tutorial imparerai a creare un sistema basato sull'AI in grado di rispondere in tempo reale alle domande degli utenti dalle diapositive di PowerPoint, utilizzando sia testo che immagini come contesto. Questo tutorial ti guiderà attraverso:

Elaborazione PowerPoint: estrae testo e immagini da file .pptx per analisi basate su AI.

Domande e risposte basate su testo: usa Granite Vision per generare risposte basate sul testo estratto dalla diapositiva.

Domande e risposte basate su immagini: chiedi all'AI di analizzare immagini, grafici e diagrammi dalle diapositive.

Formulazione ottimizzata delle domande: scopri come formulare domande efficaci per ottenere risposte AI precise e pertinenti.

Tecnologie utilizzate

Questo tutorial utilizza tecnologie AI all'avanguardia, tra cui:

1. IBM Granite Vision: un potente modello linguistico visivo (VLM) che elabora sia testo che immagini.

2. Python-PPTX: una libreria per estrarre testo e immagini dai file PowerPoint.

3. Transformers: un framework per elaborare in modo efficiente gli input dei modelli AI.

Cosa otterrai

Alla fine di questo tutorial, sarai in grado di:

1. Estrarre ed elaborare il contenuto di PowerPoint (testo e immagini).

2. Utilizzare il modello Granite Vision 3.2 per domande e risposte basate sull'AI sui contenuti delle slide.

3. Porre all'AI domande approfondite su testo e immagini.

4. Migliorare l'interazione dell'utente con le presentazioni utilizzando spiegazioni basate sull'AI.

Questo tutorial è pensato per sviluppatori di AI, ricercatori, creatori di contenuti e professionisti del settore che desiderano migliorare le proprie presentazioni con insight basati sull'AI.

Video

Prerequisiti

Per creare un progetto watsonx.ai è necessario un account IBM Cloud .

Passaggi

Passaggio 1. Configurare il tuo ambiente

Sebbene sia possibile scegliere tra diversi strumenti, questo tutorial illustra come configurare un account IBM per utilizzare un Jupyter Notebook.

Accedi a watsonx.ai utilizzando il tuo account IBM Cloud.

2. Crea un progetto watsonx.ai. Puoi ottenere l'ID del tuo progetto dall'interno del tuo progetto. Clicca sulla scheda Gestisci. Quindi, copia l'ID del progetto dalla sezione Dettagli della pagina Generali. Per questo tutorial ti serve questo ID.

3. Crea un Jupyter Notebook.

4. Carica il file PPTX come asset in watsonx.ai

Questo passaggio apre un ambiente notebook in cui è possibile copiare il codice da questo tutorial. In alternativa, puoi scaricare questo notebook sul tuo sistema locale e caricarlo nel tuo progetto watsonx.ai come asset. Questo tutorial è disponibile anche su GitHub.

Nota: questo tutorial richiede l'infrastruttura GPU per eseguire il codice, quindi consigliamo di usare watsonx.ai come illustrato in questo tutorial.

Passaggio 2: installa le dipendenze necessarie

Prima di iniziare a estrarre ed elaborare il contenuto di PowerPoint, dobbiamo installare le librerie Python necessarie:

transformers: fornisce accesso a IBM Granite Vision e ad altri modelli AI.

torch: un framework di deep learning necessario per eseguire il modello in modo efficiente.

python-pptx: una libreria per estrarre testo e immagini dai file PowerPoint (.pptx).

Esegui i seguenti comandi per installare e aggiornare questi pacchetti:

!pip install --upgrade transformers
!pip install --upgrade torch
!pip install python-pptx
!pip install botocore
!pip install ibm-cos-sdk

Passaggio 3: importa le librerie necessarie

In questa fase, importeremo le librerie necessarie per elaborare i file PowerPoint, gestire le immagini e interagire con il modello IBM Granite Vision:

os e io: per la gestione dei file e le operazioni di input/output.
torch: assicura la compatibilità con il modello AI.
pptx.Presentation: estrae testo e immagini da file PowerPoint (.pptx).
PIL.Image: elabora immagini estratte dalle diapositive.
transformers: carica IBM Granite Vision per Q&A basati sull'AI.
botocore.client.Config e ibm_boto3: gestisce l'accesso allo storage cloud (IBM® Cloud Object Storage).

import os
import io
import torch
from pptx import Presentation
from PIL import Image
from io import BytesIO
from transformers import AutoProcessor, AutoModelForVision2Seq
from botocore.client import Config
import ibm_boto3

Passaggio 4: collegati a IBM Cloud Object Storage

In questa fase, stabiliamo una connessione a IBM® Cloud Object Storage per accedere e recuperare i file PowerPoint memorizzati nel cloud.

Puoi sfruttare il supporto python, fornito tramite un fork della libreria boto3 con caratteristiche per utilizzare al meglio IBM Cloud Object Storage. Consulta la documentazione ufficiale per ottenere queste credenziali.

ibm_boto3.client: crea un client per interagire con IBM Cloud Object Storage.

ibm_api_key_id: la tua chiave API IBM Cloud per l'autenticazione.

ibm_auth_endpoint: l'endpoint di autenticazione per IBM Cloud.

endpoint_url: l'endpoint di storage specifico del cloud object storage (COS).

# IBM COS credentials
cos_client = ibm_boto3.client(
    service_name='s3',
    ibm_api_key_id='Enter your API Key',
    ibm_auth_endpoint='[Enter your auth end-point url]',
    config=Config(signature_version='oauth'),
    endpoint_url='[Enter your end-point url]'
)

Nota: quando carichi un file come asset in watsonx.ai, viene automaticamente memorizzato in IBM Cloud Object Storage. Quando successivamente importerai il file in un Jupyter Notebook, watsonx.ai genera e inserisce le credenziali necessarie (chiave API, endpoint di autenticazione e endpoint storage) nel tuo notebook. Le credenziali IBM Cloud Object Storage fornite consentono un accesso sicuro per recuperare file dallo storage, consentendo un'integrazione fluida tra asset watsonx.ai e l'ambiente notebook per ulteriori elaborazioni.

Configurando questa connessione, possiamo importare ed elaborare senza problemi le presentazioni PowerPoint memorizzate in IBM Cloud per analisi basate su AI

Passaggio 5: definisci i parametri di storage

In questo passaggio, specifichiamo il bucket e i dettagli del file IBM Cloud Object Storage per localizzare e recuperare la presentazione PowerPoint (.pptx) per l'elaborazione.

Consulta questo documento ufficiale per ottenere i dettagli della configurazione del bucket tramite l'interfaccia utente IBM Cloud.

bucket: il nome del bucket IBM Cloud Object Storage dove il file è memorizzato.

object_key: il nome esatto del file della presentazione PowerPoint da consultare

bucket = 'Enter your bucket key'
object_key = 'Application Integration client presentation.PPTX [You can replace this with your PPT name]'

Passaggio 6: Recupera il file PowerPoint da IBM Cloud Object Storage

In questo passaggio, scarichiamo il file PowerPoint (.pptx) da IBM Cloud Object Storage per elaborarlo a livello locale.

cos_client.get_object(): recupera il file dal bucket e dalla chiave dell'oggetto specificati.

streaming_body.read(): legge il contenuto del file in un flusso di byte per ulteriori elaborazioni.

# Download PPTX file from IBM COS
streaming_body = cos_client.get_object(Bucket=bucket, Key=object_key)['Body']
pptx_bytes = streaming_body.read()

Passaggio 7: salva il file PowerPoint sul percorso locale

In questo passaggio, memorizziamo il file PowerPoint scaricato (.pptx) a livello locale affinché possa essere elaborato.

pptx_path: definisce il nome locale del file dove verrà salvata la presentazione.

open(pptx_path, 'wb'): apre il file in modalità scrittura binaria per memorizzare i byte recuperati.

f.write(pptx_bytes): scrive il contenuto del file scaricato nel file .pptx appena creato.

# Save the bytes to a local PPTX file
pptx_path = "downloaded_presentation.pptx"
with open(pptx_path, 'wb') as f:
f.write(pptx_bytes)

Passaggio 8: conferma la posizione di salvataggio del file

In questo passaggio, stampiamo un messaggio di conferma per assicurarci che il file PowerPoint sia stato salvato con successo. La funzione `print` visualizza il percorso del file in cui si trova il file .pptx è memorizzato localmente.

print(f"PPTX file saved as: {pptx_path}")

Passaggio 9: estrae testo e immagini dal file PowerPoint

In questo passaggio, definiamo una funzione per elaborare il file PowerPoint (.pptx) ed estrarne il contenuto:

slide_texts: memorizza il testo estratto da ogni diapositiva.

slide_images: memorizza le immagini estratte come oggetti immagine della libreria di immagini Python (PIL), insieme ai relativi numeri di diapositiva.

Itera le diapositive per estrarre il testo dalle forme che contengono contenuti testuali e immagini incorporate nelle diapositive.

Questa funzione separa testo e immagini dal PPT, permettendo all'agente di chat di rispondere facilmente alle domande dell'utente basate sul contenuto estratto.

def extract_text_and_images_from_pptx(pptx_path):
        presentation = Presentation(pptx_path)
        slide_texts = []
        slide_images = []
        for slide_number, slide in enumerate(presentation.slides):
                # Extract text from slide
                slide_text = []
                for shape in slide.shapes:
                        if hasattr(shape, "text"):
                                slide_text.append(shape.text)
                                slide_texts.append("\n".join(slide_text))
                # Extract images from slide
                for shape in slide.shapes:
                        if hasattr(shape, "image"):
                                image_stream = BytesIO(shape.image.blob)
                                image = Image.open(image_stream)
                                slide_images.append((slide_number, image))
return slide_texts, slide_images

Passaggio 10: elabora il file PowerPoint

In questo passaggio, chiamiamo la funzione per estrarre il testo e le immagini dal file PowerPoint salvato.

pptx_path: specifica il percorso locale del file PowerPoint scaricato.

extract_text_and_images_from_pptx(pptx_path): estrae testo e immagini dalle diapositive.

slide_texts: memorizza il testo estratto da tutte le diapositive.

slide_images: memorizza le immagini estratte.

pptx_path = "downloaded_presentation.pptx"
slide_texts, slide_images = extract_text_and_images_from_pptx(pptx_path)

Passaggio 11: visualizza il testo estratto dalle diapositive

In questa fase, stampiamo il testo estratto da ogni diapositiva per verificare che il contenuto di PowerPoint sia stato elaborato correttamente.

enumerate(slide_texts): itera il testo estratto, associando ciascuno al rispettivo numero di diapositiva.

Separator ('-' * 40): aiuta a distinguere visivamente i contenuti dalle diverse slide.

# Display extracted text and images
for i, text in enumerate(slide_texts):
print(f"Slide {i + 1} Text:\n{text}\n{'-'*40}")

Passaggio 12: Visualizza le immagini estratte dalle slide

In questo passaggio, confermiamo e visualizziamo le immagini estratte dalle slide PowerPoint.

len: conta il numero totale di immagini estratte.

img.show(): apre ogni immagine estratta per la recensione.

Può sostituire `.show()` con `.save('filename.png')` per memorizzare le immagini a livello locale.

print(f"\nExtracted {len(slide_images)} images.")
for slide_num, img in slide_images:
img.show() # This will open the image, or you can save it using img.save('filename.png')

Passaggio 13: carica il modello di visione IBM Granite

In questo passaggio, inizializziamo il modello IBM Granite-Vision-3.2-2B per l'elaborazione di testo e immagini basata sull'AI

MODEL_NAME specifica il modello Granite Vision pre-addestrato da utilizzare e torch.cuda.is_available() verifica se una GPU (CUDA) è disponibile per un'elaborazione più veloce; altrimenti, si attiva di default alla CPU.

# Load IBM Granite-Vision-3.1-2B-Preview model and processor
MODEL_NAME = "ibm/granite-vision-3-2-2b"
device = "cuda" if torch.cuda.is_available() else "cpu"

Passaggio 14: Inizializza il modello e il processore

In questo passaggio, carichiamo il modello IBM Granite Vision e il relativo processore per gestire sia l'input di testo che di immagini.

AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True): carica il processore pre-addestrato per formattare gli input (testo e immagini) per il modello.

AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device): carica il modello Granite Vision e lo trasferisce al dispositivo disponibile (GPU o CPU).

dove,

trust_remote_code=True: garantisce la compatibilità con le implementazioni di modelli personalizzati.

ignore_mismatched_sizes=True: previene errori se ci sono piccole incoerenze nella dimensione del modello.

Nota: il caricamento potrebbe richiedere del tempo.

processor = AutoProcessor.from_pretrained(MODEL_NAME, trust_remote_code=True)
model = AutoModelForVision2Seq.from_pretrained(MODEL_NAME, trust_remote_code=True, ignore_mismatched_sizes=True).to(device)

Passaggio 15: implementa la chat AI basata su testo

In questo passaggio, creiamo una funzione di chat che permette agli utenti di porre domande basate sul testo estratto dalle slide PowerPoint.

Come funziona:

L'utente inserisce una domanda relativa al contenuto della slide.
L'intero testo estratto dal PPT viene formattato in una conversazione strutturata per il modello. In questo modo, il modello riceverà un testo accurato per generare la risposta specifica dal contenuto stesso del PPT.
apply_chat_template() prepara l'input per il modello AI in formato conversazionale.
model.generate() genera una risposta basata sulla query di input.
processor.decode() decodifica la risposta generata dall'AI in testo leggibile dall'uomo.
Il ciclo continua finché l'utente non digita `exit` per uscire dalla chat.

# Chat based on Text Only
def chat_with_text(model, processor, slide_texts):
    while True:
        query = input("Ask a question based on the presentation text (or type 'exit' to quit): ")
        if query.lower() == 'exit':
            break
        conversation = [
            {
                "role": "user",
                "content": [
                    {"type": "text", "text": "\n".join(slide_texts) + f"\nQuery: {query}"},
                ],
            },
        ]
        inputs = processor.apply_chat_template(
            conversation,
        add_generation_prompt=True,
        tokenize=True,
        return_dict=True,
        return_tensors="pt"
        ).to(device)
        outputs = model.generate(**inputs, max_new_tokens=150)
        response = processor.decode(outputs[0], skip_special_tokens=True)
        print("Model Response:", response)

Passaggio 16: implementa una chat AI basata su immagini

In questo passaggio, creiamo una funzione di chat che permette agli utenti di porre domande su singole immagini estratte dalle slide PowerPoint.

Come funziona:

L'utente inserisce una domanda relativa alle immagini delle diapositive.
Specificano un numero di diapositiva per fare riferimento a una particolare immagine.
L'immagine selezionata viene salvata temporaneamente come `slide_image_temp.png`.
Viene creata una conversazione strutturata, che include: (a) Il percorso del file di immagine. (b) La domanda dell'utente.
apply_chat_template() pelabora l'input in un formato adatto ai modelli AI.
model.generate() genera una risposta basata sull'immagine e sulla query.
La risposta viene decodificata e stampata per l'utente.
Il ciclo continua finché l'utente non digita exit per uscire.

# Chat based on Images Only
def chat_with_images(model, processor, slide_images):
    while True:
        query = input("Ask a question based on the presentation images (or type 'exit' to quit): ")
            if query.lower() == 'exit':
                break
            slide_num = int(input(f"Enter slide number (1 to {len(slide_images)}) to ask about its image: ")) - 1
            image = slide_images[slide_num][1]
            img_path = "slide_image_temp.png"
            image.save(img_path) # Save the image temporarily
            conversation = [
                {
                    "role": "user",
                    "content": [
                            {"type": "image", "url": img_path},
                            {"type": "text", "text": query},
                    ],
                },
            ]
            inputs = processor.apply_chat_template(
                conversation,
                add_generation_prompt=True,
                tokenize=True,
                return_dict=True,
                return_tensors="pt"
            ).to(device)
            outputs = model.generate(**inputs, max_new_tokens=150)
            response = processor.decode(outputs[0], skip_special_tokens=True)
            print("Model Response:", response)

Passaggio 17: esegui la chat AI testuale

In questa fase, chiamiamo la funzione chat_with_text, che consente all'utente di porre domande sul testo estratto dalle diapositive di PowerPoint.

Come funziona:

chat_with_text() avvia la sessione di domande e risposte basata su testo.
La funzione continua a richiedere input all'utente, rispondendo alle domande basate sul testo estratto della slide.
Il ciclo di chat continua finché l'utente non digita exit per uscire.

chat_with_text(model, processor, slide_texts)

OUTPUT

Domanda: l'integrazione è un vantaggio competitivo per la tua organizzazione?

<|assistant|>

Sì, l'integrazione è un vantaggio competitivo per la tua organizzazione. Ti aiuta a spostare più velocemente e a superare le sfide, ma può portare a costi più elevati, inefficienze, rischi per la sicurezza e esperienze di bassa qualità, mettendo in definitiva a repentaglio la competitività di un'organizzazione e la sua capacità di prosperare in un panorama in rapida evoluzione.

Poni una domanda basata sul testo della presentazione (o digita 'exit' per uscire): exit

Quando l'utente ha chiesto: "L'ntegrazione è un vantaggio competitivo per la tua organizzazione?", il modello Granite Vision ha elaborato la query utilizzando il testo della diapositiva di PowerPoint estratto e ha generato una risposta.

Il modello ha riconosciuto "integrazione" come un concetto aziendale e ha fornito una risposta strutturata dalla `slide numero 7`, spiegandone sia i benefici che i rischi. Ha evidenziato che l'integrazione migliora la velocità e la risoluzione dei problemi, ma ha anche sottolineato i potenziali svantaggi, come aumenti dei costi, inefficienze, rischi di sicurezza ed esperienza utente di bassa qualità se non gestita efficacemente.

Questa risposta dimostra la capacità del modello di interpretare il testo estratto dalla diapositiva e di generare una risposta contestualmente rilevante e ben bilanciata.

Passaggio 18: esegui la chat AI basata sulle immagini

In questo passaggio chiamiamo la funzione chat_with_images, che permette all'utente di fare domande sulle immagini estratte dalle slide PowerPoint.

Come funziona:

chat_with_images() avvia la sessione di domande e risposte basata sulle immagini.
La funzione richiede all'utente di selezionare un numero di diapositiva specifico contenente un'immagine.
L'immagine selezionata viene elaborata e formattata in una conversazione strutturata per il modello di visione.
Il modello genera una risposta basata sul contenuto dell'immagine e sulla query dell'utente.
Il ciclo continua finché l'utente non digita exit per uscire.

chat_with_images(model, processor, slide_images)

OUTPUT

Poni una domanda basata sulle immagini della presentazione (o digita 'exit' per uscire): che cos'è questa immagine?

Inserisci il numero della diapositiva (da 1 a 41) per chiedere informazioni sulla sua immagine: 2

Risposta del modello: <|system|>

Una chat tra un utente curioso e un assistente dotato di intelligenza artificiale. L'assistente fornisce risposte utili, dettagliate e cortesi alle domande dell'utente.

<|utente|>

che immagine è questa?

<|assistant|>

modello 3D

Poni una domanda basata sulle immagini della presentazione (o digita 'exit' per uscire): spiega questa immagine

Inserisci il numero della diapositiva (da 1 a 41) per chiedere informazioni sulla sua immagine: 2

Risposta del modello: <|system|>

Una chat tra un utente curioso e un assistente dotato di intelligenza artificiale. L'assistente fornisce risposte utili, dettagliate e cortesi alle domande dell'utente.

<|utente|>

spiega questa immagine

<|assistant|>

l'immagine è il modello 3d di un cubo

Poni una domanda basata sulle immagini della presentazione (oppure digita 'exit' per uscire): puoi spiegare questo grafico?

Inserisci il numero della diapositiva (da 1 a 41) per chiedere informazioni sulla sua immagine: 1

Risposta del modello: <|system|>

Una chat tra un utente curioso e un assistente dotato di intelligenza artificiale. L'assistente fornisce risposte utili, dettagliate e cortesi alle domande dell'utente.

<|utente|>

puoi spiegare questo grafico?

<|assistant|>

Ecco un grafico a barre intitolato Progressione di maturità del mercato del cloud aziendale dalla prima alla quarta generazione. L'asse delle ascisse misura la progressione delle generazioni, mentre l'asse delle ordinate traccia la progressione della maturità nel corso degli anni. Il grafico mostra che, con il passare delle generazioni, la maturità del mercato cloud aziendale aumenta.

Poni una domanda basata sulle immagini della presentazione (o digita 'exit' per uscire): exit

Quando l'utente ha posto domande relative alle immagini, il modello Granite Vision ha elaborato le immagini selezionate e ha generato risposte in base alla sua comprensione dei contenuti visivi.

Per la domanda "Che cos'è questa immagine?" (diapositiva 2), il modello ha identificato l'immagine come un "modello 3D" ma ha fornito una descrizione minima.

Per "Spiega questa immagine" (diapositiva 2), il modello ha perfezionato la sua risposta, identificandola come "il modello 3D di un cubo."

Per "Puoi spiegare questo grafico?" (slide 1), il modello forniva una descrizione dettagliata del grafico a barre, spiegando il titolo, l'asse x, l'asse y e la tendenza generale, indicando come la maturità del cloud aziendale evolve attraverso le generazioni.

Questo passaggio consente agli utenti di interagire con elementi visivi, come grafici, diagrammi e infografiche, sfruttando il modello IBM Granite Vision per analisi e spiegazioni intelligenti

Risultati principali

Il modello riconosce forme e oggetti di base, ma potrebbe fornire descrizioni generalizzate per alcune immagini.
Per i grafici e i diagrammi, fornisce insight strutturati, compresi i titoli, le etichette degli assi e le tendenze, il che lo rende utile per le presentazioni aziendali e di dati.
L'accuratezza delle risposte dipende dalla chiarezza e dalla complessità delle immagini: quelle più semplici (come i modelli 3D) possono ricevere risposte più brevi, mentre quelle strutturate (come i grafici) offrono insight più dettagliati.

Questo tutorial dimostra la capacità di IBM Granite Vision di interpretare le immagini.

Sblocca la potenza dell'AI generativa + ML

Scopri come incorporare in tutta sicurezza l'AI generativa e il machine learning nella tua azienda.

Costruisci un sistema di risposta alle domande di analisi delle immagini PPT AI con il modello di visione Granite

Casi d’uso

Q&A interattive basate sull'AI per le presentazioni

Tecnologie utilizzate

Cosa otterrai

Video

Prerequisiti

Passaggi

Passaggio 1. Configurare il tuo ambiente

Passaggio 2: installa le dipendenze necessarie

Passaggio 3: importa le librerie necessarie

Passaggio 4: collegati a IBM Cloud Object Storage

Passaggio 5: definisci i parametri di storage

Passaggio 6: Recupera il file PowerPoint da IBM Cloud Object Storage

Passaggio 7: salva il file PowerPoint sul percorso locale

Passaggio 8: conferma la posizione di salvataggio del file

Passaggio 9: estrae testo e immagini dal file PowerPoint

Passaggio 10: elabora il file PowerPoint

Passaggio 11: visualizza il testo estratto dalle diapositive

Passaggio 12: Visualizza le immagini estratte dalle slide

Passaggio 13: carica il modello di visione IBM Granite

Passaggio 14: Inizializza il modello e il processore

Passaggio 15: implementa la chat AI basata su testo

Passaggio 16: implementa una chat AI basata su immagini

Passaggio 17: esegui la chat AI testuale

Passaggio 18: esegui la chat AI basata sulle immagini

Risultati principali

Risorse