Ora possiamo scorrere le nostre immagini per vedere le descrizioni di testo prodotte dal modello in risposta alla domanda "Cosa sta succedendo in questa immagine?"

for i in range(len(encoded_images)):

image = encoded_images[i]

user_query = "What is happening in this image?"

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

Output:

Questa immagine mostra una strada cittadina trafficata, con edifici alti e automobili, e persone che camminano sul marciapiede. La strada è piena di semafori, alberi e segnali stradali e diverse persone attraversano la strada a un incrocio.

L'immagine ritrae una donna in abbigliamento sportivo che corre per strada, con un edificio e un'auto visibili sullo sfondo. La donna indossa una felpa gialla con cappuccio, leggings neri e scarpe da ginnastica e sembra impegnata nella corsa o nel jogging.

L'immagine raffigura un'area allagata, con acqua che copre il terreno e gli edifici circostanti. L'alluvione sembra essere grave, con il livello dell'acqua che raggiunge i tetti di alcune strutture.

**Descrizione dell'immagine**



* L'immagine mostra un primo piano di un'etichetta nutrizionale, con un dito che la indica.

* L'etichetta fornisce informazioni dettagliate sul contenuto nutrizionale di un alimento specifico, tra cui:

+ Calorie

+ Grassi

+ Sodio

+ Carboidrati

+ Altre informazioni rilevanti

* L'etichetta è mostrata su uno sfondo bianco con testo nero, rendendola facile da leggere e comprendere.

Il modello Llama 3.2-90b-vision-instruct è stato in grado di acquisire con successo ogni immagine con un livello di dettaglio significativo.