モデルが画像からテキストへの変換を実行する能力について実演したので、物体の検知を必要とするいくつかの質問をモデルに尋ねてみましょう。屋外で走っている女性を描いた2番目の画像について、「この画像には何台の車がありますか？」とモデルに聞きます。

image = encoded_images[1]

user_query = "How many cars are in this image?"

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：この画像には1台の車がいます。車は建物の右側の路上に駐車されています。

モデルは画像内の単一の車両を正しく識別しました。それでは、洪水の画像に示されている被害状況について質問しましょう。

image = encoded_images[2]

user_query = "How severe is the damage in this image?"

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：この画像の被害は深刻で、洪水が土地のかなりの部分を占めており、構造物や作物に広範な被害をもたらしている可能性があります。水位は少なくとも腰の深さがあると思われ、その地域の不動産所有者や農家に重大な損失をもたらす可能性があります。

この回答は、保険のような分野におけるマルチモーダルAIの価値を浮き彫りにしています。このモデルは、浸水した住宅にもたらされた損害の深刻さを検知することができました。これは、保険請求の処理時間を短縮するための強力なツールとなる可能性があります。

次に、栄養成分表示の画像に含まれる食塩相当量をモデルに尋ねてみましょう。

image = encoded_images[3]

user_query = "How much sodium is in this product?"

request_body = augment_api_request_body(user_query, image)

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：**食塩相当量：** 640ミリグラム（mg）

素晴らしいですね。このモデルは、ユーザーのクエリーに従って、画像内のオブジェクトを識別することができました。モデルの性能をさらに実証するために、より多くのクエリを試すことをお勧めします。