モデルが画像キャプションを実行する機能を紹介したので、物体検知を必要とするいくつかの質問をモデルに尋ねてみましょう。オンライン・ショッピングをしている女性を表す2番目の画像については、モデルに「女性は手に何を持っていますか？」と尋ねます。

image = encoded_images[1]

user_query = "What does the woman have in her hand?"

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：女性は手にクレジットカードを持っています。

モデルは女性の手元にあるオブジェクトを正しく識別しました。それでは、雪に覆われた車の画像の問題について質問してみましょう。

image = encoded_images[2]

user_query = "What is likely the issue with this car?"

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：車が深い雪の中で立ち往生している可能性があり、移動が困難または不可能になっています。

この回答は、保険のような分野におけるマルチモーダルAIの価値を浮き彫りにしています。このモデルは雪の中で立ち往生している車の問題を検知することができました。これは、保険請求の処理時間を短縮するための強力なツールとなる可能性があります。

次に、フローチャートの画像のステップについてモデルに質問します。

image = encoded_images[3]

user_query = "Name the steps in this diagram"

request_body = augment_api_request_body(user_query, image)

messages = augment_api_request_body(user_query, image)

response = model.chat(messages=messages)

print(response['choices'][0]['message']['content'])

アウトプット：この図は、いくつかのステップを含むプロセスを示しています：「読み込み」「変換」「埋め込み」「保管」「検索」。このシーケンスは、データの処理と保管のワークフローを表し、効率的な保管と検索のためにデータを埋め込みベクターに変換します。

成功です。このモデルは、ユーザーのクエリーに従って、画像内のオブジェクトを識別することができました。モデルの性能をさらに実証するために、より多くのクエリーを試すことをお勧めします。