視覚言語モデル（VLM）とは

視覚言語モデル（VLM）は、コンピューター・ビジョン機能と自然言語処理（NLP）機能を融合した人工知能（AI）モデルです。

VLMは、テキスト・データと画像や動画などの視覚データとの関係をマッピングすることを学習し、これらのモデルが視覚インプットからテキストを生成したり、視覚情報のコンテキストで自然言語プロンプトを理解したりできるようにします。

VLMは大規模言語モデル（LLM）と視覚モデルまたは視覚機械学習（ML）アルゴリズムを組み合わせたもので、視覚言語モデルとも呼ばれます。

VLMはマルチモーダルAIシステムとして、テキストと画像または動画をインプットとして受け取り、通常は画像または動画の説明の形式でテキストをアウトプットとして生成し、画像に関する質問に答えたり、画像の一部や動画内のオブジェクトを識別したりします。

視覚言語モデルの要素

視覚言語モデルは通常、次の2つの主要なコンポーネントで構成されています。

言語エンコーダー
視覚エンコーダー

言語エンコーダー

言語エンコーダーは、単語とフレーズ間の意味と文脈上の関連性を捉え、それらをAIモデルが処理できるようにテキスト埋め込みに変換します。

ほとんどの VLMは、言語エンコーダーにニューラル・ネットワーク・アーキテクチャー（Transformerモデル）を使用します。Transformerの例としては、今日のLLMの多くを支えるs予期の基盤モデルの1つであるGoogle社のBERT（Bidirectional Encoder Representations from Transformers）や、OpenAI社のGenerative Pretrained transformer（GPT）などが挙げられます。

Transformerアーキテクチャーの概要は次のとおりです。

エンコーダーは、インプットシーケンスを、そのシーケンス内のトークンの意味と位置を取得する「埋め込み」と呼ばれる数値表現に変換します。
Transformerは自己注意メカニズムにより、トークンの位置とは無関係に、インプット・シーケンス内の最も重要なトークンに「注意を集中させる」ことができます。
デコーダーは、この自己注意メカニズムとエンコーダーによる埋め込みを使用して、統計的に最も確率の高いアウトプット・シーケンスを生成します。

視覚エンコーダー

視覚エンコーダーは、画像や動画によるインプットから色、形状、テクスチャーなどの重要な視覚特性を抽出し、機械学習モデルが処理できるベクトル埋め込みに変換します。

従来のバージョンのVLMでは、特徴量抽出にディープラーニング・アルゴリズム（畳み込みニューラル・ネットワークなど）を使用していました。より最新の視覚言語モデルでは、Transformerベースの言語モデルの要素を適用するVision Transformer（ViT）が採用されています。

ViTは画像をパッチ処理し、それを言語変換器のトークンに似たシーケンスとして扱います。その後、ViTはこれらのパッチ全体に自己注意メカニズムを実装し、インプット画像のTransformerベースの表現を作成します。

IBMニュースレター

The DX Leaders

AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。

視覚言語モデルのトレーニング

視覚言語モデルのトレーニング戦略には、視覚エンコーダーと言語エンコーダーの両方からの情報を整合および融合することが含まれており、これによりVLMは画像とテキストを相関させ、2つのモダリティを一緒に判断することを学習できます。

VLMトレーニングでは通常、次のようなさまざまなアプローチが採用されています。

対照的学習
マスキング
生成モデルのトレーニング
事前学習済みモデル

対照学習

対照学習は、両方のエンコーダーからの画像とテキストの埋め込みを、共同または共有の埋め込み空間にマッピングします。VLMは画像とテキストのペアのデータセットでトレーニングされ、一致するペアの埋め込み間の距離を最小化し、一致しないペアの場合は距離を最大化するように学習します。

一般的な対照学習アルゴリズムは、CLIP（Contrastive Language-Image Pretraining）です。CLIPは、インターネットから取得した4億の画像とキャプションのペアでトレーニングされ、高いゼロショット分類精度を実証しています。¹

マスキング

マスキングは、視覚言語モデルがインプット・テキストまたは画像のランダムに隠された部分を予測することを学習する別のトレーニング手法です。マスク言語モデリングでは、VLMはマスクされていない画像が与えられた場合に、テキスト・キャプション内の欠落している単語を補うことを学習します。

一方、マスキングされた画像モデリングでは、VLMはマスキングされていないキャプションが与えられた画像内の隠れたピクセルを再構築することを学習します。

マスキングを使用するモデルの例としては、FLAVA（Foundational Language And Vision Alignment）があります。FLAVAは、画像エンコーダーとしてVision Transformerを採用し、言語エンコーダーとマルチモーダル・エンコーダーの両方にTransformerアーキテクチャーを採用しています。

マルチモーダル・エンコーダーは、相互注意メカニズムを適用して、テキスト情報と視覚情報を統合します。FLAVAのトレーニングには、マスクモデリングと対照学習が含まれます。¹

生成モデルのトレーニング

VLMの生成モデル・トレーニングには、新しいデータを生成するための学習が含まれます。テキストから画像への生成ではインプット・テキストから画像が生成され、画像からテキストへの生成ではインプット画像からキャプション、画像の説明、要約などのテキストが生成されます。

一般的なテキストから画像へのモデルの例としては、Google社のImagen、Midjourney、OpenAI社のDALL-E（DALL-E 2 以降）、Stability AI社のStable Diffusionなどの拡散モデルが挙げられます。

事前学習済みモデル

視覚言語モデルを最初からトレーニングすると、リソースを大量に消費し、コストもかかる可能性があるため、代わりに事前トレーニング済みのモデルからVLMを構築できます。

事前トレーニング済みのLLMと事前トレーニング済みの視覚エンコーダーを使用できます。これには、画像の視覚表現をLLMのインプット空間に整列または投影するマッピング・ネットワーク層が追加されています。

LLaVA（Large Language and Vision Assistant）は、事前トレーニング済みモデルから開発されたVLMの例です。このマルチモーダル・モデルは、Vicuna LLMとCLIP ViTを視覚エンコーダーとして使用し、それらのアウトプットを線形プロジェクターを使用して共有次元空間にマージします。¹

VLM用の高品質なトレーニング・データを収集するのは面倒な作業ですが、より具体的な下流タスクの事前トレーニング、最適化、ファイン・チューニングに使用できる既存のデータセットがあります。

例えば、ImageNetには数百万枚の注釈付き画像が含まれており、COCOには大規模なキャプション作成、オブジェクト検出、セグメンテーションを行うためのラベル付き画像が数千枚含まれています。同様に、LAIONデータセットは、数十億の多言語画像とテキストのペアで構成されています。

AI Academy

ビジネス向け生成AIの台頭

生成AIの発展と現在のビジネスへの影響について学びます。

エピソードに移動

視覚言語モデルのユースケース

VLMは視覚情報と言語情報の間のギャップを埋めることができます。これまではモダリティーごとに2つの個別のAIモデルが必要でしたが、今では1つのモデルに統合できるようになりました。

VLMは、さまざまな視覚言語タスクに使用できます。

キャプションと要約
画像生成
画像の検索と取得
画像セグメンテーション
物体検知
ビジュアル質問応答（VQA）

キャプションと要約

視覚言語モデルは、詳細な画像キャプションや説明を生成できます。また、医療現場の医療画像や製造施設の機器修理チャートなど、動画や視覚情報をドキュメントに要約することもできます。

画像生成

DALL-E、Imagen、Midjourney、Stable Diffusionなどのテキストから画像を生成するツールは、記述されたコンテンツに付随するアートや画像の作成に役立ちます。企業は設計やプロトタイプ作成の段階でこれらのツールを使用し、製品のアイデアを視覚化することもできます。

画像の検索と取得

VLMは、大規模な画像ギャラリーや動画のデータベースを検索し、自然言語クエリーに基づいて関連する写真や動画を取得できます。これにより、例えば、特定のアイテムの検索や膨大なカタログのナビゲートを支援することなどにより、eコマース・サイトでの買い物客のユーザー・エクスペリエンスが向上します。

画像セグメンテーション

視覚言語モデルは、画像から学習して抽出した空間的特徴量に基づいて、画像をセグメントに分割できます。VLMは、これらのセグメントのテキスト説明を提供できます。

また、境界ボックスを生成してオブジェクトをローカライズしたり、ラベルや色付きのハイライトなどの他の形式の注釈を提供して、クエリーに関連する画像のセクションを指定したりすることもできます。

これは、例えば工場現場の画像や動画を分析して、潜在的な機器の欠陥をリアルタイムで検出するなど、予測メンテナンスに役立ちます。

物体検知

視覚言語モデルは、画像内のオブジェクトを認識して分類し、他の視覚要素に対するオブジェクトの位置などのコンテキストの説明を提供できます。

例えば、オブジェクト検出はロボット工学で使用でき、ロボットが環境をよりよく理解し、視覚的な指示を理解できるようになります。

ビジュアル質問応答（VQA）

VLMは画像や動画に関する質問に答えることができ、視覚的推論スキルを発揮します。これは画像や動画の分析に役立ち、エージェント型AIアプリケーションに拡張することもできます。

例えば、運輸部門では、AIエージェントに道路点検動画の分析や、損傷した道路標識、故障した信号、道路の穴などの危険の特定を任せることができます。

次に、それらの危険の場所と概要を説明した保守レポートを作成するように指示することも可能です。

VLMの例

視覚言語モデルは急速に進歩しており、現在の高度なLLMと同じくらい普及する可能性があります。

一般的なVLMの例は次のとおりです。

DeepSeek-VL2
Gemini 2.0 Flash
GPT-4o
Llama 3.2
NVLM
Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2は、中国のAIスタートアップ企業DeepSeek社が開発した、45億個のパラメーターが使用されたオープンソースの視覚言語モデルです。これは、視覚エンコーダー、視覚言語アダプター、およびDeepSeekMoE LLMで構成されており、Mixture of Experts （MoE）アーキテクチャーを採用しています。

DeepSeek-VL2には、10億個のパラメーターが使用された極小バージョンと、28億個のパラメーターが使用された小型バージョンもあります。²

Gemini 2.0 Flash

Gemini 2.0 Flashは、Google Geminiモデル・スイートの一部です。インプット形式には、音声、画像、テキスト、動画があり、アウトプットはテキストのみです。現在は、画像生成機能の開発が進んでいます。

GPT-4o

OpenAIのGPT-4oは、音声、視覚、テキストなど、データ全体でエンドツーエンドでトレーニングされた単一のモデルです。同じNeural Networksにより、音声、画像、テキスト、動画のインプットの混合を受け入れ、音声、画像、テキストのアウトプットの任意の組み合わせを生成することができます。

その小型であるGPT-4o Miniは、画像とテキストの両方のインプットに対応し、アウトプットを生成します。

Llama 3.2

Llama 3.2オープンソース・モデルには、110億個および900億個のパラメーターを使用している2つのVLMがあります。インプットはテキストと画像の組み合わせで、アウトプットはテキストのみになります。³

Meta社によれば、VLMアーキテクチャーはViT画像エンコーダー、動画アダプター、および画像アダプターで構成されていると言います。⁴個別にトレーニングされた画像アダプターには、画像エンコーダー表現を事前トレーニング済みのLlama 3.1 LLMに供給する一連の相互注意層があります。³

NVLM

NVLMは、NVIDIAのマルチモーダル・モデル・ファミリーです。NVLM-Dは、画像トークンをLLMデコーダーに直接供給するデコーダー専用モデルです。NVLM-Xは、画像トークンの処理に相互注意メカニズムを採用しており、高解像度画像を効率的に処理します。

NVLM-Hは、デコーダーのみのアプローチと相互注意メカニズムを組み合わせたハイブリッド・アーキテクチャーを採用しており、これにより、計算効率と推論機能が向上しています。⁵

Qwen 2.5-VL

Qwen 2.5-VLは、中国のクラウド・コンピューティング会社であるAlibaba Cloud社の主力視覚言語モデルです。パラメーターのサイズは30億個、70億個、720億個から選択できます。

このモデルは、ViT視覚エンコーダーとQwen 2.5 LLMを使用しています。1時間以上の動画を理解し、デスクトップやスマートフォンのインターフェースをナビゲートできます。

視覚言語モデルのベンチマーク

LLMと同様に、VLMにも独自のベンチマークがあります。各ベンチマークには独自のリーダーボードがありますが、Hugging FaceでホストされているOpenVLM Leaderboardなど、さまざまなメトリクスに基づいてオープンソースの視覚言語モデルをランク付けする独立したリーダーボードもあります。

視覚言語モデルの一般的なベンチマークは以下のとおりです。

MathVistaは視覚的な数学的推論のベンチマークです。
MMBenchには、オブジェクトのローカリゼーション、光学式文字認識（OCR）など、複数の評価次元をカバーする一連の多肢選択式の質問があります。
MMMU（Massive Multidiscipline Multimodal Understanding）には、知識、認識、推論スキルを測定するための、さまざまな領域におけるマルチモーダルの多肢選択式の質問が含まれています。
MM-Vetは、言語生成、空間認識など、さまざまなVLM機能の統合を評価します。
OCRBenchは、VLMのOCR機能に重点を置いています。これは、ドキュメント指向のVQA、手書きの数式認識、キー情報抽出、テキスト認識、シーンテキスト中心のVQAの5つのコンポーネントで構成されています。
VQAは、最も初期に開発されたVLMベンチマークの1つです。データセットには、画像に関する自由形式の質問が含まれています。その他のVQAの派生には、GQA（画像シーングラフでの質問応答）、OK-VQA（視覚的な質問応答には外部の知識が必要）、ScienceQA（科学的な質問応答）、TextVQA（画像内のテキストに基づく視覚的推論）などがあります。

VLMのベンチマークには時間がかかりますが、いくつかのツールを使用することで、プロセスを簡素化できます。VLMEvalKitは、1つのコマンドでVLMを評価できるオープンソースの評価ツールキットです。もう1つの評価スイートはLMMs-Evalで、これも評価用のコマンドライン・インターフェースを提供します。

VLMの課題

他のAIシステムと同様、VLMもAIのリスクに対処する必要があります。企業は、視覚言語モデルを社内ワークフローに統合したり、商用アプリケーションに組み込んだりすることを検討する際には、この点を念頭に置く必要があります。

VLMに関連するいくつかの課題は以下のとおりです。

バイアス
コストと複雑さ
一般化
ハルシネーション

バイアス

視覚言語モデルは、トレーニングの基となる現実世界のデータに存在する可能性のあるバイアスや、そのモデルが構築される事前トレーニング済みモデルから学習できます。多様なデータ・ソースを使用し、プロセス全体に人間による監視を組み込むことで、バイアスを軽減できます。

コストと複雑さ

視覚モデルと言語モデルは、それ自体はすでに複雑であるため、それらを統合するとさらに複雑になる可能性があります。この複雑さにより、より多くの参考情報が必要になり、大規模にVLMをデプロイすることが困難になります。企業は、これらのモデルの開発、トレーニング、デプロイに必要な参考情報に投資する準備をしておく必要があります。

一般化

VLMは、一般化、つまり、新しい、これまでに見たことのないデータに適応し、正確な予測を行うモデルの能力に関しては劣っている可能性があります。

そこで、外れ値やエッジ・ケースを含み、ゼロショット学習を採用したバランスの取れたデータ・セットを採用することで、VLMは新しい概念や非典型的な画像とテキストの組み合わせに適応できるようになるでしょう。

視覚的なドキュメント理解タスクのためのIBMのLiveXivベンチマークも役立ちます。LiveXivは、毎月自動的に更新される動的ベンチマークで、おそらくこれまで見たことのない質問や画像についてVLMを評価します。