IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
視覚言語モデル(VLM)は、コンピューター・ビジョン機能と自然言語処理(NLP)機能を融合した人工知能(AI)モデルです。
VLMは、テキスト・データと画像や動画などの視覚データとの関係をマッピングすることを学習し、これらのモデルが視覚インプットからテキストを生成したり、視覚情報のコンテキストで自然言語プロンプトを理解したりできるようにします。
VLMは大規模言語モデル(LLM)と視覚モデルまたは視覚機械学習(ML)アルゴリズムを組み合わせたもので、視覚言語モデルとも呼ばれます。
VLMはマルチモーダルAIシステムとして、テキストと画像または動画をインプットとして受け取り、通常は画像または動画の説明の形式でテキストをアウトプットとして生成し、画像に関する質問に答えたり、画像の一部や動画内のオブジェクトを識別したりします。
視覚言語モデルは通常、次の2つの主要なコンポーネントで構成されています。
言語エンコーダーは、単語とフレーズ間の意味と文脈上の関連性を捉え、それらをAIモデルが処理できるようにテキスト埋め込みに変換します。
ほとんどの VLMは、言語エンコーダーにニューラル・ネットワーク・アーキテクチャー(Transformerモデル)を使用します。Transformerの例としては、今日のLLMの多くを支えるs予期の基盤モデルの1つであるGoogle社のBERT(Bidirectional Encoder Representations from Transformers)や、OpenAI社のGenerative Pretrained transformer(GPT)などが挙げられます。
Transformerアーキテクチャーの概要は次のとおりです。
視覚エンコーダーは、画像や動画によるインプットから色、形状、テクスチャーなどの重要な視覚特性を抽出し、機械学習モデルが処理できるベクトル埋め込みに変換します。
従来のバージョンのVLMでは、特徴量抽出にディープラーニング・アルゴリズム(畳み込みニューラル・ネットワークなど)を使用していました。より最新の視覚言語モデルでは、Transformerベースの言語モデルの要素を適用するVision Transformer(ViT)が採用されています。
ViTは画像をパッチ処理し、それを言語変換器のトークンに似たシーケンスとして扱います。その後、ViTはこれらのパッチ全体に自己注意メカニズムを実装し、インプット画像のTransformerベースの表現を作成します。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
視覚言語モデルのトレーニング戦略には、視覚エンコーダーと言語エンコーダーの両方からの情報を整合および融合することが含まれており、これによりVLMは画像とテキストを相関させ、2つのモダリティを一緒に判断することを学習できます。
VLMトレーニングでは通常、次のようなさまざまなアプローチが採用されています。
対照学習は、両方のエンコーダーからの画像とテキストの埋め込みを、共同または共有の埋め込み空間にマッピングします。VLMは画像とテキストのペアのデータセットでトレーニングされ、一致するペアの埋め込み間の距離を最小化し、一致しないペアの場合は距離を最大化するように学習します。
一般的な対照学習アルゴリズムは、CLIP(Contrastive Language-Image Pretraining)です。CLIPは、インターネットから取得した4億の画像とキャプションのペアでトレーニングされ、高いゼロショット分類精度を実証しています。1
マスキングは、視覚言語モデルがインプット・テキストまたは画像のランダムに隠された部分を予測することを学習する別のトレーニング手法です。マスク言語モデリングでは、VLMはマスクされていない画像が与えられた場合に、テキスト・キャプション内の欠落している単語を補うことを学習します。
一方、マスキングされた画像モデリングでは、VLMはマスキングされていないキャプションが与えられた画像内の隠れたピクセルを再構築することを学習します。
マスキングを使用するモデルの例としては、FLAVA(Foundational Language And Vision Alignment)があります。FLAVAは、画像エンコーダーとしてVision Transformerを採用し、言語エンコーダーとマルチモーダル・エンコーダーの両方にTransformerアーキテクチャーを採用しています。
マルチモーダル・エンコーダーは、相互注意メカニズムを適用して、テキスト情報と視覚情報を統合します。FLAVAのトレーニングには、マスクモデリングと対照学習が含まれます。1
視覚言語モデルを最初からトレーニングすると、リソースを大量に消費し、コストもかかる可能性があるため、代わりに事前トレーニング済みのモデルからVLMを構築できます。
事前トレーニング済みのLLMと事前トレーニング済みの視覚エンコーダーを使用できます。これには、画像の視覚表現をLLMのインプット空間に整列または投影するマッピング・ネットワーク層が追加されています。
LLaVA(Large Language and Vision Assistant)は、事前トレーニング済みモデルから開発されたVLMの例です。このマルチモーダル・モデルは、Vicuna LLMとCLIP ViTを視覚エンコーダーとして使用し、それらのアウトプットを線形プロジェクターを使用して共有次元空間にマージします。1
VLM用の高品質なトレーニング・データを収集するのは面倒な作業ですが、より具体的な下流タスクの事前トレーニング、最適化、ファイン・チューニングに使用できる既存のデータセットがあります。
例えば、ImageNetには数百万枚の注釈付き画像が含まれており、COCOには大規模なキャプション作成、オブジェクト検出、セグメンテーションを行うためのラベル付き画像が数千枚含まれています。同様に、LAIONデータセットは、数十億の多言語画像とテキストのペアで構成されています。
VLMは視覚情報と言語情報の間のギャップを埋めることができます。これまではモダリティーごとに2つの個別のAIモデルが必要でしたが、今では1つのモデルに統合できるようになりました。
VLMは、さまざまな視覚言語タスクに使用できます。
視覚言語モデルは、詳細な画像キャプションや説明を生成できます。また、医療現場の医療画像や製造施設の機器修理チャートなど、動画や視覚情報をドキュメントに要約することもできます。
DALL-E、Imagen、Midjourney、Stable Diffusionなどのテキストから画像を生成するツールは、記述されたコンテンツに付随するアートや画像の作成に役立ちます。企業は設計やプロトタイプ作成の段階でこれらのツールを使用し、製品のアイデアを視覚化することもできます。
VLMは、大規模な画像ギャラリーや動画のデータベースを検索し、自然言語クエリーに基づいて関連する写真や動画を取得できます。これにより、例えば、特定のアイテムの検索や膨大なカタログのナビゲートを支援することなどにより、eコマース・サイトでの買い物客のユーザー・エクスペリエンスが向上します。
視覚言語モデルは、画像から学習して抽出した空間的特徴量に基づいて、画像をセグメントに分割できます。VLMは、これらのセグメントのテキスト説明を提供できます。
また、境界ボックスを生成してオブジェクトをローカライズしたり、ラベルや色付きのハイライトなどの他の形式の注釈を提供して、クエリーに関連する画像のセクションを指定したりすることもできます。
これは、例えば工場現場の画像や動画を分析して、潜在的な機器の欠陥をリアルタイムで検出するなど、予測メンテナンスに役立ちます。
視覚言語モデルは、画像内のオブジェクトを認識して分類し、他の視覚要素に対するオブジェクトの位置などのコンテキストの説明を提供できます。
例えば、オブジェクト検出はロボット工学で使用でき、ロボットが環境をよりよく理解し、視覚的な指示を理解できるようになります。
視覚言語モデルは急速に進歩しており、現在の高度なLLMと同じくらい普及する可能性があります。
一般的なVLMの例は次のとおりです。
DeepSeek-VL2は、中国のAIスタートアップ企業DeepSeek社が開発した、45億個のパラメーターが使用されたオープンソースの視覚言語モデルです。これは、視覚エンコーダー、視覚言語アダプター、およびDeepSeekMoE LLMで構成されており、Mixture of Experts(MoE)アーキテクチャーを採用しています。
DeepSeek-VL2には、10億個のパラメーターが使用された極小バージョンと、28億個のパラメーターが使用された小型バージョンもあります。2
Gemini 2.0 Flashは、Google Geminiモデル・スイートの一部です。インプット形式には、音声、画像、テキスト、動画があり、アウトプットはテキストのみです。現在は、画像生成機能の開発が進んでいます。
OpenAIのGPT-4oは、音声、視覚、テキストなど、データ全体でエンドツーエンドでトレーニングされた単一のモデルです。同じNeural Networksにより、音声、画像、テキスト、動画のインプットの混合を受け入れ、音声、画像、テキストのアウトプットの任意の組み合わせを生成することができます。
その小型であるGPT-4o Miniは、画像とテキストの両方のインプットに対応し、アウトプットを生成します。
Llama 3.2オープンソース・モデルには、110億個および900億個のパラメーターを使用している2つのVLMがあります。インプットはテキストと画像の組み合わせで、アウトプットはテキストのみになります。3
Meta社によれば、VLMアーキテクチャーはViT画像エンコーダー、動画アダプター、および画像アダプターで構成されていると言います。4 個別にトレーニングされた画像アダプターには、画像エンコーダー表現を事前トレーニング済みのLlama 3.1 LLMに供給する一連の相互注意層があります。3
NVLMは、NVIDIAのマルチモーダル・モデル・ファミリーです。NVLM-Dは、画像トークンをLLMデコーダーに直接供給するデコーダー専用モデルです。NVLM-Xは、画像トークンの処理に相互注意メカニズムを採用しており、高解像度画像を効率的に処理します。
NVLM-Hは、デコーダーのみのアプローチと相互注意メカニズムを組み合わせたハイブリッド・アーキテクチャーを採用しており、これにより、計算効率と推論機能が向上しています。5
Qwen 2.5-VLは、中国のクラウド・コンピューティング会社であるAlibaba Cloud社の主力視覚言語モデルです。パラメーターのサイズは30億個、70億個、720億個から選択できます。
このモデルは、ViT視覚エンコーダーとQwen 2.5 LLMを使用しています。1時間以上の動画を理解し、デスクトップやスマートフォンのインターフェースをナビゲートできます。
LLMと同様に、VLMにも独自のベンチマークがあります。各ベンチマークには独自のリーダーボードがありますが、Hugging FaceでホストされているOpenVLM Leaderboardなど、さまざまなメトリクスに基づいてオープンソースの視覚言語モデルをランク付けする独立したリーダーボードもあります。
視覚言語モデルの一般的なベンチマークは以下のとおりです。
VLMのベンチマークには時間がかかりますが、いくつかのツールを使用することで、プロセスを簡素化できます。VLMEvalKitは、1つのコマンドでVLMを評価できるオープンソースの評価ツールキットです。もう1つの評価スイートはLMMs-Evalで、これも評価用のコマンドライン・インターフェースを提供します。
他のAIシステムと同様、VLMもAIのリスクに対処する必要があります。企業は、視覚言語モデルを社内ワークフローに統合したり、商用アプリケーションに組み込んだりすることを検討する際には、この点を念頭に置く必要があります。
VLMに関連するいくつかの課題は以下のとおりです。
視覚言語モデルは、トレーニングの基となる現実世界のデータに存在する可能性のあるバイアスや、そのモデルが構築される事前トレーニング済みモデルから学習できます。多様なデータ・ソースを使用し、プロセス全体に人間による監視を組み込むことで、バイアスを軽減できます。
視覚モデルと言語モデルは、それ自体はすでに複雑であるため、それらを統合するとさらに複雑になる可能性があります。この複雑さにより、より多くの参考情報が必要になり、大規模にVLMをデプロイすることが困難になります。企業は、これらのモデルの開発、トレーニング、デプロイに必要な参考情報に投資する準備をしておく必要があります。
視覚言語モデルは、AI ハルシネーションを起こしやすい場合があります。これらのモデルの結果を検証することは、それらが事実上正確であることを確認するための重要なステップです。
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
すべてのリンク先は、ibm.comの外部です。
1 An Introduction to Vision-Language Modeling, arXiv, 27 May 2024.
2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 December 2024.
3 Model Information, GitHub, 30 September 2024.
4 The Llama 3 Herd of Models , arXiv, 23 November 2024.
5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 October 2024.