IBMはwatsonx.ai上で複数のLlama 3.2モデルが利用可能であることを発表します。本日、MetaConnectで事前にトレーニングされ、指示によってチューニングされた多言語大規模言語モデル（LLM）のLlama 3.2コレクションが発表されたことを受けて、IBMはAI開発者向けエンタープライズスタジオを提供いたします。
最も注目すべきLlama 3.2は、Meta社がマルチモーダルAIに初めて進出したことを示しています。このリリースには、画像をインプットとして取り込むことができる、11Bと90Bのサイズの2つのモデルが含まれています。命令調整されたLlama 3.2 90B Visionおよび11B Visionモデルは、SaaSを通じてwatsonx.aiですぐにご利用いただけます。
watsonx.aiには、これまでで最小のLlamaモデルである、1Bと3Bのサイズのテキストイン、テキストアウトの2つのLLMが用意されています。すべてのLlama 3.2モデルは、長いコンテキスト長（最大128,000トークン）をサポートし、グループ化されたクエリ注意による高速で効率的な推論のために最適化されています。Meta社は、英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ピンディ、スペイン語、タイ語を正式にサポートしていると指定しています。Llama 3.2はこれら8つの言語以外の追加言語に基づいてトレーニングされており、開発者はLlama 3.2モデルをファイン・チューニングすることができると発表しています。
Meta社からのこれらの最新の追加は、IBMの生成AIに向けたオープンなマルチモデルストラテジーに沿って、watsonx.aiで利用可能な基盤モデルの拡張ライブラリーに加わります。
「当社の最新のLlama 3.2モデルをwatsonxで利用できるようにすることで、より幅広いエンタープライズがこれらのイノベーションのメリットを享受し、当社の最新モデルを独自の条件で、およびハイブリッドクラウド環境全体に簡単にデプロイできるようになります」とMeta社の生成AI責任者のAhmad Al-Dahle氏は述べています。「Meta社では、AIソリューションを各組織の特定のニーズに合わせて調整し、Llamaのデプロイメントを簡単に拡張できるようにすることが不可欠であると考えています。IBMとのパートナーシップは、オープン性、安全性、セキュリティー、信頼性、透明性に対する私たちの取り組みを共有する組織によって、まさにそれが可能になるのです。」
新しいマルチモーダル機能、モバイルやその他のエッジ・デバイスでの新しいデプロイメントの機会、更新された安全機能など、Llama 3.2コレクションの詳細については、以下をお読みください。
Llama 3.2 11BとLlama 3.2 90Bは、LLMシリーズの前身であるテキストのみのLLMとは異なり、文書レベルの理解、図表の解釈、画像のキャプション付けなど、画像入力とテキスト出力のユースケースを含むように機能を拡張しています。開発者は、オープン・モデルの完全な柔軟性とカスタマイズを提供しながら、クローズド・モデルの高度な機能にアプローチする強力な視覚推論モデルにアクセスできるようになりました。
新しいマルチモーダルLlama 3.2 Vision LLMは、最大1120x1120ピクセルの高解像度画像で推論が可能で、分類、物体検知と識別、光学式文字認識（OCR）による画像からテキストへの変換（手書きを含む）などのコンピューター・ビジョンのタスクに使用できます。文脈に沿ったQ&A、データの抽出と処理、画像比較、および個人的な視覚支援を提供します。
マルチモダリティーに対するこのアプローチには、3つの主要なメリットがあります。
どちらのモデルも、ビジョン言語モデル（VLM）の一般的なマルチモーダル・ベンチマークでは優れたパフォーマンスを発揮し、オープン・モデルの最高スコアに匹敵し、多くの場合、最先端のクローズド・モデルに匹敵しています。たとえば、チューニングされた命令Llama 3.2 90B-Visionは、チャート理解（ChartQA）に関してOpenAIのGPT-4oと一致し、科学図の解釈（AI2D）に関してAnthropic社のClaude 3 OpusとGoogleのGemini 1.5 Proの両方に勝ります。1
同様に、Llama 3.2 11B-Visionは、ドキュメント視覚 Q&A（DocVQA）において Gemini 1.5 Flash 8B を上回り、AI2D、ChartQA、視覚的数学推論（MathVista）において Claude 3 HaikuとClaude 3 Sonnet を上回り、一般視覚 Q&A（VQAv2）において Pixtral 12BとQwen2-VL 7Bと肩を並べ、そのウェイトクラスにおいて競争力のあるベンチマークスコアを達成しました。2
Llama 3.2コレクションには、史上最小のLlamaモデルとなる、1Bおよび3Bパラメーターを備えたバリアントも含まれています。
モデル・サイズが小さいことと、それに応じてコンピューティングとメモリーの要件が緩和されるため、モバイルやその他のエッジ・デバイスを含むほとんどのハードウェアでLlamaをローカルで実行できます。これにより、Llama 3.2 1BおよびLlama 3.2 3Bは、ローカル・アプリケーションやエージェント型AIにおけるイノベーションの波を引き起こす可能性を秘めています。このようなコンパクトで高性能なモデルには多くの利点がありますが、おそらく最も重要なのは次の2つです。
ローカルで実行されるこれらの軽量のLlama 3.2モデルは、RAG、多言語の要約、サブタスクの委任など、デバイス上のアプリケーションを調整するためのコスト効率の高いエージェントとして機能します。また、Meta社の今日のリリースにも含まれ、watsonxで利用できる新しいマルチモーダル・バージョンであるLlama Guardなどの安全モデルの実装コストを削減するために使用することもできます。
新しい軽量のLlamaモデルはどちらも、性能ベンチマーク、特に主要なエージェント型AIタスクに関連するベンチマークに基づいて重みを獲得しています。例えば、Llama 3.2 3Bはツール使用においてより大きなLlama 3.1 8B（BFCL v2）と同等であり、要約（TLDR9+）では上回り、1Bも要約と書き換えの両方で競合します。短期間でオープンLLMがどれほど進化したかを示す示唆的な指標として、Llama 3.2 3BはMATHベンチマークでオリジナルのGPT-4を大きく上回る成績を収めました。
強力なAIモデルの可用性がますます高まるため、既製のソリューションだけを使用して競争上の優位性を構築することはますます困難になっています。Llamaのオープン・モデルは、性能ベンチマークで最も強力なモデルに匹敵すると同時に、クローズド・モデルでは不可能なカスタマイズ、透明性、柔軟性も備えています。
Llama 3.2のサポートは、AIにおけるオープンソースイノベーションを推進し、サードパーティモデルや IBM® Graniteモデル・ファミリーを含む watsonxの最高水準のオープン・モデルへのアクセスを提供するというIBMのコミットメントの一環です。
IBM® watsonxは、Llama 3.2のようなオープンソース・モデルの実装をクライアントが真にカスタマイズできるように支援します。展開環境の完全な柔軟性から、ファイン・チューニング、プロンプトエンジニアリング、エンタープライズアプリケーションとの統合のための直感的なワークフローまで幅広く対応します。ビジネス向けのカスタムAIアプリケーションを容易に構築し、あらゆるデータソースを管理し、責任あるAIワークフローを加速させます。これらすべてを単一のプラットフォーム上で実現します。
現在、IBM® watsonx.aiでは次のモデルが利用可能です。
これらに、事前トレーニング済みのLlama 3.2モデルが数週間以内に加わります。「-Instruct」モデルはすべて、共通のユースケースや人間の利便性・安全性の好みに適合するため、教師ありファイン・チューニング（SFT）および 人間フィードバックによる強化学習（RLHF）を経ています。
