近日公開予定のGranite 4.0ファミリーの言語モデルにおける最小モデル、IBM Granite 4.0 Tiny Preview を、オープンソース・コミュニティーにご紹介します。
granite 4.0 Tiny Preview は非常にコンパクトで計算効率が高く、FP8 の精度で、長いコンテキスト(128K)タスクを実行する複数の同時セッションを、 350米ドル以下で一般的に購入可能なGPUを含むコンシューマー・グレードのハードウェアで実行できます。1
このモデルはまだ部分的にしかトレーニングされていませんが(計画されている15T以上のトレーニング・トークンのうち2.5Tしか使用していません)、アクティブ・パラメータが少なく、メモリ要件が約72%削減されているにもかかわらず、IBM Granite 3.3 2B Instruct に匹敵する性能を既に提供しています2私たちは、Granite 4.0 Tinyの性能が、トレーニング完了時およびトレーニング後までに、Granite 3.3 8B Instructの性能と同等になると予測しています。
その名前が示すように、Granite 4.0 Tinyは、Granite 4.0モデル・ファミリーの中でも特に小さい製品です。Granite 4.0 SmallやGranite 4.0 Mediumなどを含むモデル・ラインナップの一部として、今夏に正式発売されます。Granite 4.0は、効率性と実用性をエンタープライズLLM開発の基盤にするというIBMの確固たる取り組みを継続しています。
このGranite 4.0 Tinyの予備バージョンは、Hugging Faceで利用可能ですが、企業での使用にプレビュー・バージョンを標準のApache 2.0ライセンスで使用できます。私たちの意図は、GPUが得意でない開発者でも、コンシューマー・グレードのGPUでモデルを実験したり微調整したりできるようにすることです。モデルの新しいアーキテクチャーは、Hugging FaceトランスフォーマーとvLLMで保留中のサポートで、両方のプロジェクトで間もなく完了する予定です。OllamaやLMSStudioなどのプラットフォーム・パートナーを通じて、このモデルをローカルで実行するための公式サポートは、今夏後半の完全なモデル・リリースに間に合うように予定されています。
LLMメモリ要件は、物理的にも比喩的にも、きちんとしたコンテキストなしで語られることが多いものです。モデルをGPUに正常にロードできることを知っているだけでは十分ではありません。ハードウェアが、ユースケースに必要なコンテキストの長さでモデルを処理できることを知っておく必要があります。
さらに、多くのエンタープライズ・ユースケースでは、単一のモデル・デプロイメントではなく、複数の同時インスタンスのバッチ推論が必要になります。そのため、IBMでは、ロング・コンテキストと同時セッションを念頭に置いて、メモリー要件を測定し、報告するよう努めています。
Granite 4.0 Tinyは、現在手に入る最もメモリー効率の高い言語モデルの1つです。非常に長いコンテキストの場合でも、Granite 4.0 Tinyの複数の同時インスタンスは、中程度の性能のコンシューマーGPUでも容易に実行できます。
前世代のGranite LLMは従来のTransformerアーキテクチャーを使用していましたが、Granite 4.0ファミリーのすべてのモデルは新しいハイブリッドMamba-2/Transformerアーキテクチャーを採用し、Mambaのスピードと効率性とトランスフォーマー・ベースの自己注意機構の精度を統合しています。具体的には、Granite 4.0 Tiny-Previewは、合計7Bのパラメーターと推論時のアクティブ・パラメーターが1Bのみの、きめ細かく制御されたハイブリッド型Mixture of Experts(MoE)モデルです。
Granite 4 アーキテクチャーを形成するイノベーションの多くは、IBM Research とオリジナルの Mamba 作成者とのコラボレーションから生まれました。Bambaは実験的なオープン ソース ハイブリッド モデルであり、今週初めに後継バージョン(Bamba v2)がリリースされました。
Mamba(PDF)は状態空間モデル(SSM)の一種で、2017年にトランスフォーマーがデビューしてから約6年後の2023年に導入されました。
SSMは、トランスフォーマー以前の時代に自然言語処理(NLP)の主流だったリカレント・ニューラル・ネットワーク(RNN)と概念的には似ています。これらは当初、現在状態、前状態、可能性の範囲( 状態空間)からの情報のみを使用して、連続シーケンス(電気信号など)の次の状態を予測するように設計されていました。SSMは何十年にもわたっていくつかのドメインで使用されてきましたが、最近まで言語モデリングの可能性を制限していたRNNと同じ欠点がいくつかあります。
トランスフォーマーの自己注意機構とは異なり、従来のSSMには、特定のコンテキスト情報に選択的に焦点を合わせたり無視したりする固有の能力がありません。そこで2023年、カーネギーメロン大学のAlbert Gu氏とプリンストン大学のTri Dao氏は、選択メカニズムとスキャン方式(計算効率のため)を追加した 構造化状態空間シーケンス(「S4」)ニューラル・ネットワークの一種(略して「S6」モデル)を導入し、トランスフォーマーに匹敵する言語モデリング結果を達成しました。彼らは、このモデルにヘビの名である「Mamba」というニックネームを付けました。 Sの音の連続がヘビの出すシューという音に似ていたからだと言います。
2024年、Gu氏とDao氏は、Mambaのアーキテクチャを簡略化・最適化したMamba-2をリリースしました。同様に重要なことは、彼らの技術論文(PDF) がSSMと自己注意の互換性を具体化したことです。
トランスフォーマーベースのモデルに対するMambaの主な利点は、効率と速度にあります。
トランスフォーマーには決定的な弱点があります。それは、自己注意機構のコンピューティング要件がコンテキストに応じて二次関数的に拡張することです。つまり、コンテキストの長さが2倍になるたびに、自己注意機構は参考情報を2倍ではなく4倍使用します。この「二次ボトルネック」は、コンテキスト・ウィンドウ(および対応するKVキャッシュ)が拡大するにつれて、速度と性能をますます低下させます。
逆に、Mambaの計算ニーズはリニアにスケールし、インプットの長さを2倍にすると、Mambaは2倍の参考情報しか使いません。自己注意機構では、以前のすべてのトークンと各新しいトークンの関連性を繰り返し計算する必要がありますが、Mambaは、以前のトークンからの以前のコンテキストの凝縮された固定サイズの「要約」を維持するだけです。モデルは新しいトークンをそれぞれ読み取ると、そのトークンの関連性を判断し、それに応じて概要を更新します(または更新しません)。基本的に、自己注意機構はあらゆる情報を保持し、関連性に基づいてそれぞれの影響を重み付けするのに対し、Mambaは関連情報のみを選択的に保持します。
とはいえ、トランスフォーマーのメモリ集約的で計算的に冗長な方法には独自の利点があります。たとえば、研究によると、トランスフォーマーはコンテキスト内学習(few-shotプロンプティングなど)、コピー、または長期コンテキスト推論を必要とするタスクでは、MambaとMamba-2の両方を依然として上回ることが示されています(PDF)。
幸い、トランスフォーマーとMambaのそれぞれの強みは相反するものではありません。Mamba-2の原著論文では、著者のDao氏とGu氏が、ハイブリッド モデルが純粋なトランス・モデルやSSMの性能を超える可能性があることを示唆しています。この概念は、昨年の NVIDIA の研究によって検証されています (PDF)。これをさらに調査するために、IBM ResearchはDao氏とGu氏、そしてイリノイ大学アーバナシャンペーン校(UIUC)のMinjia Zhang氏と協力し、 BambaおよびBamba V2を開発しました。結果として、BambaはGranite 4.0のアーキテクチャー要素の多くに情報を提供しました。
Granite 4.0 MoEアーキテクチャーでは、1つのトランスフォーマー・ブロックごとに9つのMambaブロックを採用しています。本質的には、Mambaブロックの選択性メカニズムはグローバル・コンテキストを効率的に取り込み、それをトランスフォーマー・ブロックに渡して、ローカル・コンテキストのより微妙な解析を可能にします。結果として、性能に妥協することなく、メモリ使用量とレイテンシーが大幅に削減されました。
Granite 4.0 Tinyは、合計70億のパラメーターと64のエキスパートで構成される、コンパクトできめ細かく制御されたMixture of Experts(MoE)フレームワーク内で実装することで、これらの効率性向上を2倍にし、推論時に10億のアクティブ・パラメーターを生成します。詳細については、Granite 4.0 Tiny Preview のHugging Face モデル・カードをご覧ください。
SSMベースの言語モデルの興味深い側面の1つは、無限に長いシーケンスを処理できる理論上の能力です。しかし、実際的な制約により、「理論上」という言葉は通常、多くの意味を持ちます。
これらの制約には、特にハイブリッドSSMモデルの場合、単語の順序に関する情報を表すために使用される位置エンコーディング(PE)から生じるものがあります。PE では計算ステップが追加され、研究により、回転位置エンコーディング(RoPE)などのPE手法を使用するモデルは、トレーニングで見たものよりも長いシーケンスに一般化するのが困難であることがわかっています。3
Granite 4.0 アーキテクチャでは、位置エンコーディング(NoPE)は使用されません。私たちのテストでは、これが長文脈の処理能力に悪影響を及ぼさないことが説得力を持って示されています。現時点で、私たちは少なくとも12万8000のトークンについてTiny Previewの長期コンテキスト・パフォーマンスを検証しており、モデルがトレーニングを完了した時間までに、またトレーニング後までに、大幅に長いコンテキスト長でも同様のパフォーマンスを検証できると予想しています。100万トークンのコンテキスト近辺のタスクの性能を最終的に検証する際の重要な課題は、適切なデータセットの不足であることに注意してください。
Mambaコンテキストの長さに関するもう1つの実際的な制約は、コンピューティングです。線形スケーリングは二次スケーリングよりも優れていますが、最終的には加算されます。ここでも、Granite 4.0 Tinyには2つの重要な利点があります。
簡単に言えば、Granite 4.0 MoEアーキテクチャー自体は、コンテキストの長さに制約を設けません。ハードウェアの能力を拡張することができます。
プロセスの早い段階でこのような有望な成果が得られたため、Granite 4.0 Tinyの事前トレーニングを進められることを非常に嬉しく思います。また、トレーニング後のGranite 3.3で得た学習内容、特に推論機能と複雑な命令への追従に関して、新しいモデルに適用できることも大変光栄です。Granite 3.2およびGranite 3.3の前身であるGranite 3.2およびGranite 3.3と同様、Granite 4.0 Tiny Previewは、切り替え可能な
graniteシリーズの新たな開発に関する詳しい情報は、IBM Think 2025および今後数週間から数か月以内に発表される予定です。
開発者の効率性を考慮した Graniteの小型オープンモデルで、コストを90%以上削減します。エンタープライズ対応モデルは、安全性ベンチマークに対して、さらにサイバーセキュリティーからRAGまでの幅広い企業タスクに対して優れたパフォーマンスを発揮します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入によって重要なワークフローと業務を再構築し、エクスペリエンスとビジネス価値の最大化とリアルタイムの意思決定の最適化を達成します。
1.たとえば、最大128Kコンテキスト長の5つの同時セッションの理論的なRAM消費量は、12GBのRAMを搭載したNVIDIA GeForce RTX 3060 GPUに適しています。2025年4月29日時点では、329米ドルからとなります。(出典:NVIDIA)。
2. コンテキスト長 128K、同時セッション16で計算されたメモリ削減。
3. 「The Impact of Positional Encoding on Length Generalization in Transformers」arXiv、2023年11月6日