主な情報は以下のとおりです。
Granite 4.0の発売は、IBMのエンタープライズ対応の大規模言語モデル・ファミリーにとって新時代の始まりです。斬新なアーキテクチャーの進歩を活用して、コストとレイテンシーを削減しながら競争力のある性能を提供し、小規模で効率的な言語モデルを強化しています。Granite 4.0モデルは、スタンドアロンのデプロイメントと、大規模な推論モデルと並行して複雑なシステムにおけるコスト効率の高い構成要素の両方で、エージェント・ワークフローに不可欠なタスクに特に重点を置いて開発されました。
Granite 4.0コレクションは、複数のモデル・サイズとアーキテクチャー・スタイルで構成されており、次のような幅広いハードウェア制約にわたって最適な制作を提供します。
Granite 4.0-H Smallは、マルチツール・エージェントやカスタマー・サポート・オートメーションなどのエンタープライズ・ワークフローにおいて、強力でコスト効率の高い性能を実現する主力モデルです。TinyモデルとMicroモデルは、低遅延、エッジおよびローカル・アプリケーション向けに設計されており、関数呼び出しなどの主要なタスクを高速に実行するための、大規模なエージェント・ワークフロー内の構成要素としても機能します。
Granite 4.0ベンチマークの性能は、最小のGranite 4.0モデルであっても、Granite 3.3 8B（その半分未満のサイズにもかかわらず）を大幅に上回っています。しかし、その最も顕著な強みは、推論効率の顕著な向上です。従来のLLMと比較して、ハイブリッドGranite 4.0モデルは、実行に必要なRAMが大幅に少なくて済みます。特に、長いコンテキストのタスク（大規模なコードベースや広範な文書の取り込みなど）や、同時に複数のセッションを伴うタスク（多くの詳細なユーザーの問い合わせを同時に処理するカスタマー・サービス・エージェント）の場合に必要です。
最も重要なことは、このGranite 4.0のメモリ要件の劇的な削減は、高速な推論速度で大量のワークロードを実行するために必要なハードウェアのコストも同様に劇的に削減できることです。私たちの目標は、企業やオープンソース開発者に、競争力の高いLLMへのコスト効率の高いアクセスを提供することで、参入障壁を下げることです。
IBMは、あらゆるハードウェア上での実用的な推論効率を優先していますが、これはIBMがモデル・エコシステムの安全性、セキュリティー、透明性を重視していることと一致しています。IBMのAI開発プロセスに対する数か月に及ぶ大規模な外部監査を経て、IBM Graniteは最近、ISO 42001認証を取得した唯一のオープン言語モデル・ファミリーとなり、AI管理システム（AIMS）における説明責任、説明可能性、データ・プライバシー、信頼性に関する世界初の国際標準を満たしています。この基本的な信頼性は、Graniteのバグ報奨金プログラムに関するHackerOneとの最近の提携や、Hugging Faceで利用可能なすべての4.0モデル・チェックポイントの暗号署名の新しい手法（開発者や企業がモデルの出所と信頼性を保証できるようにする）によってさらに強化されています。
EY社やLockheed Martin社などの厳選されたエンタープライズ・パートナーには、主要なユースケースにおいてGranite 4.0の機能を大規模にテストするための早期アクセスが与えられました。これらの早期リリース・パートナーからのフィードバックと、オープンソース・コミュニティーからのフィードバックは、将来のアップデートに向けてモデルを改善および最適化するために使用されます。
現在のリリースには、Micro、Tiny、SmallのBaseとInstructの両方のバリアントが含まれています。追加のモデル・サイズ（大小の両方）と明示的な推論をサポートするバリアントが2025年末までにリリースされる予定です。
LLMのGPUメモリー要件は、モデルの重みを読み込むために必要なRAMの量という観点から報告されることがよくあります。しかし、多くのエンタープライズのユースケース、特に大規模なデプロイメントや複雑な環境でのエージェント型AIやRAGシステムを伴うユースケースでは、長いコンテキストや複数の同時モデル・インスタンスの一括推論、あるいはその両方が必要となります。IBMはエンタープライズにおける実用性を重視していますが、当社では長期的なコンテキストと同時セッションを念頭に置いてGranite 4を評価および最適化しました。
従来のトランスフォーマー・ベースのモデルと比較して、Granite 4.0-Hは、長いインプットや複数の同時バッチの処理に必要なRAMを70％以上削減できます。
ハイブリッドGranite 4.0モデルは、AMD Instinct MI-300X GPUと互換性があり、メモリ・フットプリントのさらなる削減を可能にします。
従来のLLMでは、コンテキストの長さやバッチ・サイズが大きくなるにつれて、スループットを維持するのが困難になります。当社のハイブリッド・モデルは、ほとんどのモデルが大幅に低速になるか、ハードウェア容量を超過するワークロードでも、出力を加速し続けます。投げれば投げるほど、その利点が明らかになります。
IBMは、Qualcomm Technologies, Inc.およびNexa AIと協力して、Granite 4.0モデルとHexagon NPU1との互換性を確保することで、スマートフォンやPCのオンデバイス・デプロイメントの推論速度をさらに最適化しました。
もちろん、これらの効率性に関する利点の実際の有用性は、Granite 4.0モデルの出力の品質が、特に命令への追従や機能呼び出しなどの主要なエージェント型AIタスクの性能を評価するベンチマークにおいて、各重量クラス以上のモデルの品質に匹敵するという事実によって推進されます。
すべてのGranite 4.0モデルは、前世代のGraniteモデルと比べて性能が大幅に向上しています。新しいGraniteハイブリッド・アーキテクチャーはモデル・トレーニングの効率と有効性に貢献しますが、モデル精度のほとんどの向上は、トレーニング（およびトレーニング後）手法の進歩とGraniteトレーニング・データ・コーパスの継続的な拡張と改良に起因しています。これが、過去のGraniteモデルと同様の従来のTransformerアーキテクチャーをベースに構築されたGranite 4.0-Microでさえ、Granite 3.3 8Bを大幅に上回るパフォーマンスを発揮する理由です。
特に、企業のユースケースやエージェント型AIワークフローに不可欠なタスクで優れています。スタンフォードHELMの評価によると、Granite-4.0-H-Smallは、明示的な指示に従うモデルの能力を評価するために広く使用されているベンチマークであるIFEvalにおいて、すべてのオープン・ウェイト・モデル（唯一の例外であるLlama 4 Maverickは、その12倍を超える402Bパラメータ・モデルです）を上回っています。
多くのエージェントワークフローでは、指示に確実に従うだけでなく、効果的なツールの呼び出しに正確に変換することが重要です。そのため、Granite-4.0-H-Smallは、Berkeley Function Calling Leaderboard v3ベンチマーク（BFCLv3）で、オープン・モデルとクローズド・モデルの両方で、はるかに大規模なモデルと歩調を合わせています。しかも、この競合環境の中で比類のない価格帯でこれを実現しています。
Granite 4.0は、複数のターン、回答できない質問、スタンドアロンではない質問、複数のドメインにまたがる情報を伴う複雑な検索拡張生成（RAG）タスクの性能と信頼性を測定するベンチマークであるMTRAGでも同様に優れています。
追加の評価メトリクスは、Granite 4.0のHugging Faceモデル・カードで利用できます。
すべてのGraniteモデルは、セキュリティ、安全性、責任あるガバナンスを中核として構築されています。
今月初め、IBM GraniteはISO/IEC 42001:2023の認定を受けた最初のオープン言語モデル・ファミリーとなり、Graniteが安全で責任あるAIに関する国際的に認められたベスト・プラクティスに準拠していること、およびIBMのAI管理システム（AIMS）が最高レベルの精査を満たしていることが証明されました。Granite 4.0モデルは、規制の厳しい業界やミッションクリティカルなデプロイメント環境など、高リスクの状況でも、自信を持って構築できます。
すべてのGraniteモデルと同様に、Granite 4.0モデルも、慎重にキュレートされ、倫理的に収集され、企業が許可したデータを用いて完全にトレーニングされました。IBMは、モデルの信頼性に対する絶対的な自信を反映して、IBM watsonx.aiで使用する際にGraniteモデルによって生成されたコンテンツに対するサード・パーティーのIP要求に対して上限なしの補償を提供します。
IBMは、社内での徹底的なテストやレッドチーム演習に加え、最近HackerOneと提携してGraniteのバグ・バウンティー（脆弱性報奨金）プログラムを開始しました。このプログラムでは、予期せぬ欠陥、障害モード、またはジェイルブレイクやその他の敵対的攻撃に対する脆弱性の特定に対して最大10万ドルの賞金を提供しています。バグ・バウンティー・プログラムに参加している研究者によって発見されたこのような貴重な情報は、特にモデルの整合性を改善するための合成データの生成を通じて、モデルのセキュリティーの継続的な強化と更新に役立てられます。
IBMは、モデル自体だけでなく、モデル配布チェーンの安全性とセキュリティーにも注力しています。そのため、IBMはリリース前にすべてのGranite 4モデル・チェックポイントに暗号で署名するという新しい手法を開始しました。現在、すべてのGraniteモデル・チェックポイントには、model.sigファイルが付属しており、Graniteモデルの出所を簡単に公開して検証し、その完全性と信頼性を確保できるようになりました。
多くの利点があるにもかかわらず、Transformerモデルには重要な弱点があります。それは、計算の必要性がシーケンスの長さに応じて2乗で増大することです。コンテキストの長さが2倍になると、Transformerモデルが実行（およびメモリーに保管）しなければならない計算の数は4倍になります。この「二次的ボトルネック」は、コンテキストの長さが長くなるにつれて、必然的に速度が低下し、コストを増加させます。コンテキストの長さが長い場合、ハイエンドのコンシューマー向けGPUのRAM容量をすぐに使い果たしてしまう可能性があります。
トランスフォーマーは自己注意法に依存しますが、Mambaは本質的に効率的なまったく異なる選択性メカニズムを使用します。Mambaの計算要件はシーケンスの長さに応じて直線的に拡張します。コンテキストが2倍になると、Mambaは4倍ではなく2倍の計算しか行いません。さらに優れているのは、Mambaのメモリー要件はシーケンスの長さに関係なく一定であることです。Mambaモデルに投入するワークが多ければ多いほど、Transformerに対するメリットは大きくなります。
それでも、Transformerと自己注意型は、特にコンテキスト内学習（few-shotプロンプティングなど）を必要とするタスクの性能に関しては、MambaおよびMamba-2に比べていくつかの利点があります。幸いなことに、ハイブリッド・モデルで両方を組み合わせることで、両方の長所を得ることができます。さらに詳しい洞察については、Granite-4.0-Tiny-Previewのプレビューを再度ご覧ください。
Granite® 4.0-H-Micro、Granite 4.0-H-Tiny、Granite 4.0-H-Smallを動かすアーキテクチャーは、Mamba-2レイヤーと従来のTransformerブロックを9:1の比率で順番に組み合わせています。基本的に、Mamba-2ブロックはグローバル・コンテキストを効率的に処理し、そのコンテキスト情報をTransformerブロックに定期的に渡します。このブロックは、自己注意を通じてローカル・コンテキストのより微妙な解析を行ってから、次のMamba-2レイヤーのグループに渡します。
世界のLLMサービス・インフラストラクチャーのほとんどが、歴史的にTransformer専用モデルに合わせて調整されていることは注目に値します。今年の初めにGranite 4.0-Tiny-Previewを試験的に発表してから、当社はエコシステム・パートナーと広範に協力して、vLLM、llama.cppなどの推論フレームワークでGranite 4ハイブリッド・アーキテクチャーのサポートを確立しました。NexaMLとMLXは本日のリリースに備えて準備中です。
Granite-4.0-H-TinyおよびGranite-4.0-H-Smallは、各Mamba-2とTransformerブロックの出力を、細粒土のMixture of Experts（MoE）ブロック（Granite 4.0-Tiny-Preview以降、若干仕様が変更されています）に渡します。2024年のGranite 3.0のリリース以来、細粒土のMoEはIBMが積極的に研究してきた分野ですが、TinyとSmallは、常にアクティブな共有専門家を利用する最初のMoEです。これにより、パラメータ効率が向上し、他の「エキスパート」が明確な専門知識をより適切に開発できるようになります。
Granite 4.0-H-Microは、MoEブロックの代わりに従来の高密度フィードフォワード・レイヤーを利用しますが、それ以外の点ではTinyとSmallが共有するアーキテクチャーを反映しています。
Mambaのような状態空間モデル（SSM）ベースの言語モデルの最も魅力的な側面の1つは、無限に長いシーケンスを処理できる理論上の能力です。すべてのGranite 4.0モデルは、コンテキスト長において最大512Kトークンのデータ・サンプルでトレーニングされています。性能は、最大128Kトークンのコンテキスト長を含むタスクで検証されていますが、理論的にはコンテキスト長はさらに広がる可能性があります。
標準的なTransformerモデルでは、最大コンテキスト・ウィンドウは基本的に位置エンコーディングの制限によって制約されます。Transformerの注意メカニズムはすべてのトークンを一度に処理するため、トークンの順序に関する情報を保持しません。位置エンコーディング（PE）は、その情報を戻します。回転位置エンコーディング（RoPE）のような一般的なPE手法を使ったモデルは、トレーニングで見たものより長いシーケンスで苦戦することを示唆する研究もあります2。
Granite 4.0-Hアーキテクチャーでは、位置エンコーディング（NoPE）は使用されません。簡単に言えば、それは必要ないことがわかりました。Mambaはトークンを順番に「読み取る」ため、本質的にトークンの順序に関する情報を保持します。
すべてのGranite 4.0モデルは、さまざまなアーキテクチャーの実装において、エンタープライズ向けに慎重に収集された同じトレーニング・データの22Tトークン・コーパス、および同じ改善された事前トレーニング方法論、トレーニング後の計画、チャット・テンプレートから抽出されたサンプルでトレーニングされています。
Granite 4.0は、DataComp-LM（DCLM）、GneissWeb、TxT360サブセット、Wikipedia、その他のエンタープライズ関連のソースからキュレートされた幅広いサンプルで事前にトレーニングされました。さらに、言語、コード、数学と推論、多言語性、安全性、ツール呼び出し、RAG、サイバーセキュリティーなどの領域にわたる合成データセットとオープン・データセットの両方を活用し、エンタープライズ・タスクで優れた成果を上げるためにさらに事後トレーニングを受けました。すべてのトレーニングのデータセットは、オープンソースのData Prep Kitフレームワークを使用して準備されました。
前世代のGraniteモデルからの注目すべき変更点は、トレーニング済みのGranite 4.0モデルを、命令チューニング（本日リリース）と推論版（今秋リリース予定）に分割するという決定です。業界の最近の調査結果を反映して、トレーニングでは、2つを分割すると、Instructモデルの命令に従う性能が向上し、Thinkingモデルの複雑な推論のパフォーマンスが向上することがわかりました。これには、両方のバリアントのチャット・テンプレートを簡素化するという追加のメリットがあります。
この秋の後半には、Granite 4.0モデルのBaseとInstructのバリアントに、複雑なロジック主導タスクの性能を強化するための事後トレーニングを継続している「Thinking」モデルが追加される予定です。
年末までには、Granite 4.0 Mediumだけでなく、エッジ・デバイス上での推論のために設計された非常に小型のモデルであるGranite 4.0 Nanoなど、追加のモデル・サイズもリリースする予定です。
Granite 4.0モデルは現在、幅広いプラットフォーム・プロバイダーおよび推論フレームワークで利用可能であり、高速かつ効率的なスタンドアロンの主力モデルとして、またアンサンブル・ワークフローの主要な構成要素として、また主要な大規模なフロンティア・モデルとしても利用できます。Granite Playgroundで試すこともできます。
新しいGranite Hybridアーキテクチャーでは、vLLM 0.10.2およびHugging Face Transformersで最適化された完全なサポートを提供しています。Graniteハイブリッド・アーキテクチャーはllama.cppやMLXでもサポートされていますが、これらのランタイムにおけるスループットを完全に最適化する取り組みは現在も継続中です。エコシステム・パートナーの協力に感謝するとともに、私たちの取り組みがハイブリッド・モデルのさらなる実験を促進することに役立つことを願っています。
Granite 4.0 InstructモデルはIBM watsonx.aiで利用可能になりました。IBM watsonx.aiは、AIの導入をシンプルかつスケーラブルにするIBMの統合AI開発スタジオです。Granite 4.0 Instructモデルは、アルファベット順に、Dell Technologies（Dell Pro AI StudioおよびDell Enterprise Hub）、Docker Hub、Hugging Face、Kaggle、LM Studio、NVIDIA NIM、Ollama、OPAQUE、Replicateなどのプラットフォーム・パートナーからも入手できます。Granite 4.0 Baseモデルは、Hugging Faceから入手いただけます。
Granite 4.0モデルは、高速でメモリ効率の高い微調整のためにUnslothでもサポートされており、カスタマイズされたAIコーディング・アシスタントを強化するために次に進むで活用できます。
Granite Docsのガイドとレシピは、次のような役立つチュートリアルなど、使い始める際に役立つ情報があります。
IBM®が2025年Gartner Magic Quadrantのデータサイエンスおよび機械学習プラットフォームのリーダーとして評価された理由をご覧ください。
エンタープライズ・グレードのパフォーマンスと透明性を競争力のある価格で提供する、オープンソースの小規模言語モデル。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入によって重要なワークフローと業務を再構築し、エクスペリエンスとビジネス価値の最大化とリアルタイムの意思決定の最適化を達成します。
Graniteは、ビジネスに特化したAIモデルのファミリーであり、AI駆動型アプリケーションの信頼性と拡張性を確保できるようにゼロから設計されました。
1. Qualcommブランド製品は、Qualcomm Technologies, Inc.および/またはその子会社の製品です。Qualcomm HexagonはQualcomm Incorporatedの商標または登録商標です。
2. 「The Impact of Positional Encoding on Length Generalization in Transformers」arXiv、2023年11月6日