2025年2月26日
Granite 3.2は、第3世代のIBMGraniteモデルの最新リリースであり、単純な言語モデルを超えたGraniteシリーズの進化における重要なステップです。Granite 3.2では、実験的な推論機能とIBM初となる公式ビジョン言語モデル(VLM)を筆頭に、Graniteファミリーにいくつかの重要な新機能が導入されています。
このリリースには、既存の製品の効率性、有効性、汎用性を向上させるさまざまな機能強化も含まれています。IBMでは、実用的なエンタープライズ対応モデルを優先し、より少ないパラメーターで最高峰の性能を出せるよう追求し続けています。
いつものように、最新のGraniteモデルはApache 2.0ライセンスの下でオープンソース化されています。GraniteのすべてのモデルがHugging Faceから入手できるようになりました。一部のモデルは、IBM watsonx.aiなど、その他のプラットフォームからも入手できます。チュートリアル、レシピ、その他の参考情報は、この記事の最後の「評価する」セクションにあります。
IBMの主力テキストのみの大規模言語モデル(LLM)の最新バージョンである Granite 3.2 Instruct 8BとGranite 3.2 Instruct 2Bは、3.1の同等製品に比べて強化された推論機能を提供するようにトレーニングされています。IBMでの推論機能の実装は、モデルの性能を向上させる実用的なアプローチに沿っており、特定の業界の傾向に多少反しています。
新しいGranite 3.2 Instructモデルのこれらの実験的な機能は、IBM Researchで推論主導のモデル進化に関して現在進行中の複数の研究のうちの1つにすぎません。推論スケーリング技術に関するさらなる研究により、Granite 3.2 8B Instructは、OpenAIのGPT-4o-0513やAnthropicのClaude-3.5-Sonnet-1022など、はるかに大規模なモデルの数学的推論性能に匹敵するか、それを上回るように調整できることが実証されています。
言語モデル推論の最近の進歩の原動力となっている直感は、2022年の研究から生まれたもので、単に「段階的に考える」というフレーズを追加するだけで、一般にプロンプト・エンジニアリング手法と呼ばれる思考連鎖(CoT)プロンプトによって推論タスクのモデル出力が大幅に改善されることが実証されています。1
2024年のその後の研究では、推論時のコンピューティング、つまり推論中に各出力を生成するために使用されるリソースを拡大すると、モデルのサイズやトレーニングに使用されるリソースを拡大するのと同じくらいモデルの性能が向上する可能性があるとさらに推測されました。最近のアプローチでは、主に、より長く複雑な「思考プロセス」を奨励するさまざまな強化学習(RL)フレームワークを組み込むことで、このような推論のスケーリングを追求してきました。興味深いことに、推論スケーリングにより、より小さなLLMでも、はるかに大きなモデルの推論能力を上回ることができることが経験的に実証されています。
こうした長所の一方で、推論モデルに欠点がないわけではありません。IBMはこれを理解し、Granite 3.2の推論機能の特定の実装においてこれらの欠点を軽減するため意図的な対策を講じています。
「推論モデル」は、実際にユーザーに出力を返す前に、モデルが最終的な応答について「考える」ために使用するすべてのトークンを生成(および支払い)する必要があるため、一般的なLLMよりも遅く、コストがかかるのが一般的です。IBM Researchは、著名な推論モデルであるDeepSeek-R1では「ローマはどこにありますか」という質問に答えるのに50.9秒かかった例を指摘しています。
時間が長くかかったり、計算が複雑になるのが正当化されるシナリオもありますが、単なるリソースの無駄であるシナリオも数多くあります。開発者が特定のアプリケーションやワークフローのモデルを選択するたびにこれらのトレードオフを調整する必要はありません。IBMGranite 3.2 Instructモデルでは、パラメーターを追加するだけで、拡張思考プロセスのオンとオフを切り替えることができます。
必要なときにGranite 3.2の推論機能を活用し、不要なときには効率を優先することができます。
推論モデルの比較的短い歴史の中で、多くの主要なアプローチは、数学やコーディングなどの狭い範囲に焦点を絞った一連のロジック駆動型ドメインのみでの性能向上を優先してきました。IBMの推論スケーリング技術に関する継続的な取り組みにより、AIMEやMATH-500など、従来は「推論」に関連付けられていた技術ベンチマークにより、特に印象的な性能の向上が実現しました。一方Granite 3.2 Instructでは、モデルの推論プロセスを強化し、複雑な指示に従う能力をより広範に向上させることに重点が置かれました。
モデル開発者が明示的に対象とする技術的なタスクに焦点を絞ると、一般的な性能や安全性などの他の領域が犠牲になることがあります。また、推論性能の向上に使用されるデータセットでそれらの領域が十分にカバーされていない場合、そのモデルによって知識が「忘れられる」可能性があります。これを回避するために、IBMでは、Thought Preference Optimization(TPO)ベースの強化学習フレームワークをGranite 3.1 Instructに直接適用してGranite 3.2 Instructを開発しました。
推論機能に対する多くの一般的なアプローチとは異なり、TPOはモデル出力を評価して報酬を与えるために論理演算子や関数にあまり依存しないため、一般的なタスクに拡張しやすくなります。これにより、Granite 3.2 Instructは、他の部分の性能を損なうことなく、複雑な推論を必要とするタスクで性能の向上を実現できました。
このアプローチのメリットは、DeepSeek-R1-Distillモデルとの比較で最も明らかになります。これらのモデルは(名前にもかかわらず)実際には、DeepSeek-R1の推論プロセスをエミュレートするようにファイン・チューニングされたLlamaモデルとQwenモデルのバージョンです。ここで注目すべきは、R1-Distillモデルとは異なり、IBMGranite 3.2 InstructモデルはDeepSeekで生成されたデータを使用してトレーニングされていないため、規制上の影響が大幅に簡素化されていることです。
同様のサイズのLlama、Qwen、Graniteモデルの推論前と推論後の性能を、ArenaHardとAlpaca-Eval-2で検討します。これらは、難しい指示を自分で考え抜くモデルの能力を測定する一般的なベンチマークです。DeepSeekの技術ではこれらの非ターゲット・タスクの性能が低下しますが、Granite 3.1 InstructをGranite 3.2 Instructに進化させるために使用されたCoTテクニックでは、命令の追跡が大幅に改善されています。
同様に、Granite 3.2では、推論機能の導入によって通常伴い、全体的な性能が損なわれないようにしています。
IBMは、安全性を含む企業にとって不可欠な懸念事項を、すべての設計上の決定の中心に据えています。DeepSeekで抽出されたモデルでは安全性の性能が大幅に低下していたにもかかわらず(AttaQベンチマークの性能で測定)、IBMのアプローチでは、敵対的攻撃に対するGranite 3.2 Instructの堅牢性が維持されました。
前述のように、Granite 3.2のリリースは、IBMによるエンタープライズモデルの推論機能の探求の始まりにすぎません。IBMで進行中の研究の多くは、Granite 3.2の本質的に長く、より堅牢な思考プロセスを活用して、モデルをさらに最適化することを目的としています。
こうした研究の1つでは、パーティクル・フィルタリングや多数決(自己一貫性とも呼ばれる)など、より複雑な推論スケーリング手法を使用してGranite 3.2の強化に重点を置いています。初期の実験では、これらの推論スケーリング技術と組み合わせて使用すると、数学的推論タスクにおけるGranite 3.2の性能がはるかに大規模なフロンティア・モデルの性能に匹敵するか、それを上回ることが実証されています。
Granite Vision 3.2 2Bは、日常的な企業ユースケースを対象としたコンピューター・ビジョン機能を備えた軽量の大規模言語モデルであり、特に視覚的な文書の理解に重点を置いてトレーニングされています。画像とテキストの両方の入力を処理するGranite Vision 3.2の性能は、DocVQAやChartQAなど、重要なエンタープライズ・ベンチマークによると、さらに大規模なオープンモデルに匹敵します。
Granite Vision 3.2 2Bは、言語タスクにおける同様のサイズのテキストのみのGraniteモデルの代替品として明示的に意図されているわけではありませんが、テキスト入力、テキスト出力のシナリオを適切に処理できます。
Granite Vision 3.2 2Bは、さまざまな視覚理解タスクを処理できますが、ドキュメント理解とマルチモーダル検索拡張生成(RAG)に最も関連性の高いタスクに特化しています。
ほとんどのVLM(マルチモーダル大規模言語モデル(MLLM)とも呼ばれます)は、主に自然画像での視覚タスク用にトレーニングされています。これは、レイアウト、フォント、グラフ、インフォグラフィックなどの固有の視覚特性が自然画像のものとは大きく異なるドキュメントの画像では、必ずしも最適なパフォーマンスが得られるとは限りません。最も一般的な画像入力、テキスト出力の使用例と比較すると、ドキュメントの理解には、視覚的なコンテキストをより具体的かつ細かく理解することが必要です。
MLLMがドキュメントと関連するビジュアルを効果的に処理できるようにするための2つの主な課題は、高解像度の画像を適切にエンコードすることと、それらのドキュメント内の視覚的に配置されたテキストを正確に解釈することです。専門的なアプローチでは通常、外部の光学式文字認識(OCR)システムを利用して、「認識してから理解する」フレームワークで画像内のテキストを処理するか、ドキュメントを理解することに特化して設計された特注のモデル・アーキテクチャーに依存します。
どちらのアプローチにも欠点があります。外部のOCR駆動型文書理解に依存すると、重要な情報が言語に到達する前にエラーが蓄積される可能性があります。一方、多くの専用の「OCRフリー」手法は、高解像度の入力を処理するのに苦労したり、競合するLLMに比べて全体的な知識が不足したりします。2
最近では、ドキュメント中心のデータセットで一般化視覚言語モデルを命令調整することで、ドキュメント理解において優れた性能が達成されています。残念ながら、このアプローチの進歩は、適切なオープンソースのデータセットの不足により、ある程度制限されています。このアプローチをさらに進歩させるために、IBMのGranite Vision 3.2の開発には、視覚的なドキュメント理解のための包括的な指示に従うデータセットに向けた広範な作業が含まれていました。
DocFMデータセットは、慎重にキュレートされたエンタープライズ・データのコアに基づいて構築された、ビジョン・タスク用の大規模な命令チューニング・データセットです。ドキュメント理解データセットの収集に使用されたデータ・ソース、その最初の収集を処理するために使用されたフィルタリングおよびクリーニング方法、その後Granite Visionのトレーニング・タスクを合成的に生成するために使用された方法論に関する詳細については、付属の技術論文をご覧ください。
Granite Visionのトレーニングに使用されるドキュメント理解データは、一般的なドキュメント画像、チャート、フローチャート、図表などの幅広いカテゴリーを含む、さまざまなドキュメント・クラスをカバーしています。これらのデータ・ソースから最終的に派生した指示に従うデータセットは、ドキュメントの質問への回答、シーン・テキストの理解、キー値の抽出、テキストのグラウンディング、レイアウト解析、キャプション作成、UIの理解、コードなど、タスクは多岐にわたります。
DocFMは、IBMが今後さまざまな下流の視覚学習の取り組みに使用することを予定している非常に大規模なデータセットです。Granite Visionのトレーニングでは、DocFMのサブセットを利用して、一連の合成視覚質問応答データセットを作成しました。Granite Visionに使用されるドキュメント理解データセットの包括的な概要は、技術論文の付録の表5に記載されています。
IBMは、Granite 3.2 Visionの設計とトレーニングにおいて、有害なアクティビティーを監視するために外部のガードレール・モデルに依存するのではなく、専用の安全アプローチをモデル自体に直接組み込む、新しいテスト時の手法も導入しました。
IBMでは、Granite Visionの多数の注意ヘッドとTransformer層内に、安全監視タスクが分類問題として形式化されるときに安全上の懸念を特定するのに役立つ可能性のある画像機能の疎ベクトルのサブセットがあるという重要な洞察を得ています。
Granite Visionの技術論文でさらに詳しく説明されているプロセスでは、IBM Researchは、Granite Visionの注意メカニズム内で生成された注意ベクトルを分離して検査し、平均してどれが特定の種類の有害な入力と確実に相関するかを評価するプロセスを設計しました。いったん特定されると、それらの「安全ベクトル」を生成する責任がある注意ヘッドを使用して、特定の入力が安全かどうかを判断できます。
IBMは、疎注意ベクトルの潜在的な用途を今後も探求していきます。調査の潜在的な方法の1つは、Granite Guardianの将来のバージョンを完全にマルチモーダルな安全性監視に適応させる際のそれらの使用を調査することです。
Granite Guardian 3.2は、プロンプトと応答のリスクを検知するように設計された最新世代のIBMガードレール・モデルであり、推論コストとメモリー使用量を抑えながら、Guardian 3.1と同等の性能をより高速に提供します。
IBMGranite Guardian 3.2では、特定の安全性監視シナリオに固有の曖昧さを認識して、検知されたリスクをより細かく評価する新しい言語化された信頼性機能が導入されています。
Granite Guardian 3.2モデルでは、リスクの入力と出力を監視するプロセスで、単に「はい」または「いいえ」の2つの値を出力するだけでなく、相対的な確実性のレベルも表示します。潜在的なリスクが検知されると、Guardian 3.2モデルは、下記の例のように、信頼度を「High」または「Low」で示します。
Graniteガーディアン3.2が、2つの新しいモデル・サイズを提供:
Granite Guardian 3.2 5Bは、Guardian Guardian 3.1 8B(安全性分類の基本言語モデルをファイン・チューニングして作成)から派生して開発されました。ニューラル・ネットワークの深い層は冗長であったり、事前トレーニングによって十分に活用されていなかったり、ネットワークの浅い層よりも単に重要性が低い場合が多いことを示す研究が発端となり、IBMは、8Bモデルを「浅くする」反復的なプルーニング戦略を追求しました。このプロセスにより、基準となったモデルの性能をほぼ維持しながら、8Bのパラメーターを約30%削減することに成功しました。
Granite Guardian 3.2 3B-A800Mは、推論時に合計3Bのパラメーター数のうち800MのみをアクティブにするMixture of Experts(MoE)ベース・モデルをファイン・チューニングして作成されました。これにより、Granite Guardianのラインナップに特に効率的でコスト効率の高いオプションが追加されました。
IBMの人気のオープンソース・ファミリーであるコンパクトなGranite Time Seriesモデル(Tiny Time Mixers:TTM)は、Hugging Faceで800万回以上ダウンロードされています。TTM-R1およびTTM-R2シリーズ内でリリースされた以前のTTMバリアントは、分単位から時間単位の解像度でゼロショットおよびフューショットの予測をサポートしていましたが、Granite Time Series製品の最新版であるTTM-R2.1は、日単位および週単位で予測できるようになっています。
TTM-R2およびTTM-R2.1のトレーニングに使用されたすべてのデータ・ソースの明細リストは、TTM-R2/R2.1 Hugging Faceモデル・カードの下部でご確認できます。バリエーションの完全なリストは、「ファイルとバージョン」タブをご覧ください。
Tiny Time Mixersを使い始めるためのレシピは、Granite Time Series Cookbookに多数掲載されています。
Salesforce社のGIFT-Eval Time Series Forecasting Leaderboardは、7つのドメイン、10の頻度、短期予測から長期予測までの予測期間など、24のデータセットで多変量入力機能に対する時系列モデルの性能を評価する包括的なベンチマークによると、TTM-R2モデル(新しいTTM-R2.1バリアントを含む)は、平均絶対スケール誤差(MASE)で測定されたポイント予測精度において、すべてのモデルを上回っています。3TTM-R2は、連続ランク付け確率スコア(CRPS)で測定された確率予測でも上位5位にランクされています。
TTMモデルが、その何倍ものサイズを誇るモデルを上回る性能を発揮して上位にランクインしていることは注目に値します。100万から500万個という「小さな」パラメーター数では、TTMモデルは、MASE、GoogleのTimesFM-2.0(5億個のパラメーター)およびAmazonのChronos-Bolt-Base(2.05億個のパラメーター数)という規模の2位、3位モデルよりも数百倍も規模が小さくなっています。
リリースされたTTM-R2.1には、さまざまなコンテキストの長さと予測期間が可能なさまざまなモデルが含まれています。以前のTTM-R2モデルではコンテキスト長が1536、1024、または512でしたが、TTM-R2.1には512から52までのより短いコンテキスト長のモデルが含まれており、日単位および週単位での予測に適しています。
TTM-R2.1モデルは、必ずしもTTM-R2の前身モデルに取って代われるわけではありません。どのTTMバージョンが「最適な」となるかは、データとユースケースの性質によって異なります。例:
get_modelモジュールを使用すると、さまざまな利用可能なモデルの中から適切なモデル・バリアントを選択するタスクが簡素化されます。
「
有効にすると、データの頻度を示す追加の埋め込みベクトルが、コンテキスト・ウィンドウの情報とともに、モデルの入力に「プレフィックス」として追加されます。TTM技術論文に詳述されているように、モデル・チームは、多様な解像度の大規模なデータ・セットのコレクションで事前トレーニングを行う場合、周波数を調整することにより性能が向上することを発見しました。推論中、このプレフィックス・トークンにより、モデルは入力データの頻度に素早く適応できます。これは、コンテキストの長さが極めて短い場合に特に役立ちます。
これまでのすべてのGranite Embeddingモデル(さらには、現代のディープラーニング時代のほぼすべての埋め込みモデル)は密な埋め込みを学習しますが、最新のGranite Embeddingモデル(Granite-Embedding-Sparse-30M-English)は、疎埋め込みを学習できるようにわずかに変更されたアーキテクチャーとなっています。
Granite-Embedding-30M-Sparseは、英語での完全一致、キーワード検索、ランキングに最適化されており、多様なリソースとレイテンシー・バジェットにわたって効率性と拡張性のバランスをとります。これは、開発サイクルを加速するためにオープンソースのアイデアを評価するIBM Researchのテスト環境、Granite Experimentsを通じてリリースされます。
一般的な高密度埋め込みモデルは、テキスト入力(ドキュメント、文、クエリーなど)を受け取り、固定サイズのベクトル埋め込みを出力します。そのベクトルのサイズ、つまりそこに含まれる数値(または次元)の数は、設計上の選択です。より小さな埋め込みを学習するモデルは高速ですが、精度は低くなります。逆に、より大きな埋め込みを学習するモデルは遅くなりますが、より正確になります。各次元に特定の値が格納されるため、「密」ベクトル埋め込みと呼ばれます。
密なベクトル埋め込みの個々の次元は、元の入力の意味の属性に文字どおり直接対応するわけではありません。密なベクトル埋め込みは本質的にブラックボックスです。モデルはこれを使用して有用な操作を実行できますが、人間はこれを意味のある方法で解釈することはできません。
疎埋め込みは、より直感的です。埋め込みサイズは、語彙サイズと同じです。つまり、ベクトル埋め込みの各次元は、モデルが学習した「単語」の1つ、より正確には、トークンの1つに対応します。疎埋め込みベクトルの各次元に含まれる特定の値は、モデルが埋め込みを生成する入力に対するその次元が表す単語(トークン)の関連性を反映します。したがって、疎埋め込みは非常に解釈可能です。
ツイート、コメント、簡単な製品レビューなどの短いテキスト文章の場合、疎埋め込みは大幅に高速化でき、同時に密な埋め込みよりも優れた(または少なくとも同等の)性能を提供します。通常、ファイン・チューニングを必要とせずに、すぐに強力な性能を発揮します。
そうは言っても、欠点がないわけではありません。ファイン・チューニングによって疎埋め込みモデルの性能を元のベースラインを超えて向上させる機会は限られています。より長いテキスト文の場合、モデルの語彙から増加するトークンの関連性を反映するために、より多くの次元が使用されるため、効率性の利点は薄れ始め、場合によっては逆転することもあります。
3000万のGraniteの疎埋め込みモデルは、情報検索ベンチマーク(BEIR)全体で、3000万の密埋め込みモデルとほぼ同等の性能を達成しながら、SPLADE-v3よりわずかに優れています。
すべてのGranite 3.2モデルは、Hugging Faceの寛容なApache 2.0ライセンス下で利用できます。一部のモデルはIBM watsonx.aiや、LM Studio、Ollama、Replicate(アルファベット順)などの他のプラットフォーム・パートナーからも入手できます。今後、この記事はGranite 3.2モデルを入手できるプラットフォームが増えていくにつれ、随時更新する予定です。
Graniteモデルを操作するためのガイドとレシピは、GitHubのGraniteドキュメントとGranite Snack Cookbookで多数公開されています。開発者は、Graniteのモデル・テスト環境でGraniteモデルを使い始めることもできます。また、次のような各種デモやチュートリアルをチェックすることもできます。
1. 「Large Language Models Are Zero-Shot Reasoners," arXiv, 24 May 2022
2. "DocPedia: unleashing the power of large multimodal model in the frequency domain for versatile document understanding,」、arXiv社、2023年11月20日
3. この記事の公開日現在
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。