概要:
本日の発表は、IBM Graniteのマルチモーダル・フットプリントのさらなる拡大を意味します。IBM初の公式Speech to TextモデルであるGranite Speech 8Bを搭載したGranite 3.3は、当社の機能への探求の始まりです。IBMは、最近追加されたビジョン機能と推論機能に加えて、お客様やオープンソース・コミュニティが最も必要とするエンタープライズ・ユース・ケース全体で、Graniteシリーズの汎用性を高め続けています。
Granite Speech 3.3 8Bに続くGranite 3.3 8B Instructは、その基盤となる大規模言語モデル(LLM)であり、その小規模(2B)バージョンです。テキストモデルの推論プロセスが以前のモデルよりも高度化され、中間記入 (FIM) 機能が追加されたことで、特にコーディングにおいて、適用可能なユースケースの幅が広がります。
また、以前リリースされた Granite 3.2 8B Instruct モデルに対して、性能を強化する新たなLoRAアダプターのアップデート版(主にRAGに特化)もリリースします。これらは、オープンソースのアイデアを試すためのIBM Researchの実験プラットフォーム、Granite Experimentsからご利用いただけます。さらに、Granite 3.3 Instruct向けのアダプター・スイートを含む、追加のLoRAイノベーションも数週間以内に公開予定です。
Granite Speech 3.3 8B は、音声入力(およびテキスト入力)に対応し、テキスト出力を行うコンパクトかつコスト効率の高い STT(音声認識)モデルです。このモデルは、エンタープライズ・アプリケーションで音声入力を処理するために設計されており、自動音声認識(ASR)と自動音声翻訳(AST)に最適化されています。
文字起こしタスクにおいては、Granite Speech 3.3は複数の主要な公開データセットを用いたテストで、主要なオープンソースおよびクローズドソースの競合モデルを上回る精度を実現しています。
このモデルは、英語からフランス語、スペイン語、イタリア語、ドイツ語、ポルトガル語、日本語、標準中国語など、幅広い言語への自動音声翻訳(AST)にも対応しています。IBMによるAST性能の検証では、Granite Speech 3.3 8Bは、CoVostデータセット上でのGranite対応言語において、OpenAIのGPT-4oやGoogleのGemini 2.0 Flashといった主要なプロプライエタリモデルと同等のパフォーマンスを発揮しました。翻訳性能の詳細については、モデルのHugging Faceモデル・カードを参照してください。
アーキテクチャー的には、Granite Speech 3.3は以下の構成要素から成り立っています。
音声とテキストを1つのパスで統合する直接統合モデルとは対照的に、Granite Speech 3.3は2パス設計を採用しています。たとえば、モデルに音声ファイルについて質問するには、音声を文字起こしする最初の呼び出しと、その文字起こしされたテキストについてモデルにクエリーを実行する2回目のプロンプトが必要です。プロンプトに「
この2パス・アプローチにより、テキスト・クエリーに対するGranite Speech 3.3 8Bの性能が、基盤となるLLM(Granite 3.3 8B Instruct)の性能を反映できるようになり、多くのマルチモーダル・モデルにありがちなテキストベースの性能の低下を回避できます。テキストと音声モデルの両方を適切に提供するように構成された推論プラットフォームへのアクセスが提供されるため、開発者は基本的に、Granite Speech 3.3 8Bを、追加のオーディオ入力機能を備えたGranite 3.3 8B Instructのバージョンとして理解できます。
従来のWhisperベースのASRモデルとは異なり、Granite Speech 3.3は任意の長さのインプットを受け入れることができます。テストでは、このモデルは30秒のウィンドウに固定されているため、H100 80GB GPU上で20分の音声ファイルを快適に処理できました。 Whisperベースのモデルでは、その最大値を超えるオーディオ・ファイルは30秒のチャンクに分割する必要があり、30秒のカットが課された瞬間の近くで不正確さが生じることがよくあります。原則として、人工的なカットが少ないほど、不正確の度合いは低くなります。
Granite Speech 3.3はかなり長い音声を取り込むことができますが、このモデルはまだ長い音声データに対する微調整がされていないことに注意してください。一貫した精度を維持するために、音声インプットの個別単位については最大1分にすることを提案します。
Granite Speech 3.3は、Graniteシリーズにおける音声処理機能の探求の第一歩にすぎません。今後のリリース(特にGranite 4)に向けて、Granite Speechの強化に関する研究が進行中です。その主な取り組みは以下のとおりです。
最新版のテキスト専用インストラクション・チューニング・モデルであるGranite 3.3 8B InstructおよびGranite 3.3 2B Instructは、FIM(Fill-in-the-Middle)機能を新たに搭載し、Granite 3.2で導入された推論能力のさらなる洗練を続けています。
また、Granite 3.3 8B BaseおよびGranite 3.3 2B Baseのベースモデル版もリリースしました。これらは、Granite 3.1の前モデルを上回り、開発者が独自のファインチューニングに活用できるFIM機能を備えたモデルにアクセスを提供します。
自己回帰型のLLM(通常、テキスト生成に使われるLLM)は、本質的に左から右へと順方向に処理を進めるよう設計されています。これらのモデルは、前のトークンに基づいて次のトークンを予測するという自己教師あり学習によって訓練され、シーケンスが完了と見なされるまでこの予測を繰り返します。この設計により、多様な生成タスクに優れた性能を発揮する一方で、前後のトークンの両方に基づいて正しいトークンを予測するといった別種のタスクには本質的に向いていません。つまり、従来の自己回帰型LLMでは「文中の空所を埋める(Fill-in-the-Middle)」ことができないのです。
自己回帰モデルをインフィリングに適応させるには、トレーニング・タスクを再設計して、本質的な左から右への予測能力を使用して、LLMに中央のトークンを予測させるように「仕向ける」必要があります。これには、通常、サンプル・パッセージをプレフィックス(前のトークン)、サフィックス(後に続くトークン)、およびミドル(記入することで予測されるトークン)に分割し、モデルがプレフィックスとサフィックスを与えられた上で、ミドルのトークンを予測するように配置し直す必要があります。Granite 3.3は、プレフィックスとサフィックスの両方を条件としてコンテンツを生成できるように、特殊なトークンを利用します。
FIMには幅広いユースケースがありますが、コード修正やエラー特定、リファクタリング、ボイラープレート・コードの迅速な生成、関数引数やドキュメンテーション文字列(docstring)の挿入など、特にコーディング・タスクにおいて有効です。
Granite 3.2では、 Thought Preference Optimization(TPO)を通じてInstructモデルの推論能力を強化し、一般的な性能を犠牲にすることなく複雑な指示に従う能力を向上させることに注力しました。Granite 3.3 Instruct では、これらの利点を維持しながら、複雑な数学的推論に対するモデルの性能を充実させることに重点を置いていました。
Granite 3.3の最新ベースモデル上に構築され、TPOおよびGroup Relative Policy Optimization(GRPO)を使用した多段階の強化学習を通じて微調整されたGranite 3.3 Instructモデルは、従来「推論能力」と関連付けられていた高度な技術的ベンチマークにおいて、顕著な改善を示しました。
Granite 3.3 8BはMATH500ベンチマークでのパフォーマンスにおいて、AnthropicのClaude 3.5 Haiku(64.2%)やMetaのLlama 3.1 8B Instruct(44.4%)を大きく上回り、24B-parameter Mistral Small 3(70.6%)とほぼ同等、またClaude 3.5 Sonnet(72.4%)やOpenAIのGPT-4o Mini(72.6%)に僅かに遅れを取る結果となりました。1
Granite 3.2 Instructモデルと同様に、「思考」のオンとオフを簡単に切り替えることができるため、開発者は必要なときには強化されたCoT(Chain of Thought)推論を優先し、不要なときにはコスト効率と低遅延を優先することができます。
また、既存のGraniteベースのアプリケーションを強化し、次世代のパフォーマンス向上に向けたLoRAアダプターの開発に役立てるため、IBMは、Granite 3.2 8B Instruct用に主にRAG向けに特化されたLoRAアダプターを5種類、Granite Experimentsを通じてリリースします。Granite Experimentsは、オープンソースアイデアをテストするためのIBM Researchの実験的プラットフォームです。これらのLoRAアダプターは、モデルの内在的な知識を活用し、特定のタスク(たとえば、検索クエリーの書き換えやハルシネーションの検出など)を実行できるようにします。
IBM Researchは、これらの「従来型」LoRAアダプターを、新しい低ランク適応手法である「アクティベートLoRA(aLoRA)」を使用した対応モデルとともに開発しました。標準のLoRAアダプターを切り替えると、モデルは新しいアダプターを使って進行中の会話のコンテキストを再計算しなければならないため、パフォーマンスが低下することがあります。しかし、aLoRAは標準のLoRAとは異なり、既存のキー・バリュー(KV)キャッシュを再利用するため、再計算(または「プリフィル」)の必要がありません。これにより、aLoRAは標準のLoRAと同等の生成品質を維持しながら、実行時間と計算リソースの大幅な節約を実現します。aLoRAを実行するためのソースコードはこちらから入手可能です。
RAGハルシネーション検出
RAGを使用した場合でも、LLMはハルシネーション(幻覚)を起こすことがあります。RAGハルシネーション検知LoRAを搭載すると、モデルは出力が取得したドキュメント内の情報とどれだけ一致しているかを反映する「忠実度スコア」を0~1の範囲(0.1刻み)で提供します。低い忠実度スコアは、より高いハルシネーション・リスクを示します。もし質問に対して利用可能な情報源から回答できない場合、モデルは「回答不可」と出力します。
RAG Query Rewrite
検索エンジンは、前の会話のコンテキスト(会話の前提)がなければ実行可能でないクエリーよりも、すべての関連情報を含むスタンドアロン・クエリーに対して、はるかに優れた結果を返します。Query Rewrite LoRAが搭載されているため、モデルは非スタンドアロンのユーザー・クエリーを完全に自己完結型のクエリーに自動的に書き換えます。たとえば、次の書き換えを見てみましょう。
ユーザー:「Apple社のCEOは誰ですか?」 モデル:「Tim Cook氏はApple Inc.の最高経営責任者です」 ユーザー:「Microsoft社はどうでしょう?」
このモデルは、ユーザーの最初のクエリーをそのまま伝えますが、2番目のクエリーを「Microsoft社のCEOは誰ですか?」と書き換えます。テストでは、この書き換えにより、モデル応答の関連性が最大21パーセントポイントも向上しました。
クエリの書き換えはRAGを念頭に置いて設計されていますが、RAGドキュメントは必要ありません。これは、ツール呼び出しなど、他のユースケースのユーザークエリを再作成するためにも使用できます。
RAG Citation Generation
RAG Citation Generation LoRAが搭載されていると、モデルはその出力の各文に対して引用を生成します(その文が外部の情報源に基づいている場合)。各文単位の引用は、参照された情報源を記録するだけでなく、モデルの出力文をサポートする該当情報源からの一連の文も含みます。
RAG Answerability Prediction
RAG Answerability Prediction LoRAが装備されていると、モデルは接続されたドキュメントに基づいてユーザーのクエリーが回答可能かどうかを判断します。このバイナリ分類(「回答可能」または「回答不可」)は、回答不可能な質問を除外(ハルシネーションを削減)したり、モデルに別の方法でリトリーバーへの再クエリーを促したりするために使用できます。
Uncertainty Prediction
各アウトプットについて、MIT-IBM Watson AI LabのAIモデルキャリブレーション研究から生まれたUncertainty LoRAにより、AIモデルは0〜9の範囲の量子化された「確実性スコア」(それぞれ5%〜95%の確実性を表す)を生成できます。このスコアは基本的に、モデルの応答がトレーニング・データに含まれる情報によってどの程度サポートされているかを反映しています。
従来のRAGでは、単一の推論(特定のコンテキストに基づいた単純なプロンプト)が単一のモデルアウトプットを生成するのに対し、当社では最終的なモデル応答に至るまで、複数の推論にわたり複数のLoRaアダプターを活用するワークフローでこれらのLoRaを使用することを提案します。
たとえば、最初にQuery Rewriteを実装すると、(必要なときに)最初のプロンプトをすばやく書き換えて、リトリーバーの精度を最適化できます。書き換えたプロンプトを使用してモデルの検索拡張応答を生成したら、RAGハルシネーション検知を実装して、取得した文書内の情報に適切なレベルの忠実度があるかどうかを確認できます。忠実度スコアが許容可能な閾値を下回った場合、ワークフローでモデルに忠実度スコアがその閾値を超えるまで応答をリサンプリングするように指示できます。ハルシネーションが検知されなくなったら、RAG引用を使って最終的な応答をユーザーに提供できます。
これは本質的に、RAGにおけるテスト時間のコンピューティングのスケーリングで、複数の推論を実行してモデルの最終出力を改善し、強化させることと似ています。オープンソース・コミュニティーがこれらの新しいLoRAアダプターをどのように実装・実験するかを楽しみにしています。 RAG LoRAとモデル・パフォーマンスへのその影響について詳しくは、付属のテクニカル・ペーパーを参照してください。
IBM Researchは、Graniteアーキテクチャーを大きく進化させた新世代のモデル、Granite 4.0のトレーニングを積極的に行っており、速度、コンテキストの長さ、容量の面での改善が期待されています。具体的な詳細は第2四半期の後半まで発表されませんが、クライアント、パートナー、開発者の皆様は、IBMが低コストで低レイテンシーで実行できる小規模で実用的なモデルへの取り組みを継続することを期待できます。
新しいGranite 3.3 Instructモデルは、エンタープライズAI開発のための統合されたエンドツーエンド・スタジオであるIBM watsonx.aiで稼働しています。Granite PlaygroundではGranite 3.3 Instruct 8Bを試し、オン/オフで「思考」の切り替えを簡単に試すことができます。
Granite Speech 3.3 8Bは、すべての新しいGraniteモデルとLoRAアダプターとともに、Hugging Faceでご確認いただけます。一部の Instructモデルは、LMStudio、Ollama、Replicate(アルファベット順)などのプラットフォーム・パートナーからも利用可能であり、近い将来さらに多くのモデルが提供される予定です。
Graniteモデルの操作に関する多くのガイドやマニュアルは、GraniteのドキュメントとGitHubにあるGranite Snack Cookbookで入手できます。開発者は、次のような便利なデモ、マニュアル、チュートリアルを幅広く検討して、Graniteモデルを試すことができます。
1"MATH 500 Benchmark," Vals AI, last updated 24 March 2025
AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、導入しましょう。わずかなデータとわずかな時間でAIアプリケーションを構築できます。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。