IBMニュースレター
The DX Leaders
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
小規模言語モデル(SLM)は、自然言語コンテンツを処理、理解、生成できる人工知能(AI)モデルです。その名前が示すように、SLMは大規模言語モデル(LLM)よりも規模と範囲が小さなものです。
サイズとしては、SLMのパラメーターは数百万から数十億の範囲であり、LLMが数千億、場合によっては数兆ものパラメーターを持つのとは対照的です。パラメーターとは、モデルがトレーニング中に学習する重みづけやバイアスなどの内部変数です。こうしたパラメーターは、機械学習モデルの動作とパフォーマンスに影響します。
小規模言語モデルは大規模言語モデルよりもコンパクトで効率的です。SLMは必要なメモリーと計算能力が少ないため、エッジ・デバイスやモバイル・アプリケーションなどリソースが限られている環境や、AI推論(モデルがユーザーのクエリーに対する応答を生成する)をデータネットワークなしで、オフラインで実行しなければならない場合などに最適です。
IBMニュースレター
AI活用のグローバル・トレンドや日本の市場動向を踏まえたDX、生成AIの最新情報を毎月お届けします。登録の際はIBMプライバシー・ステートメントをご覧ください。
ニュースレターは日本語で配信されます。すべてのニュースレターに登録解除リンクがあります。サブスクリプションの管理や解除はこちらから。詳しくはIBMプライバシー・ステートメントをご覧ください。
LLMがSLMのベースとして機能します。大規模言語モデルと同様、小規模言語モデルにも、Transformerモデルとして知られるニューラル・ネットワークベースのアーキテクチャーが採用されています。Transformerは自然言語処理(NLP)の屋台骨であり、生成事前学習済みトランスフォーマー(GPT)などのモデルの構成要素として機能します。
Transformerアーキテクチャーの概要は次のとおりです。
モデル圧縮技術は、大きなモデルからよりスリムなモデルを構築するために使用されます。モデルを圧縮する際、精度を可能な限り保ちつつサイズを小さくする必要があります。一般的なモデル圧縮手法には次のものがあります。
プルーニングでは、重要性が低いパラメーター、冗長なパラメーター、不要なパラメーターをニューラル・ネットワークから削除します。通常、プルーニングされるパラメーターには、ニューロン間の接続(この場合重みは0に設定されます)、ニューロン自体、またはニューラル・ネットワークの層に対応する数値的重みが含まれます。
多くの場合、プルーニングされたモデルは、精度の低下を補うために、プルーニング後のファイン・チューニングが必要になります。また、過剰なプルーニングはモデルの性能を低下させるおそれがあるため、十分なパラメーターがプルーニングされたタイミングを把握することが非常に重要です
量子化では高精細データを粒度の粗いデータに変換します。例えば、モデルの重みと活性化値(ニューラル・ネットワーク内のニューロンに割り当てられる0~1の間の数値)は、32ビット浮動小数点ではなく8ビット整数で表すことができます。量子化によって計算負荷を軽減し、推論を高速化することができます。
量子化は、モデルトレーニングに組み込むこともでき(量子化対応トレーニング、QAT)、トレーニング後に行うこともできます(トレーニング後量子化、PTQ)。PTQはQATほど多くの計算能力とトレーニングデータを必要としませんが、QATの方がより正確なモデルを作成できます。
低ランクの因数分解では、大きな重みの行列を、小さな低ランクの行列に分解します。コンパクトな近似を取ることで、パラメーターが減り、計算回数が減り、複雑な行列オペレーションをシンプルにすることができます。
ただし低ランク因数分解は計算量が多く、実装が比較的難しくなります。プルーニング同様、因数分解したネットワークには、精度の損失を回復するためのファイン・チューニングが必要です。
知識蒸留では、事前にトレーニングされた「教師モデル」の学習内容を「生徒モデル」に転送します。生徒モデルは、教師モデルの予測に一致するだけでなく、その根底にある推論プロセスも模倣するようにトレーニングされます。したがって、大きなモデルの知識は基本的に小さなモデルの知識に「蒸留」されます。
知識蒸留は多くのSLMで一般的なアプローチです。通常はオフラインの蒸留方式が使用されます。この方法では、教師モデルでの重み付けは凍結され、蒸留プロセスの間に変更することはできません。
大規模なモデルは依然として多くの企業で利用されているテクノロジーですが、小規模モデルも急速に普及しつつあります。ポピュラーなSLMの例は次のとおりです。
DistilBERTは、Googleの先駆的なBERT基盤モデルの軽量バージョンです。知識蒸留により、BERTの自然言語理解機能の97%を維持しつつ、先行バージョンと比較して40%縮小、60%高速化しています。1
BERTのその他のスケールダウン・バージョンには、440万パラメーターの最小版、1130万のミニ版、2910万の小規模版、4170万の中規模版があります2。一方、MobileBERTはモバイル・デバイス向けに最適化されています3。
GemmaはGoogle社のGeminiLLMと同じテクノロジーから作成・蒸留されており、20億、70億、90億の規模のパラメーターで利用できます4。Gemmaは、Google AI Studio、KaggleおよびHugging Faceプラットフォームを通じて利用できます。
Geminiには、Gemini 1.5 Flash-8Bや、モバイル・デバイスで動作するように設計されたGemini 1.0 Nanoなど、さらに軽量なバリエーションもあります5。
GPT-4o miniは、生成AIチャットボットのChatGPTを支えるOpenAIのAIモデルのGPT-4ファミリーの一部です。GPT-4o miniは、GPT-4oの小規模でコスト効率の高いバリエーションです。マルチモーダル機能を備えており、テキストと画像の両方の入力を受け入れ、テキスト出力を生成します。
ChatGPT Free、Plus、Team、およびEnterpriseのユーザーは、GPT-3.5に代わってGPT-4o miniにアクセスできます。開発者はさまざまなアプリケーション・プログラミング・インターフェース(API)を通じてGPT-4o miniにアクセスできます。
Graniteは、 IBM®のLLM基盤モデルの主力シリーズです。Granite 3.0コレクションには、20億および80億のパラメーターを備えた事前トレーニング済み・インストラクション・チューニング済みの基本モデルが含まれます。Granite 3.0には、レイテンシーを最小限に抑えるためのmixture of experts(MoE)SLMと、モデルの推論速度を加速させるよう最適化されたバリエーションも含まれています。
これらのオープンソース・モデルは、言語固有のタスクだけでなく、サイバーセキュリティー、ツールや関数のコールによって自律的にタスクを実行するAIエージェント、外部の知識ベースを活用してモデルに最も正確な最新の情報を与える検索拡張生成(RAG)タスクなどのエンタープライズ用途にも優れています。
Granite 3.0モデルは、IBM watsonxプラットフォーム、およびGoogleVertex AI、Hugging Face、NVIDIA(NIMマイクロサービス)、Ollama、Replicateを通じて商用利用が可能です。
Llamaは、Metaのオープンソース言語モデルのシリーズです。Llama 3.2には10億および30億のパラメーター・サイズがあり6、先行するLlama 2の70億パラメーター・バージョンよりもさらに小さいものです。7
量子化された多言語テキストのみのモデルはサイズが半分以下にまで縮小されており、2~3倍に高速化されています。6これらのSLMは、Meta、Hugging Face、Kaggleを通じてアクセスできます。
Les Ministrauxは、Mistral AIの SLM グループです。Ministral 3Bは30億パラメーターの最小モデルで、一方80億パラメーターのMinistral 8Bは、Mistral AIがリリースした最初のAIモデルの1つであるMistral 7Bの後継モデルです。どちらのモデルもMistralからアクセスできます。8
Ministral 8Bは、知識、一般常識、数学、多言語スキルを評価するベンチマークでMistral 7Bを上回ります。迅速な推論のために、Ministral 8Bはスライド・ウィンドウによる注意メカニズムを使用します。これは、入力シーケンスのうちサイズの固定された特定の「ウィンドウ」に焦点を合わせる動的なメカニズムで、モデルが一度に少数の単語にのみ集中できるようにします8。
Phiは、Microsoftの小規模な言語モデルのスイートです。Phi-2には27億のパラメーターがあり、Phi-3-miniには38億のパラメーターがあります。9
Phi-3-miniは、コンテキスト・ウィンドウ(モデルが考慮できるテキストの最大量)が長いため、大規模なテキスト・コンテンツを扱った分析・推論が可能です。Microsoftによると、70億パラメーターのSLMであるPhi-3-Smallが将来的に利用可能になる予定です。Phi-3-miniは、Microsoft Azure AI Studio、Hugging Face、Ollamaからアクセスできます。9
AI開発の進歩により、LLMとSLMのパワーを組み合わせて最大化する最適化アプローチが生まれています。
ハイブリッドAIパターン:ハイブリッドAIモデルでは、プロンプトに応答するために大規模なデータ・コーパスが必要な場合、オンプレミスで動作する小規模なモデルを用意した上でパブリック・クラウド上のLLMを利用することができます。
インテリジェント・ルーティング:インテリジェント・ルーティングを適用することで、AIワークロードをより効率的に分散できます。クエリーを受け入れ、それを評価し、クエリーを送信する最適なモデルを選択するためにルーティング・モジュールを作成できます。小規模言語モデルが基本的なリクエストを処理し、大規模言語モデルはより複雑なリクエストに取り組むことができます。
大きいことが必ずしもよいとは限らず、SLMはサイズの小ささを以下のメリットで補っています。
アクセシビリティー:研究者、AI開発者、その他の個人は、複数のGPU(グラフィック・プロセッシング・ユニット)やその他特殊な設備に投資する必要なしに、言語モデルの利用や実験ができます。
効率:無駄のないSLMはリソースの消費を抑え、迅速なトレーニングとデプロイメントが可能になります。
効果的なパフォーマンス:この効率性にはパフォーマンスが犠牲になることはありません。小規模モデルは、同じシリーズの大規模モデルと同等か、それ以上の性能を発揮できます。例えばGPT-4o miniは、言語理解、質問応答、推論、数学的推論、コード生成のLLMベンチマークで GPT-3.5 Turboを上回っています10。GPT-4o miniの性能はより大規模な兄弟分であるGPT-4oにも近いものです。10
プライバシーとセキュリティーの管理を強化:SLMはサイズが小さいため、プライベートなクラウド・コンピューティング環境またはオンプレミスにデプロイでき、データ保護を強化し、サイバーセキュリティーの脅威をより適切に管理・軽減できます。これはプライバシーとセキュリティーの両方が非常に重要になる金融や医療などの分野で特に価値があります。
レイテンシーの低減:パラメーターを減らして処理時間を短縮していることから、SLMは迅速な応答が可能です。例えば、Granite 3.0 1B-A400MとGranite 3.0 3B-A800Mの総パラメーター数はそれぞれ10億と30億ですが、推論時のアクティブなパラメーター数は、1Bモデルでは4億、3Bモデルでは8億です。これにより、いずれのSLMも高い推論性能を実現しつつレイテンシーを最小限に抑えることができます。
より環境に優しくサステナブル:必要なコンピューティング・リソースが少ないために、小規模言語モデルは消費電力が少なく、その分カーボン・フットプリントを減らすことができます。
コストの削減:組織は、大規模モデルの実行に必要な大量の高品質のトレーニング・データの取得や高度なハードウェアの利用など、開発、インフラストラクチャー、運用にかかる費用を節約できます。
LLMと同様、SLMでもやはりAIのリスクに対応する必要があります。これは、小規模言語モデルの社内ワークフローへの統合や、特定のアプリケーション向けの商用導入を検討している企業が考慮すべき事項です。
バイアス:小規模なモデルは、大規模なモデルに存在するバイアスから学習する可能性があり、この波及効果が出力結果に表れるおそれがあります。
複雑なタスクでのパフォーマンスの低下:SLMは通常、特定のタスクに合わせてファイン・チューニングされるため、包括的なトピックにわたる知識を必要とする複雑なタスクは不得手な傾向にあります。例えば、Microsoft社は、同社の「Phi-3モデルは、モデル・サイズが小さいと事実を保持する能力が低下するため、ベンチマークではそれほどパフォーマンスが得られない」と指摘しています。9
限定的な汎用性:小規模言語モデルには、広範な同等の言語モデルほどの幅広い知識ベースがないため、対象を絞った言語タスクに適している可能性があります。
コンテンツ要約:例えば、Llama 3.2 1Bおよび3Bモデルを使用して、スマートフォンでの会話内容を要約し、カレンダー内のイベントなどアクション・アイテムを作成できます6。同様に、Gemini Nanoは音声録音や会話のトランスクリプトを要約することができます11。
生成AI: テキストとソフトウェアコードを完成させて生成するために、コンパクトなモデルを実装できます。たとえば、 granite-3b-code-instructモデルとGranite-8b-code-instructモデルを使用すると、自然言語プロンプトからコードを生成、説明、翻訳することができます。
言語翻訳:小型言語モデルの多くは多言語対応で、英語以外の言語でトレーニングされているため、言語間の翻訳を素早く行うことができます。文脈を理解する能力があるため、元の文のニュアンスや意味を保持したまま、ほぼ正確な翻訳を作ることができます。
予知保全 :無駄のないコンパクトなモデルは、センサーやモノのインターネット(IoT)デバイスなどのローカル・ エッジ・デバイスに直接導入できるほど小さいものです。メーカーは機械や装置に設置されたセンサーからデータを収集し、そのデータをリアルタイムで分析して保守の必要性を予測するツールとしてSLMを利用できます。
感情分析:SLMは言語の処理と理解に加えて、客観的な方法で膨大な量のテキストを整理・分類することにも長けています。そのため、テキストを分析し、その背後にある感情を測定するのに適しており、顧客のフィードバックを理解するのに役立ちます。
車両ナビゲーション支援:SLMのように高速でコンパクトなモデルは、車載コンピューター上でも実行できます。小規模言語モデルはマルチモーダル機能を備えているため、例えば音声コマンドと画像分類を組み合わせて、車両周囲の障害物を識別できます。また、RAG機能を活用して、高速道路や一般道路の利用法規から詳細を取得して、ドライバーがより安全で情報に基づいた運転の判断を下せるように支援します。
watsonxプラットフォームにある基盤モデルのIBMライブラリーを探索し、ビジネスに合わせて自信を持って生成AIを拡張します。
業界をリードするIBMのAI専門知識とソリューション製品群を使用すれば、ビジネスにAIを活用できます。
AIの導入で重要なワークフローと業務を再構築し、エクスペリエンス、リアルタイムの意思決定とビジネス価値を最大化します。
すべてのリンク先は、ibm.comの外部にあります。
1 「DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter」arXiv、2020年3月1日
2 「Well-Read Students Learn Better: On the Importance of Pre-training Compact Models」arXiv、2019年9月25日
3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices,」arXiv、2020年4月14日
4 「Gemma explained: An overview of Gemma model family architectures」Google for Developers、2024年8月15日
5 「Gemini Models」Google DeepMind、アクセス日:2024年10月17日
6 「Introducing Llama 3.2」Meta、アクセス日:2024年10月17日
7 「Meta and Microsoft Introduce the Next Generation of Llama」Meta、2023年7月18日
8 「Un Ministral, des Ministraux」Mistral AI、2024年10月16日
9 「Introducing Phi-3: Redefining what’s possible with SLMs」Microsoft、2024年4月23日
10 「GPT-4o mini: advancing cost-efficient intelligence」OpenAI、2024年7月18日
11 「Gemini Nano」Google DeepMind、アクセス日:2024年10月21日